AI常见名词中英互译手册

核对日期：2026-05-15
定位：面向工程学习和方案评审的 AI 术语中英互译手册。它不是论文词典，也不替代官方文档；遇到 API、模型能力、合规要求等快速变化内容，应回到官方资料核对。

1. 使用说明

推荐写法：首次出现时使用“中文译名（English Term，缩写）”，例如“微调（Fine-tuning）”。
译名优先级：优先采用工程社区常用译法；存在多种译法时，在“别名”列补充。
缩写处理：LLM、RAG、RLHF、MCP 等高频缩写可以保留英文，但首次出现仍应解释全称。
边界判断：同一术语在研究论文、云服务、产品文档中的含义可能略有差异，本文以工程落地语境为主。
安全提醒：用户输入、外部文档、工具返回、模型输出都不能默认可信。

2. 快速主题索引

主题	重点术语
AI / ML / DL 基础	AI、ML、DL、模型、参数、训练、推理、泛化、过拟合、欠拟合
数据与特征	数据集、样本、标签、特征、特征工程、数据泄漏、数据漂移、合成数据
训练与优化	损失函数、梯度下降、反向传播、学习率、批大小、正则化、优化器
神经网络	神经元、层、激活函数、CNN、RNN、Transformer、Attention、Embedding
LLM 与生成式 AI	LLM、基础模型、生成式 AI、Token、上下文窗口、多模态、MoE
Prompt 与对齐	Prompt、System Prompt、Few-shot、CoT、SFT、RLHF、DPO、Alignment
微调与适配	Fine-tuning、PEFT、LoRA、Adapter、蒸馏、量化、剪枝
RAG 与知识系统	RAG、检索、向量数据库、Chunk、Embedding、Rerank、引用、GraphRAG
Agent 与工具	Agent、Agent Loop、Tool Calling、Function Calling、MCP、Memory、Planner
评测与质量	Benchmark、Evals、准确率、召回率、F1、幻觉、鲁棒性、A/B Test
安全与治理	Prompt Injection、Jailbreak、Data Exfiltration、Guardrails、Red Teaming
工程化与运维	MLOps、LLMOps、Serving、Latency、Throughput、Cost、Trace、Observability

3. 英文首字母索引

字母	术语
A	AI、AGI、Agent、Alignment、Annotation、Attention、Autoencoder
B	Backpropagation、Batch、Benchmark、BM25
C	Chain-of-Thought、Chunking、Classification、CNN、Context Window、Cost
D	Data Drift、Data Leakage、Dataset、Deep Learning、Diffusion Model、Distillation、DPO
E	Embedding、Epoch、Evaluation、Executor
F	Feature、Feature Engineering、Fine-tuning、Foundation Model、Function Calling
G	Generative AI、Gradient Descent、GraphRAG、Guardrails
H	Hallucination、Human-in-the-loop、Hyperparameter
I	Inference、Instruction Tuning、Intent Classification
J	Jailbreak
K	Knowledge Distillation
L	Label、Latency、Learning Rate、LLM、LoRA、Loss Function
M	Machine Learning、MCP、Memory、MLOps、MoE、Multimodal
N	Neural Network、Normalization
O	Optimizer、Overfitting
P	Parameter、PEFT、Planner、Prompt、Prompt Injection
Q	Quantization、Query Rewriting
R	RAG、Ranking、Recall、Red Teaming、Reflection、Regression、Rerank、RLHF、Robustness
S	Safety、Sample、Semantic Search、Serving、SFT、Span、Structured Output、Synthetic Data
T	Token、Tokenization、Tool Calling、Trace、Transformer、Throughput
U	Underfitting
V	Validation Set、Vector Database
W	Weight

4. 术语正文

4.1 AI / ML / DL 基础

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Artificial Intelligence	人工智能	AI	让机器执行感知、推理、生成、决策等智能任务的技术总称。	用作最大范围概念，覆盖规则系统、机器学习、深度学习和生成式 AI。	不等于大模型；传统搜索、规划、专家系统也可属于 AI。
Machine Learning	机器学习	ML	通过数据学习模式并对新输入做预测或决策的方法。	用于分类、回归、排序、推荐、风控等任务。	不等于深度学习；线性模型、树模型也是 ML。
Deep Learning	深度学习	DL	使用多层神经网络从数据中学习表示和函数映射。	用于视觉、语音、NLP、推荐和大模型训练。	“深”指多层表示，不代表天然更可靠。
Model	模型	-	从数据或规则中得到的可执行映射，用于预测、生成或决策。	可以是线性模型、树模型、神经网络或 LLM。	模型不是完整产品，还需要数据、评测、服务和治理。
Parameter	参数	-	模型训练得到并在推理时使用的内部数值。	LLM 参数规模常用于粗略描述容量。	参数多不必然效果好；数据、架构、训练方法同样关键。
Weight	权重	-	神经网络连接或层中的可学习参数。	训练会更新权重，推理读取权重。	权重不是业务配置，不能随意手改。
Hyperparameter	超参数	-	训练前或训练外配置的参数，如学习率、批大小、层数。	通过实验、搜索或经验设定。	超参数通常不由梯度直接学习得到。
Training	训练	-	用数据和目标函数更新模型参数的过程。	包括预训练、监督训练、微调、对齐训练等。	训练不是把知识库塞进模型的唯一方式。
Inference	推理	预测、生成	使用训练好的模型处理输入并产生输出。	在线服务中关注延迟、成本、吞吐和稳定性。	这里的推理不一定等于人类逻辑推理，也可指模型运行。
Prediction	预测	-	模型对输入给出类别、数值、排序或概率估计。	常见于风控、推荐、需求预测、分类器。	预测是输出形态，不代表结果一定可解释。
Generalization	泛化	-	模型在未见数据上保持效果的能力。	通过验证集、测试集和线上监控评估。	训练集高分不代表泛化好。
Overfitting	过拟合	-	模型记住训练数据细节，导致新数据效果差。	用正则化、更多数据、早停、交叉验证缓解。	训练误差低、线上效果差时常见。
Underfitting	欠拟合	-	模型能力不足或训练不充分，训练集和测试集都表现差。	需要更强模型、更好特征或更充分训练。	欠拟合不是靠加正则化解决。
Supervised Learning	监督学习	-	使用带标签数据学习输入到输出的映射。	分类、回归、序列标注常用。	标签质量决定上限，脏标签会污染模型。
Unsupervised Learning	无监督学习	-	从无标签数据中学习结构、分布或表示。	聚类、降维、表示学习常见。	不等于完全没有目标函数。
Self-supervised Learning	自监督学习	SSL	从数据自身构造训练信号。	LLM 预训练常用下一个 token 预测等任务。	不是没有监督，而是监督信号来自数据本身。
Reinforcement Learning	强化学习	RL	智能体通过与环境交互并根据奖励学习策略。	用于游戏、机器人、排序优化、对齐训练。	不等于所有带反馈的训练；奖励设计很关键。
Classification	分类	-	将输入分到离散类别。	意图识别、垃圾邮件识别、风险等级判断。	多标签分类和多分类不同。
Regression	回归	-	预测连续数值。	价格预测、需求预测、评分估计。	不是数据库回归测试中的 regression。
Clustering	聚类	-	将相似样本自动分组。	用户分群、文档聚类、异常发现。	聚类结果不天然有业务含义，需要解释和验证。
Ranking	排序	-	对候选项按相关性、质量或收益排序。	搜索、推荐、RAG 召回后排序。	排序好坏不能只看单条结果，要看整体指标。
Artificial General Intelligence	通用人工智能	AGI	通常指能跨广泛任务达到或超过人类水平的智能系统。	多用于战略、研究和风险讨论。	没有统一工程验收标准，避免在产品文档中滥用。

4.2 数据、特征与数据治理

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Dataset	数据集	-	用于训练、验证、测试或评测的一组样本。	应记录来源、许可、时间范围、清洗规则和版本。	数据集不是越大越好，质量和分布更关键。
Sample	样本	-	数据集中的单个训练或评测实例。	可能包含输入、标签、元数据、权重。	样本独立同分布只是理想假设。
Label	标签	标注	监督学习中作为目标输出的标记或答案。	由人工、规则、日志或模型生成。	模型生成标签要标明弱监督或伪标签风险。
Annotation	标注	数据标注	给样本添加标签、边界框、评分或解释的过程。	需要标注规范、一致性检查和抽检。	标注员一致不代表标签真实无误。
Feature	特征	-	模型输入中表达对象属性的变量或表示。	传统 ML 依赖显式特征，深度学习常自动学习表示。	特征不是业务字段原样堆进去。
Feature Engineering	特征工程	-	构造、选择、变换和验证特征的过程。	在风控、推荐、搜索中仍非常重要。	LLM 场景也有特征工程，如检索特征和提示特征。
Data Cleaning	数据清洗	-	修复、过滤、去重、标准化数据问题的过程。	训练前处理缺失、重复、脏文本、异常值。	清洗规则会改变分布，需要可追踪。
Data Preprocessing	数据预处理	-	模型训练或推理前的数据转换流程。	包括清洗、归一化、分词、编码、裁剪等。	训练和推理的预处理必须保持一致。
Data Augmentation	数据增强	-	通过变换或生成扩充训练样本。	图像旋转、文本改写、语音加噪、合成数据。	增强不能破坏标签语义。
Synthetic Data	合成数据	-	由规则、仿真或模型生成的数据。	用于冷启动、隐私保护、边界场景补充。	合成数据可能放大偏差，不能替代真实评测。
Data Leakage	数据泄漏	-	训练过程使用了本不应可见的信息。	如测试集信息进入训练、未来信息进入特征。	会造成离线高分、线上失效。
Data Drift	数据漂移	-	线上输入分布随时间偏离训练数据。	通过监控特征分布、召回质量、错误类型发现。	漂移不一定立刻导致指标下降，但需要告警。
Class Imbalance	类别不平衡	-	不同标签类别样本数量差异很大。	欺诈检测、故障检测、医学诊断常见。	准确率会误导，应看召回率、精确率、PR 曲线。
Outlier	离群点	异常值	与大多数样本显著不同的数据点。	清洗、鲁棒训练、异常检测中需要处理。	离群点不一定要删除，可能代表关键场景。
Normalization	归一化	-	将数据缩放到统一范围或分布。	常用于数值特征和神经网络训练。	与标准化不完全相同，文档中应说明方法。
Train Set	训练集	-	用于拟合模型参数的数据。	不应包含验证集和测试集信息。	训练集表现不能作为最终质量证明。
Validation Set	验证集	Dev Set	用于调参、选择模型和早停的数据。	反复使用会逐渐变成“训练的一部分”。	不应拿验证集当最终上线依据。
Test Set	测试集	-	用于最终评估泛化能力的数据。	上线前做冻结评估。	测试集被多次调参后会失去独立性。
Ground Truth	真实标签	标准答案	评测中作为参考的目标答案或事实。	Evals、分类、抽取任务需要定义。	LLM 开放问答常没有唯一 ground truth。
Metadata	元数据	-	描述数据来源、时间、权限、版本等的信息。	RAG 权限过滤、引用追踪、审计都依赖元数据。	元数据错误会导致检索和权限错误。

4.3 训练、优化与模型压缩

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Loss Function	损失函数	Objective	衡量模型输出与目标差异的函数。	训练通过最小化损失更新参数。	损失低不必然业务指标好。
Gradient Descent	梯度下降	GD	沿损失下降方向迭代更新参数的方法。	是许多优化器的基础思想。	实际训练常用 SGD、Adam 等变体。
Backpropagation	反向传播	BP	通过链式法则计算神经网络参数梯度。	深度学习训练的核心算法。	反向传播不是模型的推理过程。
Optimizer	优化器	-	根据梯度和状态更新参数的算法。	SGD、Adam、AdamW 是常见优化器。	换优化器不能替代数据和目标设计。
Learning Rate	学习率	LR	每次参数更新的步长系数。	影响收敛速度和稳定性。	学习率过大可能发散，过小训练慢。
Batch	批	Mini-batch	一次训练迭代中共同计算梯度的一组样本。	批大小影响显存、吞吐、梯度噪声。	大 batch 不必然效果更好。
Batch Size	批大小	-	每个 batch 包含的样本数量。	训练性能和泛化都受影响。	需要配合学习率和硬件调优。
Epoch	轮次	-	模型遍历完整训练集一次。	训练日志常记录 epoch、step、loss。	多 epoch 可能导致过拟合。
Regularization	正则化	-	限制模型复杂度以提升泛化的方法。	L1、L2、Dropout、早停等。	正则化过强会欠拟合。
Dropout	随机失活	-	训练时随机屏蔽部分神经元输出。	降低过拟合风险。	推理时通常不启用同样的随机屏蔽。
Early Stopping	早停	-	验证指标不再改善时停止训练。	防止过拟合并节省成本。	需要合理验证集，否则会误判。
Checkpoint	检查点	CKPT	训练过程中保存的模型权重和状态。	用于恢复训练、回滚、模型选择。	checkpoint 可能包含优化器状态，不只是权重文件。
Fine-tuning	微调	FT	在预训练模型基础上，用特定数据继续训练以适配任务或风格。	用于稳定格式、领域风格、任务模式，而不是实时知识检索。	微调不是万能知识注入；事实更新常优先用 RAG。
Full Fine-tuning	全量微调	-	更新模型全部或大部分参数的微调方式。	效果潜力高但成本和风险也高。	需要更多数据、算力和回归评测。
Parameter-Efficient Fine-tuning	参数高效微调	PEFT	只训练少量新增或低秩参数的适配方法集合。	用于降低微调成本和存储开销。	PEFT 不是单一算法，LoRA 是其中一种。
Low-Rank Adaptation	低秩适配	LoRA	用低秩矩阵近似参数更新的 PEFT 方法。	常用于开源 LLM、扩散模型适配。	LoRA 权重仍需管理版本和合并策略。
Adapter	适配器	Adapter Layer	在模型中插入小模块并只训练这些模块。	多任务或多领域适配时便于切换。	Adapter 会增加推理路径复杂度。
Prompt Tuning	提示调优	-	学习一组连续提示向量而非改写自然语言 prompt。	参数高效适配的一类方法。	不等于人工提示词工程。
Instruction Tuning	指令微调	指令调优	用指令-响应数据训练模型更好遵循任务指令。	是 LLM 从续写模型走向助手模型的重要步骤。	不能保证安全或事实正确。
Supervised Fine-tuning	监督微调	SFT	用人工或高质量示例对模型进行监督训练。	常作为对齐流程的第一阶段。	SFT 质量高度依赖样本设计。
Reinforcement Learning from Human Feedback	基于人类反馈的强化学习	RLHF	使用人类偏好训练奖励模型，再优化模型行为。	用于提升有用性、安全性和偏好一致性。	人类反馈也会带来偏差和成本。
Direct Preference Optimization	直接偏好优化	DPO	直接用偏好对优化模型，不显式训练奖励模型的一类方法。	用于对齐和偏好学习。	简化流程不代表不需要高质量偏好数据。
Reinforcement Fine-tuning	强化微调	RFT	用可验证奖励或任务反馈进一步优化模型行为。	适合有明确评分器的推理、代码、工具任务。	奖励设计错误会导致 reward hacking。
Knowledge Distillation	知识蒸馏	Distillation	用大模型或教师模型输出训练较小学生模型。	降低推理成本、部署到边缘设备。	蒸馏会继承教师模型偏差和错误。
Quantization	量化	-	用更低精度表示权重或激活以降低存储和计算成本。	INT8、INT4 常用于推理加速和显存压缩。	量化可能损失质量，需要评测。
Pruning	剪枝	-	删除不重要的连接、权重、层或结构。	用于模型压缩和加速。	剪枝后通常需要微调恢复效果。

4.4 神经网络、Transformer 与表示学习

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Neural Network	神经网络	NN	由层和可学习参数组成的函数近似模型。	深度学习模型的基础结构。	名称受生物启发，但不是大脑复制品。
Layer	层	-	神经网络中一组计算单元或变换。	常见有全连接层、卷积层、注意力层。	层数多不一定效果好。
Activation Function	激活函数	-	引入非线性的函数。	ReLU、GELU、Sigmoid、Tanh 常见。	没有非线性时多层线性网络仍等价于线性变换。
Convolutional Neural Network	卷积神经网络	CNN	使用卷积提取局部模式的神经网络。	图像、视频、语音特征提取常用。	视觉领域已大量采用 Transformer，但 CNN 仍有价值。
Recurrent Neural Network	循环神经网络	RNN	通过循环状态处理序列的神经网络。	早期 NLP、时间序列、语音任务常用。	长序列训练困难，很多场景被 Transformer 替代。
Transformer	Transformer	变换器	以自注意力为核心的序列建模架构。	LLM、视觉、语音、多模态模型的主流架构。	Transformer 不是 GPT 的专有名称。
Attention	注意力机制	-	根据相关性为不同输入位置分配权重的机制。	帮助模型在上下文中选择相关信息。	注意力权重不等于严格的人类解释。
Self-Attention	自注意力	-	序列内部 token 之间相互计算注意力。	Transformer 的核心模块。	计算成本随序列长度增长明显。
Multi-Head Attention	多头注意力	MHA	并行计算多个注意力子空间。	提升模型表达能力。	多头数量不是越多越好。
Positional Encoding	位置编码	Position Embedding	向模型注入序列位置信息的方法。	Transformer 需要位置机制理解顺序。	位置编码方案会影响长上下文泛化。
Embedding	嵌入	向量表示	将离散对象映射为稠密向量。	用于语义检索、推荐、聚类、分类、RAG。	embedding 相似不等于事实正确。
Vector	向量	-	一组数值组成的表示。	embedding、特征、参数都可以是向量。	向量维度高不必然质量高。
Latent Space	潜在空间	隐空间	模型学习到的连续表示空间。	生成模型、表示学习、聚类中常用。	潜在空间坐标通常不可直接按业务字段解释。
Representation Learning	表示学习	-	自动学习适合任务的数据表示。	深度学习的核心优势之一。	好表示仍需评测验证。
Autoencoder	自编码器	AE	学习将输入编码再重建的神经网络。	降维、异常检测、生成模型基础。	重建好不代表语义理解好。
Diffusion Model	扩散模型	-	通过逐步去噪学习生成数据的模型。	图像、视频、音频生成常见。	扩散模型不只用于图片。
Encoder	编码器	-	将输入转换为内部表示的模型部分。	BERT、embedding 模型、VAE 中常见。	编码器不负责所有生成任务。
Decoder	解码器	-	从内部表示生成输出的模型部分。	GPT 类自回归生成模型本质上是 decoder-only。	decoder-only 不等于没有理解能力。
Encoder-Decoder	编码器-解码器	Seq2Seq	编码输入后再解码输出的架构。	翻译、摘要、文本到文本任务常见。	与 decoder-only 架构的上下文使用方式不同。

4.5 LLM、生成式 AI 与多模态

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Large Language Model	大语言模型	LLM	在大规模文本或多模态数据上训练的语言模型。	用于对话、生成、推理、抽取、工具调用。	LLM 不是 Agent；Agent 是围绕模型构建的系统。
Language Model	语言模型	LM	建模文本序列概率或生成下一个 token 的模型。	LLM 是大规模语言模型的一类。	语言模型可大可小，不都具备通用助手能力。
Foundation Model	基础模型	FM	在大规模数据上预训练，可适配多任务的模型。	作为微调、RAG、Agent、应用开发的基础。	基础模型不等于开箱即用的业务系统。
Generative AI	生成式 AI	GenAI	生成文本、图像、音频、视频、代码等内容的 AI。	内容生产、编程辅助、设计、客服、搜索增强。	生成能力不等于事实可靠。
Token	词元	Token	模型处理文本的基本单位，可是字、词、子词或符号片段。	计费、上下文窗口、延迟和截断都与 token 相关。	token 不等于中文词或英文单词。
Tokenization	分词 / 词元化	-	将文本切分并映射为 token ID 的过程。	影响长度估算、检索切分、提示预算。	不同模型 tokenizer 不同。
Vocabulary	词表	Vocab	tokenizer 可识别的 token 集合。	影响编码效率和特殊符号处理。	词表大不代表语义能力强。
Context Window	上下文窗口	Context Length	模型一次调用可处理的最大 token 范围。	设计 prompt、RAG、长文档处理时必须预算。	长上下文不代表模型会完美利用全部内容。
Prompt	提示词	提示	给模型的输入指令、上下文、示例和约束。	用于引导输出格式、任务目标和角色。	prompt 不能替代权限、校验和评测。
Completion	补全	生成结果	模型基于输入生成的后续文本或结构化输出。	早期 API 常用 completion 表述。	在聊天 API 中通常称 response 或 message。
Chat Model	对话模型	-	针对多轮消息格式训练或封装的模型。	适合助手、客服、协作式应用。	对话格式不自动解决状态管理。
Reasoning Model	推理模型	-	针对复杂问题求解和多步推理优化的模型。	数学、代码、规划、复杂分析任务常用。	推理模型也会犯错，需要验证。
Multimodal Model	多模态模型	-	能处理或生成文本、图像、音频、视频等多种模态的模型。	文档理解、语音助手、视觉问答、视频分析。	多模态输入需要考虑隐私和版权。
Vision-Language Model	视觉语言模型	VLM	同时处理图像和文本的模型。	图片问答、OCR 增强、界面理解。	看图能力不等于可做精确测量。
Image Generation	图像生成	Text-to-Image	根据文本或参考图生成图像。	设计、营销素材、游戏资产、创意探索。	不能默认生成结果可商用，需看许可和版权风险。
Video Generation	视频生成	-	根据文本、图像或视频生成动态视频。	广告、预演、内容制作。	时间一致性、版权和人物肖像风险更高。
Code Generation	代码生成	-	模型生成、补全或修改代码。	编程助手、测试生成、迁移脚本。	生成代码必须经过审查、测试和安全扫描。
Mixture of Experts	专家混合	MoE	由多个专家子网络组成，每次激活部分专家的架构。	用于提高参数规模下的计算效率。	总参数多不等于每次推理都用全部参数。
Temperature	温度	-	控制采样随机性的生成参数。	低温更稳定，高温更多样。	温度不能修复事实错误。
Top-p Sampling	核采样	Nucleus Sampling	从累计概率达到 p 的候选 token 中采样。	控制生成多样性。	top-p 与 temperature 会共同影响输出。
Structured Output	结构化输出	JSON Output	让模型按 schema 或约束格式输出。	工具调用、抽取、表单填充、自动化流程。	结构合法不代表字段语义正确。
Function Calling	函数调用	-	模型按函数 schema 生成函数名和参数，由应用执行。	用于连接外部 API、数据库、业务操作。	模型不应直接执行副作用，应用层要审批和校验。
Tool Calling	工具调用	-	模型或 Agent 选择并调用外部工具的能力。	比函数调用更泛，可含搜索、代码执行、浏览器、文件等。	工具返回也可能被注入或投毒。

4.6 Prompt、对齐与行为控制

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Prompt Engineering	提示工程	-	设计、组织、测试和版本化模型输入的方法。	包括指令、上下文、示例、格式约束、评测。	不是玄学调词，必须结合 eval。
System Prompt	系统提示词	-	设定模型角色、边界、策略和优先级的高层指令。	用于应用行为基线和安全约束。	不能替代后端权限控制。
User Prompt	用户提示	-	终端用户输入的请求或问题。	是模型任务来源之一。	用户提示应视为不可信输入。
Few-shot Prompting	少样本提示	Few-shot	在 prompt 中提供少量示例来引导模型。	用于格式、风格、分类标准对齐。	示例过多会占用上下文并引入偏差。
Zero-shot Prompting	零样本提示	Zero-shot	不提供示例，仅用任务说明让模型完成任务。	简单任务或强模型常用。	零样本效果需要评测，不应凭感觉上线。
Chain-of-Thought	思维链	CoT	引导模型产生中间推理步骤的方法。	可提升复杂问题表现，但生产中常记录摘要而非暴露完整推理。	CoT 文本不等于真实可靠推理过程。
Prompt Chaining	提示链	-	将任务拆成多个模型调用串联处理。	用于抽取、验证、改写、生成流水线。	链越长错误传播和成本越高。
Output Parser	输出解析器	-	将模型输出解析为结构化数据的组件。	结合 JSON schema、正则、类型校验使用。	解析成功不等于任务成功。
Guardrails	护栏	-	对输入、输出、工具、权限和策略的约束层。	用于安全、合规、格式、业务规则控制。	不是关键词过滤器的同义词。
Alignment	对齐	-	让模型行为符合人类意图、价值、规则和任务目标的过程。	包括 SFT、RLHF、DPO、安全策略、评测等。	对齐没有一次性完成状态。
Preference Learning	偏好学习	-	从人类或系统偏好比较中学习输出偏好。	RLHF、DPO、排序模型中常见。	偏好不等于事实正确。
Reward Hacking	奖励黑客	Specification Gaming	模型利用奖励函数漏洞获得高分但违背真实目标。	强化学习和自动评测中要重点防范。	指标优化越强，越需要审查指标是否代表目标。
Human Feedback	人类反馈	HF	人类对模型输出、行为或轨迹给出的评分、偏好、纠错。	用于数据改进、对齐、产品反馈闭环。	用户点赞不一定是高质量训练信号。
Human-in-the-loop	人类在环	HITL	人类参与审批、纠错、接管或反馈的机制。	用于高风险工具调用、合规、质量兜底。	只放确认按钮不等于有效 HITL。
Policy	策略	-	系统允许、禁止或要求的行为规则。	安全策略、内容策略、工具使用策略。	policy 需要可执行检查和审计。
Calibration	校准	-	让模型置信度与真实正确率更一致。	用于分类、风险评分、是否回答决策。	LLM 自报置信度常不可靠。

4.7 RAG、检索与知识系统

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Retrieval-Augmented Generation	检索增强生成	RAG	先从外部知识源检索相关上下文，再交给模型生成答案。	用于企业知识库问答、客服、规章查询。	RAG 不是长期记忆，也不是自动保证事实正确。
Retrieval	检索	-	从文档、数据库或索引中找出相关信息。	RAG、搜索、推荐和问答系统核心环节。	召回多不代表证据质量高。
Retriever	检索器	-	执行检索并返回候选文档或片段的组件。	可基于关键词、向量、混合检索。	检索器需要权限过滤和元数据控制。
Dense Retrieval	稠密检索	向量检索	使用 embedding 相似度检索语义相关内容。	适合语义相近但词面不同的问题。	对数字、ID、精确术语可能不如关键词检索。
Sparse Retrieval	稀疏检索	关键词检索	基于词项匹配和稀疏向量的检索。	BM25、倒排索引常见。	不擅长语义改写，但精确匹配强。
Hybrid Search	混合检索	Hybrid Retrieval	结合关键词检索和向量检索。	企业 RAG 常用以兼顾语义和精确匹配。	合并策略和权重需要按任务调优。
BM25	BM25 排序	-	经典关键词检索排序算法。	搜索引擎和混合检索常用 baseline。	不能理解深层语义，但强在词面匹配。
Semantic Search	语义搜索	-	根据语义相似度而非纯关键词匹配搜索。	FAQ、知识库、相似案例检索。	语义相似不等于答案可支持。
Vector Database	向量数据库	Vector DB	存储并检索向量及其元数据的数据库。	支撑 embedding 检索、相似搜索、RAG。	不是 RAG 的全部，也不替代文档治理。
Vector Index	向量索引	ANN Index	加速近似最近邻搜索的数据结构。	HNSW、IVF、PQ 等常见。	近似搜索可能牺牲部分召回。
Nearest Neighbor Search	最近邻搜索	NN Search	查找向量空间中最相近的对象。	embedding 检索基础操作。	高维相似度需要合理度量和归一化。
Approximate Nearest Neighbor	近似最近邻	ANN	用近似算法提升向量检索速度。	大规模向量库常用。	ANN 参数会影响速度和召回率。
Chunking	分块	文档切分	将长文档切成可检索和可放入上下文的片段。	RAG 质量高度依赖 chunk 设计。	固定长度切分容易破坏语义边界。
Chunk	文档块	片段	切分后的单个文本或多模态片段。	作为检索、引用和上下文注入单位。	chunk 太大浪费上下文，太小缺少语义。
Reranking	重排序	Rerank	对初召回结果进行更精细排序。	用 cross-encoder、LLM 或规则提升证据质量。	rerank 不能召回初检索漏掉的内容。
Query Rewriting	查询改写	Query Expansion	将用户问题改写为更适合检索的查询。	用于补全上下文、同义词扩展、多查询检索。	改写可能丢失约束、版本号和否定条件。
Multi-hop Retrieval	多跳检索	Multi-hop RAG	需要多步检索才能得到完整证据。	复杂问答、跨文档推理常见。	多跳链路更难评测和追踪。
GraphRAG	图增强 RAG	Graph RAG	用知识图谱或实体关系增强检索和生成。	适合关系密集、实体依赖强的知识库。	不是所有文档库都需要图谱。
Citation	引用	-	回答中标明信息来源或证据片段。	企业 RAG 必须提供可追溯来源。	引用了来源不代表答案完全被来源支持。
Context Injection	上下文注入	-	将检索结果、用户状态或系统信息放入模型上下文。	RAG 和 Agent 都常用。	注入内容可能带 prompt injection 风险。
Knowledge Cutoff	知识截止	-	模型预训练数据覆盖到的大致时间边界。	解释为什么需要联网、RAG 或工具。	截止日期不是模型知道或不知道的精确边界。

4.8 Agent、工具与协议

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Agent	Agent / 智能体	AI Agent	基于目标、上下文、状态和工具执行多步任务的系统。	用于自动化研究、代码、客服、运维、数据分析。	普通聊天机器人不一定是 Agent。
Agent Loop	Agent 执行循环	Loop	感知、规划、行动、观察、状态更新和终止判断的循环。	是 Agent 运行时的核心控制结构。	不能只写无限循环，必须有预算和终止条件。
Planner	规划器	-	将目标拆解为步骤、计划或任务队列的组件。	用于复杂任务、长任务、多工具流程。	计划需要验证和动态调整。
Executor	执行器	-	根据计划调用工具或执行动作的组件。	负责落地步骤、处理结果和错误。	执行器必须有权限和幂等控制。
Memory	记忆	Agent Memory	Agent 跨轮次或跨任务保留信息的机制。	可保存用户偏好、任务状态、经验、摘要。	Memory 不是 RAG 的同义词。
Episodic Memory	情景记忆	事件记忆	保存具体经历、任务轨迹或事件。	用于复盘、回放、经验检索。	事件记录可能包含敏感数据。
Semantic Memory	语义记忆	知识记忆	保存事实、概念、偏好等较稳定知识。	用于用户画像、知识库、常识补充。	事实会过期，需要版本和来源。
Procedural Memory	程序性记忆	技能记忆	保存可复用流程、脚本、操作步骤。	类似 skill library 或 playbook。	入库前必须验证，不能让错误流程固化。
Reflection	反思	Self-Critique	对输出、轨迹或失败进行评估并生成修正。	用于重试、学习经验、质量提升。	模型自评不是事实，需要外部证据或 evaluator。
ReAct	推理-行动范式	Reason + Act	交替进行推理、工具动作和观察的 Agent 方法。	用于工具型 Agent 和交互式任务。	生产中通常记录决策摘要，不暴露完整推理。
Plan-and-Execute	规划-执行	-	先制定计划，再逐步执行和调整的 Agent 架构。	长任务和多工具任务常见。	静态计划无法应对环境变化。
Router	路由器	-	根据输入或状态选择模型、工具、流程或 Agent。	用于多模型、多工具、意图分流。	路由错误会造成质量和成本问题。
Multi-Agent System	多 Agent 系统	MAS	多个 Agent 通过分工、通信或协作完成任务。	用于研究助手、软件工程、复杂流程。	多 Agent 会增加成本、延迟和失控面。
Handoff	移交	-	将任务从一个 Agent 交给另一个 Agent 或人工。	需要移交条件、上下文摘要和责任边界。	不是简单转发消息。
Tool	工具	-	Agent 可调用的外部能力，如搜索、数据库、代码执行、业务 API。	应有 schema、权限、超时、审计和错误处理。	工具描述和返回都不应默认可信。
Tool Schema	工具模式	Function Schema	描述工具名称、参数、类型和约束的结构。	用于模型选择和参数生成。	schema 不能替代业务校验。
Model Context Protocol	模型上下文协议	MCP	连接 AI 应用与工具、资源、提示词的开放协议。	用于统一暴露工具和上下文能力。	MCP 是协议，不是完整 Agent 框架。
Tool Permission	工具权限	-	对工具调用主体、范围和副作用的限制。	高风险操作需审批、沙箱、最小权限。	不要让模型自由调用生产写接口。
Sandbox	沙箱	-	隔离执行代码或工具的环境。	用于代码解释器、浏览器自动化、文件操作。	沙箱不是绝对安全，仍需资源限制和审计。
Idempotency	幂等性	-	重复执行同一操作不会产生额外副作用。	Agent 重试、支付、下单、写操作必须考虑。	只读操作通常天然更接近幂等。
Retry	重试	-	失败后按策略再次执行。	处理网络、限流、临时错误。	非幂等操作不能盲目重试。

4.9 评测、质量与实验

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
Evaluation	评测	Eval	衡量模型、系统或 Agent 输出质量的过程。	包括离线集、在线指标、人工评审、回放。	单次 demo 不是评测。
Benchmark	基准测试	-	标准化任务和指标集合。	用于横向比较模型或方法。	benchmark 高分不代表业务可用。
Metric	指标	-	可量化衡量效果、成本或风险的数值。	质量、延迟、成本、安全都要有指标。	指标会诱导优化，需防止 Goodhart 效应。
Accuracy	准确率	-	预测正确样本占总样本比例。	分类任务基础指标。	类别不平衡时准确率可能严重误导。
Precision	精确率	查准率	被预测为正的样本中真正为正的比例。	用于控制误报。	精确率高可能召回率低。
Recall	召回率	查全率	所有真实正样本中被找出的比例。	安全、医疗、检索、风控中常关键。	召回率高可能带来更多误报。
F1 Score	F1 分数	F1	精确率和召回率的调和平均。	类别不平衡时常用综合指标。	F1 不能表达业务成本差异。
Perplexity	困惑度	PPL	衡量语言模型预测序列概率的指标。	预训练和语言建模评估常用。	PPL 低不一定助手任务表现好。
Hallucination	幻觉	-	模型生成看似合理但不符合事实或证据的内容。	RAG、客服、法律、医疗场景重点控制。	幻觉不是简单“编造”，也包括引用错配和过度推断。
Robustness	鲁棒性	-	系统面对扰动、噪声、异常输入仍保持稳定的能力。	通过对抗样本、边界测试、压力测试验证。	鲁棒不等于安全。
Reliability	可靠性	-	系统在预期条件下持续正确工作的能力。	关注错误率、可恢复性、SLO。	一次成功不代表可靠。
Regression Test	回归测试	-	确认改动未破坏既有能力的测试。	模型、prompt、工具、RAG 索引变更后运行。	LLM 回归测试要处理非确定性。
A/B Testing	A/B 测试	-	将用户流量分到不同版本比较线上效果。	验证模型、prompt、UI、排序策略。	需要样本量、随机化和风险控制。
Offline Evaluation	离线评测	-	不影响线上用户的评测。	用固定数据集、回放、人工标注评估。	离线高分不保证线上体验。
Online Evaluation	在线评测	-	在真实或灰度流量中评估系统。	A/B、灰度、用户反馈、生产监控。	在线实验要遵守隐私和安全边界。
Human Evaluation	人工评测	-	由人工按标准判断输出质量。	用于开放生成、复杂任务和安全审查。	成本高且需控制评审一致性。
LLM-as-a-Judge	LLM 作为评审	模型评审	用模型评估模型输出。	可扩展评测，但需校准和抽检。	同源模型评审有偏差，不能完全替代人工。
Task Success Rate	任务成功率	TSR	Agent 或系统按标准完成任务的比例。	衡量端到端效果。	不能只看最终答案，要看工具、权限、成本和副作用。
Tool Call Accuracy	工具调用准确率	-	是否在正确时机调用正确工具并传入正确参数。	工具型 Agent 关键指标。	工具调用成功不代表任务成功。
Trace Evaluation	轨迹评测	-	对执行过程、工具调用、状态转移进行评测。	Agent 和工作流系统常用。	只评最终答案会漏掉危险中间行为。

4.10 安全、治理与合规

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
AI Safety	AI 安全	-	降低 AI 系统造成伤害、失控或滥用风险的研究和工程实践。	覆盖内容安全、工具安全、系统安全、对齐和治理。	不只是不输出敏感词。
AI Governance	AI 治理	-	管理 AI 生命周期中的责任、风险、合规和监督。	包括政策、审计、审批、模型卡、数据治理。	治理不是上线前写一份说明。
Trustworthy AI	可信 AI	-	强调可靠、安全、公平、透明、隐私和问责的 AI。	常见于企业治理和政策框架。	“可信”需要机制和证据，不是宣传词。
Responsible AI	负责任 AI	RAI	将伦理、法律、安全和社会影响纳入 AI 开发部署。	大企业 AI 治理常用框架。	不等于只做内容审核。
Privacy	隐私	-	个人信息和敏感数据的保护。	数据收集、训练、日志、RAG、Agent 工具都涉及。	脱敏后仍可能重识别。
Personally Identifiable Information	个人可识别信息	PII	可单独或结合其他信息识别个人的数据。	日志、训练数据、prompt、工具返回需过滤。	不同法域定义不同。
Data Exfiltration	数据外泄	-	敏感数据被泄露给未授权主体、工具或输出。	Agent 工具链和 RAG 场景重点防护。	不只发生在最终回答，也可能发生在日志和工具参数。
Prompt Injection	提示注入	-	外部内容诱导模型违背系统或开发者意图。	Web、邮件、文档、RAG 片段都可能携带注入。	不只来自用户输入。
Indirect Prompt Injection	间接提示注入	-	恶意指令藏在网页、文档、邮件等外部内容中。	浏览器 Agent、RAG、插件系统高风险。	模型读取外部内容时必须隔离指令和数据。
Jailbreak	越狱	-	用户诱导模型绕过安全策略的攻击。	内容安全和红队测试常见。	越狱与 prompt injection 有交集但不完全相同。
Tool Poisoning	工具投毒	-	恶意工具描述、schema 或返回内容诱导错误行为。	MCP、插件、工具市场、动态工具加载需防范。	工具元数据也可能是攻击面。
Data Poisoning	数据投毒	-	攻击者污染训练、微调或检索数据以改变模型行为。	数据管道、用户反馈、公开语料要防护。	不是只有训练集会被投毒，RAG 索引也会。
Adversarial Example	对抗样本	-	精心构造的小扰动输入导致模型错误输出。	视觉、文本、安全评测中常见。	人类看起来正常不代表模型不会被误导。
Red Teaming	红队测试	-	主动模拟攻击者寻找系统弱点。	上线前和重大变更后用于安全验证。	红队不是一次性 checklist。
Content Moderation	内容审核	-	识别和处理违规、有害或敏感内容。	输入、输出、文件和多模态内容都可审核。	内容审核不能覆盖工具权限风险。
Access Control	访问控制	-	控制主体能访问哪些数据、工具和操作。	RAG 权限过滤、Agent 工具审批、后台 API。	不能只依赖模型“自觉不看”。
Least Privilege	最小权限	-	只授予完成任务所需的最小权限。	Agent 工具、MCP Server、云资源配置。	方便调试的高权限不能直接进生产。
Audit Log	审计日志	-	记录关键操作、访问、决策和工具调用的日志。	用于追责、回放、合规和安全分析。	日志本身也可能包含敏感数据。
Model Card	模型卡	-	描述模型用途、数据、指标、限制和风险的文档。	模型上线、选型和治理资料。	模型卡不是法律豁免。
Risk Management	风险管理	-	识别、评估、缓解和监控 AI 风险的流程。	企业 AI 项目需贯穿全生命周期。	不能只在上线审批时做。

4.11 MLOps、LLMOps 与生产运维

English Term	推荐中文	别名 / 缩写	含义	工程语境中的用法	常见误解或边界
MLOps	机器学习运维	-	将 ML 模型开发、部署、监控、治理工程化的实践。	覆盖数据、训练、模型注册、部署、监控。	不是只把模型包成 API。
LLMOps	大模型运维	-	面向 LLM 应用的开发、评测、部署、监控和成本治理。	包括 prompt、RAG、工具、eval、token 成本。	LLMOps 与 MLOps 有重叠，但关注点不同。
Model Serving	模型服务	Serving	将模型部署为可调用服务。	关注吞吐、延迟、并发、扩缩容、稳定性。	serving 不只是启动一个脚本。
Deployment	部署	-	将模型或应用发布到目标环境。	可分离线、在线、边缘、本地、云端。	部署成功不代表质量达标。
Canary Release	金丝雀发布	灰度发布	将小部分流量切到新版本观察风险。	模型、prompt、RAG 索引、工具变更都适用。	灰度要定义回滚指标。
Rollback	回滚	-	将系统恢复到之前稳定版本。	模型、prompt、配置、索引都应可回滚。	没有版本化就很难可靠回滚。
Latency	延迟	-	从请求发出到收到响应的时间。	影响用户体验和成本。	平均延迟会掩盖 P95/P99 问题。
Throughput	吞吐量	-	单位时间内处理请求或 token 的能力。	服务容量规划和压测关键指标。	高吞吐可能牺牲单请求延迟。
Cost	成本	-	训练、推理、存储、带宽、人审和运维成本。	LLM 应用需按 token、工具、缓存、重试核算。	只看模型调用价格会低估总成本。
Token Budget	Token 预算	-	单次或整体任务可使用的 token 上限。	控制上下文、RAG、Agent 循环和成本。	预算不足会截断信息，预算过大增加成本和噪声。
Rate Limit	速率限制	限流	限制单位时间请求数或 token 数。	需要排队、退避、降级和重试策略。	盲目重试会放大限流。
Caching	缓存	-	复用已有结果以降低延迟和成本。	可缓存检索、embedding、模型响应、工具结果。	缓存需要失效策略和权限隔离。
Observability	可观测性	-	通过日志、指标、追踪理解系统行为。	LLM 应用要记录 prompt、工具、检索、成本和错误。	不能为了观测泄露敏感数据。
Log	日志	-	记录系统事件、输入输出摘要和错误的信息。	调试、审计、监控和回放使用。	原始 prompt 和输出可能含隐私。
Trace	轨迹 / 链路追踪	-	一次请求或任务的完整执行链路。	Agent、RAG、工具调用排障必需。	只保存最终答案无法复盘。
Span	跟踪片段	-	trace 中的单个操作，如模型调用、检索、工具调用。	用于定位延迟、错误和成本来源。	span 要记录必要上下文但避免敏感泄露。
Monitoring	监控	-	持续观察指标、日志和告警。	监控质量、成本、延迟、安全、漂移。	只监控服务存活不足以保障 AI 质量。
Alerting	告警	-	指标或事件超过阈值时通知人员或系统。	成本飙升、错误率、越权访问、质量下降都应告警。	告警过多会导致疲劳。
Service Level Objective	服务等级目标	SLO	对服务质量目标的明确量化承诺。	如可用性、P95 延迟、错误率。	AI 质量指标也应有 SLO 或类似门槛。
Fallback	降级 / 兜底	-	主路径失败时使用备用模型、规则或人工。	限流、模型故障、检索失败时触发。	降级路径也要测试。
Batch Inference	批量推理	-	离线或批处理方式运行推理。	报表、数据标注、离线评分。	不适合强实时交互。
Streaming	流式输出	-	边生成边返回部分结果。	改善 LLM 交互体感延迟。	流式不能降低完整生成总成本。

5. 权威资料与核对来源

本文术语含义以工程落地语境综合整理，并参考以下公开资料。快速变化的信息在引用时应重新核对官方文档。

Google Machine Learning Glossary：https://developers.google.com/machine-learning/glossary/
Google Machine Learning Crash Course：https://developers.google.com/machine-learning/crash-course/
OpenAI Platform Docs：https://platform.openai.com/docs/
OpenAI Developers Docs：https://developers.openai.com/
Hugging Face Transformers Glossary：https://huggingface.co/docs/transformers/glossary
NVIDIA Glossary：https://www.nvidia.com/en-us/glossary/
IBM Think AI Topics：https://www.ibm.com/think/topics/
OWASP Top 10 for LLM Applications：https://owasp.org/www-project-top-10-for-large-language-model-applications/
OWASP GenAI Security Glossary：https://genai.owasp.org/glossary/
NIST AI Risk Management Framework：https://www.nist.gov/itl/ai-risk-management-framework
Stanford AI Index：https://aiindex.stanford.edu/

核对日期：2026-05-15。

1. 使用说明​

2. 快速主题索引​

3. 英文首字母索引​

4. 术语正文​

4.1 AI / ML / DL 基础​

4.2 数据、特征与数据治理​

4.3 训练、优化与模型压缩​

4.4 神经网络、Transformer 与表示学习​

4.5 LLM、生成式 AI 与多模态​

4.6 Prompt、对齐与行为控制​

4.7 RAG、检索与知识系统​

4.8 Agent、工具与协议​

4.9 评测、质量与实验​

4.10 安全、治理与合规​

4.11 MLOps、LLMOps 与生产运维​

5. 权威资料与核对来源​

1. 使用说明

2. 快速主题索引

3. 英文首字母索引

4. 术语正文

4.1 AI / ML / DL 基础

4.2 数据、特征与数据治理

4.3 训练、优化与模型压缩

4.4 神经网络、Transformer 与表示学习

4.5 LLM、生成式 AI 与多模态

4.6 Prompt、对齐与行为控制

4.7 RAG、检索与知识系统

4.8 Agent、工具与协议

4.9 评测、质量与实验

4.10 安全、治理与合规

4.11 MLOps、LLMOps 与生产运维

5. 权威资料与核对来源