跳到主要内容

AI常见名词中英互译手册

核对日期:2026-05-15
定位:面向工程学习和方案评审的 AI 术语中英互译手册。它不是论文词典,也不替代官方文档;遇到 API、模型能力、合规要求等快速变化内容,应回到官方资料核对。

1. 使用说明

  • 推荐写法:首次出现时使用“中文译名(English Term,缩写)”,例如“微调(Fine-tuning)”。
  • 译名优先级:优先采用工程社区常用译法;存在多种译法时,在“别名”列补充。
  • 缩写处理:LLM、RAG、RLHF、MCP 等高频缩写可以保留英文,但首次出现仍应解释全称。
  • 边界判断:同一术语在研究论文、云服务、产品文档中的含义可能略有差异,本文以工程落地语境为主。
  • 安全提醒:用户输入、外部文档、工具返回、模型输出都不能默认可信。

2. 快速主题索引

主题重点术语
AI / ML / DL 基础AI、ML、DL、模型、参数、训练、推理、泛化、过拟合、欠拟合
数据与特征数据集、样本、标签、特征、特征工程、数据泄漏、数据漂移、合成数据
训练与优化损失函数、梯度下降、反向传播、学习率、批大小、正则化、优化器
神经网络神经元、层、激活函数、CNN、RNN、Transformer、Attention、Embedding
LLM 与生成式 AILLM、基础模型、生成式 AI、Token、上下文窗口、多模态、MoE
Prompt 与对齐Prompt、System Prompt、Few-shot、CoT、SFT、RLHF、DPO、Alignment
微调与适配Fine-tuning、PEFT、LoRA、Adapter、蒸馏、量化、剪枝
RAG 与知识系统RAG、检索、向量数据库、Chunk、Embedding、Rerank、引用、GraphRAG
Agent 与工具Agent、Agent Loop、Tool Calling、Function Calling、MCP、Memory、Planner
评测与质量Benchmark、Evals、准确率、召回率、F1、幻觉、鲁棒性、A/B Test
安全与治理Prompt Injection、Jailbreak、Data Exfiltration、Guardrails、Red Teaming
工程化与运维MLOps、LLMOps、Serving、Latency、Throughput、Cost、Trace、Observability

3. 英文首字母索引

字母术语
AAI、AGI、Agent、Alignment、Annotation、Attention、Autoencoder
BBackpropagation、Batch、Benchmark、BM25
CChain-of-Thought、Chunking、Classification、CNN、Context Window、Cost
DData Drift、Data Leakage、Dataset、Deep Learning、Diffusion Model、Distillation、DPO
EEmbedding、Epoch、Evaluation、Executor
FFeature、Feature Engineering、Fine-tuning、Foundation Model、Function Calling
GGenerative AI、Gradient Descent、GraphRAG、Guardrails
HHallucination、Human-in-the-loop、Hyperparameter
IInference、Instruction Tuning、Intent Classification
JJailbreak
KKnowledge Distillation
LLabel、Latency、Learning Rate、LLM、LoRA、Loss Function
MMachine Learning、MCP、Memory、MLOps、MoE、Multimodal
NNeural Network、Normalization
OOptimizer、Overfitting
PParameter、PEFT、Planner、Prompt、Prompt Injection
QQuantization、Query Rewriting
RRAG、Ranking、Recall、Red Teaming、Reflection、Regression、Rerank、RLHF、Robustness
SSafety、Sample、Semantic Search、Serving、SFT、Span、Structured Output、Synthetic Data
TToken、Tokenization、Tool Calling、Trace、Transformer、Throughput
UUnderfitting
VValidation Set、Vector Database
WWeight

4. 术语正文

4.1 AI / ML / DL 基础

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
Artificial Intelligence人工智能AI让机器执行感知、推理、生成、决策等智能任务的技术总称。用作最大范围概念,覆盖规则系统、机器学习、深度学习和生成式 AI。不等于大模型;传统搜索、规划、专家系统也可属于 AI。
Machine Learning机器学习ML通过数据学习模式并对新输入做预测或决策的方法。用于分类、回归、排序、推荐、风控等任务。不等于深度学习;线性模型、树模型也是 ML。
Deep Learning深度学习DL使用多层神经网络从数据中学习表示和函数映射。用于视觉、语音、NLP、推荐和大模型训练。“深”指多层表示,不代表天然更可靠。
Model模型-从数据或规则中得到的可执行映射,用于预测、生成或决策。可以是线性模型、树模型、神经网络或 LLM。模型不是完整产品,还需要数据、评测、服务和治理。
Parameter参数-模型训练得到并在推理时使用的内部数值。LLM 参数规模常用于粗略描述容量。参数多不必然效果好;数据、架构、训练方法同样关键。
Weight权重-神经网络连接或层中的可学习参数。训练会更新权重,推理读取权重。权重不是业务配置,不能随意手改。
Hyperparameter超参数-训练前或训练外配置的参数,如学习率、批大小、层数。通过实验、搜索或经验设定。超参数通常不由梯度直接学习得到。
Training训练-用数据和目标函数更新模型参数的过程。包括预训练、监督训练、微调、对齐训练等。训练不是把知识库塞进模型的唯一方式。
Inference推理预测、生成使用训练好的模型处理输入并产生输出。在线服务中关注延迟、成本、吞吐和稳定性。这里的推理不一定等于人类逻辑推理,也可指模型运行。
Prediction预测-模型对输入给出类别、数值、排序或概率估计。常见于风控、推荐、需求预测、分类器。预测是输出形态,不代表结果一定可解释。
Generalization泛化-模型在未见数据上保持效果的能力。通过验证集、测试集和线上监控评估。训练集高分不代表泛化好。
Overfitting过拟合-模型记住训练数据细节,导致新数据效果差。用正则化、更多数据、早停、交叉验证缓解。训练误差低、线上效果差时常见。
Underfitting欠拟合-模型能力不足或训练不充分,训练集和测试集都表现差。需要更强模型、更好特征或更充分训练。欠拟合不是靠加正则化解决。
Supervised Learning监督学习-使用带标签数据学习输入到输出的映射。分类、回归、序列标注常用。标签质量决定上限,脏标签会污染模型。
Unsupervised Learning无监督学习-从无标签数据中学习结构、分布或表示。聚类、降维、表示学习常见。不等于完全没有目标函数。
Self-supervised Learning自监督学习SSL从数据自身构造训练信号。LLM 预训练常用下一个 token 预测等任务。不是没有监督,而是监督信号来自数据本身。
Reinforcement Learning强化学习RL智能体通过与环境交互并根据奖励学习策略。用于游戏、机器人、排序优化、对齐训练。不等于所有带反馈的训练;奖励设计很关键。
Classification分类-将输入分到离散类别。意图识别、垃圾邮件识别、风险等级判断。多标签分类和多分类不同。
Regression回归-预测连续数值。价格预测、需求预测、评分估计。不是数据库回归测试中的 regression。
Clustering聚类-将相似样本自动分组。用户分群、文档聚类、异常发现。聚类结果不天然有业务含义,需要解释和验证。
Ranking排序-对候选项按相关性、质量或收益排序。搜索、推荐、RAG 召回后排序。排序好坏不能只看单条结果,要看整体指标。
Artificial General Intelligence通用人工智能AGI通常指能跨广泛任务达到或超过人类水平的智能系统。多用于战略、研究和风险讨论。没有统一工程验收标准,避免在产品文档中滥用。

4.2 数据、特征与数据治理

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
Dataset数据集-用于训练、验证、测试或评测的一组样本。应记录来源、许可、时间范围、清洗规则和版本。数据集不是越大越好,质量和分布更关键。
Sample样本-数据集中的单个训练或评测实例。可能包含输入、标签、元数据、权重。样本独立同分布只是理想假设。
Label标签标注监督学习中作为目标输出的标记或答案。由人工、规则、日志或模型生成。模型生成标签要标明弱监督或伪标签风险。
Annotation标注数据标注给样本添加标签、边界框、评分或解释的过程。需要标注规范、一致性检查和抽检。标注员一致不代表标签真实无误。
Feature特征-模型输入中表达对象属性的变量或表示。传统 ML 依赖显式特征,深度学习常自动学习表示。特征不是业务字段原样堆进去。
Feature Engineering特征工程-构造、选择、变换和验证特征的过程。在风控、推荐、搜索中仍非常重要。LLM 场景也有特征工程,如检索特征和提示特征。
Data Cleaning数据清洗-修复、过滤、去重、标准化数据问题的过程。训练前处理缺失、重复、脏文本、异常值。清洗规则会改变分布,需要可追踪。
Data Preprocessing数据预处理-模型训练或推理前的数据转换流程。包括清洗、归一化、分词、编码、裁剪等。训练和推理的预处理必须保持一致。
Data Augmentation数据增强-通过变换或生成扩充训练样本。图像旋转、文本改写、语音加噪、合成数据。增强不能破坏标签语义。
Synthetic Data合成数据-由规则、仿真或模型生成的数据。用于冷启动、隐私保护、边界场景补充。合成数据可能放大偏差,不能替代真实评测。
Data Leakage数据泄漏-训练过程使用了本不应可见的信息。如测试集信息进入训练、未来信息进入特征。会造成离线高分、线上失效。
Data Drift数据漂移-线上输入分布随时间偏离训练数据。通过监控特征分布、召回质量、错误类型发现。漂移不一定立刻导致指标下降,但需要告警。
Class Imbalance类别不平衡-不同标签类别样本数量差异很大。欺诈检测、故障检测、医学诊断常见。准确率会误导,应看召回率、精确率、PR 曲线。
Outlier离群点异常值与大多数样本显著不同的数据点。清洗、鲁棒训练、异常检测中需要处理。离群点不一定要删除,可能代表关键场景。
Normalization归一化-将数据缩放到统一范围或分布。常用于数值特征和神经网络训练。与标准化不完全相同,文档中应说明方法。
Train Set训练集-用于拟合模型参数的数据。不应包含验证集和测试集信息。训练集表现不能作为最终质量证明。
Validation Set验证集Dev Set用于调参、选择模型和早停的数据。反复使用会逐渐变成“训练的一部分”。不应拿验证集当最终上线依据。
Test Set测试集-用于最终评估泛化能力的数据。上线前做冻结评估。测试集被多次调参后会失去独立性。
Ground Truth真实标签标准答案评测中作为参考的目标答案或事实。Evals、分类、抽取任务需要定义。LLM 开放问答常没有唯一 ground truth。
Metadata元数据-描述数据来源、时间、权限、版本等的信息。RAG 权限过滤、引用追踪、审计都依赖元数据。元数据错误会导致检索和权限错误。

4.3 训练、优化与模型压缩

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
Loss Function损失函数Objective衡量模型输出与目标差异的函数。训练通过最小化损失更新参数。损失低不必然业务指标好。
Gradient Descent梯度下降GD沿损失下降方向迭代更新参数的方法。是许多优化器的基础思想。实际训练常用 SGD、Adam 等变体。
Backpropagation反向传播BP通过链式法则计算神经网络参数梯度。深度学习训练的核心算法。反向传播不是模型的推理过程。
Optimizer优化器-根据梯度和状态更新参数的算法。SGD、Adam、AdamW 是常见优化器。换优化器不能替代数据和目标设计。
Learning Rate学习率LR每次参数更新的步长系数。影响收敛速度和稳定性。学习率过大可能发散,过小训练慢。
BatchMini-batch一次训练迭代中共同计算梯度的一组样本。批大小影响显存、吞吐、梯度噪声。大 batch 不必然效果更好。
Batch Size批大小-每个 batch 包含的样本数量。训练性能和泛化都受影响。需要配合学习率和硬件调优。
Epoch轮次-模型遍历完整训练集一次。训练日志常记录 epoch、step、loss。多 epoch 可能导致过拟合。
Regularization正则化-限制模型复杂度以提升泛化的方法。L1、L2、Dropout、早停等。正则化过强会欠拟合。
Dropout随机失活-训练时随机屏蔽部分神经元输出。降低过拟合风险。推理时通常不启用同样的随机屏蔽。
Early Stopping早停-验证指标不再改善时停止训练。防止过拟合并节省成本。需要合理验证集,否则会误判。
Checkpoint检查点CKPT训练过程中保存的模型权重和状态。用于恢复训练、回滚、模型选择。checkpoint 可能包含优化器状态,不只是权重文件。
Fine-tuning微调FT在预训练模型基础上,用特定数据继续训练以适配任务或风格。用于稳定格式、领域风格、任务模式,而不是实时知识检索。微调不是万能知识注入;事实更新常优先用 RAG。
Full Fine-tuning全量微调-更新模型全部或大部分参数的微调方式。效果潜力高但成本和风险也高。需要更多数据、算力和回归评测。
Parameter-Efficient Fine-tuning参数高效微调PEFT只训练少量新增或低秩参数的适配方法集合。用于降低微调成本和存储开销。PEFT 不是单一算法,LoRA 是其中一种。
Low-Rank Adaptation低秩适配LoRA用低秩矩阵近似参数更新的 PEFT 方法。常用于开源 LLM、扩散模型适配。LoRA 权重仍需管理版本和合并策略。
Adapter适配器Adapter Layer在模型中插入小模块并只训练这些模块。多任务或多领域适配时便于切换。Adapter 会增加推理路径复杂度。
Prompt Tuning提示调优-学习一组连续提示向量而非改写自然语言 prompt。参数高效适配的一类方法。不等于人工提示词工程。
Instruction Tuning指令微调指令调优用指令-响应数据训练模型更好遵循任务指令。是 LLM 从续写模型走向助手模型的重要步骤。不能保证安全或事实正确。
Supervised Fine-tuning监督微调SFT用人工或高质量示例对模型进行监督训练。常作为对齐流程的第一阶段。SFT 质量高度依赖样本设计。
Reinforcement Learning from Human Feedback基于人类反馈的强化学习RLHF使用人类偏好训练奖励模型,再优化模型行为。用于提升有用性、安全性和偏好一致性。人类反馈也会带来偏差和成本。
Direct Preference Optimization直接偏好优化DPO直接用偏好对优化模型,不显式训练奖励模型的一类方法。用于对齐和偏好学习。简化流程不代表不需要高质量偏好数据。
Reinforcement Fine-tuning强化微调RFT用可验证奖励或任务反馈进一步优化模型行为。适合有明确评分器的推理、代码、工具任务。奖励设计错误会导致 reward hacking。
Knowledge Distillation知识蒸馏Distillation用大模型或教师模型输出训练较小学生模型。降低推理成本、部署到边缘设备。蒸馏会继承教师模型偏差和错误。
Quantization量化-用更低精度表示权重或激活以降低存储和计算成本。INT8、INT4 常用于推理加速和显存压缩。量化可能损失质量,需要评测。
Pruning剪枝-删除不重要的连接、权重、层或结构。用于模型压缩和加速。剪枝后通常需要微调恢复效果。

4.4 神经网络、Transformer 与表示学习

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
Neural Network神经网络NN由层和可学习参数组成的函数近似模型。深度学习模型的基础结构。名称受生物启发,但不是大脑复制品。
Layer-神经网络中一组计算单元或变换。常见有全连接层、卷积层、注意力层。层数多不一定效果好。
Activation Function激活函数-引入非线性的函数。ReLU、GELU、Sigmoid、Tanh 常见。没有非线性时多层线性网络仍等价于线性变换。
Convolutional Neural Network卷积神经网络CNN使用卷积提取局部模式的神经网络。图像、视频、语音特征提取常用。视觉领域已大量采用 Transformer,但 CNN 仍有价值。
Recurrent Neural Network循环神经网络RNN通过循环状态处理序列的神经网络。早期 NLP、时间序列、语音任务常用。长序列训练困难,很多场景被 Transformer 替代。
TransformerTransformer变换器以自注意力为核心的序列建模架构。LLM、视觉、语音、多模态模型的主流架构。Transformer 不是 GPT 的专有名称。
Attention注意力机制-根据相关性为不同输入位置分配权重的机制。帮助模型在上下文中选择相关信息。注意力权重不等于严格的人类解释。
Self-Attention自注意力-序列内部 token 之间相互计算注意力。Transformer 的核心模块。计算成本随序列长度增长明显。
Multi-Head Attention多头注意力MHA并行计算多个注意力子空间。提升模型表达能力。多头数量不是越多越好。
Positional Encoding位置编码Position Embedding向模型注入序列位置信息的方法。Transformer 需要位置机制理解顺序。位置编码方案会影响长上下文泛化。
Embedding嵌入向量表示将离散对象映射为稠密向量。用于语义检索、推荐、聚类、分类、RAG。embedding 相似不等于事实正确。
Vector向量-一组数值组成的表示。embedding、特征、参数都可以是向量。向量维度高不必然质量高。
Latent Space潜在空间隐空间模型学习到的连续表示空间。生成模型、表示学习、聚类中常用。潜在空间坐标通常不可直接按业务字段解释。
Representation Learning表示学习-自动学习适合任务的数据表示。深度学习的核心优势之一。好表示仍需评测验证。
Autoencoder自编码器AE学习将输入编码再重建的神经网络。降维、异常检测、生成模型基础。重建好不代表语义理解好。
Diffusion Model扩散模型-通过逐步去噪学习生成数据的模型。图像、视频、音频生成常见。扩散模型不只用于图片。
Encoder编码器-将输入转换为内部表示的模型部分。BERT、embedding 模型、VAE 中常见。编码器不负责所有生成任务。
Decoder解码器-从内部表示生成输出的模型部分。GPT 类自回归生成模型本质上是 decoder-only。decoder-only 不等于没有理解能力。
Encoder-Decoder编码器-解码器Seq2Seq编码输入后再解码输出的架构。翻译、摘要、文本到文本任务常见。与 decoder-only 架构的上下文使用方式不同。

4.5 LLM、生成式 AI 与多模态

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
Large Language Model大语言模型LLM在大规模文本或多模态数据上训练的语言模型。用于对话、生成、推理、抽取、工具调用。LLM 不是 Agent;Agent 是围绕模型构建的系统。
Language Model语言模型LM建模文本序列概率或生成下一个 token 的模型。LLM 是大规模语言模型的一类。语言模型可大可小,不都具备通用助手能力。
Foundation Model基础模型FM在大规模数据上预训练,可适配多任务的模型。作为微调、RAG、Agent、应用开发的基础。基础模型不等于开箱即用的业务系统。
Generative AI生成式 AIGenAI生成文本、图像、音频、视频、代码等内容的 AI。内容生产、编程辅助、设计、客服、搜索增强。生成能力不等于事实可靠。
Token词元Token模型处理文本的基本单位,可是字、词、子词或符号片段。计费、上下文窗口、延迟和截断都与 token 相关。token 不等于中文词或英文单词。
Tokenization分词 / 词元化-将文本切分并映射为 token ID 的过程。影响长度估算、检索切分、提示预算。不同模型 tokenizer 不同。
Vocabulary词表Vocabtokenizer 可识别的 token 集合。影响编码效率和特殊符号处理。词表大不代表语义能力强。
Context Window上下文窗口Context Length模型一次调用可处理的最大 token 范围。设计 prompt、RAG、长文档处理时必须预算。长上下文不代表模型会完美利用全部内容。
Prompt提示词提示给模型的输入指令、上下文、示例和约束。用于引导输出格式、任务目标和角色。prompt 不能替代权限、校验和评测。
Completion补全生成结果模型基于输入生成的后续文本或结构化输出。早期 API 常用 completion 表述。在聊天 API 中通常称 response 或 message。
Chat Model对话模型-针对多轮消息格式训练或封装的模型。适合助手、客服、协作式应用。对话格式不自动解决状态管理。
Reasoning Model推理模型-针对复杂问题求解和多步推理优化的模型。数学、代码、规划、复杂分析任务常用。推理模型也会犯错,需要验证。
Multimodal Model多模态模型-能处理或生成文本、图像、音频、视频等多种模态的模型。文档理解、语音助手、视觉问答、视频分析。多模态输入需要考虑隐私和版权。
Vision-Language Model视觉语言模型VLM同时处理图像和文本的模型。图片问答、OCR 增强、界面理解。看图能力不等于可做精确测量。
Image Generation图像生成Text-to-Image根据文本或参考图生成图像。设计、营销素材、游戏资产、创意探索。不能默认生成结果可商用,需看许可和版权风险。
Video Generation视频生成-根据文本、图像或视频生成动态视频。广告、预演、内容制作。时间一致性、版权和人物肖像风险更高。
Code Generation代码生成-模型生成、补全或修改代码。编程助手、测试生成、迁移脚本。生成代码必须经过审查、测试和安全扫描。
Mixture of Experts专家混合MoE由多个专家子网络组成,每次激活部分专家的架构。用于提高参数规模下的计算效率。总参数多不等于每次推理都用全部参数。
Temperature温度-控制采样随机性的生成参数。低温更稳定,高温更多样。温度不能修复事实错误。
Top-p Sampling核采样Nucleus Sampling从累计概率达到 p 的候选 token 中采样。控制生成多样性。top-p 与 temperature 会共同影响输出。
Structured Output结构化输出JSON Output让模型按 schema 或约束格式输出。工具调用、抽取、表单填充、自动化流程。结构合法不代表字段语义正确。
Function Calling函数调用-模型按函数 schema 生成函数名和参数,由应用执行。用于连接外部 API、数据库、业务操作。模型不应直接执行副作用,应用层要审批和校验。
Tool Calling工具调用-模型或 Agent 选择并调用外部工具的能力。比函数调用更泛,可含搜索、代码执行、浏览器、文件等。工具返回也可能被注入或投毒。

4.6 Prompt、对齐与行为控制

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
Prompt Engineering提示工程-设计、组织、测试和版本化模型输入的方法。包括指令、上下文、示例、格式约束、评测。不是玄学调词,必须结合 eval。
System Prompt系统提示词-设定模型角色、边界、策略和优先级的高层指令。用于应用行为基线和安全约束。不能替代后端权限控制。
User Prompt用户提示-终端用户输入的请求或问题。是模型任务来源之一。用户提示应视为不可信输入。
Few-shot Prompting少样本提示Few-shot在 prompt 中提供少量示例来引导模型。用于格式、风格、分类标准对齐。示例过多会占用上下文并引入偏差。
Zero-shot Prompting零样本提示Zero-shot不提供示例,仅用任务说明让模型完成任务。简单任务或强模型常用。零样本效果需要评测,不应凭感觉上线。
Chain-of-Thought思维链CoT引导模型产生中间推理步骤的方法。可提升复杂问题表现,但生产中常记录摘要而非暴露完整推理。CoT 文本不等于真实可靠推理过程。
Prompt Chaining提示链-将任务拆成多个模型调用串联处理。用于抽取、验证、改写、生成流水线。链越长错误传播和成本越高。
Output Parser输出解析器-将模型输出解析为结构化数据的组件。结合 JSON schema、正则、类型校验使用。解析成功不等于任务成功。
Guardrails护栏-对输入、输出、工具、权限和策略的约束层。用于安全、合规、格式、业务规则控制。不是关键词过滤器的同义词。
Alignment对齐-让模型行为符合人类意图、价值、规则和任务目标的过程。包括 SFT、RLHF、DPO、安全策略、评测等。对齐没有一次性完成状态。
Preference Learning偏好学习-从人类或系统偏好比较中学习输出偏好。RLHF、DPO、排序模型中常见。偏好不等于事实正确。
Reward Hacking奖励黑客Specification Gaming模型利用奖励函数漏洞获得高分但违背真实目标。强化学习和自动评测中要重点防范。指标优化越强,越需要审查指标是否代表目标。
Human Feedback人类反馈HF人类对模型输出、行为或轨迹给出的评分、偏好、纠错。用于数据改进、对齐、产品反馈闭环。用户点赞不一定是高质量训练信号。
Human-in-the-loop人类在环HITL人类参与审批、纠错、接管或反馈的机制。用于高风险工具调用、合规、质量兜底。只放确认按钮不等于有效 HITL。
Policy策略-系统允许、禁止或要求的行为规则。安全策略、内容策略、工具使用策略。policy 需要可执行检查和审计。
Calibration校准-让模型置信度与真实正确率更一致。用于分类、风险评分、是否回答决策。LLM 自报置信度常不可靠。

4.7 RAG、检索与知识系统

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
Retrieval-Augmented Generation检索增强生成RAG先从外部知识源检索相关上下文,再交给模型生成答案。用于企业知识库问答、客服、规章查询。RAG 不是长期记忆,也不是自动保证事实正确。
Retrieval检索-从文档、数据库或索引中找出相关信息。RAG、搜索、推荐和问答系统核心环节。召回多不代表证据质量高。
Retriever检索器-执行检索并返回候选文档或片段的组件。可基于关键词、向量、混合检索。检索器需要权限过滤和元数据控制。
Dense Retrieval稠密检索向量检索使用 embedding 相似度检索语义相关内容。适合语义相近但词面不同的问题。对数字、ID、精确术语可能不如关键词检索。
Sparse Retrieval稀疏检索关键词检索基于词项匹配和稀疏向量的检索。BM25、倒排索引常见。不擅长语义改写,但精确匹配强。
Hybrid Search混合检索Hybrid Retrieval结合关键词检索和向量检索。企业 RAG 常用以兼顾语义和精确匹配。合并策略和权重需要按任务调优。
BM25BM25 排序-经典关键词检索排序算法。搜索引擎和混合检索常用 baseline。不能理解深层语义,但强在词面匹配。
Semantic Search语义搜索-根据语义相似度而非纯关键词匹配搜索。FAQ、知识库、相似案例检索。语义相似不等于答案可支持。
Vector Database向量数据库Vector DB存储并检索向量及其元数据的数据库。支撑 embedding 检索、相似搜索、RAG。不是 RAG 的全部,也不替代文档治理。
Vector Index向量索引ANN Index加速近似最近邻搜索的数据结构。HNSW、IVF、PQ 等常见。近似搜索可能牺牲部分召回。
Nearest Neighbor Search最近邻搜索NN Search查找向量空间中最相近的对象。embedding 检索基础操作。高维相似度需要合理度量和归一化。
Approximate Nearest Neighbor近似最近邻ANN用近似算法提升向量检索速度。大规模向量库常用。ANN 参数会影响速度和召回率。
Chunking分块文档切分将长文档切成可检索和可放入上下文的片段。RAG 质量高度依赖 chunk 设计。固定长度切分容易破坏语义边界。
Chunk文档块片段切分后的单个文本或多模态片段。作为检索、引用和上下文注入单位。chunk 太大浪费上下文,太小缺少语义。
Reranking重排序Rerank对初召回结果进行更精细排序。用 cross-encoder、LLM 或规则提升证据质量。rerank 不能召回初检索漏掉的内容。
Query Rewriting查询改写Query Expansion将用户问题改写为更适合检索的查询。用于补全上下文、同义词扩展、多查询检索。改写可能丢失约束、版本号和否定条件。
Multi-hop Retrieval多跳检索Multi-hop RAG需要多步检索才能得到完整证据。复杂问答、跨文档推理常见。多跳链路更难评测和追踪。
GraphRAG图增强 RAGGraph RAG用知识图谱或实体关系增强检索和生成。适合关系密集、实体依赖强的知识库。不是所有文档库都需要图谱。
Citation引用-回答中标明信息来源或证据片段。企业 RAG 必须提供可追溯来源。引用了来源不代表答案完全被来源支持。
Context Injection上下文注入-将检索结果、用户状态或系统信息放入模型上下文。RAG 和 Agent 都常用。注入内容可能带 prompt injection 风险。
Knowledge Cutoff知识截止-模型预训练数据覆盖到的大致时间边界。解释为什么需要联网、RAG 或工具。截止日期不是模型知道或不知道的精确边界。

4.8 Agent、工具与协议

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
AgentAgent / 智能体AI Agent基于目标、上下文、状态和工具执行多步任务的系统。用于自动化研究、代码、客服、运维、数据分析。普通聊天机器人不一定是 Agent。
Agent LoopAgent 执行循环Loop感知、规划、行动、观察、状态更新和终止判断的循环。是 Agent 运行时的核心控制结构。不能只写无限循环,必须有预算和终止条件。
Planner规划器-将目标拆解为步骤、计划或任务队列的组件。用于复杂任务、长任务、多工具流程。计划需要验证和动态调整。
Executor执行器-根据计划调用工具或执行动作的组件。负责落地步骤、处理结果和错误。执行器必须有权限和幂等控制。
Memory记忆Agent MemoryAgent 跨轮次或跨任务保留信息的机制。可保存用户偏好、任务状态、经验、摘要。Memory 不是 RAG 的同义词。
Episodic Memory情景记忆事件记忆保存具体经历、任务轨迹或事件。用于复盘、回放、经验检索。事件记录可能包含敏感数据。
Semantic Memory语义记忆知识记忆保存事实、概念、偏好等较稳定知识。用于用户画像、知识库、常识补充。事实会过期,需要版本和来源。
Procedural Memory程序性记忆技能记忆保存可复用流程、脚本、操作步骤。类似 skill library 或 playbook。入库前必须验证,不能让错误流程固化。
Reflection反思Self-Critique对输出、轨迹或失败进行评估并生成修正。用于重试、学习经验、质量提升。模型自评不是事实,需要外部证据或 evaluator。
ReAct推理-行动范式Reason + Act交替进行推理、工具动作和观察的 Agent 方法。用于工具型 Agent 和交互式任务。生产中通常记录决策摘要,不暴露完整推理。
Plan-and-Execute规划-执行-先制定计划,再逐步执行和调整的 Agent 架构。长任务和多工具任务常见。静态计划无法应对环境变化。
Router路由器-根据输入或状态选择模型、工具、流程或 Agent。用于多模型、多工具、意图分流。路由错误会造成质量和成本问题。
Multi-Agent System多 Agent 系统MAS多个 Agent 通过分工、通信或协作完成任务。用于研究助手、软件工程、复杂流程。多 Agent 会增加成本、延迟和失控面。
Handoff移交-将任务从一个 Agent 交给另一个 Agent 或人工。需要移交条件、上下文摘要和责任边界。不是简单转发消息。
Tool工具-Agent 可调用的外部能力,如搜索、数据库、代码执行、业务 API。应有 schema、权限、超时、审计和错误处理。工具描述和返回都不应默认可信。
Tool Schema工具模式Function Schema描述工具名称、参数、类型和约束的结构。用于模型选择和参数生成。schema 不能替代业务校验。
Model Context Protocol模型上下文协议MCP连接 AI 应用与工具、资源、提示词的开放协议。用于统一暴露工具和上下文能力。MCP 是协议,不是完整 Agent 框架。
Tool Permission工具权限-对工具调用主体、范围和副作用的限制。高风险操作需审批、沙箱、最小权限。不要让模型自由调用生产写接口。
Sandbox沙箱-隔离执行代码或工具的环境。用于代码解释器、浏览器自动化、文件操作。沙箱不是绝对安全,仍需资源限制和审计。
Idempotency幂等性-重复执行同一操作不会产生额外副作用。Agent 重试、支付、下单、写操作必须考虑。只读操作通常天然更接近幂等。
Retry重试-失败后按策略再次执行。处理网络、限流、临时错误。非幂等操作不能盲目重试。

4.9 评测、质量与实验

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
Evaluation评测Eval衡量模型、系统或 Agent 输出质量的过程。包括离线集、在线指标、人工评审、回放。单次 demo 不是评测。
Benchmark基准测试-标准化任务和指标集合。用于横向比较模型或方法。benchmark 高分不代表业务可用。
Metric指标-可量化衡量效果、成本或风险的数值。质量、延迟、成本、安全都要有指标。指标会诱导优化,需防止 Goodhart 效应。
Accuracy准确率-预测正确样本占总样本比例。分类任务基础指标。类别不平衡时准确率可能严重误导。
Precision精确率查准率被预测为正的样本中真正为正的比例。用于控制误报。精确率高可能召回率低。
Recall召回率查全率所有真实正样本中被找出的比例。安全、医疗、检索、风控中常关键。召回率高可能带来更多误报。
F1 ScoreF1 分数F1精确率和召回率的调和平均。类别不平衡时常用综合指标。F1 不能表达业务成本差异。
Perplexity困惑度PPL衡量语言模型预测序列概率的指标。预训练和语言建模评估常用。PPL 低不一定助手任务表现好。
Hallucination幻觉-模型生成看似合理但不符合事实或证据的内容。RAG、客服、法律、医疗场景重点控制。幻觉不是简单“编造”,也包括引用错配和过度推断。
Robustness鲁棒性-系统面对扰动、噪声、异常输入仍保持稳定的能力。通过对抗样本、边界测试、压力测试验证。鲁棒不等于安全。
Reliability可靠性-系统在预期条件下持续正确工作的能力。关注错误率、可恢复性、SLO。一次成功不代表可靠。
Regression Test回归测试-确认改动未破坏既有能力的测试。模型、prompt、工具、RAG 索引变更后运行。LLM 回归测试要处理非确定性。
A/B TestingA/B 测试-将用户流量分到不同版本比较线上效果。验证模型、prompt、UI、排序策略。需要样本量、随机化和风险控制。
Offline Evaluation离线评测-不影响线上用户的评测。用固定数据集、回放、人工标注评估。离线高分不保证线上体验。
Online Evaluation在线评测-在真实或灰度流量中评估系统。A/B、灰度、用户反馈、生产监控。在线实验要遵守隐私和安全边界。
Human Evaluation人工评测-由人工按标准判断输出质量。用于开放生成、复杂任务和安全审查。成本高且需控制评审一致性。
LLM-as-a-JudgeLLM 作为评审模型评审用模型评估模型输出。可扩展评测,但需校准和抽检。同源模型评审有偏差,不能完全替代人工。
Task Success Rate任务成功率TSRAgent 或系统按标准完成任务的比例。衡量端到端效果。不能只看最终答案,要看工具、权限、成本和副作用。
Tool Call Accuracy工具调用准确率-是否在正确时机调用正确工具并传入正确参数。工具型 Agent 关键指标。工具调用成功不代表任务成功。
Trace Evaluation轨迹评测-对执行过程、工具调用、状态转移进行评测。Agent 和工作流系统常用。只评最终答案会漏掉危险中间行为。

4.10 安全、治理与合规

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
AI SafetyAI 安全-降低 AI 系统造成伤害、失控或滥用风险的研究和工程实践。覆盖内容安全、工具安全、系统安全、对齐和治理。不只是不输出敏感词。
AI GovernanceAI 治理-管理 AI 生命周期中的责任、风险、合规和监督。包括政策、审计、审批、模型卡、数据治理。治理不是上线前写一份说明。
Trustworthy AI可信 AI-强调可靠、安全、公平、透明、隐私和问责的 AI。常见于企业治理和政策框架。“可信”需要机制和证据,不是宣传词。
Responsible AI负责任 AIRAI将伦理、法律、安全和社会影响纳入 AI 开发部署。大企业 AI 治理常用框架。不等于只做内容审核。
Privacy隐私-个人信息和敏感数据的保护。数据收集、训练、日志、RAG、Agent 工具都涉及。脱敏后仍可能重识别。
Personally Identifiable Information个人可识别信息PII可单独或结合其他信息识别个人的数据。日志、训练数据、prompt、工具返回需过滤。不同法域定义不同。
Data Exfiltration数据外泄-敏感数据被泄露给未授权主体、工具或输出。Agent 工具链和 RAG 场景重点防护。不只发生在最终回答,也可能发生在日志和工具参数。
Prompt Injection提示注入-外部内容诱导模型违背系统或开发者意图。Web、邮件、文档、RAG 片段都可能携带注入。不只来自用户输入。
Indirect Prompt Injection间接提示注入-恶意指令藏在网页、文档、邮件等外部内容中。浏览器 Agent、RAG、插件系统高风险。模型读取外部内容时必须隔离指令和数据。
Jailbreak越狱-用户诱导模型绕过安全策略的攻击。内容安全和红队测试常见。越狱与 prompt injection 有交集但不完全相同。
Tool Poisoning工具投毒-恶意工具描述、schema 或返回内容诱导错误行为。MCP、插件、工具市场、动态工具加载需防范。工具元数据也可能是攻击面。
Data Poisoning数据投毒-攻击者污染训练、微调或检索数据以改变模型行为。数据管道、用户反馈、公开语料要防护。不是只有训练集会被投毒,RAG 索引也会。
Adversarial Example对抗样本-精心构造的小扰动输入导致模型错误输出。视觉、文本、安全评测中常见。人类看起来正常不代表模型不会被误导。
Red Teaming红队测试-主动模拟攻击者寻找系统弱点。上线前和重大变更后用于安全验证。红队不是一次性 checklist。
Content Moderation内容审核-识别和处理违规、有害或敏感内容。输入、输出、文件和多模态内容都可审核。内容审核不能覆盖工具权限风险。
Access Control访问控制-控制主体能访问哪些数据、工具和操作。RAG 权限过滤、Agent 工具审批、后台 API。不能只依赖模型“自觉不看”。
Least Privilege最小权限-只授予完成任务所需的最小权限。Agent 工具、MCP Server、云资源配置。方便调试的高权限不能直接进生产。
Audit Log审计日志-记录关键操作、访问、决策和工具调用的日志。用于追责、回放、合规和安全分析。日志本身也可能包含敏感数据。
Model Card模型卡-描述模型用途、数据、指标、限制和风险的文档。模型上线、选型和治理资料。模型卡不是法律豁免。
Risk Management风险管理-识别、评估、缓解和监控 AI 风险的流程。企业 AI 项目需贯穿全生命周期。不能只在上线审批时做。

4.11 MLOps、LLMOps 与生产运维

English Term推荐中文别名 / 缩写含义工程语境中的用法常见误解或边界
MLOps机器学习运维-将 ML 模型开发、部署、监控、治理工程化的实践。覆盖数据、训练、模型注册、部署、监控。不是只把模型包成 API。
LLMOps大模型运维-面向 LLM 应用的开发、评测、部署、监控和成本治理。包括 prompt、RAG、工具、eval、token 成本。LLMOps 与 MLOps 有重叠,但关注点不同。
Model Serving模型服务Serving将模型部署为可调用服务。关注吞吐、延迟、并发、扩缩容、稳定性。serving 不只是启动一个脚本。
Deployment部署-将模型或应用发布到目标环境。可分离线、在线、边缘、本地、云端。部署成功不代表质量达标。
Canary Release金丝雀发布灰度发布将小部分流量切到新版本观察风险。模型、prompt、RAG 索引、工具变更都适用。灰度要定义回滚指标。
Rollback回滚-将系统恢复到之前稳定版本。模型、prompt、配置、索引都应可回滚。没有版本化就很难可靠回滚。
Latency延迟-从请求发出到收到响应的时间。影响用户体验和成本。平均延迟会掩盖 P95/P99 问题。
Throughput吞吐量-单位时间内处理请求或 token 的能力。服务容量规划和压测关键指标。高吞吐可能牺牲单请求延迟。
Cost成本-训练、推理、存储、带宽、人审和运维成本。LLM 应用需按 token、工具、缓存、重试核算。只看模型调用价格会低估总成本。
Token BudgetToken 预算-单次或整体任务可使用的 token 上限。控制上下文、RAG、Agent 循环和成本。预算不足会截断信息,预算过大增加成本和噪声。
Rate Limit速率限制限流限制单位时间请求数或 token 数。需要排队、退避、降级和重试策略。盲目重试会放大限流。
Caching缓存-复用已有结果以降低延迟和成本。可缓存检索、embedding、模型响应、工具结果。缓存需要失效策略和权限隔离。
Observability可观测性-通过日志、指标、追踪理解系统行为。LLM 应用要记录 prompt、工具、检索、成本和错误。不能为了观测泄露敏感数据。
Log日志-记录系统事件、输入输出摘要和错误的信息。调试、审计、监控和回放使用。原始 prompt 和输出可能含隐私。
Trace轨迹 / 链路追踪-一次请求或任务的完整执行链路。Agent、RAG、工具调用排障必需。只保存最终答案无法复盘。
Span跟踪片段-trace 中的单个操作,如模型调用、检索、工具调用。用于定位延迟、错误和成本来源。span 要记录必要上下文但避免敏感泄露。
Monitoring监控-持续观察指标、日志和告警。监控质量、成本、延迟、安全、漂移。只监控服务存活不足以保障 AI 质量。
Alerting告警-指标或事件超过阈值时通知人员或系统。成本飙升、错误率、越权访问、质量下降都应告警。告警过多会导致疲劳。
Service Level Objective服务等级目标SLO对服务质量目标的明确量化承诺。如可用性、P95 延迟、错误率。AI 质量指标也应有 SLO 或类似门槛。
Fallback降级 / 兜底-主路径失败时使用备用模型、规则或人工。限流、模型故障、检索失败时触发。降级路径也要测试。
Batch Inference批量推理-离线或批处理方式运行推理。报表、数据标注、离线评分。不适合强实时交互。
Streaming流式输出-边生成边返回部分结果。改善 LLM 交互体感延迟。流式不能降低完整生成总成本。

5. 权威资料与核对来源

本文术语含义以工程落地语境综合整理,并参考以下公开资料。快速变化的信息在引用时应重新核对官方文档。

核对日期:2026-05-15。