AI常见名词中英互译手册
核对日期:2026-05-15
定位:面向工程学习和方案评审的 AI 术语中英互译手册。它不是论文词典,也不替代官方文档;遇到 API、模型能力、合规要求等快速变化内容,应回到官方资料核对。
1. 使用说明
- 推荐写法:首次出现时使用“中文译名(English Term,缩写)”,例如“微调(Fine-tuning)”。
- 译名优先级:优先采用工程社区常用译法;存在多种译法时,在“别名”列补充。
- 缩写处理:LLM、RAG、RLHF、MCP 等高频缩写可以保留英文,但首次出现仍应解释全称。
- 边界判断:同一术语在研究论文、云服务、产品文档中的含义可能略有差异,本文以工程落地语境为主。
- 安全提醒:用户输入、外部文档、工具返回、模型输出都不能默认可信。
2. 快速主题索引
| 主题 | 重点术语 |
|---|---|
| AI / ML / DL 基础 | AI、ML、DL、模型、参数、训练、推理、泛化、过拟合、欠拟合 |
| 数据与特征 | 数据集、样本、标签、特征、特征工程、数据泄漏、数据漂移、合成数据 |
| 训练与优化 | 损失函数、梯度下降、反向传播、学习率、批大小、正则化、优化器 |
| 神经网络 | 神经元、层、激活函数、CNN、RNN、Transformer、Attention、Embedding |
| LLM 与生成式 AI | LLM、基础模型、生成式 AI、Token、上下文窗口、多模态、MoE |
| Prompt 与对齐 | Prompt、System Prompt、Few-shot、CoT、SFT、RLHF、DPO、Alignment |
| 微调与适配 | Fine-tuning、PEFT、LoRA、Adapter、蒸馏、量化、剪枝 |
| RAG 与知识系统 | RAG、检索、向量数据库、Chunk、Embedding、Rerank、引用、GraphRAG |
| Agent 与工具 | Agent、Agent Loop、Tool Calling、Function Calling、MCP、Memory、Planner |
| 评测与质量 | Benchmark、Evals、准确率、召回率、F1、幻觉、鲁棒性、A/B Test |
| 安全与治理 | Prompt Injection、Jailbreak、Data Exfiltration、Guardrails、Red Teaming |
| 工程化与运维 | MLOps、LLMOps、Serving、Latency、Throughput、Cost、Trace、Observability |
3. 英文首字母索引
| 字母 | 术语 |
|---|---|
| A | AI、AGI、Agent、Alignment、Annotation、Attention、Autoencoder |
| B | Backpropagation、Batch、Benchmark、BM25 |
| C | Chain-of-Thought、Chunking、Classification、CNN、Context Window、Cost |
| D | Data Drift、Data Leakage、Dataset、Deep Learning、Diffusion Model、Distillation、DPO |
| E | Embedding、Epoch、Evaluation、Executor |
| F | Feature、Feature Engineering、Fine-tuning、Foundation Model、Function Calling |
| G | Generative AI、Gradient Descent、GraphRAG、Guardrails |
| H | Hallucination、Human-in-the-loop、Hyperparameter |
| I | Inference、Instruction Tuning、Intent Classification |
| J | Jailbreak |
| K | Knowledge Distillation |
| L | Label、Latency、Learning Rate、LLM、LoRA、Loss Function |
| M | Machine Learning、MCP、Memory、MLOps、MoE、Multimodal |
| N | Neural Network、Normalization |
| O | Optimizer、Overfitting |
| P | Parameter、PEFT、Planner、Prompt、Prompt Injection |
| Q | Quantization、Query Rewriting |
| R | RAG、Ranking、Recall、Red Teaming、Reflection、Regression、Rerank、RLHF、Robustness |
| S | Safety、Sample、Semantic Search、Serving、SFT、Span、Structured Output、Synthetic Data |
| T | Token、Tokenization、Tool Calling、Trace、Transformer、Throughput |
| U | Underfitting |
| V | Validation Set、Vector Database |
| W | Weight |
4. 术语正文
4.1 AI / ML / DL 基础
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Artificial Intelligence | 人工智能 | AI | 让机器执行感知、推理、生成、决策等智能任务的技术总称。 | 用作最大范围概念,覆盖规则系统、机器学习、深度学习和生成式 AI。 | 不等于大模型;传统搜索、规划、专家系统也可属于 AI。 |
| Machine Learning | 机器学习 | ML | 通过数据学习模式并对新输入做预测或决策的方法。 | 用于分类、回归、排序、推荐、风控等任务。 | 不等于深度学习;线性模型、树模型也是 ML。 |
| Deep Learning | 深度学习 | DL | 使用多层神经网络从数据中学习表示和函数映射。 | 用于视觉、语音、NLP、推荐和大模型训练。 | “深”指多层表示,不代表天然更可靠。 |
| Model | 模型 | - | 从数据或规则中得到的可执行映射,用于预测、生成或决策。 | 可以是线性模型、树模型、神经网络或 LLM。 | 模型不是完整产品,还需要数据、评测、服务和治理。 |
| Parameter | 参数 | - | 模型训练得到并在推理时使用的内部数值。 | LLM 参数规模常用于粗略描述容量。 | 参数多不必然效果好;数据、架构、训练方法同样关键。 |
| Weight | 权重 | - | 神经网络连接或层中的可学习参数。 | 训练会更新权重,推理读取权重。 | 权重不是业务配置,不能随意手改。 |
| Hyperparameter | 超参数 | - | 训练前或训练外配置的参数,如学习率、批大小、层数。 | 通过实验、搜索或经验设定。 | 超参数通常不由梯度直接学习得到。 |
| Training | 训练 | - | 用数据和目标函数更新模型参数的过程。 | 包括预训练、监督训练、微调、对齐训练等。 | 训练不是把知识库塞进模型的唯一方式。 |
| Inference | 推理 | 预测、生成 | 使用训练好的模型处理输入并产生输出。 | 在线服务中关注延迟、成本、吞吐和稳定性。 | 这里的推理不一定等于人类逻辑推理,也可指模型运行。 |
| Prediction | 预测 | - | 模型对输入给出类别、数值、排序或概率估计。 | 常见于风控、推荐、需求预测、分类器。 | 预测是输出形态,不代表结果一定可解释。 |
| Generalization | 泛化 | - | 模型在未见数据上保持效果的能力。 | 通过验证集、测试集和线上监控评估。 | 训练集高分不代表泛化好。 |
| Overfitting | 过拟合 | - | 模型记住训练数据细节,导致新数据效果差。 | 用正则化、更多数据、早停、交叉验证缓解。 | 训练误差低、线上效果差时常见。 |
| Underfitting | 欠拟合 | - | 模型能力不足或训练不充分,训练集和测试集都表现差。 | 需要更强模型、更好特征或更充分训练。 | 欠拟合不是靠加正则化解决。 |
| Supervised Learning | 监督学习 | - | 使用带标签数据学习输入到输出的映射。 | 分类、回归、序列标注常用。 | 标签质量决定上限,脏标签会污染模型。 |
| Unsupervised Learning | 无监督学习 | - | 从无标签数据中学习结构、分布或表示。 | 聚类、降维、表示学习常见。 | 不等于完全没有目标函数。 |
| Self-supervised Learning | 自监督学习 | SSL | 从数据自身构造训练信号。 | LLM 预训练常用下一个 token 预测等任务。 | 不是没有监督,而是监督信号来自数据本身。 |
| Reinforcement Learning | 强化学习 | RL | 智能体通过与环境交互并根据奖励学习策略。 | 用于游戏、机器人、排序优化、对齐训练。 | 不等于所有带反馈的训练;奖励设计很关键。 |
| Classification | 分类 | - | 将输入分到离散类别。 | 意图识别、垃圾邮件识别、风险等级判断。 | 多标签分类和多分类不同。 |
| Regression | 回归 | - | 预测连续数值。 | 价格预测、需求预测、评分估计。 | 不是数据库回归测试中的 regression。 |
| Clustering | 聚类 | - | 将相似样本自动分组。 | 用户分群、文档聚类、异常发现。 | 聚类结果不天然有业务含义,需要解释和验证。 |
| Ranking | 排序 | - | 对候选项按相关性、质量或收益排序。 | 搜索、推荐、RAG 召回后排序。 | 排序好坏不能只看单条结果,要看整体指标。 |
| Artificial General Intelligence | 通用人工智能 | AGI | 通常指能跨广泛任务达到或超过人类水平的智能系统。 | 多用于战略、研究和风险讨论。 | 没有统一工程验收标准,避免在产品文档中滥用。 |
4.2 数据、特征与数据治理
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Dataset | 数据集 | - | 用于训练、验证、测试或评测的一组样本。 | 应记录来源、许可、时间范围、清洗规则和版本。 | 数据集不是越大越好,质量和分布更关键。 |
| Sample | 样本 | - | 数据集中的单个训练或评测实例。 | 可能包含输入、标签、元数据、权重。 | 样本独立同分布只是理想假设。 |
| Label | 标签 | 标注 | 监督学习中作为目标输出的标记或答案。 | 由人工、规则、日志或模型生成。 | 模型生成标签要标明弱监督或伪标签风险。 |
| Annotation | 标注 | 数据标注 | 给样本添加标签、边界框、评分或解释的过程。 | 需要标注规范、一致性检查和抽检。 | 标注员一致不代表标签真实无误。 |
| Feature | 特征 | - | 模型输入中表达对象属性的变量或表示。 | 传统 ML 依赖显式特征,深度学习常自动学习表示。 | 特征不是业务字段原样堆进去。 |
| Feature Engineering | 特征工程 | - | 构造、选择、变换和验证特征的过程。 | 在风控、推荐、搜索中仍非常重要。 | LLM 场景也有特征工程,如检索特征和提示特征。 |
| Data Cleaning | 数据清洗 | - | 修复、过滤、去重、标准化数据问题的过程。 | 训练前处理缺失、重复、脏文本、异常值。 | 清洗规则会改变分布,需要可追踪。 |
| Data Preprocessing | 数据预处理 | - | 模型训练或推理前的数据转换流程。 | 包括清洗、归一化、分词、编码、裁剪等。 | 训练和推理的预处理必须保持一致。 |
| Data Augmentation | 数据增强 | - | 通过变换或生成扩充训练样本。 | 图像旋转、文本改写、语音加噪、合成数据。 | 增强不能破坏标签语义。 |
| Synthetic Data | 合成数据 | - | 由规则、仿真或模型生成的数据。 | 用于冷启动、隐私保护、边界场景补充。 | 合成数据可能放大偏差,不能替代真实评测。 |
| Data Leakage | 数据泄漏 | - | 训练过程使用了本不应可见的信息。 | 如测试集信息进入训练、未来信息进入特征。 | 会造成离线高分、线上失效。 |
| Data Drift | 数据漂移 | - | 线上输入分布随时间偏离训练数据。 | 通过监控特征分布、召回质量、错误类型发现。 | 漂移不一定立刻导致指标下降,但需要告警。 |
| Class Imbalance | 类别不平衡 | - | 不同标签类别样本数量差异很大。 | 欺诈检测、故障检测、医学诊断常见。 | 准确率会误导,应看召回率、精确率、PR 曲线。 |
| Outlier | 离群点 | 异常值 | 与大多数样本显著不同的数据点。 | 清洗、鲁棒训练、异常检测中需要处理。 | 离群点不一定要删除,可能代表关键场景。 |
| Normalization | 归一化 | - | 将数据缩放到统一范围或分布。 | 常用于数值特征和神经网络训练。 | 与标准化不完全相同,文档中应说明方法。 |
| Train Set | 训练集 | - | 用于拟合模型参数的数据。 | 不应包含验证集和测试集信息。 | 训练集表现不能作为最终质量证明。 |
| Validation Set | 验证集 | Dev Set | 用于调参、选择模型和早停的数据。 | 反复使用会逐渐变成“训练的一部分”。 | 不应拿验证集当最终上线依据。 |
| Test Set | 测试集 | - | 用于最终评估泛化能力的数据。 | 上线前做冻结评估。 | 测试集被多次调参后会失去独立性。 |
| Ground Truth | 真实标签 | 标准答案 | 评测中作为参考的目标答案或事实。 | Evals、分类、抽取任务需要定义。 | LLM 开放问答常没有唯一 ground truth。 |
| Metadata | 元数据 | - | 描述数据来源、时间、权限、版本等的信息。 | RAG 权限过滤、引用追踪、审计都依赖元数据。 | 元数据错误会导致检索和权限错误。 |
4.3 训练、优化与模型压缩
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Loss Function | 损失函数 | Objective | 衡量模型输出与目标差异的函数。 | 训练通过最小化损失更新参数。 | 损失低不必然业务指标好。 |
| Gradient Descent | 梯度下降 | GD | 沿损失下降方向迭代更新参数的方法。 | 是许多优化器的基础思想。 | 实际训练常用 SGD、Adam 等变体。 |
| Backpropagation | 反向传播 | BP | 通过链式法则计算神经网络参数梯度。 | 深度学习训练的核心算法。 | 反向传播不是模型的推理过程。 |
| Optimizer | 优化器 | - | 根据梯度和状态更新参数的算法。 | SGD、Adam、AdamW 是常见优化器。 | 换优化器不能替代数据和目标设计。 |
| Learning Rate | 学习率 | LR | 每次参数更新的步长系数。 | 影响收敛速度和稳定性。 | 学习率过大可能发散,过小训练慢。 |
| Batch | 批 | Mini-batch | 一次训练迭代中共同计算梯度的一组样本。 | 批大小影响显存、吞吐、梯度噪声。 | 大 batch 不必然效果更好。 |
| Batch Size | 批大小 | - | 每个 batch 包含的样本数量。 | 训练性能和泛化都受影响。 | 需要配合学习率和硬件调优。 |
| Epoch | 轮次 | - | 模型遍历完整训练集一次。 | 训练日志常记录 epoch、step、loss。 | 多 epoch 可能导致过拟合。 |
| Regularization | 正则化 | - | 限制模型复杂度以提升泛化的方法。 | L1、L2、Dropout、早停等。 | 正则化过强会欠拟合。 |
| Dropout | 随机失活 | - | 训练时随机屏蔽部分神经元输出。 | 降低过拟合风险。 | 推理时通常不启用同样的随机屏蔽。 |
| Early Stopping | 早停 | - | 验证指标不再改善时停止训练。 | 防止过拟合并节省成本。 | 需要合理验证集,否则会误判。 |
| Checkpoint | 检查点 | CKPT | 训练过程中保存的模型权重和状态。 | 用于恢复训练、回滚、模型选择。 | checkpoint 可能包含优化器状态,不只是权重文件。 |
| Fine-tuning | 微调 | FT | 在预训练模型基础上,用特定数据继续训练以适配任务或风格。 | 用于稳定格式、领域风格、任务模式,而不是实时知识检索。 | 微调不是万能知识注入;事实更新常优先用 RAG。 |
| Full Fine-tuning | 全量微调 | - | 更新模型全部或大部分参数的微调方式。 | 效果潜力高但成本和风险也高。 | 需要更多数据、算力和回归评测。 |
| Parameter-Efficient Fine-tuning | 参数高效微调 | PEFT | 只训练少量新增或低秩参数的适配方法集合。 | 用于降低微调成本和存储开销。 | PEFT 不是单一算法,LoRA 是其中一种。 |
| Low-Rank Adaptation | 低秩适配 | LoRA | 用低秩矩阵近似参数更新的 PEFT 方法。 | 常用于开源 LLM、扩散模型适配。 | LoRA 权重仍需管理版本和合并策略。 |
| Adapter | 适配器 | Adapter Layer | 在模型中插入小模块并只训练这些模块。 | 多任务或多领域适配时便于切换。 | Adapter 会增加推理路径复杂度。 |
| Prompt Tuning | 提示调优 | - | 学习一组连续提示向量而非改写自然语言 prompt。 | 参数高效适配的一类方法。 | 不等于人工提示词工程。 |
| Instruction Tuning | 指令微调 | 指令调优 | 用指令-响应数据训练模型更好遵循任务指令。 | 是 LLM 从续写模型走向助手模型的重要步骤。 | 不能保证安全或事实正确。 |
| Supervised Fine-tuning | 监督微调 | SFT | 用人工或高质量示例对模型进行监督训练。 | 常作为对齐流程的第一阶段。 | SFT 质量高度依赖样本设计。 |
| Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习 | RLHF | 使用人类偏好训练奖励模型,再优化模型行为。 | 用于提升有用性、安全性和偏好一致性。 | 人类反馈也会带来偏差和成本。 |
| Direct Preference Optimization | 直接偏好优化 | DPO | 直接用偏好对优化模型,不显式训练奖励模型的一类方法。 | 用于对齐和偏好学习。 | 简化流程不代表不需要高质量偏好数据。 |
| Reinforcement Fine-tuning | 强化微调 | RFT | 用可验证奖励或任务反馈进一步优化模型行为。 | 适合有明确评分器的推理、代码、工具任务。 | 奖励设计错误会导致 reward hacking。 |
| Knowledge Distillation | 知识蒸馏 | Distillation | 用大模型或教师模型输出训练较小学生模型。 | 降低推理成本、部署到边缘设备。 | 蒸馏会继承教师模型偏差和错误。 |
| Quantization | 量化 | - | 用更低精度表示权重或激活以降低存储和计算成本。 | INT8、INT4 常用于推理加速和显存压缩。 | 量化可能损失质量,需要评测。 |
| Pruning | 剪枝 | - | 删除不重要的连接、权重、层或结构。 | 用于模型压缩和加速。 | 剪枝后通常需要微调恢复效果。 |
4.4 神经网络、Transformer 与表示学习
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Neural Network | 神经网络 | NN | 由层和可学习参数组成的函数近似模型。 | 深度学习模型的基础结构。 | 名称受生物启发,但不是大脑复制品。 |
| Layer | 层 | - | 神经网络中一组计算单元或变换。 | 常见有全连接层、卷积层、注意力层。 | 层数多不一定效果好。 |
| Activation Function | 激活函数 | - | 引入非线性的函数。 | ReLU、GELU、Sigmoid、Tanh 常见。 | 没有非线性时多层线性网络仍等价于线性变换。 |
| Convolutional Neural Network | 卷积神经网络 | CNN | 使用卷积提取局部模式的神经网络。 | 图像、视频、语音特征提取常用。 | 视觉领域已大量采用 Transformer,但 CNN 仍有价值。 |
| Recurrent Neural Network | 循环神经网络 | RNN | 通过循环状态处理序列的神经网络。 | 早期 NLP、时间序列、语音任务常用。 | 长序列训练困难,很多场景被 Transformer 替代。 |
| Transformer | Transformer | 变换器 | 以自注意力为核心的序列建模架构。 | LLM、视觉、语音、多模态模型的主流架构。 | Transformer 不是 GPT 的专有名称。 |
| Attention | 注意力机制 | - | 根据相关性为不同输入位置分配权重的机制。 | 帮助模型在上下文中选择相关信息。 | 注意力权重不等于严格的人类解释。 |
| Self-Attention | 自注意力 | - | 序列内部 token 之间相互计算注意力。 | Transformer 的核心模块。 | 计算成本随序列长度增长明显。 |
| Multi-Head Attention | 多头注意力 | MHA | 并行计算多个注意力子空间。 | 提升模型表达能力。 | 多头数量不是越多越好。 |
| Positional Encoding | 位置编码 | Position Embedding | 向模型注入序列位置信息的方法。 | Transformer 需要位置机制理解顺序。 | 位置编码方案会影响长上下文泛化。 |
| Embedding | 嵌入 | 向量表示 | 将离散对象映射为稠密向量。 | 用于语义检索、推荐、聚类、分类、RAG。 | embedding 相似不等于事实正确。 |
| Vector | 向量 | - | 一组数值组成的表示。 | embedding、特征、参数都可以是向量。 | 向量维度高不必然质量高。 |
| Latent Space | 潜在空间 | 隐空间 | 模型学习到的连续表示空间。 | 生成模型、表示学习、聚类中常用。 | 潜在空间坐标通常不可直接按业务字段解释。 |
| Representation Learning | 表示学习 | - | 自动学习适合任务的数据表示。 | 深度学习的核心优势之一。 | 好表示仍需评测验证。 |
| Autoencoder | 自编码器 | AE | 学习将输入编码再重建的神经网络。 | 降维、异常检测、生成模型基础。 | 重建好不代表语义理解好。 |
| Diffusion Model | 扩散模型 | - | 通过逐步去噪学习生成数据的模型。 | 图像、视频、音频生成常见。 | 扩散模型不只用于图片。 |
| Encoder | 编码器 | - | 将输入转换为内部表示的模型部分。 | BERT、embedding 模型、VAE 中常见。 | 编码器不负责所有生成任务。 |
| Decoder | 解码器 | - | 从内部表示生成输出的模型部分。 | GPT 类自回归生成模型本质上是 decoder-only。 | decoder-only 不等于没有理解能力。 |
| Encoder-Decoder | 编码器-解码器 | Seq2Seq | 编码输入后再解码输出的架构。 | 翻译、摘要、文本到文本任务常见。 | 与 decoder-only 架构的上下文使用方式不同。 |
4.5 LLM、生成式 AI 与多模态
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Large Language Model | 大语言模型 | LLM | 在大规模文本或多模态数据上训练的语言模型。 | 用于对话、生成、推理、抽取、工具调用。 | LLM 不是 Agent;Agent 是围绕模型构建的系统。 |
| Language Model | 语言模型 | LM | 建模文本序列概率或生成下一个 token 的模型。 | LLM 是大规模语言模型的一类。 | 语言模型可大可小,不都具备通用助手能力。 |
| Foundation Model | 基础模型 | FM | 在大规模数据上预训练,可适配多任务的模型。 | 作为微调、RAG、Agent、应用开发的基础。 | 基础模型不等于开箱即用的业务系统。 |
| Generative AI | 生成式 AI | GenAI | 生成文本、图像、音频、视频、代码等内容的 AI。 | 内容生产、编程辅助、设计、客服、搜索增强。 | 生成能力不等于事实可靠。 |
| Token | 词元 | Token | 模型处理文本的基本单位,可是字、词、子词或符号片段。 | 计费、上下文窗口、延迟和截断都与 token 相关。 | token 不等于中文词或英文单词。 |
| Tokenization | 分词 / 词元化 | - | 将文本切分并映射为 token ID 的过程。 | 影响长度估算、检索切分、提示预算。 | 不同模型 tokenizer 不同。 |
| Vocabulary | 词表 | Vocab | tokenizer 可识别的 token 集合。 | 影响编码效率和特殊符号处理。 | 词表大不代表语义能力强。 |
| Context Window | 上下文窗口 | Context Length | 模型一次调用可处理的最大 token 范围。 | 设计 prompt、RAG、长文档处理时必须预算。 | 长上下文不代表模型会完美利用全部内容。 |
| Prompt | 提示词 | 提示 | 给模型的输入指令、上下文、示例和约束。 | 用于引导输出格式、任务目标和角色。 | prompt 不能替代权限、校验和评测。 |
| Completion | 补全 | 生成结果 | 模型基于输入生成的后续文本或结构化输出。 | 早期 API 常用 completion 表述。 | 在聊天 API 中通常称 response 或 message。 |
| Chat Model | 对话模型 | - | 针对多轮消息格式训练或封装的模型。 | 适合助手、客服、协作式应用。 | 对话格式不自动解决状态管理。 |
| Reasoning Model | 推理模型 | - | 针对复杂问题求解和多步推理优化的模型。 | 数学、代码、规划、复杂分析任务常用。 | 推理模型也会犯错,需要验证。 |
| Multimodal Model | 多模态模型 | - | 能处理或生成文本、图像、音频、视频等多种模态的模型。 | 文档理解、语音助手、视觉问答、视频分析。 | 多模态输入需要考虑隐私和版权。 |
| Vision-Language Model | 视觉语言模型 | VLM | 同时处理图像和文本的模型。 | 图片问答、OCR 增强、界面理解。 | 看图能力不等于可做精确测量。 |
| Image Generation | 图像生成 | Text-to-Image | 根据文本或参考图生成图像。 | 设计、营销素材、游戏资产、创意探索。 | 不能默认生成结果可商用,需看许可和版权风险。 |
| Video Generation | 视频生成 | - | 根据文本、图像或视频生成动态视频。 | 广告、预演、内容制作。 | 时间一致性、版权和人物肖像风险更高。 |
| Code Generation | 代码生成 | - | 模型生成、补全或修改代码。 | 编程助手、测试生成、迁移脚本。 | 生成代码必须经过审查、测试和安全扫描。 |
| Mixture of Experts | 专家混合 | MoE | 由多个专家子网络组成,每次激活部分专家的架构。 | 用于提高参数规模下的计算效率。 | 总参数多不等于每次推理都用全部参数。 |
| Temperature | 温度 | - | 控制采样随机性的生成参数。 | 低温更稳定,高温更多样。 | 温度不能修复事实错误。 |
| Top-p Sampling | 核采样 | Nucleus Sampling | 从累计概率达到 p 的候选 token 中采样。 | 控制生成多样性。 | top-p 与 temperature 会共同影响输出。 |
| Structured Output | 结构化输出 | JSON Output | 让模型按 schema 或约束格式输出。 | 工具调用、抽取、表单填充、自动化流程。 | 结构合法不代表字段语义正确。 |
| Function Calling | 函数调用 | - | 模型按函数 schema 生成函数名和参数,由应用执行。 | 用于连接外部 API、数据库、业务操作。 | 模型不应直接执行副作用,应用层要审批和校验。 |
| Tool Calling | 工具调用 | - | 模型或 Agent 选择并调用外部工具的能力。 | 比函数调用更泛,可含搜索、代码执行、浏览器、文件等。 | 工具返回也可能被注入或投毒。 |
4.6 Prompt、对齐与行为控制
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Prompt Engineering | 提示工程 | - | 设计、组织、测试和版本化模型输入的方法。 | 包括指令、上下文、示例、格式约束、评测。 | 不是玄学调词,必须结合 eval。 |
| System Prompt | 系统提示词 | - | 设定模型角色、边界、策略和优先级的高层指令。 | 用于应用行为基线和安全约束。 | 不能替代后端权限控制。 |
| User Prompt | 用户提示 | - | 终端用户输入的请求或问题。 | 是模型任务来源之一。 | 用户提示应视为不可信输入。 |
| Few-shot Prompting | 少样本提示 | Few-shot | 在 prompt 中提供少量示例来引导模型。 | 用于格式、风格、分类标准对齐。 | 示例过多会占用上下文并引入偏差。 |
| Zero-shot Prompting | 零样本提示 | Zero-shot | 不提供示例,仅用任务说明让模型完成任务。 | 简单任务或强模型常用。 | 零样本效果需要评测,不应凭感觉上线。 |
| Chain-of-Thought | 思维链 | CoT | 引导模型产生中间推理步骤的方法。 | 可提升复杂问题表现,但生产中常记录摘要而非暴露完整推理。 | CoT 文本不等于真实可靠推理过程。 |
| Prompt Chaining | 提示链 | - | 将任务拆成多个模型调用串联处理。 | 用于抽取、验证、改写、生成流水线。 | 链越长错误传播和成本越高。 |
| Output Parser | 输出解析器 | - | 将模型输出解析为结构化数据的组件。 | 结合 JSON schema、正则、类型校验使用。 | 解析成功不等于任务成功。 |
| Guardrails | 护栏 | - | 对输入、输出、工具、权限和策略的约束层。 | 用于安全、合规、格式、业务规则控制。 | 不是关键词过滤器的同义词。 |
| Alignment | 对齐 | - | 让模型行为符合人类意图、价值、规则和任务目标的过程。 | 包括 SFT、RLHF、DPO、安全策略、评测等。 | 对齐没有一次性完成状态。 |
| Preference Learning | 偏好学习 | - | 从人类或系统偏好比较中学习输出偏好。 | RLHF、DPO、排序模型中常见。 | 偏好不等于事实正确。 |
| Reward Hacking | 奖励黑客 | Specification Gaming | 模型利用奖励函数漏洞获得高分但违背真实目标。 | 强化学习和自动评测中要重点防范。 | 指标优化越强,越需要审查指标是否代表目标。 |
| Human Feedback | 人类反馈 | HF | 人类对模型输出、行为或轨迹给出的评分、偏好、纠错。 | 用于数据改进、对齐、产品反馈闭环。 | 用户点赞不一定是高质量训练信号。 |
| Human-in-the-loop | 人类在环 | HITL | 人类参与审批、纠错、接管或反馈的机制。 | 用于高风险工具调用、合规、质量兜底。 | 只放确认按钮不等于有效 HITL。 |
| Policy | 策略 | - | 系统允许、禁止或要求的行为规则。 | 安全策略、内容策略、工具使用策略。 | policy 需要可执行检查和审计。 |
| Calibration | 校准 | - | 让模型置信度与真实正确率更一致。 | 用于分类、风险评分、是否回答决策。 | LLM 自报置信度常不可靠。 |
4.7 RAG、检索与知识系统
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Retrieval-Augmented Generation | 检索增强生成 | RAG | 先从外部知识源检索相关上下文,再交给模型生成答案。 | 用于企业知识库问答、客服、规章查询。 | RAG 不是长期记忆,也不是自动保证事实正确。 |
| Retrieval | 检索 | - | 从文档、数据库或索引中找出相关信息。 | RAG、搜索、推荐和问答系统核心环节。 | 召回多不代表证据质量高。 |
| Retriever | 检索器 | - | 执行检索并返回候选文档或片段的组件。 | 可基于关键词、向量、混合检索。 | 检索器需要权限过滤和元数据控制。 |
| Dense Retrieval | 稠密检索 | 向量检索 | 使用 embedding 相似度检索语义相关内容。 | 适合语义相近但词面不同的问题。 | 对数字、ID、精确术语可能不如关键词检索。 |
| Sparse Retrieval | 稀疏检索 | 关键词检索 | 基于词项匹配和稀疏向量的检索。 | BM25、倒排索引常见。 | 不擅长语义改写,但精确匹配强。 |
| Hybrid Search | 混合检索 | Hybrid Retrieval | 结合关键词检索和向量检索。 | 企业 RAG 常用以兼顾语义和精确匹配。 | 合并策略和权重需要按任务调优。 |
| BM25 | BM25 排序 | - | 经典关键词检索排序算法。 | 搜索引擎和混合检索常用 baseline。 | 不能理解深层语义,但强在词面匹配。 |
| Semantic Search | 语义搜索 | - | 根据语义相似度而非纯关键词匹配搜索。 | FAQ、知识库、相似案例检索。 | 语义相似不等于答案可支持。 |
| Vector Database | 向量数据库 | Vector DB | 存储并检索向量及其元数据的数据库。 | 支撑 embedding 检索、相似搜索、RAG。 | 不是 RAG 的全部,也不替代文档治理。 |
| Vector Index | 向量索引 | ANN Index | 加速近似最近邻搜索的数据结构。 | HNSW、IVF、PQ 等常见。 | 近似搜索可能牺牲部分召回。 |
| Nearest Neighbor Search | 最近邻搜索 | NN Search | 查找向量空间中最相近的对象。 | embedding 检索基础操作。 | 高维相似度需要合理度量和归一化。 |
| Approximate Nearest Neighbor | 近似最近邻 | ANN | 用近似算法提升向量检索速度。 | 大规模向量库常用。 | ANN 参数会影响速度和召回率。 |
| Chunking | 分块 | 文档切分 | 将长文档切成可检索和可放入上下文的片段。 | RAG 质量高度依赖 chunk 设计。 | 固定长度切分容易破坏语义边界。 |
| Chunk | 文档块 | 片段 | 切分后的单个文本或多模态片段。 | 作为检索、引用和上下文注入单位。 | chunk 太大浪费上下文,太小缺少语义。 |
| Reranking | 重排序 | Rerank | 对初召回结果进行更精细排序。 | 用 cross-encoder、LLM 或规则提升证据质量。 | rerank 不能召回初检索漏掉的内容。 |
| Query Rewriting | 查询改写 | Query Expansion | 将用户问题改写为更适合检索的查询。 | 用于补全上下文、同义词扩展、多查询检索。 | 改写可能丢失约束、版本号和否定条件。 |
| Multi-hop Retrieval | 多跳检索 | Multi-hop RAG | 需要多步检索才能得到完整证据。 | 复杂问答、跨文档推理常见。 | 多跳链路更难评测和追踪。 |
| GraphRAG | 图增强 RAG | Graph RAG | 用知识图谱或实体关系增强检索和生成。 | 适合关系密集、实体依赖强的知识库。 | 不是所有文档库都需要图谱。 |
| Citation | 引用 | - | 回答中标明信息来源或证据片段。 | 企业 RAG 必须提供可追溯来源。 | 引用了来源不代表答案完全被来源支持。 |
| Context Injection | 上下文注入 | - | 将检索结果、用户状态或系统信息放入模型上下文。 | RAG 和 Agent 都常用。 | 注入内容可能带 prompt injection 风险。 |
| Knowledge Cutoff | 知识截止 | - | 模型预训练数据覆盖到的大致时间边界。 | 解释为什么需要联网、RAG 或工具。 | 截止日期不是模型知道或不知道的精确边界。 |
4.8 Agent、工具与协议
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Agent | Agent / 智能体 | AI Agent | 基于目标、上下文、状态和工具执行多步任务的系统。 | 用于自动化研究、代码、客服、运维、数据分析。 | 普通聊天机器人不一定是 Agent。 |
| Agent Loop | Agent 执行循环 | Loop | 感知、规划、行动、观察、状态更新和终止判断的循环。 | 是 Agent 运行时的核心控制结构。 | 不能只写无限循环,必须有预算和终止条件。 |
| Planner | 规划器 | - | 将目标拆解为步骤、计划或任务队列的组件。 | 用于复杂任务、长任务、多工具流程。 | 计划需要验证和动态调整。 |
| Executor | 执行器 | - | 根据计划调用工具或执行动作的组件。 | 负责落地步骤、处理结果和错误。 | 执行器必须有权限和幂等控制。 |
| Memory | 记忆 | Agent Memory | Agent 跨轮次或跨任务保留信息的机制。 | 可保存用户偏好、任务状态、经验、摘要。 | Memory 不是 RAG 的同义词。 |
| Episodic Memory | 情景记忆 | 事件记忆 | 保存具体经历、任务轨迹或事件。 | 用于复盘、回放、经验检索。 | 事件记录可能包含敏感数据。 |
| Semantic Memory | 语义记忆 | 知识记忆 | 保存事实、概念、偏好等较稳定知识。 | 用于用户画像、知识库、常识补充。 | 事实会过期,需要版本和来源。 |
| Procedural Memory | 程序性记忆 | 技能记忆 | 保存可复用流程、脚本、操作步骤。 | 类似 skill library 或 playbook。 | 入库前必须验证,不能让错误流程固化。 |
| Reflection | 反思 | Self-Critique | 对输出、轨迹或失败进行评估并生成修正。 | 用于重试、学习经验、质量提升。 | 模型自评不是事实,需要外部证据或 evaluator。 |
| ReAct | 推理-行动范式 | Reason + Act | 交替进行推理、工具动作和观察的 Agent 方法。 | 用于工具型 Agent 和交互式任务。 | 生产中通常记录决策摘要,不暴露完整推理。 |
| Plan-and-Execute | 规划-执行 | - | 先制定计划,再逐步执行和调整的 Agent 架构。 | 长任务和多工具任务常见。 | 静态计划无法应对环境变化。 |
| Router | 路由器 | - | 根据输入或状态选择模型、工具、流程或 Agent。 | 用于多模型、多工具、意图分流。 | 路由错误会造成质量和成本问题。 |
| Multi-Agent System | 多 Agent 系统 | MAS | 多个 Agent 通过分工、通信或协作完成任务。 | 用于研究助手、软件工程、复杂流程。 | 多 Agent 会增加成本、延迟和失控面。 |
| Handoff | 移交 | - | 将任务从一个 Agent 交给另一个 Agent 或人工。 | 需要移交条件、上下文摘要和责任边界。 | 不是简单转发消息。 |
| Tool | 工具 | - | Agent 可调用的外部能力,如搜索、数据库、代码执行、业务 API。 | 应有 schema、权限、超时、审计和错误处理。 | 工具描述和返回都不应默认可信。 |
| Tool Schema | 工具模式 | Function Schema | 描述工具名称、参数、类型和约束的结构。 | 用于模型选择和参数生成。 | schema 不能替代业务校验。 |
| Model Context Protocol | 模型上下文协议 | MCP | 连接 AI 应用与工具、资源、提示词的开放协议。 | 用于统一暴露工具和上下文能力。 | MCP 是协议,不是完整 Agent 框架。 |
| Tool Permission | 工具权限 | - | 对工具调用主体、范围和副作用的限制。 | 高风险操作需审批、沙箱、最小权限。 | 不要让模型自由调用生产写接口。 |
| Sandbox | 沙箱 | - | 隔离执行代码或工具的环境。 | 用于代码解释器、浏览器自动化、文件操作。 | 沙箱不是绝对安全,仍需资源限制和审计。 |
| Idempotency | 幂等性 | - | 重复执行同一操作不会产生额外副作用。 | Agent 重试、支付、下单、写操作必须考虑。 | 只读操作通常天然更接近幂等。 |
| Retry | 重试 | - | 失败后按策略再次执行。 | 处理网络、限流、临时错误。 | 非幂等操作不能盲目重试。 |
4.9 评测、质量与实验
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| Evaluation | 评测 | Eval | 衡量模型、系统或 Agent 输出质量的过程。 | 包括离线集、在线指标、人工评审、回放。 | 单次 demo 不是评测。 |
| Benchmark | 基准测试 | - | 标准化任务和指标集合。 | 用于横向比较模型或方法。 | benchmark 高分不代表业务可用。 |
| Metric | 指标 | - | 可量化衡量效果、成本或风险的数值。 | 质量、延迟、成本、安全都要有指标。 | 指标会诱导优化,需防止 Goodhart 效应。 |
| Accuracy | 准确率 | - | 预测正确样本占总样本比例。 | 分类任务基础指标。 | 类别不平衡时准确率可能严重误导。 |
| Precision | 精确率 | 查准率 | 被预测为正的样本中真正为正的比例。 | 用于控制误报。 | 精确率高可能召回率低。 |
| Recall | 召回率 | 查全率 | 所有真实正样本中被找出的比例。 | 安全、医疗、检索、风控中常关键。 | 召回率高可能带来更多误报。 |
| F1 Score | F1 分数 | F1 | 精确率和召回率的调和平均。 | 类别不平衡时常用综合指标。 | F1 不能表达业务成本差异。 |
| Perplexity | 困惑度 | PPL | 衡量语言模型预测序列概率的指标。 | 预训练和语言建模评估常用。 | PPL 低不一定助手任务表现好。 |
| Hallucination | 幻觉 | - | 模型生成看似合理但不符合事实或证据的内容。 | RAG、客服、法律、医疗场景重点控制。 | 幻觉不是简单“编造”,也包括引用错配和过度推断。 |
| Robustness | 鲁棒性 | - | 系统面对扰动、噪声、异常输入仍保持稳定的能力。 | 通过对抗样本、边界测试、压力测试验证。 | 鲁棒不等于安全。 |
| Reliability | 可靠性 | - | 系统在预期条件下持续正确工作的能力。 | 关注错误率、可恢复性、SLO。 | 一次成功不代表可靠。 |
| Regression Test | 回归测试 | - | 确认改动未破坏既有能力的测试。 | 模型、prompt、工具、RAG 索引变更后运行。 | LLM 回归测试要处理非确定性。 |
| A/B Testing | A/B 测试 | - | 将用户流量分到不同版本比较线上效果。 | 验证模型、prompt、UI、排序策略。 | 需要样本量、随机化和风险控制。 |
| Offline Evaluation | 离线评测 | - | 不影响线上用户的评测。 | 用固定数据集、回放、人工标注评估。 | 离线高分不保证线上体验。 |
| Online Evaluation | 在线评测 | - | 在真实或灰度流量中评估系统。 | A/B、灰度、用户反馈、生产监控。 | 在线实验要遵守隐私和安全边界。 |
| Human Evaluation | 人工评测 | - | 由人工按标准判断输出质量。 | 用于开放生成、复杂任务和安全审查。 | 成本高且需控制评审一致性。 |
| LLM-as-a-Judge | LLM 作为评审 | 模型评审 | 用模型评估模型输出。 | 可扩展评测,但需校准和抽检。 | 同源模型评审有偏差,不能完全替代人工。 |
| Task Success Rate | 任务成功率 | TSR | Agent 或系统按标准完成任务的比例。 | 衡量端到端效果。 | 不能只看最终答案,要看工具、权限、成本和副作用。 |
| Tool Call Accuracy | 工具调用准确率 | - | 是否在正确时机调用正确工具并传入正确参数。 | 工具型 Agent 关键指标。 | 工具调用成功不代表任务成功。 |
| Trace Evaluation | 轨迹评测 | - | 对执行过程、工具调用、状态转移进行评测。 | Agent 和工作流系统常用。 | 只评最终答案会漏掉危险中间行为。 |
4.10 安全、治理与合规
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| AI Safety | AI 安全 | - | 降低 AI 系统造成伤害、失控或滥用风险的研究和工程实践。 | 覆盖内容安全、工具安全、系统安全、对齐和治理。 | 不只是不输出敏感词。 |
| AI Governance | AI 治理 | - | 管理 AI 生命周期中的责任、风险、合规和监督。 | 包括政策、审计、审批、模型卡、数据治理。 | 治理不是上线前写一份说明。 |
| Trustworthy AI | 可信 AI | - | 强调可靠、安全、公平、透明、隐私和问责的 AI。 | 常见于企业治理和政策框架。 | “可信”需要机制和证据,不是宣传词。 |
| Responsible AI | 负责任 AI | RAI | 将伦理、法律、安全和社会影响纳入 AI 开发部署。 | 大企业 AI 治理常用框架。 | 不等于只做内容审核。 |
| Privacy | 隐私 | - | 个人信息和敏感数据的保护。 | 数据收集、训练、日志、RAG、Agent 工具都涉及。 | 脱敏后仍可能重识别。 |
| Personally Identifiable Information | 个人可识别信息 | PII | 可单独或结合其他信息识别个人的数据。 | 日志、训练数据、prompt、工具返回需过滤。 | 不同法域定义不同。 |
| Data Exfiltration | 数据外泄 | - | 敏感数据被泄露给未授权主体、工具或输出。 | Agent 工具链和 RAG 场景重点防护。 | 不只发生在最终回答,也可能发生在日志和工具参数。 |
| Prompt Injection | 提示注入 | - | 外部内容诱导模型违背系统或开发者意图。 | Web、邮件、文档、RAG 片段都可能携带注入。 | 不只来自用户输入。 |
| Indirect Prompt Injection | 间接提示注入 | - | 恶意指令藏在网页、文档、邮件等外部内容中。 | 浏览器 Agent、RAG、插件系统高风险。 | 模型读取外部内容时必须隔离指令和数据。 |
| Jailbreak | 越狱 | - | 用户诱导模型绕过安全策略的攻击。 | 内容安全和红队测试常见。 | 越狱与 prompt injection 有交集但不完全相同。 |
| Tool Poisoning | 工具投毒 | - | 恶意工具描述、schema 或返回内容诱导错误行为。 | MCP、插件、工具市场、动态工具加载需防范。 | 工具元数据也可能是攻击面。 |
| Data Poisoning | 数据投毒 | - | 攻击者污染训练、微调或检索数据以改变模型行为。 | 数据管道、用户反馈、公开语料要防护。 | 不是只有训练集会被投毒,RAG 索引也会。 |
| Adversarial Example | 对抗样本 | - | 精心构造的小扰动输入导致模型错误输出。 | 视觉、文本、安全评测中常见。 | 人类看起来正常不代表模型不会被误导。 |
| Red Teaming | 红队测试 | - | 主动模拟攻击者寻找系统弱点。 | 上线前和重大变更后用于安全验证。 | 红队不是一次性 checklist。 |
| Content Moderation | 内容审核 | - | 识别和处理违规、有害或敏感内容。 | 输入、输出、文件和多模态内容都可审核。 | 内容审核不能覆盖工具权限风险。 |
| Access Control | 访问控制 | - | 控制主体能访问哪些数据、工具和操作。 | RAG 权限过滤、Agent 工具审批、后台 API。 | 不能只依赖模型“自觉不看”。 |
| Least Privilege | 最小权限 | - | 只授予完成任务所需的最小权限。 | Agent 工具、MCP Server、云资源配置。 | 方便调试的高权限不能直接进生产。 |
| Audit Log | 审计日志 | - | 记录关键操作、访问、决策和工具调用的日志。 | 用于追责、回放、合规和安全分析。 | 日志本身也可能包含敏感数据。 |
| Model Card | 模型卡 | - | 描述模型用途、数据、指标、限制和风险的文档。 | 模型上线、选型和治理资料。 | 模型卡不是法律豁免。 |
| Risk Management | 风险管理 | - | 识别、评估、缓解和监控 AI 风险的流程。 | 企业 AI 项目需贯穿全生命周期。 | 不能只在上线审批时做。 |
4.11 MLOps、LLMOps 与生产运维
| English Term | 推荐中文 | 别名 / 缩写 | 含义 | 工程语境中的用法 | 常见误解或边界 |
|---|---|---|---|---|---|
| MLOps | 机器学习运维 | - | 将 ML 模型开发、部署、监控、治理工程化的实践。 | 覆盖数据、训练、模型注册、部署、监控。 | 不是只把模型包成 API。 |
| LLMOps | 大模型运维 | - | 面向 LLM 应用的开发、评测、部署、监控和成本治理。 | 包括 prompt、RAG、工具、eval、token 成本。 | LLMOps 与 MLOps 有重叠,但关注点不同。 |
| Model Serving | 模型服务 | Serving | 将模型部署为可调用服务。 | 关注吞吐、延迟、并发、扩缩容、稳定性。 | serving 不只是启动一个脚本。 |
| Deployment | 部署 | - | 将模型或应用发布到目标环境。 | 可分离线、在线、边缘、本地、云端。 | 部署成功不代表质量达标。 |
| Canary Release | 金丝雀发布 | 灰度发布 | 将小部分流量切到新版本观察风险。 | 模型、prompt、RAG 索引、工具变更都适用。 | 灰度要定义回滚指标。 |
| Rollback | 回滚 | - | 将系统恢复到之前稳定版本。 | 模型、prompt、配置、索引都应可回滚。 | 没有版本化就很难可靠回滚。 |
| Latency | 延迟 | - | 从请求发出到收到响应的时间。 | 影响用户体验和成本。 | 平均延迟会掩盖 P95/P99 问题。 |
| Throughput | 吞吐量 | - | 单位时间内处理请求或 token 的能力。 | 服务容量规划和压测关键指标。 | 高吞吐可能牺牲单请求延迟。 |
| Cost | 成本 | - | 训练、推理、存储、带宽、人审和运维成本。 | LLM 应用需按 token、工具、缓存、重试核算。 | 只看模型调用价格会低估总成本。 |
| Token Budget | Token 预算 | - | 单次或整体任务可使用的 token 上限。 | 控制上下文、RAG、Agent 循环和成本。 | 预算不足会截断信息,预算过大增加成本和噪声。 |
| Rate Limit | 速率限制 | 限流 | 限制单位时间请求数或 token 数。 | 需要排队、退避、降级和重试策略。 | 盲目重试会放大限流。 |
| Caching | 缓存 | - | 复用已有结果以降低延迟和成本。 | 可缓存检索、embedding、模型响应、工具结果。 | 缓存需要失效策略和权限隔离。 |
| Observability | 可观测性 | - | 通过日志、指标、追踪理解系统行为。 | LLM 应用要记录 prompt、工具、检索、成本和错误。 | 不能为了观测泄露敏感数据。 |
| Log | 日志 | - | 记录系统事件、输入输出摘要和错误的信息。 | 调试、审计、监控和回放使用。 | 原始 prompt 和输出可能含隐私。 |
| Trace | 轨迹 / 链路追踪 | - | 一次请求或任务的完整执行链路。 | Agent、RAG、工具调用排障必需。 | 只保存最终答案无法复盘。 |
| Span | 跟踪片段 | - | trace 中的单个操作,如模型调用、检索、工具调用。 | 用于定位延迟、错误和成本来源。 | span 要记录必要上下文但避免敏感泄露。 |
| Monitoring | 监控 | - | 持续观察指标、日志和告警。 | 监控质量、成本、延迟、安全、漂移。 | 只监控服务存活不足以保障 AI 质量。 |
| Alerting | 告警 | - | 指标或事件超过阈值时通知人员或系统。 | 成本飙升、错误率、越权访问、质量下降都应告警。 | 告警过多会导致疲劳。 |
| Service Level Objective | 服务等级目标 | SLO | 对服务质量目标的明确量化承诺。 | 如可用性、P95 延迟、错误率。 | AI 质量指标也应有 SLO 或类似门槛。 |
| Fallback | 降级 / 兜底 | - | 主路径失败时使用备用模型、规则或人工。 | 限流、模型故障、检索失败时触发。 | 降级路径也要测试。 |
| Batch Inference | 批量推理 | - | 离线或批处理方式运行推理。 | 报表、数据标注、离线评分。 | 不适合强实时交互。 |
| Streaming | 流式输出 | - | 边生成边返回部分结果。 | 改善 LLM 交互体感延迟。 | 流式不能降低完整生成总成本。 |
5. 权威资料与核对来源
本文术语含义以工程落地语境综合整理,并参考以下公开资料。快速变化的信息在引用时应重新核对官方文档。
- Google Machine Learning Glossary:https://developers.google.com/machine-learning/glossary/
- Google Machine Learning Crash Course:https://developers.google.com/machine-learning/crash-course/
- OpenAI Platform Docs:https://platform.openai.com/docs/
- OpenAI Developers Docs:https://developers.openai.com/
- Hugging Face Transformers Glossary:https://huggingface.co/docs/transformers/glossary
- NVIDIA Glossary:https://www.nvidia.com/en-us/glossary/
- IBM Think AI Topics:https://www.ibm.com/think/topics/
- OWASP Top 10 for LLM Applications:https://owasp.org/www-project-top-10-for-large-language-model-applications/
- OWASP GenAI Security Glossary:https://genai.owasp.org/glossary/
- NIST AI Risk Management Framework:https://www.nist.gov/itl/ai-risk-management-framework
- Stanford AI Index:https://aiindex.stanford.edu/
核对日期:2026-05-15。