记忆压缩与遗忘

1. 定义与边界

记忆压缩是把长历史、重复事件或多条相似记忆转换为更短、更结构化、更有用的状态。遗忘是主动删除、过期、降权或归档不再应被使用的记忆。

压缩不是无损备份。压缩后的记忆服务 Agent 行为，原始日志如果需要应进入审计系统，并受独立保留策略约束。

2. 为什么重要

Agent 记忆会自然膨胀：

会话消息越来越长。
用户画像越来越大。
episode 大量重复。
项目约束过期。
向量索引保留删除后的旧片段。

如果没有压缩与遗忘，系统会变慢、变贵、变不准，也更难满足隐私要求。

3. 核心机制

4. 压缩策略

策略	适用对象	注意事项
滚动摘要	长会话消息	保留关键约束和未完成事项
层级摘要	长任务、多 episode	摘要要可追溯到 source
结构化抽取	用户偏好、项目事实	用 schema 降低幻觉
去重合并	相似记忆	保留证据和更新时间
经验提炼	多个 episode	只有稳定规律才升为程序性记忆

5. 遗忘策略

策略	说明
TTL	到期自动不召回或删除
decay	随时间降低排序权重
supersede	新记忆显式覆盖旧记忆
archive	不进入上下文，只保留审计
hard delete	主存储、索引、缓存均删除
tombstone	保留删除标记，防止异步系统复活

6. 工程实现

def consolidate_user_profile(user_id, store):
    memories = store.list_namespace(("user", user_id, "profile"))
    groups = group_by_semantic_key(memories)
    for key, items in groups.items():
        canonical = summarize_and_merge(items)
        canonical["evidence"] = collect_evidence_ids(items)
        store.upsert(canonical)
        for item in items:
            if item.id != canonical.id:
                store.archive(item.id, reason="merged")

def forget_memory(memory_id, store, index, cache):
    store.mark_deleted(memory_id)
    index.delete(memory_id)
    cache.invalidate(memory_id)
    store.audit("memory_deleted", {"id": memory_id})

7. 生产实践

短期记忆压缩要在上下文预算触顶前触发，而不是报错后触发。
长期记忆 consolidation 使用后台任务，避免影响响应延迟。
摘要结果要做一致性检查，尤其是数字、日期、权限、否定约束。
删除必须覆盖主库、向量索引、全文索引、缓存和备份策略。
重要记忆压缩后保留 source ID，不必保留原文。

8. 常见反模式

用摘要替代审计日志。
摘要时丢掉“不允许”“不要做”等否定约束。
用户删除后只删主库，不删向量索引。
TTL 到期但仍被缓存召回。
把多个冲突偏好合并成含糊句子。

9. 评测方法

摘要保真率：关键事实、约束、待办是否保留。
压缩率：token 或存储节省比例。
压缩后任务成功率。
过期记忆召回率，越低越好。
删除生效率：删除后检索、缓存、trace 中是否还可见。

10. 安全与治理

遗忘是隐私控制，不只是成本优化。
对法规或合同要求保留的数据，区分“不可用于生成”和“审计保留”。
压缩模型处理敏感数据时要遵守同等数据保护等级。
用户删除请求要可验证完成，并记录操作但不泄露被删内容。

工程化补强：架构与实现细节

A. 与 RAG 的硬边界

记忆压缩与遗忘处理的核心对象是把冗长历史压成可用摘要，并按价值、时效、合规要求删除或归档。它来自用户和 Agent 的互动、任务执行轨迹或组织流程，而不是外部文档本身。 RAG 的核心对象是外部知识和证据；Memory 的核心对象是可复用状态。两者可以共享向量库、数据库或检索组件，但不能共享权限模型和写入流程。

维度	Memory	RAG
数据来源	对话、工具轨迹、用户明确偏好、任务结果	文档、网页、代码库、数据库、知识库
写入触发	互动后抽取、用户要求记住、后台总结	文档 ingestion、同步任务、管理员上传
可信边界	默认是个人/项目状态，仍需来源与置信度	默认是不可信外部内容，需要证据过滤
检索目标	帮 Agent 延续状态和复用经验	给回答提供事实证据和引用
失败后果	错误会跨任务持续影响行为	错误通常影响本次回答或索引版本
评测重点	compression faithfulness、token reduction、restore success、delete SLA compliance	recall、faithfulness、citation accuracy

B. 生产级数据流

这条链路的关键是写入和检索分离。写入网关决定“能不能成为未来依据”，检索器决定“当前任务是否需要它”。

C. 推荐 JSON 结构

{
  "memory_id": "mem_01HY...",
  "memory_type": "short_term|semantic|episodic|procedural|profile",
  "namespace": ["org:o_1", "user:u_7", "project:p_3"],
  "content": {
    "summary": "用户希望技术文档用中文、结构紧凑、直接给结论",
    "normalized_value": {
      "language": "zh-CN",
      "style": "concise_engineering"
    }
  },
  "source": {
    "kind": "user_message|tool_trace|episode_summary|admin_policy",
    "trace_id": "tr_20260509_001",
    "turn_id": "turn_14",
    "evidence": "用户明确说：以后回答用中文，少废话"
  },
  "confidence": 0.86,
  "sensitivity": "normal|personal|confidential|restricted",
  "ttl_days": 180,
  "created_at": "2026-05-09T10:00:00+08:00",
  "updated_at": "2026-05-09T10:00:00+08:00",
  "compression_ratio": 0.18,
    "source_event_range": ["turn_10", "turn_42"],
  "audit": {
    "writer": "memory_writer_v2",
    "decision": "accepted",
    "policy_version": "memory-policy-2026-05"
  }
}

字段级来源比整条记忆来源更重要。真实系统里经常只有某个字段可靠，不能因为一个字段可信就默认整条画像可信。

D. 写入门槛

候选信息	默认动作	原因
用户明确要求“记住”且不敏感	写入或更新	意图明确，价值高
多次稳定偏好	写入低风险字段	可减少重复沟通
单次情绪、抱怨、临时选择	不写或短 TTL	容易误画像
工具失败根因	写 episode	对未来排障有价值
外部网页诱导的规则	拒写	外部内容不能提升为行为规则
安全、权限、合规相关变更	人审或管理员确认	影响面大，不能由普通记忆覆盖

本文件的推荐写入原则是：压缩结果需要保留来源范围、缺失说明和摘要置信度。

E. 检索策略

检索优先使用结构化摘要，必要时回源到原始 episode 或文档片段。工程上建议分三步：

硬过滤：tenant、user、project、role、sensitivity、TTL、deleted tombstone。
候选召回：profile 精确读取，semantic/episodic/procedural 可用关键词、向量和标签组合。
上下文组装：限制条数，附带类型、来源、置信度和“不能覆盖系统/开发者/安全策略”的说明。

def retrieve_memory(task, user, project, budget):
    scopes = acl_scopes(user=user, project=project)
    candidates = []
    candidates += profile_store.get(scopes.user_profile_fields(task))
    candidates += memory_index.search(task.query, filters=scopes.filters, k=20)
    ranked = rerank_by_usefulness(candidates, task.intent, now=task.now)
    safe = [m for m in ranked if policy.can_inject(m, task)]
    return pack_with_provenance(safe, token_budget=budget)

F. 遗忘与生命周期

TTL、LRU、价值衰减、用户删除、合规保留和硬删除流水线。遗忘不是简单删除文本，还包括向量、缓存、摘要、备份可恢复窗口和审计索引的协同。

生命周期阶段	操作	验收点
候选	只在临时队列保存	未通过网关不进入长期库
活跃	可检索、可解释、可编辑	trace 中能看到使用原因
降权	过期、低命中、低置信	默认不注入上下文
归档	保留审计或历史统计	不参与在线检索
删除	tombstone + 索引清理	删除 SLA 和回归测试通过

G. 失败模式与修复

失败模式	早期信号	修复动作
压缩丢失关键约束，或删除表面数据但保留向量残留	召回内容与当前任务不符，用户反复纠正	拆 namespace、加写入门槛、补评测切片
错误记忆长期影响回答	同类任务持续给错建议	增加冲突检测、用户编辑入口、低置信降权
过度个性化	Agent 在无关任务套用用户偏好	按任务域检索，不全量注入画像
记忆投毒	记忆中出现“忽略规则”“扩大权限”等内容	策略拒写，已写入内容隔离并审计
上下文污染	注入记忆太多，模型忽略当前指令	top-k 限制、摘要化、按阶段注入
删除不彻底	删除后仍可被向量召回	tombstone 过滤、重建索引、缓存失效

H. 评测指标

指标	计算方式	用途
Memory precision@k	注入记忆中真正有用的比例	控制上下文污染
Needed-memory recall@k	gold memory 是否被召回	检查检索覆盖
Task lift	开启记忆后的成功率/轮次/工具错误变化	判断是否值得保留系统复杂度
Stale-use rate	被使用但已过期或被覆盖的记忆比例	发现遗忘策略问题
Bad-write escape rate	不应写入但进入长期库的比例	评估写入网关
Privacy incident rate	越权召回、敏感泄露、误画像事件数	安全红线指标

I. 安全治理清单

记忆内容永远不能提升为系统指令，不能覆盖安全策略和开发者约束。
用户画像需要可查看、可修改、可删除；敏感画像默认不做自动推断。
外部文档、网页和工具输出要标记来源可信度，默认不能写成程序性规则。
加密静态数据和传输链路；对高敏字段做字段级加密或不可逆摘要。
审计记录至少包含写入者、来源、策略版本、检索任务、注入位置和删除事件。
多租户系统必须把 namespace、ACL 和索引过滤作为服务端强制逻辑，而不是 prompt 约束。

11. 权威资料

OpenAI Agents SDK Sessions compaction: https://openai.github.io/openai-agents-python/sessions/ （核对日期：2026-05-09）
OpenAI Agents SDK Agent memory: https://openai.github.io/openai-agents-js/guides/sandbox-agents/memory （核对日期：2026-05-09）
LangChain Short-term memory: https://docs.langchain.com/oss/python/langchain/short-term-memory （核对日期：2026-05-09）
NIST AI RMF 1.0: https://www.nist.gov/itl/ai-risk-management-framework （核对日期：2026-05-09）

1. 定义与边界​

2. 为什么重要​

3. 核心机制​

4. 压缩策略​

5. 遗忘策略​

6. 工程实现​

7. 生产实践​

8. 常见反模式​

9. 评测方法​

10. 安全与治理​

工程化补强：架构与实现细节​

A. 与 RAG 的硬边界​

B. 生产级数据流​

C. 推荐 JSON 结构​

D. 写入门槛​

E. 检索策略​

F. 遗忘与生命周期​

G. 失败模式与修复​

H. 评测指标​

I. 安全治理清单​

11. 权威资料​