δ-mem 为大型语言模型带来高效在线记忆机制

大型语言模型在长期对话和智能体系统中的一大瓶颈,是对历史信息的有效积累与复用。单纯扩展上下文窗口不仅成本高昂,而且往往无法保证模型能有效利用扩展后的内容。

来自多所机构的研究团队提出了一种名为 δ-mem 的轻量级记忆机制,为解决这一问题提供了新思路。δ-mem 在保持原有全注意力骨干网络不变的基础上,为其增加了一个紧凑的联想记忆状态——一个仅 8×8 的矩阵,通过 delta 规则学习来压缩和更新历史信息。

在推理阶段,δ-mem 从记忆状态中读取内容,生成低秩校正信号,直接作用于骨干网络的注意力计算。这种方法的最大优势在于:无需对模型进行完整微调,也无需更换骨干网络或显式扩展上下文。

实验结果令人印象深刻。仅凭 8×8 的记忆状态,δ-mem 就将冻结骨干网络的平均得分提升至 1.10 倍,较最强的非 δ-mem 记忆基线提升 1.15 倍。在记忆密集型基准测试中提升更为显著:在 MemoryAgentBench 上达到 1.31 倍,在 LoCoMo 上达到 1.20 倍,同时基本保持了模型的通用能力。

对于智能体开发者而言,这项研究的意义在于它展示了”小而高效”的记忆路线:不需要巨大的上下文窗口或昂贵的微调,一个精心设计的紧凑在线状态就能带来显著的性能提升。这为构建能够持续学习和记忆的长周期智能体系统提供了切实可行的技术路径。

阅读原文

← 全部文章