北大团队提出全新框架LIFT 将长上下文知识注入模型参数
北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning(LIFT),通过将长输入文本训练进模型参数中,使任意短上下文窗口模型获得长文本处理能力。这一方法颠覆了传统的长文本处理思路,不再专注于无限扩充上下文窗口,而是将长文本知识内化到模型参数中,类似于人类将工作记忆转化为长期记忆的过程。
目前大模型处理长文本面临的挑战
目前大模型处理长文本面临两大主要挑战:
- 传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大。
- 模型难以理解散落在长文本各处的长程依赖关系。
现有的解决方案局限
现有的解决方案如RAG和长上下文适配各有局限:
- RAG依赖准确的检索,容易引入噪声导致幻觉。
- 长上下文适配的推理复杂度高,上下文窗口仍然有限。
LIFT的技术创新
动态高效的长输入训练
LIFT框架包含三个关键组件:
- 通过分段的语言建模将长文本切分为有重叠的片段,避免因过长上下文造成的推理复杂度提升和长程依赖丢失。
- 训练复杂度对长文本长度呈线性增长。
平衡模型能力的门控记忆适配器
设计专门的Gated Memory Adapter架构,动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解。允许模型根据查询自动调节使用多少LIFT记忆的内容。
辅助任务训练
通过预训练LLM基于长文本自动生成问答类辅助任务,补偿模型在切段训练中可能损失的能力,帮助模型学会应用长文本中的信息回答问题。
实验结果
LIFT在多个长上下文基准测试上取得显著提升:
- LooGLE长依赖问答: Llama38B的正确率从15.44%提升至29.97%。
- LooGLE短依赖问答: Gemma29B的正确率从37.37%提升至50.33%。
- LongBench多项子任务: Llama3通过LIFT在5个子任务中的4个有明显提升。
消融实验表明,Gated Memory架构相比使用PiSSA微调的原模型,在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。
局限与未来发展方向
尽管LIFT取得了显著成果,仍存在一些局限:
- 对需要精确信息提取的"大海捞针"任务效果仍不理想。
- 模型对LIFT获得的参数化知识提取能力有待优化。
- 辅助任务的设计严重依赖下游测试任务,通用性有限。
- 如何更好地平衡记忆和原有能力仍是研究重点。
研究团队鼓励社区共同探索LIFT在更广泛的训练数据、更丰富的模型、更先进的辅助任务设计以及更强计算资源支持下的潜力。
结论
LIFT提供了一个全新的长文本处理范式,将上下文知识转化为参数化知识,这一思路与人类短期记忆转化为长期记忆的过程相似。虽然距离彻底解决长上下文挑战仍有距离,但LIFT开辟了一个极具潜力的研究方向。
论文地址:https://arxiv.org/abs/2502.14644