研究发现:RAG系统中文档数量影响AI语言模型性能

耶路撒冷希伯来大学的研究人员最近发现,在检索增强生成(RAG)系统中,即使总文本长度保持不变,处理的文档数量也会显著影响语言模型的性能。

实验设计与方法

研究团队利用MuSiQue验证数据集中的2,417个问题进行实验,每个问题链接到20个维基百科段落。其中两到四段包含相关答案信息,其余段落作为干扰项。为研究文档数量的影响,团队创建了多个数据分区,逐步将文档数量从20个减少到最少只保留包含相关信息的2-4个文档。为确保总标记数一致,研究人员使用原始维基百科文章的文本扩展了保留的文档。

QQ20250331-104138.png

实验结果与分析

实验结果表明,在大多数情况下,减少文档数量可提高语言模型性能约10%。研究测试了包括Llama-3.1、Qwen2和Gemma2在内的多个开源模型。值得注意的是,Qwen2模型表现出例外,能够在文档数量变化时保持相对稳定的性能,而Llama-3.1和Gemma-2的性能随着文档数量增加明显下降。

QQ20250331-104151.png

YiAI团队

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队,由来自国内外知名科技公司的AI专家组成。 我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务,涵盖文本生成、对话交互、 内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验,深入理解 企业在AI落地过程中的实际需求和技术痛点。