Meta Llama4强势登场,却在长上下文任务中翻车

一项新的独立评估显示,Meta 最新推出的 Llama4模型——Maverick 和 Scout 在标准测试中表现出色,但在复杂长上下文任务中表现欠佳。根据人工智能分析的“智能指数”,Maverick 得分49分,领先 Claude3.7Sonnet(得分未具体列出),但落后于 Deepseek V30324(53分);Scout 得分36分,与 GPT-4o-mini 相当,优于 Claude3.5Sonnet 和 Mistral Small3.1。两款模型在推理、编码和数学任务中表现稳定,未显示明显短板。

QQ20250408-092416.png

架构效率与定价分析

Maverick 的架构效率令人瞩目,其活动参数仅为 Deepseek V3的170亿(对比370亿),总参数占60%(4020亿对比6710亿),且能处理图像而非仅限于文本。价格方面,Maverick 每百万输入/输出代币均价为0.24美元/0.77美元,Scout 为0.15美元/0.4美元,低于 Deepseek V3,甚至比 GPT-4o 便宜10倍,成为最实惠的 AI 模型之一。

基准测试争议

然而,Llama4的发布引发争议。LMArena 基准测试显示,Maverick 在 Meta 推荐的“实验性聊天版本”下排名第二,但启用“风格控制”后跌至第五,凸显其依赖格式优化而非纯粹内容质量。测试人员质疑 Meta 的基准可靠性,指出其与其他平台表现差异明显。Meta 承认优化了人类评估体验,但否认训练数据作弊。

QQ20250408-092427.png

长上下文任务的挑战

长上下文任务是 Llama4的明显弱点。Fiction.live 测试表明,Maverick 在128,000个令牌下准确率仅为28.1%,Scout 更低至15.6%,远逊于 Gemini2.5Pro 的90.6%。尽管 Meta 宣称 Maverick 支持100万令牌、Scout 支持1000万令牌上下文窗口,但实际性能远未达标。研究显示,超大上下文窗口收益有限,128K 以下更实用。

Meta 的回应

Meta 生成 AI 负责人 Ahmad Al-Dahle 回应称,早期不一致源于实施问题,而非模型缺陷。他否认测试作弊指控,并表示部署优化正在进行,预计数日内稳定。

Meta Llama4强势登场,却在长上下文任务中翻车

YiAI团队

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队,由来自国内外知名科技公司的AI专家组成。 我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务,涵盖文本生成、对话交互、 内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验,深入理解 企业在AI落地过程中的实际需求和技术痛点。