小米大模型团队在音频推理领域取得重大突破，登顶国际评测榜

研究背景与成就

近日，小米大模型团队在音频推理领域的研究中取得了突破性进展，成功应用强化学习算法于多模态音频理解任务，准确率达到了64.5%，这一成就使其在国际权威的 MMAU 音频理解评测中夺得了第一名。这一成果的背后，离不开团队对 DeepSeek-R1的启发。

MMAU评测集简介

MMAU（Massive Multi-Task Audio Understanding and Reasoning）评测集是衡量音频推理能力的重要标准，通过对包含语音、环境声和音乐的多种音频样本进行分析，测试模型在复杂推理任务中的表现。人类专家的准确率为82.23%，而当前榜单上表现最好的模型是 OpenAI 的 GPT-4o，准确率为57.3%。在这样的背景下，小米团队的成绩尤为引人注目。

实验方法与结果

在团队的实验中，他们采用了DeepSeek-R1的 Group Relative Policy Optimization（GRPO）方法，该方法通过 “试错 - 奖励” 的机制，使得模型能自主演化，展现出类似于人类的反思和推理能力。值得注意的是，在强化学习的支持下，即便只使用了3.8万条训练样本，小米团队的模型仍然能够在 MMAU 评测集上取得64.5% 的准确率，比当前的第一名高出近10个百分点。

隐式推理的优势

此外，实验还发现，传统的显式思维链输出方式反而会导致模型准确率下降，显示出隐式推理在训练中的优势。尽管取得了显著的成绩，但小米团队仍然意识到，距离人类专家的水平还有一段距离。团队表示将继续优化强化学习策略，以期实现更好的推理能力。

未来展望

这项研究的成功，不仅展示了强化学习在音频理解领域的潜力，也为未来的智能听觉时代铺平了道路。随着机器不仅能 “听见” 声音，还能 “听懂” 其背后的因果逻辑，智能音频技术将迎来新的发展机遇。小米团队还将开源训练代码和模型参数，以便于学术界和产业界的进一步研究与交流。

相关资源

训练代码: https://github.com/xiaomi-research/r1-aqa
模型参数: https://huggingface.co/mispeech/r1-aqa
技术报告: https://arxiv.org/abs/2503.11197
交互 Demo: https://120.48.108.147:7860/

小米大模型团队在音频推理领域取得重大突破，登顶国际评测榜

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队，由来自国内外知名科技公司的AI专家组成。我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务，涵盖文本生成、对话交互、内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验，深入理解企业在AI落地过程中的实际需求和技术痛点。