开源新模型 DeepCoder:超高效编程,超越OpenAI o1模型

在科技发展的浪潮中,人工智能(AI)技术日新月异。最近,由著名大模型训练平台 Together AI 和智能体平台 Agentica 联合开源的新模型 DeepCoder-14B-Preview,吸引了广泛关注。

模型表现超群

该模型以仅有的140亿参数,在代码测试平台 LiveCodeBench 上的得分为60.6%,超过了 OpenAI 的 o1模型(59.5%),仅略低于 o3-mini(60.9%)。这一成绩在 CodeforcesAIME2024 的评测中也表现出色,与 o1 和 o3-mini 不相上下。

QQ_1744160260178.png

丰富的开源内容

DeepCoder 不仅仅是一个新模型,其开源内容丰富,包含了模型权重、训练数据集、训练方法、训练日志及优化策略等,极大方便了开发者深入理解模型的开发流程。开源地址和相关的 GitHub 链接均已公布,便于有兴趣的开发者进行探索和研究。

数据质量和训练方法

DeepCoder 是在Deepseek-R1-Distilled-Qwen-14B 基础上,通过分布式强化学习(RL)进行微调而成。为了构建高质量的训练数据集,研究团队收集了24,000个可验证的编程问题,并通过程序验证、测试过滤和去重等步骤确保数据质量。所有问题均通过外部官方解决方案进行验证,并满足严格的单元测试标准。

增强的代码训练环境

在代码强化学习训练过程中,DeepCoder 使用了两种沙盒环境来执行单元测试并计算奖励。Together Code Interpreter 环境高效且可扩展,能够支持大量并发沙盒,而另一个本地代码沙盒则确保了与现有排行榜的一致性。

创新的奖励函数设计

DeepCoder 在奖励函数设计上采用了稀疏结果奖励模型,确保模型专注于生成高质量代码,而非通过记忆测试用例获取奖励。同时,为了实现更稳定的训练过程,模型采用了改进版的GRPO算法,并引入了迭代上下文扩展技术,显著提高了模型的推理能力。

高效的RL训练流水线

为了加速端到端的 RL 训练,DeepCoder 团队还开源了优化扩展 verl-pipeline,通过一次性流水线技术,使训练、奖励计算和采样的过程完全流水化,大大提高了训练效率。

行业反响与发展前景

尽管 DeepCoder 刚刚开源,然而网友们对其表现非常赞赏,认为其是一个值得期待的开源项目。Together AI 成立于2022年,致力于提供高性能的 AI 模型和服务,最近还获得了3.05亿美元的融资,显示出其在行业中的强劲势头。

开源链接

划重点:

🌟 DeepCoder-14B-Preview 模型表现优秀,得分超过 OpenAI 的 o1模型。

📈 开源内容丰富,包括模型权重和训练数据,方便开发者研究。

⚙️ 采用多种技术确保数据质量和训练效率,显著提升了模型性能。

开源新模型 DeepCoder:超高效编程,超越OpenAI o1模型

YiAI团队

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队,由来自国内外知名科技公司的AI专家组成。 我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务,涵盖文本生成、对话交互、 内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验,深入理解 企业在AI落地过程中的实际需求和技术痛点。