Meta FAIR最新五大AI感知突破:从3D对象定位到协作推理,开源助力产业升级
Meta人工智能研究团队(FAIR)近日公开发布五项前沿研究成果,标志着AI感知领域的重大突破。这些开源项目从视觉编码器到3D空间理解,再到协作式推理框架,共同构建了通向高级机器智能(AMI)的关键路径,为未来AI如何理解和感知世界带来全新可能。
"机器之眼"再升级: Meta感知编码器引领视觉理解新标准
Meta感知编码器(Perception Encoder)作为大规模视觉编码器,在图像和视频处理领域显示出卓越能力,成为AI系统的“眼睛”。该编码器不仅连接视觉与语言,还能在各种复杂甚至对抗性环境下保持高稳定性。它能够识别广泛的视觉概念,同时捕捉细微差别,例如辨别海底隐藏的黄貂鱼,识别图像背景中的小金翅雀,或在夜视野生动物摄像机中捕捉飞奔的刺豚。
在零样本分类和检索任务中,感知编码器的表现超越了所有现有开源和专有模型。更令人瞩目的是,这些强大的感知能力成功迁移到下游语言任务中。配合大型语言模型,该编码器在图像和视频问答、字幕生成、文档理解等语言模型传统上较弱的任务上表现出色,能够判断物体的前后位置或相机绕物体的运动方向,展现出对视觉信息的深度理解能力。
感知语言模型: 全面提升视觉理解能力
Meta同步发布了感知语言模型(Perception Language Model,PLM),这是一个开源且可复现的视觉-语言模型,针对复杂视觉识别任务进行设计。团队使用大规模合成数据和开放视觉-语言理解数据集训练,且未依赖外部模型的蒸馏技术,大幅提升模型的自主性能。
大规模细粒度视频问答数据集
针对现有视频理解数据不足,团队收集了250万个人工标注的细粒度视频问答和时空标题样本,形成目前同类数据集中最大规模的数据资源。PLM基于这一庞大数据集训练,结合人工标注与合成数据,打造出一个健壮、准确且完全可复现的模型,提供10亿、30亿和80亿参数的多版本,尤其适合透明且可靠的学术研究。
新基准PLM-VideoBench助推社区发展
此外,Meta推出新基准PLM-VideoBench,聚焦细粒度活动理解和时空定位推理,弥补现有基准的不足。该开放大规模且具挑战性的数据集、基准与模型的结合,将助力开源社区构建更强大的计算机视觉系统。
Meta Locate3D: 开启开放词汇对象定位新纪元
想象你对机器人说“给我拿桌上的红杯子”,机器人能精准完成任务。Meta Locate3D应运而生,作为端到端模型,它能够准确定位开放词汇查询中的物体。模型直接处理RGB-D传感器采集的3D点云数据,结合文本提示(如“电视柜旁的花瓶”)考虑空间关系和上下文,识别特定物体实例,实现精确定位。
关键组件解析
- 预处理步骤:将2D基础特征提升为3D特征化点云。
- 3D-JEPA编码器:预训练编码器接收特征化点云,预测3D世界的上下文化平滑表示。
- Locate3D解码器:结合3D-JEPA表示与语言查询,生成对应物体的边界框和掩码。
研究团队还发布了一款基于参照表达式的物体定位新数据集,涵盖ARKitScenes、ScanNet和ScanNet++三个广泛使用的数据集,拥有逾13万个语言标注和1,346个场景,实现现有数据标注量的翻倍。Meta Locate3D使机器人能够准确理解周围环境并基于自然语言进行交互,推动更复杂且高效的机器人系统开发,包括Meta PARTNR项目,标志着智能自主机器发展的重要进程。
动态字节潜在变换器: 重新定义效率与鲁棒性标准
应广泛需求,Meta发布了80亿参数的动态字节潜在变换器(Dynamic Byte Latent Transformer)模型权重。这一字节级语言模型架构的重大进步,首次实现了与传统基于分词语言模型相当的性能,同时提升推理效率并显著增强模型鲁棒性。
该架构在多任务中表现优于基于分词器的模型,平均鲁棒性提升了7个百分点(在扰动性强的HellaSwag任务上表现尤为突出),在CUTE令牌理解基准任务上甚至达到55个百分点的优势。这凸显了该技术可能重新定义语言模型效率与可靠性的潜力,是基于传统分词方式的重要补充与替代。
协作推理器: 通过合成对话实现自我提升的社交智能体
人类合作往往取得更佳成果。Meta推出的协作推理器(Collaborative Reasoner)框架,旨在评估并提升大型语言模型的协作推理能力,推动构建具备社交智能的合作智能体。
协作智能体的设计理念
例如,开发能帮助理解复杂作业或准备求职面试的智能体,这类协作不仅需解决问题,还涵盖沟通、反馈、同理心和心智理论等关键社交技能。
多轮对话驱动的合作推理任务
协作推理器包含一套目标导向任务,要求两个智能体通过多轮对话进行多步骤推理。这不仅包含产生分歧和说服对方接受正确方案,还要最终作为团队达成共识,找到最佳解决方案。
评估结果表明,当前模型尚不能稳定利用协作改善任务表现。为此,Meta提出使用合成交互数据自我提升的方法,即语言模型智能体与自身协作。团队构建了名为Matrix的多功能高性能模型服务引擎,大规模生成相关训练数据。在数学(MATH)、科学(MMLU-Pro、GPQA)及社会推理(ExploreToM、HiToM)任务中,该方法性能较单一智能体的思维链提升高达29.4%。
开放创新,加速AI生态发展
Meta FAIR团队通过广泛开放这五项研究成果,致力于为全球研究社区提供便捷访问,促进开放AI生态系统快速发展与创新。这些模型、基准及数据集聚焦感知能力,助力机器以类人智能与速度获取、处理和解读感官信息,为实现高级机器智能奠定坚实基础。
随着技术的不断成熟与应用,我们有望见证AI系统获得更加强大的视觉理解力、更精准的3D空间感知及更自然的协作互动技能,开创人机协作及智能应用的新纪元。
官方介绍:
https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/