3D视觉大模型SpatialLM开源,实时识别场景内容
在人工智能领域,3D视觉与空间理解技术正成为推动具身智能、自主导航及虚拟现实等应用的关键。2025年3月,杭州群核科技在GTC2025全球大会上宣布正式开源其自主研发的3D视觉大语言模型 SpatialLM,引发业界广泛关注。
这一模型以其强大的空间认知能力和低成本的数据处理方式,为机器人训练、建筑设计及AR/VR等领域带来了革命性突破。AIbase基于最新信息,整理并深入解析SpatialLM的技术亮点与行业影响。
SpatialLM:从手机视频到物理正确的3D场景
SpatialLM是一款专为三维空间理解设计的大语言模型,能够基于普通手机或相机拍摄的视频,快速生成物理正确的3D场景布局。相较于传统方法依赖昂贵的激光雷达或专业设备,SpatialLM通过处理多源点云数据(如单目视频序列、RGBD图像或LiDAR传感器),显著降低了数据采集门槛。
模型能够精准识别场景中的建筑元素(如墙壁、门窗)以及物体的语义边界框(如“沙发 – 长1.8米 – 距墙0.5米”),并以结构化脚本语言输出,为机器赋予类似人类的空间认知能力。
其核心技术基于 MASt3R-SLAM,通过将视频拆解为帧,提取空间细节并生成高密度3D点云。随后,点云编码器将数据转化为紧凑特征向量,大语言模型(LLM)进一步生成场景代码,确保输出的3D布局符合物理规则(如“家具不能悬空”“通道宽度≥0.8米”)。
这种多模态架构有效弥合了非结构化三维几何数据与结构化表示之间的差距,为复杂场景分析提供了高层次语义理解。
开源赋能:降低具身智能开发门槛
群核科技此次开源的SpatialLM提供了两种模型版本:基于Llama的 SpatialLM-Llama-1B 和基于Qwen的 SpatialLM-Qwen-0.5B,参数规模分别为1亿和0.5亿,相比当前动辄百亿参数的LLM显得轻量高效。
模型已在Hugging Face、GitHub及魔搭社区等平台面向全球开发者开放,配备详细教程与测试数据集(如SpatialLM-Testset,包含107个由单目RGB视频重建的点云数据)。开发者可通过简单的Python脚本运行推理,并利用可视化工具(如Rerun)查看3D布局结果。
开源举措的意义在于为具身智能领域提供了基础训练框架。群核科技首席科学家周子寒表示:“SpatialLM旨在帮助不具备模型开发能力的机器人企业,通过微调快速提升空间理解能力。”结合群核此前开源的空间智能平台 SpatialVerse,SpatialLM可将现实场景转化为虚拟训练环境,生成亿万级仿真场景,大幅降低机器人训练成本与风险。
广泛应用:从机器人到建筑设计
SpatialLM的应用场景极为广泛。在 具身智能领域,它支持机器人在复杂环境中实现导航、避障及任务执行,为智能家居、服务机器人等提供核心技术支撑。在 建筑设计与规划中,模型能分析建筑物点云数据,自动识别墙体、门窗等结构,助力高效设计。
此外,在 教育与培训中,SpatialLM可用于开发3D建模教学软件,帮助学生直观理解空间关系。在 AR/VR及游戏开发中,其虚拟场景生成能力为沉浸式体验提供了低成本解决方案。
SpatialLM的开源不仅展示了群核科技在空间智能领域的技术积累,也推动了3D视觉技术的普及与创新。相比Meta的SceneScript等模型,SpatialLM以普通视频为输入的通用性更强,且未来计划迭代自然语言交互与场景交互功能,进一步增强模型的实用性。
项目:https://huggingface.co/manycore-research/SpatialLM-Llama-1B