谷歌发布 DolphinGemma:AI破译海豚语言:Pixel手机变身“翻译器”

DolphinGemma的开发背景

谷歌近日发布了一款开创性的人工智能模型——DolphinGemma,旨在深入理解野生大西洋斑点海豚的交流模式。该项目由谷歌与野生海豚项目(WDP)和佐治亚理工学院的研究人员合作开发,利用WDP近40年来在巴哈马群岛积累的庞大海豚音频和视频记录数据库。

DolphinGemma的功能与技术

DolphinGemma基于这些珍贵数据进行训练,并采用谷歌先进的音频技术SoundStream分词器将海豚的声音转化为数字格式。这款AI模型能够识别、分析甚至生成逼真的海豚典型声音模式序列,包括口哨声、咔哒声和脉冲串声,其功能类似于人类语言模型,可以预测声音序列中的下一个声音。

QQ20250415-090936.png

图源备注:图片由AI生成,图片授权服务商Midjourney

海洋中的实时应用

值得一提的是,研究人员正利用谷歌Pixel智能手机将DolphinGemma直接部署到水下,进行实地数据记录和分析。与此同时,团队还采用了CHAT系统(鲸类听觉增强遥测系统),该系统将特制的人工哨声与海藻或游戏服等特定物体关联起来,旨在让海豚学习并使用这些声音与研究人员互动。Pixel智能手机能够实时识别海豚模仿的音调,并通过声音反馈给潜水员,告知他们所请求的物体。

未来的研究方向

这项创新性的研究计划结合了人工智能、移动技术和长期的实地观察,目标是揭示海豚语言的结构,并最终实现某种形式的人类与海豚之间的交流。谷歌计划于2025年夏季将DolphinGemma作为开放模型发布,供其他研究团队用于分析海洋哺乳动物的交流。

谷歌的更广泛努力

DolphinGemma是谷歌将其人工智能技术应用于动物交流研究(特别是海洋哺乳动物)的更广泛努力的一部分。作为其“AI for Social Good”项目的一部分,谷歌还与美国国家海洋和大气管理局 (NOAA) 合作开发了一款鲸鱼探测人工智能,用于分析自2005年以来在太平洋12个地点记录的海洋哺乳动物叫声的水听器数据。此外,谷歌的一个AI模型最近还帮助识别出一种此前未知的布氏鲸叫声,这种被称为“Biotwang”的声音是通过结合目击和录音确定的。

跨物种交流的未来展望

不仅如此,地球物种项目也在积极努力于创建动物交流的表征,涵盖单个物种以及跨物种的交流,其目标是理解包括蜜蜂舞蹈在内的各种非语言交流形式。

谷歌发布 DolphinGemma:AI破译海豚语言:Pixel手机变身“翻译器”

YiAI团队

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队,由来自国内外知名科技公司的AI专家组成。 我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务,涵盖文本生成、对话交互、 内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验,深入理解 企业在AI落地过程中的实际需求和技术痛点。