谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭

Gemma3系列的新版本

谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。

优化后的性能表现

具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,这意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。通过简单的测试,配备 RTX3070的机器也能运行 Gemma3的12B 版本,尽管其 token 输出速度稍显不足,但整体性能仍在可接受范围之内。

image.png

QAT的独特优势

QAT 的神奇之处在于,它在训练过程中直接融入量化操作,与传统的训练完成后再进行量化的方法不同。这种方法能够有效模拟低精度运算,从而在后续量化为更小版本时,尽量减少性能损失。谷歌进行了约5000步的 QAT 训练,成功将困惑度下降了54%,这让模型在小型设备上也能保持较高的运行效果。

image.png

广泛的设备兼容性

现在,Gemma3的不同版本都可以在各类 GPU 上运行。以 Gemma327B 为例,只需单张 NVIDIA RTX3090(24GB VRAM)便能轻松实现本地运行,而 Gemma312B 则可以在 NVIDIA RTX4060等更轻便的设备上高效执行。这种模型的降维设计使得更多用户能够体验到强大的 AI 功能,甚至在资源有限的系统上(如手机)也能获得支持。

与开发者工具的合作

谷歌还与多个开发者工具合作,提供用户无缝体验的方式,如 OllamaLM StudioMLX 等工具都已支持 Gemma3QAT 模型的使用。值得一提的是,许多用户对此表示极大的兴奋,纷纷表示希望谷歌进一步探索更高效的量化技术。

谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭

YiAI团队

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队,由来自国内外知名科技公司的AI专家组成。 我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务,涵盖文本生成、对话交互、 内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验,深入理解 企业在AI落地过程中的实际需求和技术痛点。