谷歌发布 Gemma 3 QAT 模型：一张3090显卡也能轻松驾驭

Gemma3系列的新版本

谷歌近期推出了 Gemma3系列的全新版本，这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后，谷歌便发布了经过量化感知训练（QAT）优化的 Gemma3，旨在显著降低内存需求的同时，保持模型的高质量。

优化后的性能表现

具体来说，经过 QAT 优化的 Gemma327B 模型，其显存需求从54GB 大幅降低到14.1GB，这意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。通过简单的测试，配备 RTX3070的机器也能运行 Gemma3的12B 版本，尽管其 token 输出速度稍显不足，但整体性能仍在可接受范围之内。

QAT的独特优势

QAT 的神奇之处在于，它在训练过程中直接融入量化操作，与传统的训练完成后再进行量化的方法不同。这种方法能够有效模拟低精度运算，从而在后续量化为更小版本时，尽量减少性能损失。谷歌进行了约5000步的 QAT 训练，成功将困惑度下降了54%，这让模型在小型设备上也能保持较高的运行效果。

广泛的设备兼容性

现在，Gemma3的不同版本都可以在各类 GPU 上运行。以 Gemma327B 为例，只需单张 NVIDIA RTX3090（24GB VRAM）便能轻松实现本地运行，而 Gemma312B 则可以在 NVIDIA RTX4060等更轻便的设备上高效执行。这种模型的降维设计使得更多用户能够体验到强大的 AI 功能，甚至在资源有限的系统上(如手机)也能获得支持。

与开发者工具的合作

谷歌还与多个开发者工具合作，提供用户无缝体验的方式，如 Ollama、LM Studio 和 MLX 等工具都已支持 Gemma3QAT 模型的使用。值得一提的是，许多用户对此表示极大的兴奋，纷纷表示希望谷歌进一步探索更高效的量化技术。

谷歌发布 Gemma 3 QAT 模型：一张3090显卡也能轻松驾驭

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队，由来自国内外知名科技公司的AI专家组成。我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务，涵盖文本生成、对话交互、内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验，深入理解企业在AI落地过程中的实际需求和技术痛点。