重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

10049点击 2026-06-04 09:46

刚刚，谷歌DeepMind发布了Gemma 4 12B。

一句话概括这个模型的定位：把原本需要高端服务器才能跑的多模态智能，装进你的笔记本电脑里。

它填补的是Gemma家族里一个关键空缺：比边缘端的E4B更强，比26B混合专家模型（MoE）更轻。而且在整个Gemma 4系列里，它是第一个支持原生音频输入的中等规模模型。

到底有多能打？

先说跑分。Gemma 4 12B在标准评测基准上的成绩接近26B MoE模型，但总内存占用还不到后者的一半。

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

硬件门槛方面：只需要16GB显存或统一内存，消费级笔记本电脑就能运行，也就是入门级的MacBook Air（M5）就能跑了

能力方面，它支持强大的多步推理和智能体工作流。多模态理解加上Agent能力，直接在本地跑，不用联网，不依赖云端。

本地体验入口有：LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent应用（可以直接看到完全离线的语音转录、格式化和翻译效果）、LiteRT-LM CLI。

我已经第一时间通过LM Studio安装了，以后就算断网，本地也有真正的多模态模型了，没有任何token焦虑，不过最好上32g内存，16g虽然可以跑，但是token速度很慢，另外中文表达默认好像是粤语表达方式，所以问问题之前要求用简体中文来回答，知识截止日期2025年1月。

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

最核心的技术创新：扔掉编码器

这是Gemma 4 12B最值得说的地方。

传统的多模态模型，处理图片或音频的方式是这样的：先用专门的编码器把图像、音频"翻译"成模型能懂的表示，再把这些表示传给语言模型主体。编码器越多，延迟越高，内存占用也越大。

谷歌这次直接把编码器去掉了。

视觉处理方面，他们用一个极轻量的嵌入模块替换了原来的视觉编码器，这个模块只包含一次矩阵乘法、位置嵌入和归一化操作。视觉信息就这样直接进入语言模型主干，让大模型自己去做视觉理解。

音频处理方面，走得更彻底。音频编码器被完全移除，原始音频信号直接被投影到与文本token相同的维度空间里。

这种统一、无编码器的架构，带来的直接好处是：延迟更低，内存更省。

还有一个细节：速度优化

Gemma 4 12B内置了多Token预测（MTP）草稿器，专门用来降低推理延迟。这个技术我之前的文章有介绍过，目前谷歌已经用到自家全系模型了

这在实际使用中意味着响应更快。

Apache 2.0，完全开放

许可证方面，Gemma 4 12B采用Apache 2.0协议发布，开发者可以自由使用。

预训练权重和指令微调权重都可以直接从Hugging Face和Kaggle下载。

支持的推理框架包括：Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM。微调方面支持Unsloth。

生产部署方面，支持通过谷歌云上线，可以走Gemini企业级智能体平台模型花园、Cloud Run和GKE。

配套生态同步上线

谷歌这次还一并发布了官方Gemma技能库（Skills Repository），专门为开发者用Gemma模型构建智能体工作流提供支持，里面的技能库是专门为Gemma设计的。

开发者文档和快速入门Notebook也同步上线。

开发者指南：

https://developers.googleblog.com/gemma-4-12b-the-developer-guide/

权重：

https://huggingface.co/collections/google/gemma-4

参考：

https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/

文章来自于微信公众号 "AI寒武纪"，作者 "AI寒武纪"

关键词: AI新闻 , Gemma 4 12B , Gemma 4 , Gemma

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

语音转录

【开源免费】Whisper是由openai出品的语音转录大模型，它可以应用在会议记录，视频字幕生成，采访内容整理，语音笔记转文字等各种需要将声音转出文字等场景中。
项目地址：https://github.com/openai/whisper
在线使用：https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner