
进入2026以来,一个明显的感觉是:AI 感知的边界正在越来越从文本切换到“感官”。
尤其在 Agent 时代,业界衡量一个模型强弱的标准也在正发生截然不同的变化:大家的聚焦点已经不再只是“脑力”,反而在“感官”和“体力”(也就是多模态和长时程、Context容量)方面加大了角力。
总之,纯文本的 LLM 时代已然过去了!
今天,智谱正式发布 GLM-5V-Turbo。 看名字就知道,这次智谱新模型,视觉能力大大加强了!
它是一款面向视觉编程深度进化的原生多模态 Coding 基座模型。

拥有多模态的感官之后,大模型的能力提升简直升维到了新的空间!
一切模态信息的输入都能成为可展示、可运行的 Code!
发送一张草图或参考站点的录屏,GLM-5V-Turbo 就能直接拆解布局、配色与交互逻辑。

话不多说,这次小编直接开测,边测边为大家说一下对 GLM-5V-Turbo 的使用感受。
一切模态皆能理解
一张 X 头像,生成 3D Q版马斯克手办
首先,V5-Turbo 支持图像、视频、设计稿等多模态输入,可直接生成完整可运行代码,尤其适用于 GUI 代理场景。
首先,小编的灵感来自马斯克,的X头像!

几分钟后,代码预览就出来了,第一眼给到的惊艳的点很多。

首先能够识别图片的整体色调背景,视觉呈现非常到位,光影氛围感拉满了,向上漂浮的例子效果也清晰可见。
而且GLM-5V-Turbo也理解到我的真实意图:其实是要一个可拖拽旋转的3D手办展现页面。
我会用 Three.js 构建一个完整的 3D Q版手办展示场景,包含角色建模、耳机、麦克风、烟雾粒子、舞台幕布背景,并支持交互旋转和主题切换。
还有一个细节非常打动小编,马斯克T恤上的英文单词识别的也很准确:occupy mars!占领火星!

我还是不甘心,直接输入指令:帮我把手办改成Q版马斯克。最后,好像有一丢丢那么接近了。评论区如果有大佬做得更成功的,可以call小编。

体验入口地址:https://chat.z.ai/
据智谱放出的测评来看,模型在设计稿重建、视觉代码生成和AndroidWorld/WebVoyager等基准中领先。

同时,因为模型是通过原生多模态融合、协同RL训练及代理数据构建实现,所以结果显示,并没有牺牲纯文本编码的性能。

一张截图复刻 ClaudeCode,还能对话
现在Claude Code 已经开源了,不少手快的网友都神速的推出各种魔改版本,Rust 版本的、Python 版本的,小编心想,我是不是也可以喂给 5V-Turbo 代码库,来魔改一个网页版呢?
说干就干!
这次小编给了模型一个录屏mp4文件!

这是 GLM-5V-Turo给出来的结果,逼真度还是可以的,也能输入,但问题是毕竟不是真的大模型,它回复不了我。。。

所以,小编认为,复刻 CC 这样级别的产品,交给 Codex、Cursor 或者 CC 自己才是正解!
总结下来,5V 版本的 GLM 在多模态视觉理解方面,较一代有了看得见的突破,尤其在转换成可运行的 Code 方面有了较大的提升。
特别是 3D 类前端页面的生成,的确惊艳!另外,还有一个不错的体验点:动效还原也不错!小编测试了一个苹果首页的动效效果。

但小编在实测过程中发现一个明显的问题,5V-Turbo 对于视频理解,表现并不稳定,会存在读取失败或者理解不到位的情况。
但对于静态图片方面,转换成 Code 是完全可以的。
对于不懂开发的设计师、IP形象创作者们,绝对值得一试!
第二大场景:给龙虾装上眼睛
有一个小规律:既然名字中带 Turbo 字眼,基本就是为龙虾而生了!
这也是这款新模型的第二个王炸场景。
据官网介绍,接入 GLM-5V-Turbo 后,AutoClaw(龙虾) 的任务边界被无限拓宽。
主要有两个不错的应用场景!
1、金融分析师模式: 60 秒内并行采集 4 路数据,直接“看懂”K 线走势与券商研报,生成图文并茂的深度报告。
2、办公全能王: 简历筛选、公式识别、甚至基于文档的深度写作,一键释放多模态潜力。
这里小编就不一一展示了。
三大核心亮点:视觉编程、超长上下文、适配龙虾
回过头来,扒一扒这款模型在技术上的创新点。
GLM-5V-Turbo 在预训练阶段就将视觉与文本深度融合,让 AI 拥有了真正的“开发者视角”:
而且,要注意的是,在多模态 Coding、GUI Agent 等硬核基准测试中,GLM-5V-Turbo 是以更精简的尺寸,跑出了跨级别的领先表现。
字节跳动 TRAE 模型测评团队甚至给出了这样的评价:
“GLM-5V-Turbo实现了从设计稿到代码的完整还原,作为一款视觉理解模型,能够很好地满足开发者的前端开发场景。”
欢迎大家在评论区也说说你们的试用感受!
参考链接:
https://x.com/Zai_org/status/2039371144340357509
文章来自于微信公众号 "51CTO技术栈",作者 "51CTO技术栈"
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md