![]()
机器之心编辑部
真实世界里,超过 80% 的信息以视觉形态存在。前端 UI、架构图、数据看板 …… 开发者日常面对的绝大部分需求,都是以视觉形态存在的。但一直以来,国内许多代码大模型却在「盲人摸象」,只能依赖纯文本描述来猜测页面布局与结构。
就在本周四,智谱正式发布了GLM-5V-Turbo—— 专为视觉编程打造的多模态 Coding 基座模型。发布之后,海外社区热度非常高,主贴阅读量已百万。
![]()
GLM-5V-Turbo 原生融合视觉与文本能力,让模型不再依赖文本转译来「猜测」世界,而是直接看懂设计图、解析复杂界面并直接生成对应代码,彻底打通了「从视觉感知到代码实现」的开发链路。
正如下面这位 X 用户所总结的,「GLM-5V-Turbo 有意思的地方,并不只是多模态,更在于它提供了一整套能力组合:视觉理解、编程能力、工具调用以及 GUI Agent。现在大家都在朝同一个方向收敛:模型不再只是回答问题,而是能够执行操作。」
![]()
既然被冠以「Turbo」之名,智谱新模型在推理速度上自然表现出色,同时它也在三大核心方向上完成了全面进化:
首先是多模态 Coding(视觉编程)。在前端看重的 Design2Code 评测中,GLM-5V-Turbo 拿下了 92.6 的高分,超越了 K2.5 的 91.3 分。这意味着,它在将视觉 UI 转化为代码的精度上,达到了令人满意的水平。
其次是多模态工具调用(Tool Use)。面对真实网页和物理环境交互,它的 BrowseComp-VL 成绩达到了 48.7,同样领先 K2.5(42.9),真正具备了「看图找工具办事」的能力。
最后是Agent 复杂任务。在最能检验智能体综合规划与执行力的 ClawEval 权威评测中,GLM-5V-Turbo 的 Pass³ 分数直接逼近了目前业内闭源的天花板 Claude Opus 4.6。
![]()
![]()
目前,GLM-5V-Turbo 已经开放了 API ,Coding Plan用户可以申请抢先试用。大家可以通过以下多个渠道访问该模型。
BigModel 开放平台:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turboAutoClaw(澳龙):https://autoglm.zhipuai.cn/autoclaw/Z.ai:https://chat.z.ai
此前,在大模型 API 聚合平台 OpenRouter 上,GLM 5 Turbo 的调用量已经跻身前五。开发者使用该模型大多数是用来支持 OpenClaw 的。
![]()
而随着 GLM-5V-Turbo 引入更强的视觉编程能力,其在 OpenClaw 相关任务中的表现同样亮眼。目前,该模型已被添加到 OpenClaw 内置的模型目录里。
![]()
在获得模型内测资格后,我们马上进行了一番测试。
一手实测:多模态「点石成金术」
这次,GLM-5V-Turbo 将「视觉感知」与「代码生成」深度融合,「图像即代码」是这一模型的最大亮点。为此,我们聚焦于多模态 Coding (视觉编程),循序渐进地测试该模型的实际能力。
首先,我们来考察一下 GLM-5V-Turbo 在截图写代码方面的表现,特别是前端设计还原。
我们发现 GLM-5V-Turbo 在「图像即代码」这方面已经彻底 Next Level 了,移动端的前端代码复现完全不在话下。我们看下这个案例:
![]()
请根据提供的设计草图复刻移动端界面。 截图包含:左侧屏幕: 欢迎/引导页中间屏幕: 首页右侧屏幕: 统计/情绪日历页除此之外,请另外构思并制作剩余的两个页面,使产品呈现出完整的 5 页面移动端应用流程。最终效果应呈现为一个精致、现代的健康/心情追踪移动应用。
![]()
结果非常令人惊喜,交互和排版一应俱全,充满色彩的 APP 界面让人眼前一亮。
除去移动端的案例,我们喂给它下面这张SaaS 后台设计稿,直接让它「复刻」,看它能否做到高还原度呈现。这背后检验的是:模型对整体布局、组件结构、信息层级与视觉细节的综合识别和理解能力。
我们直接来看渲染前后的结果(左为原始图片,右为渲染后图片),整体上,页面实现了接近 1:1 的还原:无论是布局结构还是视觉风格,都基本保持一致。
![]()
当然,在细节层面仍存在一些可见差异,包括字体粗细略有出入、标题框 padding 不完全一致,以及人物素材并未严格对齐(作为占位图,这一点影响有限)。但是,这些问题主要集中在精细化设计层面,并未影响整体结构与视觉表达的一致性。
下图为执行过程,包括代码生成与结果说明。在接收到设计稿后,GLM-5V-Turbo 首先对页面结构进行了整体识别,判断它为一个典型的 SaaS 落地页布局,包含左侧工具栏、顶部操作区、主视觉区域以及下方的 About Us 卡片模块。
基于这一结构理解,模型直接生成对应的前端代码(总共 386 行)。
![]()
我们再尝试聊天类风格的 SaaS 设计图。不同于前一类偏营销导向的落地页设计, 这类界面更侧重于信息密度与交互逻辑本身,对模型的布局理解与组件抽象能力提出了更高要求。
![]()
GLM-5V-Turbo 能不能 hold 住呢?执行过程依然如此,识别与拆解页面结构,判断界面类型,并生成对应前端代码。
![]()
这一次,模型在还原界面整体布局的基础上,进一步呈现了交互能力,使页面不再停留在静态展示层面,而具备了初步的可操作性。
![]()
上面两个案例跑下来,不难发现,GLM-5V-Turbo 生成的并不是样子货,美学、内容、交互样样不差。
当前视觉模型的能力边界正在被迅速拉高:一张图就足以作为有效的输入接口,直接触发从 UI 解析到工程生成的端到端流程。
我们进一步观察到,GLM-5V-Turbo 的多模态 Coding 能力并没有止步于单一图像场景,而是延伸到了图文混合理解与生成任务中。
于是我们接着给模型上难度:篇幅 450 多页的斯坦福大学《2025 年人工智能指数报告》,要求如下:
在通读全文后提炼核心结论,并进一步将结论内容转化为精美的多页 HTML 演示文档,同时生成结构化大纲 JSON 以及 Markdown 格式的摘要。
![]()
完整版地址:https://hai.stanford.edu/ai-index/2025-ai-index-report
在执行过程中,面对复合型任务需求,模型完成了多种形态的交付,包括将内容转换为可以直接打开浏览的 HTML 演示文档、用于组织内容结构的 JSON 大纲以及一份 Markdown 格式的摘要。
![]()
其中,摘要同样具备较强的结构化表达能力,将原始报告内容进行高度压缩与重组,以清晰的层级标题与要点式表述呈现核心信息。
而最重要的是 HTML 演示文档,模型的前端自主设计结果超出我们的预料。排版精美,整体采用了清晰的分节结构与演示化布局,将原始报告内容按章节拆解为多页展示。同时,每一页都围绕核心主题进行信息聚合,结合标题、要点列表与关键数据,使内容可读性与演示感更强。
![]()
模型对复杂图文的理解与生成,本质上在于其否能够将「阅读 — 理解 — 抽象 — 表达 — 生成」的多步过程打通,完成从 Deep Research 到内容生产的全流程。看起来,GLM-5V-Turbo 做到了。
接下来我们更进一步,看看 GLM-5V-Turbo 能不能开局一张图,网页全靠写。我们在互联网上找到了这样一张图并给出了如下提示词:
![]()
基于 demo.png 的示例复刻一个同样的网页出来。注意,当用户浏览这个网页时,光标周围的一圈范围是清晰的,其它位置模糊处理。你还需要让其中每个元素都是可点击的,将中间的 “heyefi” 改成 “机器之心”,并使用打字机特效展示,并链接到机器之心网站 https://www.jiqizhixin.com/ 。网页上的便利贴点击后会展开出一个记事本,上面可以记录简单笔记。网页上不同的窗口可以展示 .assets 中的图片和视频素材,尽量都用起来。你可以使用文件夹中的 pretext 库实现一些动态效果,frontend design skill 可能也有用。
![]()
四倍速视频
GLM-5V-Turbo 很快就完成了任务,虽然因为图像素材的缘故,该模型无法完美复刻这个设计图,但得到的初步效果也足够惊艳了。下面来看看 demo:
![]()
接下来我们又继续了一轮交互,让其具备了素材的拖拽和缩放能力:
![]()
虽然得到的结果还不能说完美,但相信更多轮的交互还能进一步产生更好的结果 —— 而这正是 AI 时代开发的真谛:人类负责验收和掌舵,AI 负责执行。
最后,我们来到此次测试的终极挑战:通过网页链接,直接复刻完整的网页前端
既然要调用浏览器,那模型自然离不开「龙虾」。我们在这里选用了智谱自家 3 月正式推出的本地版 OpenClaw AI 智能体桌面应用 AutoClaw(中文澳龙),无需 API Key,下载后即可运行;支持接入任意模型;完全本地运行,数据保留在本地设备中。
![]()
在此环境下,我们让模型直接对一个真实网站进行复刻:
一比一复刻这个网站 https://creative-agency-template-20151.webflow.io/,所有文件保存在 test4 文件夹中。
与前文单一页面的视觉还原不同,这类任务的关键是对完整网站结构进行解析与重建。
在接收到任务指令后,模型首先通过 AutoClaw 调起浏览器,对目标网站进行访问与解析,逐页识别页面结构与视觉布局。
接着对页面进行组件级拆解,包括导航栏、内容模块及页脚等关键部分。
最后通过调用本地文件与代码生成相关能力,将解析结果转化为对应的前端代码,并按页面结构组织为多个 HTML 及资源文件,统一保存至 test4 文件夹中。
![]()
最终呈现结果如下:
![]()
模型不仅保持了原网页的美学设计,几乎完全复刻了其排版和交互逻辑,又快、又美、又高效
如果说「原生视觉」提升了大模型的基础能力,那么「龙虾生态打通」则让 GLM-5V-Turbo 准备就绪,可以更快上手施展拳脚。
原生多模态的技术支柱
据智谱介绍,GLM-5V-Turbo 优化了与当前主流 Agent 框架的协同效果。特别是针对 Claude Code 以及 OpenClaw / AutoClaw 生态,开发团队进行了深度的协同增强。
在这些框架中,模型的视觉能力与 Claw 的执行能力被无缝打通。它能够在真实的操作系统或网页环境中,完成「看懂环境 → 规划动作 → 执行任务」的完整闭环
GLM-5V-Turbo 能够取得性能领先是其在模型架构、训练方法、数据构造、工具链四个层面协同发力的结果。
原生多模态融合架构
大多数多模态模型的做法是「先训练语言,再考虑视觉」的工程化方法。
GLM-5V-Turbo 走了另一条路:从预训练阶段就将文本和视觉信号深度融合。团队自研了新一代 CogViT 视觉编码器,这套编码器在几个关键维度上都有显著提升 —— 通用物体识别、细粒度细节理解、几何关系与空间感知。
同时配套设计的 MTP 结构,能够在接收多模态输入的同时保持推理效率不崩塌。这意味着模型不需要为了精准性而牺牲响应速度。
30+ 任务协同强化学习
强化学习在单一任务上表现优异,但一旦扩展到多任务场景,各任务之间的梯度冲突往往导致训练不稳定。这是业界的共性难题。
GLM-5V-Turbo 的解法是:在 RL 阶段同步优化超过 30 种不同类型的任务,覆盖 STEM 推理、视觉定位、视频理解、GUI 交互等广泛领域。
这种「一锅炖」式的协同训练策略,反而带来了意外收益 —— 模型在不同能力维度上获得了均衡提升。多任务之间的知识迁移效应,有效平滑了单领域训练中常见的性能震荡问题。
Agent 数据工程
Agent 领域长期面临一个尴尬现实:高质量的多模态交互数据极度稀缺,且验证成本极高。智谱的应对思路是分层构建数据体系,核心手段是利用合成环境进行大规模可控数据的自动生成,每条数据都可以被程序化验证正确性。
更具前瞻性的是,团队将 GUI Agent 的过程奖励模型(PRM)数据直接注入预训练阶段,从源头抑制幻觉生成。此外还探索了非对称优化策略:用多模态评估任务作为杠杆,撬动更强的 Agent 泛化能力。
工具链迈向多模态
GLM-5V-Turbo 将工具链边界向外推了一大步:新增支持多模态搜索、区域框选标注、屏幕截图捕获、网页内容读取等视觉交互类工具。
这一扩展的意义在于,它将编程与任务执行的完整链路从「纯文本闭环」升级为「视觉 - 行动混合闭环」
伴随模型的发布,智谱官方同步推出了配套的官方 Skills(技能库) 以及预设的「数字分析师」Agents。你可以直接调用这些开箱即用的模块,迅速将多模态 Agent 部署到自己的业务流中。
最近,OpenClaw 的持续爆火正式宣告了 AI 接管电脑、操作手机的新时代到来。但 Agent 框架只是骨架,真正决定它们实力的还是底层的大模型基座。
国内外 AI 厂商们早已嗅到了风向。过去短短几个月里,全球已经开启了一场专门针对 Agent 优化的「基座军备竞赛」。
不论是 Anthropic 的 Claude 4.6、月之暗面的 Kimi K2.5 还是小米的 MiMo-V2-Pro,厂商们都在长上下文、逻辑推理、代码等方面有了很大提升。
新入局的智谱 GLM-5V-Turbo,则把目光转向了提升维度
在它身上,我们看到了当前面向 Agent 的大模型正在经历一轮明显的范式转移:不再一味依赖参数规模与调用量的堆叠,而是更加注重解决「真实世界问题」的能力。
随着 API 的开放以及 Agent 生态的打通,智谱已将「视觉感知 + 动作执行」的基础设施交到了开发者手中。
当成千上万「龙虾」真正拥有视力,究竟会催生出怎样颠覆性的 AI 应用?我们拭目以待。
文中视频链接:https://mp.weixin.qq.com/s/f3fW_YStN8rWBBl-rK9xig