刚刚，龙虾军团有了最强「视力」！一眼看图直接写代码

机器之心编辑部

真实世界里，超过 80% 的信息以视觉形态存在。前端 UI、架构图、数据看板 …… 开发者日常面对的绝大部分需求，都是以视觉形态存在的。但一直以来，国内许多代码大模型却在「盲人摸象」，只能依赖纯文本描述来猜测页面布局与结构。

就在本周四，智谱正式发布了GLM-5V-Turbo—— 专为视觉编程打造的多模态 Coding 基座模型。发布之后，海外社区热度非常高，主贴阅读量已百万。

GLM-5V-Turbo 原生融合视觉与文本能力，让模型不再依赖文本转译来「猜测」世界，而是直接看懂设计图、解析复杂界面并直接生成对应代码，彻底打通了「从视觉感知到代码实现」的开发链路。

正如下面这位 X 用户所总结的，「GLM-5V-Turbo 有意思的地方，并不只是多模态，更在于它提供了一整套能力组合：视觉理解、编程能力、工具调用以及 GUI Agent。现在大家都在朝同一个方向收敛：模型不再只是回答问题，而是能够执行操作。」

既然被冠以「Turbo」之名，智谱新模型在推理速度上自然表现出色，同时它也在三大核心方向上完成了全面进化：

首先是多模态 Coding（视觉编程）。在前端看重的 Design2Code 评测中，GLM-5V-Turbo 拿下了 92.6 的高分，超越了 K2.5 的 91.3 分。这意味着，它在将视觉 UI 转化为代码的精度上，达到了令人满意的水平。

其次是多模态工具调用（Tool Use）。面对真实网页和物理环境交互，它的 BrowseComp-VL 成绩达到了 48.7，同样领先 K2.5（42.9），真正具备了「看图找工具办事」的能力。

最后是Agent 复杂任务。在最能检验智能体综合规划与执行力的 ClawEval 权威评测中，GLM-5V-Turbo 的 Pass³ 分数直接逼近了目前业内闭源的天花板 Claude Opus 4.6。

目前，GLM-5V-Turbo 已经开放了 API ，Coding Plan用户可以申请抢先试用。大家可以通过以下多个渠道访问该模型。

BigModel 开放平台：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turboAutoClaw（澳龙）：https://autoglm.zhipuai.cn/autoclaw/Z.ai：https://chat.z.ai

此前，在大模型 API 聚合平台 OpenRouter 上，GLM 5 Turbo 的调用量已经跻身前五。开发者使用该模型大多数是用来支持 OpenClaw 的。

而随着 GLM-5V-Turbo 引入更强的视觉编程能力，其在 OpenClaw 相关任务中的表现同样亮眼。目前，该模型已被添加到 OpenClaw 内置的模型目录里。

在获得模型内测资格后，我们马上进行了一番测试。

一手实测：多模态「点石成金术」

这次，GLM-5V-Turbo 将「视觉感知」与「代码生成」深度融合，「图像即代码」是这一模型的最大亮点。为此，我们聚焦于多模态 Coding （视觉编程），循序渐进地测试该模型的实际能力。

首先，我们来考察一下 GLM-5V-Turbo 在截图写代码方面的表现，特别是前端设计还原。

我们发现 GLM-5V-Turbo 在「图像即代码」这方面已经彻底 Next Level 了，移动端的前端代码复现完全不在话下。我们看下这个案例：

请根据提供的设计草图复刻移动端界面。截图包含：左侧屏幕：欢迎/引导页中间屏幕：首页右侧屏幕：统计/情绪日历页除此之外，请另外构思并制作剩余的两个页面，使产品呈现出完整的 5 页面移动端应用流程。最终效果应呈现为一个精致、现代的健康/心情追踪移动应用。

结果非常令人惊喜，交互和排版一应俱全，充满色彩的 APP 界面让人眼前一亮。

除去移动端的案例，我们喂给它下面这张SaaS 后台设计稿，直接让它「复刻」，看它能否做到高还原度呈现。这背后检验的是：模型对整体布局、组件结构、信息层级与视觉细节的综合识别和理解能力。

我们直接来看渲染前后的结果（左为原始图片，右为渲染后图片），整体上，页面实现了接近 1:1 的还原：无论是布局结构还是视觉风格，都基本保持一致。

当然，在细节层面仍存在一些可见差异，包括字体粗细略有出入、标题框 padding 不完全一致，以及人物素材并未严格对齐（作为占位图，这一点影响有限）。但是，这些问题主要集中在精细化设计层面，并未影响整体结构与视觉表达的一致性。

下图为执行过程，包括代码生成与结果说明。在接收到设计稿后，GLM-5V-Turbo 首先对页面结构进行了整体识别，判断它为一个典型的 SaaS 落地页布局，包含左侧工具栏、顶部操作区、主视觉区域以及下方的 About Us 卡片模块。

基于这一结构理解，模型直接生成对应的前端代码（总共 386 行）。

我们再尝试聊天类风格的 SaaS 设计图。不同于前一类偏营销导向的落地页设计，这类界面更侧重于信息密度与交互逻辑本身，对模型的布局理解与组件抽象能力提出了更高要求。

GLM-5V-Turbo 能不能 hold 住呢？执行过程依然如此，识别与拆解页面结构，判断界面类型，并生成对应前端代码。

这一次，模型在还原界面整体布局的基础上，进一步呈现了交互能力，使页面不再停留在静态展示层面，而具备了初步的可操作性。

上面两个案例跑下来，不难发现，GLM-5V-Turbo 生成的并不是样子货，美学、内容、交互样样不差。

当前视觉模型的能力边界正在被迅速拉高：一张图就足以作为有效的输入接口，直接触发从 UI 解析到工程生成的端到端流程。

我们进一步观察到，GLM-5V-Turbo 的多模态 Coding 能力并没有止步于单一图像场景，而是延伸到了图文混合理解与生成任务中。

于是我们接着给模型上难度：篇幅 450 多页的斯坦福大学《2025 年人工智能指数报告》，要求如下：

在通读全文后提炼核心结论，并进一步将结论内容转化为精美的多页 HTML 演示文档，同时生成结构化大纲 JSON 以及 Markdown 格式的摘要。

完整版地址：https://hai.stanford.edu/ai-index/2025-ai-index-report

在执行过程中，面对复合型任务需求，模型完成了多种形态的交付，包括将内容转换为可以直接打开浏览的 HTML 演示文档、用于组织内容结构的 JSON 大纲以及一份 Markdown 格式的摘要。

其中，摘要同样具备较强的结构化表达能力，将原始报告内容进行高度压缩与重组，以清晰的层级标题与要点式表述呈现核心信息。

而最重要的是 HTML 演示文档，模型的前端自主设计结果超出我们的预料。排版精美，整体采用了清晰的分节结构与演示化布局，将原始报告内容按章节拆解为多页展示。同时，每一页都围绕核心主题进行信息聚合，结合标题、要点列表与关键数据，使内容可读性与演示感更强。

模型对复杂图文的理解与生成，本质上在于其否能够将「阅读 — 理解 — 抽象 — 表达 — 生成」的多步过程打通，完成从 Deep Research 到内容生产的全流程。看起来，GLM-5V-Turbo 做到了。

接下来我们更进一步，看看 GLM-5V-Turbo 能不能开局一张图，网页全靠写。我们在互联网上找到了这样一张图并给出了如下提示词：

基于 demo.png 的示例复刻一个同样的网页出来。注意，当用户浏览这个网页时，光标周围的一圈范围是清晰的，其它位置模糊处理。你还需要让其中每个元素都是可点击的，将中间的 “heyefi” 改成 “机器之心”，并使用打字机特效展示，并链接到机器之心网站 https://www.jiqizhixin.com/ 。网页上的便利贴点击后会展开出一个记事本，上面可以记录简单笔记。网页上不同的窗口可以展示 .assets 中的图片和视频素材，尽量都用起来。你可以使用文件夹中的 pretext 库实现一些动态效果，frontend design skill 可能也有用。

四倍速视频

GLM-5V-Turbo 很快就完成了任务，虽然因为图像素材的缘故，该模型无法完美复刻这个设计图，但得到的初步效果也足够惊艳了。下面来看看 demo：

接下来我们又继续了一轮交互，让其具备了素材的拖拽和缩放能力：

虽然得到的结果还不能说完美，但相信更多轮的交互还能进一步产生更好的结果 —— 而这正是 AI 时代开发的真谛：人类负责验收和掌舵，AI 负责执行。

最后，我们来到此次测试的终极挑战：通过网页链接，直接复刻完整的网页前端

既然要调用浏览器，那模型自然离不开「龙虾」。我们在这里选用了智谱自家 3 月正式推出的本地版 OpenClaw AI 智能体桌面应用 AutoClaw（中文澳龙），无需 API Key，下载后即可运行；支持接入任意模型；完全本地运行，数据保留在本地设备中。

在此环境下，我们让模型直接对一个真实网站进行复刻：

一比一复刻这个网站 https://creative-agency-template-20151.webflow.io/，所有文件保存在 test4 文件夹中。

与前文单一页面的视觉还原不同，这类任务的关键是对完整网站结构进行解析与重建。

在接收到任务指令后，模型首先通过 AutoClaw 调起浏览器，对目标网站进行访问与解析，逐页识别页面结构与视觉布局。

接着对页面进行组件级拆解，包括导航栏、内容模块及页脚等关键部分。

最后通过调用本地文件与代码生成相关能力，将解析结果转化为对应的前端代码，并按页面结构组织为多个 HTML 及资源文件，统一保存至 test4 文件夹中。

最终呈现结果如下：

模型不仅保持了原网页的美学设计，几乎完全复刻了其排版和交互逻辑，又快、又美、又高效

如果说「原生视觉」提升了大模型的基础能力，那么「龙虾生态打通」则让 GLM-5V-Turbo 准备就绪，可以更快上手施展拳脚。

原生多模态的技术支柱

据智谱介绍，GLM-5V-Turbo 优化了与当前主流 Agent 框架的协同效果。特别是针对 Claude Code 以及 OpenClaw / AutoClaw 生态，开发团队进行了深度的协同增强。

在这些框架中，模型的视觉能力与 Claw 的执行能力被无缝打通。它能够在真实的操作系统或网页环境中，完成「看懂环境 → 规划动作 → 执行任务」的完整闭环

GLM-5V-Turbo 能够取得性能领先是其在模型架构、训练方法、数据构造、工具链四个层面协同发力的结果。

原生多模态融合架构

大多数多模态模型的做法是「先训练语言，再考虑视觉」的工程化方法。

GLM-5V-Turbo 走了另一条路：从预训练阶段就将文本和视觉信号深度融合。团队自研了新一代 CogViT 视觉编码器，这套编码器在几个关键维度上都有显著提升 —— 通用物体识别、细粒度细节理解、几何关系与空间感知。

同时配套设计的 MTP 结构，能够在接收多模态输入的同时保持推理效率不崩塌。这意味着模型不需要为了精准性而牺牲响应速度。

30+ 任务协同强化学习

强化学习在单一任务上表现优异，但一旦扩展到多任务场景，各任务之间的梯度冲突往往导致训练不稳定。这是业界的共性难题。

GLM-5V-Turbo 的解法是：在 RL 阶段同步优化超过 30 种不同类型的任务，覆盖 STEM 推理、视觉定位、视频理解、GUI 交互等广泛领域。

这种「一锅炖」式的协同训练策略，反而带来了意外收益 —— 模型在不同能力维度上获得了均衡提升。多任务之间的知识迁移效应，有效平滑了单领域训练中常见的性能震荡问题。

Agent 数据工程

Agent 领域长期面临一个尴尬现实：高质量的多模态交互数据极度稀缺，且验证成本极高。智谱的应对思路是分层构建数据体系，核心手段是利用合成环境进行大规模可控数据的自动生成，每条数据都可以被程序化验证正确性。

更具前瞻性的是，团队将 GUI Agent 的过程奖励模型（PRM）数据直接注入预训练阶段，从源头抑制幻觉生成。此外还探索了非对称优化策略：用多模态评估任务作为杠杆，撬动更强的 Agent 泛化能力。

工具链迈向多模态

GLM-5V-Turbo 将工具链边界向外推了一大步：新增支持多模态搜索、区域框选标注、屏幕截图捕获、网页内容读取等视觉交互类工具。

这一扩展的意义在于，它将编程与任务执行的完整链路从「纯文本闭环」升级为「视觉 - 行动混合闭环」

伴随模型的发布，智谱官方同步推出了配套的官方 Skills（技能库）以及预设的「数字分析师」Agents。你可以直接调用这些开箱即用的模块，迅速将多模态 Agent 部署到自己的业务流中。

最近，OpenClaw 的持续爆火正式宣告了 AI 接管电脑、操作手机的新时代到来。但 Agent 框架只是骨架，真正决定它们实力的还是底层的大模型基座。

国内外 AI 厂商们早已嗅到了风向。过去短短几个月里，全球已经开启了一场专门针对 Agent 优化的「基座军备竞赛」。

不论是 Anthropic 的 Claude 4.6、月之暗面的 Kimi K2.5 还是小米的 MiMo-V2-Pro，厂商们都在长上下文、逻辑推理、代码等方面有了很大提升。

新入局的智谱 GLM-5V-Turbo，则把目光转向了提升维度

在它身上，我们看到了当前面向 Agent 的大模型正在经历一轮明显的范式转移：不再一味依赖参数规模与调用量的堆叠，而是更加注重解决「真实世界问题」的能力。

随着 API 的开放以及 Agent 生态的打通，智谱已将「视觉感知 + 动作执行」的基础设施交到了开发者手中。

当成千上万「龙虾」真正拥有视力，究竟会催生出怎样颠覆性的 AI 应用？我们拭目以待。

文中视频链接：https://mp.weixin.qq.com/s/f3fW_YStN8rWBBl-rK9xig