重磅！今年最好的开源9B/106B视觉模型，出现了

GLM-4.6V，今年本地Agent最后的视觉救星来了，附一手实测

java袋鼠帝

824人浏览 · 2025-12-08 21:05:50

java袋鼠帝 · 2025-12-08 21:05:50 发布

大家好，我是袋鼠帝。

我发现智谱今年下半年是真滴猛。

从7月份那个超强的10B视觉小模型GLM-4.1V-Thinking，再到后来的GLM-4.5V，以及10月编程、Agent领域的GLM-4.6，每一款都打在了我的心巴上。

本来以为到了年底，大家都在忙着做年终总结，没什么新东西了。

没想到，智谱反手又卷起来了..

刚刚，智谱开源了他们最强的视觉模型：GLM-4.6V

让我兴奋的是，这次一口气开源了两个尺寸：一个是106B的GLM-4.6V，另一个是9B的GLM-4.6V-Flash（消费级显卡就能本地部署）。

在同参数量级下，多模态交互、逻辑推理、长上下文能力都取得了SOTA（State Of The Art，目前最强）。

太卷了，貌似现在不是SOTA都不好意思发布..

GLM-4.6V支持128k上下文窗口，可以一次性处理约150页PDF、200页PPT、近一小时的关键帧序列。

不仅支持多模态输入，还可以多模态输出（图文并茂）

除了视觉能力强，还有工具调用能力，在z.ai集成了四种工具

一图胜千言（提示词来自朋友：@甲木，真好用）

体验下来，我的感觉是：如果你想在本地玩视觉模型，这就是目前的版本答案。

9B的GLM-4.6V-Flash，意味着你不需要那种动辄几十万的专业GPU，哪怕是你家里的游戏本，或者是公司配的消费级显卡，都能随便跑起来。

整体表现超过Qwen3-VL-8B

这对于很多注重数据隐私，或者需要在边缘设备上部署AI的企业来说，还是比较香的。

我前段时间去杭州给一家国企做培训，参观了他们的生产车间。在那儿，我看到了一个特别接地气的AI落地场景：

他们在产品流水线的末端，装了个摄像头和传感器。

每当包装好的纸箱传送过来，摄像头就会咔嚓拍一张，然后传给旁边的一台普通电脑。电脑里跑着一个视觉模型，专门负责检查这个纸箱有没有破损，胶带封没封好。

大概是下面这种场景（网图）

当时他们用的是阿里的一个小模型。我问了效果，负责人表示，虽然能用，但误判率还是不低。一些好好的箱子，也被AI判成了破损，导致工人还得去复核，挺折腾的。

现在就可以换成GLM-4.6V-Flash试试。同参数量下的SOTA，意味着在同样的硬件条件下，它的性能会更好，准确度也会提升。

106B的GLM-4.6V，说大不大，说小也不小。它不像DeepSeek R1那种671B的巨无霸，除了大厂，没几个企业能私有化部署得起。106B，属于那种努努力，够一够，还是能玩得起的。

如果你对性能有要求，又必须把数据掌握在自己手里，那这个106B的版本，是一个现阶段完美的平衡点。

上次我在成都遇到OneOneTalk的彭总，他就在用一台2万多的华硕本，本地跑了一个120B的开源模型：gpt‑oss‑120b

就是下面这台性能猛兽

当然，如果你不在乎数据上云，直接调智谱的API，速度和体验会更好。

目前GLM-4.6V可以在z.ai上使用，也能以MCP的形式接入Agent使用（做本地Agent的眼睛👀）

还能接入Claude Code当作基模使用。

比如我接入Claude Code之后，让它执行了复杂的多平台价格对比，条件筛选商品的任务。

完成得很好：

wxv_4286839141461245954

GLM-4.6V开源地址汇总，方便大家直达：

GitHub：

https://github.com/zai-org/GLM-V

Hugging Face：

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区：

https://modelscope.cn/collections/GLM-46V-37fabc27818446

我也第一时间在z.ai上，测试了GLM-4.6V：

之前一直有个难题，就是在那种大合照里，识别出某个人的位置。我试过很多模型，甚至包括Gemini 3，效果都不咋地。

我明明在第一排，从左往右数的第三个。

我同样把上次昆明Trae活动的大合照，加上一张我的自拍照，一起扔给了GLM-4.6V。

结果，GLM-4.6V居然准确的找到了我！这还让我蛮惊讶的。

这对于以后做智能相册管理，或者安防监控领域来说，太有用了。

z.ai里面还有一个Image Research功能，对我来说挺实用的。

我写公众号的时候，经常需要找各种配图、或者封面图。以前我都是去Google各种搜图，有时候搜出来的图很多都不是我想要的。

这次我让它帮我搜几张关于GEO（Generative Engine Optimization）生成式引擎优化的图片。

它搜出来的图，非常精准，质量高。

其中一张，正好就是我上一篇GEO的文章用到的封面图。

以后我的封面图工作流又要升级了（增加一个环节）。

用NanoBanana Pro生成创意图的同时，用GLM-4.6V搜图，最后我只负责选。

说到搜图，这次的GLM-4.6V还能直接产出图文并茂的文章

这得益于它的工具调用能力

比如我让它生成北京旅游的推文

wxv_4286758029544243213

解读GEO的PDF论文（论文PDF中的图片也会被它插入到正确的位置）

上次不是写了一篇飞书多维表格的教程嘛，在评论区看到，还是有一些朋友不清楚怎么调用的NanoBanana Pro API

我给大家演示一下，你只需要把不懂的部分截图，丢给GLM-4.6V，它就能帮你把散落在5张图的API请求，按照想要的形式组装起来了。

然后我还把一直贴着我车头停车（可能只差0.5cm就碰到了）的红车丢给了它..

有高手能评论区教一下怎么才能停成这样吗？？我每次离别人车还有30cm就不敢继续靠近了..

除了黑车品牌没有猜对，其他都对了，挺强的。

上次车停在车位被剐蹭了，去调监控，花了几个小时终于把逃逸者找到了..

我把最后的维修单丢给GLM-4.6V识别

经过我的逐字检查，准确率非常高，大概是99.9%

它还能识别影帝的情绪～

渣渣辉封神片段：你知道我这五年怎么过的吗？

wxv_4286820215067197442

剧情、情绪的变化都识别的相当nice。而且非常细节，角色湿润的眼眶都识别到了。

除了在z.ai使用，GLM-4.6V还可以接入Claude Code

也可以把GLM-4.6V通过MCP的方式，接入Claude Code。

接入Claude Code，可以参考官方文档：

https://docs.bigmodel.cn/cn/guide/develop/claude

或者直接修改Claude的settings.json配置文件：

{  "env": {    "ANTHROPIC_AUTH_TOKEN": "你的智谱开放平台apikey",    "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",    "API_TIMEOUT_MS": "3000000"  },  "model": "glm-4.6v"}

配置好之后，重启Claude，你就拥有了一个有手有眼的本地Agent啦～

既然有手有眼了，那就让它干点实事儿。

我给这个本地Agent布置了一个较复杂的任务：使用playwright MCP，通过浏览器查找，进行产品的全网比价，提示词如下：

Prompt：全程使用playwright MCP工具。先在淘宝上找一款半入耳式蓝牙耳机，价格在500-1000元之间。找到销量第一的那款。然后，拿着这款耳机的型号，去唯品会和京东比价，找到最便宜的那个平台，并把它加到我的购物车里。

这个任务，涉及到了多平台的网页浏览、视觉识别（看价格、看型号）、逻辑判断（比大小）和操作执行，对于现阶段的所有视觉大模型来说，都是一个挑战。

wxv_4286839141461245954

GLM-4.6V负责看网页信息，Claude Code负责任务的调度。两者配合，居然真的把这个复杂的流程给跑通了。

美中不足的是漏掉了筛选价格区间的操作，但其余的任务几乎完美实现。

在淘宝找销量第一的半入耳式蓝牙耳机，以及跟唯品会、京东同款耳机比价，最后把价格最划算的商品都加入了购物车

我觉得虽然GLM-4.6V可以写代码，但是它的代码能力还是会比GLM-4.6差一些

所以我决定让它在Claude Code里面做GLM-4.6的眼睛

也就是作为MCP-Server使用

claude mcp add -s user zai-mcp-server --env Z_AI_API_KEY=你的智谱apikey -- npx -y "@z_ai/mcp-server"

在settings.json里面把模型换回glm-4.6即可

既然有了眼睛，那复刻网页就不用我费劲去描述了。

Prompt：使用zai-mcp-server分析当前目录下的视频，分析视频中的网站的页面、交互、动效，然后1:1复刻视频中的网站

原网站效果

wxv_4286894747983282191

复刻后的效果

wxv_4286895407478865920

GLM-4.6V负责识别视频，GLM-4.6负责生成高质量的前端代码。

网页复刻得还不错，至少这个卡片飞来飞去的效果有了，整体交互和动效都有原视频的影子。要想一次性百分百还原是很难的，毕竟原视频的动效太棒了。

GLM-4.6V虽然在极致的视觉能力上，它可能还略逊于Gemini 3这种顶级模型。但别忘了，它只有106B。

对于想要私有化部署的企业来说，这是一个够一够就能得着的高性价比选项。

而对于个人开发者，9B的Flash版本够我们在本地免费使用了。

不过，我心里也有个小疑问：为什么智谱不直接把视觉能力融合进GLM-4.6里，要分拆成两个模型呢？有没有懂的朋友在评论区给我科普一下？

我猜可能是为了更灵活的部署和更低的推理成本？

顺便说一下，行业+AI，才能真正释放AI的生产力。

懂业务的朋友，真的建议多学学怎么用好这些AI模型。

当你能把业务痛点和模型能力对接上的那一刻，效率的提升，绝对是指数级的。

补充：GLM-4.6和GLM-4.6V都在Coding Plan的使用范围内

能看到这里的都是凤毛麟角的存在！

如果觉得不错，随手点个赞、在看、转发三连吧~

如果想第一时间收到推送，也可以给我个星标⭐

谢谢你耐心看完我的文章~

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大