大家好,我是袋鼠帝。

我发现智谱今年下半年是真滴猛。

从7月份那个超强的10B视觉小模型GLM-4.1V-Thinking,再到后来的GLM-4.5V,以及10月编程、Agent领域的GLM-4.6,每一款都打在了我的心巴上。

本来以为到了年底,大家都在忙着做年终总结,没什么新东西了。

没想到,智谱反手又卷起来了..

图片

刚刚,智谱开源了他们最强的视觉模型:GLM-4.6V

让我兴奋的是,这次一口气开源了两个尺寸:一个是106B的GLM-4.6V,另一个是9B的GLM-4.6V-Flash(消费级显卡就能本地部署)。

在同参数量级下,多模态交互、逻辑推理、长上下文能力都取得了SOTA(State Of The Art,目前最强)。

太卷了,貌似现在不是SOTA都不好意思发布..

图片

GLM-4.6V支持128k上下文窗口,可以一次性处理约150页PDF、200页PPT、近一小时的关键帧序列。

不仅支持多模态输入,还可以多模态输出(图文并茂)

除了视觉能力强,还有工具调用能力,在z.ai集成了四种工具

图片

一图胜千言(提示词来自朋友:@甲木,真好用)

图片

体验下来,我的感觉是:如果你想在本地玩视觉模型,这就是目前的版本答案。

9B的GLM-4.6V-Flash,意味着你不需要那种动辄几十万的专业GPU,哪怕是你家里的游戏本,或者是公司配的消费级显卡,都能随便跑起来。

整体表现超过Qwen3-VL-8B

这对于很多注重数据隐私,或者需要在边缘设备上部署AI的企业来说,还是比较香的。

我前段时间去杭州给一家国企做培训,参观了他们的生产车间。在那儿,我看到了一个特别接地气的AI落地场景

他们在产品流水线的末端,装了个摄像头和传感器。

每当包装好的纸箱传送过来,摄像头就会咔嚓拍一张,然后传给旁边的一台普通电脑。电脑里跑着一个视觉模型,专门负责检查这个纸箱有没有破损,胶带封没封好。

大概是下面这种场景(网图)

图片

当时他们用的是阿里的一个小模型。我问了效果,负责人表示,虽然能用,但误判率还是不低。一些好好的箱子,也被AI判成了破损,导致工人还得去复核,挺折腾的。

现在就可以换成GLM-4.6V-Flash试试。同参数量下的SOTA,意味着在同样的硬件条件下,它的性能会更好,准确度也会提升。

106B的GLM-4.6V,说大不大,说小也不小。它不像DeepSeek R1那种671B的巨无霸,除了大厂,没几个企业能私有化部署得起。106B,属于那种努努力,够一够,还是能玩得起的。

如果你对性能有要求,又必须把数据掌握在自己手里,那这个106B的版本,是一个现阶段完美的平衡点。

上次我在成都遇到OneOneTalk的彭总,他就在用一台2万多的华硕本,本地跑了一个120B的开源模型:gpt‑oss‑120b

就是下面这台性能猛兽

图片

当然,如果你不在乎数据上云,直接调智谱的API,速度和体验会更好。

目前GLM-4.6V可以在z.ai上使用,也能以MCP的形式接入Agent使用(做本地Agent的眼睛👀)

还能接入Claude Code当作基模使用。

比如我接入Claude Code之后,让它执行了复杂的多平台价格对比,条件筛选商品的任务。

完成得很好:

wxv_4286839141461245954

GLM-4.6V开源地址汇总,方便大家直达:

图片

图片

GitHub:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区:

https://modelscope.cn/collections/GLM-46V-37fabc27818446

图片

我也第一时间在z.ai上,测试了GLM-4.6V:

之前一直有个难题,就是在那种大合照里,识别出某个人的位置。我试过很多模型,甚至包括Gemini 3,效果都不咋地。

图片

我明明在第一排,从左往右数的第三个。

我同样把上次昆明Trae活动的大合照,加上一张我的自拍照,一起扔给了GLM-4.6V。

图片

结果,GLM-4.6V居然准确的找到了我!这还让我蛮惊讶的。

这对于以后做智能相册管理,或者安防监控领域来说,太有用了。

z.ai里面还有一个Image Research功能,对我来说挺实用的。

我写公众号的时候,经常需要找各种配图、或者封面图。以前我都是去Google各种搜图,有时候搜出来的图很多都不是我想要的。

这次我让它帮我搜几张关于GEO(Generative Engine Optimization)生成式引擎优化的图片。

图片

它搜出来的图,非常精准,质量高。

其中一张,正好就是我上一篇GEO的文章用到的封面图。

以后我的封面图工作流又要升级了(增加一个环节)。

 用NanoBanana Pro生成创意图的同时,用GLM-4.6V搜图,最后我只负责选。

说到搜图,这次的GLM-4.6V还能直接产出图文并茂的文章

这得益于它的工具调用能力

比如我让它生成北京旅游的推文

wxv_4286758029544243213

解读GEO的PDF论文(论文PDF中的图片也会被它插入到正确的位置)

图片

上次不是写了一篇飞书多维表格的教程嘛,在评论区看到,还是有一些朋友不清楚怎么调用的NanoBanana Pro API

我给大家演示一下, 你只需要把不懂的部分截图,丢给GLM-4.6V,它就能帮你把散落在5张图的API请求,按照想要的形式组装起来了。

图片

图片

然后我还把一直贴着我车头停车(可能只差0.5cm就碰到了)的红车丢给了它..

图片

图片

有高手能评论区教一下怎么才能停成这样吗??我每次离别人车还有30cm就不敢继续靠近了..

除了黑车品牌没有猜对,其他都对了,挺强的。

上次车停在车位被剐蹭了,去调监控,花了几个小时终于把逃逸者找到了..

我把最后的维修单丢给GLM-4.6V识别

图片

图片

经过我的逐字检查,准确率非常高,大概是99.9%

它还能识别影帝的情绪~

渣渣辉封神片段:你知道我这五年怎么过的吗?

wxv_4286820215067197442

图片

剧情、情绪的变化都识别的相当nice。而且非常细节,角色湿润的眼眶都识别到了。

除了在z.ai使用,GLM-4.6V还可以接入Claude Code

也可以把GLM-4.6V通过MCP的方式,接入Claude Code。

接入Claude Code,可以参考官方文档:

https://docs.bigmodel.cn/cn/guide/develop/claude

或者直接修改Claude的settings.json配置文件:

{  "env": {    "ANTHROPIC_AUTH_TOKEN": "你的智谱开放平台apikey",    "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",    "API_TIMEOUT_MS": "3000000"  },  "model": "glm-4.6v"}

配置好之后,重启Claude,你就拥有了一个有手有眼的本地Agent啦~

既然有手有眼了,那就让它干点实事儿。

我给这个本地Agent布置了一个较复杂的任务:使用playwright MCP,通过浏览器查找,进行产品的全网比价,提示词如下:

Prompt:全程使用playwright MCP工具。先在淘宝上找一款半入耳式蓝牙耳机,价格在500-1000元之间。找到销量第一的那款。然后,拿着这款耳机的型号,去唯品会和京东比价,找到最便宜的那个平台,并把它加到我的购物车里。

这个任务,涉及到了多平台的网页浏览、视觉识别(看价格、看型号)、逻辑判断(比大小)和操作执行,对于现阶段的所有视觉大模型来说,都是一个挑战。

wxv_4286839141461245954

GLM-4.6V负责看网页信息,Claude Code负责任务的调度。两者配合,居然真的把这个复杂的流程给跑通了。

美中不足的是漏掉了筛选价格区间的操作,但其余的任务几乎完美实现。

在淘宝找销量第一的半入耳式蓝牙耳机,以及跟唯品会、京东同款耳机比价,最后把价格最划算的商品都加入了购物车

图片

图片

我觉得虽然GLM-4.6V可以写代码,但是它的代码能力还是会比GLM-4.6差一些

所以我决定让它在Claude Code里面做GLM-4.6的眼睛

也就是作为MCP-Server使用

claude mcp add -s user zai-mcp-server --env Z_AI_API_KEY=你的智谱apikey -- npx -y "@z_ai/mcp-server"

在settings.json里面把模型换回glm-4.6即可

既然有了眼睛,那复刻网页就不用我费劲去描述了。

Prompt:使用zai-mcp-server分析当前目录下的视频,分析视频中的网站的页面、交互、动效,然后1:1复刻视频中的网站

原网站效果

wxv_4286894747983282191

复刻后的效果

wxv_4286895407478865920

GLM-4.6V负责识别视频,GLM-4.6负责生成高质量的前端代码。

网页复刻得还不错,至少这个卡片飞来飞去的效果有了,整体交互和动效都有原视频的影子。要想一次性百分百还原是很难的,毕竟原视频的动效太棒了。

GLM-4.6V虽然在极致的视觉能力上,它可能还略逊于Gemini 3这种顶级模型。但别忘了,它只有106B。

对于想要私有化部署的企业来说,这是一个够一够就能得着的高性价比选项。

而对于个人开发者,9B的Flash版本够我们在本地免费使用了。

不过,我心里也有个小疑问:为什么智谱不直接把视觉能力融合进GLM-4.6里,要分拆成两个模型呢?有没有懂的朋友在评论区给我科普一下?

我猜可能是为了更灵活的部署和更低的推理成本?

顺便说一下,行业+AI,才能真正释放AI的生产力。

懂业务的朋友,真的建议多学学怎么用好这些AI模型。

当你能把业务痛点和模型能力对接上的那一刻,效率的提升,绝对是指数级的。

补充:GLM-4.6和GLM-4.6V都在Coding Plan的使用范围内

能看到这里的都是凤毛麟角的存在!

如果觉得不错,随手点个赞、在看、转发三连吧~

如果想第一时间收到推送,也可以给我个星标⭐

谢谢你耐心看完我的文章~

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐