GLM-4.6V视觉推理模型开源：打通视觉感知到可执行行动，程序员进阶必备！

智谱开源新一代视觉推理模型GLM-4.6V，首次将工具调用能力原生融入视觉模型，打通从"视觉感知"到"可执行行动"的链路。该模型在30+多模态评测基准上表现优异，拥有128k长上下文处理能力，在图片识别、文档解读、长视频分析、细粒度检测、学科解题和OCR等方面展现卓越性能，为多模态Agent提供统一技术底座，是程序员学习大模型的重要参考。

Python-搬运工

783人浏览 · 2025-12-09 15:39:43

Python-搬运工 · 2025-12-09 15:39:43 发布

简介

刚刚在看群友们水群的时候，看到有人说智谱今天上线并开源了新一代视觉推理模型——GLM-4.6V。属于是GLM系列在多模态方向上的一次重要迭代，据说是首次在模型架构中将 Function Call（工具调用）能力原生融入视觉模型，打通从「视觉感知」到「可执行行动（Action）」的链路，为真实业务场景中的多模态 Agent 提供统一的技术底座。

GLM-4.6V 还在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准上进行了验证，较上一代模型取得显著提升。在同等参数规模下，模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中，9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B，106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B，看起来很强。

看到这个消息我就坐不住了，马不停蹄去试试效果。接下来，我就从Image Research、文档解读、长视频、Grounding、学科解题、OCR等多个方面试试GLM-4.6V的能力。

Image Research

prompt：图中右侧的角色在电影的结尾是什么职业

prompt：篮子中的东西是什么，有什么用

评价：

基本可以正确识别疑难图片，图片对应的知识也能很清楚的梳理出来，图片识别能力和文本梳理能力都表现很不错。

文档解读

prompt：

根据这两篇文章的内容，结合图表，对比一下两个模型的异同，并思考和阐述，下一步改进clip模型的思路。

answer：

评价：对论文的阅读总结基本到位，也能准确提取出图表，并将两篇论文的图表对比分析，并生成新的图文输出，条理清晰。

长视频能力

prompt: 请详细描述这个视频

GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至128k，模型拥有了“过目不忘”的长记忆力。在实际应用中，128k上下文约等于150页的复杂文档、200页PPT或一小时视频，能够在单次推理中处理多个长文档或长视频。

评价：

对长视频的分析速度很快，而且总结力度到位，重要的视频部分分析也很到位，对长视频的理解更上一个台阶了。

Grounding

细粒度目标检测：

prompt：

识别图中所有猫的品种。

请以合法的JSON格式返回结果，结果是一个list，每一个list元素对应一个目标检测结果dict，dict的key由label、bbox_2d组成，值分别为检测到的猫的品种和结果坐标框。

例如：[ {‘label’: ‘金渐层-1’, ‘bbox_2d’: [1,2,3,4]}, {‘label’: ‘金渐层-2’, ‘bbox_2d’: [4,5,6,7]}]

answer：

评价：

对不同方向的图片都可以做到正确识别，画框的位置也很准确，在细粒度检测方面的能力有炉火纯青的地步。

学科解题

prompt:

解答图中的问题

answer：

评价：

对图片中的问题，不论是题目中的文字和符号，还是图示，都能正确识别所蕴含的信息，并根据识别结果分析出正确的答案。

OCR

prompt：

识别图中的表格，并以html格式输出

<table>  <caption>2011-2018年国外地震灾害人员伤亡情况</caption>  <thead>    <tr>      <th>年份</th>      <th>地震造成人员死亡数</th>      <th>地震造成人员受伤数</th>    </tr>  </thead>  <tbody>    <tr>      <td>2011年</td>      <td>2万余</td>      <td>数万</td>    </tr>    <tr>      <td>2012年</td>      <td>400余</td>      <td>数千</td>    </tr>    <tr>      <td>2013年</td>      <td>800余</td>      <td>2000余</td>    </tr>    <tr>      <td>2014年</td>      <td>19</td>      <td>数百</td>    </tr>    <tr>      <td>2015年</td>      <td>9529</td>      <td>近3万</td>    </tr>    <tr>      <td>2016年</td>      <td>1143</td>      <td>2万余</td>    </tr>    <tr>      <td>2017年</td>      <td>1126</td>      <td>1.5万余</td>    </tr>    <tr>      <td>2018年</td>      <td>3068</td>      <td>1.6万余</td>    </tr>  </tbody></table>```

渲染以后：

评价：

不仅能准确的识别出图片中的表格信息，还能准确无误的转换成HTML格式，经验证，全对

工具组合

prompt：根据文档内容生成混合图文的公众号内容,内容有趣一些。

answer：

评价：

在内容创作与知识分发场景中，可以从多模态输入中，自动构建高质量图文输出：无论是直接输入图文混杂的论文、研报、PPT，还是只给出一个主题，模型都能生成结构清晰、图文并茂的社交媒体内容。

「有手，有眼」的GLM-4.6V确实太优秀

整体看下来，真的给了我很多惊喜，这个GLM-4.6V模型对图片中的各种信息的识别效果很好，长文本、长视频的处理能力也有了很大的提高，图文交互能力也和之前的模型相比有了进一步增强。还有了支持多模态工具调用的能力，针对不同的场景，调用不同的工具，针对性更好的完成工作。这样一来，「眼」和「手」都齐全了，完成什么任务都不在话下了。这个强大的视觉能力还会融入到智谱的coding plan套餐，智谱真是越来越好了。

而且这个视觉推理模型GLM-4.6V不仅是新发布，还做了开源，接下来应该就是开源周了吧，越来越期待了，不知道下一步还会有什么。狠狠期待一下接下来的更多惊喜吧，感觉不会让我们失望的。

如何学习AI大模型？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

想正式转到一些新兴的 AI 行业，不仅需要系统的学习AI大模型。同时也要跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高

那么针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

在这里插入图片描述

学习路线

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla