GLM-4.6V视觉推理模型开源:打通视觉感知到可执行行动,程序员进阶必备!
智谱开源新一代视觉推理模型GLM-4.6V,首次将工具调用能力原生融入视觉模型,打通从"视觉感知"到"可执行行动"的链路。该模型在30+多模态评测基准上表现优异,拥有128k长上下文处理能力,在图片识别、文档解读、长视频分析、细粒度检测、学科解题和OCR等方面展现卓越性能,为多模态Agent提供统一技术底座,是程序员学习大模型的重要参考。
简介
智谱开源新一代视觉推理模型GLM-4.6V,首次将工具调用能力原生融入视觉模型,打通从"视觉感知"到"可执行行动"的链路。该模型在30+多模态评测基准上表现优异,拥有128k长上下文处理能力,在图片识别、文档解读、长视频分析、细粒度检测、学科解题和OCR等方面展现卓越性能,为多模态Agent提供统一技术底座,是程序员学习大模型的重要参考。
刚刚在看群友们水群的时候,看到有人说智谱今天上线并开源了新一代视觉推理模型——GLM-4.6V。 属于是GLM系列在多模态方向上的一次重要迭代,据说是首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。
GLM-4.6V 还在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中,9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B,106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B,看起来很强。

看到这个消息我就坐不住了,马不停蹄去试试效果。接下来,我就从Image Research、文档解读、长视频、Grounding、学科解题、OCR等多个方面试试GLM-4.6V的能力。
Image Research
prompt: 图中右侧的角色在电影的结尾是什么职业


prompt: 篮子中的东西是什么,有什么用


评价:
基本可以正确识别疑难图片,图片对应的知识也能很清楚的梳理出来,图片识别能力和文本梳理能力都表现很不错。
文档解读
prompt:


根据这两篇文章的内容,结合图表,对比一下两个模型的异同,并思考和阐述,下一步改进clip模型的思路。
answer:







评价: 对论文的阅读总结基本到位,也能准确提取出图表,并将两篇论文的图表对比分析,并生成新的图文输出,条理清晰。
长视频能力
prompt: 请详细描述这个视频


GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至128k,模型拥有了“过目不忘”的长记忆力。在实际应用中,128k上下文约等于150页的复杂文档、200页PPT或一小时视频,能够在单次推理中处理多个长文档或长视频。
评价:
对长视频的分析速度很快,而且总结力度到位,重要的视频部分分析也很到位,对长视频的理解更上一个台阶了。
Grounding
细粒度目标检测:
prompt:

识别图中所有猫的品种。
请以合法的JSON格式返回结果,结果是一个list,每一个list元素对应一个目标检测结果dict,dict的key由label、bbox_2d组成,值分别为检测到的猫的品种和结果坐标框。
例如:[ {‘label’: ‘金渐层-1’, ‘bbox_2d’: [1,2,3,4]}, {‘label’: ‘金渐层-2’, ‘bbox_2d’: [4,5,6,7]}]
answer:

评价:
对不同方向的图片都可以做到正确识别,画框的位置也很准确,在细粒度检测方面的能力有炉火纯青的地步。
学科解题
prompt:
解答图中的问题

answer:

评价:
对图片中的问题,不论是题目中的文字和符号,还是图示,都能正确识别所蕴含的信息,并根据识别结果分析出正确的答案。
OCR
prompt:

识别图中的表格,并以html格式输出
<table> <caption>2011-2018年国外地震灾害人员伤亡情况</caption> <thead> <tr> <th>年份</th> <th>地震造成人员死亡数</th> <th>地震造成人员受伤数</th> </tr> </thead> <tbody> <tr> <td>2011年</td> <td>2万余</td> <td>数万</td> </tr> <tr> <td>2012年</td> <td>400余</td> <td>数千</td> </tr> <tr> <td>2013年</td> <td>800余</td> <td>2000余</td> </tr> <tr> <td>2014年</td> <td>19</td> <td>数百</td> </tr> <tr> <td>2015年</td> <td>9529</td> <td>近3万</td> </tr> <tr> <td>2016年</td> <td>1143</td> <td>2万余</td> </tr> <tr> <td>2017年</td> <td>1126</td> <td>1.5万余</td> </tr> <tr> <td>2018年</td> <td>3068</td> <td>1.6万余</td> </tr> </tbody></table>```
渲染以后:

评价:
不仅能准确的识别出图片中的表格信息,还能准确无误的转换成HTML格式,经验证,全对
工具组合
prompt: 根据文档内容生成混合图文的公众号内容,内容有趣一些。

answer:



评价:
在内容创作与知识分发场景中,可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。
「有手,有眼」的GLM-4.6V确实太优秀
整体看下来,真的给了我很多惊喜,这个GLM-4.6V模型对图片中的各种信息的识别效果很好,长文本、长视频的处理能力也有了很大的提高,图文交互能力也和之前的模型相比有了进一步增强。还有了支持多模态工具调用的能力,针对不同的场景,调用不同的工具,针对性更好的完成工作。这样一来,「眼」和「手」都齐全了,完成什么任务都不在话下了。这个强大的视觉能力还会融入到智谱的coding plan套餐,智谱真是越来越好了。
而且这个视觉推理模型GLM-4.6V不仅是新发布,还做了开源,接下来应该就是开源周了吧,越来越期待了,不知道下一步还会有什么。狠狠期待一下接下来的更多惊喜吧,感觉不会让我们失望的。
如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。
不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

学习路线

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)