qwen2.5-vl解析在线图片内容

本文介绍了使用qwen2.5-vl视觉模型解析在线图片的方法。针对该模型对图片base64编码和尺寸限制的要求，作者提供了Node.js实现方案：通过sharp库调整图片尺寸，转换为base64格式后直接调用API。代码示例展示了完整的图片获取、处理和模型调用的流程，避免了本地文件操作，全部在内存中完成。文中还提醒注意图片尺寸过大会导致处理速度变慢并消耗更多tokens。该方案为开发者提供了实用的

dgiij

712人浏览 · 2025-07-27 08:54:44

dgiij · 2025-07-27 08:54:44 发布

用ollama下载了qwen2.5-vl这个视觉模型，试了下，发现图片理解能力还挺好，感谢开源贡献者的辛勤付出。
我们知道qwen2.5-vl这个视觉模型的api调用对图片有些限制，一个是只能base64编码，二是对图片的长宽有所限制，qwen2.5-vl部署时设置了max_pixels，图片的长宽不能突破这个限制，当然size大了，解析也会慢，而且也会消耗更多的tokens。
那么我们怎样解析在线的图片内容呢？首先必须将图片size缩小到限制范围内，然后对其进行base64编码。为提高效率，不写入本地文件，都在缓冲区进行转换。
我比较喜欢nodejs来编码，以下是实现：

const sharp = require('sharp');

const width = 800;
const height = 600;

async function getimgcontent(imgurl,question) {
	try {
		const response = await fetch(imgurl);
		if (!response.ok) throw new Error(`HTTP ${response.status}`);
		const buffer = Buffer.from(await response.arrayBuffer());
		const resizedImageBuffer = await sharp(buffer).resize(width, height).toBuffer();
		const base64Image = resizedImageBuffer.toString('base64');

		let result=await fetch("http://127.0.0.1:11434/api/generate", {
			method: "POST",
			headers: { "Content-Type": "application/json" },
			body: JSON.stringify({
				"model": "qwen2.5vl:7b",
				"prompt": question,
				"stream": false,
				"images": [base64Image]
				})
			}).then(response=>response.json()).then(res=>res.response);
		return result;
		} catch (error) {
			console.error('图片内容解析出错:', error);
			throw error;
			}
	}

(async () => {
	try {
		const result = await getimgcontent(yourimgurl,"图片中有什么内容？");
		console.log(result);
		} catch(error) { console.error(error); }
	})();

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla