趋动云『社区项目』一键体验爆火模型【Qwen2.5-VL】
Qwen2.5-VL是Qwen家族的旗舰视觉语言模型,相比Qwen2-VL有显著提升。Qwen2.5-VL能够识别常见物体并分析图像中的文本、图表等;作为视觉Agent,具备推理能力;能理解长视频并精准捕捉事件;支持视觉定位和结构化输出。在性能方面,在多个基准测试中表现出色,尤其在文档和图表理解方面优势明显。目前Qwen2.5-VL-7B-Instruct版本已经在趋动云『社区项目』上线,在官网上

Qwen2.5-VL是Qwen家族的旗舰视觉语言模型,相比Qwen2-VL有显著提升。Qwen2.5-VL能够识别常见物体并分析图像中的文本、图表等;作为视觉Agent,具备推理能力;能理解长视频并精准捕捉事件;支持视觉定位和结构化输出。在性能方面,在多个基准测试中表现出色,尤其在文档和图表理解方面优势明显。目前Qwen2.5-VL-7B-Instruct版本已经在趋动云『社区项目』上线,在官网上可以看到Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini!现在无需自己创建环境、下载模型,一键即可快速体验Qwen2.5-VL-7B-Instruct模型!快来试试吧!
项目入口:
-
https://open.virtaicloud.com/web/project/detail/544733810630889472
视频教程:
趋动云一键体验爆火模型【Qwen2.5-VL】_哔哩哔哩_bilibili
启动开发环境
进入Qwen2.5-VL-7B-Instruct项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。

配置完成,点击进入开发环境,根据主页项目介绍进行体验。

加载模型
本项目选择使用vLLM加载大模型,搭配open-webui实现webui界面操作,首先运行代码加载模型,加载模型需要一段时间大约5-10分钟,请大家耐心等待。运行代码:
!bash run_serve.sh '/gemini/pretrain/Qwen2.5-VL-7B-Instruct'

显示Uvicorn running on http://0.0.0.0:8000表示服务器加载模型成功,然后可使用open-webui程序调用此端口,进行可视化操作。

调用open-webui界面操作:
点开调用open-webui界面操作.ipynb文件运行代码:
!bash open_webui.sh

出现http://0.0.0.0:8080 表示运行成功,open-webui端口号为8080,获取端口号对应的外部访问链接,复制到浏览器中即可体验。

添加端口


将得到的外部访问网址在浏览器中进行访问,即可得到WebUI界面。
WebUI界面

我们可以看到现在使用的是Qwen2.5-VL-7B模型,下面我们进行效果展示。
效果展示
1.推荐晚饭:

2.天空为什么是蓝色的给出科学解释:

3.图片理解:

➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!

智汇全球,趋动未来
『社区项目』汇聚全球智慧,是促进技术交流的宝贵平台,期待每一位AI爱好者体验一键部署功能的强大魅力。

同时,我们也热切盼望每一位码友加入,分享您的精品作品,共筑这个充满活力与创新的技术乐园。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)