谷歌 Gemma 3 发布:更强大、更智能的多模态 AI,本地轻松部署使用!
值得注意的是,Gemma 3 的视觉编码器经过升级,支持高分辨率和非方形图像,并引入了 ShieldGemma 2 图像安全分类器,用于过滤被分类为性暗示、危险或暴力的内容。Gemma 3 27B 排名靠前,只需要一个 GPU,而其他模型则需要多达 32 个。与其他 VLM(视觉语言模型)一样,Gemma 3 会根据用户输入生成文本,这些文本可能由文本组成,也可能由图像组成。本地安装,单显卡可以选
Gemma 3 被谷歌称为目前最强的开源视觉模型之一。 该模型支持超过35种语言,能够分析文本、图像和短视频。值得注意的是,Gemma 3 的视觉编码器经过升级,支持高分辨率和非方形图像,并引入了 ShieldGemma 2 图像安全分类器,用于过滤被分类为性暗示、危险或暴力的内容。这些特性使得 Gemma 3 成为当前最强大的开源视觉模型之一。
![图片[1]-谷歌 Gemma 3 发布:更强大、更智能的多模态 AI,本地轻松部署使用!-零度博客](https://i-blog.csdnimg.cn/img_convert/9c7a34c255c2b6a36c32646d39b71bfe.webp?x-oss-process=image/format,png)
此图表按 Chatbot Arena Elo 得分对 AI 模型进行排名;得分越高(数字越大),表示用户偏好越高。点表示估计的 NVIDIA H100 GPU 要求。Gemma 3 27B 排名靠前,只需要一个 GPU,而其他模型则需要多达 32 个。
本地安装,单显卡可以选择1b,4b,12b,27b,推荐选择27b,因为Gemma 3 27B 处于帕累托最佳点
![图片[2]-谷歌 Gemma 3 发布:更强大、更智能的多模态 AI,本地轻松部署使用!-零度博客](https://i-blog.csdnimg.cn/img_convert/c17ceee830e674c794fc9d7c9962ffad.webp?x-oss-process=image/format,png)
对于 1B 版本,输入上下文窗口长度已从 Gemma 2 的 8k 增加到32k ,对于其他所有版本,则增加到 128k。与其他 VLM(视觉语言模型)一样,Gemma 3 会根据用户输入生成文本,这些文本可能由文本组成,也可能由图像组成。示例用途包括问答、分析图像内容、总结文档等。
本地部署Gemma 3开源大模型:
1、下载官方 Ollama 【点击前往】 ,并通过下方的安装命令执行下载:
普通用户建议选择4b和12b,显卡好的可以上27b
ollama run gemma3:1b
ollama run gemma3:4b
ollama run gemma3:12b
ollama run gemma3:27b
2、通过Chrome插件调用本地Gemma 3视觉大模型【点击下载】
![图片[3]-谷歌 Gemma 3 发布:更强大、更智能的多模态 AI,本地轻松部署使用!-零度博客](https://i-blog.csdnimg.cn/img_convert/c0ab28ff6e5bdaf809008d7712d9786b.webp?x-oss-process=image/format,png)
就可以愉快的使用了
![图片[4]-谷歌 Gemma 3 发布:更强大、更智能的多模态 AI,本地轻松部署使用!-零度博客](https://i-blog.csdnimg.cn/img_convert/d43fe401417078d8c26f9c12cb10a1cf.webp?x-oss-process=image/format,png)
可以很好的对图片进行识别:
![图片[5]-谷歌 Gemma 3 发布:更强大、更智能的多模态 AI,本地轻松部署使用!-零度博客](https://i-blog.csdnimg.cn/img_convert/0b6aa593eabe29b0bcaa3034b773176b.webp?x-oss-process=image/format,png)
当然你可以使用Google AI Studio 对短视频进行分析,支持上传和链接
Google AI Studio :【点击前往】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)