1. LLM 大语言模型(文字大脑)

全称:大语言模型 LLM,只处理文字、对话、文档

代表:GPT、Claude、DeepSeek、豆包 (Coze 底层)、智谱 GLM

项目落地:

  • 聊天对话、Coze 客服 Bot、简历优化 Workflow 全靠这类;用户打字提问→LLM 读知识库、生成文字回复。

2. 文生图 / 图像生成模型(画图 AI)

全称:多模态图像生成模型,输入文字出图片

代表:Midjourney、Stable Diffusion、通义万相

项目落地:侧边栏【图片生成 Tab】预留功能,前端页面做完,后端对接这类模型即可输入关键词生成图片。

3. 文生视频模型(文字生成短视频)

输入文字描述,自动生成动态短片

代表:Runway、即梦、可灵

你的项目:【视频生成 Tab】UI 已完成,后续对接这类模型。

4. 多模态大模型(全能选手:文字 + 图片 + 视频全能看懂)

既能读文字,又能看懂图片、截图,上传照片提问 代表:GPT4o、Gemini、豆包多模态

举例:客户上传产品故障照片 + 提问 “哪里坏了?”,AI 看图 + 文字结合回答,咱们 Coze 里切换多模态底座就能实现。

Coze(扣子)= 智能体搭建平台,,不是大模型

  • 智能体(Agent/Bot)= 做好的成品菜 我们在 Coze 里:上传手机售后资料、设定客服规则、拖拽工作流 → 做出【手机导购机器人】,这个成品就叫智能体
  • 大模型 = 做菜的火源 / 原材料 ,智能体背后干活思考的是豆包大模型(Coze 默认底座),没有大模型,Coze 的智能体就是空壳,没法回答问题。
Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐