VIT, LLM, VLM, VLA的区别
·
| 模型 | 模型全称 | 技术领域 | 输入 | 输出 | 应用 | 代表 |
|---|---|---|---|---|---|---|
| VIT | Vition Transformer | 计算机视觉 | 图像 | 图像类别、目标框等 | 图像分类、图像分割、目标检测等 | VIT, Swin Transformer |
| LLM | Large Language Model | 自然语言处理 | 文本 | 文本 | 智能客服、内容创作 | ChatGPT, LLaMA, Deekseek, Qwen |
| VLM | Vision Language Model | 多模态 | 图像+文本 | 文本 | 图像描述、视觉问答、多模态检索 | CLIP, LLaVA |
| VLA | Vision Language Action Model | 具身智能 | 图像+文本 | 动作执行 | 机器人、机器狗、自动驾驶 | agent |
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)