模型 模型全称 技术领域 输入 输出 应用 代表
VIT Vition Transformer 计算机视觉 图像 图像类别、目标框等 图像分类、图像分割、目标检测等 VIT, Swin Transformer
LLM Large Language Model 自然语言处理 文本 文本 智能客服、内容创作 ChatGPT, LLaMA, Deekseek, Qwen
VLM Vision Language Model 多模态 图像+文本 文本 图像描述、视觉问答、多模态检索 CLIP, LLaVA
VLA Vision Language Action Model 具身智能 图像+文本 动作执行 机器人、机器狗、自动驾驶 agent
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐