OpenAI发布的各类大模型

2月16日 - Sora视频模型发布:能够依据简短文本提示或一张静态图片生成长达60秒的高清视频,涵盖多角色、不同动作和背景细节等,几乎达到电影级逼真场景。

5月14日 - GPT-4o多模态模型推出:该模型集文本、音频、视觉于一身,展现出强大且丝滑的多模态能力。

6月 - 基于GPT-4的CriticGPT模型发布,旨在找出ChatGPT代码输出错误、辅助改进,并更好地帮助工程师评估ChatGPT响应质量和准确性。

9月 - o1系列推理模型推出,包括o1、o1-preview和o1-mini三款,这些模型通过模仿人类的推理过程,能够在回答前进行更深入思考,从而处理更复杂任务。

10月 - 连续时间一致性模型sCM推出,将开启视频、图像、三维模型、音频等实时、高质量、跨领域的生成式人工智能新阶段。

12月5日至20日 - OpenAI 12场直播,首日发布满血版o1模型,期间期待许久的Sora Turbo正式发布(用户可使用多种工具进行视频编辑等操作),最终以官宣新一代推理模型o3收官。

 

除了OpenAI发布的大模型,Anthropic、Google、Meta、xAI等也发布了大模型,主要有:

1)Anthropic6月:发布Claude 3.5系列模型,其中Claude 3.5 Sonnet在阅读、编码、数学和视觉等6个主要AI基准测试中排名第一,超越GPT-4o,10月:推出 Claude 3.5 Haiku,性能进一步提升,在多项测试中超越GPT-4o mini,尤其在编程任务上表现出色。11月:发布开源模型上下文协议(MCP),旨在打破大模型数据孤岛,实现与外部数据源的无缝集成。

2)Google2月:将AI助手Bard更名为 Gemini,并推出 Gemini Advanced,支持多模态任务处理。5月:发布 Gemini 1.5 Pro,支持百万Token上下文窗口,成为当时最大的生成式AI模型之一。12月:推出 Gemini 2.0 Flash,专注于流媒体分析和实时操作指导,提升多模态能力。

3)Meta6月:发布 Llama 3.1,进一步优化了长序列建模效率,并在多项任务中表现优异。10月:宣布开发AI搜索引擎,支持生成式AI摘要功能,增强搜索体验。12月:推出 Llama 3.2,在推理(尤其在数学和编码)任务中表现突出。

4)xAI(Elon Musk)7月:启动 全球最大AI训练集群,配备10万颗NVIDIA H100 GPU,用于训练Grok 2.0模型。12月:发布 Grok 2.0,进一步提升生成式AI的能力,并计划在2025年扩展训练集群规模。

 

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐