Amazon 人工智能通用能力(Artificial General Intelligence)

img-0.jpeg

图1:Amazon Nova系列模型

摘要

我们推出了Amazon Nova,这是一代最先进的基础模型,能够提供前沿智能和行业领先的性能价格比。Amazon Nova Pro 是一个功能强大的多模态模型,在各种任务中兼具出色的准确性、速度和成本效益。Amazon Nova Lite 是一款低成本的多模态模型,可快速处理图像、视频、文档和文本。Amazon Nova Micro 是仅支持文本的模型,能够在极低的成本下实现最低延迟响应。Amazon Nova Canvas 是一款图像生成模型,可以创建专业级别的图像,并提供丰富的自定义控制功能。Amazon Nova Reel 是一款视频生成模型,能够提供高质量输出、自定义选项以及运动控制。我们的模型在构建过程中注重责任性,并致力于客户信任、安全性和可靠性。我们报告了核心能力、代理工作流程、长上下文、功能适配、运行时性能以及人类评估的基准测试结果。

目录

1 引言 … 3
1.1 Amazon Nova Pro、Lite 和 Micro … 3
1.2 Amazon Nova Canvas 和 Reel … 3
2 Amazon Nova Pro、Lite 和 Micro 的评估 … 5
2.1 核心能力公共基准 … 5
2.1.1 核心能力文本基准及结果 … 5
2.1.2 核心能力多模态基准及结果 … 7
2.2 代理工作流程 … 8
2.2.1 代理文本基准及结果 … 9
2.2.2 代理多模态基准及结果 … 9
2.3 长上下文 … 10
2.4 功能专长 … 11
2.4.1 软件工程 … 12
2.4.2 金融分析 … 12
2.4.3 检索增强生成 … 12
2.5 运行时性能 … 13
3 Amazon Nova Canvas 评估 … 15
3.1 自动化指标 … 15
3.2 人工评估 … 15
4 Amazon Nova Reel 评估 … 16
4.1 人工评估指标 … 16
4.2 数据集 … 16
4.3 实现细节与结果 … 17
5 负责任的人工智能(Responsible AI) … 17
5.1 定义我们的 RAI 目标 … 17
5.2 确保遵守 RAI 目标 … 18
5.3 RAI 评估 … 19
5.4 红队测试 … 19
5.4.1 内部红队测试 … 19
5.4.2 外部红队测试 … 20
5.4.3 自动化红队测试 … 21
6 训练基础设施 … 21
A Amazon Nova Canvas 功能 … 28
B 提示词与评分 … 30
C 多模态智能的定性示例 … 39
D 联系方式与贡献者 … 43

1 引言

本文件介绍了 Amazon Nova,这是一个新一代的最先进基础模型,能提供前沿智能和行业领先的性价比。

1.1 Amazon Nova Pro、Lite 和 Micro

Amazon Nova Pro、Lite 和 Micro 的关键功能包括:

  • 前沿智能:Amazon Nova 模型具备前沿智能,使其能够理解和处理复杂语言任务,达到最先进的准确性。Amazon Nova Micro 在多个文本基准测试中设定了新标准,如语言理解 (MMLU)、深度推理 (GPQA)、数学 (MATH) 和多步骤推理 (Big-Bench Hard)。我们的多模态模型 Amazon Nova Pro 和 Lite 可以接受文本、图像、文档和视频作为输入,并生成文本作为输出。这些模型在多个基准测试中设定了标准,如视频字幕 (VATEX)、视觉问答 (TextVQA)、函数调用 (BFCL),以及各自智能层级中的多模态代理基准测试 (GroundUI-1K, VisualWebBench, Mind2Web)。这些模型是首批在 Amazon Bedrock 上提供视频理解能力的模型,能够从多媒体内容中获得更深入的洞察。
    • 速度:Amazon Nova 设计用于快速推理,其中 Amazon Micro、Lite 和 Pro 分别是在其各自智能层级中最快的模型之一。
    • 代理工作流:Amazon Nova Pro、Lite 和 Micro 可以为 AI 代理提供动力,使其能够分解并执行多步骤任务。这些模型与 Bedrock 知识库集成,在检索增强生成 (RAG) 方面表现出色,通过将响应基于开发者的数据来确保最佳准确性。
    • 可定制性:开发者可以使用多模态数据(Pro 和 Lite)或文本数据(Pro、Lite 和 Micro)对这些模型进行微调,提供灵活性以实现所需的准确性、延迟和成本。开发者还可以通过 Bedrock API 运行自助式自定义微调 (CFT) 并将较大模型蒸馏为较小模型。
    • 性能价格比:每个模型都经过优化,以提供卓越的性价比价值,在低成本下于关键基准测试上提供最先进的性能。
      Amazon Nova Pro、Lite 和 Micro 基于 Transformer 架构 [74]。每个模型经历了一系列训练过程,初始阶段使用大量多语言和多模态数据混合进行预训练。我们的模型训练来自多种来源的数据,包括许可数据、专有数据、开源数据集和适当公开可用的数据。我们从超过 200 种语言中进行了数据筛选,特别强调阿拉伯语、荷兰语、英语、法语、德语、希伯来语、印地语、意大利语、日语、韩语、葡萄牙语、俄语、简体中文、西班牙语和土耳其语。在预训练之后,模型依次经历了多个微调阶段,包括监督微调 (SFT)(包括多模态指令-演示对)和奖励模型 (RM) 训练,这些训练基于人类偏好数据 [59]。最后,模型通过 Direct Preference Optimization (DPO) [62] 和 Proximal Policy Optimization (PPO) [68] 等方法学习人类偏好,以确保最终模型在质量和责任方面与人类偏好一致。

1.2 Amazon Nova Canvas 和 Reel

Amazon Nova Canvas 和 Amazon Nova Reel 被设计用于创建逼真的多模态内容,包括图像和视频,适用于广告、市场营销和娱乐等多种应用。

Amazon Nova Canvas 提供以下功能,更多详细信息见附录 A:

  • 文本到图像生成:Amazon Nova Canvas 可以生成不同分辨率(从 512 到最高 2K 横向分辨率)和纵横比(任何介于 1:4 和 4:1 之间的纵横比,最大像素数为 4.2M)的图像。用户可以提供参考图像,引导模型生成特定风格或色彩调色板的输出,或生成图像变体。

    • 图像编辑:Amazon Nova Canvas 允许通过自然语言掩码提示进行精确的图像编辑操作,如修补和扩展。这些掩码提示描述了需要重新绘制的输入图像的具体区域。用户还可以轻松地使用背景移除功能更改背景,同时保持图像主体不变。
      Amazon Nova Reel 提供以下功能:
  • 根据文本提示生成视频:Amazon Nova Reel 可以根据文本提示生成持续时间为 6 秒的高质量视频(分辨率为 720p,每秒 24 帧)。

    • 根据参考图像和提示生成视频:Amazon Nova Reel 可以根据输入图像和文本提示生成视频。
    • 使用文本提示控制摄像机运动:在 Amazon Nova Reel 中,用户可以通过“缩放”和“向前推镜”等文本提示指导摄像机运动,从而获得每个视频所需的确切视觉效果。Amazon Nova Reel 支持超过 20 种摄像机运动。有关更多细节,请参阅我们的提示指南 。
      Amazon Nova Canvas 和 Reel 是潜在扩散模型 [61],其中变分自动编码器 (VAE) [41] 将图像或视频帧映射到潜在变量,扩散过程发生在这些变量上。文本编码器将输入文本提示标记化,然后将其作为条件信号传递给扩散模型。在推理时,使用从高斯分布采样的随机噪声初始化潜在变量,然后由训练好的扩散模型迭代去噪成干净的潜在变量。干净的潜在变量由 VAE 的解码器解码回图像或视频帧。这两个模型都采用了两阶段的方法进行预训练和微调。预训练数据来源于多种渠道,包括许可数据、专有数据、开源数据集和适当的公开可用数据。我们的高度可扩展的数据过滤、去重和丰富管道基于 AWS EMR [2] 和 AWS Batch [1] 以及其他 AWS 服务。

                                                                                                                           [^0......
      

参考论文:https://arxiv.org/pdf/2506.12103

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐