Amazon Nova 系列模型：技术报告与模型卡片

亚马逊推出全新Nova系列AI模型，包含多款针对不同场景优化的产品：Nova Pro是多模态全能模型，Nova Lite是低成本多模态方案，Nova Micro专注文本低延迟响应，Canvas和Reel分别提供图像/视频生成能力。该系列采用Transformer架构，支持200+语言处理，通过多阶段训练确保性能与安全性。基准测试显示其在文本理解、多模态处理等任务上达到行业领先水平，同时强调负责任A

Paper易论

1363人浏览 · 2025-06-29 21:19:24

Paper易论 · 2025-06-29 21:19:24 发布

Amazon 人工智能通用能力（Artificial General Intelligence）

图1：Amazon Nova系列模型

摘要

我们推出了Amazon Nova，这是一代最先进的基础模型，能够提供前沿智能和行业领先的性能价格比。Amazon Nova Pro 是一个功能强大的多模态模型，在各种任务中兼具出色的准确性、速度和成本效益。Amazon Nova Lite 是一款低成本的多模态模型，可快速处理图像、视频、文档和文本。Amazon Nova Micro 是仅支持文本的模型，能够在极低的成本下实现最低延迟响应。Amazon Nova Canvas 是一款图像生成模型，可以创建专业级别的图像，并提供丰富的自定义控制功能。Amazon Nova Reel 是一款视频生成模型，能够提供高质量输出、自定义选项以及运动控制。我们的模型在构建过程中注重责任性，并致力于客户信任、安全性和可靠性。我们报告了核心能力、代理工作流程、长上下文、功能适配、运行时性能以及人类评估的基准测试结果。

1 引言 … 3
1.1 Amazon Nova Pro、Lite 和 Micro … 3
1.2 Amazon Nova Canvas 和 Reel … 3
2 Amazon Nova Pro、Lite 和 Micro 的评估 … 5
2.1 核心能力公共基准 … 5
2.1.1 核心能力文本基准及结果 … 5
2.1.2 核心能力多模态基准及结果 … 7
2.2 代理工作流程 … 8
2.2.1 代理文本基准及结果 … 9
2.2.2 代理多模态基准及结果 … 9
2.3 长上下文 … 10
2.4 功能专长 … 11
2.4.1 软件工程 … 12
2.4.2 金融分析 … 12
2.4.3 检索增强生成 … 12
2.5 运行时性能 … 13
3 Amazon Nova Canvas 评估 … 15
3.1 自动化指标 … 15
3.2 人工评估 … 15
4 Amazon Nova Reel 评估 … 16
4.1 人工评估指标 … 16
4.2 数据集 … 16
4.3 实现细节与结果 … 17
5 负责任的人工智能（Responsible AI） … 17
5.1 定义我们的 RAI 目标 … 17
5.2 确保遵守 RAI 目标 … 18
5.3 RAI 评估 … 19
5.4 红队测试 … 19
5.4.1 内部红队测试 … 19
5.4.2 外部红队测试 … 20
5.4.3 自动化红队测试 … 21
6 训练基础设施 … 21
A Amazon Nova Canvas 功能 … 28
B 提示词与评分 … 30
C 多模态智能的定性示例 … 39
D 联系方式与贡献者 … 43

1 引言

本文件介绍了 Amazon Nova，这是一个新一代的最先进基础模型，能提供前沿智能和行业领先的性价比。

1.1 Amazon Nova Pro、Lite 和 Micro

Amazon Nova Pro、Lite 和 Micro 的关键功能包括：

前沿智能：Amazon Nova 模型具备前沿智能，使其能够理解和处理复杂语言任务，达到最先进的准确性。Amazon Nova Micro 在多个文本基准测试中设定了新标准，如语言理解 (MMLU)、深度推理 (GPQA)、数学 (MATH) 和多步骤推理 (Big-Bench Hard)。我们的多模态模型 Amazon Nova Pro 和 Lite 可以接受文本、图像、文档和视频作为输入，并生成文本作为输出。这些模型在多个基准测试中设定了标准，如视频字幕 (VATEX)、视觉问答 (TextVQA)、函数调用 (BFCL)，以及各自智能层级中的多模态代理基准测试 (GroundUI-1K, VisualWebBench, Mind2Web)。这些模型是首批在 Amazon Bedrock 上提供视频理解能力的模型，能够从多媒体内容中获得更深入的洞察。
- 速度：Amazon Nova 设计用于快速推理，其中 Amazon Micro、Lite 和 Pro 分别是在其各自智能层级中最快的模型之一。
- 代理工作流：Amazon Nova Pro、Lite 和 Micro 可以为 AI 代理提供动力，使其能够分解并执行多步骤任务。这些模型与 Bedrock 知识库集成，在检索增强生成 (RAG) 方面表现出色，通过将响应基于开发者的数据来确保最佳准确性。
- 可定制性：开发者可以使用多模态数据（Pro 和 Lite）或文本数据（Pro、Lite 和 Micro）对这些模型进行微调，提供灵活性以实现所需的准确性、延迟和成本。开发者还可以通过 Bedrock API 运行自助式自定义微调 (CFT) 并将较大模型蒸馏为较小模型。
- 性能价格比：每个模型都经过优化，以提供卓越的性价比价值，在低成本下于关键基准测试上提供最先进的性能。
  Amazon Nova Pro、Lite 和 Micro 基于 Transformer 架构 [74]。每个模型经历了一系列训练过程，初始阶段使用大量多语言和多模态数据混合进行预训练。我们的模型训练来自多种来源的数据，包括许可数据、专有数据、开源数据集和适当公开可用的数据。我们从超过 200 种语言中进行了数据筛选，特别强调阿拉伯语、荷兰语、英语、法语、德语、希伯来语、印地语、意大利语、日语、韩语、葡萄牙语、俄语、简体中文、西班牙语和土耳其语。在预训练之后，模型依次经历了多个微调阶段，包括监督微调 (SFT)（包括多模态指令-演示对）和奖励模型 (RM) 训练，这些训练基于人类偏好数据 [59]。最后，模型通过 Direct Preference Optimization (DPO) [62] 和 Proximal Policy Optimization (PPO) [68] 等方法学习人类偏好，以确保最终模型在质量和责任方面与人类偏好一致。

1.2 Amazon Nova Canvas 和 Reel

Amazon Nova Canvas 和 Amazon Nova Reel 被设计用于创建逼真的多模态内容，包括图像和视频，适用于广告、市场营销和娱乐等多种应用。

Amazon Nova Canvas 提供以下功能，更多详细信息见附录 A：

文本到图像生成：Amazon Nova Canvas 可以生成不同分辨率（从 512 到最高 2K 横向分辨率）和纵横比（任何介于 1:4 和 4:1 之间的纵横比，最大像素数为 4.2M）的图像。用户可以提供参考图像，引导模型生成特定风格或色彩调色板的输出，或生成图像变体。
- 图像编辑：Amazon Nova Canvas 允许通过自然语言掩码提示进行精确的图像编辑操作，如修补和扩展。这些掩码提示描述了需要重新绘制的输入图像的具体区域。用户还可以轻松地使用背景移除功能更改背景，同时保持图像主体不变。
  Amazon Nova Reel 提供以下功能：
根据文本提示生成视频：Amazon Nova Reel 可以根据文本提示生成持续时间为 6 秒的高质量视频（分辨率为 720p，每秒 24 帧）。
- 根据参考图像和提示生成视频：Amazon Nova Reel 可以根据输入图像和文本提示生成视频。
- 使用文本提示控制摄像机运动：在 Amazon Nova Reel 中，用户可以通过“缩放”和“向前推镜”等文本提示指导摄像机运动，从而获得每个视频所需的确切视觉效果。Amazon Nova Reel 支持超过 20 种摄像机运动。有关更多细节，请参阅我们的提示指南。
  Amazon Nova Canvas 和 Reel 是潜在扩散模型 [61]，其中变分自动编码器 (VAE) [41] 将图像或视频帧映射到潜在变量，扩散过程发生在这些变量上。文本编码器将输入文本提示标记化，然后将其作为条件信号传递给扩散模型。在推理时，使用从高斯分布采样的随机噪声初始化潜在变量，然后由训练好的扩散模型迭代去噪成干净的潜在变量。干净的潜在变量由 VAE 的解码器解码回图像或视频帧。这两个模型都采用了两阶段的方法进行预训练和微调。预训练数据来源于多种渠道，包括许可数据、专有数据、开源数据集和适当的公开可用数据。我们的高度可扩展的数据过滤、去重和丰富管道基于 AWS EMR [2] 和 AWS Batch [1] 以及其他 AWS 服务。
```
                                                                                                                     [^0......
```

参考论文：https://arxiv.org/pdf/2506.12103

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla