AI创造力：从评估到生成机制的范式转变

weixin_30709061

288人浏览 · 2026-06-05 09:22:31

weixin_30709061 · 2026-06-05 09:22:31 发布

1. 人工智能创造力的范式转变：从评估到生成机制

过去十年间，人工智能领域最引人注目的突破之一就是生成模型在创造性任务上的表现。从能够撰写流畅文章的GPT-3，到生成逼真图像的Stable Diffusion，这些系统展现出的"创造力"已经达到了令人惊讶的水平。然而，一个根本性问题始终存在：我们该如何理解和定义这些人工智能系统的创造力？

传统研究主要采用评估性框架（evaluative framework）来度量AI创造力。这种方法关注生成输出的三个关键属性：新颖性（novelty）、多样性（diversity）和实用性（usefulness）。例如，在评估AI生成的画作时，研究者会测量这些作品与训练数据的差异程度（新颖性）、生成风格的多样性，以及人类观众对其艺术价值的认可程度。这种评估范式虽然提供了有价值的量化指标，但它本质上是一种后验的、基于输出的分析方法。

评估范式的局限性在于，它把创造力视为一种需要检测的属性，而非需要建模的现象。就像通过品尝来评判一道菜的好坏，却不去了解烹饪的过程和原理。

现代多模态生成模型（如结合文本和图像的CLIP引导系统）展现出的行为已经超越了简单的模式复制。这些系统能够：

进行概念的灵活重组（如将"马"和"彩虹"组合成"彩虹马"）
根据上下文调整输出风格（如用不同艺术风格表现同一主题）
维持跨模态的连贯性（如生成与文本描述精确匹配的图像）

这些能力促使研究者开始思考：也许创造力不是评估出来的标签，而是特定系统架构在特定环境条件下自然涌现的特性。

2. 领域受限生成模型中的创造力框架

2.1 核心理论框架

本文提出的核心观点是：创造力是领域受限生成模型（Domain-Limited Generative Models）的涌现特性。这一框架包含四个相互作用的组件：

模式生成（Patternism） ：系统学习和重组数据中结构规律的能力
世界模型诱导（Weltanschauung） ：系统内部形成的领域知识组织结构
上下文grounding（Zeitgeist） ：训练数据蕴含的文化历史背景约束
Arbitrarity ：系统产生非确定性偏差的能力

2.1.1 模式生成：创造力的基础构件

模式生成是大多数现代生成模型的核心能力。以扩散模型为例，它通过以下过程学习数据模式：

前向扩散过程：逐步向训练图像添加噪声
反向去噪过程：学习预测并移除这些噪声
生成阶段：从随机噪声开始，通过学到的去噪路径生成新样本

这种模式学习使得系统能够：

提取多层次特征（从局部纹理到全局构图）
在不同尺度上插值和重组这些特征
生成既熟悉又新颖的输出变体

2.1.2 世界模型诱导：知识的内部组织

世界模型指的是系统内部形成的、关于其训练领域的"理解"。在大型语言模型中，这表现为：

概念间的语义关联网络
不同抽象层次的知识组织
跨领域的概念映射关系

例如，当要求GPT-4解释"量子物理就像..."时，它能生成恰当的类比，这表明其内部已经形成了某种关于量子物理的概念表征及其与其他领域的关系。

2.1.3 上下文grounding：领域的边界与约束

上下文grounding由训练数据的历史文化背景决定。如果只在18世纪欧洲艺术数据集上训练：

系统会内化当时的审美规范
色彩使用会符合当时的颜料技术限制
主题选择会反映当时的社会文化关注点

这种限制不是缺陷，而是创造力的必要条件——它为重组和创新提供了明确的参照框架。

2.1.4 Arbitrarity：创造性的扰动因素

Arbitrarity指系统有意引入的随机性，如：

生成对抗网络（GAN）中的噪声输入
语言模型采样中的temperature参数
扩散模型中的随机种子

关键洞见是：这种随机性不是单纯的噪音，而是系统探索可能性的机制。就像人类创作中的"意外发现"（serendipity），有价值的创新往往来自可控的偏离。

2.2 数学形式化表达

我们可以用以下方程表示创造力C：

C = α·W + β·P + γ·Z + ε

其中：

W：世界模型（世界观结构）
P：累积的模式知识
Z：上下文grounding（时代精神）
ε：arbitrarity项
α,β,γ：各成分的权重系数

这个公式强调创造力是系统内部因素与外部约束共同作用的结果，而非单一维度的属性。

3. 多模态系统中的创造力涌现

3.1 多模态架构的特殊优势

多模态系统（如同时处理文本和图像的模型）为创造力研究提供了理想平台，因为：

跨模态对齐 ：学习不同模态间的共享表征空间
概念迁移 ：将一个模态的模式应用于另一个模态
约束增强 ：多模态信号提供更丰富的生成约束

实验表明，纯视觉DCGAN和文本条件CGAN在创造力表现上有显著差异：

特性	DCGAN (单模态)	CGAN (多模态)
输出多样性	有限，接近训练数据	更高，更多变体
概念组合	仅视觉特征重组	跨模态概念融合
创新程度	保守插值	显著结构创新

3.2 实验设计与结果

研究使用18世纪欧洲艺术和文学构建训练集，比较了：

基准模型 ：DCGAN仅训练视觉数据
- 早期epoch：模糊的结构，低层次特征学习
- 后期epoch：清晰但保守的输出，接近训练集风格
多模态CGAN ：同时处理文本描述和图像
- 生成与文字内容相关但视觉上创新的作品
- 出现训练集中没有的全新构图方式
- 保持时代风格的同时展现个体差异

关键发现：多模态条件不是简单的"约束"，而是通过引入跨模态张力促进了创新。当视觉生成必须同时满足：

图像空间的真实性
与文本条件的一致性
对抗训练的判别要求

系统被迫探索传统单模态模型不会触及的解决方案空间。

4. 创造力的未来研究方向

4.1 扩展到更复杂系统

当前框架可应用于：

基于Transformer的多模态架构
扩散模型的跨模态引导
具身AI系统（embodied AI）的感知-行动循环

特别有前景的方向是将此框架与以下结合：

质量-多样性算法 （Quality-Diversity Algorithms）
- 同时优化解决方案的质量和多样性
- 维护一个覆盖行为空间不同区域的解决方案存档
内在动机机制 （Intrinsic Motivation）
- 基于学习进度或预测误差的奖励
- 鼓励系统探索尚未掌握的行为模式

4.2 创造力的自主性发展

真正的挑战在于如何让系统：

自主判断何时需要创新
评估自身创造物的价值
在保守与冒险之间取得平衡

这可能需要引入：

元学习（learning to learn）机制
生成与评估模块的协同进化
与环境交互的持续学习循环

4.3 创造力与通用人工智能

这项研究最深刻的启示可能是：创造力不是智能的附加品，而是智能的核心特征。一个能够：

理解所处领域的约束
构建丰富的内部世界模型
灵活重组已有知识
战略性地引入变化

的系统，不仅更"有创造力"，也更有可能发展出广义的智能。在这个意义上，对AI创造力的研究不仅关乎艺术或设计，更是通向更通用人工智能的重要路径。

5. 实操建议与经验分享

基于这项研究，对于希望在实际项目中应用这些原则的从业者，以下建议可能有所帮助：

数据选择比模型规模更重要
- 精心构建领域专注的训练集
- 确保数据内部的一致性（同一时代/风格/技术背景）
- 包含丰富的元数据（如艺术作品的创作背景描述）
多模态训练的实用技巧
- 使用对比学习（如CLIP）预对齐不同模态
- 逐步增加条件约束的强度
- 监控不同模态间的注意力分布
控制arbitrarity的策略
- 在训练后期逐步增加噪声方差
- 对不同层次的特征施加不同强度的随机性
- 使用课程学习安排创新压力
评估创造力的替代指标
- 测量潜在空间的覆盖范围
- 跟踪生成样本的最近邻距离分布
- 分析跨模态一致性的统计特性

在实际项目中，我们发现几个关键经验：

过度追求新颖性会导致不连贯的输出
最好的结果往往来自适度的约束与自由的平衡
多模态系统需要更长的训练时间达到稳定
定期人工审查对于保持创造力的质量至关重要

这项研究最令人兴奋的发现或许是：当给予适当的领域约束和生成自由时，AI系统确实能够产生超出简单插值的创新。这不仅改变了我们对机器创造力的理解，也为构建更自主、更通用的人工智能系统提供了新的思路。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

在Cline中配置使用DeepSeek V4，非常强！

PS：这里有个需要注意的地方，在选择API Provide时千万不要选默认的DeepSeek，因为这个接口对应的模型是 deepseek-chat 与deepseek-reasoner ，现在指向的是deepseek-v4-flash的非思考模式与思考模式，并不是Pro版本。首先在Vscode上安装Cline插件，然后在Cline设置里配置API，Act和Plan模式配置方式一样。总的来说，V4生

智能体开发者社区

2026年实测：用Gemini镜像站解决EMC/EMI设计与PCB布局难题

在EMC/EMI设计和PCB优化这类高度依赖经验积累的领域，Gemini和ChatGPT这样的多模态大模型正在成为硬件工程师的高效助手。它们让设计规则变得触手可及，把“查资料”的时间还给“思考”和“实测”。对于日常使用，建议将AI引入你的设计评审流程：布局前获取规则清单，布局后上传截图做视觉审查，调试时通过对话快速计算参数。唯一需要注意的是，所有AI给出的结论都是参考，最终决策必须建立在实测数据之