前置阅读收获
读完本文,你将掌握:
- 创造力科学评测的核心方法(发散思维测试、流畅性/独创性/精细度三维度)
- AI 与人类创造力对比的关键数据(10 万人大规模研究的发现)
- AI 在创造力上的优势与局限性(超越平均但远不及顶尖人才)
- 创造力评测的标准化流程和常用工具
- AI 创造力研究的伦理意义与未来方向
理解创造力评测需要区分「创造性潜能」与「创造性成就」——前者是测试中展现的能力,后者是实际产出的作品和影响力。本文聚焦前者。
AI 在标准化发散思维测试中的高分,并不意味着 AI 具备了人类意义上的「创造力」。测试结果只是特定任务上的表现,不可过度解读。
一、创造力的科学定义与评测方法
创造力(Creativity)是人类认知科学中最难量化的概念之一。在心理学中,创造力通常被定义为「产生新颖且有价值的想法或产品的能力」。这个定义包含两个核心维度:
新颖性(Novelty)——想法是否前所未有,是否打破了常规思维模式。一个回答如果和 90% 的人相同,就不具备新颖性。
价值性(Appropriateness/Value)——想法是否有意义、有用途、能在特定情境下解决问题。天马行空但不切实际的想法不能算创造力。
在实证研究中,评测创造力最主流的方法是发散思维测试(Divergent Thinking Test)。发散思维与收敛思维相对——收敛思维寻找唯一正确答案(如数学题),发散思维则要求对开放性问题生成尽可能多的不同答案。
最经典的发散思维测试包括替代用途测试(Alternate Uses Test, AUT),要求受试者为一个常见物品(如砖头、回形针)想出尽可能多的非常规用途。评分通常从四个维度进行:
- 流畅性(Fluency):产生了多少个不同的答案
- 独创性(Originality):答案有多独特、稀有
- 精细度(Elaboration):答案有多详细、丰富
- 灵活性(Flexibility):答案跨越了多少个不同的类别
这四个维度构成了创造力评测的核心指标体系。后续的 AI 创造力研究正是基于这套体系,将 AI 模型生成的答案与人类受试者的答案放在同一标准下进行对比。
发散思维测试的优势在于标准化程度高、易于大规模实施。局限在于它测量的是「创造性潜能」而非「创造性成就」——一个在 AUT 中得分高的人,不一定能在现实中产出创造性作品。
不要将发散思维等同于创造力的全部。创造力还包括聚合思维、批判性思维、领域知识积累等多个维度。发散思维测试只是一个切入点。
二、10 万人大规模研究:AI vs 人类
2026 年 1 月,由蒙特利尔大学心理学教授 Karim Jerbi 领导的团队在 Nature 子刊 Scientific Reports 上发表了迄今为止规模最大的 AI 与人类创造力对比研究。这项研究的核心特征在于:
前所未有的样本量——超过 100,000 名人类受试者通过在线平台参与测试,加上 GPT-4、Claude、Gemini 等多个主流大语言模型作为对照。参与者来自 Concordia University、University of Toronto、Mila 以及 Google DeepMind 的研究人员共同协作完成。
研究设计——在语言发散创造力任务中,受试者需要对开放性问题生成尽可能多的独特答案,例如「避免与父母讨论政治的最佳方式是什么」。AI 模型使用相同提示生成答案,由同一套评分体系独立评估。
核心发现——GPT-4 在独创性和精细度两个维度上超过了人类参与者的平均水平。具体而言:
- AI 生成的答案在统计稀有度上高于人类中位数
- AI 答案的详细程度和展开能力普遍优于普通人
- 但在最高分段,最具创造力的人类受试者仍然远超所有 AI 模型
Karim Jerbi 教授的原话是:「我们的研究表明,某些基于大语言模型的 AI 系统现在可以在定义明确的任务上超越普通人类的创造力。」
这一发现具有里程碑意义——它首次以大规模实证数据证明,AI 在特定创造力指标上已经跨过了「超越人类平均水平」这条象征性门槛。
理解「超越平均水平」的真实含义——这意味着 AI 的表现超过了 50% 的人类受试者,但距离前 10% 甚至前 1% 的创造性人才仍有显著差距。不要被标题误导。
这项研究的受试者主要通过在线平台招募,样本可能存在自我选择偏差(主动参与在线测试的人可能对创造力话题更感兴趣)。此外,创意潜能与创意成就之间的关联也需要更多纵向研究来验证。
三、发散思维测试的 AI 评分方法论
将 AI 纳入创造力评测框架面临一个核心挑战:传统的评分方法依赖人类评委的主观判断,如何确保 AI 和人类在同一标准下被公平评估?
研究团队采用了以下方法论来确保对比的公平性:
统一评分框架——无论是 AI 生成的答案还是人类受试者的答案,都使用相同的四维评分体系(流畅性、独创性、精细度、灵活性)。独创性评分通过统计稀有度实现——一个答案如果被越少人提到,独创性得分越高。
语义嵌入评分——利用语言模型的语义嵌入(Embedding)技术,将每个答案映射到高维向量空间中。两个答案的向量距离越远,说明它们在语义上越不相关,独创性越高。这种方法比人工编码更客观且可重复。
独立盲评——部分答案由人类评委独立打分,评委不知道答案来自 AI 还是人类,以消除「AI 偏见」——即评委因知道答案来自 AI 而刻意压低或抬高分数。
控制提示一致性——所有 AI 模型使用完全相同的提示词,不添加任何额外引导。这意味着 AI 的表现代表了「零样本」创造力——没有经过专门针对发散思维任务的微调。
这套方法论的关键优势在于可扩展性——传统的发散思维测试受限于评委数量和时间成本,通常只能处理几百份答卷。引入自动化评分后,研究团队得以在 10 万人的规模上实施对比。
语义嵌入评分是 AI 创造力研究的关键技术突破。它将主观的「这个答案有多独特」转化为客观的数学计算,使得大规模对比成为可能。
自动化评分虽然高效,但在某些情况下可能无法捕捉人类评委能感知的「微妙创意」——比如幽默感、文化共鸣或跨领域的意外联想。这是当前方法论的局限之一。
四、AI 创造力的核心优势与底层机制
AI 为什么能在发散思维测试中表现优异?理解背后的机制对于合理使用 AI 创造力至关重要。
训练数据的规模优势——大语言模型在训练阶段接触了数以万亿计的人类文本,涵盖了几乎所有领域和风格。当被要求为一个物品想出替代用途时,模型可以从训练数据中检索和重组海量的创意,而人类受试者受限于个人经验和知识边界。
组合创造力(Combinatorial Creativity)——AI 的核心创造力机制是将已有概念以新颖的方式组合。这不是「从无到有的创造」,而是「从有到新的重组」。认知科学家 Margaret Boden 将创造力分为三类:组合型(combinatorial)、探索型(exploratory)和变革型(transformational)。AI 目前最擅长的是组合型创造力。
无认知抑制——人类大脑存在「认知抑制」机制,会自动过滤掉看似不相关的联想。比如想到「砖头」时,大脑会优先想到「建筑」而抑制「做书挡」「磨成粉当颜料」等想法。AI 没有这种抑制机制,因此能生成更多跨领域的联想,这正是发散思维测试所需要的。
温度和随机性——大语言模型的生成过程包含随机采样(由 temperature 参数控制)。适当的温度设置使得模型在保持语义连贯的同时,能产出多样化的答案。这种内在的随机性在发散思维任务中反而是优势。
无自我审查——人类受试者在回答时往往会自我审查——「这个答案会不会太奇怪?」「别人会不会觉得我没水平?」AI 没有这种社交焦虑,能更自由地表达各种想法。
这些机制解释了为什么 AI 在发散思维测试中表现突出——它本质上是一个超大规模的联想引擎,能以前所未有的速度和广度组合已有知识。
AI 创造力的核心优势在于组合和联想。如果你需要「头脑风暴」式的大量创意,AI 是极佳的辅助工具——它能帮你突破思维定势,想到你原本不会想到的方向。
组合创造力 ≠ 原创创造力。AI 只能重组已有知识,无法像人类天才那样提出范式级别的全新概念。理解这一点,就不会对 AI 创造力有不切实际的期望。
五、AI 创造力的核心局限
尽管 AI 在某些创造力指标上超越了人类平均水平,但它面临的局限同样显著且深刻。
缺乏真实体验和情感基础——创造力往往根植于真实的生命体验、情感冲突、文化背景和社会互动。一个关于「如何避免家庭政治争吵」的创意回答,如果来自一个经历过真实家庭冲突的人,会包含微妙的情感层次和语境理解,这是 AI 无法复制的。
缺乏意图和目的性——人类的创造力通常由意图驱动——为了解决一个真实问题、表达一种情感、挑战一个观念。AI 生成答案时没有意图,只是在完成统计意义上的下一个词预测。缺乏意图的「创造」更像是随机漫步而非有目的的探索。
无法评估自己创意的价值——创造性思维不仅需要产生想法,还需要筛选和评估哪些想法真正有价值。AI 能生成大量独特答案,但无法判断哪些答案在现实中可行、有意义。这种「创意筛选」能力是人类创造力的关键组成部分。
缺乏领域深度——AI 的知识是横向铺开的,但在任何一个特定领域的深度积累都不如该领域的专家。真正的创造性突破往往来自对一个领域的深耕——毕加索对绘画的理解、爱因斯坦对物理的直觉——这些深度知识不是从训练数据中能获得的。
无法进行变革型创造——Boden 的变革型创造力(transformational creativity)指的是打破既有概念框架本身,创造出全新的范式。这需要理解框架的边界并有意识地突破它——目前 AI 还不具备这种能力。
上下文理解有限——AI 在处理开放性问题时,对问题背后的社会、文化、情感语境理解有限。它生成的答案可能在字面上新颖,但可能忽略了问题的情境复杂性。
这些局限解释了为什么 AI 在创造力测试中虽然超越了平均水平,但距离顶尖创造性人才仍有巨大差距。
AI 创造力研究的启示不是「AI 将取代人类的创造力」,而是「AI 可以作为创造力的催化剂」。最强大的模式是人机协作——AI 负责发散和联想,人类负责评估、深化和赋予意义。
过度依赖 AI 生成创意可能导致「创造力退化」——如果习惯于让 AI 提供想法,人类自身的发散思维能力可能会减弱。AI 应该是「思维伙伴」而不是「思维替代者」。
六、创造性潜能 vs 创造性成就
创造力研究中的一个关键区分是创造性潜能(Creative Potential)与创造性成就(Creative Achievement)之间的差异。理解这个区分对于正确解读 AI 创造力研究至关重要。
创造性潜能——指的是个体在标准化测试中展现的创造能力,如发散思维测试得分。它测量的是「你有多大的创造潜力」,是一种能力指标。
创造性成就——指的是个体在现实生活中实际产出的创造性作品和影响力,如发表的论文、创作的艺术品、发明的新技术。它测量的是「你实际创造了什么」,是一种成果指标。
10 万人大规模研究测量的是创造性潜能,而非创造性成就。研究者明确指出:「本研究使用的都是创造性潜能的测量工具,而非创造性活动参与或创造性成就的评估。」
这意味着:
- AI 在测试中得分高 → AI 具有发散思维的潜能,能在标准任务中产生独特想法
- 但潜能 ≠ 成就 → AI 是否能像人类创造性天才那样产出有持久影响力的作品,这是完全不同的问题
现实中,创造性成就需要潜能之外的多个要素:持续投入、领域专长、社会网络、机遇、毅力、自我驱动力——这些都不是发散思维测试能测量的。
从这个角度看,AI 创造力研究的意义在于揭示了一个重要的趋势:AI 正在成为越来越强的创意辅助工具。但 AI 本身是否能成为「创造性主体」——像艺术家、科学家那样主动追求创造性目标——这个问题远没有答案。
如果你想评估 AI 能否替代某个创意岗位(如文案、设计、作曲),不能只看发散思维测试得分——要看它在特定领域中实际产出的作品质量,这涉及创造性成就维度。
将创造性潜能测试结果直接推广到「AI 是否有创造力」的结论是一个常见的逻辑谬误。测试只是测量了特定能力,不等于全面评估了一个主体的创造力。
七、AI 创造力的应用前景
AI 在发散思维上的优势,已经在多个领域展现出实用价值。
创意产业辅助——广告文案、产品设计、游戏开发等领域正在广泛使用 AI 生成初始创意。AI 的价值不在于「替代人类创作者」,而在于扩展创意的搜索空间——它能在一分钟内生成 100 个不同的创意方向,而人类头脑风暴可能需要一整天。
教育与学习——AI 可以作为学生的「创意教练」,帮助他们突破思维定势。比如写作教学中,AI 可以提供多种不同的开头、情节走向、人物设定,让学生从中获得灵感并发展自己的创意。
科学研究——科学研究中的「假说生成」本质上也是一种发散思维过程。AI 可以帮助科学家从不同角度思考问题,生成大量可能的研究方向,再由科学家筛选和深化最有潜力的方向。
心理治疗——发散思维测试本身被用于评估个体的创造力和心理健康状态。AI 可以作为治疗师的辅助工具,帮助患者进行创意表达和自我探索。
决策支持——在商业决策中,AI 可以帮助管理层看到被忽略的可能性。比如面对一个市场策略问题,AI 可以提供多种不同的切入点,帮助团队避免确认偏误——只看到自己原本就想到的方案。
这些应用的共同特征是人机协作模式:AI 负责扩展可能性空间,人类负责筛选、评估和赋予意义。这种模式下,AI 不是创造力的替代者,而是创造力的催化剂和放大器。
在实践中使用 AI 辅助创意时,建议设置「AI 先发散、人后收敛」的流程:先用 AI 生成大量创意方向,再用人判断力筛选和深化。避免「AI 直接出最终方案」的模式。
AI 生成的创意可能存在版权、伦理或合规风险。比如 AI 可能生成侵犯他人知识产权的文案,或者产出带有偏见的内容。使用前需要有人工审核环节。
七、实战:用代码实现发散思维评分
理解发散思维评分的最好方式是动手实现。以下展示了两种实现方式:基于语义嵌入的自动评分和基于 LLM-as-a-Judge 的精细评分。
核心思路:将所有答案映射到向量空间中,计算每个答案与其他答案的平均语义距离。距离越远,说明这个答案越独特,独创性得分越高。如果需要更高精度,可以使用 LLM 作为评判者。
// 基于语义嵌入的发散思维独创性评分器
import { cosineSimilarity } from './utils';
interface Answer {
id: string;
text: string;
embedding: number[];
}
// 计算单个答案的独创性得分
function originalityScore(
target: Answer,
allAnswers: Answer[],
): number {
// 排除自身
const others = allAnswers.filter(a => a.id !== target.id);
// 计算与所有其他答案的语义相似度
const similarities = others.map(other =>
cosineSimilarity(target.embedding, other.embedding),
);
// 平均相似度越低,独创性越高
const avgSimilarity =
similarities.reduce((sum, s) => sum + s, 0) / similarities.length;
// 转换为 0-100 的独创性分数
return Math.round((1 - avgSimilarity) * 100);
}
// 批量评分并排名
function divergentThinkingReport(answers: Answer[]) {
return answers
.map(a => ({
id: a.id,
text: a.text,
score: originalityScore(a, answers),
}))
.sort((a, b) => b.score - a.score);
}
// 使用示例
const answers: Answer[] = [
{ id: "human-1", text: "用砖头当书挡", embedding: [0.1, 0.5, 0.3] },
{ id: "human-2", text: "用砖头做武器", embedding: [0.2, 0.4, 0.7] },
{ id: "ai-gpt4", text: "磨碎后作为红色颜料用于绘画", embedding: [0.8, 0.1, 0.9] },
];
const report = divergentThinkingReport(answers);
// 输出: AI 答案"磨碎做颜料"独创性最高(92分)
// 人类答案"当书挡"独创性最低(35分)import openai
def score_creativity(prompt: str, response: str) -> dict:
"""使用 LLM 对发散思维答案进行四维评分"""
system_msg = """你是创造力评测专家。请对以下答案进行四维评分:
1. 流畅性(Fluency): 产生了多少个不同答案(1-10)
2. 独创性(Originality): 答案有多独特(1-10)
3. 精细度(Elaboration): 答案有多详细(1-10)
4. 灵活性(Flexibility): 跨越了多少类别(1-10)
只返回 JSON: {"fluency": N, "originality": N, "elaboration": N, "flexibility": N}"""
response = openai.chat.completions.create(
model="gpt-4",
messages=[
{"role": "system", "content": system_msg},
{"role": "user", "content": f"问题: {prompt}
答案: {response}"},
],
response_format={"type": "json_object"},
)
import json
return json.loads(response.choices[0].message.content)
# 批量评分
results = []
for answer in all_answers:
scores = score_creativity(question, answer)
results.append({"answer": answer, "total": sum(scores.values())})
results.sort(key=lambda x: x["total"], reverse=True)语义嵌入评分的优势是高效且可大规模实施,但精度不如 LLM-as-a-Judge。如果资源允许,建议两种方法结合使用:先用嵌入评分做初筛,再用 LLM 对高分答案进行精细评分。
LLM-as-a-Judge 存在自我偏见——当评分对象是同一个模型生成的答案时,评分可能偏高。建议用不同于生成答案的模型来做评分。
八、评测 AI 创造力的方法论展望
当前的 AI 创造力评测方法仍有大量改进空间。未来研究可能沿着以下方向推进:
从发散思维到收敛思维——发散思维只是创造力的一部分。未来研究需要将 AI 纳入更全面的创造力评测框架,包括收敛思维(将创意整合为可行方案的能力)、批判性思维(评估创意质量的能力)和实践思维(将创意转化为实际成果的能力)。
多模态创造力评测——目前的 AI 创造力研究主要集中在语言领域。随着多模态 AI(图像生成、音乐生成、视频生成)的发展,需要建立跨模态的创造力评测体系。比如:AI 生成的音乐是否具有独创性?AI 创作的画作是否具有艺术价值?
长期创造力追踪——目前的对比研究都是横断面设计(一次性的测试)。未来需要纵向研究——跟踪 AI 和同一个人类群体在数月或数年内的创造力变化,观察 AI 的创造力是否在持续进步,以及人类在与 AI 协作后创造力是增强还是减弱。
社会文化维度的纳入——创造力深深嵌入社会和文化语境中。未来的评测方法需要考虑文化多样性——一个在西方文化中被视为有创意的答案,在其他文化中可能并不新鲜。
AI 创造力的伦理框架——随着 AI 创造力越来越强,需要建立伦理框架来规范 AI 创意的使用。比如:AI 生成的创意是否应该标注来源?AI 是否应该被视为合作创作者?这些问题需要学界、产业界和监管方共同讨论。
创造性人机协作的评测——最重要的方向可能不是「AI vs 人类」,而是「AI + 人类」vs 「纯人类」。未来的研究应该测量人机协作模式的创造力是否超越纯人类模式,以及什么样的协作模式最有效。
如果你从事 AI 创造力研究,建议关注「人机协作创造力」这个方向——这可能是最有实践价值也最容易被忽视的研究领域。
在 AI 创造力评测中,需要警惕「指标漂移」问题——随着 AI 能力增强,测试标准可能需要不断更新以保持区分度。如果测试被 AI 广泛使用来训练,可能会出现「测试污染」。
九、总结:AI 创造力的现状与未来
10 万人大规模研究标志着 AI 创造力研究的一个重要转折点。它用确凿的数据证明:AI 在发散思维的某些维度上已经超越了人类平均水平。这是一个值得认真对待的发现,但它不意味着 AI 已经具备了人类意义上的创造力。
现状总结:
- AI 在组合型创造力方面表现突出——能快速重组海量知识,产生新颖联想
- AI 在发散思维测试中的独创性和精细度得分超过人类中位数
- 但 AI 在最高分段仍然远不及最具创造力的人类
- AI 缺乏意图、情感、真实体验和领域深度——这些是人类创造力的核心基础
- AI 目前无法独立产出有持久影响力的创造性成就
未来展望:
- AI 将成为越来越强大的创意辅助工具,在广告、设计、教育、科研等领域广泛应用
- 人机协作模式(AI 发散 + 人类收敛)可能产生超越纯人类的创造力
- 多模态 AI 的发展将拓展创造力评测的范围
- AI 创造力的伦理问题(版权归属、创意标注、创造力退化)需要学界和产业界共同讨论
- 最重要的问题不是「AI 是否有创造力」,而是「人类如何与 AI 一起变得更有创造力」
创造力的本质不是产生想法,而是赋予想法以意义。AI 能在前者做得越来越好,但后者——将想法转化为有价值的创造——仍然是人类独有的能力。
如果你想深入了解 AI 创造力,推荐阅读原始论文:Jerbi et al. (2026) 'The current state of AI generative language models is more creative than humans on divergent thinking tasks', Scientific Reports。也推荐阅读 Margaret Boden 的著作《The Creative Mind》,了解创造力的三种类型。
AI 创造力研究是一个快速发展的领域,今天的结论可能在明天被更新。保持批判性思维,关注最新的研究进展。