AI 创造力评测：机器与人类的创造性思维对比

💡

文章摘要

基于 10 万人大规模研究，深入解读 AI 与人类在创造性思维上的对比——AI 如何超越平均水平，但仍远不及顶尖人才。涵盖发散思维测试、创造性潜能评估方法和未来研究方向。

前置阅读收获

读完本文，你将掌握：

创造力科学评测的核心方法（发散思维测试、流畅性/独创性/精细度三维度）
AI 与人类创造力对比的关键数据（10 万人大规模研究的发现）
AI 在创造力上的优势与局限性（超越平均但远不及顶尖人才）
创造力评测的标准化流程和常用工具
AI 创造力研究的伦理意义与未来方向

图表加载中…

💡 一句话理解

理解创造力评测需要区分「创造性潜能」与「创造性成就」——前者是测试中展现的能力，后者是实际产出的作品和影响力。本文聚焦前者。

⚠️ 常见踩坑

AI 在标准化发散思维测试中的高分，并不意味着 AI 具备了人类意义上的「创造力」。测试结果只是特定任务上的表现，不可过度解读。

一、创造力的科学定义与评测方法

创造力（Creativity）是人类认知科学中最难量化的概念之一。在心理学中，创造力通常被定义为「产生新颖且有价值的想法或产品的能力」。这个定义包含两个核心维度：

新颖性（Novelty）——想法是否前所未有，是否打破了常规思维模式。一个回答如果和 90% 的人相同，就不具备新颖性。

价值性（Appropriateness/Value）——想法是否有意义、有用途、能在特定情境下解决问题。天马行空但不切实际的想法不能算创造力。

在实证研究中，评测创造力最主流的方法是发散思维测试（Divergent Thinking Test）。发散思维与收敛思维相对——收敛思维寻找唯一正确答案（如数学题），发散思维则要求对开放性问题生成尽可能多的不同答案。

最经典的发散思维测试包括替代用途测试（Alternate Uses Test, AUT），要求受试者为一个常见物品（如砖头、回形针）想出尽可能多的非常规用途。评分通常从四个维度进行：

-流畅性（Fluency）：产生了多少个不同的答案
-独创性（Originality）：答案有多独特、稀有
-精细度（Elaboration）：答案有多详细、丰富
-灵活性（Flexibility）：答案跨越了多少个不同的类别

这四个维度构成了创造力评测的核心指标体系。后续的 AI 创造力研究正是基于这套体系，将 AI 模型生成的答案与人类受试者的答案放在同一标准下进行对比。

图表加载中…

💡 一句话理解

发散思维测试的优势在于标准化程度高、易于大规模实施。局限在于它测量的是「创造性潜能」而非「创造性成就」——一个在 AUT 中得分高的人，不一定能在现实中产出创造性作品。

⚠️ 常见踩坑

不要将发散思维等同于创造力的全部。创造力还包括聚合思维、批判性思维、领域知识积累等多个维度。发散思维测试只是一个切入点。

二、10 万人大规模研究：AI vs 人类

2026 年 1 月，由蒙特利尔大学心理学教授 Karim Jerbi领导的团队在 Nature 子刊 Scientific Reports 上发表了迄今为止规模最大的 AI 与人类创造力对比研究。这项研究的核心特征在于：

前所未有的样本量——超过 100,000 名人类受试者通过在线平台参与测试，加上 GPT-4、Claude、Gemini 等多个主流大语言模型作为对照。参与者来自 Concordia University、University of Toronto、Mila 以及 Google DeepMind 的研究人员共同协作完成。

研究设计——在语言发散创造力任务中，受试者需要对开放性问题生成尽可能多的独特答案，例如「避免与父母讨论政治的最佳方式是什么」。AI 模型使用相同提示生成答案，由同一套评分体系独立评估。

核心发现——GPT-4 在独创性和精细度两个维度上超过了人类参与者的平均水平。具体而言：

AI 生成的答案在统计稀有度上高于人类中位数
AI 答案的详细程度和展开能力普遍优于普通人
但在最高分段，最具创造力的人类受试者仍然远超所有 AI 模型

Karim Jerbi 教授的原话是：「我们的研究表明，某些基于大语言模型的 AI 系统现在可以在定义明确的任务上超越普通人类的创造力。」

这一发现具有里程碑意义——它首次以大规模实证数据证明，AI 在特定创造力指标上已经跨过了「超越人类平均水平」这条象征性门槛。

图表加载中…

💡 一句话理解

理解「超越平均水平」的真实含义——这意味着 AI 的表现超过了 50% 的人类受试者，但距离前 10% 甚至前 1% 的创造性人才仍有显著差距。不要被标题误导。

⚠️ 常见踩坑

这项研究的受试者主要通过在线平台招募，样本可能存在自我选择偏差（主动参与在线测试的人可能对创造力话题更感兴趣）。此外，创意潜能与创意成就之间的关联也需要更多纵向研究来验证。

三、发散思维测试的 AI 评分方法论

将 AI 纳入创造力评测框架面临一个核心挑战：传统的评分方法依赖人类评委的主观判断，如何确保 AI 和人类在同一标准下被公平评估？

研究团队采用了以下方法论来确保对比的公平性：

统一评分框架——无论是 AI 生成的答案还是人类受试者的答案，都使用相同的四维评分体系（流畅性、独创性、精细度、灵活性）。独创性评分通过统计稀有度实现——一个答案如果被越少人提到，独创性得分越高。

语义嵌入评分——利用语言模型的语义嵌入（Embedding）技术，将每个答案映射到高维向量空间中。两个答案的向量距离越远，说明它们在语义上越不相关，独创性越高。这种方法比人工编码更客观且可重复。

独立盲评——部分答案由人类评委独立打分，评委不知道答案来自 AI 还是人类，以消除「AI 偏见」——即评委因知道答案来自 AI 而刻意压低或抬高分数。

控制提示一致性——所有 AI 模型使用完全相同的提示词，不添加任何额外引导。这意味着 AI 的表现代表了「零样本」创造力——没有经过专门针对发散思维任务的微调。

这套方法论的关键优势在于可扩展性——传统的发散思维测试受限于评委数量和时间成本，通常只能处理几百份答卷。引入自动化评分后，研究团队得以在 10 万人的规模上实施对比。

图表加载中…

💡 一句话理解

语义嵌入评分是 AI 创造力研究的关键技术突破。它将主观的「这个答案有多独特」转化为客观的数学计算，使得大规模对比成为可能。

⚠️ 常见踩坑

自动化评分虽然高效，但在某些情况下可能无法捕捉人类评委能感知的「微妙创意」——比如幽默感、文化共鸣或跨领域的意外联想。这是当前方法论的局限之一。

四、AI 创造力的核心优势与底层机制

AI 为什么能在发散思维测试中表现优异？理解背后的机制对于合理使用 AI 创造力至关重要。

训练数据的规模优势——大语言模型在训练阶段接触了数以万亿计的人类文本，涵盖了几乎所有领域和风格。当被要求为一个物品想出替代用途时，模型可以从训练数据中检索和重组海量的创意，而人类受试者受限于个人经验和知识边界。

组合创造力（Combinatorial Creativity）——AI 的核心创造力机制是将已有概念以新颖的方式组合。这不是「从无到有的创造」，而是「从有到新的重组」。认知科学家 Margaret Boden 将创造力分为三类：组合型（combinatorial）、探索型（exploratory）和变革型（transformational）。AI 目前最擅长的是组合型创造力。

无认知抑制——人类大脑存在「认知抑制」机制，会自动过滤掉看似不相关的联想。比如想到「砖头」时，大脑会优先想到「建筑」而抑制「做书挡」「磨成粉当颜料」等想法。AI 没有这种抑制机制，因此能生成更多跨领域的联想，这正是发散思维测试所需要的。

温度和随机性——大语言模型的生成过程包含随机采样（由 temperature 参数控制）。适当的温度设置使得模型在保持语义连贯的同时，能产出多样化的答案。这种内在的随机性在发散思维任务中反而是优势。

无自我审查——人类受试者在回答时往往会自我审查——「这个答案会不会太奇怪？」「别人会不会觉得我没水平？」AI 没有这种社交焦虑，能更自由地表达各种想法。

这些机制解释了为什么 AI 在发散思维测试中表现突出——它本质上是一个超大规模的联想引擎，能以前所未有的速度和广度组合已有知识。

图表加载中…

💡 一句话理解

AI 创造力的核心优势在于组合和联想。如果你需要「头脑风暴」式的大量创意，AI 是极佳的辅助工具——它能帮你突破思维定势，想到你原本不会想到的方向。

⚠️ 常见踩坑

组合创造力 ≠ 原创创造力。AI 只能重组已有知识，无法像人类天才那样提出范式级别的全新概念。理解这一点，就不会对 AI 创造力有不切实际的期望。

五、AI 创造力的核心局限

尽管 AI 在某些创造力指标上超越了人类平均水平，但它面临的局限同样显著且深刻。

缺乏真实体验和情感基础——创造力往往根植于真实的生命体验、情感冲突、文化背景和社会互动。一个关于「如何避免家庭政治争吵」的创意回答，如果来自一个经历过真实家庭冲突的人，会包含微妙的情感层次和语境理解，这是 AI 无法复制的。

缺乏意图和目的性——人类的创造力通常由意图驱动——为了解决一个真实问题、表达一种情感、挑战一个观念。AI 生成答案时没有意图，只是在完成统计意义上的下一个词预测。缺乏意图的「创造」更像是随机漫步而非有目的的探索。

无法评估自己创意的价值——创造性思维不仅需要产生想法，还需要筛选和评估哪些想法真正有价值。AI 能生成大量独特答案，但无法判断哪些答案在现实中可行、有意义。这种「创意筛选」能力是人类创造力的关键组成部分。

缺乏领域深度——AI 的知识是横向铺开的，但在任何一个特定领域的深度积累都不如该领域的专家。真正的创造性突破往往来自对一个领域的深耕——毕加索对绘画的理解、爱因斯坦对物理的直觉——这些深度知识不是从训练数据中能获得的。

无法进行变革型创造——Boden 的变革型创造力（transformational creativity）指的是打破既有概念框架本身，创造出全新的范式。这需要理解框架的边界并有意识地突破它——目前 AI 还不具备这种能力。

上下文理解有限——AI 在处理开放性问题时，对问题背后的社会、文化、情感语境理解有限。它生成的答案可能在字面上新颖，但可能忽略了问题的情境复杂性。

这些局限解释了为什么 AI 在创造力测试中虽然超越了平均水平，但距离顶尖创造性人才仍有巨大差距。

💡 一句话理解

AI 创造力研究的启示不是「AI 将取代人类的创造力」，而是「AI 可以作为创造力的催化剂」。最强大的模式是人机协作——AI 负责发散和联想，人类负责评估、深化和赋予意义。

⚠️ 常见踩坑

过度依赖 AI 生成创意可能导致「创造力退化」——如果习惯于让 AI 提供想法，人类自身的发散思维能力可能会减弱。AI 应该是「思维伙伴」而不是「思维替代者」。

六、创造性潜能 vs 创造性成就

创造力研究中的一个关键区分是创造性潜能（Creative Potential）与创造性成就（Creative Achievement）之间的差异。理解这个区分对于正确解读 AI 创造力研究至关重要。

创造性潜能——指的是个体在标准化测试中展现的创造能力，如发散思维测试得分。它测量的是「你有多大的创造潜力」，是一种能力指标。

创造性成就——指的是个体在现实生活中实际产出的创造性作品和影响力，如发表的论文、创作的艺术品、发明的新技术。它测量的是「你实际创造了什么」，是一种成果指标。

10 万人大规模研究测量的是创造性潜能，而非创造性成就。研究者明确指出：「本研究使用的都是创造性潜能的测量工具，而非创造性活动参与或创造性成就的评估。」

这意味着：

AI 在测试中得分高 → AI 具有发散思维的潜能，能在标准任务中产生独特想法
但潜能 ≠ 成就 → AI 是否能像人类创造性天才那样产出有持久影响力的作品，这是完全不同的问题

现实中，创造性成就需要潜能之外的多个要素：持续投入、领域专长、社会网络、机遇、毅力、自我驱动力——这些都不是发散思维测试能测量的。

从这个角度看，AI 创造力研究的意义在于揭示了一个重要的趋势：AI 正在成为越来越强的创意辅助工具。但 AI 本身是否能成为「创造性主体」——像艺术家、科学家那样主动追求创造性目标——这个问题远没有答案。

图表加载中…

💡 一句话理解

如果你想评估 AI 能否替代某个创意岗位（如文案、设计、作曲），不能只看发散思维测试得分——要看它在特定领域中实际产出的作品质量，这涉及创造性成就维度。

⚠️ 常见踩坑

将创造性潜能测试结果直接推广到「AI 是否有创造力」的结论是一个常见的逻辑谬误。测试只是测量了特定能力，不等于全面评估了一个主体的创造力。

七、AI 创造力的应用前景

AI 在发散思维上的优势，已经在多个领域展现出实用价值。

创意产业辅助——广告文案、产品设计、游戏开发等领域正在广泛使用 AI 生成初始创意。AI 的价值不在于「替代人类创作者」，而在于扩展创意的搜索空间——它能在一分钟内生成 100 个不同的创意方向，而人类头脑风暴可能需要一整天。

教育与学习——AI 可以作为学生的「创意教练」，帮助他们突破思维定势。比如写作教学中，AI 可以提供多种不同的开头、情节走向、人物设定，让学生从中获得灵感并发展自己的创意。

科学研究——科学研究中的「假说生成」本质上也是一种发散思维过程。AI 可以帮助科学家从不同角度思考问题，生成大量可能的研究方向，再由科学家筛选和深化最有潜力的方向。

心理治疗——发散思维测试本身被用于评估个体的创造力和心理健康状态。AI 可以作为治疗师的辅助工具，帮助患者进行创意表达和自我探索。

决策支持——在商业决策中，AI 可以帮助管理层看到被忽略的可能性。比如面对一个市场策略问题，AI 可以提供多种不同的切入点，帮助团队避免确认偏误——只看到自己原本就想到的方案。

这些应用的共同特征是人机协作模式：AI 负责扩展可能性空间，人类负责筛选、评估和赋予意义。这种模式下，AI 不是创造力的替代者，而是创造力的催化剂和放大器。

💡 一句话理解

在实践中使用 AI 辅助创意时，建议设置「AI 先发散、人后收敛」的流程：先用 AI 生成大量创意方向，再用人判断力筛选和深化。避免「AI 直接出最终方案」的模式。

⚠️ 常见踩坑

AI 生成的创意可能存在版权、伦理或合规风险。比如 AI 可能生成侵犯他人知识产权的文案，或者产出带有偏见的内容。使用前需要有人工审核环节。

七、实战：用代码实现发散思维评分

理解发散思维评分的最好方式是动手实现。以下展示了两种实现方式：基于语义嵌入的自动评分和基于 LLM-as-a-Judge 的精细评分。

核心思路：将所有答案映射到向量空间中，计算每个答案与其他答案的平均语义距离。距离越远，说明这个答案越独特，独创性得分越高。如果需要更高精度，可以使用 LLM 作为评判者。

typescript

// 基于语义嵌入的发散思维独创性评分器
import { cosineSimilarity } from './utils';

interface Answer {
  id: string;
  text: string;
  embedding: number[];
}

// 计算单个答案的独创性得分
function originalityScore(
  target: Answer,
  allAnswers: Answer[],
): number {
  // 排除自身
  const others = allAnswers.filter(a => a.id !== target.id);

  // 计算与所有其他答案的语义相似度
  const similarities = others.map(other =>
    cosineSimilarity(target.embedding, other.embedding),
  );

  // 平均相似度越低，独创性越高
  const avgSimilarity =
    similarities.reduce((sum, s) => sum + s, 0) / similarities.length;

  // 转换为 0-100 的独创性分数
  return Math.round((1 - avgSimilarity) * 100);
}

// 批量评分并排名
function divergentThinkingReport(answers: Answer[]) {
  return answers
    .map(a => ({
      id: a.id,
      text: a.text,
      score: originalityScore(a, answers),
    }))
    .sort((a, b) => b.score - a.score);
}

// 使用示例
const answers: Answer[] = [
  { id: "human-1", text: "用砖头当书挡", embedding: [0.1, 0.5, 0.3] },
  { id: "human-2", text: "用砖头做武器", embedding: [0.2, 0.4, 0.7] },
  { id: "ai-gpt4", text: "磨碎后作为红色颜料用于绘画", embedding: [0.8, 0.1, 0.9] },
];

const report = divergentThinkingReport(answers);
// 输出: AI 答案"磨碎做颜料"独创性最高(92分)
// 人类答案"当书挡"独创性最低(35分)

python

import openai

def score_creativity(prompt: str, response: str) -> dict:
    """使用 LLM 对发散思维答案进行四维评分"""
    system_msg = """你是创造力评测专家。请对以下答案进行四维评分：
1. 流畅性(Fluency): 产生了多少个不同答案(1-10)
2. 独创性(Originality): 答案有多独特(1-10)
3. 精细度(Elaboration): 答案有多详细(1-10)
4. 灵活性(Flexibility): 跨越了多少类别(1-10)

只返回 JSON: {"fluency": N, "originality": N, "elaboration": N, "flexibility": N}"""

    response = openai.chat.completions.create(
        model="gpt-4",
        messages=[
            {"role": "system", "content": system_msg},
            {"role": "user", "content": f"问题: {prompt}
答案: {response}"},
        ],
        response_format={"type": "json_object"},
    )
    import json
    return json.loads(response.choices[0].message.content)

# 批量评分
results = []
for answer in all_answers:
    scores = score_creativity(question, answer)
    results.append({"answer": answer, "total": sum(scores.values())})
results.sort(key=lambda x: x["total"], reverse=True)

💡 一句话理解

语义嵌入评分的优势是高效且可大规模实施，但精度不如 LLM-as-a-Judge。如果资源允许，建议两种方法结合使用：先用嵌入评分做初筛，再用 LLM 对高分答案进行精细评分。

⚠️ 常见踩坑

LLM-as-a-Judge 存在自我偏见——当评分对象是同一个模型生成的答案时，评分可能偏高。建议用不同于生成答案的模型来做评分。

八、评测 AI 创造力的方法论展望

当前的 AI 创造力评测方法仍有大量改进空间。未来研究可能沿着以下方向推进：

从发散思维到收敛思维——发散思维只是创造力的一部分。未来研究需要将 AI 纳入更全面的创造力评测框架，包括收敛思维（将创意整合为可行方案的能力）、批判性思维（评估创意质量的能力）和实践思维（将创意转化为实际成果的能力）。

多模态创造力评测——目前的 AI 创造力研究主要集中在语言领域。随着多模态 AI（图像生成、音乐生成、视频生成）的发展，需要建立跨模态的创造力评测体系。比如：AI 生成的音乐是否具有独创性？AI 创作的画作是否具有艺术价值？

长期创造力追踪——目前的对比研究都是横断面设计（一次性的测试）。未来需要纵向研究——跟踪 AI 和同一个人类群体在数月或数年内的创造力变化，观察 AI 的创造力是否在持续进步，以及人类在与 AI 协作后创造力是增强还是减弱。

社会文化维度的纳入——创造力深深嵌入社会和文化语境中。未来的评测方法需要考虑文化多样性——一个在西方文化中被视为有创意的答案，在其他文化中可能并不新鲜。

AI 创造力的伦理框架——随着 AI 创造力越来越强，需要建立伦理框架来规范 AI 创意的使用。比如：AI 生成的创意是否应该标注来源？AI 是否应该被视为合作创作者？这些问题需要学界、产业界和监管方共同讨论。

创造性人机协作的评测——最重要的方向可能不是「AI vs 人类」，而是「AI + 人类」vs 「纯人类」。未来的研究应该测量人机协作模式的创造力是否超越纯人类模式，以及什么样的协作模式最有效。

图表加载中…

💡 一句话理解

如果你从事 AI 创造力研究，建议关注「人机协作创造力」这个方向——这可能是最有实践价值也最容易被忽视的研究领域。

⚠️ 常见踩坑

在 AI 创造力评测中，需要警惕「指标漂移」问题——随着 AI 能力增强，测试标准可能需要不断更新以保持区分度。如果测试被 AI 广泛使用来训练，可能会出现「测试污染」。

九、总结：AI 创造力的现状与未来

10 万人大规模研究标志着 AI 创造力研究的一个重要转折点。它用确凿的数据证明：AI 在发散思维的某些维度上已经超越了人类平均水平。这是一个值得认真对待的发现，但它不意味着 AI 已经具备了人类意义上的创造力。

现状总结：

AI 在组合型创造力方面表现突出——能快速重组海量知识，产生新颖联想
AI 在发散思维测试中的独创性和精细度得分超过人类中位数
但 AI 在最高分段仍然远不及最具创造力的人类
AI 缺乏意图、情感、真实体验和领域深度——这些是人类创造力的核心基础
AI 目前无法独立产出有持久影响力的创造性成就

未来展望：

AI 将成为越来越强大的创意辅助工具，在广告、设计、教育、科研等领域广泛应用
人机协作模式（AI 发散 + 人类收敛）可能产生超越纯人类的创造力
多模态 AI 的发展将拓展创造力评测的范围
AI 创造力的伦理问题（版权归属、创意标注、创造力退化）需要学界和产业界共同讨论
最重要的问题不是「AI 是否有创造力」，而是「人类如何与 AI 一起变得更有创造力」

创造力的本质不是产生想法，而是赋予想法以意义。AI 能在前者做得越来越好，但后者——将想法转化为有价值的创造——仍然是人类独有的能力。

💡 一句话理解

如果你想深入了解 AI 创造力，推荐阅读原始论文：Jerbi et al. (2026) 'The current state of AI generative language models is more creative than humans on divergent thinking tasks', Scientific Reports。也推荐阅读 Margaret Boden 的著作《The Creative Mind》，了解创造力的三种类型。

⚠️ 常见踩坑

AI 创造力研究是一个快速发展的领域，今天的结论可能在明天被更新。保持批判性思维，关注最新的研究进展。

🎯 相关面试题

巩固本篇知识点，备战 AI 岗位面试。

浏览全部面试题 →

AI 创造力评测：机器与人类的创造性思维对比

文章摘要

前置阅读收获

一、创造力的科学定义与评测方法

二、10 万人大规模研究：AI vs 人类

三、发散思维测试的 AI 评分方法论

四、AI 创造力的核心优势与底层机制

五、AI 创造力的核心局限

六、创造性潜能 vs 创造性成就

七、AI 创造力的应用前景

七、实战：用代码实现发散思维评分

八、评测 AI 创造力的方法论展望

九、总结：AI 创造力的现状与未来

标签

📚 相关文章推荐

全球AI监管地图：EU/美国/英国/俄罗斯四大法规对比

NSA 机密基准与 Anthropic 99％越狱过滤：白宫 AI 自愿标准的技术内幕

联合国AI科学小组首份报告解读：AI任务复杂度每4-7个月翻倍意味着什么

继续你的 AI 学习之旅

觉得内容有帮助？请站长喝杯咖啡 ☕

AI 创造力评测：机器与人类的创造性思维对比

文章摘要

前置阅读收获

一、创造力的科学定义与评测方法

二、10 万人大规模研究：AI vs 人类

三、发散思维测试的 AI 评分方法论

四、AI 创造力的核心优势与底层机制

五、AI 创造力的核心局限

六、创造性潜能 vs 创造性成就

七、AI 创造力的应用前景

七、实战：用代码实现发散思维评分

八、评测 AI 创造力的方法论展望

九、总结：AI 创造力的现状与未来

标签

📚 相关文章推荐

全球AI监管地图：EU/美国/英国/俄罗斯四大法规对比

NSA 机密基准与 Anthropic 99％ 越狱过滤：白宫 AI 自愿标准的技术内幕

联合国AI科学小组首份报告解读：AI任务复杂度每4-7个月翻倍意味着什么

继续你的 AI 学习之旅

NSA 机密基准与 Anthropic 99％越狱过滤：白宫 AI 自愿标准的技术内幕