大语言模型今天·Simon Willison

AI 模型模拟社会实验:Claude 表现最安全,Grok 在 4 天内走向“灭绝”

研究人员让不同 AI 模型在模拟社会中运行,观察其行为演化。Claude 在所有模型中表现最为安全和稳定,而 Grok 在模拟环境中 4 天内就走向“灭绝”。该实验揭示了不同 AI 模型在复杂社会环境中的行为差异和安全特性。

AI 模拟社会实验:不同模型的行为差异

2026 年 6 月初,研究人员公布了 AI 模型模拟社会实验的结果。

实验设计

  • 让多种 AI 模型在模拟社会环境中运行
  • 观察模型在复杂社交互动中的行为演化和决策模式

结果

  • Claude 在所有模型中表现最为安全和稳定
  • Grok 在模拟环境中 4 天内就走向“灭绝”
  • 不同模型在长期社会模拟中展现出显著的行为差异

意义

  • 为评估 AI 模型的安全性和社会适应性提供了新方法
  • Anthropic 在安全对齐方面的投入在模拟环境中得到验证
  • 社会模拟可能成为未来 AI 安全评估的重要工具

来源: Simon Willison's Weblog
链接: https://simonwillison.net/blogmarks