机器人互联网：当 57.5% 的流量来自 AI 爬虫，网站如何适应？

💡

文章摘要

2026 年 6 月，Cloudflare CEO Matthew Prince 宣布了一个历史性时刻：互联网上的机器人流量首次超过人类流量，达到 57.5%。HUMAN Security 的报告显示，AI 驱动的流量在 2025 年增长了 8 倍，AI Agent 流量增长近 8000%。这意味着互联网的基础假设——'屏幕另一端是人类'——正在被彻底颠覆。本文深度解析机器人互联网的现状、影响与应对策略。

🤖 历史性时刻：机器人流量首次超过人类

2026 年 6 月 3 日，Cloudflare CEO Matthew Prince 在 X 上发布了一条震撼消息：'机器人流量首次超过人类流量，这比我预期的要快得多。' 就在 9 个月前，机器人流量还只占 30%。

图表加载中…

HUMAN Security 的《2026 年 AI 流量与网络威胁基准报告》提供了更详细的数据：AI 驱动的流量在 2025 年以 8 倍于人类流量的速度增长，AI Agent 流量（如 OpenClaw、Claude Code 等）增长近 8000%。Thales 的《2026 年坏机器人报告》则记录了 AI 驱动的机器人攻击同比增长 12.5 倍，40% 的互联网流量被归类为恶意机器人。

💡 一句话理解

Cloudflare 的 Pay Per Crawl 服务允许发布者向 AI 爬虫收取内容访问费用，这是一种新的变现模式。

⚠️ 常见踩坑

40% 的互联网流量被归类为恶意机器人，网站需要区分善意爬虫和恶意攻击。

📊 机器人流量的三大类型

并非所有机器人流量都是恶意的。理解不同类型的机器人流量是制定应对策略的第一步。

图表加载中…

HUMAN Security 的数据显示，训练爬虫占比最大（35%），其次是实时 AI 爬虫（25%）和恶意机器人（25%）。善意爬虫（如搜索引擎）仅占 15%。这意味着大多数机器人流量与 AI 直接相关。

训练爬虫（Training Crawlers）：OpenAI、Google、Anthropic 等公司用于训练大模型的爬虫，如 GPTBot、ClaudeBot、Google-Extended
实时 AI 爬虫（Real-time AI Scrapers）：AI Agent 实时获取信息使用的爬虫，如 OpenClaw、Perplexity、BingChat
恶意机器人（Malicious Bots）：用于 DDoS 攻击、账户接管、信用卡盗刷、虚假账户创建的机器人
善意爬虫（Good Bots）：搜索引擎爬虫（Googlebot、Bingbot）、网站监控工具、SEO 分析工具

💡 一句话理解

网站可以通过 robots.txt 文件控制哪些爬虫可以访问，但恶意机器人会无视这些规则。

⚠️ 常见踩坑

AI Agent 流量增长 8000%，这意味着越来越多的 AI 应用正在实时抓取网站内容。

💥 对传统互联网商业模式的冲击

互联网的基础假设是'屏幕另一端是人类'。当机器人成为主要流量来源时，整个互联网商业模式面临重构。

Forbes 分析指出，这是一个潜在的'重新定价事件'：所有依赖人类注意力的媒体资产、电商网站和品牌都需要重新思考策略，因为它们是为人类而非机器人构建的。

商业模式	传统假设	机器人时代挑战	应对策略
广告变现	人类浏览 = 广告收入	机器人不点击广告	区分流量类型，向机器人收费
内容付费	人类订阅阅读	AI 抓取绕过付费墙	技术防护 + 法律手段
电商	人类浏览购买	机器人比价、库存探测	反爬虫 + 动态定价
SEO	优化人类搜索体验	AI 摘要替代搜索结果	优化 AI 可读性
社交媒体	人类互动创造内容	机器人生成虚假内容	AI 检测 + 人工审核

💡 一句话理解

Cloudflare 的 Pay Per Crawl 让网站可以向 AI 爬虫收费，这是一种新的变现思路。

⚠️ 常见踩坑

Wikipedia 已经报告人类浏览量下降，因为用户直接阅读 AI 摘要而非访问原始网站。

🛡️ 网站应对策略：从防御到合作

面对机器人流量浪潮，网站需要采取多层次策略：既要防护恶意机器人，也要与善意 AI 爬虫合作。

图表加载中…

Cloudflare 在 2025 年推出了 Pay Per Crawl 服务，允许发布者向 AI 爬虫收取内容访问费用。同时，Cloudflare 应网站所有者要求屏蔽了超过 4160 亿次 AI 机器人请求。

robots.txt

# 允许善意爬虫
User-agent: Googlebot
User-agent: Bingbot
Allow: /

# 限制 AI 训练爬虫
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: Google-Extended
Crawl-delay: 10

# 屏蔽已知恶意爬虫
User-agent: *
Disallow: /api/
Disallow: /admin/

# 指向 AI 爬虫政策
AI-Training-Policy: https://example.com/ai-policy

javascript

worker.js

// Cloudflare Worker: 检测并分类机器人流量
export default {
  async fetch(request, env) {
    const userAgent = request.headers.get('User-Agent') || '';
    const ip = request.headers.get('CF-Connecting-IP');
    
    // 分类机器人流量
    const botCategories = {
      training: ['GPTBot', 'ClaudeBot', 'Google-Extended'],
      aiAgent: ['OpenClaw', 'Perplexity', 'BingChat'],
      search: ['Googlebot', 'Bingbot', 'YandexBot'],
      malicious: ['python-requests', 'curl', 'wget']
    };
    
    let category = 'human';
    for (const [cat, patterns] of Object.entries(botCategories)) {
      if (patterns.some(p => userAgent.includes(p))) {
        category = cat;
        break;
      }
    }
    
    // 根据分类执行不同策略
    if (category === 'malicious') {
      return new Response('Access Denied', { status: 403 });
    }
    
    if (category === 'training' && env.PAY_PER_CRAWL) {
      // 向训练爬虫收费
      const cost = await calculateCrawlCost(request);
      return new Response(JSON.stringify({ cost, terms: '...' }), {
        headers: { 'Content-Type': 'application/json' }
      });
    }
    
    // 正常响应
    return fetch(request);
  }
};

💡 一句话理解

使用 Markdown-for-Agents 格式可以让 AI 更高效地解析你的内容，这是一种新的 SEO 策略。

⚠️ 常见踩坑

简单的 User-Agent 检测不足以防护恶意机器人，需要结合行为分析和机器学习。

🔮 未来趋势：AI 原生互联网

机器人流量超过人类流量不是终点，而是 AI 原生互联网的起点。我们需要重新思考互联网的设计原则。

图表加载中…

Cloudflare 推出的 Markdown-for-Agents 格式专门为机器消费设计，这暗示着未来的网站可能需要同时服务人类和机器两种读者。

双轨内容策略：为人类提供视觉丰富的体验，为 AI 提供结构化的机器可读内容
按机器消费计费：从按人类点击计费转向按 AI 抓取量计费
AI 防火墙：像传统防火墙防护网络攻击一样，AI 防火墙防护 AI 滥用
机器人身份认证：建立机器人身份验证系统，区分善意和恶意机器人
内容授权市场：建立 AI 训练数据的授权和付费市场

💡 一句话理解

关注 WAIC 2026 大会（7 月上海），预计将有 300+ AI 产品首发，包括机器人互联网相关解决方案。

⚠️ 常见踩坑

67% 的美国人认为 AI 发展太快，公众对 AI 爬虫的接受度可能影响政策制定。

📝 总结与行动建议

机器人流量超过人类流量是互联网发展的重要里程碑。网站所有者、内容创作者和开发者都需要适应这个新时代。

审计你的流量：使用 Cloudflare、HUMAN Security 等工具分析你的流量中机器人占比
更新 robots.txt：明确允许或禁止哪些 AI 爬虫
考虑 Pay Per Crawl：如果你的内容对 AI 训练有价值，可以通过 Cloudflare 收费
部署 AI 防火墙：使用 Cloudflare、Imperva 等服务防护恶意机器人
优化 AI 可读性：提供 Markdown、JSON-LD 等结构化格式，让 AI 更容易理解你的内容
关注法规变化：欧盟 AI 法案、中国生成式 AI 管理办法等可能影响 AI 爬虫行为

💡 一句话理解

机器人流量超过人类流量不是威胁，而是机遇。关键是如何在保护内容的同时与 AI 生态合作。

⚠️ 常见踩坑

忽视机器人流量意味着失去新的变现机会，也可能面临安全风险。

📚 相关文章推荐

🔧进阶

继续你的 AI 学习之旅

浏览更多 AI 知识库文章，或者探索 GitHub 上的优质 AI 项目

📚 浏览知识库 🛠️ 探索 AI 工具

机器人互联网：当 57.5% 的流量来自 AI 爬虫，网站如何适应？

文章摘要

🤖 历史性时刻：机器人流量首次超过人类

📊 机器人流量的三大类型

💥 对传统互联网商业模式的冲击

🛡️ 网站应对策略：从防御到合作

🔮 未来趋势：AI 原生互联网

📝 总结与行动建议

标签

📚 相关文章推荐

光子 AI 计算：从实验室突破到下一代 AI 基础设施

AI 助手三国演义：ChatGPT 份额首次跌破 50%，多平台竞争时代全面来临

AI 部署竞赛全面打响：OpenAI 1.5 亿美元合作伙伴网络深度解析

继续你的 AI 学习之旅