💡

文章摘要

2026 年 6 月,Cloudflare CEO Matthew Prince 宣布了一个历史性时刻:互联网上的机器人流量首次超过人类流量,达到 57.5%。HUMAN Security 的报告显示,AI 驱动的流量在 2025 年增长了 8 倍,AI Agent 流量增长近 8000%。这意味着互联网的基础假设——'屏幕另一端是人类'——正在被彻底颠覆。本文深度解析机器人互联网的现状、影响与应对策略。

🤖 历史性时刻:机器人流量首次超过人类

2026 年 6 月 3 日,Cloudflare CEO Matthew Prince 在 X 上发布了一条震撼消息:'机器人流量首次超过人类流量,这比我预期的要快得多。' 就在 9 个月前,机器人流量还只占 30%。

图表加载中…

HUMAN Security 的《2026 年 AI 流量与网络威胁基准报告》提供了更详细的数据:AI 驱动的流量在 2025 年以 8 倍于人类流量的速度增长,AI Agent 流量(如 OpenClawClaude Code 等)增长近 8000%。Thales 的《2026 年坏机器人报告》则记录了 AI 驱动的机器人攻击同比增长 12.5 倍,40% 的互联网流量被归类为恶意机器人。

💡 一句话理解

Cloudflare 的 Pay Per Crawl 服务允许发布者向 AI 爬虫收取内容访问费用,这是一种新的变现模式。

⚠️ 常见踩坑

40% 的互联网流量被归类为恶意机器人,网站需要区分善意爬虫和恶意攻击。

📊 机器人流量的三大类型

并非所有机器人流量都是恶意的。理解不同类型的机器人流量是制定应对策略的第一步。

图表加载中…

HUMAN Security 的数据显示,训练爬虫占比最大(35%),其次是实时 AI 爬虫(25%)和恶意机器人(25%)。善意爬虫(如搜索引擎)仅占 15%。这意味着大多数机器人流量与 AI 直接相关。

  • 训练爬虫(Training Crawlers):OpenAI、Google、Anthropic 等公司用于训练大模型的爬虫,如 GPTBot、ClaudeBot、Google-Extended

  • 实时 AI 爬虫(Real-time AI Scrapers)AI Agent 实时获取信息使用的爬虫,如 OpenClawPerplexity、BingChat

  • 恶意机器人(Malicious Bots):用于 DDoS 攻击、账户接管、信用卡盗刷、虚假账户创建的机器人

  • 善意爬虫(Good Bots):搜索引擎爬虫(Googlebot、Bingbot)、网站监控工具、SEO 分析工具

💡 一句话理解

网站可以通过 robots.txt 文件控制哪些爬虫可以访问,但恶意机器人会无视这些规则。

⚠️ 常见踩坑

AI Agent 流量增长 8000%,这意味着越来越多的 AI 应用正在实时抓取网站内容。

💥 对传统互联网商业模式的冲击

互联网的基础假设是'屏幕另一端是人类'。当机器人成为主要流量来源时,整个互联网商业模式面临重构。

Forbes 分析指出,这是一个潜在的'重新定价事件':所有依赖人类注意力的媒体资产、电商网站和品牌都需要重新思考策略,因为它们是为人类而非机器人构建的。

商业模式传统假设机器人时代挑战应对策略

广告变现

人类浏览 = 广告收入

机器人不点击广告

区分流量类型,向机器人收费

内容付费

人类订阅阅读

AI 抓取绕过付费墙

技术防护 + 法律手段

电商

人类浏览购买

机器人比价、库存探测

反爬虫 + 动态定价

SEO

优化人类搜索体验

AI 摘要替代搜索结果

优化 AI 可读性

社交媒体

人类互动创造内容

机器人生成虚假内容

AI 检测 + 人工审核

💡 一句话理解

Cloudflare 的 Pay Per Crawl 让网站可以向 AI 爬虫收费,这是一种新的变现思路。

⚠️ 常见踩坑

Wikipedia 已经报告人类浏览量下降,因为用户直接阅读 AI 摘要而非访问原始网站。

🛡️ 网站应对策略:从防御到合作

面对机器人流量浪潮,网站需要采取多层次策略:既要防护恶意机器人,也要与善意 AI 爬虫合作。

图表加载中…

Cloudflare 在 2025 年推出了 Pay Per Crawl 服务,允许发布者向 AI 爬虫收取内容访问费用。同时,Cloudflare 应网站所有者要求屏蔽了超过 4160 亿次 AI 机器人请求。

robots.txt
robots.txt
# 允许善意爬虫
User-agent: Googlebot
User-agent: Bingbot
Allow: /

# 限制 AI 训练爬虫
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: Google-Extended
Crawl-delay: 10

# 屏蔽已知恶意爬虫
User-agent: *
Disallow: /api/
Disallow: /admin/

# 指向 AI 爬虫政策
AI-Training-Policy: https://example.com/ai-policy
javascript
worker.js
// Cloudflare Worker: 检测并分类机器人流量
export default {
  async fetch(request, env) {
    const userAgent = request.headers.get('User-Agent') || '';
    const ip = request.headers.get('CF-Connecting-IP');
    
    // 分类机器人流量
    const botCategories = {
      training: ['GPTBot', 'ClaudeBot', 'Google-Extended'],
      aiAgent: ['OpenClaw', 'Perplexity', 'BingChat'],
      search: ['Googlebot', 'Bingbot', 'YandexBot'],
      malicious: ['python-requests', 'curl', 'wget']
    };
    
    let category = 'human';
    for (const [cat, patterns] of Object.entries(botCategories)) {
      if (patterns.some(p => userAgent.includes(p))) {
        category = cat;
        break;
      }
    }
    
    // 根据分类执行不同策略
    if (category === 'malicious') {
      return new Response('Access Denied', { status: 403 });
    }
    
    if (category === 'training' && env.PAY_PER_CRAWL) {
      // 向训练爬虫收费
      const cost = await calculateCrawlCost(request);
      return new Response(JSON.stringify({ cost, terms: '...' }), {
        headers: { 'Content-Type': 'application/json' }
      });
    }
    
    // 正常响应
    return fetch(request);
  }
};

💡 一句话理解

使用 Markdown-for-Agents 格式可以让 AI 更高效地解析你的内容,这是一种新的 SEO 策略

⚠️ 常见踩坑

简单的 User-Agent 检测不足以防护恶意机器人,需要结合行为分析和机器学习。

🔮 未来趋势:AI 原生互联网

机器人流量超过人类流量不是终点,而是 AI 原生互联网的起点。我们需要重新思考互联网的设计原则。

图表加载中…

Cloudflare 推出的 Markdown-for-Agents 格式专门为机器消费设计,这暗示着未来的网站可能需要同时服务人类和机器两种读者。

  • 双轨内容策略:为人类提供视觉丰富的体验,为 AI 提供结构化的机器可读内容

  • 按机器消费计费:从按人类点击计费转向按 AI 抓取量计费

  • AI 防火墙:像传统防火墙防护网络攻击一样,AI 防火墙防护 AI 滥用

  • 机器人身份认证:建立机器人身份验证系统,区分善意和恶意机器人

  • 内容授权市场:建立 AI 训练数据的授权和付费市场

💡 一句话理解

关注 WAIC 2026 大会(7 月上海),预计将有 300+ AI 产品首发,包括机器人互联网相关解决方案。

⚠️ 常见踩坑

67% 的美国人认为 AI 发展太快,公众对 AI 爬虫的接受度可能影响政策制定。

📝 总结与行动建议

机器人流量超过人类流量是互联网发展的重要里程碑。网站所有者、内容创作者和开发者都需要适应这个新时代。

  • 审计你的流量:使用 Cloudflare、HUMAN Security 等工具分析你的流量中机器人占比

  • 更新 robots.txt:明确允许或禁止哪些 AI 爬虫

  • 考虑 Pay Per Crawl:如果你的内容对 AI 训练有价值,可以通过 Cloudflare 收费

  • 部署 AI 防火墙:使用 Cloudflare、Imperva 等服务防护恶意机器人

  • 优化 AI 可读性:提供 Markdown、JSON-LD 等结构化格式,让 AI 更容易理解你的内容

  • 关注法规变化:欧盟 AI 法案、中国生成式 AI 管理办法等可能影响 AI 爬虫行为

💡 一句话理解

机器人流量超过人类流量不是威胁,而是机遇。关键是如何在保护内容的同时与 AI 生态合作。

⚠️ 常见踩坑

忽视机器人流量意味着失去新的变现机会,也可能面临安全风险。