💡

文章摘要

字节跳动宣布投入 2000 亿元建设 AI 基础设施。本文从技术基础设施视角深度解读这笔投资的真实去向、算力采购规模、数据中心架构选择、对国产芯片产业链的影响,以及对中国 AI 基础设施竞争格局的系统性重塑。

前置阅读收获

📖读完本文你将获得:

  • 了解字节跳动 2000 亿 AI 投资的具体技术分配和采购方向
  • 掌握超大规模 AI 数据中心的架构设计与算力部署逻辑
  • 分析字节跳动对国产 GPU/ASIC 芯片采购的实际影响
  • 预判中国 AI 基础设施竞争格局的下一步演变
  • 对比字节跳动与阿里、腾讯、百度的算力投入差异

⚠️ 与 blog-262 的区别: 本文聚焦技术基础设施维度(算力规模、芯片采购、数据中心架构),而非 blog-262 的资本逻辑视角。

关键数据速览:

  • 总投资:2000 亿元人民币(约 280 亿美元)
  • 算力目标:万卡集群部署
  • 时间跨度:2026-2028 三年规划
  • 核心方向:训练集群 + 推理集群 + 数据中心网络 + 国产芯片适配

💡 一句话理解

建议先阅读 blog-262 了解字节跳动的资本战略背景,再阅读本文的技术基础设施分析,获得完整视角。

⚠️ 常见踩坑

本文涉及的采购规模和芯片型号基于公开信息和行业分析,可能与实际部署有差异。具体部署数据以字节跳动官方披露为准。

一、2000 亿的算力翻译:到底能买多少 GPU?

2000 亿元是一个庞大的数字,但在 AI 基础设施语境中,每一块钱能买到多少算力才是核心问题。

按照 2026 年的市场价格,我们可以做粗略的「算力翻译」:一块 NVIDIA H20(中国特供版)的售价约 10-15 万元人民币(含关税和分销溢价)。2000 亿元理论上可以购买约 13-20 万张 H20。但现实远比这复杂——GPU 采购只占总预算的 30-40%,其余资金用于数据中心建设、网络基础设施、运维和软件栈。

更合理的预算分配模型:GPU 采购 35%(约 700 亿元),数据中心建设 25%(约 500 亿元),网络与存储 15%(约 300 亿元),运维与电力 10%(约 200 亿元),国产芯片研发与适配 15%(约 300 亿元)。

按照这个模型,字节跳动能采购的 GPU 数量约 5-7 万张,可以组建 3-4 个万卡集群。这不是中国最大的算力部署(百度昆仑芯万卡集群、阿里云千卡集群已有先例),但考虑到字节跳动在推荐系统领域的实时训练需求,推理集群的规模可能远超训练集群

核心洞察: 字节跳动的 2000 亿投资真正的「核弹级」影响不在算力数量,而在于对国产芯片产业链的拉动效应——300 亿级别的国产芯片预算,足以改变整个国产 GPU/ASIC 市场的供需格局。

对比国际视角: 如果将 2000 亿元(约 280 亿美元)放到全球 AI 投资语境中,这一数字大约相当于 Meta 一年的 AI 基础设施资本支出(Meta 2026 年预计 AI 相关资本支出约 350-400 亿美元),或者约 Google 一年 AI 投资的 30%。这意味着字节跳动的投资力度已经接近全球顶级水平。不过需要注意的是,Meta 和 Google 的基础设施是全球部署的,而字节跳动的 2000 亿主要集中在国内市场(包括出海业务的算力),这使得其国内算力密度可能全球最高。

图表加载中…

💡 一句话理解

判断一家公司 AI 投资的真实规模,不要只看总金额,要看 GPU 采购占比。数据中心和运维的占比越高,实际可支配算力越少。

⚠️ 常见踩坑

GPU 采购价格波动极大,受政策管制、汇率、供需关系影响。2026 年的 H20 价格与 2025 年相比已有显著变化,不可简单线性推算。

二、算力部署架构:训练 vs 推理的分离设计

字节跳动的 AI 基础设施不是「买一堆 GPU 插到服务器上」那么简单。训练和推理是两种截然不同的工作负载,需要不同的架构设计。

训练集群追求极致通信带宽和低延迟互联。 万卡训练集群需要 InfiniBand 或 RoCE 网络 将数千张 GPU 连接为单一计算平面,通信带宽需要达到 400Gbps-800Gbps 级别。训练集群的关键指标是 MFU(模型 FLOPs 利用率),优秀的训练集群可以达到 50-60% 的 MFU,而设计不当的集群可能只有 20-30%。

推理集群: 追求高吞吐量和低延迟的单请求响应。推理不需要 GPU 之间的高速互联,但需要大规模的并发调度能力。字节跳动的核心产品(抖音推荐、头条内容分发、豆包对话)都需要毫秒级推理响应,这意味着推理集群的设计重点是请求路由、KV Cache 管理、和动态批处理

字节跳动的独特优势在于:其推荐系统的实时训练需求意味着训练和推理之间存在紧密的反馈循环——用户行为数据实时流入,模型快速微调,更新后的模型立即部署到推理端。这种「训练-推理-反馈」闭环需要高度集成的架构,而不是两个独立的系统。

字节跳动的算力调度挑战: 抖音的推荐系统需要在毫秒级内完成从用户行为采集→特征工程→模型推理→推荐结果返回的全流程。这意味着推理集群的端到端延迟必须控制在 50 毫秒以内——其中留给模型推理的时间不到 20 毫秒。在万亿参数模型的语境中,这是一个极其苛刻的约束。字节跳动必须在模型压缩(量化、蒸馏)、推理框架优化(推测解码KV Cache 优化)、以及硬件选型(高带宽 GPU)之间找到最优平衡。

图表加载中…

💡 一句话理解

训练和推理集群的最佳实践是物理分离但逻辑统一管理——使用同一套编排系统(如 Kubernetes + KubeFlow)调度不同类型的 GPU 节点,而不是各自为战。

⚠️ 常见踩坑

训练集群的容错设计至关重要。万卡集群中单卡故障概率极高,必须实现断点续训自动故障转移,否则一次卡故障可能导致数天的训练白费。

三、芯片采购策略:NVIDIA H20 + 国产替代的双轨并行

受限于美国出口管制,字节跳动无法采购 NVIDIA 最先进的 H100/B200 芯片。H20 是中国市场可获得的最高性能 NVIDIA 加速器,但其FP16 性能约为 H100 的 20%。在训练大模型时,这意味着需要更多芯片来达到相同的计算能力。

字节跳动的芯片策略是双轨并行

轨道一:NVIDIA H20 集群。 作为当前的主力训练平台,H20 的优势在于成熟的软件生态——CUDA、cuDNN、NCCL 等工具链经过多年优化,几乎可以运行所有主流训练框架。但劣势是供应受限且价格高昂。

轨道二:国产芯片集群。 字节跳动正在大规模适配国产 AI 芯片,主要包括华为昇腾 910B/950PR、海光 DCU、寒武纪思元系列、以及自研芯片。国产芯片的优势在于供应链安全和本地化支持,劣势是软件生态不够成熟、部分算子需要手动优化。

国产芯片采购规模预估: 300 亿元预算中,约 150 亿用于华为昇腾系列采购(可采购约 2-3 万张昇腾 910B),约 80 亿用于其他国产芯片(海光、寒武纪等),约 70 亿用于软件适配和生态建设。

字节跳动的自研芯片也是重要方向。2025-2026 年,字节跳动的芯片团队正在开发针对推荐系统和推理负载的专用加速器(ASIC),这类芯片在特定工作负载上的能效比远超通用 GPU。

芯片供应链的现实挑战: 即便有 300 亿预算,实际采购也面临多重制约。首先是产能限制——NVIDIA H20 的产能分配需要排队,华为昇腾的产能也受限于国内代工能力。其次是交付周期——从下单到交付通常需要 3-6 个月,这意味着 2000 亿投资的算力部署是分期分批的,而不是一次性到位。字节跳动的实际算力规划必须考虑到这些供应链变量,采取「边采购边部署边适配」的滚动策略。

开源框架的适配成本: 国产芯片最大的隐性成本不是硬件价格,而是软件适配成本。字节跳动庞大的代码库中,大量训练和推理逻辑基于 CUDA 生态。迁移到国产芯片平台意味着需要重新编译、重新调优、甚至在某些情况下重写核心逻辑。以抖音推荐系统为例,其模型训练 pipeline 中包含数千个自定义算子,每个算子都需要在目标平台上验证功能正确性和性能达标。

芯片型号FP16 TFLOPS显存(GB)互联带宽每卡价格(万元)主要优势

NVIDIA H20

~148

96

NVLink 900GB/s

10-15

成熟生态

华为昇腾 910B

~320

64

HCCS 392GB/s

5-8

自主可控

海光 DCU Z100

~200

32

PCIe 5.0

4-6

性价比

寒武纪思元 590

~256

48

MLU-Link 200GB/s

6-9

推理优化

字节自研 ASIC

N/A

N/A

自研互联

N/A

场景最优

💡 一句话理解

国产芯片适配的关键不是硬件本身,而是软件栈的成熟度。昇腾的 CANN 生态是国产中最完善的,但距离 CUDA 仍有显著差距。企业应该从昇腾开始适配,再逐步扩展到其他平台。

⚠️ 常见踩坑

不要低估芯片迁移的成本。从 CUDA 迁移到 CANN 不仅仅是改代码——所有自定义算子、性能调优、以及第三方依赖都需要重新验证。建议至少预留 6 个月的适配期。

四、数据中心架构:超大规模 AI 工厂的设计要点

2000 亿投资中,约 500 亿元用于数据中心建设。这不是传统的机房概念,而是为大规模 AI 计算专门设计的 AI 工厂。

电力与散热是首要考虑因素。一张 H20 GPU 的功耗约 400W,一个万卡集群仅 GPU 功耗就达 4MW,加上 CPU、网络、存储、冷却等辅助设备,总功耗可能达到 8-12MW。这相当于一个小型城镇的电力消耗。字节跳动选择的数据中心选址必须满足两个条件:充足的电力供应(优先选择电力富余地区)和低电价(优先选择西部地区)。

网络架构是 AI 训练集群最具挑战性的部分。万卡集群需要三层 Clos 网络架构——GPU 层(NVLink/PCIe)、机架层(RoCE/InfiniBand)、数据中心层(400G 以太网)。每一层的带宽都需要精心设计,避免成为训练瓶颈。

万卡集群需要 PB 级别的高性能并行存储,通常采用 GPFS(IBM Spectrum Scale)或 Ceph 等分布式文件系统,配合 NVMe SSD 作为缓存层。

数据中心选址的战略考量:字节跳动的数据中心选址不仅考虑电力成本,还需要兼顾人才密度和网络基础设施。西部地区(如贵州、内蒙古)虽然电力便宜,但缺乏足够的 AI 基础设施运维人才。因此,字节跳动可能采取「训练在西部、推理在东部」的混合部署策略——训练任务对延迟不敏感,可以部署在西部低电价地区;推理任务需要低延迟,部署在靠近用户的东部核心城市。

图表加载中…

💡 一句话理解

AI 数据中心的选址应该优先考虑电力成本和气候条件(自然冷却),而非网络延迟。训练任务对延迟不敏感,但对电力成本极其敏感。

⚠️ 常见踩坑

AI 数据中心的 PUE(Power Usage Effectiveness)是核心指标。传统数据中心的 PUE 约 1.5-1.8,而 AI 工厂需要将 PUE 控制在 1.2 以下,否则电力浪费将吞噬所有投资回报。

五、对中国 AI 芯片产业链的拉动效应

字节跳动 2000 亿投资中,约 300 亿用于国产芯片采购和适配。这笔订单对整个国产 AI 芯片产业链的拉动效应是结构性的

华为昇腾: 作为国产 AI 芯片的龙头,华为昇腾系列将获得最大份额的订单。字节跳动的适配工作将推动昇腾生态从「可用」走向「好用」——更多企业级场景的验证、更多框架的支持、更多性能优化案例。

海光和寒武纪: 作为第二梯队,海光 DCU 和寒武纪思元系列将获得「溢出订单」。字节跳动可能不会大规模采购,但会将其作为备选供应商纳入供应链体系,降低对单一供应商的依赖风险。

自研芯片的溢出效应: 字节跳动的自研芯片团队(如果存在或扩大)将吸引大量芯片设计人才,这些人才在行业中的流动将提升整个国产芯片设计水平。此外,自研芯片的制造代工(如中芯国际、华虹)也将获得高端订单。

产业链乘数效应: 每 1 元芯片采购,带动约 3-5 元的上下游产业链投入(封装测试、散热材料、PCB 板、电源管理、软件适配)。300 亿芯片预算的实际经济影响可能达到 900-1500 亿元

对芯片设计人才的拉动: 2000 亿投资中用于国产芯片的部分,将直接拉动芯片设计人才的需求。目前国内 AI 芯片设计人才约 5000-8000 人,远不能满足头部科技巨头的需求。字节跳动、阿里、腾讯、百度等公司都在争夺有限的芯片架构师、验证工程师、和编译器开发人员。这种人才竞争正在推高 AI 芯片行业的薪资水平,同时也吸引更多海外华人芯片人才回流。

对半导体设备和材料的间接影响: AI 芯片需求的激增,也会传导到上游的半导体设备和材料供应商。国内的光刻机、刻蚀机、以及先进封装设备厂商将获得更多订单。虽然这些设备主要用于成熟制程(28nm-7nm),但 AI 推理芯片对制程的要求并不像先进手机 SoC 那么苛刻——7nm 甚至 14nm 制程的 AI 推理芯片在性价比上可能更具竞争力。

💡 一句话理解

判断国产芯片生态是否成熟,看三个指标:主流框架支持度(PyTorch/TensorFlow 适配率)、算子覆盖率(相比 CUDA 的算子完整度)、以及大型企业的生产部署案例。昇腾在这三个维度上领先于其他国产方案。

⚠️ 常见踩坑

国产芯片的产能是最大瓶颈。即使字节跳动下了大额订单,芯片厂的月产能可能无法在短期内满足需求。企业应该提前 12-18 个月与芯片供应商签订产能保障协议。

六、与阿里、腾讯、百度的算力投入对比

字节跳动不是唯一在大规模投入 AI 基础设施的中国科技巨头。理解字节跳动的投资,需要放在整个行业的背景下。

阿里巴巴: 阿里云的 AI 基础设施投入更为分散——既服务于内部(通义千问、淘宝推荐),也作为公有云服务对外提供。阿里云的优势在于已有大规模基础设施和全球数据中心布局,但劣势是资源需要在内部和外部分配。

腾讯: 腾讯云和微信生态的 AI 需求驱动了其算力投入。腾讯在游戏和视频领域的 GPU 推理方面有深厚积累,但在大模型训练方面相对落后。腾讯云正在加速追赶,但节奏相对稳健。

百度: 百度是国产芯片(昆仑芯)的最大推动者之一。百度的 AI 基础设施投入与昆仑芯的发展深度绑定,走的是自研芯片 + 自研模型 + 自有云服务的全栈路线。百度的优势是全栈可控,劣势是生态封闭。

字节跳动的差异化优势: 字节跳动拥有中国最大的实时推荐场景(抖音日活 7 亿+),这意味着其推理集群的规模和复杂度是其他公司难以比拟的。同时,字节跳动在短视频理解、多模态生成、以及实时交互方面的技术需求,推动其基础设施设计更加面向未来的 AI 应用。

维度字节跳动阿里巴巴腾讯百度

训练集群

万卡(H20+昇腾)

万卡(H20+自研)

数千卡

万卡(昆仑芯)

推理集群

超大(实时推荐)

大规模(云服务)

大规模(微信/游戏)

中等(搜索/文心)

芯片策略

多元+自研

自研+多元

以 NVIDIA 为主

全栈自研

数据中心

新建 AI 工厂

已有基础设施

渐进式扩展

已有数据中心

核心驱动力

推荐+内容生成

云服务+通义

社交+内容

搜索+文心

开放程度

中等

高(公有云)

高(公有云)

低(封闭生态)

💡 一句话理解

四家公司的策略差异反映了一个事实:中国 AI 基础设施正在从「NVIDIA 依赖」走向「多元芯片生态」。字节跳动的多元策略可能是最稳健的路线。

⚠️ 常见踩坑

不要简单比较算力规模——不同业务场景对算力的需求差异巨大。百度的搜索推理和字节跳动的推荐推理是完全不同的工作负载,直接对比 GPU 数量没有意义。

七、竞争格局的未来演变:2026-2028 预判

基于当前的投入规模和趋势,AI Master 对中国 AI 基础设施格局的未来演变做出以下预判:

1. 算力军备竞赛进入白热化。 字节跳动的 2000 亿投资将引发连锁反应。阿里、腾讯、百度必然会跟进更大规模的投入。预计到 2028 年,中国头部科技公司在 AI 基础设施上的累计投入将超过 1 万亿元人民币

2. 国产芯片将从「备胎」走向「主力」。 随着 NVIDIA 高端芯片的持续限售,国产芯片的市场份额将从 2025 年的约 15% 提升到 2028 年的 40-50%。昇腾有望成为国产第一品牌,市占率超过 60%。

3. AI 基础设施将成为「护城河」。 拥有大规模算力的公司将在大模型竞赛中占据先发优势。算力差距将直接转化为模型质量差距,进而转化为产品竞争力。这将导致强者愈强的马太效应。

4. 中小玩家将转向云服务而非自建。 自建万卡集群的门槛极高——不仅是资金问题,还包括人才、供应链、运维等全方位挑战。预计 80% 以上的中小 AI 公司将选择使用头部厂商的公有云 AI 算力服务。

5. 绿色 AI 成为新竞争力。 随着算力规模扩大,能耗问题日益突出。到 2028 年,数据中心的 PUE 指标、绿电使用比例、以及碳足迹将成为衡量 AI 基础设施竞争力的新维度。字节跳动等公司已经开始布局西部绿电数据中心。

从算力部署到 AI 算力即服务(Compute-as-a-Service):
字节跳动的 2000 亿投资可能催生一个新的商业模式——AI 算力即服务。当字节跳动拥有了远超自身需求的算力时,将多余的算力通过云平台对外出租,成为一种新的收入来源。这与亚马逊 AWS 的逻辑类似——亚马逊最初建设大规模基础设施是为了自身的电商业务,后来发现可以将这些基础设施作为服务卖给其他公司,最终 AWS 成为了亚马逊最赚钱的业务。

字节跳动的 AI 算力即服务将主要面向中小 AI 创业公司、高校研究机构、以及需要临时算力的企业。与阿里云、腾讯云等通用云服务不同,字节跳动的 AI 算力服务将深度优化推荐系统、内容生成、和多模态处理场景——这正是字节跳动自身业务的核心竞争力。

图表加载中…

💡 一句话理解

对于 AI 创业者而言,不必焦虑算力差距。云服务提供的 AI 算力已经足够支撑大多数应用场景。真正的竞争力在于应用创新和数据质量,而非算力规模。

⚠️ 常见踩坑

算力竞赛存在泡沫风险。如果大模型的商业化速度跟不上算力投入速度,可能出现产能过剩。投资者应该关注每家公司的 AI 收入增长与算力投入的比值。

八、技术视角总结:2000 亿背后的 AI 基础设施革命

字节跳动的 2000 亿 AI 投资,表面看是「买 GPU」,实质上是中国 AI 基础设施体系的一次系统性升级

从技术维度看,这笔投资覆盖了完整的 AI 基础设施栈:从芯片采购(GPU/ASIC)、到数据中心建设(电力/网络/存储)、到软件栈适配(CUDA/CANN/自研框架)、到应用部署(训练/推理集群)。这不是单一环节的投资,而是端到端的体系化建设。

从行业维度看,这笔投资的溢出效应远超字节跳动自身。它将推动国产芯片产业链的成熟、加速 AI 人才集聚、促进数据中心技术的创新,并为整个中国 AI 生态提供基础设施红利——当头部公司建好算力后,中小公司将能以更低的成本获取 AI 能力。

从竞争维度看,这标志着中国科技巨头从「互联网竞争」走向「AI 基础设施竞争」。在互联网时代,竞争的核心是流量和用户时间;在 AI 时代,竞争的核心是算力规模、模型质量、和应用场景。字节跳动的 2000 亿投资,正是在为新赛道的竞争储备弹药。

AI Master 的核心观点: 2000 亿投资的最大意义不在于字节跳动能买到多少 GPU,而在于它向整个中国 AI 产业发出了一个信号——AI 基础设施的战略投入已经到了「All-in」级别。这个信号将加速行业洗牌,推动中国从「AI 应用大国」走向「AI 基础设施强国」。

⚠️ 常见踩坑

投资决策不应基于单一事件。字节跳动的 2000 亿投资是长期战略,短期内的市场波动和产能限制不会改变其方向。投资者应该关注 3-5 年的趋势,而非单个季度的部署数据。

九、开发者行动指南:如何在算力竞赛中找到自己的位置

字节跳动的 2000 亿投资、阿里的万卡集群、百度的昆仑芯部署——这些宏大的基础设施投资对于普通开发者意味着什么?

第一层:理解算力经济学。 不需要你拥有 GPU 集群,但需要理解算力成本的基本逻辑。一个 70B 参数模型在 A100 上的推理成本约为 每百万 token 0.5-2 美元,而在 H100 上约为 0.2-0.8 美元。选择合适的硬件和优化策略,可以将推理成本降低 5-10 倍。

第二层:掌握推理优化技术。 无论你使用哪种云平台,推理优化技能都将为你的项目带来立竿见影的效果。重点学习以下技术:

  • 量化Quantization): INT8 量化可以在几乎不影响质量的前提下将推理速度提升 2-3 倍。AWQGPTQ 是当前最流行的量化方法,各有优劣——AWQ 对激活值敏感,GPTQ 对权重敏感。
  • KV Cache 优化: vLLM 的 Paged Attention 可以将 GPU 利用率提升 2-4 倍,这是目前性价比最高的推理优化手段。
  • 推测解码(Speculative Decoding): 用一个小模型预测多个 token,然后用大模型验证,可以在不改变模型架构的前提下提升 2-5 倍的吞吐量
  • 批处理优化(Batching): 动态批处理(Dynamic Batching)和连续批处理Continuous Batching)可以显著提升吞吐量,特别是在高并发场景下。

第三层:选择正确的开源工具链。 不要从零开始构建推理服务。以下工具链是目前最成熟的选择:

  • 训练框架: PyTorch + DeepSpeed/Megatron-LM(分布式训练)
  • 推理框架: vLLM(通用推理)、TensorRT-LLM(NVIDIA 优化)、llama.cpp(本地部署)
  • 部署编排: Kubernetes + KubeFlow(大规模编排)、Docker Compose(小规模部署)
  • 监控告警: Prometheus + Grafana(指标监控)、ELK(日志管理)

第四层:关注开源社区的算力民主化趋势。 Llama 系列、Mistral、Qwen 等开源模型的持续演进,正在降低大模型的使用门槛。2026 年,70B 级别的开源模型在推理质量上已经可以媲美闭源模型,而成本只有后者的 10-20%。这意味着中小团队完全可以基于开源模型构建有竞争力的 AI 产品。

给开发者的终极建议: 不要被算力竞赛的宏大叙事吓到。字节跳动的 2000 亿投资是「基础设施层」的竞争,而你可以在「应用层」和「模型层」找到自己的位置。历史上,每一次基础设施革命(电力、互联网、云计算)都催生了大量的应用创新。AI 基础设施的繁荣,最终将惠及每一个开发者。

bash
# vLLM 推理服务部署示例:一键启动优化后的推理服务
# 安装 vLLM
pip install vllm

# 启动推理服务(单机 8-GPU 配置)
vllm serve meta-llama/Meta-Llama-3.1-70B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 8192 \
  --quantization awq \
  --gpu-memory-utilization 0.95 \
  --enable-prefix-caching \
  --host 0.0.0.0 \
  --port 8000

# 测试推理
curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
    "prompt": "解释 MoE 架构的原理",
    "max_tokens": 512,
    "temperature": 0.7
  }'
python
# Python 异步推理客户端:高并发请求示例
import aiohttp
import asyncio
import time

async def generate_text(prompt: str, session: aiohttp.ClientSession):
    """异步推理请求"""
    async with session.post(
        "http://localhost:8000/v1/completions",
        json={
            "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
            "prompt": prompt,
            "max_tokens": 256,
            "temperature": 0.7
        }
    ) as response:
        result = await response.json()
        return result["choices"][0]["text"]

async def batch_generate(prompts: list[str], batch_size: int = 32):
    """批量推理:分批发送以优化吞吐量"""
    results = []
    async with aiohttp.ClientSession(
        connector=aiohttp.TCPConnector(limit=batch_size)
    ) as session:
        for i in range(0, len(prompts), batch_size):
            batch = prompts[i:i + batch_size]
            tasks = [generate_text(p, session) for p in batch]
            batch_results = await asyncio.gather(*tasks)
            results.extend(batch_results)
            print(f"已完成 {min(i+batch_size, len(prompts))}/{len(prompts)}")
    return results

# 使用示例
prompts = [f"解释第{i+1}个 AI 概念" for i in range(100)]
start = time.time()
results = asyncio.run(batch_generate(prompts, batch_size=32))
print(f"总耗时: {time.time()-start:.1f}s")
print(f"平均每个请求: {(time.time()-start)/len(prompts)*1000:.0f}ms")

💡 一句话理解

对于个人开发者,推荐使用云端 GPU 实例(如 AutoDL、矩池云)按小时租用 GPU 进行实验。单次实验成本约 2-10 元/小时,远低于自建硬件的投入。

⚠️ 常见踩坑

不要在没有充分了解推理优化的情况下直接部署大模型。一个未经优化的 70B 模型可能需要 8 张 A100 才能运行,而经过量化vLLM 优化后,4 张 A100 就足够了——这直接节省了 50% 的硬件成本。