Continuous Batching(连续批处理)
请求随到随批
亦作、亦称:连续批处理 · Iteration-level Batching
推理服务不按固定 batch 边界等待,而是动态合并新到达请求,提高 GPU 利用率与整体吞吐。 连续批处理是 vLLM、TGI 等框架高吞吐的核心机制,与静态 batching 相比显著降低排队延迟。
工作原理
推理服务不按固定 batch 边界等待,而是动态合并新到达请求,提高 GPU 利用率与整体吞吐。 连续批处理是 vLLM、TGI 等框架高吞吐的核心机制,与静态 batching 相比显著降低排队延迟。
应用场景
Continuous Batching常见于:在线推理加速、批处理优化、端侧部署与 SLA 保障。实际选型需结合业务指标、数据规模与部署约束评估适用性。
局限与误区
围绕 Continuous Batching 的口语化说法(见「常见误解」)常过度简化。效果依赖数据质量、任务匹配与系统整体设计;生产环境应配合评测、监控与人工复核。
背景与发展
Continuous Batching随 AI 研究与工程实践持续演进,定义边界与最佳实践仍在更新。建议结合原始论文、官方文档与本站延伸阅读建立准确认知。
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「请求随到随批」
- 「不等凑满 batch」
- 「提高 GPU 利用率」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
- 1
LLM 推理优化:量化、剪枝、蒸馏与推理加速实战
系统讲解大语言模型推理优化的四大核心技术——量化(Quantization)、剪枝(Pruning)、知识蒸馏(Knowledge Distillation)和推理引擎加速,覆盖从原理到实战的完整链路
- 2
LLM 推理加速(四):新范式从 Speculative Decoding 到 DFlash
2026 年 4 月,z-lab 开源的 DFlash(Block Diffusion for Flash Speculative Decoding)一周内突破 2,000 星,将推测解码技术推向了新的高度。从 2023 年的 SpecInfer 到 2024 年的 Medusa、Eagle,再到 2025 年的 Lookahead Decoding 和 2026 年的 DFlash,LLM 推理加速经历了从「验证单 Token」到「预测 Token 块」再到「扩散式生成」的范式跃迁。本文深度解析推测解码的完整技术演进路线,对比 5 种主流方法的原理与性能,提供完整的 Python 实现代码,并给出生产部署的实战指南。
- 3
端侧 AI 技术路线:从 NPU 到 Agent 的完整指南
系统讲解端侧 AI(Edge AI)的完整技术体系——从为什么需要端侧 AI 出发,深入解析 NPU/APU/GPU 三大端侧 AI 处理器架构,对比联发科天玑、高通骁龙、苹果 A/M 系列芯片的 AI 能力差异,探讨端侧模型压缩技术(量化/剪枝/蒸馏/知识蒸馏),并展望端侧 Agent 时代的到来。本文是理解 AI 从云端走向设备端的技术必读。