Edge Inference（边缘推理）

就是把 AI 装到手机或摄像头里，不用联网也能跑

亦作、亦称：边缘推理 · On-device Inference · 端侧推理 · 端侧部署 · 本地推理

边缘推理将 AI 计算从云端数据中心迁移至用户设备，使模型能在无网络或低带宽环境中实时运行。它通过模型压缩技术将大模型「瘦身」，在保持可接受精度的同时大幅降低延迟、带宽消耗和数据隐私风险。

概述

边缘推理（Edge Inference）是 Edge AI 体系的核心执行环节，指在网络边缘侧的本地硬件上完成模型前向计算（Forward Pass）的过程。

本质：将训练好的模型部署到终端设备，用本地算力代替云端算力完成「输入数据 → 模型预测」的推理链路
对比云端推理：云端推理依赖稳定网络、存在往返延迟（RTT）且数据需上传；边缘推理延迟可低至个位数毫秒
关键驱动力：NPU（神经网络处理单元）、移动 GPU 的算力快速提升，以及量化、蒸馏等模型压缩技术的成熟
市场规模：据 Grand View Research，全球 Edge AI 市场预计从 2025 年约 250 亿美元增至 2033 年超 1180 亿美元

边缘推理通过「压缩模型 + 适配硬件」两条主线实现可行部署。

量化（Quantization）：将浮点权重（FP32/FP16）转换为低比特整数（INT8/INT4），显著减少内存占用和计算量，精度损失通常在 1% 以内
剪枝（Pruning）：移除对输出贡献较小的神经元或连接，结构化剪枝（Structured Pruning）可减少 60-80% 参数同时保持硬件加速友好性
知识蒸馏（Knowledge Distillation）：用大教师模型指导小学生模型训练，使轻量模型逼近大模型的输出分布
硬件适配：利用 TensorRT、CoreML、ONNX Runtime、TFLite 等推理引擎将模型编译为目标硬件（NPU/DSP/GPU）的最优执行图
推理引擎调度：批处理（Batching）、算子融合（Operator Fusion）、内存复用进一步提升吞吐

按部署位置和算力规模，边缘推理可分为以下几类。

端侧推理（On-device）：直接在手机、穿戴设备、摄像头上运行，算力最受限，常用 INT4/INT8 量化小模型（如 Phi-3-mini、Gemma-2B）
边缘服务器推理：部署于本地机房或基站，算力介于端侧与云端之间，可运行中等规模模型（7B-13B 参数）
云边协同（Hybrid）：复杂请求路由至云端，简单/实时请求由边缘处理，兼顾精度与延迟
联邦推理（Federated Inference）：多端设备协同完成推理，数据不集中，隐私保护更强
投机推理（Speculative Decoding）变体：边缘小模型起草（Draft），云端大模型验证（Verify），降低云端负载

边缘推理已在多个高价值场景落地，延迟与隐私是最核心的驱动因素。

边缘推理与云端推理各有适用场景，核心差异体现在四个维度。

边缘推理并非万能，落地时需警惕以下局限与误解。

边缘推理随移动 AI 芯片与模型压缩技术同步演进。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。