标准回答
三者本质都是端侧推理运行时与模型格式,差异集中在生态、算子支持与硬件后端。
TFLite
面向移动与嵌入式,模型体积小、运行时轻量,通过 Delegate 机制把算子委托给 GPU、NNAPI 或厂商 NPU 加速,安卓与 IoT 场景成熟。
ONNX Runtime
以跨平台与互操作为核心:ONNX 是开放交换格式,多框架可导出,再由 ONNX Runtime 通过不同 Execution Provider(CPU、CUDA、CoreML、NNAPI 等)在各平台运行,适合需要一套模型跑多端的场景。
Core ML
苹果生态原生方案,与 iOS/macOS 深度集成,可直接调度 Apple Neural Engine(ANE)获得高能效,开发体验好,但只服务苹果设备。
选型
只面向苹果端用 Core ML;安卓/嵌入式用 TFLite;要跨多端统一或在框架间互转,用 ONNX 作中间格式 + ONNX Runtime。
常见误区
⚠️ 常见踩坑
以为换个格式就能自动获得加速——实际能否调用 NPU 取决于算子是否被该后端支持,遇到不支持算子会回退 CPU;以及忽视格式转换中算子缺失/语义差异导致的精度或可用性问题。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具