纯 Rust 编写的 WebGPU 推理引擎,兼容 OpenAI API,原生支持 GGUF 格式。零 Python 依赖,单二进制文件,可在任意 GPU 上运行

🎯适用场景:本地 LLM 推理、边缘部署、无需 Python 的推理服务

#Rust#WebGPU#推理引擎#GGUF#本地推理

📥 收录于 2026/6/8

📊 仓库数据

Stars5,376
Forks509
语言Rust
更新2026/6/10

📈 Stars 变化 6 小时 +3· 统计区间 6/10 00:13 → 6/10 06:16(6 小时)

优点

  • 纯 Rust 无 Python 依赖
  • WebGPU 跨平台加速
  • 单二进制部署简单
  • 兼容 OpenAI API

⚠️ 限制

  • 相对较新项目
  • 功能不如 llama.cpp 全面
  • WebGPU 依赖硬件支持

🔗 相关工具

vLLM

开源82k+22

github.com/vllm-project/vllm

高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API

🎯生产环境模型推理服务

#推理引擎#高性能#PagedAttention#生产部署
语言Python
🍴 Forks17,848
📅 上线2023/2/9
🔄 更新2026/6/10
📥 收录2026/4/13

SGLang

开源29k-4

github.com/sgl-project/sglang

高性能 LLM 和多模态模型服务框架,27K+ stars。采用 RadixAttention 等高效注意力实现,支持 DeepSeek、Llama、Qwen、GPT-OSS 等主流模型的高吞吐推理服务,是 vLLM 之外另一个生产级推理引擎选择

🎯生产环境模型推理服务

#推理引擎#LLM 服务#多模态#高吞吐
语言Python
🍴 Forks6,429
🔄 更新2026/6/10
📥 收录2026/5/19

OpenRLHF

开源9.6k+1

github.com/OpenRLHF/OpenRLHF

可扩展的 Agentic RL 训练框架,9.6K+ stars。基于 Ray 构建,支持 PPO/DAPO/REINFORCE++ 等算法,集成 vLLM 加速推理

🎯LLM 对齐训练(RLHF/DPO)、Agent 强化学习

#强化学习#RLHF#PPO#LLM 训练+1
语言Python
🍴 Forks965
📅 上线2023/7/30
🔄 更新2026/6/10
📥 收录2026/6/5

LMCache

开源8.5k+1

github.com/LMCache/LMCache

LLM KV Cache 加速层,通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架,可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。

🎯LLM 推理加速、重复前缀场景优化、多轮对话性能提升

#Amd#Cuda#Fast#推理
语言Python
🍴 Forks1,269
🔄 更新2026/6/10
📥 收录2026/6/3

DeepGEMM

开源7.4k

github.com/deepseek-ai/DeepGEMM

DeepGEMM 是 DeepSeek 开源的高性能 FP8 GEMM(通用矩阵乘法)内核库,周增 605 stars,当前 6,998 stars。它专为 FP8 精度的大模型推理和训练设计,提供细粒度缩放(Fine-grained Scaling)的 GEMM 内核实现。与 vLLM 等推理引擎不同,DeepGEMM 聚焦在底层的 GEMM 计算优化层面——它是 FP8 量化推理的基础设施。在 FP8 已成为大模型推理主流精度格式的今天,DeepGEMM 提供了从 CUDA 内核层面优化 FP8 计算的关键能力,是高性能 LLM 推理栈中不可或缺的一环。

🎯大模型推理 GEMM 内核加速、GPU 矩阵运算优化

#FP8#GEMM#CUDA 内核#DeepSeek+1
语言Cuda
🍴 Forks1,035
📅 上线2026/3/15
🔄 更新2026/6/10
📥 收录2026/4/25

GPUStack

开源5.1k+1

github.com/gpustack/gpustack

GPU 集群管理器,支持统一配置和编排 vLLM、SGLang 等主流推理引擎,实现高性能 AI 模型在多 GPU 集群中的自动化部署和调度

🎯多 GPU 集群推理引擎编排、DeepSeek 等大规模模型分布式部署

#gpu#distributed-inference#vllm#sglang
语言Python
🍴 Forks546
🔄 更新2026/6/10
📥 收录2026/6/4