加载中...

SUPPORT

觉得内容有帮助？请站长喝杯咖啡 ☕

网站所有内容免费，但运维不免费 😭 AI、服务器、域名……你的支持将用来维持网站正常运行，让这个小站还能继续写下去~

微信赞助收款二维码

打开微信扫一扫 · 金额随意

首页知识库工具博客资讯术语表面试题库关于?个人中心

首页/工具/推理 & 运维/推理引擎/Shimmy

⚡

Shimmy

开源推理 & 运维 › 推理引擎⭐ 5.7k↑+7

纯 Rust 编写的 WebGPU 推理引擎，兼容 OpenAI API，原生支持 GGUF 格式。零 Python 依赖，单二进制文件，可在任意 GPU 上运行

🎯适用场景：本地 LLM 推理、边缘部署、无需 Python 的推理服务

#Rust#WebGPU#推理引擎#GGUF#本地推理

📥 收录于 2026/6/8

📊 仓库数据

⭐Stars5,698

🍴Forks548

🟢语言Rust

🔄更新2026/7/24

📈 Stars 变化 ↑11 小时 +7· 统计区间 7/24 12:26 → 7/24 23:22（11 小时）

✅ 优点

•纯 Rust 无 Python 依赖
•WebGPU 跨平台加速
•单二进制部署简单
•兼容 OpenAI API

⚠️ 限制

•相对较新项目
•功能不如 llama.cpp 全面
•WebGPU 依赖硬件支持

🔗 相关工具

WebLLM

开源⭐ 18k↑+2

github.com/mlc-ai/web-llm

高性能浏览器内 LLM 推理引擎，利用 WebGPU 在浏览器中直接运行 LLM，无需服务器部署

🎯在浏览器中直接运行 LLM 实现零服务器部署

#浏览器#WebGPU#本地推理#边缘计算

语言TypeScript

🍴 Forks1,333

🔄 更新2026/7/24

📥 收录2026/6/11

访问工具 →

Colibri

开源⭐ 19k↑+170

github.com/JustVugg/colibri

纯 C 零依赖推理引擎，可在 25GB RAM 消费级机器上运行 GLM-5.2 744B MoE 模型。通过 per-layer LRU cache 从磁盘流式加载 21,504 个路由专家（~370GB），仅保持密集部分（~9.9GB int4）在内存中。Apple M5 Max 128GB 可达 ~1 tok/s。Apache 2.0 许可。

🎯在消费级硬件上本地运行 744B 参数 MoE 模型——无需 GPU 集群

#推理引擎#GLM-5.2#MoE#纯C+3

🍴 Forks1,802

🔄 更新2026/7/24

📥 收录2026/7/21

访问工具 →

AIChat

开源⭐ 10k↑+3

github.com/sigoden/aichat

Rust 编写的全能 LLM CLI 工具，集成 Shell 助手、Chat-REPL 交互式对话、RAG 文档检索、AI 工具与 Agent 等多种模式。支持 OpenAI、Claude、Gemini、Ollama 等 20+ LLM 提供商，可配置多角色和自定义 Prompt。Rust 实现带来极快的启动速度和极低的资源占用，是终端用户和开发者高效使用 AI 的首选命令行工具

🎯生产环境模型推理服务

#命令行#Rust#RAG#Shell 助手

📅 上线2023/3/3

🔄 更新2026/7/24

📥 收录2026/4/13

访问工具 →

IPEX-LLM

github.com/intel/ipex-llm

Intel 开源的本地 LLM 推理加速库，支持 LLaMA、Mistral、ChatGLM、Qwen、DeepSeek 等主流模型在 Intel CPU/GPU 上高效推理，无需 NVIDIA GPU 即可运行大模型，是低成本 AI 部署的理想方案

🎯低成本本地 LLM 推理部署、Intel 硬件上的 AI 服务搭建

#本地推理#Intel GPU#CPU 加速#大语言模型

🍴 Forks1,430

📅 上线2023/11/15

🔄 更新2026/7/24

📥 收录2026/6/1

访问工具 →

Tensorflow

开源⭐ 196k↑+8

github.com/tensorflow/tensorflow

全球最流行的机器学习框架之一，195K+ stars。Google 开源的端到端 ML 平台，支持 TensorFlow、Keras 等多种 API，覆盖深度学习、强化学习、移动端部署等全场景，是 AI 工程师的必备工具

🎯深度学习模型训练、移动端 AI 部署、生产环境 ML 推理服务

#深度学习#deep-neural-networks#分布式#机器学习+1

🍴 Forks75,522

🔄 更新2026/7/24

📥 收录2026/4/11

访问工具 →

Prometheus

开源⭐ 65k↑+13

github.com/prometheus/prometheus

开源监控系统和时序数据库，CNCF 毕业项目。采用多维数据模型和 PromQL 查询语言，是云原生和 AI 基础设施监控的事实标准，可与 Grafana 无缝集成。

🎯AI 服务 GPU 使用率监控、模型推理延迟追踪、Kubernetes 集群资源监控

#监控#告警#指标#时序数据+1

🍴 Forks10,677

🔄 更新2026/7/24

📥 收录2026/5/27

访问工具 →

← 浏览全部 1468 个工具

AI Master 致力于成为最优质的中文 AI 学习平台，让每个人都能掌握人工智能技术。

意见 · 内容纠错 · 需求 · 交流 — support.aimaster.cc@gmail.com

学习资源

📊 机器学习
🧠 深度学习
💬 自然语言处理
👁️ 计算机视觉

关于

关于我们
知识库
博客
工具
资讯
术语表
面试题库

© 2026 AI Master. All rights reserved. Built with ❤️ and AI.