AIChat
Rust 编写的全能 LLM CLI 工具,集成 Shell 助手、Chat-REPL 交互式对话、RAG 文档检索、AI 工具与 Agent 等多种模式。支持 OpenAI、Claude、Gemini、Ollama 等 20+ LLM 提供商,可配置多角色和自定义 Prompt。Rust 实现带来极快的启动速度和极低的资源占用,是终端用户和开发者高效使用 AI 的首选命令行工具
🎯适用场景:生产环境模型推理服务
📊 仓库数据
✅ 优点
- •Rust 实现极速轻量
- •支持 20+ LLM 提供商
- •Shell 集成提高终端效率
- •RAG 支持文档检索问答
⚠️ 限制
- •CLI 界面对非技术用户不友好
- •配置多模型需要一定学习成本
- •缺少 GUI 可视化
- •RAG 功能相对基础
🔗 相关工具
Lucebox Hub
github.com/Luce-Org/lucebox-hub
面向消费级硬件的快速 LLM 推测推理服务器,利用 DFlash 内核和 CUDA 优化在普通 GPU 上实现高性能推理
🎯消费级 GPU 上的 LLM 推理、本地大模型部署、推理加速
Tensorflow
github.com/tensorflow/tensorflow
全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具
🎯深度学习模型训练、移动端 AI 部署、生产环境 ML 推理服务
vLLM
github.com/vllm-project/vllm
高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API
🎯生产环境模型推理服务
Prometheus
github.com/prometheus/prometheus
开源监控系统和时序数据库,CNCF 毕业项目。采用多维数据模型和 PromQL 查询语言,是云原生和 AI 基础设施监控的事实标准,可与 Grafana 无缝集成。
🎯AI 服务 GPU 使用率监控、模型推理延迟追踪、Kubernetes 集群资源监控
Ray
github.com/ray-project/ray
AI 分布式计算引擎,42K+ stars。提供核心分布式运行时和一套 AI 库,加速 ML 工作负载——包括超参数搜索、强化学习、LLM 推理服务等,是大规模 AI 训练和推理的事实标准基础设施
🎯分布式 ML 训练与推理调度、超参数搜索与强化学习
LLM Action
github.com/liguodongiot/llm-action
生成式 AI 指南,4.9K+ stars。生成式 AI 研究更新、工具和资源的一站式资源库,涵盖最新进展和实用工具
🎯生成式 AI 技术学习、LLM 训练/推理/部署实践参考