BitNet
微软 1-bit LLM 官方推理框架,将模型权重量化为 1-bit,大幅降低推理成本
🎯适用场景:金融 AI 应用与量化分析
📊 仓库数据
📈 Stars 变化 ↑2 天 +18· 统计区间 6/10 18:11 → 6/12 06:51(2 天)
✅ 优点
- •革命性的 1-bit 量化
- •推理成本极低
- •微软官方维护
⚠️ 限制
- •仅支持特定架构
- •精度有损失
🔗 相关工具
AirLLM
github.com/lyogavin/airllm
仅需单张 4GB GPU 即可运行 70B 大模型推理。采用层卸载和量化技术,让消费级显卡也能跑超大模型,是资源受限场景下大模型推理的破局方案
🎯消费级 GPU 上的大模型推理、低资源 LLM 部署场景
MNN
github.com/alibaba/MNN
阿里巴巴端侧 AI 推理引擎,15K+ stars。轻量高效的移动端和边缘端推理引擎,支持 LLM 端侧部署,在 ARM、RISC-V 等平台上提供极致性能
🎯手机、IoT 等设备上的轻量模型与 LLM 端侧推理部署
Nexa SDK
github.com/qualcomm/nexa-sdk
跨平台 LLM/VLM 推理引擎——在 GPU、NPU 和 CPU 上运行前沿模型。零日模型支持、量化优化、多硬件后端,是端侧 AI 部署的统一推理方案
🎯端侧 LLM/VLM 推理运行时,适用于手机、IoT 设备等边缘部署场景
Neural Compressor
github.com/intel/neural-compressor
Intel 开源的低比特量化与模型压缩工具,支持 INT8/FP8/INT4 等多种量化格式,兼容 PyTorch、TensorFlow 和 ONNX Runtime。
🎯模型量化压缩——将大模型压缩为低精度格式,在保持精度的同时大幅减少显存和推理延迟。
bitsandbytes
github.com/bitsandbytes-foundation/bitsandbytes
PyTorch k-bit 量化库,让大语言模型可在消费级 GPU 上运行。支持 4-bit/8-bit 量化、QLoRA 微调,是本地部署大模型的核心工具。8.2K+ stars。
🎯大模型消费级 GPU 部署、QLoRA 微调、内存优化推理
Kronos
github.com/shiyu-coder/Kronos
面向金融市场的 Foundation Model,将金融市场语言建模为序列预测问题。支持金融时间序列分析、市场趋势预测和量化交易策略生成。由 shiyu-coder 团队开发,GitHub 20K+ 星,周增 3200+ 星,是金融 AI 领域增长最快的项目之一。采用类 Transformer 架构处理结构化金融数据,可对接主流交易 API。
🎯金融时间序列预测、量化交易策略生成、市场趋势分析