BitNet

开源LLM 运行时 › 量化与压缩⭐ 40k↑+25

微软 1-bit LLM 官方推理框架，将模型权重量化为 1-bit，大幅降低推理成本

🎯适用场景：金融 AI 应用与量化分析

#大语言模型#量化#推理#1-bit

📥 收录于 2026/5/18

访问工具 📖 官方文档

📊 仓库数据

Stars39,667

Forks3,637

语言Python

协议MIT

更新2026/7/10

📈 Stars 变化 ↑12 小时 +25· 统计区间 7/10 12:08 → 7/11 00:11（12 小时）

✅ 优点

•革命性的 1-bit 量化
•推理成本极低
•微软官方维护

⚠️ 限制

•仅支持特定架构
•精度有损失

🔗 相关工具

AirLLM

开源⭐ 22k↑+21

github.com/lyogavin/airllm

仅需单张 4GB GPU 即可运行 70B 大模型推理。采用层卸载和量化技术，让消费级显卡也能跑超大模型，是资源受限场景下大模型推理的破局方案

🎯消费级 GPU 上的大模型推理、低资源 LLM 部署场景

#边缘推理#量化#low-vram#大语言模型+1

语言Jupyter Notebook

🍴 Forks2,577

📅 上线2023/9/1

🔄 更新2026/7/10

📥 收录2026/6/4

MNN

开源⭐ 16k↑+4

github.com/alibaba/MNN

阿里巴巴端侧 AI 推理引擎，15K+ stars。轻量高效的移动端和边缘端推理引擎，支持 LLM 端侧部署，在 ARM、RISC-V 等平台上提供极致性能

🎯手机、IoT 等设备上的轻量模型与 LLM 端侧推理部署

#端侧 AI#推理引擎#嵌入式#大语言模型

语言C++

🍴 Forks2,382

🔄 更新2026/7/10

📥 收录2026/5/27

bitsandbytes

开源⭐ 8.3k↑+2

github.com/bitsandbytes-foundation/bitsandbytes

PyTorch k-bit 量化库，让大语言模型可在消费级 GPU 上运行。支持 4-bit/8-bit 量化、QLoRA 微调，是本地部署大模型的核心工具。8.2K+ stars。

🎯大模型消费级 GPU 部署、QLoRA 微调、内存优化推理

#大语言模型#机器学习#Pytorch#QLoRA

语言Python

🍴 Forks882

🔄 更新2026/7/10

📥 收录2026/6/3

Nexa SDK

开源⭐ 8.2k↑+4

github.com/qualcomm/nexa-sdk

跨平台 LLM/VLM 推理引擎——在 GPU、NPU 和 CPU 上运行前沿模型。零日模型支持、量化优化、多硬件后端，是端侧 AI 部署的统一推理方案

🎯端侧 LLM/VLM 推理运行时，适用于手机、IoT 设备等边缘部署场景

#端侧推理#NPU#量化#跨平台

语言Rust

🍴 Forks1,019

📅 上线2024/6/1

🔄 更新2026/7/10

📥 收录2026/5/26

Kronos

开源⭐ 32k↑+18

github.com/shiyu-coder/Kronos

面向金融市场的 Foundation Model，将金融市场语言建模为序列预测问题。支持金融时间序列分析、市场趋势预测和量化交易策略生成。由 shiyu-coder 团队开发，GitHub 20K+ 星，周增 3200+ 星，是金融 AI 领域增长最快的项目之一。采用类 Transformer 架构处理结构化金融数据，可对接主流交易 API。

🎯金融时间序列预测、量化交易策略生成、市场趋势分析

#金融 AI#时间序列预测#量化交易#Foundation Model+1

语言Python

🍴 Forks5,503

📅 上线2025/10/8

🔄 更新2026/7/10

📥 收录2026/4/21

UniLM

开源⭐ 22k↑+2

github.com/microsoft/unilm

UniLM 是微软的统一预训练模型仓库，涵盖跨任务、跨语言、跨模态的大规模自监督预训练。包含 BEiT、LayoutLM、Kosmos、TextDiffuser 等多个经典模型，是多模态 AI 研究的重要参考资源。22K+ stars。

🎯多模态预训练模型研究、文档 AI、视觉语言模型开发

#Beit#Beit-3#Bitnet#Deepnet

语言Python

🍴 Forks2,704

🔄 更新2026/7/10

📥 收录2026/6/3

← 浏览全部 1267 个工具