RWKV-LM
RWKV是一种结合RNN和Transformer优势的大语言模型架构,具备线性时间复杂度、常数空间占用、快速训练和无限上下文长度等特性,目前已发展到RWKV-7版本。
🎯适用场景:高效LLM推理、长文本处理、资源受限环境下的语言模型部署
📊 仓库数据
✅ 优点
- •线性时间复杂度和常数空间,推理效率高
- •无需KV缓存,内存占用低
- •支持无限上下文长度
⚠️ 限制
- •生态相比主流Transformer较小
- •部分场景下精度略逊于最新Transformer架构
🔗 相关工具
Langchain-Chatchat
开源⭐ 38k↑+4github.com/chatchat-space/langchain-chatchat
Langchain-Chatchat(原 Langchain-ChatGLM),38K+ stars。基于 Langchain 和 ChatGLM、Qwen 与 Llama 等语言模型的 RAG 与 Agent 应用,支持本地知识库问答
🎯 企业知识库问答与 RAG 检索
LightRAG
开源⭐ 36k↑+18github.com/hkuds/lightrag
[EMNLP2025] 轻量级 RAG 框架,35K+ stars。Simple and Fast Retrieval-Augmented Generation,比传统 RAG 更快更简单的检索增强生成方案
🎯 知识图谱增强检索与推理、企业知识库问答与 RAG 检索
unstructured
开源⭐ 15k↑+1github.com/unstructured-io/unstructured
文档结构化转换工具,15K+ stars。轻松将非结构化文档转换为结构化数据,支持多种文档格式的解析和 ETL 处理
🎯 非结构化文档解析与提取、数据采集与 ETL 处理
langchain4j
开源⭐ 12k↑+3github.com/langchain4j/langchain4j
Java 版 LangChain,12K+ stars。符合 Java 习惯的开源 Java 库,用于构建 LLM 驱动的应用,是 LangChain 的 Java 生态版本
🎯 向量检索与语义搜索
MarkItDown
开源⭐ 125k↑+32github.com/microsoft/markitdown
微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议
🎯 多模态内容理解与生成
Firecrawl
免费+付费⭐ 123k↑+79github.com/firecrawl/firecrawl
AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源
🎯 网页自动化与数据采集