RWKV-LM

开源RAG & 检索15k

RWKV是一种结合RNN和Transformer优势的大语言模型架构,具备线性时间复杂度、常数空间占用、快速训练和无限上下文长度等特性,目前已发展到RWKV-7版本。

🎯适用场景:高效LLM推理、长文本处理、资源受限环境下的语言模型部署

#attention-mechanism#chatgpt#deep-learning#gpt

📊 仓库数据

Stars14,537
Forks1,011
语言Python
协议Apache-2.0
更新2026/5/23

优点

  • 线性时间复杂度和常数空间,推理效率高
  • 无需KV缓存,内存占用低
  • 支持无限上下文长度

⚠️ 限制

  • 生态相比主流Transformer较小
  • 部分场景下精度略逊于最新Transformer架构

🔗 相关工具

Langchain-Chatchat

开源38k↑+4

github.com/chatchat-space/langchain-chatchat

Langchain-Chatchat(原 Langchain-ChatGLM),38K+ stars。基于 Langchain 和 ChatGLM、Qwen 与 Llama 等语言模型的 RAG 与 Agent 应用,支持本地知识库问答

🎯 企业知识库问答与 RAG 检索

#chatbot#chatchat#chatglm#chatgpt+1
语言Python
🍴 Forks6,210
🔄 更新2026/5/23

LightRAG

开源36k↑+18

github.com/hkuds/lightrag

[EMNLP2025] 轻量级 RAG 框架,35K+ stars。Simple and Fast Retrieval-Augmented Generation,比传统 RAG 更快更简单的检索增强生成方案

🎯 知识图谱增强检索与推理、企业知识库问答与 RAG 检索

#genai#gpt#gpt-4#graphrag+1
语言Python
🍴 Forks5,028
🔄 更新2026/5/23

unstructured

开源15k↑+1

github.com/unstructured-io/unstructured

文档结构化转换工具,15K+ stars。轻松将非结构化文档转换为结构化数据,支持多种文档格式的解析和 ETL 处理

🎯 非结构化文档解析与提取、数据采集与 ETL 处理

#data-pipelines#deep-learning#document-image-analysis#document-image-processing+1
语言HTML
🍴 Forks1,237
🔄 更新2026/5/23

langchain4j

开源12k↑+3

github.com/langchain4j/langchain4j

Java 版 LangChain,12K+ stars。符合 Java 习惯的开源 Java 库,用于构建 LLM 驱动的应用,是 LangChain 的 Java 生态版本

🎯 向量检索与语义搜索

#anthropic#chatgpt#chroma#embeddings+1
语言Java
🍴 Forks2,251
🔄 更新2026/5/23

MarkItDown

开源125k↑+32

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯 多模态内容理解与生成

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks8,480
📅 上线2023/2/8
🔄 更新2026/5/23

Firecrawl

免费+付费123k↑+79

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源

🎯 网页自动化与数据采集

#爬虫#API#LLM数据源#Markdown
语言TypeScript
🍴 Forks7,470
📅 上线2024/4/15
🔄 更新2026/5/23