langchain4j

开源RAG & 检索12k

LangChain4j is an idiomatic, open-source Java library for building LLM-powered applications on the JVM. It offers a unified API over popular LLM providers and vector stores, and makes implementing too

#anthropic#chatgpt#chroma#embeddings#gemini

📊 仓库数据

Stars11,994
Forks2,213
语言Java
更新2026/5/14

🔗 相关工具

Langchain-Chatchat

开源38k

github.com/chatchat-space/langchain-chatchat

Langchain-Chatchat(原Langchain-ChatGLM)基于 Langchain ��� ChatGLM, Qwen 与 Llama 等语言模型的 RAG 与 Agent 应用 | Langchain-Chatchat (formerly langchain-ChatGLM), local knowledge based LLM (like ChatGLM, Qwen and

#chatbot#chatchat#chatglm#chatgpt+1
语言Python
🍴 Forks6,207
🔄 更新2025/11/10

txtai

开源13k

github.com/neuml/txtai

💡 All-in-one AI framework for semantic search, LLM orchestration and language model workflows

#agents#ai#ai-agents#embeddings+1
语言Python
🍴 Forks810
🔄 更新2026/5/12

FlagEmbedding

开源12k

github.com/flagopen/flagembedding

Retrieval and Retrieval-augmented LLMs

#embeddings#information-retrieval#llm#retrieval-augmented-generation+1
语言Python
🍴 Forks875
🔄 更新2026/4/22

Vearch

免费2.3k

github.com/vearch/vearch

Distributed vector search for AI-native applications

#ai-native#ai-native-database#cloud-native#document-retrieval+1
语言Go
🍴 Forks359
📅 上线2019/5/13

MarkItDown

开源118k↑+412

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯 文档格式转换、内容预处理

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks7,746
📅 上线2024/11/13
🔄 更新2026/4/27

Firecrawl

免费+付费113k↑+173

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源

🎯 RAG 系统数据源、AI 训练数据收集、网站内容提取

#爬虫#API#LLM数据源#Markdown
语言TypeScript
🍴 Forks7,175
📅 上线2024/4/15
🔄 更新2026/4/27