Mmagic
OpenMMLab 多模态工具箱,8.6K+ stars。多模态高级生成和智能创建工具箱,支持图像生成、视频生成等多种任务
🎯适用场景:多模态内容理解与生成
📥 收录于 2026/5/12
📊 仓库数据
✅ 优点
- •多模态输入输出支持
- •7.4K+ stars
- •开源免费
⚠️ 限制
- •以学习参考为主,非可直接运行的产品
- •上手需要一定学习与配置成本
🔗 相关工具
Wan 2.2
github.com/Wan-Video/Wan2.2
开源大规模视频生成模型,16K+ stars。支持高质量文本到视频和图像到视频生成,是开源视频生成领域的最新标杆
🎯开源视频生成,适用于内容创作、广告制作、教育视频
HunyuanVideo
github.com/Tencent-Hunyuan/HunyuanVideo
腾讯混元大规模视频生成模型框架,12K+ stars。系统性框架覆盖视频生成的训练和推理全流程,支持高质量文生视频和图生视频
🎯高质量文生视频、图生视频生成
VideoCrafter
github.com/AILab-CVC/VideoCrafter
VideoCrafter2 高质量视频扩散模型,突破数据限制实现高质量视频生成,支持文本到视频和图像到视频。
🎯高质量视频生成——适合需要文本/图像到视频生成的开发者和创作者
MoneyPrinterTurbo
github.com/harry0703/MoneyPrinterTurbo
AI 短视频生成工具,56,087+ stars。利用大模型一键生成高清短视频,自动完成选题、文案、配音、字幕、画面生成全流程。是国内最受欢迎的 AI 短视频自动化工具。
🎯多模态内容理解与生成
Sora 2
openai.com/sora
OpenAI 的旗舰级视频生成模型,基于 Diffusion Transformer 架构。支持最长 60 秒视频生成,在物理模拟(流体、光影、碰撞)方面表现卓越。通过 ChatGPT Plus/Pro 订阅可用,是 2026 年质量最高的文生视频模型。
🎯多模态内容理解与生成
Umi-OCR
github.com/hiroi-sora/Umi-OCR
Umi-OCR 是一款免费开源的离线 OCR 文字识别软件,支持截屏识别、批量导入图片识别、PDF 文档识别,可排除水印和页眉页脚干扰,支持扫描和生成二维码,内置多国语种识别库。44K+ stars。
🎯日常文字识别、批量 OCR 处理、离线环境下的文字提取