CogVideo
智谱开源的文本/图像到视频生成模型,13K+ stars。包括 CogVideoX (2024) 和 CogVideo (ICLR 2023),是开源视频生成的重要方案
🎯适用场景:开源视频生成研究,视频内容创作,AI 视频模型微调
📊 仓库数据
✅ 优点
- •智谱出品,学术背景扎实,ICLR 发表论文,技术可信度高
- •开源权重可自部署,适合研究和定制化需求
⚠️ 限制
- •相比商业方案,生成视频时长和流畅度仍有差距
- •需要较高显存,部署门槛不低
🔗 相关工具
Wan 2.2
开源⭐ 16kgithub.com/Wan-Video/Wan2.2
开源大规模视频生成模型,16K+ stars。支持高质量文本到视频和图像到视频生成,是开源视频生成领域的最新标杆
🎯 开源视频生成,适用于内容创作、广告制作、教育视频
Sora 2
付费openai.com/sora
OpenAI 的旗舰级视频生成模型,基于 Diffusion Transformer 架构。支持最长 60 秒视频生成,在物理模拟(流体、光影、碰撞)方面表现卓越。通过 ChatGPT Plus/Pro 订阅可用,是 2026 年质量最高的文生视频模型。
🎯 多模态内容理解与生成
LivePortrait
开源⭐ 18k↑+2github.com/KlingAIResearch/LivePortrait
让静态肖像照片“活起来”的 AI 肖像动画工具。支持单张照片驱动面部表情、头部姿态和口型同步,可生成逼真的肖像动画视频。18K+ stars,是开源数字人和肖像动画领域的标杆项目
🎯 多模态内容理解与生成
Open Generative AI
开源⭐ 17k↑+30github.com/Anil-matcha/Open-Generative-AI
Open Generative AI 是 Higgsfield AI、Freepik AI、Krea AI、Openart AI 的开源替代方案。提供免费的、无限制的 AI 图像和视频生成工作室,集成 200+ 模型(Flux、Midjourney、Kling、Sora、Veo 等)。无内容过滤器,完全自部署,MIT 许可证。GitHub 7,993 stars,本周增长 2,417 星。与商业图像生成平台不同,Open Generative AI 完全开源且无内容限制——用户可以在本地运行所有模型,不受任何平台的审查或限制。适合需要完整 AI 生成能力且对内容无限制的用户。
🎯 多模态内容理解与生成
Runway Gen-4
付费runwayml.com
Runway 的最新视频生成模型,支持多模态输入(文本、图像、视频片段)。提供专业级时间轴控制、视频编辑(风格迁移、对象替换)等高级功能。Web 界面 + API 双模式,是专业视频创作者的首选平台。
🎯 多模态内容理解与生成
Pika 2.0
免费+付费pika.art
专注短视频生成的 AI 平台,擅长 3-10 秒短视频和动画风格内容。支持 Lip Sync(口型同步)、风格迁移和关键帧控制。界面简洁,适合社交媒体内容创作者快速生成吸引眼球的短视频。
🎯 多模态内容理解与生成