实时交互式世界模型,支持长程记忆和流式视频生成,由昆仑万维 Skywork 团队开源。

🎯适用场景:交互式视频生成——通过实时输入控制,生成长程连贯的视频内容。

#开源#python#世界模型

📥 收录于 2026/6/9

📊 仓库数据

Stars2,229
Forks238
语言Python
更新2026/6/9

优点

  • 实时交互式世界模型,前沿研究方向
  • 支持流式生成和长程记忆
  • Skywork 团队出品,技术实力强

⚠️ 限制

  • 研究阶段产品,稳定性有限
  • 硬件需求较高

🔗 相关工具

OpenCV

开源89k+92

github.com/opencv/opencv

开源计算机视觉库,87,181+ stars。全球最广泛使用的计算机视觉库,提供 2500+ 优化算法,涵盖图像处理、目标检测、人脸识别、相机标定等领域。支持 C++、Python、Java,是 AI 视觉应用的基石。

🎯多模态内容理解与生成

#计算机视觉#图像处理#目标检测#开源
语言C++
🍴 Forks56,621
📅 上线2012/5/1
🔄 更新2026/6/10
📥 收录2026/4/21

PaddleOCR

开源82k+25

github.com/PaddlePaddle/PaddleOCR

百度开源的多语言 OCR 工具,75,995+ stars。支持 80+ 语言识别,提供超轻量级中文 OCR 模型(仅几 MB),可部署于服务器、移动端和嵌入式设备,是工业级 OCR 方案的首选

🎯多模态内容理解与生成

#OCR#多语言#轻量级#工业级
语言Python
🍴 Forks10,715
📅 上线2020/5/8
🔄 更新2026/6/10
📥 收录2026/4/20

Tesseract OCR

开源75k+4

github.com/tesseract-ocr/tesseract

开源 OCR 引擎,73,620+ stars。由 HP 开发、Google 维护的顶级文字识别引擎,支持 100+ 语言,可识别图片、PDF、扫描件中的文字。结合 LSTM 神经网络实现高精度 OCR,是 AI 文档处理的基础设施。

🎯多模态内容理解与生成

#OCR#文字识别#文档处理#多语言
语言C++
🍴 Forks10,654
📅 上线2015/1/1
🔄 更新2026/6/10
📥 收录2026/4/21

Ultralytics

开源58k+3

github.com/ultralytics/ultralytics

YOLO 系列目标检测框架,56,193+ stars。业界最先进的目标检测框架,支持 YOLOv8/v11 等最新模型,提供检测、分割、姿态估计、旋转框检测等任务,API 简洁易用

🎯多模态内容理解与生成

#目标检测#YOLO#计算机视觉#深度学习
语言Python
🍴 Forks11,161
📅 上线2022/9/12
🔄 更新2026/6/10
📥 收录2026/4/20

YOLOv5

开源57k+1

github.com/ultralytics/yolov5

YOLOv5 目标检测,57,248+ stars。Ultralytics 出品的实时目标检测模型,以速度和精度著称,支持多种模型规模(Nano 到 XLarge),广泛应用于工业视觉、安防监控等场景

🎯多模态内容理解与生成

#目标检测#计算机视觉#实时推理#Ultralytics
语言Python
🍴 Forks17,459
📅 上线2020/5/18
🔄 更新2026/6/10
📥 收录2026/4/20

Roboflow Supervision

开源43k+126

github.com/roboflow/supervision

可复用的计算机视觉工具库,39.7K+ stars。提供目标检测、实例分割、图像分类等 CV 任务的评估指标和可视化工具,兼容 YOLO、SAM 等主流模型

🎯多模态内容理解与生成

#计算机视觉#目标检测#实例分割#评估指标
语言Python
🍴 Forks3,830
🔄 更新2026/6/10
📥 收录2026/5/28