本仓库收集了当前最热门的世界模型相关开源项目和研究资料。
世界模型(World Model)是人工智能领域的前沿研究方向,旨在让AI系统能够理解、生成和与3D世界进行交互。本项目汇总了三大主要研究方向的开源代码:
- 李飞飞团队 - World Labs:专注于空间智能(Spatial Intelligence)
- Yann LeCun团队 - Meta JEPA:联合嵌入预测架构
- Meta Reality Labs - WorldGen:文本到3D世界生成
world-model-research/
├── ijepa/ # Meta I-JEPA (图像世界模型)
├── vjepa/ # Meta V-JEPA (视频世界模型)
├── cwm/ # Meta Code World Model (代码世界模型)
├── spark/ # World Labs Spark 渲染器
├── WorldGen/ # WorldGen 3D场景生成
├── worldgen_paper.pdf # Meta WorldGen 论文
├── world_model_research.md # 详细调研报告
└── README.md # 本文件
目录: ijepa/
GitHub: https://github.com/facebookresearch/ijepa
描述: 基于图像的联合嵌入预测架构,通过自监督学习从图像中学习世界模型。
核心特点:
- 非生成式方法,预测抽象表示而非像素
- 更接近人类的学习方式
- 高效的自监督学习
目录: vjepa/
GitHub: https://github.com/facebookresearch/jepa
描述: 基于视频的联合嵌入预测架构,从视频中学习视觉表示和物理规律。
核心特点:
- 通过观察视频学习物理原理
- 卓越的运动理解能力
- 适用于机器人和AI规划
目录: cwm/
GitHub: https://github.com/facebookresearch/cwm
HuggingFace: https://huggingface.co/facebook/cwm
描述: 320亿参数的开源LLM,专门用于代码生成与世界模型研究。
核心特点:
- 理解代码执行的世界模型
- 35,000个Docker化仓库训练
- 生成300万代码样本
目录: spark/
GitHub: https://github.com/sparkjsdev/spark
官网: https://sparkjs.dev/
描述: 基于THREE.js的高级3D高斯点云(Gaussian Splatting)渲染器。
核心特点:
- 与THREE.js无缝集成
- 支持98%+的WebGL2设备
- 可将点云与网格对象融合
- World Labs官方开源
目录: WorldGen/
GitHub: https://github.com/ZiYang-xie/WorldGen
描述: 从文本提示和图像快速生成3D场景的开源工具。
核心特点:
- 秒级生成3D场景
- 支持360°自由探索
- 支持低显存模式(~10GB VRAM)
- 输出高斯点云或网格格式
文件: worldgen_paper.pdf
标题: WorldGen: From Text to Traversable and Interactive 3D Worlds
发布日期: 2025年11月21日
作者: Meta Reality Labs 3D GenAI Team
论文介绍了Meta最新的端到端3D世界生成系统,包含三个主要阶段:
- 场景规划 (Scene Planning)
- 场景重建 (Scene Reconstruction)
- 场景分解 (Scene Decomposition)
文件: world_model_research.md
包含完整的调研过程、技术细节和项目对比分析。
cd ijepa
# 查看 README 了解详细安装和使用说明cd vjepa
# 查看 README 了解详细安装和使用说明cd cwm
# 查看 README 了解模型下载和使用说明cd spark
npm install
# 查看文档: https://sparkjs.dev/docs/overview/cd WorldGen
conda create -n worldgen python=3.11
conda activate worldgen
pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu128
pip install .- 官网: https://www.worldlabs.ai/
- Marble 产品: https://marble.worldlabs.ai/
- 博客: https://www.worldlabs.ai/blog
- I-JEPA 博客: https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/
- V-JEPA 2 官网: https://ai.meta.com/vjepa/
- WorldGen 博客: https://www.meta.com/blog/worldgen-3d-world-generation-reality-labs-generative-ai-research/
| 项目 | 机构 | 类型 | 输入 | 输出 | 开源状态 |
|---|---|---|---|---|---|
| I-JEPA | Meta AI | 图像世界模型 | 图像 | 特征表示 | ✅ 开源 |
| V-JEPA | Meta AI | 视频世界模型 | 视频 | 特征表示 | ✅ 开源 |
| CWM | Meta AI | 代码世界模型 | 代码 | 代码+执行理解 | ✅ 开源 |
| Marble | World Labs | 3D世界生成 | 文本/图像/视频 | 3D世界 | ❌ 闭源 (仅Spark开源) |
| Spark | World Labs | 渲染器 | 高斯点云 | 浏览器渲染 | ✅ 开源 |
| WorldGen (Meta) | Meta Reality Labs | 3D世界生成 | 文本 | 交互式3D世界 | ❌ 研究阶段 |
| WorldGen (开源) | Ziyang Xie | 3D场景生成 | 文本/图像 | 3D场景 | ✅ 开源 |
- 游戏开发: 快速生成游戏场景和环境
- 虚拟现实: 创建沉浸式VR/AR体验
- 机器人: 训练机器人理解物理世界
- 自动驾驶: 生成测试场景和边缘案例
- 影视特效: 辅助3D场景创作
- 建筑设计: 快速可视化设计概念
各子项目遵循各自的开源许可证:
- I-JEPA, V-JEPA, CWM: Meta 开源许可证
- Spark: MIT License
- WorldGen (开源): Apache-2.0 License
欢迎提交 Issue 和 Pull Request 来完善本调研项目!
如有问题或建议,请通过 GitHub Issues 联系。
最后更新: 2025年11月22日