Skip to content

世界模型(World Model)调研项目:收集李飞飞、LeCun和Meta的最新世界模型开源代码和研究资料

Notifications You must be signed in to change notification settings

shawnli/world-model-research

Repository files navigation

世界模型(World Model)调研项目

本仓库收集了当前最热门的世界模型相关开源项目和研究资料。

📚 项目概述

世界模型(World Model)是人工智能领域的前沿研究方向,旨在让AI系统能够理解、生成和与3D世界进行交互。本项目汇总了三大主要研究方向的开源代码:

  1. 李飞飞团队 - World Labs:专注于空间智能(Spatial Intelligence)
  2. Yann LeCun团队 - Meta JEPA:联合嵌入预测架构
  3. Meta Reality Labs - WorldGen:文本到3D世界生成

🗂️ 项目结构

world-model-research/
├── ijepa/                    # Meta I-JEPA (图像世界模型)
├── vjepa/                    # Meta V-JEPA (视频世界模型)
├── cwm/                      # Meta Code World Model (代码世界模型)
├── spark/                    # World Labs Spark 渲染器
├── WorldGen/                 # WorldGen 3D场景生成
├── worldgen_paper.pdf        # Meta WorldGen 论文
├── world_model_research.md   # 详细调研报告
└── README.md                 # 本文件

🔬 主要项目介绍

1. Meta I-JEPA

目录: ijepa/
GitHub: https://github.com/facebookresearch/ijepa
描述: 基于图像的联合嵌入预测架构,通过自监督学习从图像中学习世界模型。

核心特点:

  • 非生成式方法,预测抽象表示而非像素
  • 更接近人类的学习方式
  • 高效的自监督学习

2. Meta V-JEPA

目录: vjepa/
GitHub: https://github.com/facebookresearch/jepa
描述: 基于视频的联合嵌入预测架构,从视频中学习视觉表示和物理规律。

核心特点:

  • 通过观察视频学习物理原理
  • 卓越的运动理解能力
  • 适用于机器人和AI规划

3. Meta Code World Model (CWM)

目录: cwm/
GitHub: https://github.com/facebookresearch/cwm
HuggingFace: https://huggingface.co/facebook/cwm
描述: 320亿参数的开源LLM,专门用于代码生成与世界模型研究。

核心特点:

  • 理解代码执行的世界模型
  • 35,000个Docker化仓库训练
  • 生成300万代码样本

4. World Labs Spark

目录: spark/
GitHub: https://github.com/sparkjsdev/spark
官网: https://sparkjs.dev/
描述: 基于THREE.js的高级3D高斯点云(Gaussian Splatting)渲染器。

核心特点:

  • 与THREE.js无缝集成
  • 支持98%+的WebGL2设备
  • 可将点云与网格对象融合
  • World Labs官方开源

5. WorldGen (开源实现)

目录: WorldGen/
GitHub: https://github.com/ZiYang-xie/WorldGen
描述: 从文本提示和图像快速生成3D场景的开源工具。

核心特点:

  • 秒级生成3D场景
  • 支持360°自由探索
  • 支持低显存模式(~10GB VRAM)
  • 输出高斯点云或网格格式

📄 研究资料

Meta WorldGen 论文

文件: worldgen_paper.pdf
标题: WorldGen: From Text to Traversable and Interactive 3D Worlds
发布日期: 2025年11月21日
作者: Meta Reality Labs 3D GenAI Team

论文介绍了Meta最新的端到端3D世界生成系统,包含三个主要阶段:

  1. 场景规划 (Scene Planning)
  2. 场景重建 (Scene Reconstruction)
  3. 场景分解 (Scene Decomposition)

详细调研报告

文件: world_model_research.md
包含完整的调研过程、技术细节和项目对比分析。

🚀 快速开始

I-JEPA

cd ijepa
# 查看 README 了解详细安装和使用说明

V-JEPA

cd vjepa
# 查看 README 了解详细安装和使用说明

Code World Model

cd cwm
# 查看 README 了解模型下载和使用说明

Spark 渲染器

cd spark
npm install
# 查看文档: https://sparkjs.dev/docs/overview/

WorldGen

cd WorldGen
conda create -n worldgen python=3.11
conda activate worldgen
pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu128
pip install .

🔗 相关链接

李飞飞 - World Labs

Yann LeCun - Meta AI

Meta Reality Labs

📊 项目对比

项目 机构 类型 输入 输出 开源状态
I-JEPA Meta AI 图像世界模型 图像 特征表示 ✅ 开源
V-JEPA Meta AI 视频世界模型 视频 特征表示 ✅ 开源
CWM Meta AI 代码世界模型 代码 代码+执行理解 ✅ 开源
Marble World Labs 3D世界生成 文本/图像/视频 3D世界 ❌ 闭源 (仅Spark开源)
Spark World Labs 渲染器 高斯点云 浏览器渲染 ✅ 开源
WorldGen (Meta) Meta Reality Labs 3D世界生成 文本 交互式3D世界 ❌ 研究阶段
WorldGen (开源) Ziyang Xie 3D场景生成 文本/图像 3D场景 ✅ 开源

🎯 应用场景

  1. 游戏开发: 快速生成游戏场景和环境
  2. 虚拟现实: 创建沉浸式VR/AR体验
  3. 机器人: 训练机器人理解物理世界
  4. 自动驾驶: 生成测试场景和边缘案例
  5. 影视特效: 辅助3D场景创作
  6. 建筑设计: 快速可视化设计概念

📝 许可证

各子项目遵循各自的开源许可证:

  • I-JEPA, V-JEPA, CWM: Meta 开源许可证
  • Spark: MIT License
  • WorldGen (开源): Apache-2.0 License

🤝 贡献

欢迎提交 Issue 和 Pull Request 来完善本调研项目!

📮 联系方式

如有问题或建议,请通过 GitHub Issues 联系。


最后更新: 2025年11月22日

About

世界模型(World Model)调研项目:收集李飞飞、LeCun和Meta的最新世界模型开源代码和研究资料

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published