Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment
Lijie Liu^*, Tianxiang Ma^*, Bingchuan Li^{* †}, Zhuowei Chen^*, Jiawei Liu, Qian He, Xinglong Wu
^*Equal contribution,^†Project lead
Intelligent Creation Team, ByteDance

Overview

Phantom is a unified video generation framework for single and multi-subject references, built on existing text-to-video and image-to-video architectures. It achieves cross-modal alignment using text-image-video triplet data by redesigning the joint text-image injection model. Additionally, it emphasizes subject consistency in human generation while enhancing ID-preserving video generation.

Comparative Results 🆚

Identity Preserving Video Generation.
Single Reference Subject-to-Video Generation.
Multi-Reference Subject-to-Video Generation.

BibTeX

@article{liu2025phantom,
  title={Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment},
  author={Liu, Lijie and Ma, Tianxaing and Li, Bingchuan and Chen, Zhuowei and Liu, Jiawei and He, Qian and Wu, Xinglong},
  journal={arXiv preprint arXiv:2502.11079},
  year={2025}
}

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
assets		assets
.DS_Store		.DS_Store
README.md		README.md
login[1]		login[1]

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

Overview

Comparative Results 🆚

BibTeX

About

Uh oh!

Releases

Packages

Languages

39-Rep/Phantom

Folders and files

Latest commit

History

Repository files navigation

Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

Overview

Comparative Results 🆚

BibTeX

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages