CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Bojia Zi; Shihao Zhao; Xianbiao Qi; Jianan Wang; Yukai Shi; Qianyu Chen; Bin Liang; Rong Xiao; Kam-Fai Wong; Lei Zhang

doi:10.1609/aaai.v39i10.33203

Authors

Bojia Zi The Chinese University of Hong Kong
Shihao Zhao University of Hong Kong
Xianbiao Qi International Digital Economy Academy
Jianan Wang International Digital Economy Academy
Yukai Shi International Digital Economy Academy
Qianyu Chen The Chinese University of Hong Kong
Bin Liang The Chinese University of Hong Kong
Rong Xiao Intellifusion
Kam-Fai Wong The Chinese University of Hong Kong
Lei Zhang International Digital Economy Academy

DOI:

https://doi.org/10.1609/aaai.v39i10.33203

Abstract

Video inpainting is a crucial task with diverse applications, including fine-grained video editing, video recovery, and video dewatermarking. However, most existing video inpainting methods primarily focus on visual content completion while neglecting text information. There are only a limited number of text-guided video inpainting techniques, and these techniques struggle with maintaining visual quality and exhibit poor semantic representation capabilities. In this paper, we introduce CoCoCo, a text-guided video inpainting diffusion framework. To address the aforementioned challenges, we enhance both the training data and model structure. Specifically, we devise an instance-aware region selection strategy for masked area sampling and develop a novel motion block that incorporates efficient 3D full attention and textual cross attention. Additionally, our CoCoCo framework can be seamlessly integrated with various personalized text-to-image diffusion models through a delicate training-free transfer mechanism. Comprehensive experiments demonstrate that CoCoCo can create high-quality visual content with enhanced temporal consistency, improved text controllability, and better compatibility with personalized image models.

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Authors

DOI:

Abstract

Downloads

Published

How to Cite

Issue

Section

Information