(1)

Kim, M.; Kim, C. W.; Ro, Y. M. Deep Visual Forced Alignment: Learning to Align Transcription With Talking Face Video. AAAI 2023, 37, 8273-8281.