Ilaslan MF, Köksal A, Lin KQ, Satar B, Shou MZ, Xu Q. VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting. AAAI [Internet]. 2025 Apr. 11 [cited 2026 Jul. 14];39(4):3886-94. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/32406