Liang Y, Jiao J, Feng X, Liu X, Liu K, Wang Y, et al. IPFormer: Instance Prompt-guided Transformer for Multi-modal Multi-shot Video Understanding. AAAI [Internet]. 2026 Mar. 14 [cited 2026 May 14];40(9):6907-15. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/37624