Yang, S., Wang, Y., Ji, X., & Wu, X. (2024). Multi-Modal Prompting for Open-Vocabulary Video Visual Relationship Detection. Proceedings of the AAAI Conference on Artificial Intelligence, 38(7), 6513–6521. https://doi.org/10.1609/aaai.v38i7.28472