[1]

S. Yang, Y. Wang, X. Ji, and X. Wu, “Multi-Modal Prompting for Open-Vocabulary Video Visual Relationship Detection”, AAAI, vol. 38, no. 7, pp. 6513–6521, Mar. 2024.