[1]

P. Sarkar and A. Etemad, “Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Synchronicity”, AAAI, vol. 37, no. 8, pp. 9723-9732, Jun. 2023.