[1]

W. Imrattanatrai, M. Asada, K. Hasegawa, Z.-Q. Cheng, K. Fukuda, and T. Mitamura, “A Video-grounded Dialogue Dataset and Metric for Event-driven Activities”, AAAI, vol. 39, no. 23, pp. 24203-24211, Apr. 2025.