[1]

X.-Y. Zhang, H. Shi, C. Li, and P. Li, “Multi-Instance Multi-Label Action Recognition and Localization Based on Spatio-Temporal Pre-Trimming for Untrimmed Videos”, AAAI, vol. 34, no. 07, pp. 12886-12893, Apr. 2020.