[1]

Q. Dong, “Listen, Understand and Translate: Triple Supervision Decouples End-to-end Speech-to-text Translation”, AAAI, vol. 35, no. 14, pp. 12749-12759, May 2021.