Kang, Y., Liu, T., Li, H., Hao, Y., & Ding, W. (2022). Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data. Proceedings of the AAAI Conference on Artificial Intelligence, 36(10), 10875–10883. https://doi.org/10.1609/aaai.v36i10.21334