Yin H, Chen Y, Deng C, Cheng L, Wang H, Tan C-H, Chen Q, Wang W, Li X. SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models. AAAI [Internet]. 2026Mar.14 [cited 2026Apr.23];40(40):34467-75. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/40745