(1)

Wang, D.; Xiong, D. Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding. AAAI 2021, 35, 2720-2728.