Uncovering and Mitigating Transient Blindness in Multimodal Model Editing

XiaoQi Han; Ru Li; Ran Yi; Hongye Tan; Zhuomin Liang; Victor Gutierrez Basulto; Jeff Z. Pan

doi:10.1609/aaai.v40i37.40352

Authors

XiaoQi Han Shanxi University
Ru Li Shanxi University
Ran Yi Shanghai Jiao Tong University
Hongye Tan Shanxi University
Zhuomin Liang Shanxi University
Victor Gutierrez Basulto Cardiff University
Jeff Z. Pan University of Edinburgh, University of Edinburgh

DOI:

https://doi.org/10.1609/aaai.v40i37.40352

Abstract

Multimodal Model Editing (MMED) aims to correct erroneous knowledge in multimodal models. Existing evaluation methods, adapted from textual model editing, overstate success by relying on low-similarity or random inputs, obscure overfitting. We propose a comprehensive locality evaluation framework, covering three key dimensions: random-image locality, no-image locality, and consistent-image locality, operationalized through seven distinct data types, enabling a detailed and structured analysis of multimodal edits. We introduce De-VQA, a dynamic evaluation for visual question answering, uncovering a phenomenon we term transient blindness, overfitting to edit-similar text while ignoring visuals. Token analysis shows edits disproportionately affect textual tokens. We propose locality-aware adversarial losses to balance cross-modal representations. Empirical results demonstrate that our approach consistently outperforms existing baselines, reducing transient blindness and improving locality by 17% on average.

Uncovering and Mitigating Transient Blindness in Multimodal Model Editing

Authors

DOI:

Abstract

Downloads

Published

How to Cite

Issue

Section

Information