Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Jiaqi Tang; Jianmin Chen; Wei Wei; Xiaogang Xu; Runtao Liu; Xiangyu Wu; Qipeng Xie; Jiafei Wu; Lei Zhang; Qifeng Chen

doi:10.1609/aaai.v40i11.37902

Authors

Jiaqi Tang Hong Kong University of Science and Technology
Jianmin Chen Northwestern Polytechnical University
Wei Wei Northwestern Polytechnical University
Xiaogang Xu Chinese University of Hong Kong
Runtao Liu Hong Kong University of Science and Technology
Xiangyu Wu Nanjing University of Science and Technology
Qipeng Xie Hong Kong University of Science and Technology
Jiafei Wu University of Hong Kong
Lei Zhang Northwestern Polytechnical University
Qifeng Chen Hong Kong University of Science and Technology

DOI:

https://doi.org/10.1609/aaai.v40i11.37902

Abstract

Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-theart robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Authors

DOI:

Abstract

Downloads

Published

How to Cite

Issue

Section

Information