(1)

Bian, Y.; Feng, J.; Shi, Y. DiffOP: Reinforcement Learning of Optimization-Based Control Policies via Implicit Policy Gradients. AAAI 2026, 40, 19737-19745.