(1)

Hadar, G.; Agostinelli, F.; Shperberg, S. S. Beyond Single-Step Updates: Reinforcement Learning of Heuristics With Limited-Horizon Search. AAAI 2026, 40, 36955-36963.