(1)

He, Z.; Qiao, P.; Li, R.; Dou, Y.; Tan, Y. Highly Parallelized Reinforcement Learning Training With Relaxed Assignment Dependencies. AAAI 2025, 39, 17159-17167.