Beyond Scalar Critics: A Distributional Perspective on Reinforcement Learning with Verifiable Rewards for LLMs

Jan 1, 2026·

Jinyi Liu

Jinyi Liu

,

Yiboyun Chen

,

Hongyao Tang

,

Yi Ma

,

Shuyue Hu

,

Yang Chen

,

Fei Ni

,

Qiaosheng Zhang

,

Lei Bai

,

Yan Zheng

,

Jianye Hao

· 0 min read

Type

Conference paper

Publication

SPOT@ICLR 2026

Last updated on Jan 1, 2026

LLM Post-Training (RL Tuning) RLVR Value Distribution Reasoning SPOT 2026

Jinyi Liu

Authors

Ph.D. Candidate Reinforcement Learning and LLM Systems

← AFE-Master: Enhancing LLM-Driven Autonomous Feature Engineering with Domain-Specific Language Parsing and Guided Local Search Jan 1, 2026

Hands-on LLM-based Agents: A Tutorial for General Audiences Nov 17, 2025 →