Exploring Reasoning Reward Model for Agents

📰 ArXiv cs.AI

arXiv:2601.22154v2 Announce Type: replace Abstract: Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured

Published 29 Apr 2026

Read full paper → ← Back to Reads