
IA
NVIDIA abre su receta de RL para agentes con NeMo Gym y GRPO
Guía técnica para decidir entre prompting, SFT, RLHF y RLVR con verificadores. Nemotron 3 Super se entrenó con 21 verificadores NeMo Gym, 37 datasets y 1,2 millones de rollouts.
NVIDIA Developer