{"train/loss": 0.6494, "train/grad_norm": 10.980072975158691, "train/learning_rate": 1.8323929841460178e-07, "train/rewards/chosen": -0.1245601624250412, "train/rewards/rejected": -0.2303762584924698, "train/rewards/accuracies": 0.625, "train/rewards/margins": 0.10581608861684799, "train/logps/rejected": -436.2774658203125, "train/logps/chosen": -443.0799865722656, "train/logits/rejected": -3.1383109092712402, "train/logits/chosen": -3.2006824016571045, "train/epoch": 0.6276150627615062, "train/global_step": 300, "_timestamp": 1714147511.1377053, "_runtime": 475.4368362426758, "_step": 15, "eval/loss": 0.6438009142875671, "eval/runtime": 8.3559, "eval/samples_per_second": 239.351, "eval/steps_per_second": 3.83, "eval/rewards/chosen": -0.10771973431110382, "eval/rewards/rejected": -0.24101632833480835, "eval/rewards/accuracies": 0.62109375, "eval/rewards/margins": 0.13329659402370453, "eval/logps/rejected": -428.6236572265625, "eval/logps/chosen": -433.9639892578125, "eval/logits/rejected": -3.2049574851989746, "eval/logits/chosen": -3.2553329467773438}