{"train/loss": 0.6795, "train/grad_norm": 8.75236988067627, "train/learning_rate": 4.821741763807186e-07, "train/rewards/chosen": 0.003723819274455309, "train/rewards/rejected": -0.02431883104145527, "train/rewards/accuracies": 0.612500011920929, "train/rewards/margins": 0.02804265171289444, "train/logps/rejected": -389.50421142578125, "train/logps/chosen": -426.1629638671875, "train/logits/rejected": -3.2092175483703613, "train/logits/chosen": -3.2598507404327393, "train/epoch": 0.20920502092050208, "train/global_step": 100, "_timestamp": 1714147177.6973403, "_runtime": 141.99647116661072, "_step": 5, "eval/loss": 0.6759119629859924, "eval/runtime": 8.2733, "eval/samples_per_second": 241.742, "eval/steps_per_second": 3.868, "eval/rewards/chosen": 0.0017230990342795849, "eval/rewards/rejected": -0.03281649947166443, "eval/rewards/accuracies": 0.62890625, "eval/rewards/margins": 0.0345395989716053, "eval/logps/rejected": -407.8036804199219, "eval/logps/chosen": -423.0196533203125, "eval/logits/rejected": -3.2565112113952637, "eval/logits/chosen": -3.313567638397217}