{"train/loss": 3.4153, "train/grad_norm": 0.0, "train/learning_rate": 0.0, "train/epoch": 0.09, "train/global_step": 20000, "_timestamp": 1712827654.7326186, "_runtime": 19211.883972644806, "_step": 1006, "train_runtime": 18957.1753, "train_samples_per_second": 2.11, "train_steps_per_second": 1.055, "total_flos": 1.0807103426248704e+16, "train_loss": 3.9423419631004335}