{"train/loss": 0.4341, "train/grad_norm": 5.8607497215271, "train/learning_rate": 1.0000000000000002e-06, "train/epoch": 1.0, "train/num_input_tokens_seen": 59375592, "train/global_step": 906, "_timestamp": 1736038350.6037376, "_runtime": 15556.392797708511, "_step": 906, "train_runtime": 15557.945, "train_samples_per_second": 0.233, "train_steps_per_second": 0.058, "total_flos": 6.684140179701105e+17, "train_loss": 0.4684678308715094, "_wandb": {"runtime": 15644}}