{"train/loss": 0.352, "train/grad_norm": 4.334183216094971, "train/learning_rate": 0.00013636363636363637, "train/epoch": 6.363636363636363, "train/global_step": 70, "_timestamp": 1717449172.5455184, "_runtime": 11883.506448507309, "_step": 34, "train_runtime": 4190.3533, "train_samples_per_second": 0.196, "train_steps_per_second": 0.053, "total_flos": 4.4695391805696e+16, "train_loss": 0.8953418861735951}