{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.6666666666666666, "eval_steps": 10, "global_step": 40, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.016666666666666666, "grad_norm": 0.0, "learning_rate": 0, "loss": 0.6115, "step": 1 }, { "epoch": 0.03333333333333333, "grad_norm": 0.0, "learning_rate": 0, "loss": 0.3864, "step": 2 }, { "epoch": 0.05, "grad_norm": 0.0, "learning_rate": 0, "loss": 0.6927, "step": 3 }, { "epoch": 0.06666666666666667, "grad_norm": 19.340276501798407, "learning_rate": 0.0, "loss": 0.2759, "step": 4 }, { "epoch": 0.08333333333333333, "grad_norm": 23.635250390786137, "learning_rate": 4.30676558073393e-07, "loss": 0.5341, "step": 5 }, { "epoch": 0.1, "grad_norm": 18.32023170957666, "learning_rate": 6.826061944859853e-07, "loss": 0.3237, "step": 6 }, { "epoch": 0.11666666666666667, "grad_norm": 22.992808668979116, "learning_rate": 8.61353116146786e-07, "loss": 0.5046, "step": 7 }, { "epoch": 0.13333333333333333, "grad_norm": 22.992808668979116, "learning_rate": 8.61353116146786e-07, "loss": 0.6481, "step": 8 }, { "epoch": 0.15, "grad_norm": 78.06457663370756, "learning_rate": 1e-06, "loss": 0.8268, "step": 9 }, { "epoch": 0.16666666666666666, "grad_norm": 21.040225059552967, "learning_rate": 1e-06, "loss": 0.6063, "step": 10 }, { "epoch": 0.16666666666666666, "eval_loss": 0.4745715260505676, "eval_runtime": 82.5774, "eval_samples_per_second": 0.363, "eval_steps_per_second": 0.182, "step": 10 }, { "epoch": 0.18333333333333332, "grad_norm": 18.275514090804755, "learning_rate": 1e-06, "loss": 0.362, "step": 11 }, { "epoch": 0.2, "grad_norm": 21.939783395899433, "learning_rate": 1e-06, "loss": 0.7011, "step": 12 }, { "epoch": 0.21666666666666667, "grad_norm": 13.538998823241776, "learning_rate": 1e-06, "loss": 0.3093, "step": 13 }, { "epoch": 0.23333333333333334, "grad_norm": 15.066863508260852, "learning_rate": 1e-06, "loss": 0.3859, "step": 14 }, { "epoch": 0.25, "grad_norm": 17.511916980391526, "learning_rate": 1e-06, "loss": 0.2982, "step": 15 }, { "epoch": 0.26666666666666666, "grad_norm": 24.51472248776934, "learning_rate": 1e-06, "loss": 0.4318, "step": 16 }, { "epoch": 0.2833333333333333, "grad_norm": 17.70508835924277, "learning_rate": 1e-06, "loss": 0.2826, "step": 17 }, { "epoch": 0.3, "grad_norm": 24.09449475989017, "learning_rate": 1e-06, "loss": 0.9326, "step": 18 }, { "epoch": 0.31666666666666665, "grad_norm": 16.93121063464416, "learning_rate": 1e-06, "loss": 0.7623, "step": 19 }, { "epoch": 0.3333333333333333, "grad_norm": 16.47139132489221, "learning_rate": 1e-06, "loss": 0.4869, "step": 20 }, { "epoch": 0.3333333333333333, "eval_loss": 0.39905643463134766, "eval_runtime": 86.161, "eval_samples_per_second": 0.348, "eval_steps_per_second": 0.174, "step": 20 }, { "epoch": 0.35, "grad_norm": 13.353254948686084, "learning_rate": 1e-06, "loss": 0.3214, "step": 21 }, { "epoch": 0.36666666666666664, "grad_norm": 15.60815644877678, "learning_rate": 1e-06, "loss": 0.3531, "step": 22 }, { "epoch": 0.38333333333333336, "grad_norm": 10.67603065821911, "learning_rate": 1e-06, "loss": 0.2338, "step": 23 }, { "epoch": 0.4, "grad_norm": 14.185334834442026, "learning_rate": 1e-06, "loss": 0.2733, "step": 24 }, { "epoch": 0.4166666666666667, "grad_norm": 41.2581742019271, "learning_rate": 1e-06, "loss": 0.2923, "step": 25 }, { "epoch": 0.43333333333333335, "grad_norm": 31.043373528646374, "learning_rate": 1e-06, "loss": 0.5414, "step": 26 }, { "epoch": 0.45, "grad_norm": 23.723534545016552, "learning_rate": 1e-06, "loss": 0.5977, "step": 27 }, { "epoch": 0.4666666666666667, "grad_norm": 10.5258615897717, "learning_rate": 1e-06, "loss": 0.2245, "step": 28 }, { "epoch": 0.48333333333333334, "grad_norm": 14.978248083451351, "learning_rate": 1e-06, "loss": 0.2496, "step": 29 }, { "epoch": 0.5, "grad_norm": 13.904234733715963, "learning_rate": 1e-06, "loss": 0.2581, "step": 30 }, { "epoch": 0.5, "eval_loss": 0.36848002672195435, "eval_runtime": 83.1811, "eval_samples_per_second": 0.361, "eval_steps_per_second": 0.18, "step": 30 }, { "epoch": 0.5166666666666667, "grad_norm": 7.805045027080617, "learning_rate": 1e-06, "loss": 0.1419, "step": 31 }, { "epoch": 0.5333333333333333, "grad_norm": 16.171216396613268, "learning_rate": 1e-06, "loss": 0.3105, "step": 32 }, { "epoch": 0.55, "grad_norm": 19.385896633409814, "learning_rate": 1e-06, "loss": 0.4161, "step": 33 }, { "epoch": 0.5666666666666667, "grad_norm": 16.85224250337557, "learning_rate": 1e-06, "loss": 0.3111, "step": 34 }, { "epoch": 0.5833333333333334, "grad_norm": 20.96740518228531, "learning_rate": 1e-06, "loss": 0.5486, "step": 35 }, { "epoch": 0.6, "grad_norm": 8.543503676953911, "learning_rate": 1e-06, "loss": 0.1977, "step": 36 }, { "epoch": 0.6166666666666667, "grad_norm": 12.313382964255357, "learning_rate": 1e-06, "loss": 0.3224, "step": 37 }, { "epoch": 0.6333333333333333, "grad_norm": 18.142221411776074, "learning_rate": 1e-06, "loss": 0.3998, "step": 38 }, { "epoch": 0.65, "grad_norm": 16.746965275752668, "learning_rate": 1e-06, "loss": 0.5016, "step": 39 }, { "epoch": 0.6666666666666666, "grad_norm": 13.820322988796189, "learning_rate": 1e-06, "loss": 0.321, "step": 40 }, { "epoch": 0.6666666666666666, "eval_loss": 0.36720359325408936, "eval_runtime": 83.5123, "eval_samples_per_second": 0.359, "eval_steps_per_second": 0.18, "step": 40 } ], "logging_steps": 1.0, "max_steps": 500, "num_input_tokens_seen": 0, "num_train_epochs": 9, "save_steps": 10, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 353980428288.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }