{ "best_metric": null, "best_model_checkpoint": null, "epoch": 5.0, "eval_steps": 500, "global_step": 75, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.06666666666666667, "grad_norm": 1.0890171527862549, "learning_rate": 5e-05, "loss": 0.9504, "step": 1 }, { "epoch": 0.13333333333333333, "grad_norm": 1.0416314601898193, "learning_rate": 0.0001, "loss": 0.9342, "step": 2 }, { "epoch": 0.2, "grad_norm": 0.869629442691803, "learning_rate": 0.00015000000000000001, "loss": 0.881, "step": 3 }, { "epoch": 0.26666666666666666, "grad_norm": 0.5775812268257141, "learning_rate": 0.0002, "loss": 0.8136, "step": 4 }, { "epoch": 0.3333333333333333, "grad_norm": 0.4219946563243866, "learning_rate": 0.00019990212265199738, "loss": 0.8022, "step": 5 }, { "epoch": 0.4, "grad_norm": 0.36623886227607727, "learning_rate": 0.00019960868220749448, "loss": 0.7536, "step": 6 }, { "epoch": 0.4666666666666667, "grad_norm": 0.3498327434062958, "learning_rate": 0.00019912025308994148, "loss": 0.7613, "step": 7 }, { "epoch": 0.5333333333333333, "grad_norm": 0.3222409784793854, "learning_rate": 0.00019843779142227256, "loss": 0.7335, "step": 8 }, { "epoch": 0.6, "grad_norm": 0.30498430132865906, "learning_rate": 0.0001975626331552507, "loss": 0.7342, "step": 9 }, { "epoch": 0.6666666666666666, "grad_norm": 0.2843049168586731, "learning_rate": 0.00019649649145228102, "loss": 0.7494, "step": 10 }, { "epoch": 0.7333333333333333, "grad_norm": 0.28558269143104553, "learning_rate": 0.00019524145333581317, "loss": 0.7202, "step": 11 }, { "epoch": 0.8, "grad_norm": 0.2747940719127655, "learning_rate": 0.00019379997560189675, "loss": 0.6978, "step": 12 }, { "epoch": 0.8666666666666667, "grad_norm": 0.280610054731369, "learning_rate": 0.00019217488001088784, "loss": 0.712, "step": 13 }, { "epoch": 0.9333333333333333, "grad_norm": 0.26551946997642517, "learning_rate": 0.0001903693477637204, "loss": 0.6815, "step": 14 }, { "epoch": 1.0, "grad_norm": 0.26354852318763733, "learning_rate": 0.0001883869132745561, "loss": 0.6705, "step": 15 }, { "epoch": 1.0666666666666667, "grad_norm": 0.2972894608974457, "learning_rate": 0.00018623145725200278, "loss": 0.6399, "step": 16 }, { "epoch": 1.1333333333333333, "grad_norm": 0.2863878905773163, "learning_rate": 0.00018390719910244487, "loss": 0.6012, "step": 17 }, { "epoch": 1.2, "grad_norm": 0.26009681820869446, "learning_rate": 0.00018141868867035745, "loss": 0.5994, "step": 18 }, { "epoch": 1.2666666666666666, "grad_norm": 0.2787269651889801, "learning_rate": 0.00017877079733177184, "loss": 0.5932, "step": 19 }, { "epoch": 1.3333333333333333, "grad_norm": 0.2598305642604828, "learning_rate": 0.0001759687084583285, "loss": 0.574, "step": 20 }, { "epoch": 1.4, "grad_norm": 0.27728283405303955, "learning_rate": 0.00017301790727058345, "loss": 0.5735, "step": 21 }, { "epoch": 1.4666666666666668, "grad_norm": 0.2823718786239624, "learning_rate": 0.00016992417010043142, "loss": 0.5756, "step": 22 }, { "epoch": 1.5333333333333332, "grad_norm": 0.25957608222961426, "learning_rate": 0.0001666935530836651, "loss": 0.5275, "step": 23 }, { "epoch": 1.6, "grad_norm": 0.24662478268146515, "learning_rate": 0.0001633323803048047, "loss": 0.5476, "step": 24 }, { "epoch": 1.6666666666666665, "grad_norm": 0.23672237992286682, "learning_rate": 0.00015984723141740576, "loss": 0.514, "step": 25 }, { "epoch": 1.7333333333333334, "grad_norm": 0.23386318981647491, "learning_rate": 0.0001562449287640781, "loss": 0.5029, "step": 26 }, { "epoch": 1.8, "grad_norm": 0.2601586878299713, "learning_rate": 0.00015253252402142988, "loss": 0.5334, "step": 27 }, { "epoch": 1.8666666666666667, "grad_norm": 0.25172144174575806, "learning_rate": 0.00014871728439607966, "loss": 0.5153, "step": 28 }, { "epoch": 1.9333333333333333, "grad_norm": 0.24073539674282074, "learning_rate": 0.00014480667839875786, "loss": 0.5375, "step": 29 }, { "epoch": 2.0, "grad_norm": 0.24093535542488098, "learning_rate": 0.0001408083612243465, "loss": 0.5012, "step": 30 }, { "epoch": 2.066666666666667, "grad_norm": 0.2312004268169403, "learning_rate": 0.00013673015976647568, "loss": 0.4631, "step": 31 }, { "epoch": 2.1333333333333333, "grad_norm": 0.2351023256778717, "learning_rate": 0.00013258005729601177, "loss": 0.4647, "step": 32 }, { "epoch": 2.2, "grad_norm": 0.22365152835845947, "learning_rate": 0.0001283661778334297, "loss": 0.4219, "step": 33 }, { "epoch": 2.2666666666666666, "grad_norm": 0.2297082245349884, "learning_rate": 0.00012409677024566144, "loss": 0.4349, "step": 34 }, { "epoch": 2.3333333333333335, "grad_norm": 0.23444686830043793, "learning_rate": 0.00011978019209855174, "loss": 0.4285, "step": 35 }, { "epoch": 2.4, "grad_norm": 0.25463634729385376, "learning_rate": 0.00011542489329653024, "loss": 0.427, "step": 36 }, { "epoch": 2.466666666666667, "grad_norm": 0.2404577136039734, "learning_rate": 0.000111039399541527, "loss": 0.4204, "step": 37 }, { "epoch": 2.533333333333333, "grad_norm": 0.27046656608581543, "learning_rate": 0.00010663229564351041, "loss": 0.4349, "step": 38 }, { "epoch": 2.6, "grad_norm": 0.2494724541902542, "learning_rate": 0.00010221220871531869, "loss": 0.4269, "step": 39 }, { "epoch": 2.6666666666666665, "grad_norm": 0.25197190046310425, "learning_rate": 9.778779128468132e-05, "loss": 0.4022, "step": 40 }, { "epoch": 2.7333333333333334, "grad_norm": 0.2529221177101135, "learning_rate": 9.336770435648964e-05, "loss": 0.4256, "step": 41 }, { "epoch": 2.8, "grad_norm": 0.26619741320610046, "learning_rate": 8.896060045847304e-05, "loss": 0.4239, "step": 42 }, { "epoch": 2.8666666666666667, "grad_norm": 0.2642028033733368, "learning_rate": 8.457510670346976e-05, "loss": 0.414, "step": 43 }, { "epoch": 2.9333333333333336, "grad_norm": 0.2735430598258972, "learning_rate": 8.021980790144827e-05, "loss": 0.3948, "step": 44 }, { "epoch": 3.0, "grad_norm": 0.26235178112983704, "learning_rate": 7.590322975433857e-05, "loss": 0.4013, "step": 45 }, { "epoch": 3.066666666666667, "grad_norm": 0.2630228102207184, "learning_rate": 7.163382216657034e-05, "loss": 0.3624, "step": 46 }, { "epoch": 3.1333333333333333, "grad_norm": 0.2455410361289978, "learning_rate": 6.741994270398826e-05, "loss": 0.3559, "step": 47 }, { "epoch": 3.2, "grad_norm": 0.25239506363868713, "learning_rate": 6.326984023352435e-05, "loss": 0.3297, "step": 48 }, { "epoch": 3.2666666666666666, "grad_norm": 0.26092275977134705, "learning_rate": 5.91916387756535e-05, "loss": 0.3519, "step": 49 }, { "epoch": 3.3333333333333335, "grad_norm": 0.2558125853538513, "learning_rate": 5.5193321601242156e-05, "loss": 0.3467, "step": 50 }, { "epoch": 3.4, "grad_norm": 0.2603452503681183, "learning_rate": 5.1282715603920374e-05, "loss": 0.3606, "step": 51 }, { "epoch": 3.466666666666667, "grad_norm": 0.2685030996799469, "learning_rate": 4.746747597857014e-05, "loss": 0.3385, "step": 52 }, { "epoch": 3.533333333333333, "grad_norm": 0.2547042965888977, "learning_rate": 4.375507123592194e-05, "loss": 0.3502, "step": 53 }, { "epoch": 3.6, "grad_norm": 0.25863558053970337, "learning_rate": 4.015276858259427e-05, "loss": 0.3353, "step": 54 }, { "epoch": 3.6666666666666665, "grad_norm": 0.25985899567604065, "learning_rate": 3.6667619695195285e-05, "loss": 0.3314, "step": 55 }, { "epoch": 3.7333333333333334, "grad_norm": 0.2722785174846649, "learning_rate": 3.330644691633492e-05, "loss": 0.3224, "step": 56 }, { "epoch": 3.8, "grad_norm": 0.2661519944667816, "learning_rate": 3.0075829899568597e-05, "loss": 0.3487, "step": 57 }, { "epoch": 3.8666666666666667, "grad_norm": 0.2682656943798065, "learning_rate": 2.6982092729416587e-05, "loss": 0.3412, "step": 58 }, { "epoch": 3.9333333333333336, "grad_norm": 0.2595905363559723, "learning_rate": 2.403129154167153e-05, "loss": 0.3242, "step": 59 }, { "epoch": 4.0, "grad_norm": 0.2578358054161072, "learning_rate": 2.1229202668228197e-05, "loss": 0.306, "step": 60 }, { "epoch": 4.066666666666666, "grad_norm": 0.2525722086429596, "learning_rate": 1.858131132964259e-05, "loss": 0.3234, "step": 61 }, { "epoch": 4.133333333333334, "grad_norm": 0.2557724118232727, "learning_rate": 1.609280089755515e-05, "loss": 0.2945, "step": 62 }, { "epoch": 4.2, "grad_norm": 0.2506673038005829, "learning_rate": 1.3768542747997215e-05, "loss": 0.3157, "step": 63 }, { "epoch": 4.266666666666667, "grad_norm": 0.25794729590415955, "learning_rate": 1.161308672544389e-05, "loss": 0.3085, "step": 64 }, { "epoch": 4.333333333333333, "grad_norm": 0.2558946907520294, "learning_rate": 9.630652236279625e-06, "loss": 0.3096, "step": 65 }, { "epoch": 4.4, "grad_norm": 0.25984814763069153, "learning_rate": 7.825119989112173e-06, "loss": 0.311, "step": 66 }, { "epoch": 4.466666666666667, "grad_norm": 0.24387367069721222, "learning_rate": 6.200024398103255e-06, "loss": 0.3083, "step": 67 }, { "epoch": 4.533333333333333, "grad_norm": 0.24648573994636536, "learning_rate": 4.758546664186869e-06, "loss": 0.2929, "step": 68 }, { "epoch": 4.6, "grad_norm": 0.24927794933319092, "learning_rate": 3.5035085477190143e-06, "loss": 0.312, "step": 69 }, { "epoch": 4.666666666666667, "grad_norm": 0.25699713826179504, "learning_rate": 2.4373668447493224e-06, "loss": 0.3157, "step": 70 }, { "epoch": 4.733333333333333, "grad_norm": 0.25668400526046753, "learning_rate": 1.562208577727442e-06, "loss": 0.297, "step": 71 }, { "epoch": 4.8, "grad_norm": 0.25037774443626404, "learning_rate": 8.797469100585431e-07, "loss": 0.2887, "step": 72 }, { "epoch": 4.866666666666667, "grad_norm": 0.24792499840259552, "learning_rate": 3.913177925055189e-07, "loss": 0.3156, "step": 73 }, { "epoch": 4.933333333333334, "grad_norm": 0.2463802695274353, "learning_rate": 9.78773480026396e-08, "loss": 0.2867, "step": 74 }, { "epoch": 5.0, "grad_norm": 0.24436143040657043, "learning_rate": 0.0, "loss": 0.293, "step": 75 } ], "logging_steps": 1, "max_steps": 75, "num_input_tokens_seen": 0, "num_train_epochs": 5, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.1357004270610022e+17, "train_batch_size": 1, "trial_name": null, "trial_params": null }