{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.005480803485791017,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.480803485791017e-05,
      "grad_norm": 0.061784010380506516,
      "learning_rate": 1e-05,
      "loss": 10.3748,
      "step": 1
    },
    {
      "epoch": 5.480803485791017e-05,
      "eval_loss": 10.376652717590332,
      "eval_runtime": 100.7148,
      "eval_samples_per_second": 152.559,
      "eval_steps_per_second": 19.074,
      "step": 1
    },
    {
      "epoch": 0.00010961606971582034,
      "grad_norm": 0.05725020542740822,
      "learning_rate": 2e-05,
      "loss": 10.3805,
      "step": 2
    },
    {
      "epoch": 0.00016442410457373052,
      "grad_norm": 0.057967763394117355,
      "learning_rate": 3e-05,
      "loss": 10.3761,
      "step": 3
    },
    {
      "epoch": 0.0002192321394316407,
      "grad_norm": 0.06349367648363113,
      "learning_rate": 4e-05,
      "loss": 10.3789,
      "step": 4
    },
    {
      "epoch": 0.00027404017428955086,
      "grad_norm": 0.058267977088689804,
      "learning_rate": 5e-05,
      "loss": 10.3752,
      "step": 5
    },
    {
      "epoch": 0.00032884820914746103,
      "grad_norm": 0.06613155454397202,
      "learning_rate": 6e-05,
      "loss": 10.3731,
      "step": 6
    },
    {
      "epoch": 0.0003836562440053712,
      "grad_norm": 0.06974951922893524,
      "learning_rate": 7e-05,
      "loss": 10.3781,
      "step": 7
    },
    {
      "epoch": 0.0004384642788632814,
      "grad_norm": 0.0650707483291626,
      "learning_rate": 8e-05,
      "loss": 10.3786,
      "step": 8
    },
    {
      "epoch": 0.0004932723137211915,
      "grad_norm": 0.06977080553770065,
      "learning_rate": 9e-05,
      "loss": 10.3742,
      "step": 9
    },
    {
      "epoch": 0.0004932723137211915,
      "eval_loss": 10.375965118408203,
      "eval_runtime": 101.5696,
      "eval_samples_per_second": 151.276,
      "eval_steps_per_second": 18.913,
      "step": 9
    },
    {
      "epoch": 0.0005480803485791017,
      "grad_norm": 0.0673091858625412,
      "learning_rate": 0.0001,
      "loss": 10.3724,
      "step": 10
    },
    {
      "epoch": 0.0006028883834370118,
      "grad_norm": 0.06766605377197266,
      "learning_rate": 9.99695413509548e-05,
      "loss": 10.376,
      "step": 11
    },
    {
      "epoch": 0.0006576964182949221,
      "grad_norm": 0.0578431636095047,
      "learning_rate": 9.987820251299122e-05,
      "loss": 10.3705,
      "step": 12
    },
    {
      "epoch": 0.0007125044531528322,
      "grad_norm": 0.05954471230506897,
      "learning_rate": 9.972609476841367e-05,
      "loss": 10.3771,
      "step": 13
    },
    {
      "epoch": 0.0007673124880107424,
      "grad_norm": 0.07557284086942673,
      "learning_rate": 9.951340343707852e-05,
      "loss": 10.3744,
      "step": 14
    },
    {
      "epoch": 0.0008221205228686525,
      "grad_norm": 0.06345292925834656,
      "learning_rate": 9.924038765061042e-05,
      "loss": 10.3715,
      "step": 15
    },
    {
      "epoch": 0.0008769285577265628,
      "grad_norm": 0.05373351275920868,
      "learning_rate": 9.890738003669029e-05,
      "loss": 10.3774,
      "step": 16
    },
    {
      "epoch": 0.0009317365925844729,
      "grad_norm": 0.07527369260787964,
      "learning_rate": 9.851478631379982e-05,
      "loss": 10.3742,
      "step": 17
    },
    {
      "epoch": 0.000986544627442383,
      "grad_norm": 0.06215042993426323,
      "learning_rate": 9.806308479691595e-05,
      "loss": 10.3797,
      "step": 18
    },
    {
      "epoch": 0.000986544627442383,
      "eval_loss": 10.374200820922852,
      "eval_runtime": 101.4189,
      "eval_samples_per_second": 151.5,
      "eval_steps_per_second": 18.941,
      "step": 18
    },
    {
      "epoch": 0.0010413526623002933,
      "grad_norm": 0.06965495645999908,
      "learning_rate": 9.755282581475769e-05,
      "loss": 10.3734,
      "step": 19
    },
    {
      "epoch": 0.0010961606971582034,
      "grad_norm": 0.06258171051740646,
      "learning_rate": 9.698463103929542e-05,
      "loss": 10.372,
      "step": 20
    },
    {
      "epoch": 0.0011509687320161136,
      "grad_norm": 0.0752887949347496,
      "learning_rate": 9.635919272833938e-05,
      "loss": 10.3631,
      "step": 21
    },
    {
      "epoch": 0.0012057767668740237,
      "grad_norm": 0.07937689870595932,
      "learning_rate": 9.567727288213005e-05,
      "loss": 10.367,
      "step": 22
    },
    {
      "epoch": 0.0012605848017319338,
      "grad_norm": 0.07151501625776291,
      "learning_rate": 9.493970231495835e-05,
      "loss": 10.3773,
      "step": 23
    },
    {
      "epoch": 0.0013153928365898441,
      "grad_norm": 0.07854318618774414,
      "learning_rate": 9.414737964294636e-05,
      "loss": 10.3771,
      "step": 24
    },
    {
      "epoch": 0.0013702008714477543,
      "grad_norm": 0.0650750994682312,
      "learning_rate": 9.330127018922194e-05,
      "loss": 10.3727,
      "step": 25
    },
    {
      "epoch": 0.0014250089063056644,
      "grad_norm": 0.0844450443983078,
      "learning_rate": 9.24024048078213e-05,
      "loss": 10.3697,
      "step": 26
    },
    {
      "epoch": 0.0014798169411635745,
      "grad_norm": 0.06844449043273926,
      "learning_rate": 9.145187862775209e-05,
      "loss": 10.3758,
      "step": 27
    },
    {
      "epoch": 0.0014798169411635745,
      "eval_loss": 10.372300148010254,
      "eval_runtime": 100.7751,
      "eval_samples_per_second": 152.468,
      "eval_steps_per_second": 19.062,
      "step": 27
    },
    {
      "epoch": 0.0015346249760214848,
      "grad_norm": 0.06892344355583191,
      "learning_rate": 9.045084971874738e-05,
      "loss": 10.3706,
      "step": 28
    },
    {
      "epoch": 0.001589433010879395,
      "grad_norm": 0.06812141835689545,
      "learning_rate": 8.940053768033609e-05,
      "loss": 10.3737,
      "step": 29
    },
    {
      "epoch": 0.001644241045737305,
      "grad_norm": 0.06764788925647736,
      "learning_rate": 8.83022221559489e-05,
      "loss": 10.375,
      "step": 30
    },
    {
      "epoch": 0.0016990490805952152,
      "grad_norm": 0.06719063967466354,
      "learning_rate": 8.715724127386972e-05,
      "loss": 10.3713,
      "step": 31
    },
    {
      "epoch": 0.0017538571154531255,
      "grad_norm": 0.07651843130588531,
      "learning_rate": 8.596699001693255e-05,
      "loss": 10.3728,
      "step": 32
    },
    {
      "epoch": 0.0018086651503110356,
      "grad_norm": 0.08018742501735687,
      "learning_rate": 8.473291852294987e-05,
      "loss": 10.3705,
      "step": 33
    },
    {
      "epoch": 0.0018634731851689458,
      "grad_norm": 0.0786329135298729,
      "learning_rate": 8.345653031794292e-05,
      "loss": 10.3688,
      "step": 34
    },
    {
      "epoch": 0.0019182812200268559,
      "grad_norm": 0.09010624885559082,
      "learning_rate": 8.213938048432697e-05,
      "loss": 10.3747,
      "step": 35
    },
    {
      "epoch": 0.001973089254884766,
      "grad_norm": 0.06661444157361984,
      "learning_rate": 8.07830737662829e-05,
      "loss": 10.3735,
      "step": 36
    },
    {
      "epoch": 0.001973089254884766,
      "eval_loss": 10.370332717895508,
      "eval_runtime": 101.4025,
      "eval_samples_per_second": 151.525,
      "eval_steps_per_second": 18.944,
      "step": 36
    },
    {
      "epoch": 0.0020278972897426763,
      "grad_norm": 0.07911205291748047,
      "learning_rate": 7.938926261462366e-05,
      "loss": 10.3656,
      "step": 37
    },
    {
      "epoch": 0.0020827053246005867,
      "grad_norm": 0.06963108479976654,
      "learning_rate": 7.795964517353735e-05,
      "loss": 10.3699,
      "step": 38
    },
    {
      "epoch": 0.0021375133594584966,
      "grad_norm": 0.08249393850564957,
      "learning_rate": 7.649596321166024e-05,
      "loss": 10.3696,
      "step": 39
    },
    {
      "epoch": 0.002192321394316407,
      "grad_norm": 0.08364926278591156,
      "learning_rate": 7.500000000000001e-05,
      "loss": 10.3677,
      "step": 40
    },
    {
      "epoch": 0.002247129429174317,
      "grad_norm": 0.07930019497871399,
      "learning_rate": 7.347357813929454e-05,
      "loss": 10.3707,
      "step": 41
    },
    {
      "epoch": 0.002301937464032227,
      "grad_norm": 0.09377172589302063,
      "learning_rate": 7.191855733945387e-05,
      "loss": 10.3748,
      "step": 42
    },
    {
      "epoch": 0.0023567454988901375,
      "grad_norm": 0.09124314039945602,
      "learning_rate": 7.033683215379002e-05,
      "loss": 10.3727,
      "step": 43
    },
    {
      "epoch": 0.0024115535337480474,
      "grad_norm": 0.07826538383960724,
      "learning_rate": 6.873032967079561e-05,
      "loss": 10.3748,
      "step": 44
    },
    {
      "epoch": 0.0024663615686059577,
      "grad_norm": 0.07286319881677628,
      "learning_rate": 6.710100716628344e-05,
      "loss": 10.368,
      "step": 45
    },
    {
      "epoch": 0.0024663615686059577,
      "eval_loss": 10.368350982666016,
      "eval_runtime": 101.4175,
      "eval_samples_per_second": 151.503,
      "eval_steps_per_second": 18.942,
      "step": 45
    },
    {
      "epoch": 0.0025211696034638676,
      "grad_norm": 0.09052342921495438,
      "learning_rate": 6.545084971874738e-05,
      "loss": 10.3719,
      "step": 46
    },
    {
      "epoch": 0.002575977638321778,
      "grad_norm": 0.09089969843626022,
      "learning_rate": 6.378186779084995e-05,
      "loss": 10.3678,
      "step": 47
    },
    {
      "epoch": 0.0026307856731796883,
      "grad_norm": 0.09788080304861069,
      "learning_rate": 6.209609477998338e-05,
      "loss": 10.3653,
      "step": 48
    },
    {
      "epoch": 0.002685593708037598,
      "grad_norm": 0.08559878915548325,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 10.3677,
      "step": 49
    },
    {
      "epoch": 0.0027404017428955085,
      "grad_norm": 0.08714085817337036,
      "learning_rate": 5.868240888334653e-05,
      "loss": 10.3702,
      "step": 50
    },
    {
      "epoch": 0.002795209777753419,
      "grad_norm": 0.09041044861078262,
      "learning_rate": 5.695865504800327e-05,
      "loss": 10.3659,
      "step": 51
    },
    {
      "epoch": 0.0028500178126113287,
      "grad_norm": 0.0961330458521843,
      "learning_rate": 5.522642316338268e-05,
      "loss": 10.3682,
      "step": 52
    },
    {
      "epoch": 0.002904825847469239,
      "grad_norm": 0.0937422588467598,
      "learning_rate": 5.348782368720626e-05,
      "loss": 10.3698,
      "step": 53
    },
    {
      "epoch": 0.002959633882327149,
      "grad_norm": 0.09070568531751633,
      "learning_rate": 5.174497483512506e-05,
      "loss": 10.3693,
      "step": 54
    },
    {
      "epoch": 0.002959633882327149,
      "eval_loss": 10.366498947143555,
      "eval_runtime": 100.7539,
      "eval_samples_per_second": 152.5,
      "eval_steps_per_second": 19.066,
      "step": 54
    },
    {
      "epoch": 0.0030144419171850593,
      "grad_norm": 0.10099801421165466,
      "learning_rate": 5e-05,
      "loss": 10.3646,
      "step": 55
    },
    {
      "epoch": 0.0030692499520429697,
      "grad_norm": 0.09516052156686783,
      "learning_rate": 4.825502516487497e-05,
      "loss": 10.3655,
      "step": 56
    },
    {
      "epoch": 0.0031240579869008796,
      "grad_norm": 0.0942876935005188,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 10.3654,
      "step": 57
    },
    {
      "epoch": 0.00317886602175879,
      "grad_norm": 0.11666806787252426,
      "learning_rate": 4.477357683661734e-05,
      "loss": 10.3599,
      "step": 58
    },
    {
      "epoch": 0.0032336740566167,
      "grad_norm": 0.0946066752076149,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 10.3688,
      "step": 59
    },
    {
      "epoch": 0.00328848209147461,
      "grad_norm": 0.10144312679767609,
      "learning_rate": 4.131759111665349e-05,
      "loss": 10.3644,
      "step": 60
    },
    {
      "epoch": 0.0033432901263325205,
      "grad_norm": 0.09514976292848587,
      "learning_rate": 3.960441545911204e-05,
      "loss": 10.3699,
      "step": 61
    },
    {
      "epoch": 0.0033980981611904304,
      "grad_norm": 0.1061849445104599,
      "learning_rate": 3.790390522001662e-05,
      "loss": 10.3641,
      "step": 62
    },
    {
      "epoch": 0.0034529061960483407,
      "grad_norm": 0.11975758522748947,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 10.3665,
      "step": 63
    },
    {
      "epoch": 0.0034529061960483407,
      "eval_loss": 10.36491584777832,
      "eval_runtime": 101.6538,
      "eval_samples_per_second": 151.15,
      "eval_steps_per_second": 18.897,
      "step": 63
    },
    {
      "epoch": 0.003507714230906251,
      "grad_norm": 0.10650988668203354,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 10.3669,
      "step": 64
    },
    {
      "epoch": 0.003562522265764161,
      "grad_norm": 0.1026727482676506,
      "learning_rate": 3.289899283371657e-05,
      "loss": 10.3617,
      "step": 65
    },
    {
      "epoch": 0.0036173303006220713,
      "grad_norm": 0.08878874033689499,
      "learning_rate": 3.12696703292044e-05,
      "loss": 10.3694,
      "step": 66
    },
    {
      "epoch": 0.003672138335479981,
      "grad_norm": 0.10898453742265701,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 10.3593,
      "step": 67
    },
    {
      "epoch": 0.0037269463703378915,
      "grad_norm": 0.09814710170030594,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 10.3711,
      "step": 68
    },
    {
      "epoch": 0.003781754405195802,
      "grad_norm": 0.12243130058050156,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 10.361,
      "step": 69
    },
    {
      "epoch": 0.0038365624400537117,
      "grad_norm": 0.10561875998973846,
      "learning_rate": 2.500000000000001e-05,
      "loss": 10.3625,
      "step": 70
    },
    {
      "epoch": 0.003891370474911622,
      "grad_norm": 0.12061544507741928,
      "learning_rate": 2.350403678833976e-05,
      "loss": 10.3638,
      "step": 71
    },
    {
      "epoch": 0.003946178509769532,
      "grad_norm": 0.09240692108869553,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 10.3624,
      "step": 72
    },
    {
      "epoch": 0.003946178509769532,
      "eval_loss": 10.363760948181152,
      "eval_runtime": 101.5358,
      "eval_samples_per_second": 151.326,
      "eval_steps_per_second": 18.919,
      "step": 72
    },
    {
      "epoch": 0.004000986544627443,
      "grad_norm": 0.12491687387228012,
      "learning_rate": 2.061073738537635e-05,
      "loss": 10.3625,
      "step": 73
    },
    {
      "epoch": 0.004055794579485353,
      "grad_norm": 0.11544131487607956,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 10.3661,
      "step": 74
    },
    {
      "epoch": 0.0041106026143432626,
      "grad_norm": 0.10601603984832764,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 10.3591,
      "step": 75
    },
    {
      "epoch": 0.004165410649201173,
      "grad_norm": 0.11272861808538437,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 10.3622,
      "step": 76
    },
    {
      "epoch": 0.004220218684059083,
      "grad_norm": 0.10144255310297012,
      "learning_rate": 1.526708147705013e-05,
      "loss": 10.3599,
      "step": 77
    },
    {
      "epoch": 0.004275026718916993,
      "grad_norm": 0.10025826841592789,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 10.3697,
      "step": 78
    },
    {
      "epoch": 0.004329834753774903,
      "grad_norm": 0.11688945442438126,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 10.3663,
      "step": 79
    },
    {
      "epoch": 0.004384642788632814,
      "grad_norm": 0.1014709621667862,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 10.3626,
      "step": 80
    },
    {
      "epoch": 0.004439450823490724,
      "grad_norm": 0.09391166269779205,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 10.3663,
      "step": 81
    },
    {
      "epoch": 0.004439450823490724,
      "eval_loss": 10.363089561462402,
      "eval_runtime": 101.1551,
      "eval_samples_per_second": 151.895,
      "eval_steps_per_second": 18.991,
      "step": 81
    },
    {
      "epoch": 0.004494258858348634,
      "grad_norm": 0.11882545799016953,
      "learning_rate": 9.549150281252633e-06,
      "loss": 10.3629,
      "step": 82
    },
    {
      "epoch": 0.004549066893206544,
      "grad_norm": 0.10373354703187943,
      "learning_rate": 8.548121372247918e-06,
      "loss": 10.3644,
      "step": 83
    },
    {
      "epoch": 0.004603874928064454,
      "grad_norm": 0.1074790507555008,
      "learning_rate": 7.597595192178702e-06,
      "loss": 10.3605,
      "step": 84
    },
    {
      "epoch": 0.004658682962922364,
      "grad_norm": 0.087861567735672,
      "learning_rate": 6.698729810778065e-06,
      "loss": 10.3644,
      "step": 85
    },
    {
      "epoch": 0.004713490997780275,
      "grad_norm": 0.1399247646331787,
      "learning_rate": 5.852620357053651e-06,
      "loss": 10.3594,
      "step": 86
    },
    {
      "epoch": 0.004768299032638185,
      "grad_norm": 0.1140260174870491,
      "learning_rate": 5.060297685041659e-06,
      "loss": 10.3657,
      "step": 87
    },
    {
      "epoch": 0.004823107067496095,
      "grad_norm": 0.12452417612075806,
      "learning_rate": 4.322727117869951e-06,
      "loss": 10.359,
      "step": 88
    },
    {
      "epoch": 0.0048779151023540055,
      "grad_norm": 0.10312099754810333,
      "learning_rate": 3.6408072716606346e-06,
      "loss": 10.3657,
      "step": 89
    },
    {
      "epoch": 0.004932723137211915,
      "grad_norm": 0.11062761396169662,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 10.358,
      "step": 90
    },
    {
      "epoch": 0.004932723137211915,
      "eval_loss": 10.36281967163086,
      "eval_runtime": 101.452,
      "eval_samples_per_second": 151.451,
      "eval_steps_per_second": 18.935,
      "step": 90
    },
    {
      "epoch": 0.004987531172069825,
      "grad_norm": 0.1137986108660698,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 10.3678,
      "step": 91
    },
    {
      "epoch": 0.005042339206927735,
      "grad_norm": 0.11026506870985031,
      "learning_rate": 1.9369152030840556e-06,
      "loss": 10.3659,
      "step": 92
    },
    {
      "epoch": 0.005097147241785646,
      "grad_norm": 0.11854089051485062,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 10.3647,
      "step": 93
    },
    {
      "epoch": 0.005151955276643556,
      "grad_norm": 0.10898473113775253,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 10.3677,
      "step": 94
    },
    {
      "epoch": 0.005206763311501466,
      "grad_norm": 0.09532725065946579,
      "learning_rate": 7.596123493895991e-07,
      "loss": 10.3669,
      "step": 95
    },
    {
      "epoch": 0.0052615713463593766,
      "grad_norm": 0.10628598183393478,
      "learning_rate": 4.865965629214819e-07,
      "loss": 10.3581,
      "step": 96
    },
    {
      "epoch": 0.0053163793812172865,
      "grad_norm": 0.09467614442110062,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 10.3646,
      "step": 97
    },
    {
      "epoch": 0.005371187416075196,
      "grad_norm": 0.10730389505624771,
      "learning_rate": 1.2179748700879012e-07,
      "loss": 10.3611,
      "step": 98
    },
    {
      "epoch": 0.005425995450933107,
      "grad_norm": 0.10540422797203064,
      "learning_rate": 3.04586490452119e-08,
      "loss": 10.367,
      "step": 99
    },
    {
      "epoch": 0.005425995450933107,
      "eval_loss": 10.36276626586914,
      "eval_runtime": 101.4379,
      "eval_samples_per_second": 151.472,
      "eval_steps_per_second": 18.938,
      "step": 99
    },
    {
      "epoch": 0.005480803485791017,
      "grad_norm": 0.11417040973901749,
      "learning_rate": 0.0,
      "loss": 10.3617,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5230244659200.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}