{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.0033444256785003595,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 3.3444256785003593e-05,
      "grad_norm": 4.028215408325195,
      "learning_rate": 1e-05,
      "loss": 3.5489,
      "step": 1
    },
    {
      "epoch": 3.3444256785003593e-05,
      "eval_loss": 3.722480297088623,
      "eval_runtime": 2739.1214,
      "eval_samples_per_second": 9.193,
      "eval_steps_per_second": 1.149,
      "step": 1
    },
    {
      "epoch": 6.688851357000719e-05,
      "grad_norm": 4.290927886962891,
      "learning_rate": 2e-05,
      "loss": 3.6949,
      "step": 2
    },
    {
      "epoch": 0.00010033277035501078,
      "grad_norm": 4.205336570739746,
      "learning_rate": 3e-05,
      "loss": 3.5552,
      "step": 3
    },
    {
      "epoch": 0.00013377702714001437,
      "grad_norm": 4.705852508544922,
      "learning_rate": 4e-05,
      "loss": 3.9999,
      "step": 4
    },
    {
      "epoch": 0.00016722128392501797,
      "grad_norm": 4.193447589874268,
      "learning_rate": 5e-05,
      "loss": 3.3292,
      "step": 5
    },
    {
      "epoch": 0.00020066554071002156,
      "grad_norm": 4.9734721183776855,
      "learning_rate": 6e-05,
      "loss": 3.9245,
      "step": 6
    },
    {
      "epoch": 0.00023410979749502515,
      "grad_norm": 5.040078163146973,
      "learning_rate": 7e-05,
      "loss": 3.5262,
      "step": 7
    },
    {
      "epoch": 0.00026755405428002875,
      "grad_norm": 3.55013370513916,
      "learning_rate": 8e-05,
      "loss": 3.2288,
      "step": 8
    },
    {
      "epoch": 0.00030099831106503237,
      "grad_norm": 3.3910467624664307,
      "learning_rate": 9e-05,
      "loss": 3.0514,
      "step": 9
    },
    {
      "epoch": 0.00030099831106503237,
      "eval_loss": 2.8550124168395996,
      "eval_runtime": 2745.5024,
      "eval_samples_per_second": 9.171,
      "eval_steps_per_second": 1.147,
      "step": 9
    },
    {
      "epoch": 0.00033444256785003593,
      "grad_norm": 3.46765398979187,
      "learning_rate": 0.0001,
      "loss": 2.8576,
      "step": 10
    },
    {
      "epoch": 0.00036788682463503956,
      "grad_norm": 3.2942867279052734,
      "learning_rate": 9.99695413509548e-05,
      "loss": 2.7446,
      "step": 11
    },
    {
      "epoch": 0.0004013310814200431,
      "grad_norm": 3.2802114486694336,
      "learning_rate": 9.987820251299122e-05,
      "loss": 2.4887,
      "step": 12
    },
    {
      "epoch": 0.00043477533820504674,
      "grad_norm": 3.1480672359466553,
      "learning_rate": 9.972609476841367e-05,
      "loss": 2.4346,
      "step": 13
    },
    {
      "epoch": 0.0004682195949900503,
      "grad_norm": 3.0352845191955566,
      "learning_rate": 9.951340343707852e-05,
      "loss": 2.1358,
      "step": 14
    },
    {
      "epoch": 0.0005016638517750539,
      "grad_norm": 2.5337398052215576,
      "learning_rate": 9.924038765061042e-05,
      "loss": 1.797,
      "step": 15
    },
    {
      "epoch": 0.0005351081085600575,
      "grad_norm": 2.5257315635681152,
      "learning_rate": 9.890738003669029e-05,
      "loss": 1.66,
      "step": 16
    },
    {
      "epoch": 0.0005685523653450611,
      "grad_norm": 2.703648567199707,
      "learning_rate": 9.851478631379982e-05,
      "loss": 1.5367,
      "step": 17
    },
    {
      "epoch": 0.0006019966221300647,
      "grad_norm": 3.4314801692962646,
      "learning_rate": 9.806308479691595e-05,
      "loss": 1.6421,
      "step": 18
    },
    {
      "epoch": 0.0006019966221300647,
      "eval_loss": 1.629733681678772,
      "eval_runtime": 2742.8537,
      "eval_samples_per_second": 9.18,
      "eval_steps_per_second": 1.148,
      "step": 18
    },
    {
      "epoch": 0.0006354408789150684,
      "grad_norm": 3.213797092437744,
      "learning_rate": 9.755282581475769e-05,
      "loss": 1.591,
      "step": 19
    },
    {
      "epoch": 0.0006688851357000719,
      "grad_norm": 2.8766260147094727,
      "learning_rate": 9.698463103929542e-05,
      "loss": 1.5007,
      "step": 20
    },
    {
      "epoch": 0.0007023293924850755,
      "grad_norm": 3.298490285873413,
      "learning_rate": 9.635919272833938e-05,
      "loss": 1.6326,
      "step": 21
    },
    {
      "epoch": 0.0007357736492700791,
      "grad_norm": 3.046107530593872,
      "learning_rate": 9.567727288213005e-05,
      "loss": 1.6194,
      "step": 22
    },
    {
      "epoch": 0.0007692179060550827,
      "grad_norm": 3.1948232650756836,
      "learning_rate": 9.493970231495835e-05,
      "loss": 1.466,
      "step": 23
    },
    {
      "epoch": 0.0008026621628400862,
      "grad_norm": 3.6307601928710938,
      "learning_rate": 9.414737964294636e-05,
      "loss": 1.5915,
      "step": 24
    },
    {
      "epoch": 0.0008361064196250899,
      "grad_norm": 3.745431423187256,
      "learning_rate": 9.330127018922194e-05,
      "loss": 1.6644,
      "step": 25
    },
    {
      "epoch": 0.0008695506764100935,
      "grad_norm": 3.1015143394470215,
      "learning_rate": 9.24024048078213e-05,
      "loss": 1.4194,
      "step": 26
    },
    {
      "epoch": 0.0009029949331950971,
      "grad_norm": 2.8244731426239014,
      "learning_rate": 9.145187862775209e-05,
      "loss": 1.3943,
      "step": 27
    },
    {
      "epoch": 0.0009029949331950971,
      "eval_loss": 1.4489030838012695,
      "eval_runtime": 2740.1542,
      "eval_samples_per_second": 9.189,
      "eval_steps_per_second": 1.149,
      "step": 27
    },
    {
      "epoch": 0.0009364391899801006,
      "grad_norm": 2.156521797180176,
      "learning_rate": 9.045084971874738e-05,
      "loss": 1.21,
      "step": 28
    },
    {
      "epoch": 0.0009698834467651042,
      "grad_norm": 2.6699202060699463,
      "learning_rate": 8.940053768033609e-05,
      "loss": 1.4729,
      "step": 29
    },
    {
      "epoch": 0.0010033277035501078,
      "grad_norm": 2.460568904876709,
      "learning_rate": 8.83022221559489e-05,
      "loss": 1.5675,
      "step": 30
    },
    {
      "epoch": 0.0010367719603351115,
      "grad_norm": 2.557603120803833,
      "learning_rate": 8.715724127386972e-05,
      "loss": 1.5623,
      "step": 31
    },
    {
      "epoch": 0.001070216217120115,
      "grad_norm": 2.9280195236206055,
      "learning_rate": 8.596699001693255e-05,
      "loss": 1.4773,
      "step": 32
    },
    {
      "epoch": 0.0011036604739051187,
      "grad_norm": 2.2872281074523926,
      "learning_rate": 8.473291852294987e-05,
      "loss": 1.2972,
      "step": 33
    },
    {
      "epoch": 0.0011371047306901222,
      "grad_norm": 1.872541904449463,
      "learning_rate": 8.345653031794292e-05,
      "loss": 1.3728,
      "step": 34
    },
    {
      "epoch": 0.0011705489874751257,
      "grad_norm": 1.8109902143478394,
      "learning_rate": 8.213938048432697e-05,
      "loss": 1.2932,
      "step": 35
    },
    {
      "epoch": 0.0012039932442601295,
      "grad_norm": 2.0873613357543945,
      "learning_rate": 8.07830737662829e-05,
      "loss": 1.3242,
      "step": 36
    },
    {
      "epoch": 0.0012039932442601295,
      "eval_loss": 1.4143481254577637,
      "eval_runtime": 2741.3995,
      "eval_samples_per_second": 9.185,
      "eval_steps_per_second": 1.148,
      "step": 36
    },
    {
      "epoch": 0.001237437501045133,
      "grad_norm": 2.4181251525878906,
      "learning_rate": 7.938926261462366e-05,
      "loss": 1.4656,
      "step": 37
    },
    {
      "epoch": 0.0012708817578301367,
      "grad_norm": 2.4675228595733643,
      "learning_rate": 7.795964517353735e-05,
      "loss": 1.4617,
      "step": 38
    },
    {
      "epoch": 0.0013043260146151402,
      "grad_norm": 2.8824567794799805,
      "learning_rate": 7.649596321166024e-05,
      "loss": 1.5205,
      "step": 39
    },
    {
      "epoch": 0.0013377702714001437,
      "grad_norm": 2.1439270973205566,
      "learning_rate": 7.500000000000001e-05,
      "loss": 1.3624,
      "step": 40
    },
    {
      "epoch": 0.0013712145281851475,
      "grad_norm": 2.3218116760253906,
      "learning_rate": 7.347357813929454e-05,
      "loss": 1.4908,
      "step": 41
    },
    {
      "epoch": 0.001404658784970151,
      "grad_norm": 2.236236572265625,
      "learning_rate": 7.191855733945387e-05,
      "loss": 1.2628,
      "step": 42
    },
    {
      "epoch": 0.0014381030417551545,
      "grad_norm": 1.9307564496994019,
      "learning_rate": 7.033683215379002e-05,
      "loss": 1.3752,
      "step": 43
    },
    {
      "epoch": 0.0014715472985401582,
      "grad_norm": 1.8109971284866333,
      "learning_rate": 6.873032967079561e-05,
      "loss": 1.3783,
      "step": 44
    },
    {
      "epoch": 0.0015049915553251617,
      "grad_norm": 1.8418580293655396,
      "learning_rate": 6.710100716628344e-05,
      "loss": 1.3572,
      "step": 45
    },
    {
      "epoch": 0.0015049915553251617,
      "eval_loss": 1.3692147731781006,
      "eval_runtime": 2741.1491,
      "eval_samples_per_second": 9.186,
      "eval_steps_per_second": 1.148,
      "step": 45
    },
    {
      "epoch": 0.0015384358121101655,
      "grad_norm": 1.9104599952697754,
      "learning_rate": 6.545084971874738e-05,
      "loss": 1.2735,
      "step": 46
    },
    {
      "epoch": 0.001571880068895169,
      "grad_norm": 2.1751577854156494,
      "learning_rate": 6.378186779084995e-05,
      "loss": 1.3924,
      "step": 47
    },
    {
      "epoch": 0.0016053243256801725,
      "grad_norm": 1.5567160844802856,
      "learning_rate": 6.209609477998338e-05,
      "loss": 1.3338,
      "step": 48
    },
    {
      "epoch": 0.0016387685824651762,
      "grad_norm": 1.7269301414489746,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 1.3239,
      "step": 49
    },
    {
      "epoch": 0.0016722128392501797,
      "grad_norm": 1.800885558128357,
      "learning_rate": 5.868240888334653e-05,
      "loss": 1.3558,
      "step": 50
    },
    {
      "epoch": 0.0017056570960351835,
      "grad_norm": 2.009683132171631,
      "learning_rate": 5.695865504800327e-05,
      "loss": 1.3781,
      "step": 51
    },
    {
      "epoch": 0.001739101352820187,
      "grad_norm": 1.7342225313186646,
      "learning_rate": 5.522642316338268e-05,
      "loss": 1.5557,
      "step": 52
    },
    {
      "epoch": 0.0017725456096051905,
      "grad_norm": 1.5290874242782593,
      "learning_rate": 5.348782368720626e-05,
      "loss": 1.3127,
      "step": 53
    },
    {
      "epoch": 0.0018059898663901942,
      "grad_norm": 1.653159499168396,
      "learning_rate": 5.174497483512506e-05,
      "loss": 1.1634,
      "step": 54
    },
    {
      "epoch": 0.0018059898663901942,
      "eval_loss": 1.3522837162017822,
      "eval_runtime": 2739.9035,
      "eval_samples_per_second": 9.19,
      "eval_steps_per_second": 1.149,
      "step": 54
    },
    {
      "epoch": 0.0018394341231751977,
      "grad_norm": 1.6415021419525146,
      "learning_rate": 5e-05,
      "loss": 1.4116,
      "step": 55
    },
    {
      "epoch": 0.0018728783799602012,
      "grad_norm": 1.749309778213501,
      "learning_rate": 4.825502516487497e-05,
      "loss": 1.4152,
      "step": 56
    },
    {
      "epoch": 0.001906322636745205,
      "grad_norm": 1.564772367477417,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 1.417,
      "step": 57
    },
    {
      "epoch": 0.0019397668935302085,
      "grad_norm": 1.849936842918396,
      "learning_rate": 4.477357683661734e-05,
      "loss": 1.3394,
      "step": 58
    },
    {
      "epoch": 0.001973211150315212,
      "grad_norm": 1.7286560535430908,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 1.5013,
      "step": 59
    },
    {
      "epoch": 0.0020066554071002155,
      "grad_norm": 1.9632574319839478,
      "learning_rate": 4.131759111665349e-05,
      "loss": 1.3443,
      "step": 60
    },
    {
      "epoch": 0.0020400996638852194,
      "grad_norm": 1.7394282817840576,
      "learning_rate": 3.960441545911204e-05,
      "loss": 1.3558,
      "step": 61
    },
    {
      "epoch": 0.002073543920670223,
      "grad_norm": 2.260873794555664,
      "learning_rate": 3.790390522001662e-05,
      "loss": 1.3278,
      "step": 62
    },
    {
      "epoch": 0.0021069881774552265,
      "grad_norm": 1.8529855012893677,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 1.2319,
      "step": 63
    },
    {
      "epoch": 0.0021069881774552265,
      "eval_loss": 1.3400989770889282,
      "eval_runtime": 2741.0245,
      "eval_samples_per_second": 9.186,
      "eval_steps_per_second": 1.148,
      "step": 63
    },
    {
      "epoch": 0.00214043243424023,
      "grad_norm": 1.778730034828186,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 1.3719,
      "step": 64
    },
    {
      "epoch": 0.0021738766910252335,
      "grad_norm": 1.7320828437805176,
      "learning_rate": 3.289899283371657e-05,
      "loss": 1.3139,
      "step": 65
    },
    {
      "epoch": 0.0022073209478102374,
      "grad_norm": 1.8604722023010254,
      "learning_rate": 3.12696703292044e-05,
      "loss": 1.1788,
      "step": 66
    },
    {
      "epoch": 0.002240765204595241,
      "grad_norm": 2.2654762268066406,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 1.4146,
      "step": 67
    },
    {
      "epoch": 0.0022742094613802445,
      "grad_norm": 1.7686560153961182,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 1.2696,
      "step": 68
    },
    {
      "epoch": 0.002307653718165248,
      "grad_norm": 1.5691628456115723,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 1.2514,
      "step": 69
    },
    {
      "epoch": 0.0023410979749502515,
      "grad_norm": 1.543271541595459,
      "learning_rate": 2.500000000000001e-05,
      "loss": 1.4583,
      "step": 70
    },
    {
      "epoch": 0.0023745422317352554,
      "grad_norm": 1.897420048713684,
      "learning_rate": 2.350403678833976e-05,
      "loss": 1.3972,
      "step": 71
    },
    {
      "epoch": 0.002407986488520259,
      "grad_norm": 1.782452940940857,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 1.4984,
      "step": 72
    },
    {
      "epoch": 0.002407986488520259,
      "eval_loss": 1.331598162651062,
      "eval_runtime": 2742.8962,
      "eval_samples_per_second": 9.18,
      "eval_steps_per_second": 1.148,
      "step": 72
    },
    {
      "epoch": 0.0024414307453052625,
      "grad_norm": 1.812255620956421,
      "learning_rate": 2.061073738537635e-05,
      "loss": 1.3558,
      "step": 73
    },
    {
      "epoch": 0.002474875002090266,
      "grad_norm": 1.7149916887283325,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 1.2338,
      "step": 74
    },
    {
      "epoch": 0.0025083192588752695,
      "grad_norm": 1.5673575401306152,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 1.5045,
      "step": 75
    },
    {
      "epoch": 0.0025417635156602734,
      "grad_norm": 1.7105762958526611,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 1.3942,
      "step": 76
    },
    {
      "epoch": 0.002575207772445277,
      "grad_norm": 1.7119174003601074,
      "learning_rate": 1.526708147705013e-05,
      "loss": 1.2635,
      "step": 77
    },
    {
      "epoch": 0.0026086520292302805,
      "grad_norm": 1.553362488746643,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 1.2464,
      "step": 78
    },
    {
      "epoch": 0.002642096286015284,
      "grad_norm": 1.757306456565857,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 1.3831,
      "step": 79
    },
    {
      "epoch": 0.0026755405428002875,
      "grad_norm": 1.9788403511047363,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 1.2947,
      "step": 80
    },
    {
      "epoch": 0.0027089847995852914,
      "grad_norm": 1.7730344533920288,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 1.2519,
      "step": 81
    },
    {
      "epoch": 0.0027089847995852914,
      "eval_loss": 1.3251186609268188,
      "eval_runtime": 2741.7754,
      "eval_samples_per_second": 9.184,
      "eval_steps_per_second": 1.148,
      "step": 81
    },
    {
      "epoch": 0.002742429056370295,
      "grad_norm": 1.6482566595077515,
      "learning_rate": 9.549150281252633e-06,
      "loss": 1.2612,
      "step": 82
    },
    {
      "epoch": 0.0027758733131552984,
      "grad_norm": 1.8458375930786133,
      "learning_rate": 8.548121372247918e-06,
      "loss": 1.4599,
      "step": 83
    },
    {
      "epoch": 0.002809317569940302,
      "grad_norm": 1.6900582313537598,
      "learning_rate": 7.597595192178702e-06,
      "loss": 1.2102,
      "step": 84
    },
    {
      "epoch": 0.0028427618267253055,
      "grad_norm": 2.316399574279785,
      "learning_rate": 6.698729810778065e-06,
      "loss": 1.3149,
      "step": 85
    },
    {
      "epoch": 0.002876206083510309,
      "grad_norm": 1.6527814865112305,
      "learning_rate": 5.852620357053651e-06,
      "loss": 1.1052,
      "step": 86
    },
    {
      "epoch": 0.002909650340295313,
      "grad_norm": 1.7383328676223755,
      "learning_rate": 5.060297685041659e-06,
      "loss": 1.2462,
      "step": 87
    },
    {
      "epoch": 0.0029430945970803164,
      "grad_norm": 1.8759413957595825,
      "learning_rate": 4.322727117869951e-06,
      "loss": 1.5503,
      "step": 88
    },
    {
      "epoch": 0.00297653885386532,
      "grad_norm": 1.686247706413269,
      "learning_rate": 3.6408072716606346e-06,
      "loss": 1.4226,
      "step": 89
    },
    {
      "epoch": 0.0030099831106503235,
      "grad_norm": 1.983102798461914,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 1.4,
      "step": 90
    },
    {
      "epoch": 0.0030099831106503235,
      "eval_loss": 1.3215969800949097,
      "eval_runtime": 2741.5437,
      "eval_samples_per_second": 9.185,
      "eval_steps_per_second": 1.148,
      "step": 90
    },
    {
      "epoch": 0.003043427367435327,
      "grad_norm": 1.666930079460144,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 1.4906,
      "step": 91
    },
    {
      "epoch": 0.003076871624220331,
      "grad_norm": 1.5354820489883423,
      "learning_rate": 1.9369152030840556e-06,
      "loss": 1.203,
      "step": 92
    },
    {
      "epoch": 0.0031103158810053344,
      "grad_norm": 1.64034903049469,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 1.3875,
      "step": 93
    },
    {
      "epoch": 0.003143760137790338,
      "grad_norm": 2.111876964569092,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 1.4371,
      "step": 94
    },
    {
      "epoch": 0.0031772043945753415,
      "grad_norm": 1.6222939491271973,
      "learning_rate": 7.596123493895991e-07,
      "loss": 1.4024,
      "step": 95
    },
    {
      "epoch": 0.003210648651360345,
      "grad_norm": 1.8614100217819214,
      "learning_rate": 4.865965629214819e-07,
      "loss": 1.3613,
      "step": 96
    },
    {
      "epoch": 0.003244092908145349,
      "grad_norm": 1.6315127611160278,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 1.3897,
      "step": 97
    },
    {
      "epoch": 0.0032775371649303524,
      "grad_norm": 1.4587796926498413,
      "learning_rate": 1.2179748700879012e-07,
      "loss": 1.1787,
      "step": 98
    },
    {
      "epoch": 0.003310981421715356,
      "grad_norm": 1.7069193124771118,
      "learning_rate": 3.04586490452119e-08,
      "loss": 1.3006,
      "step": 99
    },
    {
      "epoch": 0.003310981421715356,
      "eval_loss": 1.3205249309539795,
      "eval_runtime": 2741.3417,
      "eval_samples_per_second": 9.185,
      "eval_steps_per_second": 1.148,
      "step": 99
    },
    {
      "epoch": 0.0033444256785003595,
      "grad_norm": 1.4645100831985474,
      "learning_rate": 0.0,
      "loss": 1.3523,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.41887283560448e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}