{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 16.0,
  "eval_steps": 3,
  "global_step": 192,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 18.321439743041992,
      "learning_rate": 2e-05,
      "loss": 1.8769,
      "step": 1
    },
    {
      "epoch": 0.08333333333333333,
      "eval_loss": 2.966491222381592,
      "eval_runtime": 1.0184,
      "eval_samples_per_second": 4.91,
      "eval_steps_per_second": 2.946,
      "step": 1
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 16.561275482177734,
      "learning_rate": 4e-05,
      "loss": 1.7056,
      "step": 2
    },
    {
      "epoch": 0.25,
      "grad_norm": 16.205734252929688,
      "learning_rate": 6e-05,
      "loss": 1.546,
      "step": 3
    },
    {
      "epoch": 0.25,
      "eval_loss": 2.308955669403076,
      "eval_runtime": 1.0198,
      "eval_samples_per_second": 4.903,
      "eval_steps_per_second": 2.942,
      "step": 3
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 16.671236038208008,
      "learning_rate": 8e-05,
      "loss": 1.4192,
      "step": 4
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 14.08996295928955,
      "learning_rate": 0.0001,
      "loss": 1.1662,
      "step": 5
    },
    {
      "epoch": 0.5,
      "grad_norm": 12.764409065246582,
      "learning_rate": 0.00012,
      "loss": 0.8106,
      "step": 6
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.6963454484939575,
      "eval_runtime": 1.0048,
      "eval_samples_per_second": 4.976,
      "eval_steps_per_second": 2.986,
      "step": 6
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 8.302112579345703,
      "learning_rate": 0.00014,
      "loss": 0.3998,
      "step": 7
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 3.817727565765381,
      "learning_rate": 0.00016,
      "loss": 0.3669,
      "step": 8
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.211814880371094,
      "learning_rate": 0.00018,
      "loss": 0.3255,
      "step": 9
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.4474024176597595,
      "eval_runtime": 1.0049,
      "eval_samples_per_second": 4.976,
      "eval_steps_per_second": 2.985,
      "step": 9
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 3.1037936210632324,
      "learning_rate": 0.0002,
      "loss": 0.253,
      "step": 10
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 3.2983005046844482,
      "learning_rate": 0.0001999998459848028,
      "loss": 0.2914,
      "step": 11
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.3602309226989746,
      "learning_rate": 0.0001999993839396856,
      "loss": 0.3463,
      "step": 12
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.3919365108013153,
      "eval_runtime": 0.9985,
      "eval_samples_per_second": 5.008,
      "eval_steps_per_second": 3.005,
      "step": 12
    },
    {
      "epoch": 1.0833333333333333,
      "grad_norm": 2.5751211643218994,
      "learning_rate": 0.0001999986138660716,
      "loss": 0.2988,
      "step": 13
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 3.270535945892334,
      "learning_rate": 0.0001999975357663329,
      "loss": 0.3151,
      "step": 14
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.251652240753174,
      "learning_rate": 0.00019999614964379036,
      "loss": 0.1978,
      "step": 15
    },
    {
      "epoch": 1.25,
      "eval_loss": 0.4661407470703125,
      "eval_runtime": 1.0027,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 15
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 1.6643179655075073,
      "learning_rate": 0.0001999944555027137,
      "loss": 0.1706,
      "step": 16
    },
    {
      "epoch": 1.4166666666666667,
      "grad_norm": 1.8114616870880127,
      "learning_rate": 0.00019999245334832133,
      "loss": 0.1386,
      "step": 17
    },
    {
      "epoch": 1.5,
      "grad_norm": 2.2105395793914795,
      "learning_rate": 0.00019999014318678054,
      "loss": 0.2276,
      "step": 18
    },
    {
      "epoch": 1.5,
      "eval_loss": 0.5166952013969421,
      "eval_runtime": 0.9991,
      "eval_samples_per_second": 5.005,
      "eval_steps_per_second": 3.003,
      "step": 18
    },
    {
      "epoch": 1.5833333333333335,
      "grad_norm": 1.6479169130325317,
      "learning_rate": 0.00019998752502520728,
      "loss": 0.1349,
      "step": 19
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 3.390162706375122,
      "learning_rate": 0.00019998459887166634,
      "loss": 0.2242,
      "step": 20
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.7931389808654785,
      "learning_rate": 0.00019998136473517114,
      "loss": 0.1162,
      "step": 21
    },
    {
      "epoch": 1.75,
      "eval_loss": 0.5312313437461853,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.01,
      "step": 21
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 2.6181139945983887,
      "learning_rate": 0.0001999778226256838,
      "loss": 0.167,
      "step": 22
    },
    {
      "epoch": 1.9166666666666665,
      "grad_norm": 4.127359390258789,
      "learning_rate": 0.00019997397255411506,
      "loss": 0.2025,
      "step": 23
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.0757834911346436,
      "learning_rate": 0.00019996981453232436,
      "loss": 0.2171,
      "step": 24
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.4320703148841858,
      "eval_runtime": 0.9982,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.006,
      "step": 24
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 1.9323816299438477,
      "learning_rate": 0.00019996534857311967,
      "loss": 0.0888,
      "step": 25
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 3.021906614303589,
      "learning_rate": 0.00019996057469025744,
      "loss": 0.1112,
      "step": 26
    },
    {
      "epoch": 2.25,
      "grad_norm": 1.409601092338562,
      "learning_rate": 0.00019995549289844274,
      "loss": 0.0844,
      "step": 27
    },
    {
      "epoch": 2.25,
      "eval_loss": 0.4495156705379486,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 27
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.6781638860702515,
      "learning_rate": 0.00019995010321332906,
      "loss": 0.0284,
      "step": 28
    },
    {
      "epoch": 2.4166666666666665,
      "grad_norm": 1.5096784830093384,
      "learning_rate": 0.0001999444056515182,
      "loss": 0.0767,
      "step": 29
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.1880104541778564,
      "learning_rate": 0.00019993840023056043,
      "loss": 0.047,
      "step": 30
    },
    {
      "epoch": 2.5,
      "eval_loss": 0.6510509252548218,
      "eval_runtime": 1.0018,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 30
    },
    {
      "epoch": 2.5833333333333335,
      "grad_norm": 1.9514886140823364,
      "learning_rate": 0.00019993208696895422,
      "loss": 0.0853,
      "step": 31
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.8064122200012207,
      "learning_rate": 0.0001999254658861464,
      "loss": 0.0305,
      "step": 32
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7893635630607605,
      "learning_rate": 0.00019991853700253187,
      "loss": 0.0454,
      "step": 33
    },
    {
      "epoch": 2.75,
      "eval_loss": 0.7423492074012756,
      "eval_runtime": 1.0597,
      "eval_samples_per_second": 4.718,
      "eval_steps_per_second": 2.831,
      "step": 33
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 0.9772611856460571,
      "learning_rate": 0.00019991130033945368,
      "loss": 0.0391,
      "step": 34
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 0.7498050928115845,
      "learning_rate": 0.00019990375591920302,
      "loss": 0.0263,
      "step": 35
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6373388767242432,
      "learning_rate": 0.00019989590376501894,
      "loss": 0.0181,
      "step": 36
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.7701675295829773,
      "eval_runtime": 0.9994,
      "eval_samples_per_second": 5.003,
      "eval_steps_per_second": 3.002,
      "step": 36
    },
    {
      "epoch": 3.0833333333333335,
      "grad_norm": 0.2939666211605072,
      "learning_rate": 0.0001998877439010885,
      "loss": 0.0071,
      "step": 37
    },
    {
      "epoch": 3.1666666666666665,
      "grad_norm": 0.3313266336917877,
      "learning_rate": 0.00019987927635254656,
      "loss": 0.0091,
      "step": 38
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.24132607877254486,
      "learning_rate": 0.0001998705011454757,
      "loss": 0.0074,
      "step": 39
    },
    {
      "epoch": 3.25,
      "eval_loss": 0.821164608001709,
      "eval_runtime": 0.9992,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 39
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.4473284184932709,
      "learning_rate": 0.00019986141830690625,
      "loss": 0.0097,
      "step": 40
    },
    {
      "epoch": 3.4166666666666665,
      "grad_norm": 0.36039742827415466,
      "learning_rate": 0.00019985202786481612,
      "loss": 0.0072,
      "step": 41
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.25298011302948,
      "learning_rate": 0.0001998423298481307,
      "loss": 0.0044,
      "step": 42
    },
    {
      "epoch": 3.5,
      "eval_loss": 0.9113298654556274,
      "eval_runtime": 1.0009,
      "eval_samples_per_second": 4.995,
      "eval_steps_per_second": 2.997,
      "step": 42
    },
    {
      "epoch": 3.5833333333333335,
      "grad_norm": 0.20523716509342194,
      "learning_rate": 0.0001998323242867229,
      "loss": 0.0033,
      "step": 43
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.031074421480298042,
      "learning_rate": 0.00019982201121141282,
      "loss": 0.0008,
      "step": 44
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.21951285004615784,
      "learning_rate": 0.00019981139065396785,
      "loss": 0.0035,
      "step": 45
    },
    {
      "epoch": 3.75,
      "eval_loss": 0.9088179469108582,
      "eval_runtime": 1.0239,
      "eval_samples_per_second": 4.883,
      "eval_steps_per_second": 2.93,
      "step": 45
    },
    {
      "epoch": 3.8333333333333335,
      "grad_norm": 0.05267144739627838,
      "learning_rate": 0.00019980046264710263,
      "loss": 0.0013,
      "step": 46
    },
    {
      "epoch": 3.9166666666666665,
      "grad_norm": 0.05938415974378586,
      "learning_rate": 0.00019978922722447865,
      "loss": 0.0014,
      "step": 47
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.536919116973877,
      "learning_rate": 0.00019977768442070443,
      "loss": 0.0076,
      "step": 48
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.9346898198127747,
      "eval_runtime": 1.0106,
      "eval_samples_per_second": 4.948,
      "eval_steps_per_second": 2.969,
      "step": 48
    },
    {
      "epoch": 4.083333333333333,
      "grad_norm": 0.02495948225259781,
      "learning_rate": 0.0001997658342713354,
      "loss": 0.0006,
      "step": 49
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.09865710139274597,
      "learning_rate": 0.00019975367681287356,
      "loss": 0.0017,
      "step": 50
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.029543787240982056,
      "learning_rate": 0.00019974121208276758,
      "loss": 0.0008,
      "step": 51
    },
    {
      "epoch": 4.25,
      "eval_loss": 0.9875212907791138,
      "eval_runtime": 1.0117,
      "eval_samples_per_second": 4.942,
      "eval_steps_per_second": 2.965,
      "step": 51
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.017520904541015625,
      "learning_rate": 0.00019972844011941258,
      "loss": 0.0004,
      "step": 52
    },
    {
      "epoch": 4.416666666666667,
      "grad_norm": 0.019872482866048813,
      "learning_rate": 0.00019971536096215017,
      "loss": 0.0006,
      "step": 53
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.23468434810638428,
      "learning_rate": 0.00019970197465126808,
      "loss": 0.0018,
      "step": 54
    },
    {
      "epoch": 4.5,
      "eval_loss": 1.0314465761184692,
      "eval_runtime": 1.048,
      "eval_samples_per_second": 4.771,
      "eval_steps_per_second": 2.863,
      "step": 54
    },
    {
      "epoch": 4.583333333333333,
      "grad_norm": 0.09857720136642456,
      "learning_rate": 0.00019968828122800023,
      "loss": 0.0009,
      "step": 55
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.04741726443171501,
      "learning_rate": 0.00019967428073452653,
      "loss": 0.0007,
      "step": 56
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.09676219522953033,
      "learning_rate": 0.00019965997321397274,
      "loss": 0.0008,
      "step": 57
    },
    {
      "epoch": 4.75,
      "eval_loss": 1.1343060731887817,
      "eval_runtime": 1.0442,
      "eval_samples_per_second": 4.788,
      "eval_steps_per_second": 2.873,
      "step": 57
    },
    {
      "epoch": 4.833333333333333,
      "grad_norm": 0.011569831520318985,
      "learning_rate": 0.00019964535871041034,
      "loss": 0.0004,
      "step": 58
    },
    {
      "epoch": 4.916666666666667,
      "grad_norm": 0.007966884411871433,
      "learning_rate": 0.00019963043726885652,
      "loss": 0.0003,
      "step": 59
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.07261084765195847,
      "learning_rate": 0.00019961520893527383,
      "loss": 0.0007,
      "step": 60
    },
    {
      "epoch": 5.0,
      "eval_loss": 1.1936529874801636,
      "eval_runtime": 1.0188,
      "eval_samples_per_second": 4.908,
      "eval_steps_per_second": 2.945,
      "step": 60
    },
    {
      "epoch": 5.083333333333333,
      "grad_norm": 0.07245349138975143,
      "learning_rate": 0.00019959967375657013,
      "loss": 0.0011,
      "step": 61
    },
    {
      "epoch": 5.166666666666667,
      "grad_norm": 0.011179454624652863,
      "learning_rate": 0.00019958383178059853,
      "loss": 0.0003,
      "step": 62
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.0166336577385664,
      "learning_rate": 0.00019956768305615712,
      "loss": 0.0004,
      "step": 63
    },
    {
      "epoch": 5.25,
      "eval_loss": 1.233989953994751,
      "eval_runtime": 1.0081,
      "eval_samples_per_second": 4.96,
      "eval_steps_per_second": 2.976,
      "step": 63
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.01408514566719532,
      "learning_rate": 0.00019955122763298886,
      "loss": 0.0004,
      "step": 64
    },
    {
      "epoch": 5.416666666666667,
      "grad_norm": 0.008439848199486732,
      "learning_rate": 0.0001995344655617815,
      "loss": 0.0002,
      "step": 65
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.01138551626354456,
      "learning_rate": 0.00019951739689416727,
      "loss": 0.0003,
      "step": 66
    },
    {
      "epoch": 5.5,
      "eval_loss": 1.2637255191802979,
      "eval_runtime": 1.0024,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 66
    },
    {
      "epoch": 5.583333333333333,
      "grad_norm": 0.011877048760652542,
      "learning_rate": 0.00019950002168272283,
      "loss": 0.0004,
      "step": 67
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 0.006235960870981216,
      "learning_rate": 0.0001994823399809692,
      "loss": 0.0002,
      "step": 68
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.5171953439712524,
      "learning_rate": 0.00019946435184337133,
      "loss": 0.0029,
      "step": 69
    },
    {
      "epoch": 5.75,
      "eval_loss": 1.2731075286865234,
      "eval_runtime": 1.0041,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.988,
      "step": 69
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 0.007858390919864178,
      "learning_rate": 0.00019944605732533818,
      "loss": 0.0004,
      "step": 70
    },
    {
      "epoch": 5.916666666666667,
      "grad_norm": 0.006160305812954903,
      "learning_rate": 0.0001994274564832224,
      "loss": 0.0002,
      "step": 71
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.008595510385930538,
      "learning_rate": 0.00019940854937432025,
      "loss": 0.0002,
      "step": 72
    },
    {
      "epoch": 6.0,
      "eval_loss": 1.2578288316726685,
      "eval_runtime": 1.0075,
      "eval_samples_per_second": 4.963,
      "eval_steps_per_second": 2.978,
      "step": 72
    },
    {
      "epoch": 6.083333333333333,
      "grad_norm": 0.009983099065721035,
      "learning_rate": 0.0001993893360568714,
      "loss": 0.0003,
      "step": 73
    },
    {
      "epoch": 6.166666666666667,
      "grad_norm": 0.019415004178881645,
      "learning_rate": 0.00019936981659005867,
      "loss": 0.0004,
      "step": 74
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.0086536118760705,
      "learning_rate": 0.00019934999103400796,
      "loss": 0.0003,
      "step": 75
    },
    {
      "epoch": 6.25,
      "eval_loss": 1.2853734493255615,
      "eval_runtime": 1.0014,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 75
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 0.0041904328390955925,
      "learning_rate": 0.00019932985944978802,
      "loss": 0.0002,
      "step": 76
    },
    {
      "epoch": 6.416666666666667,
      "grad_norm": 0.0054719713516533375,
      "learning_rate": 0.0001993094218994102,
      "loss": 0.0002,
      "step": 77
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.04392923787236214,
      "learning_rate": 0.00019928867844582843,
      "loss": 0.0004,
      "step": 78
    },
    {
      "epoch": 6.5,
      "eval_loss": 1.2088360786437988,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 78
    },
    {
      "epoch": 6.583333333333333,
      "grad_norm": 0.00761830061674118,
      "learning_rate": 0.00019926762915293883,
      "loss": 0.0003,
      "step": 79
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.007334854919463396,
      "learning_rate": 0.00019924627408557963,
      "loss": 0.0002,
      "step": 80
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.011454805731773376,
      "learning_rate": 0.00019922461330953092,
      "loss": 0.0002,
      "step": 81
    },
    {
      "epoch": 6.75,
      "eval_loss": 1.2363653182983398,
      "eval_runtime": 1.0209,
      "eval_samples_per_second": 4.898,
      "eval_steps_per_second": 2.939,
      "step": 81
    },
    {
      "epoch": 6.833333333333333,
      "grad_norm": 0.0074494462460279465,
      "learning_rate": 0.00019920264689151444,
      "loss": 0.0002,
      "step": 82
    },
    {
      "epoch": 6.916666666666667,
      "grad_norm": 0.005181374493986368,
      "learning_rate": 0.00019918037489919348,
      "loss": 0.0002,
      "step": 83
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.009433169849216938,
      "learning_rate": 0.00019915779740117253,
      "loss": 0.0003,
      "step": 84
    },
    {
      "epoch": 7.0,
      "eval_loss": 1.3035067319869995,
      "eval_runtime": 1.0152,
      "eval_samples_per_second": 4.925,
      "eval_steps_per_second": 2.955,
      "step": 84
    },
    {
      "epoch": 7.083333333333333,
      "grad_norm": 0.003880379255861044,
      "learning_rate": 0.00019913491446699714,
      "loss": 0.0002,
      "step": 85
    },
    {
      "epoch": 7.166666666666667,
      "grad_norm": 0.01116390060633421,
      "learning_rate": 0.0001991117261671537,
      "loss": 0.0002,
      "step": 86
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.008482172153890133,
      "learning_rate": 0.00019908823257306924,
      "loss": 0.0002,
      "step": 87
    },
    {
      "epoch": 7.25,
      "eval_loss": 1.2437602281570435,
      "eval_runtime": 0.9969,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.009,
      "step": 87
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.012505721300840378,
      "learning_rate": 0.00019906443375711117,
      "loss": 0.0003,
      "step": 88
    },
    {
      "epoch": 7.416666666666667,
      "grad_norm": 2.411334991455078,
      "learning_rate": 0.00019904032979258708,
      "loss": 0.063,
      "step": 89
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.005176869221031666,
      "learning_rate": 0.00019901592075374447,
      "loss": 0.0002,
      "step": 90
    },
    {
      "epoch": 7.5,
      "eval_loss": 1.215416431427002,
      "eval_runtime": 1.0086,
      "eval_samples_per_second": 4.957,
      "eval_steps_per_second": 2.974,
      "step": 90
    },
    {
      "epoch": 7.583333333333333,
      "grad_norm": 0.0047805411741137505,
      "learning_rate": 0.00019899120671577062,
      "loss": 0.0002,
      "step": 91
    },
    {
      "epoch": 7.666666666666667,
      "grad_norm": 0.004977677017450333,
      "learning_rate": 0.0001989661877547923,
      "loss": 0.0002,
      "step": 92
    },
    {
      "epoch": 7.75,
      "grad_norm": 0.006376943551003933,
      "learning_rate": 0.0001989408639478755,
      "loss": 0.0002,
      "step": 93
    },
    {
      "epoch": 7.75,
      "eval_loss": 1.1592028141021729,
      "eval_runtime": 1.0029,
      "eval_samples_per_second": 4.985,
      "eval_steps_per_second": 2.991,
      "step": 93
    },
    {
      "epoch": 7.833333333333333,
      "grad_norm": 0.01837480068206787,
      "learning_rate": 0.00019891523537302522,
      "loss": 0.0005,
      "step": 94
    },
    {
      "epoch": 7.916666666666667,
      "grad_norm": 0.044409509748220444,
      "learning_rate": 0.00019888930210918527,
      "loss": 0.0008,
      "step": 95
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.0097122173756361,
      "learning_rate": 0.000198863064236238,
      "loss": 0.0002,
      "step": 96
    },
    {
      "epoch": 8.0,
      "eval_loss": 1.1519960165023804,
      "eval_runtime": 1.0024,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 96
    },
    {
      "epoch": 8.083333333333334,
      "grad_norm": 0.13420462608337402,
      "learning_rate": 0.00019883652183500403,
      "loss": 0.0016,
      "step": 97
    },
    {
      "epoch": 8.166666666666666,
      "grad_norm": 0.1956610232591629,
      "learning_rate": 0.00019880967498724203,
      "loss": 0.0019,
      "step": 98
    },
    {
      "epoch": 8.25,
      "grad_norm": 0.06474520266056061,
      "learning_rate": 0.00019878252377564845,
      "loss": 0.001,
      "step": 99
    },
    {
      "epoch": 8.25,
      "eval_loss": 1.2046459913253784,
      "eval_runtime": 1.0042,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.987,
      "step": 99
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.024415887892246246,
      "learning_rate": 0.00019875506828385722,
      "loss": 0.0006,
      "step": 100
    },
    {
      "epoch": 8.416666666666666,
      "grad_norm": 0.42121440172195435,
      "learning_rate": 0.00019872730859643966,
      "loss": 0.0028,
      "step": 101
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.01133190281689167,
      "learning_rate": 0.00019869924479890404,
      "loss": 0.0003,
      "step": 102
    },
    {
      "epoch": 8.5,
      "eval_loss": 1.2598035335540771,
      "eval_runtime": 1.0023,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 102
    },
    {
      "epoch": 8.583333333333334,
      "grad_norm": 0.028919192031025887,
      "learning_rate": 0.0001986708769776954,
      "loss": 0.0004,
      "step": 103
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 0.02341923862695694,
      "learning_rate": 0.00019864220522019518,
      "loss": 0.0004,
      "step": 104
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.006619466468691826,
      "learning_rate": 0.00019861322961472116,
      "loss": 0.0002,
      "step": 105
    },
    {
      "epoch": 8.75,
      "eval_loss": 1.3082973957061768,
      "eval_runtime": 1.0032,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.991,
      "step": 105
    },
    {
      "epoch": 8.833333333333334,
      "grad_norm": 0.03367730230093002,
      "learning_rate": 0.00019858395025052706,
      "loss": 0.0006,
      "step": 106
    },
    {
      "epoch": 8.916666666666666,
      "grad_norm": 0.012332913465797901,
      "learning_rate": 0.00019855436721780213,
      "loss": 0.0003,
      "step": 107
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.009150455705821514,
      "learning_rate": 0.00019852448060767112,
      "loss": 0.0003,
      "step": 108
    },
    {
      "epoch": 9.0,
      "eval_loss": 1.3272632360458374,
      "eval_runtime": 1.0039,
      "eval_samples_per_second": 4.981,
      "eval_steps_per_second": 2.988,
      "step": 108
    },
    {
      "epoch": 9.083333333333334,
      "grad_norm": 0.0070456513203680515,
      "learning_rate": 0.00019849429051219393,
      "loss": 0.0002,
      "step": 109
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.008276679553091526,
      "learning_rate": 0.00019846379702436517,
      "loss": 0.0002,
      "step": 110
    },
    {
      "epoch": 9.25,
      "grad_norm": 0.03193563222885132,
      "learning_rate": 0.00019843300023811408,
      "loss": 0.0005,
      "step": 111
    },
    {
      "epoch": 9.25,
      "eval_loss": 1.317318320274353,
      "eval_runtime": 1.0054,
      "eval_samples_per_second": 4.973,
      "eval_steps_per_second": 2.984,
      "step": 111
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 0.029139867052435875,
      "learning_rate": 0.0001984019002483041,
      "loss": 0.0005,
      "step": 112
    },
    {
      "epoch": 9.416666666666666,
      "grad_norm": 0.014614199288189411,
      "learning_rate": 0.0001983704971507327,
      "loss": 0.0003,
      "step": 113
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.015501927584409714,
      "learning_rate": 0.0001983387910421309,
      "loss": 0.0003,
      "step": 114
    },
    {
      "epoch": 9.5,
      "eval_loss": 1.2658326625823975,
      "eval_runtime": 0.9949,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 3.015,
      "step": 114
    },
    {
      "epoch": 9.583333333333334,
      "grad_norm": 0.0044679041020572186,
      "learning_rate": 0.0001983067820201632,
      "loss": 0.0002,
      "step": 115
    },
    {
      "epoch": 9.666666666666666,
      "grad_norm": 0.004195045214146376,
      "learning_rate": 0.00019827447018342712,
      "loss": 0.0002,
      "step": 116
    },
    {
      "epoch": 9.75,
      "grad_norm": 0.006220120470970869,
      "learning_rate": 0.0001982418556314529,
      "loss": 0.0002,
      "step": 117
    },
    {
      "epoch": 9.75,
      "eval_loss": 1.3598058223724365,
      "eval_runtime": 0.9959,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 117
    },
    {
      "epoch": 9.833333333333334,
      "grad_norm": 0.006718598771840334,
      "learning_rate": 0.0001982089384647033,
      "loss": 0.0002,
      "step": 118
    },
    {
      "epoch": 9.916666666666666,
      "grad_norm": 0.0072190724313259125,
      "learning_rate": 0.00019817571878457318,
      "loss": 0.0002,
      "step": 119
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.002855106024071574,
      "learning_rate": 0.00019814219669338928,
      "loss": 0.0001,
      "step": 120
    },
    {
      "epoch": 10.0,
      "eval_loss": 1.3506109714508057,
      "eval_runtime": 1.0062,
      "eval_samples_per_second": 4.969,
      "eval_steps_per_second": 2.982,
      "step": 120
    },
    {
      "epoch": 10.083333333333334,
      "grad_norm": 0.0038296151906251907,
      "learning_rate": 0.0001981083722944098,
      "loss": 0.0001,
      "step": 121
    },
    {
      "epoch": 10.166666666666666,
      "grad_norm": 0.00729400897398591,
      "learning_rate": 0.0001980742456918242,
      "loss": 0.0002,
      "step": 122
    },
    {
      "epoch": 10.25,
      "grad_norm": 0.01579378917813301,
      "learning_rate": 0.00019803981699075273,
      "loss": 0.0003,
      "step": 123
    },
    {
      "epoch": 10.25,
      "eval_loss": 1.2966080904006958,
      "eval_runtime": 1.0051,
      "eval_samples_per_second": 4.975,
      "eval_steps_per_second": 2.985,
      "step": 123
    },
    {
      "epoch": 10.333333333333334,
      "grad_norm": 0.009087709710001945,
      "learning_rate": 0.00019800508629724633,
      "loss": 0.0002,
      "step": 124
    },
    {
      "epoch": 10.416666666666666,
      "grad_norm": 0.007276953663676977,
      "learning_rate": 0.00019797005371828604,
      "loss": 0.0002,
      "step": 125
    },
    {
      "epoch": 10.5,
      "grad_norm": 0.005232817493379116,
      "learning_rate": 0.00019793471936178285,
      "loss": 0.0002,
      "step": 126
    },
    {
      "epoch": 10.5,
      "eval_loss": 1.236280918121338,
      "eval_runtime": 0.9948,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 3.016,
      "step": 126
    },
    {
      "epoch": 10.583333333333334,
      "grad_norm": 0.003949979320168495,
      "learning_rate": 0.00019789908333657733,
      "loss": 0.0001,
      "step": 127
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.009052672423422337,
      "learning_rate": 0.0001978631457524393,
      "loss": 0.0002,
      "step": 128
    },
    {
      "epoch": 10.75,
      "grad_norm": 0.002537698484957218,
      "learning_rate": 0.00019782690672006742,
      "loss": 0.0001,
      "step": 129
    },
    {
      "epoch": 10.75,
      "eval_loss": 1.3194478750228882,
      "eval_runtime": 1.0035,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 129
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.011329089291393757,
      "learning_rate": 0.0001977903663510889,
      "loss": 0.0003,
      "step": 130
    },
    {
      "epoch": 10.916666666666666,
      "grad_norm": 0.0027327709831297398,
      "learning_rate": 0.00019775352475805925,
      "loss": 0.0001,
      "step": 131
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.004424929153174162,
      "learning_rate": 0.00019771638205446168,
      "loss": 0.0001,
      "step": 132
    },
    {
      "epoch": 11.0,
      "eval_loss": 1.2647757530212402,
      "eval_runtime": 1.006,
      "eval_samples_per_second": 4.97,
      "eval_steps_per_second": 2.982,
      "step": 132
    },
    {
      "epoch": 11.083333333333334,
      "grad_norm": 0.002624769229441881,
      "learning_rate": 0.00019767893835470707,
      "loss": 0.0001,
      "step": 133
    },
    {
      "epoch": 11.166666666666666,
      "grad_norm": 0.0037121030036360025,
      "learning_rate": 0.00019764119377413338,
      "loss": 0.0002,
      "step": 134
    },
    {
      "epoch": 11.25,
      "grad_norm": 0.003075383370742202,
      "learning_rate": 0.00019760314842900539,
      "loss": 0.0001,
      "step": 135
    },
    {
      "epoch": 11.25,
      "eval_loss": 1.2167189121246338,
      "eval_runtime": 1.0036,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 135
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.0030458325054496527,
      "learning_rate": 0.00019756480243651432,
      "loss": 0.0001,
      "step": 136
    },
    {
      "epoch": 11.416666666666666,
      "grad_norm": 0.005058998242020607,
      "learning_rate": 0.0001975261559147775,
      "loss": 0.0001,
      "step": 137
    },
    {
      "epoch": 11.5,
      "grad_norm": 0.0027282743249088526,
      "learning_rate": 0.00019748720898283794,
      "loss": 0.0001,
      "step": 138
    },
    {
      "epoch": 11.5,
      "eval_loss": 1.1802990436553955,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 138
    },
    {
      "epoch": 11.583333333333334,
      "grad_norm": 0.0022623680997639894,
      "learning_rate": 0.00019744796176066404,
      "loss": 0.0001,
      "step": 139
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.003738392610102892,
      "learning_rate": 0.00019740841436914917,
      "loss": 0.0001,
      "step": 140
    },
    {
      "epoch": 11.75,
      "grad_norm": 0.006619980093091726,
      "learning_rate": 0.00019736856693011135,
      "loss": 0.0002,
      "step": 141
    },
    {
      "epoch": 11.75,
      "eval_loss": 1.2323724031448364,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 141
    },
    {
      "epoch": 11.833333333333334,
      "grad_norm": 0.003048243233934045,
      "learning_rate": 0.00019732841956629274,
      "loss": 0.0001,
      "step": 142
    },
    {
      "epoch": 11.916666666666666,
      "grad_norm": 0.005489699076861143,
      "learning_rate": 0.00019728797240135948,
      "loss": 0.0002,
      "step": 143
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.0033994840923696756,
      "learning_rate": 0.00019724722555990108,
      "loss": 0.0001,
      "step": 144
    },
    {
      "epoch": 12.0,
      "eval_loss": 1.2216131687164307,
      "eval_runtime": 1.0227,
      "eval_samples_per_second": 4.889,
      "eval_steps_per_second": 2.933,
      "step": 144
    },
    {
      "epoch": 12.083333333333334,
      "grad_norm": 0.008786541409790516,
      "learning_rate": 0.00019720617916743022,
      "loss": 0.0002,
      "step": 145
    },
    {
      "epoch": 12.166666666666666,
      "grad_norm": 0.004269069526344538,
      "learning_rate": 0.0001971648333503823,
      "loss": 0.0001,
      "step": 146
    },
    {
      "epoch": 12.25,
      "grad_norm": 0.0018633886938914657,
      "learning_rate": 0.00019712318823611496,
      "loss": 0.0001,
      "step": 147
    },
    {
      "epoch": 12.25,
      "eval_loss": 1.2424652576446533,
      "eval_runtime": 0.9992,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 147
    },
    {
      "epoch": 12.333333333333334,
      "grad_norm": 0.0037659883964806795,
      "learning_rate": 0.00019708124395290783,
      "loss": 0.0001,
      "step": 148
    },
    {
      "epoch": 12.416666666666666,
      "grad_norm": 0.0022014155983924866,
      "learning_rate": 0.00019703900062996205,
      "loss": 0.0001,
      "step": 149
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.002862535882741213,
      "learning_rate": 0.00019699645839739985,
      "loss": 0.0001,
      "step": 150
    },
    {
      "epoch": 12.5,
      "eval_loss": 1.2824660539627075,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 150
    },
    {
      "epoch": 12.583333333333334,
      "grad_norm": 0.00279458099976182,
      "learning_rate": 0.00019695361738626433,
      "loss": 0.0001,
      "step": 151
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.002750468673184514,
      "learning_rate": 0.00019691047772851873,
      "loss": 0.0001,
      "step": 152
    },
    {
      "epoch": 12.75,
      "grad_norm": 0.0021071576047688723,
      "learning_rate": 0.00019686703955704634,
      "loss": 0.0001,
      "step": 153
    },
    {
      "epoch": 12.75,
      "eval_loss": 1.2110233306884766,
      "eval_runtime": 1.0003,
      "eval_samples_per_second": 4.999,
      "eval_steps_per_second": 2.999,
      "step": 153
    },
    {
      "epoch": 12.833333333333334,
      "grad_norm": 0.0013178765075281262,
      "learning_rate": 0.00019682330300564997,
      "loss": 0.0001,
      "step": 154
    },
    {
      "epoch": 12.916666666666666,
      "grad_norm": 0.005062974989414215,
      "learning_rate": 0.00019677926820905144,
      "loss": 0.0002,
      "step": 155
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.0027265942189842463,
      "learning_rate": 0.00019673493530289132,
      "loss": 0.0001,
      "step": 156
    },
    {
      "epoch": 13.0,
      "eval_loss": 1.2150756120681763,
      "eval_runtime": 1.014,
      "eval_samples_per_second": 4.931,
      "eval_steps_per_second": 2.959,
      "step": 156
    },
    {
      "epoch": 13.083333333333334,
      "grad_norm": 0.004011066164821386,
      "learning_rate": 0.00019669030442372846,
      "loss": 0.0002,
      "step": 157
    },
    {
      "epoch": 13.166666666666666,
      "grad_norm": 0.0022254104260355234,
      "learning_rate": 0.00019664537570903952,
      "loss": 0.0001,
      "step": 158
    },
    {
      "epoch": 13.25,
      "grad_norm": 0.0019367565400898457,
      "learning_rate": 0.00019660014929721858,
      "loss": 0.0001,
      "step": 159
    },
    {
      "epoch": 13.25,
      "eval_loss": 1.2413427829742432,
      "eval_runtime": 1.0048,
      "eval_samples_per_second": 4.976,
      "eval_steps_per_second": 2.986,
      "step": 159
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.004818584304302931,
      "learning_rate": 0.00019655462532757676,
      "loss": 0.0002,
      "step": 160
    },
    {
      "epoch": 13.416666666666666,
      "grad_norm": 0.003023201832547784,
      "learning_rate": 0.00019650880394034173,
      "loss": 0.0001,
      "step": 161
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.0017505192663520575,
      "learning_rate": 0.0001964626852766572,
      "loss": 0.0001,
      "step": 162
    },
    {
      "epoch": 13.5,
      "eval_loss": 1.2589879035949707,
      "eval_runtime": 1.0106,
      "eval_samples_per_second": 4.948,
      "eval_steps_per_second": 2.969,
      "step": 162
    },
    {
      "epoch": 13.583333333333334,
      "grad_norm": 0.0020996497478336096,
      "learning_rate": 0.0001964162694785828,
      "loss": 0.0001,
      "step": 163
    },
    {
      "epoch": 13.666666666666666,
      "grad_norm": 0.0015256914775818586,
      "learning_rate": 0.00019636955668909324,
      "loss": 0.0001,
      "step": 164
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.0024543164763599634,
      "learning_rate": 0.0001963225470520781,
      "loss": 0.0001,
      "step": 165
    },
    {
      "epoch": 13.75,
      "eval_loss": 1.2548372745513916,
      "eval_runtime": 1.0036,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 165
    },
    {
      "epoch": 13.833333333333334,
      "grad_norm": 0.0029590551275759935,
      "learning_rate": 0.00019627524071234138,
      "loss": 0.0001,
      "step": 166
    },
    {
      "epoch": 13.916666666666666,
      "grad_norm": 0.0020896506030112505,
      "learning_rate": 0.00019622763781560094,
      "loss": 0.0001,
      "step": 167
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.0020225539337843657,
      "learning_rate": 0.00019617973850848822,
      "loss": 0.0001,
      "step": 168
    },
    {
      "epoch": 14.0,
      "eval_loss": 1.2527357339859009,
      "eval_runtime": 1.007,
      "eval_samples_per_second": 4.965,
      "eval_steps_per_second": 2.979,
      "step": 168
    },
    {
      "epoch": 14.083333333333334,
      "grad_norm": 0.001954326406121254,
      "learning_rate": 0.00019613154293854755,
      "loss": 0.0001,
      "step": 169
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.002824195893481374,
      "learning_rate": 0.00019608305125423607,
      "loss": 0.0001,
      "step": 170
    },
    {
      "epoch": 14.25,
      "grad_norm": 0.0017506727017462254,
      "learning_rate": 0.00019603426360492284,
      "loss": 0.0001,
      "step": 171
    },
    {
      "epoch": 14.25,
      "eval_loss": 1.229520559310913,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 171
    },
    {
      "epoch": 14.333333333333334,
      "grad_norm": 0.0016608445439487696,
      "learning_rate": 0.0001959851801408886,
      "loss": 0.0001,
      "step": 172
    },
    {
      "epoch": 14.416666666666666,
      "grad_norm": 0.003563026199117303,
      "learning_rate": 0.00019593580101332544,
      "loss": 0.0002,
      "step": 173
    },
    {
      "epoch": 14.5,
      "grad_norm": 0.002062347950413823,
      "learning_rate": 0.00019588612637433598,
      "loss": 0.0001,
      "step": 174
    },
    {
      "epoch": 14.5,
      "eval_loss": 1.3049293756484985,
      "eval_runtime": 1.0003,
      "eval_samples_per_second": 4.998,
      "eval_steps_per_second": 2.999,
      "step": 174
    },
    {
      "epoch": 14.583333333333334,
      "grad_norm": 0.002516463864594698,
      "learning_rate": 0.00019583615637693328,
      "loss": 0.0001,
      "step": 175
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.0018197526223957539,
      "learning_rate": 0.0001957858911750401,
      "loss": 0.0001,
      "step": 176
    },
    {
      "epoch": 14.75,
      "grad_norm": 0.001751432311721146,
      "learning_rate": 0.00019573533092348853,
      "loss": 0.0001,
      "step": 177
    },
    {
      "epoch": 14.75,
      "eval_loss": 1.2655537128448486,
      "eval_runtime": 1.0016,
      "eval_samples_per_second": 4.992,
      "eval_steps_per_second": 2.995,
      "step": 177
    },
    {
      "epoch": 14.833333333333334,
      "grad_norm": 0.0021559814922511578,
      "learning_rate": 0.00019568447577801953,
      "loss": 0.0001,
      "step": 178
    },
    {
      "epoch": 14.916666666666666,
      "grad_norm": 0.0014471221948042512,
      "learning_rate": 0.00019563332589528235,
      "loss": 0.0001,
      "step": 179
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.003157020313665271,
      "learning_rate": 0.00019558188143283426,
      "loss": 0.0001,
      "step": 180
    },
    {
      "epoch": 15.0,
      "eval_loss": 1.2832013368606567,
      "eval_runtime": 1.0043,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 180
    },
    {
      "epoch": 15.083333333333334,
      "grad_norm": 0.002556655090302229,
      "learning_rate": 0.00019553014254913978,
      "loss": 0.0001,
      "step": 181
    },
    {
      "epoch": 15.166666666666666,
      "grad_norm": 0.0013463579816743731,
      "learning_rate": 0.0001954781094035704,
      "loss": 0.0001,
      "step": 182
    },
    {
      "epoch": 15.25,
      "grad_norm": 0.002447038423269987,
      "learning_rate": 0.00019542578215640406,
      "loss": 0.0001,
      "step": 183
    },
    {
      "epoch": 15.25,
      "eval_loss": 1.2666196823120117,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 183
    },
    {
      "epoch": 15.333333333333334,
      "grad_norm": 0.0021766209974884987,
      "learning_rate": 0.00019537316096882455,
      "loss": 0.0001,
      "step": 184
    },
    {
      "epoch": 15.416666666666666,
      "grad_norm": 0.0017889124574139714,
      "learning_rate": 0.00019532024600292113,
      "loss": 0.0001,
      "step": 185
    },
    {
      "epoch": 15.5,
      "grad_norm": 0.0014267426449805498,
      "learning_rate": 0.000195267037421688,
      "loss": 0.0001,
      "step": 186
    },
    {
      "epoch": 15.5,
      "eval_loss": 1.2477176189422607,
      "eval_runtime": 1.0021,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 186
    },
    {
      "epoch": 15.583333333333334,
      "grad_norm": 0.004096713848412037,
      "learning_rate": 0.00019521353538902374,
      "loss": 0.0001,
      "step": 187
    },
    {
      "epoch": 15.666666666666666,
      "grad_norm": 0.0014613686362281442,
      "learning_rate": 0.00019515974006973087,
      "loss": 0.0001,
      "step": 188
    },
    {
      "epoch": 15.75,
      "grad_norm": 0.0020331174600869417,
      "learning_rate": 0.00019510565162951537,
      "loss": 0.0001,
      "step": 189
    },
    {
      "epoch": 15.75,
      "eval_loss": 1.2630401849746704,
      "eval_runtime": 1.002,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 189
    },
    {
      "epoch": 15.833333333333334,
      "grad_norm": 0.0013418430462479591,
      "learning_rate": 0.000195051270234986,
      "loss": 0.0001,
      "step": 190
    },
    {
      "epoch": 15.916666666666666,
      "grad_norm": 0.0016558875795453787,
      "learning_rate": 0.00019499659605365404,
      "loss": 0.0001,
      "step": 191
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.0026047020219266415,
      "learning_rate": 0.0001949416292539326,
      "loss": 0.0001,
      "step": 192
    },
    {
      "epoch": 16.0,
      "eval_loss": 1.3221460580825806,
      "eval_runtime": 1.0043,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.987,
      "step": 192
    }
  ],
  "logging_steps": 1,
  "max_steps": 1800,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 150,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.36981317156864e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}