{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 107.25,
  "eval_steps": 3,
  "global_step": 1287,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 18.321439743041992,
      "learning_rate": 2e-05,
      "loss": 1.8769,
      "step": 1
    },
    {
      "epoch": 0.08333333333333333,
      "eval_loss": 2.966491222381592,
      "eval_runtime": 1.0184,
      "eval_samples_per_second": 4.91,
      "eval_steps_per_second": 2.946,
      "step": 1
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 16.561275482177734,
      "learning_rate": 4e-05,
      "loss": 1.7056,
      "step": 2
    },
    {
      "epoch": 0.25,
      "grad_norm": 16.205734252929688,
      "learning_rate": 6e-05,
      "loss": 1.546,
      "step": 3
    },
    {
      "epoch": 0.25,
      "eval_loss": 2.308955669403076,
      "eval_runtime": 1.0198,
      "eval_samples_per_second": 4.903,
      "eval_steps_per_second": 2.942,
      "step": 3
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 16.671236038208008,
      "learning_rate": 8e-05,
      "loss": 1.4192,
      "step": 4
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 14.08996295928955,
      "learning_rate": 0.0001,
      "loss": 1.1662,
      "step": 5
    },
    {
      "epoch": 0.5,
      "grad_norm": 12.764409065246582,
      "learning_rate": 0.00012,
      "loss": 0.8106,
      "step": 6
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.6963454484939575,
      "eval_runtime": 1.0048,
      "eval_samples_per_second": 4.976,
      "eval_steps_per_second": 2.986,
      "step": 6
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 8.302112579345703,
      "learning_rate": 0.00014,
      "loss": 0.3998,
      "step": 7
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 3.817727565765381,
      "learning_rate": 0.00016,
      "loss": 0.3669,
      "step": 8
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.211814880371094,
      "learning_rate": 0.00018,
      "loss": 0.3255,
      "step": 9
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.4474024176597595,
      "eval_runtime": 1.0049,
      "eval_samples_per_second": 4.976,
      "eval_steps_per_second": 2.985,
      "step": 9
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 3.1037936210632324,
      "learning_rate": 0.0002,
      "loss": 0.253,
      "step": 10
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 3.2983005046844482,
      "learning_rate": 0.0001999998459848028,
      "loss": 0.2914,
      "step": 11
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.3602309226989746,
      "learning_rate": 0.0001999993839396856,
      "loss": 0.3463,
      "step": 12
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.3919365108013153,
      "eval_runtime": 0.9985,
      "eval_samples_per_second": 5.008,
      "eval_steps_per_second": 3.005,
      "step": 12
    },
    {
      "epoch": 1.0833333333333333,
      "grad_norm": 2.5751211643218994,
      "learning_rate": 0.0001999986138660716,
      "loss": 0.2988,
      "step": 13
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 3.270535945892334,
      "learning_rate": 0.0001999975357663329,
      "loss": 0.3151,
      "step": 14
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.251652240753174,
      "learning_rate": 0.00019999614964379036,
      "loss": 0.1978,
      "step": 15
    },
    {
      "epoch": 1.25,
      "eval_loss": 0.4661407470703125,
      "eval_runtime": 1.0027,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 15
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 1.6643179655075073,
      "learning_rate": 0.0001999944555027137,
      "loss": 0.1706,
      "step": 16
    },
    {
      "epoch": 1.4166666666666667,
      "grad_norm": 1.8114616870880127,
      "learning_rate": 0.00019999245334832133,
      "loss": 0.1386,
      "step": 17
    },
    {
      "epoch": 1.5,
      "grad_norm": 2.2105395793914795,
      "learning_rate": 0.00019999014318678054,
      "loss": 0.2276,
      "step": 18
    },
    {
      "epoch": 1.5,
      "eval_loss": 0.5166952013969421,
      "eval_runtime": 0.9991,
      "eval_samples_per_second": 5.005,
      "eval_steps_per_second": 3.003,
      "step": 18
    },
    {
      "epoch": 1.5833333333333335,
      "grad_norm": 1.6479169130325317,
      "learning_rate": 0.00019998752502520728,
      "loss": 0.1349,
      "step": 19
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 3.390162706375122,
      "learning_rate": 0.00019998459887166634,
      "loss": 0.2242,
      "step": 20
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.7931389808654785,
      "learning_rate": 0.00019998136473517114,
      "loss": 0.1162,
      "step": 21
    },
    {
      "epoch": 1.75,
      "eval_loss": 0.5312313437461853,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.01,
      "step": 21
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 2.6181139945983887,
      "learning_rate": 0.0001999778226256838,
      "loss": 0.167,
      "step": 22
    },
    {
      "epoch": 1.9166666666666665,
      "grad_norm": 4.127359390258789,
      "learning_rate": 0.00019997397255411506,
      "loss": 0.2025,
      "step": 23
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.0757834911346436,
      "learning_rate": 0.00019996981453232436,
      "loss": 0.2171,
      "step": 24
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.4320703148841858,
      "eval_runtime": 0.9982,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.006,
      "step": 24
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 1.9323816299438477,
      "learning_rate": 0.00019996534857311967,
      "loss": 0.0888,
      "step": 25
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 3.021906614303589,
      "learning_rate": 0.00019996057469025744,
      "loss": 0.1112,
      "step": 26
    },
    {
      "epoch": 2.25,
      "grad_norm": 1.409601092338562,
      "learning_rate": 0.00019995549289844274,
      "loss": 0.0844,
      "step": 27
    },
    {
      "epoch": 2.25,
      "eval_loss": 0.4495156705379486,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 27
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.6781638860702515,
      "learning_rate": 0.00019995010321332906,
      "loss": 0.0284,
      "step": 28
    },
    {
      "epoch": 2.4166666666666665,
      "grad_norm": 1.5096784830093384,
      "learning_rate": 0.0001999444056515182,
      "loss": 0.0767,
      "step": 29
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.1880104541778564,
      "learning_rate": 0.00019993840023056043,
      "loss": 0.047,
      "step": 30
    },
    {
      "epoch": 2.5,
      "eval_loss": 0.6510509252548218,
      "eval_runtime": 1.0018,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 30
    },
    {
      "epoch": 2.5833333333333335,
      "grad_norm": 1.9514886140823364,
      "learning_rate": 0.00019993208696895422,
      "loss": 0.0853,
      "step": 31
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.8064122200012207,
      "learning_rate": 0.0001999254658861464,
      "loss": 0.0305,
      "step": 32
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7893635630607605,
      "learning_rate": 0.00019991853700253187,
      "loss": 0.0454,
      "step": 33
    },
    {
      "epoch": 2.75,
      "eval_loss": 0.7423492074012756,
      "eval_runtime": 1.0597,
      "eval_samples_per_second": 4.718,
      "eval_steps_per_second": 2.831,
      "step": 33
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 0.9772611856460571,
      "learning_rate": 0.00019991130033945368,
      "loss": 0.0391,
      "step": 34
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 0.7498050928115845,
      "learning_rate": 0.00019990375591920302,
      "loss": 0.0263,
      "step": 35
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6373388767242432,
      "learning_rate": 0.00019989590376501894,
      "loss": 0.0181,
      "step": 36
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.7701675295829773,
      "eval_runtime": 0.9994,
      "eval_samples_per_second": 5.003,
      "eval_steps_per_second": 3.002,
      "step": 36
    },
    {
      "epoch": 3.0833333333333335,
      "grad_norm": 0.2939666211605072,
      "learning_rate": 0.0001998877439010885,
      "loss": 0.0071,
      "step": 37
    },
    {
      "epoch": 3.1666666666666665,
      "grad_norm": 0.3313266336917877,
      "learning_rate": 0.00019987927635254656,
      "loss": 0.0091,
      "step": 38
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.24132607877254486,
      "learning_rate": 0.0001998705011454757,
      "loss": 0.0074,
      "step": 39
    },
    {
      "epoch": 3.25,
      "eval_loss": 0.821164608001709,
      "eval_runtime": 0.9992,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 39
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.4473284184932709,
      "learning_rate": 0.00019986141830690625,
      "loss": 0.0097,
      "step": 40
    },
    {
      "epoch": 3.4166666666666665,
      "grad_norm": 0.36039742827415466,
      "learning_rate": 0.00019985202786481612,
      "loss": 0.0072,
      "step": 41
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.25298011302948,
      "learning_rate": 0.0001998423298481307,
      "loss": 0.0044,
      "step": 42
    },
    {
      "epoch": 3.5,
      "eval_loss": 0.9113298654556274,
      "eval_runtime": 1.0009,
      "eval_samples_per_second": 4.995,
      "eval_steps_per_second": 2.997,
      "step": 42
    },
    {
      "epoch": 3.5833333333333335,
      "grad_norm": 0.20523716509342194,
      "learning_rate": 0.0001998323242867229,
      "loss": 0.0033,
      "step": 43
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.031074421480298042,
      "learning_rate": 0.00019982201121141282,
      "loss": 0.0008,
      "step": 44
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.21951285004615784,
      "learning_rate": 0.00019981139065396785,
      "loss": 0.0035,
      "step": 45
    },
    {
      "epoch": 3.75,
      "eval_loss": 0.9088179469108582,
      "eval_runtime": 1.0239,
      "eval_samples_per_second": 4.883,
      "eval_steps_per_second": 2.93,
      "step": 45
    },
    {
      "epoch": 3.8333333333333335,
      "grad_norm": 0.05267144739627838,
      "learning_rate": 0.00019980046264710263,
      "loss": 0.0013,
      "step": 46
    },
    {
      "epoch": 3.9166666666666665,
      "grad_norm": 0.05938415974378586,
      "learning_rate": 0.00019978922722447865,
      "loss": 0.0014,
      "step": 47
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.536919116973877,
      "learning_rate": 0.00019977768442070443,
      "loss": 0.0076,
      "step": 48
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.9346898198127747,
      "eval_runtime": 1.0106,
      "eval_samples_per_second": 4.948,
      "eval_steps_per_second": 2.969,
      "step": 48
    },
    {
      "epoch": 4.083333333333333,
      "grad_norm": 0.02495948225259781,
      "learning_rate": 0.0001997658342713354,
      "loss": 0.0006,
      "step": 49
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.09865710139274597,
      "learning_rate": 0.00019975367681287356,
      "loss": 0.0017,
      "step": 50
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.029543787240982056,
      "learning_rate": 0.00019974121208276758,
      "loss": 0.0008,
      "step": 51
    },
    {
      "epoch": 4.25,
      "eval_loss": 0.9875212907791138,
      "eval_runtime": 1.0117,
      "eval_samples_per_second": 4.942,
      "eval_steps_per_second": 2.965,
      "step": 51
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.017520904541015625,
      "learning_rate": 0.00019972844011941258,
      "loss": 0.0004,
      "step": 52
    },
    {
      "epoch": 4.416666666666667,
      "grad_norm": 0.019872482866048813,
      "learning_rate": 0.00019971536096215017,
      "loss": 0.0006,
      "step": 53
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.23468434810638428,
      "learning_rate": 0.00019970197465126808,
      "loss": 0.0018,
      "step": 54
    },
    {
      "epoch": 4.5,
      "eval_loss": 1.0314465761184692,
      "eval_runtime": 1.048,
      "eval_samples_per_second": 4.771,
      "eval_steps_per_second": 2.863,
      "step": 54
    },
    {
      "epoch": 4.583333333333333,
      "grad_norm": 0.09857720136642456,
      "learning_rate": 0.00019968828122800023,
      "loss": 0.0009,
      "step": 55
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.04741726443171501,
      "learning_rate": 0.00019967428073452653,
      "loss": 0.0007,
      "step": 56
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.09676219522953033,
      "learning_rate": 0.00019965997321397274,
      "loss": 0.0008,
      "step": 57
    },
    {
      "epoch": 4.75,
      "eval_loss": 1.1343060731887817,
      "eval_runtime": 1.0442,
      "eval_samples_per_second": 4.788,
      "eval_steps_per_second": 2.873,
      "step": 57
    },
    {
      "epoch": 4.833333333333333,
      "grad_norm": 0.011569831520318985,
      "learning_rate": 0.00019964535871041034,
      "loss": 0.0004,
      "step": 58
    },
    {
      "epoch": 4.916666666666667,
      "grad_norm": 0.007966884411871433,
      "learning_rate": 0.00019963043726885652,
      "loss": 0.0003,
      "step": 59
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.07261084765195847,
      "learning_rate": 0.00019961520893527383,
      "loss": 0.0007,
      "step": 60
    },
    {
      "epoch": 5.0,
      "eval_loss": 1.1936529874801636,
      "eval_runtime": 1.0188,
      "eval_samples_per_second": 4.908,
      "eval_steps_per_second": 2.945,
      "step": 60
    },
    {
      "epoch": 5.083333333333333,
      "grad_norm": 0.07245349138975143,
      "learning_rate": 0.00019959967375657013,
      "loss": 0.0011,
      "step": 61
    },
    {
      "epoch": 5.166666666666667,
      "grad_norm": 0.011179454624652863,
      "learning_rate": 0.00019958383178059853,
      "loss": 0.0003,
      "step": 62
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.0166336577385664,
      "learning_rate": 0.00019956768305615712,
      "loss": 0.0004,
      "step": 63
    },
    {
      "epoch": 5.25,
      "eval_loss": 1.233989953994751,
      "eval_runtime": 1.0081,
      "eval_samples_per_second": 4.96,
      "eval_steps_per_second": 2.976,
      "step": 63
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.01408514566719532,
      "learning_rate": 0.00019955122763298886,
      "loss": 0.0004,
      "step": 64
    },
    {
      "epoch": 5.416666666666667,
      "grad_norm": 0.008439848199486732,
      "learning_rate": 0.0001995344655617815,
      "loss": 0.0002,
      "step": 65
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.01138551626354456,
      "learning_rate": 0.00019951739689416727,
      "loss": 0.0003,
      "step": 66
    },
    {
      "epoch": 5.5,
      "eval_loss": 1.2637255191802979,
      "eval_runtime": 1.0024,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 66
    },
    {
      "epoch": 5.583333333333333,
      "grad_norm": 0.011877048760652542,
      "learning_rate": 0.00019950002168272283,
      "loss": 0.0004,
      "step": 67
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 0.006235960870981216,
      "learning_rate": 0.0001994823399809692,
      "loss": 0.0002,
      "step": 68
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.5171953439712524,
      "learning_rate": 0.00019946435184337133,
      "loss": 0.0029,
      "step": 69
    },
    {
      "epoch": 5.75,
      "eval_loss": 1.2731075286865234,
      "eval_runtime": 1.0041,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.988,
      "step": 69
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 0.007858390919864178,
      "learning_rate": 0.00019944605732533818,
      "loss": 0.0004,
      "step": 70
    },
    {
      "epoch": 5.916666666666667,
      "grad_norm": 0.006160305812954903,
      "learning_rate": 0.0001994274564832224,
      "loss": 0.0002,
      "step": 71
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.008595510385930538,
      "learning_rate": 0.00019940854937432025,
      "loss": 0.0002,
      "step": 72
    },
    {
      "epoch": 6.0,
      "eval_loss": 1.2578288316726685,
      "eval_runtime": 1.0075,
      "eval_samples_per_second": 4.963,
      "eval_steps_per_second": 2.978,
      "step": 72
    },
    {
      "epoch": 6.083333333333333,
      "grad_norm": 0.009983099065721035,
      "learning_rate": 0.0001993893360568714,
      "loss": 0.0003,
      "step": 73
    },
    {
      "epoch": 6.166666666666667,
      "grad_norm": 0.019415004178881645,
      "learning_rate": 0.00019936981659005867,
      "loss": 0.0004,
      "step": 74
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.0086536118760705,
      "learning_rate": 0.00019934999103400796,
      "loss": 0.0003,
      "step": 75
    },
    {
      "epoch": 6.25,
      "eval_loss": 1.2853734493255615,
      "eval_runtime": 1.0014,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 75
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 0.0041904328390955925,
      "learning_rate": 0.00019932985944978802,
      "loss": 0.0002,
      "step": 76
    },
    {
      "epoch": 6.416666666666667,
      "grad_norm": 0.0054719713516533375,
      "learning_rate": 0.0001993094218994102,
      "loss": 0.0002,
      "step": 77
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.04392923787236214,
      "learning_rate": 0.00019928867844582843,
      "loss": 0.0004,
      "step": 78
    },
    {
      "epoch": 6.5,
      "eval_loss": 1.2088360786437988,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 78
    },
    {
      "epoch": 6.583333333333333,
      "grad_norm": 0.00761830061674118,
      "learning_rate": 0.00019926762915293883,
      "loss": 0.0003,
      "step": 79
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.007334854919463396,
      "learning_rate": 0.00019924627408557963,
      "loss": 0.0002,
      "step": 80
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.011454805731773376,
      "learning_rate": 0.00019922461330953092,
      "loss": 0.0002,
      "step": 81
    },
    {
      "epoch": 6.75,
      "eval_loss": 1.2363653182983398,
      "eval_runtime": 1.0209,
      "eval_samples_per_second": 4.898,
      "eval_steps_per_second": 2.939,
      "step": 81
    },
    {
      "epoch": 6.833333333333333,
      "grad_norm": 0.0074494462460279465,
      "learning_rate": 0.00019920264689151444,
      "loss": 0.0002,
      "step": 82
    },
    {
      "epoch": 6.916666666666667,
      "grad_norm": 0.005181374493986368,
      "learning_rate": 0.00019918037489919348,
      "loss": 0.0002,
      "step": 83
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.009433169849216938,
      "learning_rate": 0.00019915779740117253,
      "loss": 0.0003,
      "step": 84
    },
    {
      "epoch": 7.0,
      "eval_loss": 1.3035067319869995,
      "eval_runtime": 1.0152,
      "eval_samples_per_second": 4.925,
      "eval_steps_per_second": 2.955,
      "step": 84
    },
    {
      "epoch": 7.083333333333333,
      "grad_norm": 0.003880379255861044,
      "learning_rate": 0.00019913491446699714,
      "loss": 0.0002,
      "step": 85
    },
    {
      "epoch": 7.166666666666667,
      "grad_norm": 0.01116390060633421,
      "learning_rate": 0.0001991117261671537,
      "loss": 0.0002,
      "step": 86
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.008482172153890133,
      "learning_rate": 0.00019908823257306924,
      "loss": 0.0002,
      "step": 87
    },
    {
      "epoch": 7.25,
      "eval_loss": 1.2437602281570435,
      "eval_runtime": 0.9969,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.009,
      "step": 87
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.012505721300840378,
      "learning_rate": 0.00019906443375711117,
      "loss": 0.0003,
      "step": 88
    },
    {
      "epoch": 7.416666666666667,
      "grad_norm": 2.411334991455078,
      "learning_rate": 0.00019904032979258708,
      "loss": 0.063,
      "step": 89
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.005176869221031666,
      "learning_rate": 0.00019901592075374447,
      "loss": 0.0002,
      "step": 90
    },
    {
      "epoch": 7.5,
      "eval_loss": 1.215416431427002,
      "eval_runtime": 1.0086,
      "eval_samples_per_second": 4.957,
      "eval_steps_per_second": 2.974,
      "step": 90
    },
    {
      "epoch": 7.583333333333333,
      "grad_norm": 0.0047805411741137505,
      "learning_rate": 0.00019899120671577062,
      "loss": 0.0002,
      "step": 91
    },
    {
      "epoch": 7.666666666666667,
      "grad_norm": 0.004977677017450333,
      "learning_rate": 0.0001989661877547923,
      "loss": 0.0002,
      "step": 92
    },
    {
      "epoch": 7.75,
      "grad_norm": 0.006376943551003933,
      "learning_rate": 0.0001989408639478755,
      "loss": 0.0002,
      "step": 93
    },
    {
      "epoch": 7.75,
      "eval_loss": 1.1592028141021729,
      "eval_runtime": 1.0029,
      "eval_samples_per_second": 4.985,
      "eval_steps_per_second": 2.991,
      "step": 93
    },
    {
      "epoch": 7.833333333333333,
      "grad_norm": 0.01837480068206787,
      "learning_rate": 0.00019891523537302522,
      "loss": 0.0005,
      "step": 94
    },
    {
      "epoch": 7.916666666666667,
      "grad_norm": 0.044409509748220444,
      "learning_rate": 0.00019888930210918527,
      "loss": 0.0008,
      "step": 95
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.0097122173756361,
      "learning_rate": 0.000198863064236238,
      "loss": 0.0002,
      "step": 96
    },
    {
      "epoch": 8.0,
      "eval_loss": 1.1519960165023804,
      "eval_runtime": 1.0024,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 96
    },
    {
      "epoch": 8.083333333333334,
      "grad_norm": 0.13420462608337402,
      "learning_rate": 0.00019883652183500403,
      "loss": 0.0016,
      "step": 97
    },
    {
      "epoch": 8.166666666666666,
      "grad_norm": 0.1956610232591629,
      "learning_rate": 0.00019880967498724203,
      "loss": 0.0019,
      "step": 98
    },
    {
      "epoch": 8.25,
      "grad_norm": 0.06474520266056061,
      "learning_rate": 0.00019878252377564845,
      "loss": 0.001,
      "step": 99
    },
    {
      "epoch": 8.25,
      "eval_loss": 1.2046459913253784,
      "eval_runtime": 1.0042,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.987,
      "step": 99
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.024415887892246246,
      "learning_rate": 0.00019875506828385722,
      "loss": 0.0006,
      "step": 100
    },
    {
      "epoch": 8.416666666666666,
      "grad_norm": 0.42121440172195435,
      "learning_rate": 0.00019872730859643966,
      "loss": 0.0028,
      "step": 101
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.01133190281689167,
      "learning_rate": 0.00019869924479890404,
      "loss": 0.0003,
      "step": 102
    },
    {
      "epoch": 8.5,
      "eval_loss": 1.2598035335540771,
      "eval_runtime": 1.0023,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 102
    },
    {
      "epoch": 8.583333333333334,
      "grad_norm": 0.028919192031025887,
      "learning_rate": 0.0001986708769776954,
      "loss": 0.0004,
      "step": 103
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 0.02341923862695694,
      "learning_rate": 0.00019864220522019518,
      "loss": 0.0004,
      "step": 104
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.006619466468691826,
      "learning_rate": 0.00019861322961472116,
      "loss": 0.0002,
      "step": 105
    },
    {
      "epoch": 8.75,
      "eval_loss": 1.3082973957061768,
      "eval_runtime": 1.0032,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.991,
      "step": 105
    },
    {
      "epoch": 8.833333333333334,
      "grad_norm": 0.03367730230093002,
      "learning_rate": 0.00019858395025052706,
      "loss": 0.0006,
      "step": 106
    },
    {
      "epoch": 8.916666666666666,
      "grad_norm": 0.012332913465797901,
      "learning_rate": 0.00019855436721780213,
      "loss": 0.0003,
      "step": 107
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.009150455705821514,
      "learning_rate": 0.00019852448060767112,
      "loss": 0.0003,
      "step": 108
    },
    {
      "epoch": 9.0,
      "eval_loss": 1.3272632360458374,
      "eval_runtime": 1.0039,
      "eval_samples_per_second": 4.981,
      "eval_steps_per_second": 2.988,
      "step": 108
    },
    {
      "epoch": 9.083333333333334,
      "grad_norm": 0.0070456513203680515,
      "learning_rate": 0.00019849429051219393,
      "loss": 0.0002,
      "step": 109
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.008276679553091526,
      "learning_rate": 0.00019846379702436517,
      "loss": 0.0002,
      "step": 110
    },
    {
      "epoch": 9.25,
      "grad_norm": 0.03193563222885132,
      "learning_rate": 0.00019843300023811408,
      "loss": 0.0005,
      "step": 111
    },
    {
      "epoch": 9.25,
      "eval_loss": 1.317318320274353,
      "eval_runtime": 1.0054,
      "eval_samples_per_second": 4.973,
      "eval_steps_per_second": 2.984,
      "step": 111
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 0.029139867052435875,
      "learning_rate": 0.0001984019002483041,
      "loss": 0.0005,
      "step": 112
    },
    {
      "epoch": 9.416666666666666,
      "grad_norm": 0.014614199288189411,
      "learning_rate": 0.0001983704971507327,
      "loss": 0.0003,
      "step": 113
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.015501927584409714,
      "learning_rate": 0.0001983387910421309,
      "loss": 0.0003,
      "step": 114
    },
    {
      "epoch": 9.5,
      "eval_loss": 1.2658326625823975,
      "eval_runtime": 0.9949,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 3.015,
      "step": 114
    },
    {
      "epoch": 9.583333333333334,
      "grad_norm": 0.0044679041020572186,
      "learning_rate": 0.0001983067820201632,
      "loss": 0.0002,
      "step": 115
    },
    {
      "epoch": 9.666666666666666,
      "grad_norm": 0.004195045214146376,
      "learning_rate": 0.00019827447018342712,
      "loss": 0.0002,
      "step": 116
    },
    {
      "epoch": 9.75,
      "grad_norm": 0.006220120470970869,
      "learning_rate": 0.0001982418556314529,
      "loss": 0.0002,
      "step": 117
    },
    {
      "epoch": 9.75,
      "eval_loss": 1.3598058223724365,
      "eval_runtime": 0.9959,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 117
    },
    {
      "epoch": 9.833333333333334,
      "grad_norm": 0.006718598771840334,
      "learning_rate": 0.0001982089384647033,
      "loss": 0.0002,
      "step": 118
    },
    {
      "epoch": 9.916666666666666,
      "grad_norm": 0.0072190724313259125,
      "learning_rate": 0.00019817571878457318,
      "loss": 0.0002,
      "step": 119
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.002855106024071574,
      "learning_rate": 0.00019814219669338928,
      "loss": 0.0001,
      "step": 120
    },
    {
      "epoch": 10.0,
      "eval_loss": 1.3506109714508057,
      "eval_runtime": 1.0062,
      "eval_samples_per_second": 4.969,
      "eval_steps_per_second": 2.982,
      "step": 120
    },
    {
      "epoch": 10.083333333333334,
      "grad_norm": 0.0038296151906251907,
      "learning_rate": 0.0001981083722944098,
      "loss": 0.0001,
      "step": 121
    },
    {
      "epoch": 10.166666666666666,
      "grad_norm": 0.00729400897398591,
      "learning_rate": 0.0001980742456918242,
      "loss": 0.0002,
      "step": 122
    },
    {
      "epoch": 10.25,
      "grad_norm": 0.01579378917813301,
      "learning_rate": 0.00019803981699075273,
      "loss": 0.0003,
      "step": 123
    },
    {
      "epoch": 10.25,
      "eval_loss": 1.2966080904006958,
      "eval_runtime": 1.0051,
      "eval_samples_per_second": 4.975,
      "eval_steps_per_second": 2.985,
      "step": 123
    },
    {
      "epoch": 10.333333333333334,
      "grad_norm": 0.009087709710001945,
      "learning_rate": 0.00019800508629724633,
      "loss": 0.0002,
      "step": 124
    },
    {
      "epoch": 10.416666666666666,
      "grad_norm": 0.007276953663676977,
      "learning_rate": 0.00019797005371828604,
      "loss": 0.0002,
      "step": 125
    },
    {
      "epoch": 10.5,
      "grad_norm": 0.005232817493379116,
      "learning_rate": 0.00019793471936178285,
      "loss": 0.0002,
      "step": 126
    },
    {
      "epoch": 10.5,
      "eval_loss": 1.236280918121338,
      "eval_runtime": 0.9948,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 3.016,
      "step": 126
    },
    {
      "epoch": 10.583333333333334,
      "grad_norm": 0.003949979320168495,
      "learning_rate": 0.00019789908333657733,
      "loss": 0.0001,
      "step": 127
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.009052672423422337,
      "learning_rate": 0.0001978631457524393,
      "loss": 0.0002,
      "step": 128
    },
    {
      "epoch": 10.75,
      "grad_norm": 0.002537698484957218,
      "learning_rate": 0.00019782690672006742,
      "loss": 0.0001,
      "step": 129
    },
    {
      "epoch": 10.75,
      "eval_loss": 1.3194478750228882,
      "eval_runtime": 1.0035,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 129
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.011329089291393757,
      "learning_rate": 0.0001977903663510889,
      "loss": 0.0003,
      "step": 130
    },
    {
      "epoch": 10.916666666666666,
      "grad_norm": 0.0027327709831297398,
      "learning_rate": 0.00019775352475805925,
      "loss": 0.0001,
      "step": 131
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.004424929153174162,
      "learning_rate": 0.00019771638205446168,
      "loss": 0.0001,
      "step": 132
    },
    {
      "epoch": 11.0,
      "eval_loss": 1.2647757530212402,
      "eval_runtime": 1.006,
      "eval_samples_per_second": 4.97,
      "eval_steps_per_second": 2.982,
      "step": 132
    },
    {
      "epoch": 11.083333333333334,
      "grad_norm": 0.002624769229441881,
      "learning_rate": 0.00019767893835470707,
      "loss": 0.0001,
      "step": 133
    },
    {
      "epoch": 11.166666666666666,
      "grad_norm": 0.0037121030036360025,
      "learning_rate": 0.00019764119377413338,
      "loss": 0.0002,
      "step": 134
    },
    {
      "epoch": 11.25,
      "grad_norm": 0.003075383370742202,
      "learning_rate": 0.00019760314842900539,
      "loss": 0.0001,
      "step": 135
    },
    {
      "epoch": 11.25,
      "eval_loss": 1.2167189121246338,
      "eval_runtime": 1.0036,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 135
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.0030458325054496527,
      "learning_rate": 0.00019756480243651432,
      "loss": 0.0001,
      "step": 136
    },
    {
      "epoch": 11.416666666666666,
      "grad_norm": 0.005058998242020607,
      "learning_rate": 0.0001975261559147775,
      "loss": 0.0001,
      "step": 137
    },
    {
      "epoch": 11.5,
      "grad_norm": 0.0027282743249088526,
      "learning_rate": 0.00019748720898283794,
      "loss": 0.0001,
      "step": 138
    },
    {
      "epoch": 11.5,
      "eval_loss": 1.1802990436553955,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 138
    },
    {
      "epoch": 11.583333333333334,
      "grad_norm": 0.0022623680997639894,
      "learning_rate": 0.00019744796176066404,
      "loss": 0.0001,
      "step": 139
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.003738392610102892,
      "learning_rate": 0.00019740841436914917,
      "loss": 0.0001,
      "step": 140
    },
    {
      "epoch": 11.75,
      "grad_norm": 0.006619980093091726,
      "learning_rate": 0.00019736856693011135,
      "loss": 0.0002,
      "step": 141
    },
    {
      "epoch": 11.75,
      "eval_loss": 1.2323724031448364,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 141
    },
    {
      "epoch": 11.833333333333334,
      "grad_norm": 0.003048243233934045,
      "learning_rate": 0.00019732841956629274,
      "loss": 0.0001,
      "step": 142
    },
    {
      "epoch": 11.916666666666666,
      "grad_norm": 0.005489699076861143,
      "learning_rate": 0.00019728797240135948,
      "loss": 0.0002,
      "step": 143
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.0033994840923696756,
      "learning_rate": 0.00019724722555990108,
      "loss": 0.0001,
      "step": 144
    },
    {
      "epoch": 12.0,
      "eval_loss": 1.2216131687164307,
      "eval_runtime": 1.0227,
      "eval_samples_per_second": 4.889,
      "eval_steps_per_second": 2.933,
      "step": 144
    },
    {
      "epoch": 12.083333333333334,
      "grad_norm": 0.008786541409790516,
      "learning_rate": 0.00019720617916743022,
      "loss": 0.0002,
      "step": 145
    },
    {
      "epoch": 12.166666666666666,
      "grad_norm": 0.004269069526344538,
      "learning_rate": 0.0001971648333503823,
      "loss": 0.0001,
      "step": 146
    },
    {
      "epoch": 12.25,
      "grad_norm": 0.0018633886938914657,
      "learning_rate": 0.00019712318823611496,
      "loss": 0.0001,
      "step": 147
    },
    {
      "epoch": 12.25,
      "eval_loss": 1.2424652576446533,
      "eval_runtime": 0.9992,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 147
    },
    {
      "epoch": 12.333333333333334,
      "grad_norm": 0.0037659883964806795,
      "learning_rate": 0.00019708124395290783,
      "loss": 0.0001,
      "step": 148
    },
    {
      "epoch": 12.416666666666666,
      "grad_norm": 0.0022014155983924866,
      "learning_rate": 0.00019703900062996205,
      "loss": 0.0001,
      "step": 149
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.002862535882741213,
      "learning_rate": 0.00019699645839739985,
      "loss": 0.0001,
      "step": 150
    },
    {
      "epoch": 12.5,
      "eval_loss": 1.2824660539627075,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 150
    },
    {
      "epoch": 12.583333333333334,
      "grad_norm": 0.00279458099976182,
      "learning_rate": 0.00019695361738626433,
      "loss": 0.0001,
      "step": 151
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.002750468673184514,
      "learning_rate": 0.00019691047772851873,
      "loss": 0.0001,
      "step": 152
    },
    {
      "epoch": 12.75,
      "grad_norm": 0.0021071576047688723,
      "learning_rate": 0.00019686703955704634,
      "loss": 0.0001,
      "step": 153
    },
    {
      "epoch": 12.75,
      "eval_loss": 1.2110233306884766,
      "eval_runtime": 1.0003,
      "eval_samples_per_second": 4.999,
      "eval_steps_per_second": 2.999,
      "step": 153
    },
    {
      "epoch": 12.833333333333334,
      "grad_norm": 0.0013178765075281262,
      "learning_rate": 0.00019682330300564997,
      "loss": 0.0001,
      "step": 154
    },
    {
      "epoch": 12.916666666666666,
      "grad_norm": 0.005062974989414215,
      "learning_rate": 0.00019677926820905144,
      "loss": 0.0002,
      "step": 155
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.0027265942189842463,
      "learning_rate": 0.00019673493530289132,
      "loss": 0.0001,
      "step": 156
    },
    {
      "epoch": 13.0,
      "eval_loss": 1.2150756120681763,
      "eval_runtime": 1.014,
      "eval_samples_per_second": 4.931,
      "eval_steps_per_second": 2.959,
      "step": 156
    },
    {
      "epoch": 13.083333333333334,
      "grad_norm": 0.004011066164821386,
      "learning_rate": 0.00019669030442372846,
      "loss": 0.0002,
      "step": 157
    },
    {
      "epoch": 13.166666666666666,
      "grad_norm": 0.0022254104260355234,
      "learning_rate": 0.00019664537570903952,
      "loss": 0.0001,
      "step": 158
    },
    {
      "epoch": 13.25,
      "grad_norm": 0.0019367565400898457,
      "learning_rate": 0.00019660014929721858,
      "loss": 0.0001,
      "step": 159
    },
    {
      "epoch": 13.25,
      "eval_loss": 1.2413427829742432,
      "eval_runtime": 1.0048,
      "eval_samples_per_second": 4.976,
      "eval_steps_per_second": 2.986,
      "step": 159
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.004818584304302931,
      "learning_rate": 0.00019655462532757676,
      "loss": 0.0002,
      "step": 160
    },
    {
      "epoch": 13.416666666666666,
      "grad_norm": 0.003023201832547784,
      "learning_rate": 0.00019650880394034173,
      "loss": 0.0001,
      "step": 161
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.0017505192663520575,
      "learning_rate": 0.0001964626852766572,
      "loss": 0.0001,
      "step": 162
    },
    {
      "epoch": 13.5,
      "eval_loss": 1.2589879035949707,
      "eval_runtime": 1.0106,
      "eval_samples_per_second": 4.948,
      "eval_steps_per_second": 2.969,
      "step": 162
    },
    {
      "epoch": 13.583333333333334,
      "grad_norm": 0.0020996497478336096,
      "learning_rate": 0.0001964162694785828,
      "loss": 0.0001,
      "step": 163
    },
    {
      "epoch": 13.666666666666666,
      "grad_norm": 0.0015256914775818586,
      "learning_rate": 0.00019636955668909324,
      "loss": 0.0001,
      "step": 164
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.0024543164763599634,
      "learning_rate": 0.0001963225470520781,
      "loss": 0.0001,
      "step": 165
    },
    {
      "epoch": 13.75,
      "eval_loss": 1.2548372745513916,
      "eval_runtime": 1.0036,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 165
    },
    {
      "epoch": 13.833333333333334,
      "grad_norm": 0.0029590551275759935,
      "learning_rate": 0.00019627524071234138,
      "loss": 0.0001,
      "step": 166
    },
    {
      "epoch": 13.916666666666666,
      "grad_norm": 0.0020896506030112505,
      "learning_rate": 0.00019622763781560094,
      "loss": 0.0001,
      "step": 167
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.0020225539337843657,
      "learning_rate": 0.00019617973850848822,
      "loss": 0.0001,
      "step": 168
    },
    {
      "epoch": 14.0,
      "eval_loss": 1.2527357339859009,
      "eval_runtime": 1.007,
      "eval_samples_per_second": 4.965,
      "eval_steps_per_second": 2.979,
      "step": 168
    },
    {
      "epoch": 14.083333333333334,
      "grad_norm": 0.001954326406121254,
      "learning_rate": 0.00019613154293854755,
      "loss": 0.0001,
      "step": 169
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.002824195893481374,
      "learning_rate": 0.00019608305125423607,
      "loss": 0.0001,
      "step": 170
    },
    {
      "epoch": 14.25,
      "grad_norm": 0.0017506727017462254,
      "learning_rate": 0.00019603426360492284,
      "loss": 0.0001,
      "step": 171
    },
    {
      "epoch": 14.25,
      "eval_loss": 1.229520559310913,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 171
    },
    {
      "epoch": 14.333333333333334,
      "grad_norm": 0.0016608445439487696,
      "learning_rate": 0.0001959851801408886,
      "loss": 0.0001,
      "step": 172
    },
    {
      "epoch": 14.416666666666666,
      "grad_norm": 0.003563026199117303,
      "learning_rate": 0.00019593580101332544,
      "loss": 0.0002,
      "step": 173
    },
    {
      "epoch": 14.5,
      "grad_norm": 0.002062347950413823,
      "learning_rate": 0.00019588612637433598,
      "loss": 0.0001,
      "step": 174
    },
    {
      "epoch": 14.5,
      "eval_loss": 1.3049293756484985,
      "eval_runtime": 1.0003,
      "eval_samples_per_second": 4.998,
      "eval_steps_per_second": 2.999,
      "step": 174
    },
    {
      "epoch": 14.583333333333334,
      "grad_norm": 0.002516463864594698,
      "learning_rate": 0.00019583615637693328,
      "loss": 0.0001,
      "step": 175
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.0018197526223957539,
      "learning_rate": 0.0001957858911750401,
      "loss": 0.0001,
      "step": 176
    },
    {
      "epoch": 14.75,
      "grad_norm": 0.001751432311721146,
      "learning_rate": 0.00019573533092348853,
      "loss": 0.0001,
      "step": 177
    },
    {
      "epoch": 14.75,
      "eval_loss": 1.2655537128448486,
      "eval_runtime": 1.0016,
      "eval_samples_per_second": 4.992,
      "eval_steps_per_second": 2.995,
      "step": 177
    },
    {
      "epoch": 14.833333333333334,
      "grad_norm": 0.0021559814922511578,
      "learning_rate": 0.00019568447577801953,
      "loss": 0.0001,
      "step": 178
    },
    {
      "epoch": 14.916666666666666,
      "grad_norm": 0.0014471221948042512,
      "learning_rate": 0.00019563332589528235,
      "loss": 0.0001,
      "step": 179
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.003157020313665271,
      "learning_rate": 0.00019558188143283426,
      "loss": 0.0001,
      "step": 180
    },
    {
      "epoch": 15.0,
      "eval_loss": 1.2832013368606567,
      "eval_runtime": 1.0043,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 180
    },
    {
      "epoch": 15.083333333333334,
      "grad_norm": 0.002556655090302229,
      "learning_rate": 0.00019553014254913978,
      "loss": 0.0001,
      "step": 181
    },
    {
      "epoch": 15.166666666666666,
      "grad_norm": 0.0013463579816743731,
      "learning_rate": 0.0001954781094035704,
      "loss": 0.0001,
      "step": 182
    },
    {
      "epoch": 15.25,
      "grad_norm": 0.002447038423269987,
      "learning_rate": 0.00019542578215640406,
      "loss": 0.0001,
      "step": 183
    },
    {
      "epoch": 15.25,
      "eval_loss": 1.2666196823120117,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 183
    },
    {
      "epoch": 15.333333333333334,
      "grad_norm": 0.0021766209974884987,
      "learning_rate": 0.00019537316096882455,
      "loss": 0.0001,
      "step": 184
    },
    {
      "epoch": 15.416666666666666,
      "grad_norm": 0.0017889124574139714,
      "learning_rate": 0.00019532024600292113,
      "loss": 0.0001,
      "step": 185
    },
    {
      "epoch": 15.5,
      "grad_norm": 0.0014267426449805498,
      "learning_rate": 0.000195267037421688,
      "loss": 0.0001,
      "step": 186
    },
    {
      "epoch": 15.5,
      "eval_loss": 1.2477176189422607,
      "eval_runtime": 1.0021,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 186
    },
    {
      "epoch": 15.583333333333334,
      "grad_norm": 0.004096713848412037,
      "learning_rate": 0.00019521353538902374,
      "loss": 0.0001,
      "step": 187
    },
    {
      "epoch": 15.666666666666666,
      "grad_norm": 0.0014613686362281442,
      "learning_rate": 0.00019515974006973087,
      "loss": 0.0001,
      "step": 188
    },
    {
      "epoch": 15.75,
      "grad_norm": 0.0020331174600869417,
      "learning_rate": 0.00019510565162951537,
      "loss": 0.0001,
      "step": 189
    },
    {
      "epoch": 15.75,
      "eval_loss": 1.2630401849746704,
      "eval_runtime": 1.002,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 189
    },
    {
      "epoch": 15.833333333333334,
      "grad_norm": 0.0013418430462479591,
      "learning_rate": 0.000195051270234986,
      "loss": 0.0001,
      "step": 190
    },
    {
      "epoch": 15.916666666666666,
      "grad_norm": 0.0016558875795453787,
      "learning_rate": 0.00019499659605365404,
      "loss": 0.0001,
      "step": 191
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.0026047020219266415,
      "learning_rate": 0.0001949416292539326,
      "loss": 0.0001,
      "step": 192
    },
    {
      "epoch": 16.0,
      "eval_loss": 1.3221460580825806,
      "eval_runtime": 1.0043,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.987,
      "step": 192
    },
    {
      "epoch": 16.083333333333332,
      "grad_norm": 0.00256721256300807,
      "learning_rate": 0.00019488637000513603,
      "loss": 0.0001,
      "step": 193
    },
    {
      "epoch": 16.166666666666668,
      "grad_norm": 0.003127788659185171,
      "learning_rate": 0.00019483081847747972,
      "loss": 0.0001,
      "step": 194
    },
    {
      "epoch": 16.25,
      "grad_norm": 0.001282612793147564,
      "learning_rate": 0.00019477497484207923,
      "loss": 0.0001,
      "step": 195
    },
    {
      "epoch": 16.25,
      "eval_loss": 1.2862462997436523,
      "eval_runtime": 1.0073,
      "eval_samples_per_second": 4.964,
      "eval_steps_per_second": 2.978,
      "step": 195
    },
    {
      "epoch": 16.333333333333332,
      "grad_norm": 0.0019948019180446863,
      "learning_rate": 0.0001947188392709499,
      "loss": 0.0001,
      "step": 196
    },
    {
      "epoch": 16.416666666666668,
      "grad_norm": 0.0029376880265772343,
      "learning_rate": 0.0001946624119370064,
      "loss": 0.0001,
      "step": 197
    },
    {
      "epoch": 16.5,
      "grad_norm": 0.0012510218657553196,
      "learning_rate": 0.00019460569301406203,
      "loss": 0.0001,
      "step": 198
    },
    {
      "epoch": 16.5,
      "eval_loss": 1.2606778144836426,
      "eval_runtime": 1.0031,
      "eval_samples_per_second": 4.985,
      "eval_steps_per_second": 2.991,
      "step": 198
    },
    {
      "epoch": 16.583333333333332,
      "grad_norm": 0.0014700962929055095,
      "learning_rate": 0.0001945486826768283,
      "loss": 0.0001,
      "step": 199
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.0011496004881337285,
      "learning_rate": 0.00019449138110091445,
      "loss": 0.0001,
      "step": 200
    },
    {
      "epoch": 16.75,
      "grad_norm": 0.0016614036867395043,
      "learning_rate": 0.00019443378846282667,
      "loss": 0.0001,
      "step": 201
    },
    {
      "epoch": 16.75,
      "eval_loss": 1.231483817100525,
      "eval_runtime": 0.9988,
      "eval_samples_per_second": 5.006,
      "eval_steps_per_second": 3.004,
      "step": 201
    },
    {
      "epoch": 16.833333333333332,
      "grad_norm": 0.001682829693891108,
      "learning_rate": 0.00019437590493996782,
      "loss": 0.0001,
      "step": 202
    },
    {
      "epoch": 16.916666666666668,
      "grad_norm": 0.002195078879594803,
      "learning_rate": 0.00019431773071063675,
      "loss": 0.0001,
      "step": 203
    },
    {
      "epoch": 17.0,
      "grad_norm": 0.0017824664246290922,
      "learning_rate": 0.00019425926595402775,
      "loss": 0.0001,
      "step": 204
    },
    {
      "epoch": 17.0,
      "eval_loss": 1.284210443496704,
      "eval_runtime": 0.9969,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.009,
      "step": 204
    },
    {
      "epoch": 17.083333333333332,
      "grad_norm": 0.0014323346549645066,
      "learning_rate": 0.00019420051085023004,
      "loss": 0.0001,
      "step": 205
    },
    {
      "epoch": 17.166666666666668,
      "grad_norm": 0.001056437729857862,
      "learning_rate": 0.00019414146558022725,
      "loss": 0.0001,
      "step": 206
    },
    {
      "epoch": 17.25,
      "grad_norm": 0.001466649118810892,
      "learning_rate": 0.0001940821303258967,
      "loss": 0.0001,
      "step": 207
    },
    {
      "epoch": 17.25,
      "eval_loss": 1.2418466806411743,
      "eval_runtime": 0.9959,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 207
    },
    {
      "epoch": 17.333333333333332,
      "grad_norm": 0.0023240239825099707,
      "learning_rate": 0.00019402250527000904,
      "loss": 0.0001,
      "step": 208
    },
    {
      "epoch": 17.416666666666668,
      "grad_norm": 0.0016450694529339671,
      "learning_rate": 0.00019396259059622755,
      "loss": 0.0001,
      "step": 209
    },
    {
      "epoch": 17.5,
      "grad_norm": 0.0020276508294045925,
      "learning_rate": 0.00019390238648910765,
      "loss": 0.0001,
      "step": 210
    },
    {
      "epoch": 17.5,
      "eval_loss": 1.2045830488204956,
      "eval_runtime": 1.0074,
      "eval_samples_per_second": 4.963,
      "eval_steps_per_second": 2.978,
      "step": 210
    },
    {
      "epoch": 17.583333333333332,
      "grad_norm": 0.0012027414049953222,
      "learning_rate": 0.00019384189313409627,
      "loss": 0.0001,
      "step": 211
    },
    {
      "epoch": 17.666666666666668,
      "grad_norm": 0.0014009453589096665,
      "learning_rate": 0.0001937811107175313,
      "loss": 0.0001,
      "step": 212
    },
    {
      "epoch": 17.75,
      "grad_norm": 0.001251521985977888,
      "learning_rate": 0.00019372003942664113,
      "loss": 0.0001,
      "step": 213
    },
    {
      "epoch": 17.75,
      "eval_loss": 1.3026601076126099,
      "eval_runtime": 0.9989,
      "eval_samples_per_second": 5.006,
      "eval_steps_per_second": 3.003,
      "step": 213
    },
    {
      "epoch": 17.833333333333332,
      "grad_norm": 0.001872675376944244,
      "learning_rate": 0.00019365867944954386,
      "loss": 0.0001,
      "step": 214
    },
    {
      "epoch": 17.916666666666668,
      "grad_norm": 0.0021998509764671326,
      "learning_rate": 0.0001935970309752469,
      "loss": 0.0001,
      "step": 215
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.002011677948758006,
      "learning_rate": 0.0001935350941936462,
      "loss": 0.0001,
      "step": 216
    },
    {
      "epoch": 18.0,
      "eval_loss": 1.1840918064117432,
      "eval_runtime": 0.9977,
      "eval_samples_per_second": 5.012,
      "eval_steps_per_second": 3.007,
      "step": 216
    },
    {
      "epoch": 18.083333333333332,
      "grad_norm": 0.0020909151062369347,
      "learning_rate": 0.00019347286929552598,
      "loss": 0.0001,
      "step": 217
    },
    {
      "epoch": 18.166666666666668,
      "grad_norm": 0.0015474403044208884,
      "learning_rate": 0.00019341035647255775,
      "loss": 0.0001,
      "step": 218
    },
    {
      "epoch": 18.25,
      "grad_norm": 0.0010821116156876087,
      "learning_rate": 0.00019334755591730006,
      "loss": 0.0001,
      "step": 219
    },
    {
      "epoch": 18.25,
      "eval_loss": 1.2829337120056152,
      "eval_runtime": 0.9978,
      "eval_samples_per_second": 5.011,
      "eval_steps_per_second": 3.006,
      "step": 219
    },
    {
      "epoch": 18.333333333333332,
      "grad_norm": 0.00213953317143023,
      "learning_rate": 0.00019328446782319772,
      "loss": 0.0001,
      "step": 220
    },
    {
      "epoch": 18.416666666666668,
      "grad_norm": 0.0020434854086488485,
      "learning_rate": 0.0001932210923845812,
      "loss": 0.0001,
      "step": 221
    },
    {
      "epoch": 18.5,
      "grad_norm": 0.0010047383839264512,
      "learning_rate": 0.00019315742979666612,
      "loss": 0.0001,
      "step": 222
    },
    {
      "epoch": 18.5,
      "eval_loss": 1.2905893325805664,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 222
    },
    {
      "epoch": 18.583333333333332,
      "grad_norm": 0.0018059192225337029,
      "learning_rate": 0.00019309348025555264,
      "loss": 0.0001,
      "step": 223
    },
    {
      "epoch": 18.666666666666668,
      "grad_norm": 0.0014781019417569041,
      "learning_rate": 0.00019302924395822469,
      "loss": 0.0001,
      "step": 224
    },
    {
      "epoch": 18.75,
      "grad_norm": 0.0024604133795946836,
      "learning_rate": 0.0001929647211025497,
      "loss": 0.0001,
      "step": 225
    },
    {
      "epoch": 18.75,
      "eval_loss": 1.2343765497207642,
      "eval_runtime": 1.0013,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 225
    },
    {
      "epoch": 18.833333333333332,
      "grad_norm": 0.0011642307508736849,
      "learning_rate": 0.00019289991188727759,
      "loss": 0.0001,
      "step": 226
    },
    {
      "epoch": 18.916666666666668,
      "grad_norm": 0.0010749798966571689,
      "learning_rate": 0.00019283481651204048,
      "loss": 0.0001,
      "step": 227
    },
    {
      "epoch": 19.0,
      "grad_norm": 0.0018432331271469593,
      "learning_rate": 0.00019276943517735191,
      "loss": 0.0001,
      "step": 228
    },
    {
      "epoch": 19.0,
      "eval_loss": 1.2314939498901367,
      "eval_runtime": 1.0021,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 228
    },
    {
      "epoch": 19.083333333333332,
      "grad_norm": 0.0014252312248572707,
      "learning_rate": 0.00019270376808460627,
      "loss": 0.0001,
      "step": 229
    },
    {
      "epoch": 19.166666666666668,
      "grad_norm": 0.0012091738171875477,
      "learning_rate": 0.00019263781543607815,
      "loss": 0.0001,
      "step": 230
    },
    {
      "epoch": 19.25,
      "grad_norm": 0.0021342746913433075,
      "learning_rate": 0.00019257157743492176,
      "loss": 0.0001,
      "step": 231
    },
    {
      "epoch": 19.25,
      "eval_loss": 1.2504894733428955,
      "eval_runtime": 1.0087,
      "eval_samples_per_second": 4.957,
      "eval_steps_per_second": 2.974,
      "step": 231
    },
    {
      "epoch": 19.333333333333332,
      "grad_norm": 0.001505147316493094,
      "learning_rate": 0.00019250505428517026,
      "loss": 0.0001,
      "step": 232
    },
    {
      "epoch": 19.416666666666668,
      "grad_norm": 0.002064009429886937,
      "learning_rate": 0.0001924382461917352,
      "loss": 0.0001,
      "step": 233
    },
    {
      "epoch": 19.5,
      "grad_norm": 0.0014421086525544524,
      "learning_rate": 0.00019237115336040583,
      "loss": 0.0001,
      "step": 234
    },
    {
      "epoch": 19.5,
      "eval_loss": 1.3128942251205444,
      "eval_runtime": 1.0064,
      "eval_samples_per_second": 4.968,
      "eval_steps_per_second": 2.981,
      "step": 234
    },
    {
      "epoch": 19.583333333333332,
      "grad_norm": 0.0014868364669382572,
      "learning_rate": 0.00019230377599784842,
      "loss": 0.0001,
      "step": 235
    },
    {
      "epoch": 19.666666666666668,
      "grad_norm": 0.0008738540927879512,
      "learning_rate": 0.0001922361143116057,
      "loss": 0.0001,
      "step": 236
    },
    {
      "epoch": 19.75,
      "grad_norm": 0.0012071691453456879,
      "learning_rate": 0.00019216816851009628,
      "loss": 0.0001,
      "step": 237
    },
    {
      "epoch": 19.75,
      "eval_loss": 1.2830525636672974,
      "eval_runtime": 1.0061,
      "eval_samples_per_second": 4.97,
      "eval_steps_per_second": 2.982,
      "step": 237
    },
    {
      "epoch": 19.833333333333332,
      "grad_norm": 0.0012524762423709035,
      "learning_rate": 0.0001920999388026139,
      "loss": 0.0,
      "step": 238
    },
    {
      "epoch": 19.916666666666668,
      "grad_norm": 0.0011682822369039059,
      "learning_rate": 0.00019203142539932672,
      "loss": 0.0001,
      "step": 239
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.0015446869656443596,
      "learning_rate": 0.00019196262851127693,
      "loss": 0.0001,
      "step": 240
    },
    {
      "epoch": 20.0,
      "eval_loss": 1.2896435260772705,
      "eval_runtime": 1.0018,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 240
    },
    {
      "epoch": 20.083333333333332,
      "grad_norm": 0.0011364991078153253,
      "learning_rate": 0.0001918935483503798,
      "loss": 0.0001,
      "step": 241
    },
    {
      "epoch": 20.166666666666668,
      "grad_norm": 0.0011347002582624555,
      "learning_rate": 0.00019182418512942326,
      "loss": 0.0001,
      "step": 242
    },
    {
      "epoch": 20.25,
      "grad_norm": 0.0012620313791558146,
      "learning_rate": 0.00019175453906206707,
      "loss": 0.0001,
      "step": 243
    },
    {
      "epoch": 20.25,
      "eval_loss": 1.3051820993423462,
      "eval_runtime": 1.0014,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 243
    },
    {
      "epoch": 20.333333333333332,
      "grad_norm": 0.0015844752779230475,
      "learning_rate": 0.00019168461036284232,
      "loss": 0.0001,
      "step": 244
    },
    {
      "epoch": 20.416666666666668,
      "grad_norm": 0.0011907233856618404,
      "learning_rate": 0.00019161439924715064,
      "loss": 0.0001,
      "step": 245
    },
    {
      "epoch": 20.5,
      "grad_norm": 0.0009742131223902106,
      "learning_rate": 0.0001915439059312636,
      "loss": 0.0,
      "step": 246
    },
    {
      "epoch": 20.5,
      "eval_loss": 1.2673044204711914,
      "eval_runtime": 1.0017,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 246
    },
    {
      "epoch": 20.583333333333332,
      "grad_norm": 0.0015567037044093013,
      "learning_rate": 0.00019147313063232205,
      "loss": 0.0001,
      "step": 247
    },
    {
      "epoch": 20.666666666666668,
      "grad_norm": 0.0009436683030799031,
      "learning_rate": 0.00019140207356833545,
      "loss": 0.0,
      "step": 248
    },
    {
      "epoch": 20.75,
      "grad_norm": 0.0009466357296332717,
      "learning_rate": 0.00019133073495818112,
      "loss": 0.0,
      "step": 249
    },
    {
      "epoch": 20.75,
      "eval_loss": 1.324981927871704,
      "eval_runtime": 1.0043,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 249
    },
    {
      "epoch": 20.833333333333332,
      "grad_norm": 0.0018496490083634853,
      "learning_rate": 0.00019125911502160364,
      "loss": 0.0001,
      "step": 250
    },
    {
      "epoch": 20.916666666666668,
      "grad_norm": 0.001819274271838367,
      "learning_rate": 0.00019118721397921425,
      "loss": 0.0001,
      "step": 251
    },
    {
      "epoch": 21.0,
      "grad_norm": 0.001351004815660417,
      "learning_rate": 0.00019111503205248998,
      "loss": 0.0001,
      "step": 252
    },
    {
      "epoch": 21.0,
      "eval_loss": 1.263005018234253,
      "eval_runtime": 1.0075,
      "eval_samples_per_second": 4.963,
      "eval_steps_per_second": 2.978,
      "step": 252
    },
    {
      "epoch": 21.083333333333332,
      "grad_norm": 0.00098349095787853,
      "learning_rate": 0.00019104256946377308,
      "loss": 0.0,
      "step": 253
    },
    {
      "epoch": 21.166666666666668,
      "grad_norm": 0.0010854459833353758,
      "learning_rate": 0.0001909698264362704,
      "loss": 0.0,
      "step": 254
    },
    {
      "epoch": 21.25,
      "grad_norm": 0.0012531282845884562,
      "learning_rate": 0.00019089680319405252,
      "loss": 0.0001,
      "step": 255
    },
    {
      "epoch": 21.25,
      "eval_loss": 1.2825244665145874,
      "eval_runtime": 1.0003,
      "eval_samples_per_second": 4.998,
      "eval_steps_per_second": 2.999,
      "step": 255
    },
    {
      "epoch": 21.333333333333332,
      "grad_norm": 0.0009233450400643051,
      "learning_rate": 0.00019082349996205324,
      "loss": 0.0001,
      "step": 256
    },
    {
      "epoch": 21.416666666666668,
      "grad_norm": 0.0011349697597324848,
      "learning_rate": 0.00019074991696606882,
      "loss": 0.0001,
      "step": 257
    },
    {
      "epoch": 21.5,
      "grad_norm": 0.001157465623691678,
      "learning_rate": 0.0001906760544327572,
      "loss": 0.0001,
      "step": 258
    },
    {
      "epoch": 21.5,
      "eval_loss": 1.3331303596496582,
      "eval_runtime": 1.0016,
      "eval_samples_per_second": 4.992,
      "eval_steps_per_second": 2.995,
      "step": 258
    },
    {
      "epoch": 21.583333333333332,
      "grad_norm": 0.0015892406227067113,
      "learning_rate": 0.0001906019125896375,
      "loss": 0.0001,
      "step": 259
    },
    {
      "epoch": 21.666666666666668,
      "grad_norm": 0.001146591268479824,
      "learning_rate": 0.00019052749166508908,
      "loss": 0.0001,
      "step": 260
    },
    {
      "epoch": 21.75,
      "grad_norm": 0.0015808575553819537,
      "learning_rate": 0.000190452791888351,
      "loss": 0.0001,
      "step": 261
    },
    {
      "epoch": 21.75,
      "eval_loss": 1.3104009628295898,
      "eval_runtime": 1.0056,
      "eval_samples_per_second": 4.972,
      "eval_steps_per_second": 2.983,
      "step": 261
    },
    {
      "epoch": 21.833333333333332,
      "grad_norm": 0.0012123937485739589,
      "learning_rate": 0.00019037781348952136,
      "loss": 0.0001,
      "step": 262
    },
    {
      "epoch": 21.916666666666668,
      "grad_norm": 0.0013720698188990355,
      "learning_rate": 0.00019030255669955635,
      "loss": 0.0001,
      "step": 263
    },
    {
      "epoch": 22.0,
      "grad_norm": 0.0011663218028843403,
      "learning_rate": 0.00019022702175026975,
      "loss": 0.0001,
      "step": 264
    },
    {
      "epoch": 22.0,
      "eval_loss": 1.2591116428375244,
      "eval_runtime": 1.0121,
      "eval_samples_per_second": 4.94,
      "eval_steps_per_second": 2.964,
      "step": 264
    },
    {
      "epoch": 22.083333333333332,
      "grad_norm": 0.0012396803358569741,
      "learning_rate": 0.00019015120887433217,
      "loss": 0.0001,
      "step": 265
    },
    {
      "epoch": 22.166666666666668,
      "grad_norm": 0.0011822208762168884,
      "learning_rate": 0.00019007511830527028,
      "loss": 0.0001,
      "step": 266
    },
    {
      "epoch": 22.25,
      "grad_norm": 0.0013594289775937796,
      "learning_rate": 0.00018999875027746627,
      "loss": 0.0001,
      "step": 267
    },
    {
      "epoch": 22.25,
      "eval_loss": 1.3169125318527222,
      "eval_runtime": 1.0046,
      "eval_samples_per_second": 4.977,
      "eval_steps_per_second": 2.986,
      "step": 267
    },
    {
      "epoch": 22.333333333333332,
      "grad_norm": 0.0009691453888081014,
      "learning_rate": 0.00018992210502615677,
      "loss": 0.0001,
      "step": 268
    },
    {
      "epoch": 22.416666666666668,
      "grad_norm": 0.0015597946476191282,
      "learning_rate": 0.0001898451827874325,
      "loss": 0.0001,
      "step": 269
    },
    {
      "epoch": 22.5,
      "grad_norm": 0.0008565299795009196,
      "learning_rate": 0.0001897679837982373,
      "loss": 0.0001,
      "step": 270
    },
    {
      "epoch": 22.5,
      "eval_loss": 1.3184218406677246,
      "eval_runtime": 1.0033,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.99,
      "step": 270
    },
    {
      "epoch": 22.583333333333332,
      "grad_norm": 0.0010107321431860328,
      "learning_rate": 0.0001896905082963676,
      "loss": 0.0001,
      "step": 271
    },
    {
      "epoch": 22.666666666666668,
      "grad_norm": 0.0008724171784706414,
      "learning_rate": 0.00018961275652047138,
      "loss": 0.0,
      "step": 272
    },
    {
      "epoch": 22.75,
      "grad_norm": 0.0008332508150488138,
      "learning_rate": 0.00018953472871004783,
      "loss": 0.0,
      "step": 273
    },
    {
      "epoch": 22.75,
      "eval_loss": 1.2637007236480713,
      "eval_runtime": 1.0068,
      "eval_samples_per_second": 4.966,
      "eval_steps_per_second": 2.98,
      "step": 273
    },
    {
      "epoch": 22.833333333333332,
      "grad_norm": 0.0010838021989911795,
      "learning_rate": 0.00018945642510544624,
      "loss": 0.0001,
      "step": 274
    },
    {
      "epoch": 22.916666666666668,
      "grad_norm": 0.001060566632077098,
      "learning_rate": 0.00018937784594786562,
      "loss": 0.0001,
      "step": 275
    },
    {
      "epoch": 23.0,
      "grad_norm": 0.0014523142017424107,
      "learning_rate": 0.00018929899147935358,
      "loss": 0.0001,
      "step": 276
    },
    {
      "epoch": 23.0,
      "eval_loss": 1.3290741443634033,
      "eval_runtime": 1.0078,
      "eval_samples_per_second": 4.961,
      "eval_steps_per_second": 2.977,
      "step": 276
    },
    {
      "epoch": 23.083333333333332,
      "grad_norm": 0.0014146091416478157,
      "learning_rate": 0.00018921986194280589,
      "loss": 0.0001,
      "step": 277
    },
    {
      "epoch": 23.166666666666668,
      "grad_norm": 0.0011367605766281486,
      "learning_rate": 0.00018914045758196553,
      "loss": 0.0,
      "step": 278
    },
    {
      "epoch": 23.25,
      "grad_norm": 0.0009394139051437378,
      "learning_rate": 0.0001890607786414221,
      "loss": 0.0001,
      "step": 279
    },
    {
      "epoch": 23.25,
      "eval_loss": 1.3216164112091064,
      "eval_runtime": 1.0,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 279
    },
    {
      "epoch": 23.333333333333332,
      "grad_norm": 0.001652921549975872,
      "learning_rate": 0.00018898082536661094,
      "loss": 0.0001,
      "step": 280
    },
    {
      "epoch": 23.416666666666668,
      "grad_norm": 0.0007374515989795327,
      "learning_rate": 0.00018890059800381247,
      "loss": 0.0,
      "step": 281
    },
    {
      "epoch": 23.5,
      "grad_norm": 0.0009476717095822096,
      "learning_rate": 0.00018882009680015128,
      "loss": 0.0001,
      "step": 282
    },
    {
      "epoch": 23.5,
      "eval_loss": 1.3408668041229248,
      "eval_runtime": 1.0035,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 282
    },
    {
      "epoch": 23.583333333333332,
      "grad_norm": 0.0007915799506008625,
      "learning_rate": 0.00018873932200359563,
      "loss": 0.0,
      "step": 283
    },
    {
      "epoch": 23.666666666666668,
      "grad_norm": 0.0007412072154693305,
      "learning_rate": 0.0001886582738629564,
      "loss": 0.0,
      "step": 284
    },
    {
      "epoch": 23.75,
      "grad_norm": 0.0017231088131666183,
      "learning_rate": 0.0001885769526278865,
      "loss": 0.0001,
      "step": 285
    },
    {
      "epoch": 23.75,
      "eval_loss": 1.3406625986099243,
      "eval_runtime": 1.0005,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 285
    },
    {
      "epoch": 23.833333333333332,
      "grad_norm": 0.0010823144111782312,
      "learning_rate": 0.00018849535854888004,
      "loss": 0.0001,
      "step": 286
    },
    {
      "epoch": 23.916666666666668,
      "grad_norm": 0.0013826241483911872,
      "learning_rate": 0.00018841349187727162,
      "loss": 0.0001,
      "step": 287
    },
    {
      "epoch": 24.0,
      "grad_norm": 0.0012274185428395867,
      "learning_rate": 0.00018833135286523543,
      "loss": 0.0,
      "step": 288
    },
    {
      "epoch": 24.0,
      "eval_loss": 1.3122270107269287,
      "eval_runtime": 1.0052,
      "eval_samples_per_second": 4.974,
      "eval_steps_per_second": 2.984,
      "step": 288
    },
    {
      "epoch": 24.083333333333332,
      "grad_norm": 0.001763792592100799,
      "learning_rate": 0.00018824894176578462,
      "loss": 0.0001,
      "step": 289
    },
    {
      "epoch": 24.166666666666668,
      "grad_norm": 0.0008542181458324194,
      "learning_rate": 0.00018816625883277043,
      "loss": 0.0,
      "step": 290
    },
    {
      "epoch": 24.25,
      "grad_norm": 0.0010397672886028886,
      "learning_rate": 0.0001880833043208814,
      "loss": 0.0,
      "step": 291
    },
    {
      "epoch": 24.25,
      "eval_loss": 1.3449785709381104,
      "eval_runtime": 1.0079,
      "eval_samples_per_second": 4.961,
      "eval_steps_per_second": 2.976,
      "step": 291
    },
    {
      "epoch": 24.333333333333332,
      "grad_norm": 0.0008820617222227156,
      "learning_rate": 0.00018800007848564264,
      "loss": 0.0,
      "step": 292
    },
    {
      "epoch": 24.416666666666668,
      "grad_norm": 0.0008848243160173297,
      "learning_rate": 0.00018791658158341505,
      "loss": 0.0001,
      "step": 293
    },
    {
      "epoch": 24.5,
      "grad_norm": 0.0013577067293226719,
      "learning_rate": 0.00018783281387139443,
      "loss": 0.0001,
      "step": 294
    },
    {
      "epoch": 24.5,
      "eval_loss": 1.3254550695419312,
      "eval_runtime": 1.0023,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 294
    },
    {
      "epoch": 24.583333333333332,
      "grad_norm": 0.000827850541099906,
      "learning_rate": 0.0001877487756076108,
      "loss": 0.0,
      "step": 295
    },
    {
      "epoch": 24.666666666666668,
      "grad_norm": 0.0010304831666871905,
      "learning_rate": 0.0001876644670509276,
      "loss": 0.0001,
      "step": 296
    },
    {
      "epoch": 24.75,
      "grad_norm": 0.0008030229946598411,
      "learning_rate": 0.00018757988846104077,
      "loss": 0.0001,
      "step": 297
    },
    {
      "epoch": 24.75,
      "eval_loss": 1.2818478345870972,
      "eval_runtime": 1.0027,
      "eval_samples_per_second": 4.986,
      "eval_steps_per_second": 2.992,
      "step": 297
    },
    {
      "epoch": 24.833333333333332,
      "grad_norm": 0.0007436058949679136,
      "learning_rate": 0.00018749504009847807,
      "loss": 0.0,
      "step": 298
    },
    {
      "epoch": 24.916666666666668,
      "grad_norm": 0.0011264306958764791,
      "learning_rate": 0.00018740992222459824,
      "loss": 0.0001,
      "step": 299
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.0017148966435343027,
      "learning_rate": 0.00018732453510159026,
      "loss": 0.0001,
      "step": 300
    },
    {
      "epoch": 25.0,
      "eval_loss": 1.260687232017517,
      "eval_runtime": 0.9983,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.005,
      "step": 300
    },
    {
      "epoch": 25.083333333333332,
      "grad_norm": 0.001003720797598362,
      "learning_rate": 0.00018723887899247234,
      "loss": 0.0001,
      "step": 301
    },
    {
      "epoch": 25.166666666666668,
      "grad_norm": 0.0010755034163594246,
      "learning_rate": 0.00018715295416109136,
      "loss": 0.0001,
      "step": 302
    },
    {
      "epoch": 25.25,
      "grad_norm": 0.0012414193479344249,
      "learning_rate": 0.00018706676087212198,
      "loss": 0.0,
      "step": 303
    },
    {
      "epoch": 25.25,
      "eval_loss": 1.2628406286239624,
      "eval_runtime": 0.9965,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 303
    },
    {
      "epoch": 25.333333333333332,
      "grad_norm": 0.0010271911742165685,
      "learning_rate": 0.00018698029939106565,
      "loss": 0.0,
      "step": 304
    },
    {
      "epoch": 25.416666666666668,
      "grad_norm": 0.0008702204213477671,
      "learning_rate": 0.00018689356998425005,
      "loss": 0.0001,
      "step": 305
    },
    {
      "epoch": 25.5,
      "grad_norm": 0.000940115365665406,
      "learning_rate": 0.00018680657291882807,
      "loss": 0.0001,
      "step": 306
    },
    {
      "epoch": 25.5,
      "eval_loss": 1.3338172435760498,
      "eval_runtime": 0.9968,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.01,
      "step": 306
    },
    {
      "epoch": 25.583333333333332,
      "grad_norm": 0.0007230567280203104,
      "learning_rate": 0.0001867193084627772,
      "loss": 0.0,
      "step": 307
    },
    {
      "epoch": 25.666666666666668,
      "grad_norm": 0.0012571654515340924,
      "learning_rate": 0.00018663177688489838,
      "loss": 0.0001,
      "step": 308
    },
    {
      "epoch": 25.75,
      "grad_norm": 0.0013726471224799752,
      "learning_rate": 0.00018654397845481552,
      "loss": 0.0001,
      "step": 309
    },
    {
      "epoch": 25.75,
      "eval_loss": 1.259263515472412,
      "eval_runtime": 0.996,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 309
    },
    {
      "epoch": 25.833333333333332,
      "grad_norm": 0.0009279868681915104,
      "learning_rate": 0.0001864559134429745,
      "loss": 0.0,
      "step": 310
    },
    {
      "epoch": 25.916666666666668,
      "grad_norm": 0.0009168493561446667,
      "learning_rate": 0.00018636758212064233,
      "loss": 0.0,
      "step": 311
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.0008357759797945619,
      "learning_rate": 0.00018627898475990628,
      "loss": 0.0,
      "step": 312
    },
    {
      "epoch": 26.0,
      "eval_loss": 1.319722056388855,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 312
    },
    {
      "epoch": 26.083333333333332,
      "grad_norm": 0.0009452680824324489,
      "learning_rate": 0.00018619012163367316,
      "loss": 0.0,
      "step": 313
    },
    {
      "epoch": 26.166666666666668,
      "grad_norm": 0.0011557620018720627,
      "learning_rate": 0.00018610099301566844,
      "loss": 0.0,
      "step": 314
    },
    {
      "epoch": 26.25,
      "grad_norm": 0.0007756607374176383,
      "learning_rate": 0.0001860115991804353,
      "loss": 0.0,
      "step": 315
    },
    {
      "epoch": 26.25,
      "eval_loss": 1.3558472394943237,
      "eval_runtime": 1.0014,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 315
    },
    {
      "epoch": 26.333333333333332,
      "grad_norm": 0.0010811942629516125,
      "learning_rate": 0.00018592194040333398,
      "loss": 0.0001,
      "step": 316
    },
    {
      "epoch": 26.416666666666668,
      "grad_norm": 0.0007881418569013476,
      "learning_rate": 0.00018583201696054075,
      "loss": 0.0,
      "step": 317
    },
    {
      "epoch": 26.5,
      "grad_norm": 0.0010363261681050062,
      "learning_rate": 0.0001857418291290471,
      "loss": 0.0001,
      "step": 318
    },
    {
      "epoch": 26.5,
      "eval_loss": 1.3854645490646362,
      "eval_runtime": 1.012,
      "eval_samples_per_second": 4.94,
      "eval_steps_per_second": 2.964,
      "step": 318
    },
    {
      "epoch": 26.583333333333332,
      "grad_norm": 0.0012764614075422287,
      "learning_rate": 0.00018565137718665902,
      "loss": 0.0,
      "step": 319
    },
    {
      "epoch": 26.666666666666668,
      "grad_norm": 0.0008097260724753141,
      "learning_rate": 0.000185560661411996,
      "loss": 0.0,
      "step": 320
    },
    {
      "epoch": 26.75,
      "grad_norm": 0.0007023289799690247,
      "learning_rate": 0.00018546968208449014,
      "loss": 0.0,
      "step": 321
    },
    {
      "epoch": 26.75,
      "eval_loss": 1.30758535861969,
      "eval_runtime": 1.0034,
      "eval_samples_per_second": 4.983,
      "eval_steps_per_second": 2.99,
      "step": 321
    },
    {
      "epoch": 26.833333333333332,
      "grad_norm": 0.0010490880813449621,
      "learning_rate": 0.00018537843948438542,
      "loss": 0.0001,
      "step": 322
    },
    {
      "epoch": 26.916666666666668,
      "grad_norm": 0.000780187314376235,
      "learning_rate": 0.00018528693389273685,
      "loss": 0.0,
      "step": 323
    },
    {
      "epoch": 27.0,
      "grad_norm": 0.0009547586087137461,
      "learning_rate": 0.0001851951655914094,
      "loss": 0.0,
      "step": 324
    },
    {
      "epoch": 27.0,
      "eval_loss": 1.3076255321502686,
      "eval_runtime": 0.9946,
      "eval_samples_per_second": 5.027,
      "eval_steps_per_second": 3.016,
      "step": 324
    },
    {
      "epoch": 27.083333333333332,
      "grad_norm": 0.001101354486308992,
      "learning_rate": 0.00018510313486307732,
      "loss": 0.0001,
      "step": 325
    },
    {
      "epoch": 27.166666666666668,
      "grad_norm": 0.0010169785236939788,
      "learning_rate": 0.00018501084199122332,
      "loss": 0.0001,
      "step": 326
    },
    {
      "epoch": 27.25,
      "grad_norm": 0.0011716753942891955,
      "learning_rate": 0.00018491828726013737,
      "loss": 0.0001,
      "step": 327
    },
    {
      "epoch": 27.25,
      "eval_loss": 1.2796305418014526,
      "eval_runtime": 0.9993,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 327
    },
    {
      "epoch": 27.333333333333332,
      "grad_norm": 0.0009610395645722747,
      "learning_rate": 0.00018482547095491627,
      "loss": 0.0,
      "step": 328
    },
    {
      "epoch": 27.416666666666668,
      "grad_norm": 0.0010882035130634904,
      "learning_rate": 0.00018473239336146241,
      "loss": 0.0001,
      "step": 329
    },
    {
      "epoch": 27.5,
      "grad_norm": 0.000690062646754086,
      "learning_rate": 0.00018463905476648307,
      "loss": 0.0,
      "step": 330
    },
    {
      "epoch": 27.5,
      "eval_loss": 1.3275439739227295,
      "eval_runtime": 0.9959,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 330
    },
    {
      "epoch": 27.583333333333332,
      "grad_norm": 0.0007583851111121476,
      "learning_rate": 0.0001845454554574895,
      "loss": 0.0,
      "step": 331
    },
    {
      "epoch": 27.666666666666668,
      "grad_norm": 0.0009672393789514899,
      "learning_rate": 0.00018445159572279604,
      "loss": 0.0001,
      "step": 332
    },
    {
      "epoch": 27.75,
      "grad_norm": 0.0009559772443026304,
      "learning_rate": 0.0001843574758515192,
      "loss": 0.0,
      "step": 333
    },
    {
      "epoch": 27.75,
      "eval_loss": 1.3271132707595825,
      "eval_runtime": 0.9982,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.005,
      "step": 333
    },
    {
      "epoch": 27.833333333333332,
      "grad_norm": 0.0006353670032694936,
      "learning_rate": 0.00018426309613357673,
      "loss": 0.0,
      "step": 334
    },
    {
      "epoch": 27.916666666666668,
      "grad_norm": 0.0007235656375996768,
      "learning_rate": 0.0001841684568596869,
      "loss": 0.0,
      "step": 335
    },
    {
      "epoch": 28.0,
      "grad_norm": 0.0006966772489249706,
      "learning_rate": 0.00018407355832136742,
      "loss": 0.0,
      "step": 336
    },
    {
      "epoch": 28.0,
      "eval_loss": 1.3522369861602783,
      "eval_runtime": 0.998,
      "eval_samples_per_second": 5.01,
      "eval_steps_per_second": 3.006,
      "step": 336
    },
    {
      "epoch": 28.083333333333332,
      "grad_norm": 0.0012799309333786368,
      "learning_rate": 0.00018397840081093466,
      "loss": 0.0001,
      "step": 337
    },
    {
      "epoch": 28.166666666666668,
      "grad_norm": 0.0009812074713408947,
      "learning_rate": 0.00018388298462150262,
      "loss": 0.0,
      "step": 338
    },
    {
      "epoch": 28.25,
      "grad_norm": 0.0009040698641911149,
      "learning_rate": 0.0001837873100469822,
      "loss": 0.0,
      "step": 339
    },
    {
      "epoch": 28.25,
      "eval_loss": 1.374735951423645,
      "eval_runtime": 0.9974,
      "eval_samples_per_second": 5.013,
      "eval_steps_per_second": 3.008,
      "step": 339
    },
    {
      "epoch": 28.333333333333332,
      "grad_norm": 0.0006818757974542677,
      "learning_rate": 0.0001836913773820802,
      "loss": 0.0,
      "step": 340
    },
    {
      "epoch": 28.416666666666668,
      "grad_norm": 0.0006867671618238091,
      "learning_rate": 0.00018359518692229833,
      "loss": 0.0,
      "step": 341
    },
    {
      "epoch": 28.5,
      "grad_norm": 0.0008376066689379513,
      "learning_rate": 0.00018349873896393248,
      "loss": 0.0001,
      "step": 342
    },
    {
      "epoch": 28.5,
      "eval_loss": 1.2967078685760498,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.001,
      "eval_steps_per_second": 3.0,
      "step": 342
    },
    {
      "epoch": 28.583333333333332,
      "grad_norm": 0.0008459796663373709,
      "learning_rate": 0.00018340203380407165,
      "loss": 0.0,
      "step": 343
    },
    {
      "epoch": 28.666666666666668,
      "grad_norm": 0.0006924738991074264,
      "learning_rate": 0.00018330507174059714,
      "loss": 0.0,
      "step": 344
    },
    {
      "epoch": 28.75,
      "grad_norm": 0.0006708691362291574,
      "learning_rate": 0.0001832078530721816,
      "loss": 0.0,
      "step": 345
    },
    {
      "epoch": 28.75,
      "eval_loss": 1.3679543733596802,
      "eval_runtime": 0.9997,
      "eval_samples_per_second": 5.002,
      "eval_steps_per_second": 3.001,
      "step": 345
    },
    {
      "epoch": 28.833333333333332,
      "grad_norm": 0.0010187590960413218,
      "learning_rate": 0.00018311037809828803,
      "loss": 0.0001,
      "step": 346
    },
    {
      "epoch": 28.916666666666668,
      "grad_norm": 0.0009933693800121546,
      "learning_rate": 0.00018301264711916902,
      "loss": 0.0,
      "step": 347
    },
    {
      "epoch": 29.0,
      "grad_norm": 0.0012995459837839007,
      "learning_rate": 0.00018291466043586561,
      "loss": 0.0,
      "step": 348
    },
    {
      "epoch": 29.0,
      "eval_loss": 1.384185552597046,
      "eval_runtime": 0.9964,
      "eval_samples_per_second": 5.018,
      "eval_steps_per_second": 3.011,
      "step": 348
    },
    {
      "epoch": 29.083333333333332,
      "grad_norm": 0.0013551634037867188,
      "learning_rate": 0.0001828164183502067,
      "loss": 0.0001,
      "step": 349
    },
    {
      "epoch": 29.166666666666668,
      "grad_norm": 0.0007144822739064693,
      "learning_rate": 0.00018271792116480765,
      "loss": 0.0,
      "step": 350
    },
    {
      "epoch": 29.25,
      "grad_norm": 0.0005755670135840774,
      "learning_rate": 0.0001826191691830698,
      "loss": 0.0,
      "step": 351
    },
    {
      "epoch": 29.25,
      "eval_loss": 1.341866374015808,
      "eval_runtime": 1.0555,
      "eval_samples_per_second": 4.737,
      "eval_steps_per_second": 2.842,
      "step": 351
    },
    {
      "epoch": 29.333333333333332,
      "grad_norm": 0.0006520631141029298,
      "learning_rate": 0.00018252016270917925,
      "loss": 0.0,
      "step": 352
    },
    {
      "epoch": 29.416666666666668,
      "grad_norm": 0.0005420594825409353,
      "learning_rate": 0.00018242090204810603,
      "loss": 0.0,
      "step": 353
    },
    {
      "epoch": 29.5,
      "grad_norm": 0.0009159960318356752,
      "learning_rate": 0.00018232138750560312,
      "loss": 0.0,
      "step": 354
    },
    {
      "epoch": 29.5,
      "eval_loss": 1.301145315170288,
      "eval_runtime": 0.9977,
      "eval_samples_per_second": 5.012,
      "eval_steps_per_second": 3.007,
      "step": 354
    },
    {
      "epoch": 29.583333333333332,
      "grad_norm": 0.0007865738007239997,
      "learning_rate": 0.00018222161938820564,
      "loss": 0.0,
      "step": 355
    },
    {
      "epoch": 29.666666666666668,
      "grad_norm": 0.000968786480370909,
      "learning_rate": 0.0001821215980032296,
      "loss": 0.0,
      "step": 356
    },
    {
      "epoch": 29.75,
      "grad_norm": 0.0009702211827971041,
      "learning_rate": 0.00018202132365877137,
      "loss": 0.0,
      "step": 357
    },
    {
      "epoch": 29.75,
      "eval_loss": 1.3581061363220215,
      "eval_runtime": 0.9993,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 357
    },
    {
      "epoch": 29.833333333333332,
      "grad_norm": 0.0009618378826417029,
      "learning_rate": 0.00018192079666370635,
      "loss": 0.0,
      "step": 358
    },
    {
      "epoch": 29.916666666666668,
      "grad_norm": 0.0009381522540934384,
      "learning_rate": 0.00018182001732768824,
      "loss": 0.0,
      "step": 359
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.0006797229871153831,
      "learning_rate": 0.00018171898596114805,
      "loss": 0.0,
      "step": 360
    },
    {
      "epoch": 30.0,
      "eval_loss": 1.32756769657135,
      "eval_runtime": 1.0036,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 360
    },
    {
      "epoch": 30.083333333333332,
      "grad_norm": 0.0008744881488382816,
      "learning_rate": 0.0001816177028752931,
      "loss": 0.0,
      "step": 361
    },
    {
      "epoch": 30.166666666666668,
      "grad_norm": 0.0009215287282131612,
      "learning_rate": 0.00018151616838210603,
      "loss": 0.0001,
      "step": 362
    },
    {
      "epoch": 30.25,
      "grad_norm": 0.0010685599409043789,
      "learning_rate": 0.000181414382794344,
      "loss": 0.0001,
      "step": 363
    },
    {
      "epoch": 30.25,
      "eval_loss": 1.3690675497055054,
      "eval_runtime": 1.0045,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 363
    },
    {
      "epoch": 30.333333333333332,
      "grad_norm": 0.0006981808692216873,
      "learning_rate": 0.00018131234642553752,
      "loss": 0.0,
      "step": 364
    },
    {
      "epoch": 30.416666666666668,
      "grad_norm": 0.0006277589709497988,
      "learning_rate": 0.00018121005958998966,
      "loss": 0.0,
      "step": 365
    },
    {
      "epoch": 30.5,
      "grad_norm": 0.0007047061808407307,
      "learning_rate": 0.0001811075226027749,
      "loss": 0.0,
      "step": 366
    },
    {
      "epoch": 30.5,
      "eval_loss": 1.3930726051330566,
      "eval_runtime": 1.0056,
      "eval_samples_per_second": 4.972,
      "eval_steps_per_second": 2.983,
      "step": 366
    },
    {
      "epoch": 30.583333333333332,
      "grad_norm": 0.0007820432656444609,
      "learning_rate": 0.00018100473577973837,
      "loss": 0.0,
      "step": 367
    },
    {
      "epoch": 30.666666666666668,
      "grad_norm": 0.0005115931853652,
      "learning_rate": 0.00018090169943749476,
      "loss": 0.0,
      "step": 368
    },
    {
      "epoch": 30.75,
      "grad_norm": 0.0005731750861741602,
      "learning_rate": 0.00018079841389342723,
      "loss": 0.0,
      "step": 369
    },
    {
      "epoch": 30.75,
      "eval_loss": 1.3086298704147339,
      "eval_runtime": 1.0018,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 369
    },
    {
      "epoch": 30.833333333333332,
      "grad_norm": 0.000623636064119637,
      "learning_rate": 0.00018069487946568673,
      "loss": 0.0,
      "step": 370
    },
    {
      "epoch": 30.916666666666668,
      "grad_norm": 0.0009590586996637285,
      "learning_rate": 0.00018059109647319073,
      "loss": 0.0,
      "step": 371
    },
    {
      "epoch": 31.0,
      "grad_norm": 0.0012518540024757385,
      "learning_rate": 0.0001804870652356224,
      "loss": 0.0001,
      "step": 372
    },
    {
      "epoch": 31.0,
      "eval_loss": 1.3277169466018677,
      "eval_runtime": 1.0347,
      "eval_samples_per_second": 4.832,
      "eval_steps_per_second": 2.899,
      "step": 372
    },
    {
      "epoch": 31.083333333333332,
      "grad_norm": 0.0008630488300696015,
      "learning_rate": 0.0001803827860734295,
      "loss": 0.0,
      "step": 373
    },
    {
      "epoch": 31.166666666666668,
      "grad_norm": 0.0006098916055634618,
      "learning_rate": 0.0001802782593078237,
      "loss": 0.0,
      "step": 374
    },
    {
      "epoch": 31.25,
      "grad_norm": 0.0007935051107779145,
      "learning_rate": 0.0001801734852607791,
      "loss": 0.0,
      "step": 375
    },
    {
      "epoch": 31.25,
      "eval_loss": 1.3747742176055908,
      "eval_runtime": 1.0337,
      "eval_samples_per_second": 4.837,
      "eval_steps_per_second": 2.902,
      "step": 375
    },
    {
      "epoch": 31.333333333333332,
      "grad_norm": 0.0008447189466096461,
      "learning_rate": 0.00018006846425503158,
      "loss": 0.0001,
      "step": 376
    },
    {
      "epoch": 31.416666666666668,
      "grad_norm": 0.0008524495642632246,
      "learning_rate": 0.00017996319661407785,
      "loss": 0.0,
      "step": 377
    },
    {
      "epoch": 31.5,
      "grad_norm": 0.0005105967866256833,
      "learning_rate": 0.0001798576826621742,
      "loss": 0.0,
      "step": 378
    },
    {
      "epoch": 31.5,
      "eval_loss": 1.4193284511566162,
      "eval_runtime": 1.023,
      "eval_samples_per_second": 4.888,
      "eval_steps_per_second": 2.933,
      "step": 378
    },
    {
      "epoch": 31.583333333333332,
      "grad_norm": 0.0008853373001329601,
      "learning_rate": 0.00017975192272433565,
      "loss": 0.0,
      "step": 379
    },
    {
      "epoch": 31.666666666666668,
      "grad_norm": 0.0006158294854685664,
      "learning_rate": 0.00017964591712633498,
      "loss": 0.0,
      "step": 380
    },
    {
      "epoch": 31.75,
      "grad_norm": 0.001064683892764151,
      "learning_rate": 0.00017953966619470166,
      "loss": 0.0,
      "step": 381
    },
    {
      "epoch": 31.75,
      "eval_loss": 1.382934808731079,
      "eval_runtime": 1.0252,
      "eval_samples_per_second": 4.877,
      "eval_steps_per_second": 2.926,
      "step": 381
    },
    {
      "epoch": 31.833333333333332,
      "grad_norm": 0.0006897724815644324,
      "learning_rate": 0.00017943317025672083,
      "loss": 0.0,
      "step": 382
    },
    {
      "epoch": 31.916666666666668,
      "grad_norm": 0.0008401088998652995,
      "learning_rate": 0.00017932642964043236,
      "loss": 0.0,
      "step": 383
    },
    {
      "epoch": 32.0,
      "grad_norm": 0.0008102149586193264,
      "learning_rate": 0.00017921944467462982,
      "loss": 0.0,
      "step": 384
    },
    {
      "epoch": 32.0,
      "eval_loss": 1.3747390508651733,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.01,
      "step": 384
    },
    {
      "epoch": 32.083333333333336,
      "grad_norm": 0.0006363206193782389,
      "learning_rate": 0.00017911221568885934,
      "loss": 0.0,
      "step": 385
    },
    {
      "epoch": 32.166666666666664,
      "grad_norm": 0.0006748729501850903,
      "learning_rate": 0.00017900474301341885,
      "loss": 0.0,
      "step": 386
    },
    {
      "epoch": 32.25,
      "grad_norm": 0.0005865591811016202,
      "learning_rate": 0.00017889702697935684,
      "loss": 0.0,
      "step": 387
    },
    {
      "epoch": 32.25,
      "eval_loss": 1.3902772665023804,
      "eval_runtime": 1.0042,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.987,
      "step": 387
    },
    {
      "epoch": 32.333333333333336,
      "grad_norm": 0.0006947438232600689,
      "learning_rate": 0.00017878906791847146,
      "loss": 0.0,
      "step": 388
    },
    {
      "epoch": 32.416666666666664,
      "grad_norm": 0.0009606272797100246,
      "learning_rate": 0.0001786808661633094,
      "loss": 0.0,
      "step": 389
    },
    {
      "epoch": 32.5,
      "grad_norm": 0.0007089938735589385,
      "learning_rate": 0.00017857242204716495,
      "loss": 0.0,
      "step": 390
    },
    {
      "epoch": 32.5,
      "eval_loss": 1.373884677886963,
      "eval_runtime": 0.9983,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.005,
      "step": 390
    },
    {
      "epoch": 32.583333333333336,
      "grad_norm": 0.000576091930270195,
      "learning_rate": 0.00017846373590407898,
      "loss": 0.0,
      "step": 391
    },
    {
      "epoch": 32.666666666666664,
      "grad_norm": 0.0006572413258254528,
      "learning_rate": 0.00017835480806883784,
      "loss": 0.0,
      "step": 392
    },
    {
      "epoch": 32.75,
      "grad_norm": 0.0005688364035449922,
      "learning_rate": 0.00017824563887697235,
      "loss": 0.0,
      "step": 393
    },
    {
      "epoch": 32.75,
      "eval_loss": 1.3984127044677734,
      "eval_runtime": 0.9993,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 393
    },
    {
      "epoch": 32.833333333333336,
      "grad_norm": 0.0007208030438050628,
      "learning_rate": 0.0001781362286647568,
      "loss": 0.0,
      "step": 394
    },
    {
      "epoch": 32.916666666666664,
      "grad_norm": 0.0008930443436838686,
      "learning_rate": 0.00017802657776920788,
      "loss": 0.0,
      "step": 395
    },
    {
      "epoch": 33.0,
      "grad_norm": 0.0009952755644917488,
      "learning_rate": 0.00017791668652808375,
      "loss": 0.0,
      "step": 396
    },
    {
      "epoch": 33.0,
      "eval_loss": 1.368556261062622,
      "eval_runtime": 0.9963,
      "eval_samples_per_second": 5.019,
      "eval_steps_per_second": 3.011,
      "step": 396
    },
    {
      "epoch": 33.083333333333336,
      "grad_norm": 0.0006604360532946885,
      "learning_rate": 0.00017780655527988278,
      "loss": 0.0,
      "step": 397
    },
    {
      "epoch": 33.166666666666664,
      "grad_norm": 0.0008333645528182387,
      "learning_rate": 0.0001776961843638427,
      "loss": 0.0,
      "step": 398
    },
    {
      "epoch": 33.25,
      "grad_norm": 0.0010416096774861217,
      "learning_rate": 0.00017758557411993943,
      "loss": 0.0,
      "step": 399
    },
    {
      "epoch": 33.25,
      "eval_loss": 1.3004919290542603,
      "eval_runtime": 0.9962,
      "eval_samples_per_second": 5.019,
      "eval_steps_per_second": 3.011,
      "step": 399
    },
    {
      "epoch": 33.333333333333336,
      "grad_norm": 0.0005641935858875513,
      "learning_rate": 0.00017747472488888622,
      "loss": 0.0,
      "step": 400
    },
    {
      "epoch": 33.416666666666664,
      "grad_norm": 0.0008319939952343702,
      "learning_rate": 0.00017736363701213238,
      "loss": 0.0,
      "step": 401
    },
    {
      "epoch": 33.5,
      "grad_norm": 0.0007774425903335214,
      "learning_rate": 0.00017725231083186226,
      "loss": 0.0,
      "step": 402
    },
    {
      "epoch": 33.5,
      "eval_loss": 1.2949421405792236,
      "eval_runtime": 0.9987,
      "eval_samples_per_second": 5.007,
      "eval_steps_per_second": 3.004,
      "step": 402
    },
    {
      "epoch": 33.583333333333336,
      "grad_norm": 0.000604939938057214,
      "learning_rate": 0.0001771407466909944,
      "loss": 0.0,
      "step": 403
    },
    {
      "epoch": 33.666666666666664,
      "grad_norm": 0.0007607382722198963,
      "learning_rate": 0.00017702894493318029,
      "loss": 0.0,
      "step": 404
    },
    {
      "epoch": 33.75,
      "grad_norm": 0.0006295825587585568,
      "learning_rate": 0.00017691690590280326,
      "loss": 0.0,
      "step": 405
    },
    {
      "epoch": 33.75,
      "eval_loss": 1.3371621370315552,
      "eval_runtime": 1.0023,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 405
    },
    {
      "epoch": 33.833333333333336,
      "grad_norm": 0.0007102537201717496,
      "learning_rate": 0.00017680462994497758,
      "loss": 0.0,
      "step": 406
    },
    {
      "epoch": 33.916666666666664,
      "grad_norm": 0.00043527991510927677,
      "learning_rate": 0.00017669211740554736,
      "loss": 0.0,
      "step": 407
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.000776830012910068,
      "learning_rate": 0.0001765793686310854,
      "loss": 0.0,
      "step": 408
    },
    {
      "epoch": 34.0,
      "eval_loss": 1.3463609218597412,
      "eval_runtime": 0.9973,
      "eval_samples_per_second": 5.014,
      "eval_steps_per_second": 3.008,
      "step": 408
    },
    {
      "epoch": 34.083333333333336,
      "grad_norm": 0.0006959611200727522,
      "learning_rate": 0.0001764663839688922,
      "loss": 0.0,
      "step": 409
    },
    {
      "epoch": 34.166666666666664,
      "grad_norm": 0.0007304822211153805,
      "learning_rate": 0.0001763531637669949,
      "loss": 0.0,
      "step": 410
    },
    {
      "epoch": 34.25,
      "grad_norm": 0.000713473535142839,
      "learning_rate": 0.00017623970837414606,
      "loss": 0.0,
      "step": 411
    },
    {
      "epoch": 34.25,
      "eval_loss": 1.4143813848495483,
      "eval_runtime": 0.9975,
      "eval_samples_per_second": 5.012,
      "eval_steps_per_second": 3.007,
      "step": 411
    },
    {
      "epoch": 34.333333333333336,
      "grad_norm": 0.0009433127706870437,
      "learning_rate": 0.00017612601813982282,
      "loss": 0.0001,
      "step": 412
    },
    {
      "epoch": 34.416666666666664,
      "grad_norm": 0.0005848982837051153,
      "learning_rate": 0.00017601209341422562,
      "loss": 0.0,
      "step": 413
    },
    {
      "epoch": 34.5,
      "grad_norm": 0.000928721681702882,
      "learning_rate": 0.00017589793454827733,
      "loss": 0.0,
      "step": 414
    },
    {
      "epoch": 34.5,
      "eval_loss": 1.331673264503479,
      "eval_runtime": 0.9984,
      "eval_samples_per_second": 5.008,
      "eval_steps_per_second": 3.005,
      "step": 414
    },
    {
      "epoch": 34.583333333333336,
      "grad_norm": 0.0008311019046232104,
      "learning_rate": 0.00017578354189362182,
      "loss": 0.0,
      "step": 415
    },
    {
      "epoch": 34.666666666666664,
      "grad_norm": 0.0005482438136823475,
      "learning_rate": 0.00017566891580262338,
      "loss": 0.0,
      "step": 416
    },
    {
      "epoch": 34.75,
      "grad_norm": 0.000544779293704778,
      "learning_rate": 0.00017555405662836508,
      "loss": 0.0,
      "step": 417
    },
    {
      "epoch": 34.75,
      "eval_loss": 1.34795343875885,
      "eval_runtime": 1.0075,
      "eval_samples_per_second": 4.963,
      "eval_steps_per_second": 2.978,
      "step": 417
    },
    {
      "epoch": 34.833333333333336,
      "grad_norm": 0.0007502104854211211,
      "learning_rate": 0.00017543896472464816,
      "loss": 0.0,
      "step": 418
    },
    {
      "epoch": 34.916666666666664,
      "grad_norm": 0.0004958945792168379,
      "learning_rate": 0.0001753236404459907,
      "loss": 0.0,
      "step": 419
    },
    {
      "epoch": 35.0,
      "grad_norm": 0.0005418339278548956,
      "learning_rate": 0.00017520808414762641,
      "loss": 0.0,
      "step": 420
    },
    {
      "epoch": 35.0,
      "eval_loss": 1.3527699708938599,
      "eval_runtime": 0.9983,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.005,
      "step": 420
    },
    {
      "epoch": 35.083333333333336,
      "grad_norm": 0.000690966029651463,
      "learning_rate": 0.00017509229618550392,
      "loss": 0.0,
      "step": 421
    },
    {
      "epoch": 35.166666666666664,
      "grad_norm": 0.000596693018451333,
      "learning_rate": 0.0001749762769162853,
      "loss": 0.0,
      "step": 422
    },
    {
      "epoch": 35.25,
      "grad_norm": 0.0006676318007521331,
      "learning_rate": 0.0001748600266973452,
      "loss": 0.0,
      "step": 423
    },
    {
      "epoch": 35.25,
      "eval_loss": 1.3856842517852783,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 423
    },
    {
      "epoch": 35.333333333333336,
      "grad_norm": 0.0005825145053677261,
      "learning_rate": 0.0001747435458867696,
      "loss": 0.0,
      "step": 424
    },
    {
      "epoch": 35.416666666666664,
      "grad_norm": 0.0007665817392989993,
      "learning_rate": 0.00017462683484335476,
      "loss": 0.0,
      "step": 425
    },
    {
      "epoch": 35.5,
      "grad_norm": 0.0005331716383807361,
      "learning_rate": 0.00017450989392660623,
      "loss": 0.0,
      "step": 426
    },
    {
      "epoch": 35.5,
      "eval_loss": 1.363578200340271,
      "eval_runtime": 1.0003,
      "eval_samples_per_second": 4.998,
      "eval_steps_per_second": 2.999,
      "step": 426
    },
    {
      "epoch": 35.583333333333336,
      "grad_norm": 0.0007831896655261517,
      "learning_rate": 0.00017439272349673756,
      "loss": 0.0,
      "step": 427
    },
    {
      "epoch": 35.666666666666664,
      "grad_norm": 0.0006374032236635685,
      "learning_rate": 0.00017427532391466928,
      "loss": 0.0,
      "step": 428
    },
    {
      "epoch": 35.75,
      "grad_norm": 0.0004623310233000666,
      "learning_rate": 0.00017415769554202776,
      "loss": 0.0,
      "step": 429
    },
    {
      "epoch": 35.75,
      "eval_loss": 1.377062439918518,
      "eval_runtime": 0.9973,
      "eval_samples_per_second": 5.014,
      "eval_steps_per_second": 3.008,
      "step": 429
    },
    {
      "epoch": 35.833333333333336,
      "grad_norm": 0.0006906574126332998,
      "learning_rate": 0.0001740398387411442,
      "loss": 0.0,
      "step": 430
    },
    {
      "epoch": 35.916666666666664,
      "grad_norm": 0.0005421907990239561,
      "learning_rate": 0.00017392175387505334,
      "loss": 0.0,
      "step": 431
    },
    {
      "epoch": 36.0,
      "grad_norm": 0.0008258558227680624,
      "learning_rate": 0.00017380344130749244,
      "loss": 0.0,
      "step": 432
    },
    {
      "epoch": 36.0,
      "eval_loss": 1.3713423013687134,
      "eval_runtime": 1.0049,
      "eval_samples_per_second": 4.976,
      "eval_steps_per_second": 2.985,
      "step": 432
    },
    {
      "epoch": 36.083333333333336,
      "grad_norm": 0.0006201165961101651,
      "learning_rate": 0.0001736849014029002,
      "loss": 0.0,
      "step": 433
    },
    {
      "epoch": 36.166666666666664,
      "grad_norm": 0.0007808684022165835,
      "learning_rate": 0.00017356613452641553,
      "loss": 0.0,
      "step": 434
    },
    {
      "epoch": 36.25,
      "grad_norm": 0.0004686286556534469,
      "learning_rate": 0.00017344714104387652,
      "loss": 0.0,
      "step": 435
    },
    {
      "epoch": 36.25,
      "eval_loss": 1.3198951482772827,
      "eval_runtime": 0.9988,
      "eval_samples_per_second": 5.006,
      "eval_steps_per_second": 3.004,
      "step": 435
    },
    {
      "epoch": 36.333333333333336,
      "grad_norm": 0.000483847368741408,
      "learning_rate": 0.00017332792132181924,
      "loss": 0.0,
      "step": 436
    },
    {
      "epoch": 36.416666666666664,
      "grad_norm": 0.0007912525907158852,
      "learning_rate": 0.00017320847572747673,
      "loss": 0.0,
      "step": 437
    },
    {
      "epoch": 36.5,
      "grad_norm": 0.0007302999729290605,
      "learning_rate": 0.00017308880462877768,
      "loss": 0.0,
      "step": 438
    },
    {
      "epoch": 36.5,
      "eval_loss": 1.4147584438323975,
      "eval_runtime": 1.0009,
      "eval_samples_per_second": 4.995,
      "eval_steps_per_second": 2.997,
      "step": 438
    },
    {
      "epoch": 36.583333333333336,
      "grad_norm": 0.0004984315601177514,
      "learning_rate": 0.00017296890839434544,
      "loss": 0.0,
      "step": 439
    },
    {
      "epoch": 36.666666666666664,
      "grad_norm": 0.0005934284417890012,
      "learning_rate": 0.0001728487873934969,
      "loss": 0.0,
      "step": 440
    },
    {
      "epoch": 36.75,
      "grad_norm": 0.0006075691198930144,
      "learning_rate": 0.00017272844199624115,
      "loss": 0.0,
      "step": 441
    },
    {
      "epoch": 36.75,
      "eval_loss": 1.4220528602600098,
      "eval_runtime": 0.9984,
      "eval_samples_per_second": 5.008,
      "eval_steps_per_second": 3.005,
      "step": 441
    },
    {
      "epoch": 36.833333333333336,
      "grad_norm": 0.0008120195707306266,
      "learning_rate": 0.0001726078725732787,
      "loss": 0.0,
      "step": 442
    },
    {
      "epoch": 36.916666666666664,
      "grad_norm": 0.00065246457234025,
      "learning_rate": 0.000172487079496,
      "loss": 0.0,
      "step": 443
    },
    {
      "epoch": 37.0,
      "grad_norm": 0.0005217579309828579,
      "learning_rate": 0.00017236606313648443,
      "loss": 0.0,
      "step": 444
    },
    {
      "epoch": 37.0,
      "eval_loss": 1.3671696186065674,
      "eval_runtime": 0.9975,
      "eval_samples_per_second": 5.012,
      "eval_steps_per_second": 3.007,
      "step": 444
    },
    {
      "epoch": 37.083333333333336,
      "grad_norm": 0.0007172486511990428,
      "learning_rate": 0.00017224482386749915,
      "loss": 0.0,
      "step": 445
    },
    {
      "epoch": 37.166666666666664,
      "grad_norm": 0.0003895025292877108,
      "learning_rate": 0.00017212336206249792,
      "loss": 0.0,
      "step": 446
    },
    {
      "epoch": 37.25,
      "grad_norm": 0.0005662603653036058,
      "learning_rate": 0.0001720016780956201,
      "loss": 0.0,
      "step": 447
    },
    {
      "epoch": 37.25,
      "eval_loss": 1.3834763765335083,
      "eval_runtime": 0.9938,
      "eval_samples_per_second": 5.031,
      "eval_steps_per_second": 3.019,
      "step": 447
    },
    {
      "epoch": 37.333333333333336,
      "grad_norm": 0.0005162830930203199,
      "learning_rate": 0.00017187977234168925,
      "loss": 0.0,
      "step": 448
    },
    {
      "epoch": 37.416666666666664,
      "grad_norm": 0.000729960564058274,
      "learning_rate": 0.00017175764517621213,
      "loss": 0.0,
      "step": 449
    },
    {
      "epoch": 37.5,
      "grad_norm": 0.000568983843550086,
      "learning_rate": 0.00017163529697537754,
      "loss": 0.0,
      "step": 450
    },
    {
      "epoch": 37.5,
      "eval_loss": 1.4281623363494873,
      "eval_runtime": 0.9969,
      "eval_samples_per_second": 5.015,
      "eval_steps_per_second": 3.009,
      "step": 450
    },
    {
      "epoch": 37.583333333333336,
      "grad_norm": 0.0005903270212002099,
      "learning_rate": 0.00017151272811605515,
      "loss": 0.0,
      "step": 451
    },
    {
      "epoch": 37.666666666666664,
      "grad_norm": 0.0005585820181295276,
      "learning_rate": 0.00017138993897579426,
      "loss": 0.0,
      "step": 452
    },
    {
      "epoch": 37.75,
      "grad_norm": 0.0007649830658920109,
      "learning_rate": 0.0001712669299328228,
      "loss": 0.0,
      "step": 453
    },
    {
      "epoch": 37.75,
      "eval_loss": 1.3630083799362183,
      "eval_runtime": 1.0047,
      "eval_samples_per_second": 4.977,
      "eval_steps_per_second": 2.986,
      "step": 453
    },
    {
      "epoch": 37.833333333333336,
      "grad_norm": 0.0005925532313995063,
      "learning_rate": 0.00017114370136604595,
      "loss": 0.0,
      "step": 454
    },
    {
      "epoch": 37.916666666666664,
      "grad_norm": 0.000459189061075449,
      "learning_rate": 0.0001710202536550452,
      "loss": 0.0,
      "step": 455
    },
    {
      "epoch": 38.0,
      "grad_norm": 0.001040683127939701,
      "learning_rate": 0.000170896587180077,
      "loss": 0.0001,
      "step": 456
    },
    {
      "epoch": 38.0,
      "eval_loss": 1.3869003057479858,
      "eval_runtime": 0.9997,
      "eval_samples_per_second": 5.001,
      "eval_steps_per_second": 3.001,
      "step": 456
    },
    {
      "epoch": 38.083333333333336,
      "grad_norm": 0.0005206026835367084,
      "learning_rate": 0.00017077270232207164,
      "loss": 0.0,
      "step": 457
    },
    {
      "epoch": 38.166666666666664,
      "grad_norm": 0.0005585996550507843,
      "learning_rate": 0.0001706485994626322,
      "loss": 0.0,
      "step": 458
    },
    {
      "epoch": 38.25,
      "grad_norm": 0.0008172117522917688,
      "learning_rate": 0.0001705242789840332,
      "loss": 0.0,
      "step": 459
    },
    {
      "epoch": 38.25,
      "eval_loss": 1.32548987865448,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 459
    },
    {
      "epoch": 38.333333333333336,
      "grad_norm": 0.0005049202591180801,
      "learning_rate": 0.00017039974126921946,
      "loss": 0.0,
      "step": 460
    },
    {
      "epoch": 38.416666666666664,
      "grad_norm": 0.000717685732524842,
      "learning_rate": 0.00017027498670180502,
      "loss": 0.0,
      "step": 461
    },
    {
      "epoch": 38.5,
      "grad_norm": 0.00045444045099429786,
      "learning_rate": 0.00017015001566607184,
      "loss": 0.0,
      "step": 462
    },
    {
      "epoch": 38.5,
      "eval_loss": 1.2950499057769775,
      "eval_runtime": 1.0036,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 462
    },
    {
      "epoch": 38.583333333333336,
      "grad_norm": 0.00047911962610669434,
      "learning_rate": 0.00017002482854696878,
      "loss": 0.0,
      "step": 463
    },
    {
      "epoch": 38.666666666666664,
      "grad_norm": 0.0008150558569468558,
      "learning_rate": 0.0001698994257301101,
      "loss": 0.0,
      "step": 464
    },
    {
      "epoch": 38.75,
      "grad_norm": 0.00047690587234683335,
      "learning_rate": 0.00016977380760177467,
      "loss": 0.0,
      "step": 465
    },
    {
      "epoch": 38.75,
      "eval_loss": 1.367130994796753,
      "eval_runtime": 1.003,
      "eval_samples_per_second": 4.985,
      "eval_steps_per_second": 2.991,
      "step": 465
    },
    {
      "epoch": 38.833333333333336,
      "grad_norm": 0.00040969133260659873,
      "learning_rate": 0.00016964797454890448,
      "loss": 0.0,
      "step": 466
    },
    {
      "epoch": 38.916666666666664,
      "grad_norm": 0.0006912440294399858,
      "learning_rate": 0.00016952192695910356,
      "loss": 0.0,
      "step": 467
    },
    {
      "epoch": 39.0,
      "grad_norm": 0.0007039922056719661,
      "learning_rate": 0.00016939566522063682,
      "loss": 0.0,
      "step": 468
    },
    {
      "epoch": 39.0,
      "eval_loss": 1.3178060054779053,
      "eval_runtime": 0.9988,
      "eval_samples_per_second": 5.006,
      "eval_steps_per_second": 3.004,
      "step": 468
    },
    {
      "epoch": 39.083333333333336,
      "grad_norm": 0.0004978472134098411,
      "learning_rate": 0.00016926918972242882,
      "loss": 0.0,
      "step": 469
    },
    {
      "epoch": 39.166666666666664,
      "grad_norm": 0.0006222586380317807,
      "learning_rate": 0.0001691425008540625,
      "loss": 0.0,
      "step": 470
    },
    {
      "epoch": 39.25,
      "grad_norm": 0.0005378691130317748,
      "learning_rate": 0.00016901559900577806,
      "loss": 0.0,
      "step": 471
    },
    {
      "epoch": 39.25,
      "eval_loss": 1.3614153861999512,
      "eval_runtime": 0.9978,
      "eval_samples_per_second": 5.011,
      "eval_steps_per_second": 3.007,
      "step": 471
    },
    {
      "epoch": 39.333333333333336,
      "grad_norm": 0.0007643576827831566,
      "learning_rate": 0.00016888848456847181,
      "loss": 0.0,
      "step": 472
    },
    {
      "epoch": 39.416666666666664,
      "grad_norm": 0.0005351761938072741,
      "learning_rate": 0.00016876115793369481,
      "loss": 0.0,
      "step": 473
    },
    {
      "epoch": 39.5,
      "grad_norm": 0.00053477066103369,
      "learning_rate": 0.00016863361949365183,
      "loss": 0.0,
      "step": 474
    },
    {
      "epoch": 39.5,
      "eval_loss": 1.4037421941757202,
      "eval_runtime": 0.9959,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 474
    },
    {
      "epoch": 39.583333333333336,
      "grad_norm": 0.0005588660133071244,
      "learning_rate": 0.00016850586964120006,
      "loss": 0.0,
      "step": 475
    },
    {
      "epoch": 39.666666666666664,
      "grad_norm": 0.00045289465924724936,
      "learning_rate": 0.00016837790876984778,
      "loss": 0.0,
      "step": 476
    },
    {
      "epoch": 39.75,
      "grad_norm": 0.0005259590689092875,
      "learning_rate": 0.00016824973727375345,
      "loss": 0.0,
      "step": 477
    },
    {
      "epoch": 39.75,
      "eval_loss": 1.3815350532531738,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 477
    },
    {
      "epoch": 39.833333333333336,
      "grad_norm": 0.0005151298828423023,
      "learning_rate": 0.00016812135554772418,
      "loss": 0.0,
      "step": 478
    },
    {
      "epoch": 39.916666666666664,
      "grad_norm": 0.00045850634342059493,
      "learning_rate": 0.00016799276398721475,
      "loss": 0.0,
      "step": 479
    },
    {
      "epoch": 40.0,
      "grad_norm": 0.0005871482426300645,
      "learning_rate": 0.00016786396298832624,
      "loss": 0.0,
      "step": 480
    },
    {
      "epoch": 40.0,
      "eval_loss": 1.3843694925308228,
      "eval_runtime": 1.0036,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 480
    },
    {
      "epoch": 40.083333333333336,
      "grad_norm": 0.0006789249600842595,
      "learning_rate": 0.00016773495294780484,
      "loss": 0.0,
      "step": 481
    },
    {
      "epoch": 40.166666666666664,
      "grad_norm": 0.0005107966717332602,
      "learning_rate": 0.00016760573426304073,
      "loss": 0.0,
      "step": 482
    },
    {
      "epoch": 40.25,
      "grad_norm": 0.0005243612104095519,
      "learning_rate": 0.0001674763073320667,
      "loss": 0.0,
      "step": 483
    },
    {
      "epoch": 40.25,
      "eval_loss": 1.3719837665557861,
      "eval_runtime": 1.0027,
      "eval_samples_per_second": 4.986,
      "eval_steps_per_second": 2.992,
      "step": 483
    },
    {
      "epoch": 40.333333333333336,
      "grad_norm": 0.0004786080971825868,
      "learning_rate": 0.00016734667255355708,
      "loss": 0.0,
      "step": 484
    },
    {
      "epoch": 40.416666666666664,
      "grad_norm": 0.000417126837419346,
      "learning_rate": 0.00016721683032682634,
      "loss": 0.0,
      "step": 485
    },
    {
      "epoch": 40.5,
      "grad_norm": 0.000552485988009721,
      "learning_rate": 0.00016708678105182808,
      "loss": 0.0,
      "step": 486
    },
    {
      "epoch": 40.5,
      "eval_loss": 1.4650084972381592,
      "eval_runtime": 1.0026,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 486
    },
    {
      "epoch": 40.583333333333336,
      "grad_norm": 0.0005722521455027163,
      "learning_rate": 0.00016695652512915346,
      "loss": 0.0,
      "step": 487
    },
    {
      "epoch": 40.666666666666664,
      "grad_norm": 0.0006335052894428372,
      "learning_rate": 0.00016682606296003046,
      "loss": 0.0,
      "step": 488
    },
    {
      "epoch": 40.75,
      "grad_norm": 0.00048644779599271715,
      "learning_rate": 0.00016669539494632214,
      "loss": 0.0,
      "step": 489
    },
    {
      "epoch": 40.75,
      "eval_loss": 1.3380138874053955,
      "eval_runtime": 1.0024,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 489
    },
    {
      "epoch": 40.833333333333336,
      "grad_norm": 0.0006265827105380595,
      "learning_rate": 0.0001665645214905257,
      "loss": 0.0,
      "step": 490
    },
    {
      "epoch": 40.916666666666664,
      "grad_norm": 0.000508054334204644,
      "learning_rate": 0.00016643344299577115,
      "loss": 0.0,
      "step": 491
    },
    {
      "epoch": 41.0,
      "grad_norm": 0.000654785253573209,
      "learning_rate": 0.0001663021598658201,
      "loss": 0.0,
      "step": 492
    },
    {
      "epoch": 41.0,
      "eval_loss": 1.3997881412506104,
      "eval_runtime": 0.997,
      "eval_samples_per_second": 5.015,
      "eval_steps_per_second": 3.009,
      "step": 492
    },
    {
      "epoch": 41.083333333333336,
      "grad_norm": 0.0007061748765408993,
      "learning_rate": 0.00016617067250506454,
      "loss": 0.0,
      "step": 493
    },
    {
      "epoch": 41.166666666666664,
      "grad_norm": 0.0005502475542016327,
      "learning_rate": 0.00016603898131852546,
      "loss": 0.0,
      "step": 494
    },
    {
      "epoch": 41.25,
      "grad_norm": 0.0004132928152102977,
      "learning_rate": 0.00016590708671185175,
      "loss": 0.0,
      "step": 495
    },
    {
      "epoch": 41.25,
      "eval_loss": 1.3790134191513062,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 495
    },
    {
      "epoch": 41.333333333333336,
      "grad_norm": 0.0007406755466945469,
      "learning_rate": 0.0001657749890913189,
      "loss": 0.0,
      "step": 496
    },
    {
      "epoch": 41.416666666666664,
      "grad_norm": 0.00046529941027984023,
      "learning_rate": 0.0001656426888638277,
      "loss": 0.0,
      "step": 497
    },
    {
      "epoch": 41.5,
      "grad_norm": 0.0005431702011264861,
      "learning_rate": 0.0001655101864369031,
      "loss": 0.0,
      "step": 498
    },
    {
      "epoch": 41.5,
      "eval_loss": 1.4162348508834839,
      "eval_runtime": 0.9955,
      "eval_samples_per_second": 5.023,
      "eval_steps_per_second": 3.014,
      "step": 498
    },
    {
      "epoch": 41.583333333333336,
      "grad_norm": 0.00041904262616299093,
      "learning_rate": 0.00016537748221869285,
      "loss": 0.0,
      "step": 499
    },
    {
      "epoch": 41.666666666666664,
      "grad_norm": 0.0005135961109772325,
      "learning_rate": 0.00016524457661796626,
      "loss": 0.0,
      "step": 500
    },
    {
      "epoch": 41.75,
      "grad_norm": 0.0005814289324916899,
      "learning_rate": 0.00016511147004411294,
      "loss": 0.0,
      "step": 501
    },
    {
      "epoch": 41.75,
      "eval_loss": 1.4087932109832764,
      "eval_runtime": 1.0019,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 501
    },
    {
      "epoch": 41.833333333333336,
      "grad_norm": 0.000631973147392273,
      "learning_rate": 0.00016497816290714167,
      "loss": 0.0,
      "step": 502
    },
    {
      "epoch": 41.916666666666664,
      "grad_norm": 0.0004621769767254591,
      "learning_rate": 0.00016484465561767886,
      "loss": 0.0,
      "step": 503
    },
    {
      "epoch": 42.0,
      "grad_norm": 0.0005730188568122685,
      "learning_rate": 0.00016471094858696762,
      "loss": 0.0,
      "step": 504
    },
    {
      "epoch": 42.0,
      "eval_loss": 1.4192883968353271,
      "eval_runtime": 1.0066,
      "eval_samples_per_second": 4.967,
      "eval_steps_per_second": 2.98,
      "step": 504
    },
    {
      "epoch": 42.083333333333336,
      "grad_norm": 0.0006205916288308799,
      "learning_rate": 0.00016457704222686622,
      "loss": 0.0,
      "step": 505
    },
    {
      "epoch": 42.166666666666664,
      "grad_norm": 0.00042670828406699,
      "learning_rate": 0.00016444293694984694,
      "loss": 0.0,
      "step": 506
    },
    {
      "epoch": 42.25,
      "grad_norm": 0.0005204363260418177,
      "learning_rate": 0.00016430863316899477,
      "loss": 0.0,
      "step": 507
    },
    {
      "epoch": 42.25,
      "eval_loss": 1.3818647861480713,
      "eval_runtime": 1.0029,
      "eval_samples_per_second": 4.986,
      "eval_steps_per_second": 2.991,
      "step": 507
    },
    {
      "epoch": 42.333333333333336,
      "grad_norm": 0.0006299924571067095,
      "learning_rate": 0.00016417413129800622,
      "loss": 0.0,
      "step": 508
    },
    {
      "epoch": 42.416666666666664,
      "grad_norm": 0.0005839142831973732,
      "learning_rate": 0.00016403943175118794,
      "loss": 0.0,
      "step": 509
    },
    {
      "epoch": 42.5,
      "grad_norm": 0.00044338169391267,
      "learning_rate": 0.0001639045349434554,
      "loss": 0.0,
      "step": 510
    },
    {
      "epoch": 42.5,
      "eval_loss": 1.4376306533813477,
      "eval_runtime": 1.0023,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 510
    },
    {
      "epoch": 42.583333333333336,
      "grad_norm": 0.000412419845815748,
      "learning_rate": 0.00016376944129033188,
      "loss": 0.0,
      "step": 511
    },
    {
      "epoch": 42.666666666666664,
      "grad_norm": 0.00045422412222251296,
      "learning_rate": 0.0001636341512079468,
      "loss": 0.0,
      "step": 512
    },
    {
      "epoch": 42.75,
      "grad_norm": 0.000705377315171063,
      "learning_rate": 0.00016349866511303478,
      "loss": 0.0,
      "step": 513
    },
    {
      "epoch": 42.75,
      "eval_loss": 1.369931697845459,
      "eval_runtime": 1.0,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 513
    },
    {
      "epoch": 42.833333333333336,
      "grad_norm": 0.00045503315050154924,
      "learning_rate": 0.00016336298342293416,
      "loss": 0.0,
      "step": 514
    },
    {
      "epoch": 42.916666666666664,
      "grad_norm": 0.00045976281398907304,
      "learning_rate": 0.00016322710655558578,
      "loss": 0.0,
      "step": 515
    },
    {
      "epoch": 43.0,
      "grad_norm": 0.0005398106877692044,
      "learning_rate": 0.00016309103492953168,
      "loss": 0.0,
      "step": 516
    },
    {
      "epoch": 43.0,
      "eval_loss": 1.3290988206863403,
      "eval_runtime": 1.0055,
      "eval_samples_per_second": 4.973,
      "eval_steps_per_second": 2.984,
      "step": 516
    },
    {
      "epoch": 43.083333333333336,
      "grad_norm": 0.00034475018037483096,
      "learning_rate": 0.00016295476896391385,
      "loss": 0.0,
      "step": 517
    },
    {
      "epoch": 43.166666666666664,
      "grad_norm": 0.00045667815720662475,
      "learning_rate": 0.0001628183090784729,
      "loss": 0.0,
      "step": 518
    },
    {
      "epoch": 43.25,
      "grad_norm": 0.0004138700314797461,
      "learning_rate": 0.0001626816556935467,
      "loss": 0.0,
      "step": 519
    },
    {
      "epoch": 43.25,
      "eval_loss": 1.3067548274993896,
      "eval_runtime": 1.0079,
      "eval_samples_per_second": 4.961,
      "eval_steps_per_second": 2.977,
      "step": 519
    },
    {
      "epoch": 43.333333333333336,
      "grad_norm": 0.0003518753219395876,
      "learning_rate": 0.00016254480923006925,
      "loss": 0.0,
      "step": 520
    },
    {
      "epoch": 43.416666666666664,
      "grad_norm": 0.0007166349096223712,
      "learning_rate": 0.00016240777010956923,
      "loss": 0.0,
      "step": 521
    },
    {
      "epoch": 43.5,
      "grad_norm": 0.0005199299775995314,
      "learning_rate": 0.0001622705387541688,
      "loss": 0.0,
      "step": 522
    },
    {
      "epoch": 43.5,
      "eval_loss": 1.3666106462478638,
      "eval_runtime": 1.0034,
      "eval_samples_per_second": 4.983,
      "eval_steps_per_second": 2.99,
      "step": 522
    },
    {
      "epoch": 43.583333333333336,
      "grad_norm": 0.00047365936916321516,
      "learning_rate": 0.00016213311558658223,
      "loss": 0.0,
      "step": 523
    },
    {
      "epoch": 43.666666666666664,
      "grad_norm": 0.0006744747515767813,
      "learning_rate": 0.00016199550103011468,
      "loss": 0.0,
      "step": 524
    },
    {
      "epoch": 43.75,
      "grad_norm": 0.0005087734316475689,
      "learning_rate": 0.00016185769550866073,
      "loss": 0.0,
      "step": 525
    },
    {
      "epoch": 43.75,
      "eval_loss": 1.3638042211532593,
      "eval_runtime": 1.0026,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 525
    },
    {
      "epoch": 43.833333333333336,
      "grad_norm": 0.0005367001867853105,
      "learning_rate": 0.00016171969944670338,
      "loss": 0.0,
      "step": 526
    },
    {
      "epoch": 43.916666666666664,
      "grad_norm": 0.0006538836751133204,
      "learning_rate": 0.00016158151326931236,
      "loss": 0.0,
      "step": 527
    },
    {
      "epoch": 44.0,
      "grad_norm": 0.0006103634368628263,
      "learning_rate": 0.00016144313740214315,
      "loss": 0.0,
      "step": 528
    },
    {
      "epoch": 44.0,
      "eval_loss": 1.363243818283081,
      "eval_runtime": 1.0099,
      "eval_samples_per_second": 4.951,
      "eval_steps_per_second": 2.971,
      "step": 528
    },
    {
      "epoch": 44.083333333333336,
      "grad_norm": 0.00045990332728251815,
      "learning_rate": 0.00016130457227143543,
      "loss": 0.0,
      "step": 529
    },
    {
      "epoch": 44.166666666666664,
      "grad_norm": 0.0005698358290828764,
      "learning_rate": 0.00016116581830401193,
      "loss": 0.0,
      "step": 530
    },
    {
      "epoch": 44.25,
      "grad_norm": 0.0004100614751223475,
      "learning_rate": 0.0001610268759272771,
      "loss": 0.0,
      "step": 531
    },
    {
      "epoch": 44.25,
      "eval_loss": 1.37509024143219,
      "eval_runtime": 1.0043,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.987,
      "step": 531
    },
    {
      "epoch": 44.333333333333336,
      "grad_norm": 0.0006265594274736941,
      "learning_rate": 0.00016088774556921562,
      "loss": 0.0,
      "step": 532
    },
    {
      "epoch": 44.416666666666664,
      "grad_norm": 0.000490658450871706,
      "learning_rate": 0.0001607484276583913,
      "loss": 0.0,
      "step": 533
    },
    {
      "epoch": 44.5,
      "grad_norm": 0.00034291454358026385,
      "learning_rate": 0.00016060892262394569,
      "loss": 0.0,
      "step": 534
    },
    {
      "epoch": 44.5,
      "eval_loss": 1.3853100538253784,
      "eval_runtime": 1.002,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 534
    },
    {
      "epoch": 44.583333333333336,
      "grad_norm": 0.0004409481189213693,
      "learning_rate": 0.00016046923089559664,
      "loss": 0.0,
      "step": 535
    },
    {
      "epoch": 44.666666666666664,
      "grad_norm": 0.0005041231052018702,
      "learning_rate": 0.00016032935290363718,
      "loss": 0.0,
      "step": 536
    },
    {
      "epoch": 44.75,
      "grad_norm": 0.00042120827129110694,
      "learning_rate": 0.000160189289078934,
      "loss": 0.0,
      "step": 537
    },
    {
      "epoch": 44.75,
      "eval_loss": 1.3373311758041382,
      "eval_runtime": 1.0009,
      "eval_samples_per_second": 4.995,
      "eval_steps_per_second": 2.997,
      "step": 537
    },
    {
      "epoch": 44.833333333333336,
      "grad_norm": 0.0004808636149391532,
      "learning_rate": 0.00016004903985292627,
      "loss": 0.0,
      "step": 538
    },
    {
      "epoch": 44.916666666666664,
      "grad_norm": 0.0006614562007598579,
      "learning_rate": 0.00015990860565762426,
      "loss": 0.0,
      "step": 539
    },
    {
      "epoch": 45.0,
      "grad_norm": 0.0005768191767856479,
      "learning_rate": 0.00015976798692560795,
      "loss": 0.0,
      "step": 540
    },
    {
      "epoch": 45.0,
      "eval_loss": 1.4087305068969727,
      "eval_runtime": 0.9988,
      "eval_samples_per_second": 5.006,
      "eval_steps_per_second": 3.004,
      "step": 540
    },
    {
      "epoch": 45.083333333333336,
      "grad_norm": 0.00035000339266844094,
      "learning_rate": 0.00015962718409002577,
      "loss": 0.0,
      "step": 541
    },
    {
      "epoch": 45.166666666666664,
      "grad_norm": 0.0005575396353378892,
      "learning_rate": 0.00015948619758459324,
      "loss": 0.0,
      "step": 542
    },
    {
      "epoch": 45.25,
      "grad_norm": 0.0005358924390748143,
      "learning_rate": 0.00015934502784359166,
      "loss": 0.0,
      "step": 543
    },
    {
      "epoch": 45.25,
      "eval_loss": 1.391115665435791,
      "eval_runtime": 0.9984,
      "eval_samples_per_second": 5.008,
      "eval_steps_per_second": 3.005,
      "step": 543
    },
    {
      "epoch": 45.333333333333336,
      "grad_norm": 0.00031767322798259556,
      "learning_rate": 0.00015920367530186677,
      "loss": 0.0,
      "step": 544
    },
    {
      "epoch": 45.416666666666664,
      "grad_norm": 0.0006173212314024568,
      "learning_rate": 0.00015906214039482732,
      "loss": 0.0,
      "step": 545
    },
    {
      "epoch": 45.5,
      "grad_norm": 0.0006917008431628346,
      "learning_rate": 0.00015892042355844388,
      "loss": 0.0,
      "step": 546
    },
    {
      "epoch": 45.5,
      "eval_loss": 1.376464605331421,
      "eval_runtime": 0.9977,
      "eval_samples_per_second": 5.012,
      "eval_steps_per_second": 3.007,
      "step": 546
    },
    {
      "epoch": 45.583333333333336,
      "grad_norm": 0.0003915801935363561,
      "learning_rate": 0.00015877852522924732,
      "loss": 0.0,
      "step": 547
    },
    {
      "epoch": 45.666666666666664,
      "grad_norm": 0.00041756295831874013,
      "learning_rate": 0.0001586364458443277,
      "loss": 0.0,
      "step": 548
    },
    {
      "epoch": 45.75,
      "grad_norm": 0.0004090654547326267,
      "learning_rate": 0.00015849418584133266,
      "loss": 0.0,
      "step": 549
    },
    {
      "epoch": 45.75,
      "eval_loss": 1.4101691246032715,
      "eval_runtime": 0.9972,
      "eval_samples_per_second": 5.014,
      "eval_steps_per_second": 3.008,
      "step": 549
    },
    {
      "epoch": 45.833333333333336,
      "grad_norm": 0.0004932774463668466,
      "learning_rate": 0.00015835174565846622,
      "loss": 0.0,
      "step": 550
    },
    {
      "epoch": 45.916666666666664,
      "grad_norm": 0.0004028148832730949,
      "learning_rate": 0.00015820912573448752,
      "loss": 0.0,
      "step": 551
    },
    {
      "epoch": 46.0,
      "grad_norm": 0.0008249112870544195,
      "learning_rate": 0.00015806632650870923,
      "loss": 0.0,
      "step": 552
    },
    {
      "epoch": 46.0,
      "eval_loss": 1.4410957098007202,
      "eval_runtime": 0.9969,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.009,
      "step": 552
    },
    {
      "epoch": 46.083333333333336,
      "grad_norm": 0.000592179480008781,
      "learning_rate": 0.00015792334842099637,
      "loss": 0.0,
      "step": 553
    },
    {
      "epoch": 46.166666666666664,
      "grad_norm": 0.0003191094729118049,
      "learning_rate": 0.00015778019191176488,
      "loss": 0.0,
      "step": 554
    },
    {
      "epoch": 46.25,
      "grad_norm": 0.00043024285696446896,
      "learning_rate": 0.00015763685742198037,
      "loss": 0.0,
      "step": 555
    },
    {
      "epoch": 46.25,
      "eval_loss": 1.4222465753555298,
      "eval_runtime": 1.0039,
      "eval_samples_per_second": 4.981,
      "eval_steps_per_second": 2.988,
      "step": 555
    },
    {
      "epoch": 46.333333333333336,
      "grad_norm": 0.0004887207760475576,
      "learning_rate": 0.0001574933453931566,
      "loss": 0.0,
      "step": 556
    },
    {
      "epoch": 46.416666666666664,
      "grad_norm": 0.00048158399295061827,
      "learning_rate": 0.00015734965626735425,
      "loss": 0.0,
      "step": 557
    },
    {
      "epoch": 46.5,
      "grad_norm": 0.0005184859619475901,
      "learning_rate": 0.00015720579048717948,
      "loss": 0.0,
      "step": 558
    },
    {
      "epoch": 46.5,
      "eval_loss": 1.3946797847747803,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.994,
      "step": 558
    },
    {
      "epoch": 46.583333333333336,
      "grad_norm": 0.00044155254727229476,
      "learning_rate": 0.0001570617484957827,
      "loss": 0.0,
      "step": 559
    },
    {
      "epoch": 46.666666666666664,
      "grad_norm": 0.0004599610692821443,
      "learning_rate": 0.00015691753073685693,
      "loss": 0.0,
      "step": 560
    },
    {
      "epoch": 46.75,
      "grad_norm": 0.0004724192840512842,
      "learning_rate": 0.00015677313765463674,
      "loss": 0.0,
      "step": 561
    },
    {
      "epoch": 46.75,
      "eval_loss": 1.3830640316009521,
      "eval_runtime": 1.0031,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.991,
      "step": 561
    },
    {
      "epoch": 46.833333333333336,
      "grad_norm": 0.0003716637729667127,
      "learning_rate": 0.00015662856969389668,
      "loss": 0.0,
      "step": 562
    },
    {
      "epoch": 46.916666666666664,
      "grad_norm": 0.000462923024315387,
      "learning_rate": 0.00015648382729995008,
      "loss": 0.0,
      "step": 563
    },
    {
      "epoch": 47.0,
      "grad_norm": 0.0006282700342126191,
      "learning_rate": 0.00015633891091864746,
      "loss": 0.0,
      "step": 564
    },
    {
      "epoch": 47.0,
      "eval_loss": 1.3807313442230225,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.997,
      "step": 564
    },
    {
      "epoch": 47.083333333333336,
      "grad_norm": 0.0004943168023601174,
      "learning_rate": 0.0001561938209963753,
      "loss": 0.0,
      "step": 565
    },
    {
      "epoch": 47.166666666666664,
      "grad_norm": 0.0003303246048744768,
      "learning_rate": 0.00015604855798005468,
      "loss": 0.0,
      "step": 566
    },
    {
      "epoch": 47.25,
      "grad_norm": 0.0004055647586937994,
      "learning_rate": 0.00015590312231713988,
      "loss": 0.0,
      "step": 567
    },
    {
      "epoch": 47.25,
      "eval_loss": 1.3944257497787476,
      "eval_runtime": 1.0013,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 567
    },
    {
      "epoch": 47.333333333333336,
      "grad_norm": 0.00036946902400813997,
      "learning_rate": 0.00015575751445561688,
      "loss": 0.0,
      "step": 568
    },
    {
      "epoch": 47.416666666666664,
      "grad_norm": 0.00043260009260848165,
      "learning_rate": 0.00015561173484400222,
      "loss": 0.0,
      "step": 569
    },
    {
      "epoch": 47.5,
      "grad_norm": 0.0003477496502455324,
      "learning_rate": 0.0001554657839313413,
      "loss": 0.0,
      "step": 570
    },
    {
      "epoch": 47.5,
      "eval_loss": 1.4028319120407104,
      "eval_runtime": 1.005,
      "eval_samples_per_second": 4.975,
      "eval_steps_per_second": 2.985,
      "step": 570
    },
    {
      "epoch": 47.583333333333336,
      "grad_norm": 0.0005868911975994706,
      "learning_rate": 0.00015531966216720747,
      "loss": 0.0,
      "step": 571
    },
    {
      "epoch": 47.666666666666664,
      "grad_norm": 0.0004507237463258207,
      "learning_rate": 0.0001551733700017,
      "loss": 0.0,
      "step": 572
    },
    {
      "epoch": 47.75,
      "grad_norm": 0.000361344194971025,
      "learning_rate": 0.00015502690788544334,
      "loss": 0.0,
      "step": 573
    },
    {
      "epoch": 47.75,
      "eval_loss": 1.44056236743927,
      "eval_runtime": 1.003,
      "eval_samples_per_second": 4.985,
      "eval_steps_per_second": 2.991,
      "step": 573
    },
    {
      "epoch": 47.833333333333336,
      "grad_norm": 0.0004474427259992808,
      "learning_rate": 0.00015488027626958526,
      "loss": 0.0,
      "step": 574
    },
    {
      "epoch": 47.916666666666664,
      "grad_norm": 0.00044678233098238707,
      "learning_rate": 0.00015473347560579574,
      "loss": 0.0,
      "step": 575
    },
    {
      "epoch": 48.0,
      "grad_norm": 0.0005565593019127846,
      "learning_rate": 0.00015458650634626544,
      "loss": 0.0,
      "step": 576
    },
    {
      "epoch": 48.0,
      "eval_loss": 1.44911789894104,
      "eval_runtime": 1.0067,
      "eval_samples_per_second": 4.967,
      "eval_steps_per_second": 2.98,
      "step": 576
    },
    {
      "epoch": 48.083333333333336,
      "grad_norm": 0.0005140483262948692,
      "learning_rate": 0.0001544393689437043,
      "loss": 0.0,
      "step": 577
    },
    {
      "epoch": 48.166666666666664,
      "grad_norm": 0.0004332709067966789,
      "learning_rate": 0.00015429206385134033,
      "loss": 0.0,
      "step": 578
    },
    {
      "epoch": 48.25,
      "grad_norm": 0.000337273464538157,
      "learning_rate": 0.0001541445915229179,
      "loss": 0.0,
      "step": 579
    },
    {
      "epoch": 48.25,
      "eval_loss": 1.3833119869232178,
      "eval_runtime": 1.001,
      "eval_samples_per_second": 4.995,
      "eval_steps_per_second": 2.997,
      "step": 579
    },
    {
      "epoch": 48.333333333333336,
      "grad_norm": 0.0004889601259492338,
      "learning_rate": 0.00015399695241269666,
      "loss": 0.0,
      "step": 580
    },
    {
      "epoch": 48.416666666666664,
      "grad_norm": 0.0005444593844003975,
      "learning_rate": 0.00015384914697544994,
      "loss": 0.0,
      "step": 581
    },
    {
      "epoch": 48.5,
      "grad_norm": 0.00040188737330026925,
      "learning_rate": 0.00015370117566646337,
      "loss": 0.0,
      "step": 582
    },
    {
      "epoch": 48.5,
      "eval_loss": 1.4310088157653809,
      "eval_runtime": 0.9982,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.005,
      "step": 582
    },
    {
      "epoch": 48.583333333333336,
      "grad_norm": 0.00044875883031636477,
      "learning_rate": 0.0001535530389415336,
      "loss": 0.0,
      "step": 583
    },
    {
      "epoch": 48.666666666666664,
      "grad_norm": 0.0004999022930860519,
      "learning_rate": 0.0001534047372569668,
      "loss": 0.0,
      "step": 584
    },
    {
      "epoch": 48.75,
      "grad_norm": 0.00029777863528579473,
      "learning_rate": 0.00015325627106957713,
      "loss": 0.0,
      "step": 585
    },
    {
      "epoch": 48.75,
      "eval_loss": 1.3677672147750854,
      "eval_runtime": 1.0038,
      "eval_samples_per_second": 4.981,
      "eval_steps_per_second": 2.989,
      "step": 585
    },
    {
      "epoch": 48.833333333333336,
      "grad_norm": 0.00044718250865116715,
      "learning_rate": 0.00015310764083668565,
      "loss": 0.0,
      "step": 586
    },
    {
      "epoch": 48.916666666666664,
      "grad_norm": 0.0004172657791059464,
      "learning_rate": 0.00015295884701611864,
      "loss": 0.0,
      "step": 587
    },
    {
      "epoch": 49.0,
      "grad_norm": 0.00047203697613440454,
      "learning_rate": 0.00015280989006620626,
      "loss": 0.0,
      "step": 588
    },
    {
      "epoch": 49.0,
      "eval_loss": 1.3566272258758545,
      "eval_runtime": 0.9954,
      "eval_samples_per_second": 5.023,
      "eval_steps_per_second": 3.014,
      "step": 588
    },
    {
      "epoch": 49.083333333333336,
      "grad_norm": 0.00032100523822009563,
      "learning_rate": 0.00015266077044578125,
      "loss": 0.0,
      "step": 589
    },
    {
      "epoch": 49.166666666666664,
      "grad_norm": 0.00048295583110302687,
      "learning_rate": 0.00015251148861417733,
      "loss": 0.0,
      "step": 590
    },
    {
      "epoch": 49.25,
      "grad_norm": 0.00036863124114461243,
      "learning_rate": 0.0001523620450312279,
      "loss": 0.0,
      "step": 591
    },
    {
      "epoch": 49.25,
      "eval_loss": 1.3652876615524292,
      "eval_runtime": 0.9964,
      "eval_samples_per_second": 5.018,
      "eval_steps_per_second": 3.011,
      "step": 591
    },
    {
      "epoch": 49.333333333333336,
      "grad_norm": 0.0005103417206555605,
      "learning_rate": 0.00015221244015726463,
      "loss": 0.0,
      "step": 592
    },
    {
      "epoch": 49.416666666666664,
      "grad_norm": 0.0005580158904194832,
      "learning_rate": 0.000152062674453116,
      "loss": 0.0,
      "step": 593
    },
    {
      "epoch": 49.5,
      "grad_norm": 0.00036766609991900623,
      "learning_rate": 0.00015191274838010588,
      "loss": 0.0,
      "step": 594
    },
    {
      "epoch": 49.5,
      "eval_loss": 1.330212116241455,
      "eval_runtime": 0.996,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 594
    },
    {
      "epoch": 49.583333333333336,
      "grad_norm": 0.00039910461055114865,
      "learning_rate": 0.00015176266240005224,
      "loss": 0.0,
      "step": 595
    },
    {
      "epoch": 49.666666666666664,
      "grad_norm": 0.0005360649083741009,
      "learning_rate": 0.0001516124169752654,
      "loss": 0.0,
      "step": 596
    },
    {
      "epoch": 49.75,
      "grad_norm": 0.0004791339742951095,
      "learning_rate": 0.000151462012568547,
      "loss": 0.0,
      "step": 597
    },
    {
      "epoch": 49.75,
      "eval_loss": 1.4144344329833984,
      "eval_runtime": 0.9968,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.009,
      "step": 597
    },
    {
      "epoch": 49.833333333333336,
      "grad_norm": 0.00033915965468622744,
      "learning_rate": 0.0001513114496431883,
      "loss": 0.0,
      "step": 598
    },
    {
      "epoch": 49.916666666666664,
      "grad_norm": 0.0003587327082641423,
      "learning_rate": 0.00015116072866296887,
      "loss": 0.0,
      "step": 599
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.0005240789614617825,
      "learning_rate": 0.0001510098500921552,
      "loss": 0.0,
      "step": 600
    },
    {
      "epoch": 50.0,
      "eval_loss": 1.4027620553970337,
      "eval_runtime": 0.9955,
      "eval_samples_per_second": 5.023,
      "eval_steps_per_second": 3.014,
      "step": 600
    },
    {
      "epoch": 50.083333333333336,
      "grad_norm": 0.00049717997899279,
      "learning_rate": 0.00015085881439549903,
      "loss": 0.0,
      "step": 601
    },
    {
      "epoch": 50.166666666666664,
      "grad_norm": 0.00046802297583781183,
      "learning_rate": 0.00015070762203823633,
      "loss": 0.0,
      "step": 602
    },
    {
      "epoch": 50.25,
      "grad_norm": 0.0004946792032569647,
      "learning_rate": 0.00015055627348608544,
      "loss": 0.0,
      "step": 603
    },
    {
      "epoch": 50.25,
      "eval_loss": 1.339178442955017,
      "eval_runtime": 1.0,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 603
    },
    {
      "epoch": 50.333333333333336,
      "grad_norm": 0.0004732416127808392,
      "learning_rate": 0.00015040476920524594,
      "loss": 0.0,
      "step": 604
    },
    {
      "epoch": 50.416666666666664,
      "grad_norm": 0.0004144484701100737,
      "learning_rate": 0.00015025310966239701,
      "loss": 0.0,
      "step": 605
    },
    {
      "epoch": 50.5,
      "grad_norm": 0.0005026271101087332,
      "learning_rate": 0.0001501012953246962,
      "loss": 0.0,
      "step": 606
    },
    {
      "epoch": 50.5,
      "eval_loss": 1.3991129398345947,
      "eval_runtime": 1.0007,
      "eval_samples_per_second": 4.996,
      "eval_steps_per_second": 2.998,
      "step": 606
    },
    {
      "epoch": 50.583333333333336,
      "grad_norm": 0.00037861111923120916,
      "learning_rate": 0.00014994932665977784,
      "loss": 0.0,
      "step": 607
    },
    {
      "epoch": 50.666666666666664,
      "grad_norm": 0.00034147186670452356,
      "learning_rate": 0.00014979720413575148,
      "loss": 0.0,
      "step": 608
    },
    {
      "epoch": 50.75,
      "grad_norm": 0.0003524382191244513,
      "learning_rate": 0.00014964492822120088,
      "loss": 0.0,
      "step": 609
    },
    {
      "epoch": 50.75,
      "eval_loss": 1.3776392936706543,
      "eval_runtime": 1.0029,
      "eval_samples_per_second": 4.986,
      "eval_steps_per_second": 2.991,
      "step": 609
    },
    {
      "epoch": 50.833333333333336,
      "grad_norm": 0.00043015333358198404,
      "learning_rate": 0.000149492499385182,
      "loss": 0.0,
      "step": 610
    },
    {
      "epoch": 50.916666666666664,
      "grad_norm": 0.00038449285784736276,
      "learning_rate": 0.00014933991809722212,
      "loss": 0.0,
      "step": 611
    },
    {
      "epoch": 51.0,
      "grad_norm": 0.0004208599857520312,
      "learning_rate": 0.0001491871848273179,
      "loss": 0.0,
      "step": 612
    },
    {
      "epoch": 51.0,
      "eval_loss": 1.4066321849822998,
      "eval_runtime": 1.0057,
      "eval_samples_per_second": 4.972,
      "eval_steps_per_second": 2.983,
      "step": 612
    },
    {
      "epoch": 51.083333333333336,
      "grad_norm": 0.0003598616167437285,
      "learning_rate": 0.00014903430004593423,
      "loss": 0.0,
      "step": 613
    },
    {
      "epoch": 51.166666666666664,
      "grad_norm": 0.0003681297821458429,
      "learning_rate": 0.00014888126422400277,
      "loss": 0.0,
      "step": 614
    },
    {
      "epoch": 51.25,
      "grad_norm": 0.0005349079146981239,
      "learning_rate": 0.00014872807783292027,
      "loss": 0.0,
      "step": 615
    },
    {
      "epoch": 51.25,
      "eval_loss": 1.3909558057785034,
      "eval_runtime": 1.0021,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 615
    },
    {
      "epoch": 51.333333333333336,
      "grad_norm": 0.00031404561013914645,
      "learning_rate": 0.00014857474134454744,
      "loss": 0.0,
      "step": 616
    },
    {
      "epoch": 51.416666666666664,
      "grad_norm": 0.0003829346678685397,
      "learning_rate": 0.0001484212552312073,
      "loss": 0.0,
      "step": 617
    },
    {
      "epoch": 51.5,
      "grad_norm": 0.0003844700986519456,
      "learning_rate": 0.00014826761996568366,
      "loss": 0.0,
      "step": 618
    },
    {
      "epoch": 51.5,
      "eval_loss": 1.410374641418457,
      "eval_runtime": 1.0148,
      "eval_samples_per_second": 4.927,
      "eval_steps_per_second": 2.956,
      "step": 618
    },
    {
      "epoch": 51.583333333333336,
      "grad_norm": 0.0004505712422542274,
      "learning_rate": 0.00014811383602121985,
      "loss": 0.0,
      "step": 619
    },
    {
      "epoch": 51.666666666666664,
      "grad_norm": 0.00032758558518253267,
      "learning_rate": 0.00014795990387151718,
      "loss": 0.0,
      "step": 620
    },
    {
      "epoch": 51.75,
      "grad_norm": 0.0004468705737963319,
      "learning_rate": 0.00014780582399073343,
      "loss": 0.0,
      "step": 621
    },
    {
      "epoch": 51.75,
      "eval_loss": 1.4072530269622803,
      "eval_runtime": 1.0041,
      "eval_samples_per_second": 4.98,
      "eval_steps_per_second": 2.988,
      "step": 621
    },
    {
      "epoch": 51.833333333333336,
      "grad_norm": 0.00039191372343339026,
      "learning_rate": 0.00014765159685348151,
      "loss": 0.0,
      "step": 622
    },
    {
      "epoch": 51.916666666666664,
      "grad_norm": 0.0005730040720663965,
      "learning_rate": 0.00014749722293482787,
      "loss": 0.0,
      "step": 623
    },
    {
      "epoch": 52.0,
      "grad_norm": 0.0004074904427397996,
      "learning_rate": 0.00014734270271029104,
      "loss": 0.0,
      "step": 624
    },
    {
      "epoch": 52.0,
      "eval_loss": 1.4333326816558838,
      "eval_runtime": 1.0025,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 624
    },
    {
      "epoch": 52.083333333333336,
      "grad_norm": 0.0004248576005920768,
      "learning_rate": 0.00014718803665584036,
      "loss": 0.0,
      "step": 625
    },
    {
      "epoch": 52.166666666666664,
      "grad_norm": 0.0005277188611216843,
      "learning_rate": 0.00014703322524789426,
      "loss": 0.0,
      "step": 626
    },
    {
      "epoch": 52.25,
      "grad_norm": 0.0004315785481594503,
      "learning_rate": 0.0001468782689633189,
      "loss": 0.0,
      "step": 627
    },
    {
      "epoch": 52.25,
      "eval_loss": 1.3619204759597778,
      "eval_runtime": 1.0068,
      "eval_samples_per_second": 4.966,
      "eval_steps_per_second": 2.98,
      "step": 627
    },
    {
      "epoch": 52.333333333333336,
      "grad_norm": 0.0002659406163729727,
      "learning_rate": 0.00014672316827942674,
      "loss": 0.0,
      "step": 628
    },
    {
      "epoch": 52.416666666666664,
      "grad_norm": 0.00043560826452448964,
      "learning_rate": 0.00014656792367397504,
      "loss": 0.0,
      "step": 629
    },
    {
      "epoch": 52.5,
      "grad_norm": 0.0003690339217428118,
      "learning_rate": 0.0001464125356251644,
      "loss": 0.0,
      "step": 630
    },
    {
      "epoch": 52.5,
      "eval_loss": 1.4337517023086548,
      "eval_runtime": 1.0026,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 630
    },
    {
      "epoch": 52.583333333333336,
      "grad_norm": 0.0003889549116138369,
      "learning_rate": 0.0001462570046116372,
      "loss": 0.0,
      "step": 631
    },
    {
      "epoch": 52.666666666666664,
      "grad_norm": 0.00033977735438384116,
      "learning_rate": 0.00014610133111247627,
      "loss": 0.0,
      "step": 632
    },
    {
      "epoch": 52.75,
      "grad_norm": 0.0004845245275646448,
      "learning_rate": 0.00014594551560720325,
      "loss": 0.0,
      "step": 633
    },
    {
      "epoch": 52.75,
      "eval_loss": 1.3807158470153809,
      "eval_runtime": 1.0031,
      "eval_samples_per_second": 4.985,
      "eval_steps_per_second": 2.991,
      "step": 633
    },
    {
      "epoch": 52.833333333333336,
      "grad_norm": 0.0004727797058876604,
      "learning_rate": 0.0001457895585757773,
      "loss": 0.0,
      "step": 634
    },
    {
      "epoch": 52.916666666666664,
      "grad_norm": 0.0003737767110578716,
      "learning_rate": 0.0001456334604985935,
      "loss": 0.0,
      "step": 635
    },
    {
      "epoch": 53.0,
      "grad_norm": 0.000409610103815794,
      "learning_rate": 0.00014547722185648127,
      "loss": 0.0,
      "step": 636
    },
    {
      "epoch": 53.0,
      "eval_loss": 1.4151370525360107,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 636
    },
    {
      "epoch": 53.083333333333336,
      "grad_norm": 0.0003324817807879299,
      "learning_rate": 0.0001453208431307032,
      "loss": 0.0,
      "step": 637
    },
    {
      "epoch": 53.166666666666664,
      "grad_norm": 0.0004359692393336445,
      "learning_rate": 0.0001451643248029533,
      "loss": 0.0,
      "step": 638
    },
    {
      "epoch": 53.25,
      "grad_norm": 0.00035355432191863656,
      "learning_rate": 0.00014500766735535558,
      "loss": 0.0,
      "step": 639
    },
    {
      "epoch": 53.25,
      "eval_loss": 1.438251256942749,
      "eval_runtime": 1.007,
      "eval_samples_per_second": 4.965,
      "eval_steps_per_second": 2.979,
      "step": 639
    },
    {
      "epoch": 53.333333333333336,
      "grad_norm": 0.00040288796299137175,
      "learning_rate": 0.00014485087127046254,
      "loss": 0.0,
      "step": 640
    },
    {
      "epoch": 53.416666666666664,
      "grad_norm": 0.0006835786625742912,
      "learning_rate": 0.00014469393703125388,
      "loss": 0.0,
      "step": 641
    },
    {
      "epoch": 53.5,
      "grad_norm": 0.0003069434314966202,
      "learning_rate": 0.00014453686512113468,
      "loss": 0.0,
      "step": 642
    },
    {
      "epoch": 53.5,
      "eval_loss": 1.4121935367584229,
      "eval_runtime": 1.0055,
      "eval_samples_per_second": 4.973,
      "eval_steps_per_second": 2.984,
      "step": 642
    },
    {
      "epoch": 53.583333333333336,
      "grad_norm": 0.00037161263753660023,
      "learning_rate": 0.00014437965602393419,
      "loss": 0.0,
      "step": 643
    },
    {
      "epoch": 53.666666666666664,
      "grad_norm": 0.0004044632369186729,
      "learning_rate": 0.00014422231022390418,
      "loss": 0.0,
      "step": 644
    },
    {
      "epoch": 53.75,
      "grad_norm": 0.00038126049912534654,
      "learning_rate": 0.00014406482820571758,
      "loss": 0.0,
      "step": 645
    },
    {
      "epoch": 53.75,
      "eval_loss": 1.455688238143921,
      "eval_runtime": 1.0013,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 645
    },
    {
      "epoch": 53.833333333333336,
      "grad_norm": 0.00024405081057921052,
      "learning_rate": 0.00014390721045446687,
      "loss": 0.0,
      "step": 646
    },
    {
      "epoch": 53.916666666666664,
      "grad_norm": 0.0004718929121736437,
      "learning_rate": 0.0001437494574556626,
      "loss": 0.0,
      "step": 647
    },
    {
      "epoch": 54.0,
      "grad_norm": 0.0003336082154419273,
      "learning_rate": 0.000143591569695232,
      "loss": 0.0,
      "step": 648
    },
    {
      "epoch": 54.0,
      "eval_loss": 1.3957558870315552,
      "eval_runtime": 1.0003,
      "eval_samples_per_second": 4.999,
      "eval_steps_per_second": 2.999,
      "step": 648
    },
    {
      "epoch": 54.083333333333336,
      "grad_norm": 0.00040154834277927876,
      "learning_rate": 0.0001434335476595173,
      "loss": 0.0,
      "step": 649
    },
    {
      "epoch": 54.166666666666664,
      "grad_norm": 0.0002609615621622652,
      "learning_rate": 0.00014327539183527446,
      "loss": 0.0,
      "step": 650
    },
    {
      "epoch": 54.25,
      "grad_norm": 0.0004324483161326498,
      "learning_rate": 0.00014311710270967145,
      "loss": 0.0,
      "step": 651
    },
    {
      "epoch": 54.25,
      "eval_loss": 1.3991947174072266,
      "eval_runtime": 1.002,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 651
    },
    {
      "epoch": 54.333333333333336,
      "grad_norm": 0.0005263462662696838,
      "learning_rate": 0.0001429586807702869,
      "loss": 0.0,
      "step": 652
    },
    {
      "epoch": 54.416666666666664,
      "grad_norm": 0.0004054129240103066,
      "learning_rate": 0.00014280012650510855,
      "loss": 0.0,
      "step": 653
    },
    {
      "epoch": 54.5,
      "grad_norm": 0.0003431514196563512,
      "learning_rate": 0.00014264144040253165,
      "loss": 0.0,
      "step": 654
    },
    {
      "epoch": 54.5,
      "eval_loss": 1.403733491897583,
      "eval_runtime": 1.0025,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 654
    },
    {
      "epoch": 54.583333333333336,
      "grad_norm": 0.00032062019454315305,
      "learning_rate": 0.0001424826229513578,
      "loss": 0.0,
      "step": 655
    },
    {
      "epoch": 54.666666666666664,
      "grad_norm": 0.0002606873749755323,
      "learning_rate": 0.00014232367464079283,
      "loss": 0.0,
      "step": 656
    },
    {
      "epoch": 54.75,
      "grad_norm": 0.0003925749333575368,
      "learning_rate": 0.00014216459596044597,
      "loss": 0.0,
      "step": 657
    },
    {
      "epoch": 54.75,
      "eval_loss": 1.4285845756530762,
      "eval_runtime": 1.0027,
      "eval_samples_per_second": 4.986,
      "eval_steps_per_second": 2.992,
      "step": 657
    },
    {
      "epoch": 54.833333333333336,
      "grad_norm": 0.0003349286853335798,
      "learning_rate": 0.00014200538740032783,
      "loss": 0.0,
      "step": 658
    },
    {
      "epoch": 54.916666666666664,
      "grad_norm": 0.00044323437032289803,
      "learning_rate": 0.00014184604945084923,
      "loss": 0.0,
      "step": 659
    },
    {
      "epoch": 55.0,
      "grad_norm": 0.0004021811473648995,
      "learning_rate": 0.00014168658260281945,
      "loss": 0.0,
      "step": 660
    },
    {
      "epoch": 55.0,
      "eval_loss": 1.4513753652572632,
      "eval_runtime": 1.0011,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.997,
      "step": 660
    },
    {
      "epoch": 55.083333333333336,
      "grad_norm": 0.0005068136961199343,
      "learning_rate": 0.00014152698734744488,
      "loss": 0.0,
      "step": 661
    },
    {
      "epoch": 55.166666666666664,
      "grad_norm": 0.0004905652021989226,
      "learning_rate": 0.00014136726417632734,
      "loss": 0.0,
      "step": 662
    },
    {
      "epoch": 55.25,
      "grad_norm": 0.00045897552627138793,
      "learning_rate": 0.00014120741358146285,
      "loss": 0.0,
      "step": 663
    },
    {
      "epoch": 55.25,
      "eval_loss": 1.4110385179519653,
      "eval_runtime": 0.9992,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 663
    },
    {
      "epoch": 55.333333333333336,
      "grad_norm": 0.00031199128716252744,
      "learning_rate": 0.00014104743605523973,
      "loss": 0.0,
      "step": 664
    },
    {
      "epoch": 55.416666666666664,
      "grad_norm": 0.00029682344757020473,
      "learning_rate": 0.00014088733209043747,
      "loss": 0.0,
      "step": 665
    },
    {
      "epoch": 55.5,
      "grad_norm": 0.00048087447066791356,
      "learning_rate": 0.00014072710218022486,
      "loss": 0.0,
      "step": 666
    },
    {
      "epoch": 55.5,
      "eval_loss": 1.43030846118927,
      "eval_runtime": 1.0015,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 666
    },
    {
      "epoch": 55.583333333333336,
      "grad_norm": 0.00032771509722806513,
      "learning_rate": 0.0001405667468181588,
      "loss": 0.0,
      "step": 667
    },
    {
      "epoch": 55.666666666666664,
      "grad_norm": 0.0003347486490383744,
      "learning_rate": 0.00014040626649818253,
      "loss": 0.0,
      "step": 668
    },
    {
      "epoch": 55.75,
      "grad_norm": 0.0003841267607640475,
      "learning_rate": 0.00014024566171462417,
      "loss": 0.0,
      "step": 669
    },
    {
      "epoch": 55.75,
      "eval_loss": 1.4365382194519043,
      "eval_runtime": 1.0017,
      "eval_samples_per_second": 4.992,
      "eval_steps_per_second": 2.995,
      "step": 669
    },
    {
      "epoch": 55.833333333333336,
      "grad_norm": 0.00028526343521662056,
      "learning_rate": 0.0001400849329621953,
      "loss": 0.0,
      "step": 670
    },
    {
      "epoch": 55.916666666666664,
      "grad_norm": 0.00026580196572467685,
      "learning_rate": 0.0001399240807359893,
      "loss": 0.0,
      "step": 671
    },
    {
      "epoch": 56.0,
      "grad_norm": 0.0005046114092692733,
      "learning_rate": 0.00013976310553147995,
      "loss": 0.0,
      "step": 672
    },
    {
      "epoch": 56.0,
      "eval_loss": 1.427515983581543,
      "eval_runtime": 0.9998,
      "eval_samples_per_second": 5.001,
      "eval_steps_per_second": 3.001,
      "step": 672
    },
    {
      "epoch": 56.083333333333336,
      "grad_norm": 0.000417354196542874,
      "learning_rate": 0.0001396020078445198,
      "loss": 0.0,
      "step": 673
    },
    {
      "epoch": 56.166666666666664,
      "grad_norm": 0.0006087399669922888,
      "learning_rate": 0.0001394407881713387,
      "loss": 0.0,
      "step": 674
    },
    {
      "epoch": 56.25,
      "grad_norm": 0.0003231217269785702,
      "learning_rate": 0.00013927944700854223,
      "loss": 0.0,
      "step": 675
    },
    {
      "epoch": 56.25,
      "eval_loss": 1.4091410636901855,
      "eval_runtime": 1.0041,
      "eval_samples_per_second": 4.98,
      "eval_steps_per_second": 2.988,
      "step": 675
    },
    {
      "epoch": 56.333333333333336,
      "grad_norm": 0.0006774027133360505,
      "learning_rate": 0.00013911798485311021,
      "loss": 0.0,
      "step": 676
    },
    {
      "epoch": 56.416666666666664,
      "grad_norm": 0.0002932201896328479,
      "learning_rate": 0.00013895640220239517,
      "loss": 0.0,
      "step": 677
    },
    {
      "epoch": 56.5,
      "grad_norm": 0.00034435378620401025,
      "learning_rate": 0.00013879469955412074,
      "loss": 0.0,
      "step": 678
    },
    {
      "epoch": 56.5,
      "eval_loss": 1.4282853603363037,
      "eval_runtime": 1.0045,
      "eval_samples_per_second": 4.977,
      "eval_steps_per_second": 2.986,
      "step": 678
    },
    {
      "epoch": 56.583333333333336,
      "grad_norm": 0.00039787753485143185,
      "learning_rate": 0.00013863287740638027,
      "loss": 0.0,
      "step": 679
    },
    {
      "epoch": 56.666666666666664,
      "grad_norm": 0.0003796809760387987,
      "learning_rate": 0.00013847093625763516,
      "loss": 0.0,
      "step": 680
    },
    {
      "epoch": 56.75,
      "grad_norm": 0.00024410038895439357,
      "learning_rate": 0.00013830887660671337,
      "loss": 0.0,
      "step": 681
    },
    {
      "epoch": 56.75,
      "eval_loss": 1.43051016330719,
      "eval_runtime": 1.0025,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 681
    },
    {
      "epoch": 56.833333333333336,
      "grad_norm": 0.0003700961824506521,
      "learning_rate": 0.00013814669895280786,
      "loss": 0.0,
      "step": 682
    },
    {
      "epoch": 56.916666666666664,
      "grad_norm": 0.0003138490719720721,
      "learning_rate": 0.0001379844037954751,
      "loss": 0.0,
      "step": 683
    },
    {
      "epoch": 57.0,
      "grad_norm": 0.00038645145832560956,
      "learning_rate": 0.00013782199163463353,
      "loss": 0.0,
      "step": 684
    },
    {
      "epoch": 57.0,
      "eval_loss": 1.4071718454360962,
      "eval_runtime": 0.9983,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.005,
      "step": 684
    },
    {
      "epoch": 57.083333333333336,
      "grad_norm": 0.0003738348314072937,
      "learning_rate": 0.00013765946297056192,
      "loss": 0.0,
      "step": 685
    },
    {
      "epoch": 57.166666666666664,
      "grad_norm": 0.00043160119093954563,
      "learning_rate": 0.000137496818303898,
      "loss": 0.0,
      "step": 686
    },
    {
      "epoch": 57.25,
      "grad_norm": 0.0002817174536176026,
      "learning_rate": 0.00013733405813563674,
      "loss": 0.0,
      "step": 687
    },
    {
      "epoch": 57.25,
      "eval_loss": 1.4212510585784912,
      "eval_runtime": 1.0071,
      "eval_samples_per_second": 4.965,
      "eval_steps_per_second": 2.979,
      "step": 687
    },
    {
      "epoch": 57.333333333333336,
      "grad_norm": 0.00043444635230116546,
      "learning_rate": 0.00013717118296712897,
      "loss": 0.0,
      "step": 688
    },
    {
      "epoch": 57.416666666666664,
      "grad_norm": 0.00045283319195732474,
      "learning_rate": 0.0001370081933000797,
      "loss": 0.0,
      "step": 689
    },
    {
      "epoch": 57.5,
      "grad_norm": 0.00036181980976834893,
      "learning_rate": 0.0001368450896365467,
      "loss": 0.0,
      "step": 690
    },
    {
      "epoch": 57.5,
      "eval_loss": 1.4616509675979614,
      "eval_runtime": 1.0004,
      "eval_samples_per_second": 4.998,
      "eval_steps_per_second": 2.999,
      "step": 690
    },
    {
      "epoch": 57.583333333333336,
      "grad_norm": 0.00040355187957175076,
      "learning_rate": 0.00013668187247893867,
      "loss": 0.0,
      "step": 691
    },
    {
      "epoch": 57.666666666666664,
      "grad_norm": 0.00035706363269127905,
      "learning_rate": 0.0001365185423300142,
      "loss": 0.0,
      "step": 692
    },
    {
      "epoch": 57.75,
      "grad_norm": 0.00037646142300218344,
      "learning_rate": 0.00013635509969287974,
      "loss": 0.0,
      "step": 693
    },
    {
      "epoch": 57.75,
      "eval_loss": 1.431362271308899,
      "eval_runtime": 1.0055,
      "eval_samples_per_second": 4.973,
      "eval_steps_per_second": 2.984,
      "step": 693
    },
    {
      "epoch": 57.833333333333336,
      "grad_norm": 0.00028302791179157794,
      "learning_rate": 0.00013619154507098832,
      "loss": 0.0,
      "step": 694
    },
    {
      "epoch": 57.916666666666664,
      "grad_norm": 0.0003035023692063987,
      "learning_rate": 0.00013602787896813787,
      "loss": 0.0,
      "step": 695
    },
    {
      "epoch": 58.0,
      "grad_norm": 0.0002446870203129947,
      "learning_rate": 0.00013586410188846975,
      "loss": 0.0,
      "step": 696
    },
    {
      "epoch": 58.0,
      "eval_loss": 1.4144576787948608,
      "eval_runtime": 1.0015,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 696
    },
    {
      "epoch": 58.083333333333336,
      "grad_norm": 0.0003959292662329972,
      "learning_rate": 0.00013570021433646708,
      "loss": 0.0,
      "step": 697
    },
    {
      "epoch": 58.166666666666664,
      "grad_norm": 0.0003239091602154076,
      "learning_rate": 0.00013553621681695343,
      "loss": 0.0,
      "step": 698
    },
    {
      "epoch": 58.25,
      "grad_norm": 0.00027600210160017014,
      "learning_rate": 0.00013537210983509092,
      "loss": 0.0,
      "step": 699
    },
    {
      "epoch": 58.25,
      "eval_loss": 1.418943166732788,
      "eval_runtime": 0.9997,
      "eval_samples_per_second": 5.002,
      "eval_steps_per_second": 3.001,
      "step": 699
    },
    {
      "epoch": 58.333333333333336,
      "grad_norm": 0.0003425553732085973,
      "learning_rate": 0.000135207893896379,
      "loss": 0.0,
      "step": 700
    },
    {
      "epoch": 58.416666666666664,
      "grad_norm": 0.0003566910163499415,
      "learning_rate": 0.0001350435695066526,
      "loss": 0.0,
      "step": 701
    },
    {
      "epoch": 58.5,
      "grad_norm": 0.0004150433524046093,
      "learning_rate": 0.00013487913717208087,
      "loss": 0.0,
      "step": 702
    },
    {
      "epoch": 58.5,
      "eval_loss": 1.4365376234054565,
      "eval_runtime": 1.0011,
      "eval_samples_per_second": 4.995,
      "eval_steps_per_second": 2.997,
      "step": 702
    },
    {
      "epoch": 58.583333333333336,
      "grad_norm": 0.0004033260920550674,
      "learning_rate": 0.00013471459739916532,
      "loss": 0.0,
      "step": 703
    },
    {
      "epoch": 58.666666666666664,
      "grad_norm": 0.0003002803714480251,
      "learning_rate": 0.0001345499506947385,
      "loss": 0.0,
      "step": 704
    },
    {
      "epoch": 58.75,
      "grad_norm": 0.00034703878918662667,
      "learning_rate": 0.00013438519756596226,
      "loss": 0.0,
      "step": 705
    },
    {
      "epoch": 58.75,
      "eval_loss": 1.4013426303863525,
      "eval_runtime": 1.0007,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 705
    },
    {
      "epoch": 58.833333333333336,
      "grad_norm": 0.0003744227287825197,
      "learning_rate": 0.00013422033852032633,
      "loss": 0.0,
      "step": 706
    },
    {
      "epoch": 58.916666666666664,
      "grad_norm": 0.0005063541466370225,
      "learning_rate": 0.0001340553740656467,
      "loss": 0.0,
      "step": 707
    },
    {
      "epoch": 59.0,
      "grad_norm": 0.0003255495394114405,
      "learning_rate": 0.00013389030471006402,
      "loss": 0.0,
      "step": 708
    },
    {
      "epoch": 59.0,
      "eval_loss": 1.5086935758590698,
      "eval_runtime": 0.9976,
      "eval_samples_per_second": 5.012,
      "eval_steps_per_second": 3.007,
      "step": 708
    },
    {
      "epoch": 59.083333333333336,
      "grad_norm": 0.00029362255008891225,
      "learning_rate": 0.00013372513096204206,
      "loss": 0.0,
      "step": 709
    },
    {
      "epoch": 59.166666666666664,
      "grad_norm": 0.0004170426109340042,
      "learning_rate": 0.0001335598533303662,
      "loss": 0.0,
      "step": 710
    },
    {
      "epoch": 59.25,
      "grad_norm": 0.0003229233843740076,
      "learning_rate": 0.00013339447232414172,
      "loss": 0.0,
      "step": 711
    },
    {
      "epoch": 59.25,
      "eval_loss": 1.355333685874939,
      "eval_runtime": 0.9997,
      "eval_samples_per_second": 5.002,
      "eval_steps_per_second": 3.001,
      "step": 711
    },
    {
      "epoch": 59.333333333333336,
      "grad_norm": 0.00021041092986706644,
      "learning_rate": 0.00013322898845279245,
      "loss": 0.0,
      "step": 712
    },
    {
      "epoch": 59.416666666666664,
      "grad_norm": 0.00037160198553465307,
      "learning_rate": 0.000133063402226059,
      "loss": 0.0,
      "step": 713
    },
    {
      "epoch": 59.5,
      "grad_norm": 0.0003883342142216861,
      "learning_rate": 0.00013289771415399724,
      "loss": 0.0,
      "step": 714
    },
    {
      "epoch": 59.5,
      "eval_loss": 1.4523119926452637,
      "eval_runtime": 1.0018,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 714
    },
    {
      "epoch": 59.583333333333336,
      "grad_norm": 0.0003307973383925855,
      "learning_rate": 0.0001327319247469768,
      "loss": 0.0,
      "step": 715
    },
    {
      "epoch": 59.666666666666664,
      "grad_norm": 0.0004356912395451218,
      "learning_rate": 0.00013256603451567952,
      "loss": 0.0,
      "step": 716
    },
    {
      "epoch": 59.75,
      "grad_norm": 0.00034139727358706295,
      "learning_rate": 0.00013240004397109762,
      "loss": 0.0,
      "step": 717
    },
    {
      "epoch": 59.75,
      "eval_loss": 1.4066015481948853,
      "eval_runtime": 0.9994,
      "eval_samples_per_second": 5.003,
      "eval_steps_per_second": 3.002,
      "step": 717
    },
    {
      "epoch": 59.833333333333336,
      "grad_norm": 0.0004801473405677825,
      "learning_rate": 0.00013223395362453247,
      "loss": 0.0,
      "step": 718
    },
    {
      "epoch": 59.916666666666664,
      "grad_norm": 0.00036827308940701187,
      "learning_rate": 0.0001320677639875929,
      "loss": 0.0,
      "step": 719
    },
    {
      "epoch": 60.0,
      "grad_norm": 0.0005210504750721157,
      "learning_rate": 0.00013190147557219338,
      "loss": 0.0,
      "step": 720
    },
    {
      "epoch": 60.0,
      "eval_loss": 1.4763991832733154,
      "eval_runtime": 1.0047,
      "eval_samples_per_second": 4.977,
      "eval_steps_per_second": 2.986,
      "step": 720
    },
    {
      "epoch": 60.083333333333336,
      "grad_norm": 0.000389900611480698,
      "learning_rate": 0.00013173508889055286,
      "loss": 0.0,
      "step": 721
    },
    {
      "epoch": 60.166666666666664,
      "grad_norm": 0.00035064373514615,
      "learning_rate": 0.00013156860445519283,
      "loss": 0.0,
      "step": 722
    },
    {
      "epoch": 60.25,
      "grad_norm": 0.0002875719219446182,
      "learning_rate": 0.00013140202277893602,
      "loss": 0.0,
      "step": 723
    },
    {
      "epoch": 60.25,
      "eval_loss": 1.4505105018615723,
      "eval_runtime": 1.0018,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 723
    },
    {
      "epoch": 60.333333333333336,
      "grad_norm": 0.0003239490615669638,
      "learning_rate": 0.00013123534437490457,
      "loss": 0.0,
      "step": 724
    },
    {
      "epoch": 60.416666666666664,
      "grad_norm": 0.0002957321412395686,
      "learning_rate": 0.00013106856975651866,
      "loss": 0.0,
      "step": 725
    },
    {
      "epoch": 60.5,
      "grad_norm": 0.0004463561053853482,
      "learning_rate": 0.00013090169943749476,
      "loss": 0.0,
      "step": 726
    },
    {
      "epoch": 60.5,
      "eval_loss": 1.443621277809143,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 726
    },
    {
      "epoch": 60.583333333333336,
      "grad_norm": 0.00034360744757577777,
      "learning_rate": 0.0001307347339318442,
      "loss": 0.0,
      "step": 727
    },
    {
      "epoch": 60.666666666666664,
      "grad_norm": 0.0003801939601544291,
      "learning_rate": 0.00013056767375387149,
      "loss": 0.0,
      "step": 728
    },
    {
      "epoch": 60.75,
      "grad_norm": 0.00032430418650619686,
      "learning_rate": 0.00013040051941817278,
      "loss": 0.0,
      "step": 729
    },
    {
      "epoch": 60.75,
      "eval_loss": 1.3471689224243164,
      "eval_runtime": 1.0023,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 729
    },
    {
      "epoch": 60.833333333333336,
      "grad_norm": 0.00031827299972064793,
      "learning_rate": 0.00013023327143963414,
      "loss": 0.0,
      "step": 730
    },
    {
      "epoch": 60.916666666666664,
      "grad_norm": 0.0002988968335557729,
      "learning_rate": 0.0001300659303334303,
      "loss": 0.0,
      "step": 731
    },
    {
      "epoch": 61.0,
      "grad_norm": 0.000360814476152882,
      "learning_rate": 0.00012989849661502266,
      "loss": 0.0,
      "step": 732
    },
    {
      "epoch": 61.0,
      "eval_loss": 1.463589072227478,
      "eval_runtime": 1.0019,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 732
    },
    {
      "epoch": 61.083333333333336,
      "grad_norm": 0.00024100868904497474,
      "learning_rate": 0.00012973097080015795,
      "loss": 0.0,
      "step": 733
    },
    {
      "epoch": 61.166666666666664,
      "grad_norm": 0.00036520289722830057,
      "learning_rate": 0.00012956335340486662,
      "loss": 0.0,
      "step": 734
    },
    {
      "epoch": 61.25,
      "grad_norm": 0.0003197791811544448,
      "learning_rate": 0.0001293956449454612,
      "loss": 0.0,
      "step": 735
    },
    {
      "epoch": 61.25,
      "eval_loss": 1.4059298038482666,
      "eval_runtime": 1.0024,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 735
    },
    {
      "epoch": 61.333333333333336,
      "grad_norm": 0.000499775109346956,
      "learning_rate": 0.0001292278459385347,
      "loss": 0.0,
      "step": 736
    },
    {
      "epoch": 61.416666666666664,
      "grad_norm": 0.00028720201225951314,
      "learning_rate": 0.00012905995690095908,
      "loss": 0.0,
      "step": 737
    },
    {
      "epoch": 61.5,
      "grad_norm": 0.00046582098002545536,
      "learning_rate": 0.0001288919783498836,
      "loss": 0.0,
      "step": 738
    },
    {
      "epoch": 61.5,
      "eval_loss": 1.417426586151123,
      "eval_runtime": 1.0013,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 738
    },
    {
      "epoch": 61.583333333333336,
      "grad_norm": 0.00022659690876025707,
      "learning_rate": 0.0001287239108027333,
      "loss": 0.0,
      "step": 739
    },
    {
      "epoch": 61.666666666666664,
      "grad_norm": 0.00035143483546562493,
      "learning_rate": 0.0001285557547772072,
      "loss": 0.0,
      "step": 740
    },
    {
      "epoch": 61.75,
      "grad_norm": 0.00026682543102651834,
      "learning_rate": 0.00012838751079127705,
      "loss": 0.0,
      "step": 741
    },
    {
      "epoch": 61.75,
      "eval_loss": 1.3841150999069214,
      "eval_runtime": 1.002,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 741
    },
    {
      "epoch": 61.833333333333336,
      "grad_norm": 0.0004048361734021455,
      "learning_rate": 0.0001282191793631854,
      "loss": 0.0,
      "step": 742
    },
    {
      "epoch": 61.916666666666664,
      "grad_norm": 0.00036251553683541715,
      "learning_rate": 0.00012805076101144434,
      "loss": 0.0,
      "step": 743
    },
    {
      "epoch": 62.0,
      "grad_norm": 0.0003180495114065707,
      "learning_rate": 0.00012788225625483344,
      "loss": 0.0,
      "step": 744
    },
    {
      "epoch": 62.0,
      "eval_loss": 1.4736683368682861,
      "eval_runtime": 1.0033,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.99,
      "step": 744
    },
    {
      "epoch": 62.083333333333336,
      "grad_norm": 0.0004032948345411569,
      "learning_rate": 0.00012771366561239864,
      "loss": 0.0,
      "step": 745
    },
    {
      "epoch": 62.166666666666664,
      "grad_norm": 0.0004756743146572262,
      "learning_rate": 0.00012754498960345034,
      "loss": 0.0,
      "step": 746
    },
    {
      "epoch": 62.25,
      "grad_norm": 0.0003470385854598135,
      "learning_rate": 0.00012737622874756194,
      "loss": 0.0,
      "step": 747
    },
    {
      "epoch": 62.25,
      "eval_loss": 1.3916206359863281,
      "eval_runtime": 1.0,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 747
    },
    {
      "epoch": 62.333333333333336,
      "grad_norm": 0.00042228930396959186,
      "learning_rate": 0.0001272073835645681,
      "loss": 0.0,
      "step": 748
    },
    {
      "epoch": 62.416666666666664,
      "grad_norm": 0.0003542535414453596,
      "learning_rate": 0.0001270384545745634,
      "loss": 0.0,
      "step": 749
    },
    {
      "epoch": 62.5,
      "grad_norm": 0.0001990875753108412,
      "learning_rate": 0.00012686944229790042,
      "loss": 0.0,
      "step": 750
    },
    {
      "epoch": 62.5,
      "eval_loss": 1.3854542970657349,
      "eval_runtime": 0.9995,
      "eval_samples_per_second": 5.003,
      "eval_steps_per_second": 3.002,
      "step": 750
    },
    {
      "epoch": 62.583333333333336,
      "grad_norm": 0.0002898143429774791,
      "learning_rate": 0.00012670034725518838,
      "loss": 0.0,
      "step": 751
    },
    {
      "epoch": 62.666666666666664,
      "grad_norm": 0.00037775031523779035,
      "learning_rate": 0.00012653116996729134,
      "loss": 0.0,
      "step": 752
    },
    {
      "epoch": 62.75,
      "grad_norm": 0.00030532991513609886,
      "learning_rate": 0.00012636191095532682,
      "loss": 0.0,
      "step": 753
    },
    {
      "epoch": 62.75,
      "eval_loss": 1.3985651731491089,
      "eval_runtime": 1.0019,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 2.994,
      "step": 753
    },
    {
      "epoch": 62.833333333333336,
      "grad_norm": 0.0003681248053908348,
      "learning_rate": 0.000126192570740664,
      "loss": 0.0,
      "step": 754
    },
    {
      "epoch": 62.916666666666664,
      "grad_norm": 0.0002844252740032971,
      "learning_rate": 0.0001260231498449222,
      "loss": 0.0,
      "step": 755
    },
    {
      "epoch": 63.0,
      "grad_norm": 0.0003931281971745193,
      "learning_rate": 0.00012585364878996933,
      "loss": 0.0,
      "step": 756
    },
    {
      "epoch": 63.0,
      "eval_loss": 1.4660794734954834,
      "eval_runtime": 0.9993,
      "eval_samples_per_second": 5.003,
      "eval_steps_per_second": 3.002,
      "step": 756
    },
    {
      "epoch": 63.083333333333336,
      "grad_norm": 0.000400690856622532,
      "learning_rate": 0.0001256840680979201,
      "loss": 0.0,
      "step": 757
    },
    {
      "epoch": 63.166666666666664,
      "grad_norm": 0.0003568547253962606,
      "learning_rate": 0.00012551440829113462,
      "loss": 0.0,
      "step": 758
    },
    {
      "epoch": 63.25,
      "grad_norm": 0.00029061525128781796,
      "learning_rate": 0.00012534466989221662,
      "loss": 0.0,
      "step": 759
    },
    {
      "epoch": 63.25,
      "eval_loss": 1.3753960132598877,
      "eval_runtime": 1.0043,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 759
    },
    {
      "epoch": 63.333333333333336,
      "grad_norm": 0.00031953229336068034,
      "learning_rate": 0.00012517485342401202,
      "loss": 0.0,
      "step": 760
    },
    {
      "epoch": 63.416666666666664,
      "grad_norm": 0.00038566175498999655,
      "learning_rate": 0.00012500495940960708,
      "loss": 0.0,
      "step": 761
    },
    {
      "epoch": 63.5,
      "grad_norm": 0.0003311311884317547,
      "learning_rate": 0.00012483498837232706,
      "loss": 0.0,
      "step": 762
    },
    {
      "epoch": 63.5,
      "eval_loss": 1.3933876752853394,
      "eval_runtime": 1.0125,
      "eval_samples_per_second": 4.938,
      "eval_steps_per_second": 2.963,
      "step": 762
    },
    {
      "epoch": 63.583333333333336,
      "grad_norm": 0.00024624442448839545,
      "learning_rate": 0.00012466494083573443,
      "loss": 0.0,
      "step": 763
    },
    {
      "epoch": 63.666666666666664,
      "grad_norm": 0.0003708667354658246,
      "learning_rate": 0.00012449481732362724,
      "loss": 0.0,
      "step": 764
    },
    {
      "epoch": 63.75,
      "grad_norm": 0.0004096843767911196,
      "learning_rate": 0.0001243246183600376,
      "loss": 0.0,
      "step": 765
    },
    {
      "epoch": 63.75,
      "eval_loss": 1.3623502254486084,
      "eval_runtime": 1.0009,
      "eval_samples_per_second": 4.995,
      "eval_steps_per_second": 2.997,
      "step": 765
    },
    {
      "epoch": 63.833333333333336,
      "grad_norm": 0.0002537657564971596,
      "learning_rate": 0.00012415434446923015,
      "loss": 0.0,
      "step": 766
    },
    {
      "epoch": 63.916666666666664,
      "grad_norm": 0.00030969642102718353,
      "learning_rate": 0.00012398399617570013,
      "loss": 0.0,
      "step": 767
    },
    {
      "epoch": 64.0,
      "grad_norm": 0.0003343724529258907,
      "learning_rate": 0.00012381357400417212,
      "loss": 0.0,
      "step": 768
    },
    {
      "epoch": 64.0,
      "eval_loss": 1.3968069553375244,
      "eval_runtime": 1.003,
      "eval_samples_per_second": 4.985,
      "eval_steps_per_second": 2.991,
      "step": 768
    },
    {
      "epoch": 64.08333333333333,
      "grad_norm": 0.00048055499792099,
      "learning_rate": 0.00012364307847959814,
      "loss": 0.0,
      "step": 769
    },
    {
      "epoch": 64.16666666666667,
      "grad_norm": 0.00036179786548018456,
      "learning_rate": 0.00012347251012715627,
      "loss": 0.0,
      "step": 770
    },
    {
      "epoch": 64.25,
      "grad_norm": 0.00022587923740502447,
      "learning_rate": 0.0001233018694722489,
      "loss": 0.0,
      "step": 771
    },
    {
      "epoch": 64.25,
      "eval_loss": 1.4410442113876343,
      "eval_runtime": 1.0248,
      "eval_samples_per_second": 4.879,
      "eval_steps_per_second": 2.927,
      "step": 771
    },
    {
      "epoch": 64.33333333333333,
      "grad_norm": 0.0002536953834351152,
      "learning_rate": 0.00012313115704050106,
      "loss": 0.0,
      "step": 772
    },
    {
      "epoch": 64.41666666666667,
      "grad_norm": 0.0002107057225657627,
      "learning_rate": 0.00012296037335775896,
      "loss": 0.0,
      "step": 773
    },
    {
      "epoch": 64.5,
      "grad_norm": 0.0002824314287863672,
      "learning_rate": 0.00012278951895008827,
      "loss": 0.0,
      "step": 774
    },
    {
      "epoch": 64.5,
      "eval_loss": 1.4634511470794678,
      "eval_runtime": 1.0395,
      "eval_samples_per_second": 4.81,
      "eval_steps_per_second": 2.886,
      "step": 774
    },
    {
      "epoch": 64.58333333333333,
      "grad_norm": 0.0002644640626385808,
      "learning_rate": 0.00012261859434377245,
      "loss": 0.0,
      "step": 775
    },
    {
      "epoch": 64.66666666666667,
      "grad_norm": 0.0003084047057200223,
      "learning_rate": 0.00012244760006531127,
      "loss": 0.0,
      "step": 776
    },
    {
      "epoch": 64.75,
      "grad_norm": 0.00036181689938530326,
      "learning_rate": 0.00012227653664141904,
      "loss": 0.0,
      "step": 777
    },
    {
      "epoch": 64.75,
      "eval_loss": 1.4763500690460205,
      "eval_runtime": 1.0018,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 777
    },
    {
      "epoch": 64.83333333333333,
      "grad_norm": 0.0002425530256005004,
      "learning_rate": 0.0001221054045990232,
      "loss": 0.0,
      "step": 778
    },
    {
      "epoch": 64.91666666666667,
      "grad_norm": 0.00039418612141162157,
      "learning_rate": 0.00012193420446526231,
      "loss": 0.0,
      "step": 779
    },
    {
      "epoch": 65.0,
      "grad_norm": 0.00037468288792297244,
      "learning_rate": 0.00012176293676748493,
      "loss": 0.0,
      "step": 780
    },
    {
      "epoch": 65.0,
      "eval_loss": 1.358540654182434,
      "eval_runtime": 0.9996,
      "eval_samples_per_second": 5.002,
      "eval_steps_per_second": 3.001,
      "step": 780
    },
    {
      "epoch": 65.08333333333333,
      "grad_norm": 0.0003061692405026406,
      "learning_rate": 0.00012159160203324758,
      "loss": 0.0,
      "step": 781
    },
    {
      "epoch": 65.16666666666667,
      "grad_norm": 0.0003641352232079953,
      "learning_rate": 0.00012142020079031333,
      "loss": 0.0,
      "step": 782
    },
    {
      "epoch": 65.25,
      "grad_norm": 0.00029523359262384474,
      "learning_rate": 0.0001212487335666501,
      "loss": 0.0,
      "step": 783
    },
    {
      "epoch": 65.25,
      "eval_loss": 1.391751766204834,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 783
    },
    {
      "epoch": 65.33333333333333,
      "grad_norm": 0.0003978729073423892,
      "learning_rate": 0.00012107720089042903,
      "loss": 0.0,
      "step": 784
    },
    {
      "epoch": 65.41666666666667,
      "grad_norm": 0.0003359692054800689,
      "learning_rate": 0.00012090560329002294,
      "loss": 0.0,
      "step": 785
    },
    {
      "epoch": 65.5,
      "grad_norm": 0.0002640943566802889,
      "learning_rate": 0.0001207339412940046,
      "loss": 0.0,
      "step": 786
    },
    {
      "epoch": 65.5,
      "eval_loss": 1.3612104654312134,
      "eval_runtime": 1.005,
      "eval_samples_per_second": 4.975,
      "eval_steps_per_second": 2.985,
      "step": 786
    },
    {
      "epoch": 65.58333333333333,
      "grad_norm": 0.00038782923365943134,
      "learning_rate": 0.00012056221543114508,
      "loss": 0.0,
      "step": 787
    },
    {
      "epoch": 65.66666666666667,
      "grad_norm": 0.0003495854325592518,
      "learning_rate": 0.0001203904262304123,
      "loss": 0.0,
      "step": 788
    },
    {
      "epoch": 65.75,
      "grad_norm": 0.00023434849572367966,
      "learning_rate": 0.00012021857422096916,
      "loss": 0.0,
      "step": 789
    },
    {
      "epoch": 65.75,
      "eval_loss": 1.4265854358673096,
      "eval_runtime": 1.0054,
      "eval_samples_per_second": 4.973,
      "eval_steps_per_second": 2.984,
      "step": 789
    },
    {
      "epoch": 65.83333333333333,
      "grad_norm": 0.00028984236996620893,
      "learning_rate": 0.0001200466599321721,
      "loss": 0.0,
      "step": 790
    },
    {
      "epoch": 65.91666666666667,
      "grad_norm": 0.0002931308117695153,
      "learning_rate": 0.00011987468389356938,
      "loss": 0.0,
      "step": 791
    },
    {
      "epoch": 66.0,
      "grad_norm": 0.0002542822330724448,
      "learning_rate": 0.00011970264663489948,
      "loss": 0.0,
      "step": 792
    },
    {
      "epoch": 66.0,
      "eval_loss": 1.4156960248947144,
      "eval_runtime": 1.0108,
      "eval_samples_per_second": 4.947,
      "eval_steps_per_second": 2.968,
      "step": 792
    },
    {
      "epoch": 66.08333333333333,
      "grad_norm": 0.000410352717153728,
      "learning_rate": 0.00011953054868608944,
      "loss": 0.0,
      "step": 793
    },
    {
      "epoch": 66.16666666666667,
      "grad_norm": 0.0002471237676218152,
      "learning_rate": 0.00011935839057725324,
      "loss": 0.0,
      "step": 794
    },
    {
      "epoch": 66.25,
      "grad_norm": 0.0002701470803003758,
      "learning_rate": 0.0001191861728386902,
      "loss": 0.0,
      "step": 795
    },
    {
      "epoch": 66.25,
      "eval_loss": 1.4304957389831543,
      "eval_runtime": 1.0686,
      "eval_samples_per_second": 4.679,
      "eval_steps_per_second": 2.807,
      "step": 795
    },
    {
      "epoch": 66.33333333333333,
      "grad_norm": 0.00035030723665840924,
      "learning_rate": 0.0001190138960008833,
      "loss": 0.0,
      "step": 796
    },
    {
      "epoch": 66.41666666666667,
      "grad_norm": 0.0003072237886954099,
      "learning_rate": 0.00011884156059449751,
      "loss": 0.0,
      "step": 797
    },
    {
      "epoch": 66.5,
      "grad_norm": 0.0002833567268680781,
      "learning_rate": 0.00011866916715037836,
      "loss": 0.0,
      "step": 798
    },
    {
      "epoch": 66.5,
      "eval_loss": 1.4519448280334473,
      "eval_runtime": 1.0351,
      "eval_samples_per_second": 4.83,
      "eval_steps_per_second": 2.898,
      "step": 798
    },
    {
      "epoch": 66.58333333333333,
      "grad_norm": 0.0002838574000634253,
      "learning_rate": 0.00011849671619954997,
      "loss": 0.0,
      "step": 799
    },
    {
      "epoch": 66.66666666666667,
      "grad_norm": 0.0004277181578800082,
      "learning_rate": 0.00011832420827321373,
      "loss": 0.0,
      "step": 800
    },
    {
      "epoch": 66.75,
      "grad_norm": 0.00024345364363398403,
      "learning_rate": 0.00011815164390274647,
      "loss": 0.0,
      "step": 801
    },
    {
      "epoch": 66.75,
      "eval_loss": 1.4522756338119507,
      "eval_runtime": 1.0044,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 801
    },
    {
      "epoch": 66.83333333333333,
      "grad_norm": 0.000263753259787336,
      "learning_rate": 0.00011797902361969892,
      "loss": 0.0,
      "step": 802
    },
    {
      "epoch": 66.91666666666667,
      "grad_norm": 0.0003062763425987214,
      "learning_rate": 0.00011780634795579397,
      "loss": 0.0,
      "step": 803
    },
    {
      "epoch": 67.0,
      "grad_norm": 0.0003389363409951329,
      "learning_rate": 0.00011763361744292519,
      "loss": 0.0,
      "step": 804
    },
    {
      "epoch": 67.0,
      "eval_loss": 1.3665814399719238,
      "eval_runtime": 1.0217,
      "eval_samples_per_second": 4.894,
      "eval_steps_per_second": 2.936,
      "step": 804
    },
    {
      "epoch": 67.08333333333333,
      "grad_norm": 0.0002612943353597075,
      "learning_rate": 0.00011746083261315503,
      "loss": 0.0,
      "step": 805
    },
    {
      "epoch": 67.16666666666667,
      "grad_norm": 0.00030763394897803664,
      "learning_rate": 0.00011728799399871333,
      "loss": 0.0,
      "step": 806
    },
    {
      "epoch": 67.25,
      "grad_norm": 0.0003831953217741102,
      "learning_rate": 0.00011711510213199552,
      "loss": 0.0,
      "step": 807
    },
    {
      "epoch": 67.25,
      "eval_loss": 1.4415209293365479,
      "eval_runtime": 1.0055,
      "eval_samples_per_second": 4.973,
      "eval_steps_per_second": 2.984,
      "step": 807
    },
    {
      "epoch": 67.33333333333333,
      "grad_norm": 0.0002864598936866969,
      "learning_rate": 0.00011694215754556113,
      "loss": 0.0,
      "step": 808
    },
    {
      "epoch": 67.41666666666667,
      "grad_norm": 0.0006771782645955682,
      "learning_rate": 0.000116769160772132,
      "loss": 0.0,
      "step": 809
    },
    {
      "epoch": 67.5,
      "grad_norm": 0.0002215486892964691,
      "learning_rate": 0.0001165961123445908,
      "loss": 0.0,
      "step": 810
    },
    {
      "epoch": 67.5,
      "eval_loss": 1.3759939670562744,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 810
    },
    {
      "epoch": 67.58333333333333,
      "grad_norm": 0.00026926142163574696,
      "learning_rate": 0.00011642301279597929,
      "loss": 0.0,
      "step": 811
    },
    {
      "epoch": 67.66666666666667,
      "grad_norm": 0.00034077794407494366,
      "learning_rate": 0.00011624986265949668,
      "loss": 0.0,
      "step": 812
    },
    {
      "epoch": 67.75,
      "grad_norm": 0.000253567734034732,
      "learning_rate": 0.00011607666246849806,
      "loss": 0.0,
      "step": 813
    },
    {
      "epoch": 67.75,
      "eval_loss": 1.4183968305587769,
      "eval_runtime": 1.0023,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 813
    },
    {
      "epoch": 67.83333333333333,
      "grad_norm": 0.0004010783159174025,
      "learning_rate": 0.00011590341275649259,
      "loss": 0.0,
      "step": 814
    },
    {
      "epoch": 67.91666666666667,
      "grad_norm": 0.00029175009694881737,
      "learning_rate": 0.00011573011405714214,
      "loss": 0.0,
      "step": 815
    },
    {
      "epoch": 68.0,
      "grad_norm": 0.0003836045798379928,
      "learning_rate": 0.00011555676690425926,
      "loss": 0.0,
      "step": 816
    },
    {
      "epoch": 68.0,
      "eval_loss": 1.4389898777008057,
      "eval_runtime": 1.0006,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 816
    },
    {
      "epoch": 68.08333333333333,
      "grad_norm": 0.0003045783960260451,
      "learning_rate": 0.00011538337183180594,
      "loss": 0.0,
      "step": 817
    },
    {
      "epoch": 68.16666666666667,
      "grad_norm": 0.00027814629720523953,
      "learning_rate": 0.0001152099293738917,
      "loss": 0.0,
      "step": 818
    },
    {
      "epoch": 68.25,
      "grad_norm": 0.0002579260035417974,
      "learning_rate": 0.000115036440064772,
      "loss": 0.0,
      "step": 819
    },
    {
      "epoch": 68.25,
      "eval_loss": 1.3902733325958252,
      "eval_runtime": 1.0081,
      "eval_samples_per_second": 4.96,
      "eval_steps_per_second": 2.976,
      "step": 819
    },
    {
      "epoch": 68.33333333333333,
      "grad_norm": 0.0003066727367695421,
      "learning_rate": 0.00011486290443884666,
      "loss": 0.0,
      "step": 820
    },
    {
      "epoch": 68.41666666666667,
      "grad_norm": 0.00028887789812870324,
      "learning_rate": 0.0001146893230306582,
      "loss": 0.0,
      "step": 821
    },
    {
      "epoch": 68.5,
      "grad_norm": 0.0002802011149469763,
      "learning_rate": 0.00011451569637489004,
      "loss": 0.0,
      "step": 822
    },
    {
      "epoch": 68.5,
      "eval_loss": 1.36680006980896,
      "eval_runtime": 1.0052,
      "eval_samples_per_second": 4.974,
      "eval_steps_per_second": 2.984,
      "step": 822
    },
    {
      "epoch": 68.58333333333333,
      "grad_norm": 0.0002346850378671661,
      "learning_rate": 0.00011434202500636509,
      "loss": 0.0,
      "step": 823
    },
    {
      "epoch": 68.66666666666667,
      "grad_norm": 0.0004064574895892292,
      "learning_rate": 0.00011416830946004393,
      "loss": 0.0,
      "step": 824
    },
    {
      "epoch": 68.75,
      "grad_norm": 0.00023153207439463586,
      "learning_rate": 0.00011399455027102325,
      "loss": 0.0,
      "step": 825
    },
    {
      "epoch": 68.75,
      "eval_loss": 1.437947154045105,
      "eval_runtime": 0.9992,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 825
    },
    {
      "epoch": 68.83333333333333,
      "grad_norm": 0.00034983313526026905,
      "learning_rate": 0.00011382074797453419,
      "loss": 0.0,
      "step": 826
    },
    {
      "epoch": 68.91666666666667,
      "grad_norm": 0.00028180162189528346,
      "learning_rate": 0.00011364690310594063,
      "loss": 0.0,
      "step": 827
    },
    {
      "epoch": 69.0,
      "grad_norm": 0.00035683406167663634,
      "learning_rate": 0.0001134730162007376,
      "loss": 0.0,
      "step": 828
    },
    {
      "epoch": 69.0,
      "eval_loss": 1.4398664236068726,
      "eval_runtime": 0.9996,
      "eval_samples_per_second": 5.002,
      "eval_steps_per_second": 3.001,
      "step": 828
    },
    {
      "epoch": 69.08333333333333,
      "grad_norm": 0.00034313954529352486,
      "learning_rate": 0.00011329908779454965,
      "loss": 0.0,
      "step": 829
    },
    {
      "epoch": 69.16666666666667,
      "grad_norm": 0.0003437676059547812,
      "learning_rate": 0.00011312511842312909,
      "loss": 0.0,
      "step": 830
    },
    {
      "epoch": 69.25,
      "grad_norm": 0.000289525167318061,
      "learning_rate": 0.00011295110862235452,
      "loss": 0.0,
      "step": 831
    },
    {
      "epoch": 69.25,
      "eval_loss": 1.4811090230941772,
      "eval_runtime": 1.0059,
      "eval_samples_per_second": 4.971,
      "eval_steps_per_second": 2.982,
      "step": 831
    },
    {
      "epoch": 69.33333333333333,
      "grad_norm": 0.00025297881802544,
      "learning_rate": 0.00011277705892822892,
      "loss": 0.0,
      "step": 832
    },
    {
      "epoch": 69.41666666666667,
      "grad_norm": 0.0003098596935160458,
      "learning_rate": 0.00011260296987687833,
      "loss": 0.0,
      "step": 833
    },
    {
      "epoch": 69.5,
      "grad_norm": 0.00022490321134682745,
      "learning_rate": 0.00011242884200454993,
      "loss": 0.0,
      "step": 834
    },
    {
      "epoch": 69.5,
      "eval_loss": 1.4453303813934326,
      "eval_runtime": 1.0,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 834
    },
    {
      "epoch": 69.58333333333333,
      "grad_norm": 0.00029411513241939247,
      "learning_rate": 0.00011225467584761049,
      "loss": 0.0,
      "step": 835
    },
    {
      "epoch": 69.66666666666667,
      "grad_norm": 0.000314081902615726,
      "learning_rate": 0.00011208047194254468,
      "loss": 0.0,
      "step": 836
    },
    {
      "epoch": 69.75,
      "grad_norm": 0.00023651175433769822,
      "learning_rate": 0.00011190623082595351,
      "loss": 0.0,
      "step": 837
    },
    {
      "epoch": 69.75,
      "eval_loss": 1.421851396560669,
      "eval_runtime": 0.9979,
      "eval_samples_per_second": 5.01,
      "eval_steps_per_second": 3.006,
      "step": 837
    },
    {
      "epoch": 69.83333333333333,
      "grad_norm": 0.0002712762216106057,
      "learning_rate": 0.00011173195303455255,
      "loss": 0.0,
      "step": 838
    },
    {
      "epoch": 69.91666666666667,
      "grad_norm": 0.0003293131594546139,
      "learning_rate": 0.00011155763910517039,
      "loss": 0.0,
      "step": 839
    },
    {
      "epoch": 70.0,
      "grad_norm": 0.0003992884885519743,
      "learning_rate": 0.00011138328957474691,
      "loss": 0.0,
      "step": 840
    },
    {
      "epoch": 70.0,
      "eval_loss": 1.4318784475326538,
      "eval_runtime": 0.9972,
      "eval_samples_per_second": 5.014,
      "eval_steps_per_second": 3.008,
      "step": 840
    },
    {
      "epoch": 70.08333333333333,
      "grad_norm": 0.00027924691676162183,
      "learning_rate": 0.00011120890498033168,
      "loss": 0.0,
      "step": 841
    },
    {
      "epoch": 70.16666666666667,
      "grad_norm": 0.00029462436214089394,
      "learning_rate": 0.00011103448585908221,
      "loss": 0.0,
      "step": 842
    },
    {
      "epoch": 70.25,
      "grad_norm": 0.00029805192025378346,
      "learning_rate": 0.00011086003274826243,
      "loss": 0.0,
      "step": 843
    },
    {
      "epoch": 70.25,
      "eval_loss": 1.4523658752441406,
      "eval_runtime": 0.997,
      "eval_samples_per_second": 5.015,
      "eval_steps_per_second": 3.009,
      "step": 843
    },
    {
      "epoch": 70.33333333333333,
      "grad_norm": 0.00024902078439481556,
      "learning_rate": 0.00011068554618524092,
      "loss": 0.0,
      "step": 844
    },
    {
      "epoch": 70.41666666666667,
      "grad_norm": 0.0002494400832802057,
      "learning_rate": 0.00011051102670748938,
      "loss": 0.0,
      "step": 845
    },
    {
      "epoch": 70.5,
      "grad_norm": 0.00037338666152209044,
      "learning_rate": 0.00011033647485258077,
      "loss": 0.0,
      "step": 846
    },
    {
      "epoch": 70.5,
      "eval_loss": 1.4546430110931396,
      "eval_runtime": 0.9952,
      "eval_samples_per_second": 5.024,
      "eval_steps_per_second": 3.014,
      "step": 846
    },
    {
      "epoch": 70.58333333333333,
      "grad_norm": 0.0003596041351556778,
      "learning_rate": 0.00011016189115818795,
      "loss": 0.0,
      "step": 847
    },
    {
      "epoch": 70.66666666666667,
      "grad_norm": 0.0003044882614631206,
      "learning_rate": 0.00010998727616208169,
      "loss": 0.0,
      "step": 848
    },
    {
      "epoch": 70.75,
      "grad_norm": 0.0002629639639053494,
      "learning_rate": 0.0001098126304021293,
      "loss": 0.0,
      "step": 849
    },
    {
      "epoch": 70.75,
      "eval_loss": 1.4126731157302856,
      "eval_runtime": 0.9945,
      "eval_samples_per_second": 5.028,
      "eval_steps_per_second": 3.017,
      "step": 849
    },
    {
      "epoch": 70.83333333333333,
      "grad_norm": 0.00031917105661705136,
      "learning_rate": 0.00010963795441629274,
      "loss": 0.0,
      "step": 850
    },
    {
      "epoch": 70.91666666666667,
      "grad_norm": 0.000279388390481472,
      "learning_rate": 0.00010946324874262724,
      "loss": 0.0,
      "step": 851
    },
    {
      "epoch": 71.0,
      "grad_norm": 0.000247284333454445,
      "learning_rate": 0.00010928851391927926,
      "loss": 0.0,
      "step": 852
    },
    {
      "epoch": 71.0,
      "eval_loss": 1.4348104000091553,
      "eval_runtime": 0.9948,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 3.016,
      "step": 852
    },
    {
      "epoch": 71.08333333333333,
      "grad_norm": 0.0003254870534874499,
      "learning_rate": 0.00010911375048448522,
      "loss": 0.0,
      "step": 853
    },
    {
      "epoch": 71.16666666666667,
      "grad_norm": 0.00025061939959414303,
      "learning_rate": 0.0001089389589765696,
      "loss": 0.0,
      "step": 854
    },
    {
      "epoch": 71.25,
      "grad_norm": 0.00024278199998661876,
      "learning_rate": 0.00010876413993394345,
      "loss": 0.0,
      "step": 855
    },
    {
      "epoch": 71.25,
      "eval_loss": 1.2928946018218994,
      "eval_runtime": 0.9966,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 855
    },
    {
      "epoch": 71.33333333333333,
      "grad_norm": 0.0002755681925918907,
      "learning_rate": 0.00010858929389510244,
      "loss": 0.0,
      "step": 856
    },
    {
      "epoch": 71.41666666666667,
      "grad_norm": 0.0003472192329354584,
      "learning_rate": 0.00010841442139862561,
      "loss": 0.0,
      "step": 857
    },
    {
      "epoch": 71.5,
      "grad_norm": 0.0002600656298454851,
      "learning_rate": 0.00010823952298317332,
      "loss": 0.0,
      "step": 858
    },
    {
      "epoch": 71.5,
      "eval_loss": 1.499345064163208,
      "eval_runtime": 0.9985,
      "eval_samples_per_second": 5.008,
      "eval_steps_per_second": 3.005,
      "step": 858
    },
    {
      "epoch": 71.58333333333333,
      "grad_norm": 0.0003514868440106511,
      "learning_rate": 0.00010806459918748591,
      "loss": 0.0,
      "step": 859
    },
    {
      "epoch": 71.66666666666667,
      "grad_norm": 0.0003778208920266479,
      "learning_rate": 0.00010788965055038178,
      "loss": 0.0,
      "step": 860
    },
    {
      "epoch": 71.75,
      "grad_norm": 0.00023197688278742135,
      "learning_rate": 0.00010771467761075595,
      "loss": 0.0,
      "step": 861
    },
    {
      "epoch": 71.75,
      "eval_loss": 1.4522490501403809,
      "eval_runtime": 0.9997,
      "eval_samples_per_second": 5.001,
      "eval_steps_per_second": 3.001,
      "step": 861
    },
    {
      "epoch": 71.83333333333333,
      "grad_norm": 0.0002764618257060647,
      "learning_rate": 0.00010753968090757829,
      "loss": 0.0,
      "step": 862
    },
    {
      "epoch": 71.91666666666667,
      "grad_norm": 0.0003170883283019066,
      "learning_rate": 0.00010736466097989175,
      "loss": 0.0,
      "step": 863
    },
    {
      "epoch": 72.0,
      "grad_norm": 0.0002607509959489107,
      "learning_rate": 0.00010718961836681098,
      "loss": 0.0,
      "step": 864
    },
    {
      "epoch": 72.0,
      "eval_loss": 1.4397876262664795,
      "eval_runtime": 0.9991,
      "eval_samples_per_second": 5.005,
      "eval_steps_per_second": 3.003,
      "step": 864
    },
    {
      "epoch": 72.08333333333333,
      "grad_norm": 0.0002212480758316815,
      "learning_rate": 0.00010701455360752037,
      "loss": 0.0,
      "step": 865
    },
    {
      "epoch": 72.16666666666667,
      "grad_norm": 0.0003414508537389338,
      "learning_rate": 0.00010683946724127265,
      "loss": 0.0,
      "step": 866
    },
    {
      "epoch": 72.25,
      "grad_norm": 0.00033489169436506927,
      "learning_rate": 0.00010666435980738696,
      "loss": 0.0,
      "step": 867
    },
    {
      "epoch": 72.25,
      "eval_loss": 1.4931730031967163,
      "eval_runtime": 0.9958,
      "eval_samples_per_second": 5.021,
      "eval_steps_per_second": 3.013,
      "step": 867
    },
    {
      "epoch": 72.33333333333333,
      "grad_norm": 0.00030818337108939886,
      "learning_rate": 0.00010648923184524748,
      "loss": 0.0,
      "step": 868
    },
    {
      "epoch": 72.41666666666667,
      "grad_norm": 0.0002334986493224278,
      "learning_rate": 0.00010631408389430158,
      "loss": 0.0,
      "step": 869
    },
    {
      "epoch": 72.5,
      "grad_norm": 0.0002734796144068241,
      "learning_rate": 0.00010613891649405815,
      "loss": 0.0,
      "step": 870
    },
    {
      "epoch": 72.5,
      "eval_loss": 1.365958333015442,
      "eval_runtime": 0.9965,
      "eval_samples_per_second": 5.018,
      "eval_steps_per_second": 3.011,
      "step": 870
    },
    {
      "epoch": 72.58333333333333,
      "grad_norm": 0.00024401636619586498,
      "learning_rate": 0.00010596373018408601,
      "loss": 0.0,
      "step": 871
    },
    {
      "epoch": 72.66666666666667,
      "grad_norm": 0.0002639776503201574,
      "learning_rate": 0.0001057885255040123,
      "loss": 0.0,
      "step": 872
    },
    {
      "epoch": 72.75,
      "grad_norm": 0.0002668876841198653,
      "learning_rate": 0.0001056133029935206,
      "loss": 0.0,
      "step": 873
    },
    {
      "epoch": 72.75,
      "eval_loss": 1.3964322805404663,
      "eval_runtime": 0.9962,
      "eval_samples_per_second": 5.019,
      "eval_steps_per_second": 3.012,
      "step": 873
    },
    {
      "epoch": 72.83333333333333,
      "grad_norm": 0.00023820161004550755,
      "learning_rate": 0.00010543806319234956,
      "loss": 0.0,
      "step": 874
    },
    {
      "epoch": 72.91666666666667,
      "grad_norm": 0.00023666526249144226,
      "learning_rate": 0.00010526280664029104,
      "loss": 0.0,
      "step": 875
    },
    {
      "epoch": 73.0,
      "grad_norm": 0.00034686425351537764,
      "learning_rate": 0.00010508753387718848,
      "loss": 0.0,
      "step": 876
    },
    {
      "epoch": 73.0,
      "eval_loss": 1.3819973468780518,
      "eval_runtime": 0.9962,
      "eval_samples_per_second": 5.019,
      "eval_steps_per_second": 3.011,
      "step": 876
    },
    {
      "epoch": 73.08333333333333,
      "grad_norm": 0.00028395283152349293,
      "learning_rate": 0.00010491224544293524,
      "loss": 0.0,
      "step": 877
    },
    {
      "epoch": 73.16666666666667,
      "grad_norm": 0.00029354298021644354,
      "learning_rate": 0.00010473694187747298,
      "loss": 0.0,
      "step": 878
    },
    {
      "epoch": 73.25,
      "grad_norm": 0.00030021226848475635,
      "learning_rate": 0.00010456162372078995,
      "loss": 0.0,
      "step": 879
    },
    {
      "epoch": 73.25,
      "eval_loss": 1.4801995754241943,
      "eval_runtime": 0.9955,
      "eval_samples_per_second": 5.022,
      "eval_steps_per_second": 3.013,
      "step": 879
    },
    {
      "epoch": 73.33333333333333,
      "grad_norm": 0.00027820325340144336,
      "learning_rate": 0.00010438629151291943,
      "loss": 0.0,
      "step": 880
    },
    {
      "epoch": 73.41666666666667,
      "grad_norm": 0.0002511835773475468,
      "learning_rate": 0.0001042109457939378,
      "loss": 0.0,
      "step": 881
    },
    {
      "epoch": 73.5,
      "grad_norm": 0.00019870584947057068,
      "learning_rate": 0.00010403558710396328,
      "loss": 0.0,
      "step": 882
    },
    {
      "epoch": 73.5,
      "eval_loss": 1.4515489339828491,
      "eval_runtime": 0.9974,
      "eval_samples_per_second": 5.013,
      "eval_steps_per_second": 3.008,
      "step": 882
    },
    {
      "epoch": 73.58333333333333,
      "grad_norm": 0.00024421169655397534,
      "learning_rate": 0.00010386021598315387,
      "loss": 0.0,
      "step": 883
    },
    {
      "epoch": 73.66666666666667,
      "grad_norm": 0.00023408146807923913,
      "learning_rate": 0.00010368483297170595,
      "loss": 0.0,
      "step": 884
    },
    {
      "epoch": 73.75,
      "grad_norm": 0.00027350784512236714,
      "learning_rate": 0.0001035094386098525,
      "loss": 0.0,
      "step": 885
    },
    {
      "epoch": 73.75,
      "eval_loss": 1.4720194339752197,
      "eval_runtime": 0.9966,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 885
    },
    {
      "epoch": 73.83333333333333,
      "grad_norm": 0.00032291660318151116,
      "learning_rate": 0.00010333403343786146,
      "loss": 0.0,
      "step": 886
    },
    {
      "epoch": 73.91666666666667,
      "grad_norm": 0.00026404744130559266,
      "learning_rate": 0.00010315861799603403,
      "loss": 0.0,
      "step": 887
    },
    {
      "epoch": 74.0,
      "grad_norm": 0.0003151796408928931,
      "learning_rate": 0.00010298319282470314,
      "loss": 0.0,
      "step": 888
    },
    {
      "epoch": 74.0,
      "eval_loss": 1.4308595657348633,
      "eval_runtime": 0.9956,
      "eval_samples_per_second": 5.022,
      "eval_steps_per_second": 3.013,
      "step": 888
    },
    {
      "epoch": 74.08333333333333,
      "grad_norm": 0.0002967700711451471,
      "learning_rate": 0.00010280775846423165,
      "loss": 0.0,
      "step": 889
    },
    {
      "epoch": 74.16666666666667,
      "grad_norm": 0.00025326668401248753,
      "learning_rate": 0.00010263231545501068,
      "loss": 0.0,
      "step": 890
    },
    {
      "epoch": 74.25,
      "grad_norm": 0.0002021111431531608,
      "learning_rate": 0.00010245686433745802,
      "loss": 0.0,
      "step": 891
    },
    {
      "epoch": 74.25,
      "eval_loss": 1.4312320947647095,
      "eval_runtime": 0.9958,
      "eval_samples_per_second": 5.021,
      "eval_steps_per_second": 3.013,
      "step": 891
    },
    {
      "epoch": 74.33333333333333,
      "grad_norm": 0.0004697154217865318,
      "learning_rate": 0.0001022814056520165,
      "loss": 0.0,
      "step": 892
    },
    {
      "epoch": 74.41666666666667,
      "grad_norm": 0.0003480278537608683,
      "learning_rate": 0.00010210593993915209,
      "loss": 0.0,
      "step": 893
    },
    {
      "epoch": 74.5,
      "grad_norm": 0.0002489909529685974,
      "learning_rate": 0.0001019304677393526,
      "loss": 0.0,
      "step": 894
    },
    {
      "epoch": 74.5,
      "eval_loss": 1.4136079549789429,
      "eval_runtime": 0.9938,
      "eval_samples_per_second": 5.031,
      "eval_steps_per_second": 3.019,
      "step": 894
    },
    {
      "epoch": 74.58333333333333,
      "grad_norm": 0.0002323068620171398,
      "learning_rate": 0.00010175498959312572,
      "loss": 0.0,
      "step": 895
    },
    {
      "epoch": 74.66666666666667,
      "grad_norm": 0.00027380400570109487,
      "learning_rate": 0.00010157950604099749,
      "loss": 0.0,
      "step": 896
    },
    {
      "epoch": 74.75,
      "grad_norm": 0.00028780355933122337,
      "learning_rate": 0.00010140401762351055,
      "loss": 0.0,
      "step": 897
    },
    {
      "epoch": 74.75,
      "eval_loss": 1.5156517028808594,
      "eval_runtime": 0.9967,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 897
    },
    {
      "epoch": 74.83333333333333,
      "grad_norm": 0.0003140428743790835,
      "learning_rate": 0.0001012285248812226,
      "loss": 0.0,
      "step": 898
    },
    {
      "epoch": 74.91666666666667,
      "grad_norm": 0.00029405351961031556,
      "learning_rate": 0.00010105302835470461,
      "loss": 0.0,
      "step": 899
    },
    {
      "epoch": 75.0,
      "grad_norm": 0.00027670874260365963,
      "learning_rate": 0.00010087752858453923,
      "loss": 0.0,
      "step": 900
    },
    {
      "epoch": 75.0,
      "eval_loss": 1.455033302307129,
      "eval_runtime": 0.9966,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 900
    },
    {
      "epoch": 75.08333333333333,
      "grad_norm": 0.0002734492009039968,
      "learning_rate": 0.00010070202611131907,
      "loss": 0.0,
      "step": 901
    },
    {
      "epoch": 75.16666666666667,
      "grad_norm": 0.00033176044235005975,
      "learning_rate": 0.00010052652147564512,
      "loss": 0.0,
      "step": 902
    },
    {
      "epoch": 75.25,
      "grad_norm": 0.00022084364900365472,
      "learning_rate": 0.000100351015218125,
      "loss": 0.0,
      "step": 903
    },
    {
      "epoch": 75.25,
      "eval_loss": 1.4319442510604858,
      "eval_runtime": 0.9978,
      "eval_samples_per_second": 5.011,
      "eval_steps_per_second": 3.007,
      "step": 903
    },
    {
      "epoch": 75.33333333333333,
      "grad_norm": 0.0002586189948488027,
      "learning_rate": 0.00010017550787937131,
      "loss": 0.0,
      "step": 904
    },
    {
      "epoch": 75.41666666666667,
      "grad_norm": 0.00032938376534730196,
      "learning_rate": 0.0001,
      "loss": 0.0,
      "step": 905
    },
    {
      "epoch": 75.5,
      "grad_norm": 0.0003512882103677839,
      "learning_rate": 9.98244921206287e-05,
      "loss": 0.0,
      "step": 906
    },
    {
      "epoch": 75.5,
      "eval_loss": 1.4780312776565552,
      "eval_runtime": 0.998,
      "eval_samples_per_second": 5.01,
      "eval_steps_per_second": 3.006,
      "step": 906
    },
    {
      "epoch": 75.58333333333333,
      "grad_norm": 0.0002332071599084884,
      "learning_rate": 9.964898478187502e-05,
      "loss": 0.0,
      "step": 907
    },
    {
      "epoch": 75.66666666666667,
      "grad_norm": 0.00018890593491960317,
      "learning_rate": 9.947347852435491e-05,
      "loss": 0.0,
      "step": 908
    },
    {
      "epoch": 75.75,
      "grad_norm": 0.00022092855942901224,
      "learning_rate": 9.929797388868094e-05,
      "loss": 0.0,
      "step": 909
    },
    {
      "epoch": 75.75,
      "eval_loss": 1.4080381393432617,
      "eval_runtime": 0.9983,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.005,
      "step": 909
    },
    {
      "epoch": 75.83333333333333,
      "grad_norm": 0.00024862223654054105,
      "learning_rate": 9.912247141546079e-05,
      "loss": 0.0,
      "step": 910
    },
    {
      "epoch": 75.91666666666667,
      "grad_norm": 0.00028055402799509466,
      "learning_rate": 9.894697164529539e-05,
      "loss": 0.0,
      "step": 911
    },
    {
      "epoch": 76.0,
      "grad_norm": 0.000354066607542336,
      "learning_rate": 9.877147511877743e-05,
      "loss": 0.0,
      "step": 912
    },
    {
      "epoch": 76.0,
      "eval_loss": 1.4393603801727295,
      "eval_runtime": 0.9989,
      "eval_samples_per_second": 5.006,
      "eval_steps_per_second": 3.003,
      "step": 912
    },
    {
      "epoch": 76.08333333333333,
      "grad_norm": 0.00024419763940386474,
      "learning_rate": 9.859598237648947e-05,
      "loss": 0.0,
      "step": 913
    },
    {
      "epoch": 76.16666666666667,
      "grad_norm": 0.00028946370002813637,
      "learning_rate": 9.842049395900254e-05,
      "loss": 0.0,
      "step": 914
    },
    {
      "epoch": 76.25,
      "grad_norm": 0.00034803140442818403,
      "learning_rate": 9.824501040687429e-05,
      "loss": 0.0,
      "step": 915
    },
    {
      "epoch": 76.25,
      "eval_loss": 1.470853567123413,
      "eval_runtime": 0.9993,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 915
    },
    {
      "epoch": 76.33333333333333,
      "grad_norm": 0.00028189431759528816,
      "learning_rate": 9.806953226064742e-05,
      "loss": 0.0,
      "step": 916
    },
    {
      "epoch": 76.41666666666667,
      "grad_norm": 0.00028342255973257124,
      "learning_rate": 9.789406006084792e-05,
      "loss": 0.0,
      "step": 917
    },
    {
      "epoch": 76.5,
      "grad_norm": 0.00031983674853108823,
      "learning_rate": 9.771859434798352e-05,
      "loss": 0.0,
      "step": 918
    },
    {
      "epoch": 76.5,
      "eval_loss": 1.409329891204834,
      "eval_runtime": 0.9981,
      "eval_samples_per_second": 5.01,
      "eval_steps_per_second": 3.006,
      "step": 918
    },
    {
      "epoch": 76.58333333333333,
      "grad_norm": 0.00023588236945215613,
      "learning_rate": 9.754313566254196e-05,
      "loss": 0.0,
      "step": 919
    },
    {
      "epoch": 76.66666666666667,
      "grad_norm": 0.00022915819135960191,
      "learning_rate": 9.736768454498936e-05,
      "loss": 0.0,
      "step": 920
    },
    {
      "epoch": 76.75,
      "grad_norm": 0.0003367018944118172,
      "learning_rate": 9.719224153576838e-05,
      "loss": 0.0,
      "step": 921
    },
    {
      "epoch": 76.75,
      "eval_loss": 1.4740476608276367,
      "eval_runtime": 0.9973,
      "eval_samples_per_second": 5.014,
      "eval_steps_per_second": 3.008,
      "step": 921
    },
    {
      "epoch": 76.83333333333333,
      "grad_norm": 0.00021011792705394328,
      "learning_rate": 9.701680717529687e-05,
      "loss": 0.0,
      "step": 922
    },
    {
      "epoch": 76.91666666666667,
      "grad_norm": 0.0002681395271793008,
      "learning_rate": 9.684138200396598e-05,
      "loss": 0.0,
      "step": 923
    },
    {
      "epoch": 77.0,
      "grad_norm": 0.00028695171931758523,
      "learning_rate": 9.66659665621386e-05,
      "loss": 0.0,
      "step": 924
    },
    {
      "epoch": 77.0,
      "eval_loss": 1.4728293418884277,
      "eval_runtime": 0.9979,
      "eval_samples_per_second": 5.011,
      "eval_steps_per_second": 3.006,
      "step": 924
    },
    {
      "epoch": 77.08333333333333,
      "grad_norm": 0.0003052809915971011,
      "learning_rate": 9.649056139014754e-05,
      "loss": 0.0,
      "step": 925
    },
    {
      "epoch": 77.16666666666667,
      "grad_norm": 0.00026654553948901594,
      "learning_rate": 9.631516702829406e-05,
      "loss": 0.0,
      "step": 926
    },
    {
      "epoch": 77.25,
      "grad_norm": 0.00023756928567308933,
      "learning_rate": 9.613978401684614e-05,
      "loss": 0.0,
      "step": 927
    },
    {
      "epoch": 77.25,
      "eval_loss": 1.4673374891281128,
      "eval_runtime": 0.9934,
      "eval_samples_per_second": 5.033,
      "eval_steps_per_second": 3.02,
      "step": 927
    },
    {
      "epoch": 77.33333333333333,
      "grad_norm": 0.00025320693384855986,
      "learning_rate": 9.596441289603676e-05,
      "loss": 0.0,
      "step": 928
    },
    {
      "epoch": 77.41666666666667,
      "grad_norm": 0.0002678207238204777,
      "learning_rate": 9.578905420606222e-05,
      "loss": 0.0,
      "step": 929
    },
    {
      "epoch": 77.5,
      "grad_norm": 0.00031056877924129367,
      "learning_rate": 9.56137084870806e-05,
      "loss": 0.0,
      "step": 930
    },
    {
      "epoch": 77.5,
      "eval_loss": 1.4636701345443726,
      "eval_runtime": 0.9941,
      "eval_samples_per_second": 5.03,
      "eval_steps_per_second": 3.018,
      "step": 930
    },
    {
      "epoch": 77.58333333333333,
      "grad_norm": 0.00024722458329051733,
      "learning_rate": 9.543837627921004e-05,
      "loss": 0.0,
      "step": 931
    },
    {
      "epoch": 77.66666666666667,
      "grad_norm": 0.0002819969377014786,
      "learning_rate": 9.526305812252707e-05,
      "loss": 0.0,
      "step": 932
    },
    {
      "epoch": 77.75,
      "grad_norm": 0.0003061524184886366,
      "learning_rate": 9.50877545570648e-05,
      "loss": 0.0,
      "step": 933
    },
    {
      "epoch": 77.75,
      "eval_loss": 1.4467823505401611,
      "eval_runtime": 0.9954,
      "eval_samples_per_second": 5.023,
      "eval_steps_per_second": 3.014,
      "step": 933
    },
    {
      "epoch": 77.83333333333333,
      "grad_norm": 0.0003211538714822382,
      "learning_rate": 9.491246612281155e-05,
      "loss": 0.0,
      "step": 934
    },
    {
      "epoch": 77.91666666666667,
      "grad_norm": 0.00020503548148553818,
      "learning_rate": 9.473719335970897e-05,
      "loss": 0.0,
      "step": 935
    },
    {
      "epoch": 78.0,
      "grad_norm": 0.000276967795798555,
      "learning_rate": 9.456193680765045e-05,
      "loss": 0.0,
      "step": 936
    },
    {
      "epoch": 78.0,
      "eval_loss": 1.418427586555481,
      "eval_runtime": 0.9944,
      "eval_samples_per_second": 5.028,
      "eval_steps_per_second": 3.017,
      "step": 936
    },
    {
      "epoch": 78.08333333333333,
      "grad_norm": 0.00033238454489037395,
      "learning_rate": 9.43866970064794e-05,
      "loss": 0.0,
      "step": 937
    },
    {
      "epoch": 78.16666666666667,
      "grad_norm": 0.00029664492467418313,
      "learning_rate": 9.421147449598773e-05,
      "loss": 0.0,
      "step": 938
    },
    {
      "epoch": 78.25,
      "grad_norm": 0.0002693861606530845,
      "learning_rate": 9.403626981591397e-05,
      "loss": 0.0,
      "step": 939
    },
    {
      "epoch": 78.25,
      "eval_loss": 1.4878932237625122,
      "eval_runtime": 0.9953,
      "eval_samples_per_second": 5.023,
      "eval_steps_per_second": 3.014,
      "step": 939
    },
    {
      "epoch": 78.33333333333333,
      "grad_norm": 0.00022255495423451066,
      "learning_rate": 9.38610835059419e-05,
      "loss": 0.0,
      "step": 940
    },
    {
      "epoch": 78.41666666666667,
      "grad_norm": 0.000239536544540897,
      "learning_rate": 9.368591610569844e-05,
      "loss": 0.0,
      "step": 941
    },
    {
      "epoch": 78.5,
      "grad_norm": 0.0001918936031870544,
      "learning_rate": 9.351076815475252e-05,
      "loss": 0.0,
      "step": 942
    },
    {
      "epoch": 78.5,
      "eval_loss": 1.4783685207366943,
      "eval_runtime": 0.9966,
      "eval_samples_per_second": 5.017,
      "eval_steps_per_second": 3.01,
      "step": 942
    },
    {
      "epoch": 78.58333333333333,
      "grad_norm": 0.00025670664035715163,
      "learning_rate": 9.333564019261305e-05,
      "loss": 0.0,
      "step": 943
    },
    {
      "epoch": 78.66666666666667,
      "grad_norm": 0.00022524244559463114,
      "learning_rate": 9.31605327587274e-05,
      "loss": 0.0,
      "step": 944
    },
    {
      "epoch": 78.75,
      "grad_norm": 0.0002943908330053091,
      "learning_rate": 9.298544639247965e-05,
      "loss": 0.0,
      "step": 945
    },
    {
      "epoch": 78.75,
      "eval_loss": 1.463862657546997,
      "eval_runtime": 0.996,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 945
    },
    {
      "epoch": 78.83333333333333,
      "grad_norm": 0.00031556657631881535,
      "learning_rate": 9.281038163318904e-05,
      "loss": 0.0,
      "step": 946
    },
    {
      "epoch": 78.91666666666667,
      "grad_norm": 0.0002228210069006309,
      "learning_rate": 9.263533902010825e-05,
      "loss": 0.0,
      "step": 947
    },
    {
      "epoch": 79.0,
      "grad_norm": 0.00032823358196765184,
      "learning_rate": 9.246031909242175e-05,
      "loss": 0.0,
      "step": 948
    },
    {
      "epoch": 79.0,
      "eval_loss": 1.4209022521972656,
      "eval_runtime": 1.0034,
      "eval_samples_per_second": 4.983,
      "eval_steps_per_second": 2.99,
      "step": 948
    },
    {
      "epoch": 79.08333333333333,
      "grad_norm": 0.00032637600088492036,
      "learning_rate": 9.228532238924406e-05,
      "loss": 0.0,
      "step": 949
    },
    {
      "epoch": 79.16666666666667,
      "grad_norm": 0.0002925146254710853,
      "learning_rate": 9.211034944961823e-05,
      "loss": 0.0,
      "step": 950
    },
    {
      "epoch": 79.25,
      "grad_norm": 0.00023410118592437357,
      "learning_rate": 9.193540081251413e-05,
      "loss": 0.0,
      "step": 951
    },
    {
      "epoch": 79.25,
      "eval_loss": 1.4623699188232422,
      "eval_runtime": 1.0032,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.99,
      "step": 951
    },
    {
      "epoch": 79.33333333333333,
      "grad_norm": 0.00030615870491601527,
      "learning_rate": 9.176047701682672e-05,
      "loss": 0.0,
      "step": 952
    },
    {
      "epoch": 79.41666666666667,
      "grad_norm": 0.0002690944529604167,
      "learning_rate": 9.158557860137444e-05,
      "loss": 0.0,
      "step": 953
    },
    {
      "epoch": 79.5,
      "grad_norm": 0.00021898531122133136,
      "learning_rate": 9.141070610489757e-05,
      "loss": 0.0,
      "step": 954
    },
    {
      "epoch": 79.5,
      "eval_loss": 1.4141722917556763,
      "eval_runtime": 1.0046,
      "eval_samples_per_second": 4.977,
      "eval_steps_per_second": 2.986,
      "step": 954
    },
    {
      "epoch": 79.58333333333333,
      "grad_norm": 0.0002209334197686985,
      "learning_rate": 9.123586006605657e-05,
      "loss": 0.0,
      "step": 955
    },
    {
      "epoch": 79.66666666666667,
      "grad_norm": 0.00020918923837598413,
      "learning_rate": 9.106104102343038e-05,
      "loss": 0.0,
      "step": 956
    },
    {
      "epoch": 79.75,
      "grad_norm": 0.00023192095977719873,
      "learning_rate": 9.088624951551481e-05,
      "loss": 0.0,
      "step": 957
    },
    {
      "epoch": 79.75,
      "eval_loss": 1.4456405639648438,
      "eval_runtime": 1.0037,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 957
    },
    {
      "epoch": 79.83333333333333,
      "grad_norm": 0.0002275690494570881,
      "learning_rate": 9.071148608072078e-05,
      "loss": 0.0,
      "step": 958
    },
    {
      "epoch": 79.91666666666667,
      "grad_norm": 0.00025548716075718403,
      "learning_rate": 9.05367512573728e-05,
      "loss": 0.0,
      "step": 959
    },
    {
      "epoch": 80.0,
      "grad_norm": 0.0004926147521473467,
      "learning_rate": 9.036204558370725e-05,
      "loss": 0.0,
      "step": 960
    },
    {
      "epoch": 80.0,
      "eval_loss": 1.4343241453170776,
      "eval_runtime": 1.0027,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 960
    },
    {
      "epoch": 80.08333333333333,
      "grad_norm": 0.00024300617224071175,
      "learning_rate": 9.018736959787075e-05,
      "loss": 0.0,
      "step": 961
    },
    {
      "epoch": 80.16666666666667,
      "grad_norm": 0.000192906562006101,
      "learning_rate": 9.001272383791833e-05,
      "loss": 0.0,
      "step": 962
    },
    {
      "epoch": 80.25,
      "grad_norm": 0.00020538292301353067,
      "learning_rate": 8.983810884181207e-05,
      "loss": 0.0,
      "step": 963
    },
    {
      "epoch": 80.25,
      "eval_loss": 1.4716095924377441,
      "eval_runtime": 1.0037,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 963
    },
    {
      "epoch": 80.33333333333333,
      "grad_norm": 0.0002914583310484886,
      "learning_rate": 8.966352514741923e-05,
      "loss": 0.0,
      "step": 964
    },
    {
      "epoch": 80.41666666666667,
      "grad_norm": 0.0002270481054438278,
      "learning_rate": 8.948897329251065e-05,
      "loss": 0.0,
      "step": 965
    },
    {
      "epoch": 80.5,
      "grad_norm": 0.00027466670144349337,
      "learning_rate": 8.93144538147591e-05,
      "loss": 0.0,
      "step": 966
    },
    {
      "epoch": 80.5,
      "eval_loss": 1.4184569120407104,
      "eval_runtime": 1.0045,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 966
    },
    {
      "epoch": 80.58333333333333,
      "grad_norm": 0.0002905273577198386,
      "learning_rate": 8.91399672517376e-05,
      "loss": 0.0,
      "step": 967
    },
    {
      "epoch": 80.66666666666667,
      "grad_norm": 0.000292944343527779,
      "learning_rate": 8.89655141409178e-05,
      "loss": 0.0,
      "step": 968
    },
    {
      "epoch": 80.75,
      "grad_norm": 0.00021811650367453694,
      "learning_rate": 8.879109501966837e-05,
      "loss": 0.0,
      "step": 969
    },
    {
      "epoch": 80.75,
      "eval_loss": 1.484743356704712,
      "eval_runtime": 1.0041,
      "eval_samples_per_second": 4.98,
      "eval_steps_per_second": 2.988,
      "step": 969
    },
    {
      "epoch": 80.83333333333333,
      "grad_norm": 0.00039606422069482505,
      "learning_rate": 8.861671042525311e-05,
      "loss": 0.0,
      "step": 970
    },
    {
      "epoch": 80.91666666666667,
      "grad_norm": 0.0002545479510445148,
      "learning_rate": 8.844236089482962e-05,
      "loss": 0.0,
      "step": 971
    },
    {
      "epoch": 81.0,
      "grad_norm": 0.0003829841152764857,
      "learning_rate": 8.826804696544746e-05,
      "loss": 0.0,
      "step": 972
    },
    {
      "epoch": 81.0,
      "eval_loss": 1.461877703666687,
      "eval_runtime": 1.0033,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.99,
      "step": 972
    },
    {
      "epoch": 81.08333333333333,
      "grad_norm": 0.0003029141516890377,
      "learning_rate": 8.809376917404653e-05,
      "loss": 0.0,
      "step": 973
    },
    {
      "epoch": 81.16666666666667,
      "grad_norm": 0.00026629288913682103,
      "learning_rate": 8.791952805745534e-05,
      "loss": 0.0,
      "step": 974
    },
    {
      "epoch": 81.25,
      "grad_norm": 0.00018417381215840578,
      "learning_rate": 8.774532415238954e-05,
      "loss": 0.0,
      "step": 975
    },
    {
      "epoch": 81.25,
      "eval_loss": 1.4766937494277954,
      "eval_runtime": 1.0014,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 975
    },
    {
      "epoch": 81.33333333333333,
      "grad_norm": 0.00020233458781149238,
      "learning_rate": 8.757115799545008e-05,
      "loss": 0.0,
      "step": 976
    },
    {
      "epoch": 81.41666666666667,
      "grad_norm": 0.0002542832517065108,
      "learning_rate": 8.73970301231217e-05,
      "loss": 0.0,
      "step": 977
    },
    {
      "epoch": 81.5,
      "grad_norm": 0.000407828891184181,
      "learning_rate": 8.722294107177111e-05,
      "loss": 0.0,
      "step": 978
    },
    {
      "epoch": 81.5,
      "eval_loss": 1.404604196548462,
      "eval_runtime": 1.0076,
      "eval_samples_per_second": 4.962,
      "eval_steps_per_second": 2.977,
      "step": 978
    },
    {
      "epoch": 81.58333333333333,
      "grad_norm": 0.0002830767771229148,
      "learning_rate": 8.704889137764551e-05,
      "loss": 0.0,
      "step": 979
    },
    {
      "epoch": 81.66666666666667,
      "grad_norm": 0.00023590581258758903,
      "learning_rate": 8.68748815768709e-05,
      "loss": 0.0,
      "step": 980
    },
    {
      "epoch": 81.75,
      "grad_norm": 0.0002576842962298542,
      "learning_rate": 8.670091220545038e-05,
      "loss": 0.0,
      "step": 981
    },
    {
      "epoch": 81.75,
      "eval_loss": 1.4566614627838135,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 981
    },
    {
      "epoch": 81.83333333333333,
      "grad_norm": 0.0002408778527751565,
      "learning_rate": 8.652698379926241e-05,
      "loss": 0.0,
      "step": 982
    },
    {
      "epoch": 81.91666666666667,
      "grad_norm": 0.00027159147430211306,
      "learning_rate": 8.635309689405938e-05,
      "loss": 0.0,
      "step": 983
    },
    {
      "epoch": 82.0,
      "grad_norm": 0.00042002645204775035,
      "learning_rate": 8.617925202546582e-05,
      "loss": 0.0,
      "step": 984
    },
    {
      "epoch": 82.0,
      "eval_loss": 1.4585357904434204,
      "eval_runtime": 0.9949,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 3.015,
      "step": 984
    },
    {
      "epoch": 82.08333333333333,
      "grad_norm": 0.0002806393604259938,
      "learning_rate": 8.600544972897677e-05,
      "loss": 0.0,
      "step": 985
    },
    {
      "epoch": 82.16666666666667,
      "grad_norm": 0.0002540107525419444,
      "learning_rate": 8.58316905399561e-05,
      "loss": 0.0,
      "step": 986
    },
    {
      "epoch": 82.25,
      "grad_norm": 0.00022201696992851794,
      "learning_rate": 8.565797499363494e-05,
      "loss": 0.0,
      "step": 987
    },
    {
      "epoch": 82.25,
      "eval_loss": 1.4256517887115479,
      "eval_runtime": 0.9959,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 987
    },
    {
      "epoch": 82.33333333333333,
      "grad_norm": 0.00041465225513093174,
      "learning_rate": 8.548430362510997e-05,
      "loss": 0.0,
      "step": 988
    },
    {
      "epoch": 82.41666666666667,
      "grad_norm": 0.00021810026373714209,
      "learning_rate": 8.531067696934185e-05,
      "loss": 0.0,
      "step": 989
    },
    {
      "epoch": 82.5,
      "grad_norm": 0.0001934713509399444,
      "learning_rate": 8.513709556115335e-05,
      "loss": 0.0,
      "step": 990
    },
    {
      "epoch": 82.5,
      "eval_loss": 1.3999860286712646,
      "eval_runtime": 0.9952,
      "eval_samples_per_second": 5.024,
      "eval_steps_per_second": 3.015,
      "step": 990
    },
    {
      "epoch": 82.58333333333333,
      "grad_norm": 0.0002618971629999578,
      "learning_rate": 8.496355993522802e-05,
      "loss": 0.0,
      "step": 991
    },
    {
      "epoch": 82.66666666666667,
      "grad_norm": 0.0002405917039141059,
      "learning_rate": 8.479007062610832e-05,
      "loss": 0.0,
      "step": 992
    },
    {
      "epoch": 82.75,
      "grad_norm": 0.00029911237652413547,
      "learning_rate": 8.461662816819409e-05,
      "loss": 0.0,
      "step": 993
    },
    {
      "epoch": 82.75,
      "eval_loss": 1.4644057750701904,
      "eval_runtime": 0.9958,
      "eval_samples_per_second": 5.021,
      "eval_steps_per_second": 3.013,
      "step": 993
    },
    {
      "epoch": 82.83333333333333,
      "grad_norm": 0.0001787366345524788,
      "learning_rate": 8.444323309574075e-05,
      "loss": 0.0,
      "step": 994
    },
    {
      "epoch": 82.91666666666667,
      "grad_norm": 0.0002128139603883028,
      "learning_rate": 8.42698859428579e-05,
      "loss": 0.0,
      "step": 995
    },
    {
      "epoch": 83.0,
      "grad_norm": 0.0003896453999914229,
      "learning_rate": 8.409658724350739e-05,
      "loss": 0.0,
      "step": 996
    },
    {
      "epoch": 83.0,
      "eval_loss": 1.399827480316162,
      "eval_runtime": 0.9968,
      "eval_samples_per_second": 5.016,
      "eval_steps_per_second": 3.01,
      "step": 996
    },
    {
      "epoch": 83.08333333333333,
      "grad_norm": 0.00017130750347860157,
      "learning_rate": 8.392333753150199e-05,
      "loss": 0.0,
      "step": 997
    },
    {
      "epoch": 83.16666666666667,
      "grad_norm": 0.0002730452979449183,
      "learning_rate": 8.375013734050334e-05,
      "loss": 0.0,
      "step": 998
    },
    {
      "epoch": 83.25,
      "grad_norm": 0.0002848969597835094,
      "learning_rate": 8.357698720402073e-05,
      "loss": 0.0,
      "step": 999
    },
    {
      "epoch": 83.25,
      "eval_loss": 1.4228813648223877,
      "eval_runtime": 1.0055,
      "eval_samples_per_second": 4.972,
      "eval_steps_per_second": 2.983,
      "step": 999
    },
    {
      "epoch": 83.33333333333333,
      "grad_norm": 0.00022593126050196588,
      "learning_rate": 8.340388765540923e-05,
      "loss": 0.0,
      "step": 1000
    },
    {
      "epoch": 83.41666666666667,
      "grad_norm": 0.0002593566896393895,
      "learning_rate": 8.323083922786801e-05,
      "loss": 0.0,
      "step": 1001
    },
    {
      "epoch": 83.5,
      "grad_norm": 0.00028177443891763687,
      "learning_rate": 8.305784245443892e-05,
      "loss": 0.0,
      "step": 1002
    },
    {
      "epoch": 83.5,
      "eval_loss": 1.4643419981002808,
      "eval_runtime": 1.0038,
      "eval_samples_per_second": 4.981,
      "eval_steps_per_second": 2.989,
      "step": 1002
    },
    {
      "epoch": 83.58333333333333,
      "grad_norm": 0.00027205381775274873,
      "learning_rate": 8.28848978680045e-05,
      "loss": 0.0,
      "step": 1003
    },
    {
      "epoch": 83.66666666666667,
      "grad_norm": 0.0003092866390943527,
      "learning_rate": 8.271200600128668e-05,
      "loss": 0.0,
      "step": 1004
    },
    {
      "epoch": 83.75,
      "grad_norm": 0.0002234716375824064,
      "learning_rate": 8.253916738684498e-05,
      "loss": 0.0,
      "step": 1005
    },
    {
      "epoch": 83.75,
      "eval_loss": 1.459151029586792,
      "eval_runtime": 0.9942,
      "eval_samples_per_second": 5.029,
      "eval_steps_per_second": 3.018,
      "step": 1005
    },
    {
      "epoch": 83.83333333333333,
      "grad_norm": 0.00022538779012393206,
      "learning_rate": 8.236638255707484e-05,
      "loss": 0.0,
      "step": 1006
    },
    {
      "epoch": 83.91666666666667,
      "grad_norm": 0.00021883670706301928,
      "learning_rate": 8.219365204420605e-05,
      "loss": 0.0,
      "step": 1007
    },
    {
      "epoch": 84.0,
      "grad_norm": 0.0002686574007384479,
      "learning_rate": 8.20209763803011e-05,
      "loss": 0.0,
      "step": 1008
    },
    {
      "epoch": 84.0,
      "eval_loss": 1.4021623134613037,
      "eval_runtime": 0.9996,
      "eval_samples_per_second": 5.002,
      "eval_steps_per_second": 3.001,
      "step": 1008
    },
    {
      "epoch": 84.08333333333333,
      "grad_norm": 0.00027298874920234084,
      "learning_rate": 8.184835609725352e-05,
      "loss": 0.0,
      "step": 1009
    },
    {
      "epoch": 84.16666666666667,
      "grad_norm": 0.0002649520174600184,
      "learning_rate": 8.16757917267863e-05,
      "loss": 0.0,
      "step": 1010
    },
    {
      "epoch": 84.25,
      "grad_norm": 0.0002376642223680392,
      "learning_rate": 8.150328380045004e-05,
      "loss": 0.0,
      "step": 1011
    },
    {
      "epoch": 84.25,
      "eval_loss": 1.410674810409546,
      "eval_runtime": 0.9952,
      "eval_samples_per_second": 5.024,
      "eval_steps_per_second": 3.014,
      "step": 1011
    },
    {
      "epoch": 84.33333333333333,
      "grad_norm": 0.00021497432317119092,
      "learning_rate": 8.133083284962166e-05,
      "loss": 0.0,
      "step": 1012
    },
    {
      "epoch": 84.41666666666667,
      "grad_norm": 0.0002590953663457185,
      "learning_rate": 8.115843940550249e-05,
      "loss": 0.0,
      "step": 1013
    },
    {
      "epoch": 84.5,
      "grad_norm": 0.00022127952252049,
      "learning_rate": 8.098610399911673e-05,
      "loss": 0.0,
      "step": 1014
    },
    {
      "epoch": 84.5,
      "eval_loss": 1.4721285104751587,
      "eval_runtime": 1.0005,
      "eval_samples_per_second": 4.998,
      "eval_steps_per_second": 2.999,
      "step": 1014
    },
    {
      "epoch": 84.58333333333333,
      "grad_norm": 0.00018421474669594318,
      "learning_rate": 8.081382716130982e-05,
      "loss": 0.0,
      "step": 1015
    },
    {
      "epoch": 84.66666666666667,
      "grad_norm": 0.00021385715808719397,
      "learning_rate": 8.064160942274677e-05,
      "loss": 0.0,
      "step": 1016
    },
    {
      "epoch": 84.75,
      "grad_norm": 0.0002978732227347791,
      "learning_rate": 8.046945131391056e-05,
      "loss": 0.0,
      "step": 1017
    },
    {
      "epoch": 84.75,
      "eval_loss": 1.3944498300552368,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 1017
    },
    {
      "epoch": 84.83333333333333,
      "grad_norm": 0.0002614521363284439,
      "learning_rate": 8.029735336510056e-05,
      "loss": 0.0,
      "step": 1018
    },
    {
      "epoch": 84.91666666666667,
      "grad_norm": 0.0002577021368779242,
      "learning_rate": 8.012531610643065e-05,
      "loss": 0.0,
      "step": 1019
    },
    {
      "epoch": 85.0,
      "grad_norm": 0.00020396779291331768,
      "learning_rate": 7.995334006782793e-05,
      "loss": 0.0,
      "step": 1020
    },
    {
      "epoch": 85.0,
      "eval_loss": 1.4212477207183838,
      "eval_runtime": 1.0006,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 1020
    },
    {
      "epoch": 85.08333333333333,
      "grad_norm": 0.0003051479870919138,
      "learning_rate": 7.978142577903086e-05,
      "loss": 0.0,
      "step": 1021
    },
    {
      "epoch": 85.16666666666667,
      "grad_norm": 0.00024096165725495666,
      "learning_rate": 7.960957376958774e-05,
      "loss": 0.0,
      "step": 1022
    },
    {
      "epoch": 85.25,
      "grad_norm": 0.00030006797169335186,
      "learning_rate": 7.943778456885493e-05,
      "loss": 0.0,
      "step": 1023
    },
    {
      "epoch": 85.25,
      "eval_loss": 1.5060381889343262,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 1023
    },
    {
      "epoch": 85.33333333333333,
      "grad_norm": 0.0003224461106583476,
      "learning_rate": 7.926605870599542e-05,
      "loss": 0.0,
      "step": 1024
    },
    {
      "epoch": 85.41666666666667,
      "grad_norm": 0.00020146476163063198,
      "learning_rate": 7.909439670997706e-05,
      "loss": 0.0,
      "step": 1025
    },
    {
      "epoch": 85.5,
      "grad_norm": 0.00022257489035837352,
      "learning_rate": 7.892279910957101e-05,
      "loss": 0.0,
      "step": 1026
    },
    {
      "epoch": 85.5,
      "eval_loss": 1.437567949295044,
      "eval_runtime": 1.0051,
      "eval_samples_per_second": 4.974,
      "eval_steps_per_second": 2.985,
      "step": 1026
    },
    {
      "epoch": 85.58333333333333,
      "grad_norm": 0.00020735696307383478,
      "learning_rate": 7.875126643334993e-05,
      "loss": 0.0,
      "step": 1027
    },
    {
      "epoch": 85.66666666666667,
      "grad_norm": 0.00021031254436820745,
      "learning_rate": 7.857979920968669e-05,
      "loss": 0.0,
      "step": 1028
    },
    {
      "epoch": 85.75,
      "grad_norm": 0.00025690410984680057,
      "learning_rate": 7.840839796675243e-05,
      "loss": 0.0,
      "step": 1029
    },
    {
      "epoch": 85.75,
      "eval_loss": 1.4230802059173584,
      "eval_runtime": 1.0062,
      "eval_samples_per_second": 4.969,
      "eval_steps_per_second": 2.981,
      "step": 1029
    },
    {
      "epoch": 85.83333333333333,
      "grad_norm": 0.00026216261903755367,
      "learning_rate": 7.823706323251512e-05,
      "loss": 0.0,
      "step": 1030
    },
    {
      "epoch": 85.91666666666667,
      "grad_norm": 0.0002810196310747415,
      "learning_rate": 7.806579553473771e-05,
      "loss": 0.0,
      "step": 1031
    },
    {
      "epoch": 86.0,
      "grad_norm": 0.0002383170649409294,
      "learning_rate": 7.789459540097685e-05,
      "loss": 0.0,
      "step": 1032
    },
    {
      "epoch": 86.0,
      "eval_loss": 1.5246973037719727,
      "eval_runtime": 1.0006,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 1032
    },
    {
      "epoch": 86.08333333333333,
      "grad_norm": 0.00023842025257181376,
      "learning_rate": 7.772346335858096e-05,
      "loss": 0.0,
      "step": 1033
    },
    {
      "epoch": 86.16666666666667,
      "grad_norm": 0.00018891178478952497,
      "learning_rate": 7.755239993468877e-05,
      "loss": 0.0,
      "step": 1034
    },
    {
      "epoch": 86.25,
      "grad_norm": 0.000348048226442188,
      "learning_rate": 7.738140565622757e-05,
      "loss": 0.0,
      "step": 1035
    },
    {
      "epoch": 86.25,
      "eval_loss": 1.480502724647522,
      "eval_runtime": 1.0006,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 1035
    },
    {
      "epoch": 86.33333333333333,
      "grad_norm": 0.00025640614330768585,
      "learning_rate": 7.721048104991175e-05,
      "loss": 0.0,
      "step": 1036
    },
    {
      "epoch": 86.41666666666667,
      "grad_norm": 0.0002662336337380111,
      "learning_rate": 7.703962664224103e-05,
      "loss": 0.0,
      "step": 1037
    },
    {
      "epoch": 86.5,
      "grad_norm": 0.0002891246404033154,
      "learning_rate": 7.686884295949898e-05,
      "loss": 0.0,
      "step": 1038
    },
    {
      "epoch": 86.5,
      "eval_loss": 1.409185528755188,
      "eval_runtime": 0.9996,
      "eval_samples_per_second": 5.002,
      "eval_steps_per_second": 3.001,
      "step": 1038
    },
    {
      "epoch": 86.58333333333333,
      "grad_norm": 0.0002950481721200049,
      "learning_rate": 7.669813052775114e-05,
      "loss": 0.0,
      "step": 1039
    },
    {
      "epoch": 86.66666666666667,
      "grad_norm": 0.0002526827738620341,
      "learning_rate": 7.652748987284375e-05,
      "loss": 0.0,
      "step": 1040
    },
    {
      "epoch": 86.75,
      "grad_norm": 0.00023342177155427635,
      "learning_rate": 7.635692152040188e-05,
      "loss": 0.0,
      "step": 1041
    },
    {
      "epoch": 86.75,
      "eval_loss": 1.5084673166275024,
      "eval_runtime": 0.9998,
      "eval_samples_per_second": 5.001,
      "eval_steps_per_second": 3.001,
      "step": 1041
    },
    {
      "epoch": 86.83333333333333,
      "grad_norm": 0.00022585713304579258,
      "learning_rate": 7.618642599582792e-05,
      "loss": 0.0,
      "step": 1042
    },
    {
      "epoch": 86.91666666666667,
      "grad_norm": 0.0001961430680239573,
      "learning_rate": 7.601600382429988e-05,
      "loss": 0.0,
      "step": 1043
    },
    {
      "epoch": 87.0,
      "grad_norm": 0.0001811195252230391,
      "learning_rate": 7.584565553076986e-05,
      "loss": 0.0,
      "step": 1044
    },
    {
      "epoch": 87.0,
      "eval_loss": 1.4511171579360962,
      "eval_runtime": 1.0005,
      "eval_samples_per_second": 4.998,
      "eval_steps_per_second": 2.999,
      "step": 1044
    },
    {
      "epoch": 87.08333333333333,
      "grad_norm": 0.00022629993327427655,
      "learning_rate": 7.567538163996237e-05,
      "loss": 0.0,
      "step": 1045
    },
    {
      "epoch": 87.16666666666667,
      "grad_norm": 0.0002672037517186254,
      "learning_rate": 7.550518267637281e-05,
      "loss": 0.0,
      "step": 1046
    },
    {
      "epoch": 87.25,
      "grad_norm": 0.0002466703299432993,
      "learning_rate": 7.53350591642656e-05,
      "loss": 0.0,
      "step": 1047
    },
    {
      "epoch": 87.25,
      "eval_loss": 1.388279676437378,
      "eval_runtime": 0.9992,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 1047
    },
    {
      "epoch": 87.33333333333333,
      "grad_norm": 0.0003169339324813336,
      "learning_rate": 7.516501162767295e-05,
      "loss": 0.0,
      "step": 1048
    },
    {
      "epoch": 87.41666666666667,
      "grad_norm": 0.00030168192461133003,
      "learning_rate": 7.499504059039294e-05,
      "loss": 0.0,
      "step": 1049
    },
    {
      "epoch": 87.5,
      "grad_norm": 0.0002949679037556052,
      "learning_rate": 7.482514657598799e-05,
      "loss": 0.0,
      "step": 1050
    },
    {
      "epoch": 87.5,
      "eval_loss": 1.415101408958435,
      "eval_runtime": 0.9993,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.002,
      "step": 1050
    },
    {
      "epoch": 87.58333333333333,
      "grad_norm": 0.00020117350504733622,
      "learning_rate": 7.46553301077834e-05,
      "loss": 0.0,
      "step": 1051
    },
    {
      "epoch": 87.66666666666667,
      "grad_norm": 0.00024157250300049782,
      "learning_rate": 7.448559170886542e-05,
      "loss": 0.0,
      "step": 1052
    },
    {
      "epoch": 87.75,
      "grad_norm": 0.0002407837164355442,
      "learning_rate": 7.431593190207991e-05,
      "loss": 0.0,
      "step": 1053
    },
    {
      "epoch": 87.75,
      "eval_loss": 1.4452086687088013,
      "eval_runtime": 0.996,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 1053
    },
    {
      "epoch": 87.83333333333333,
      "grad_norm": 0.00019445685029495507,
      "learning_rate": 7.414635121003068e-05,
      "loss": 0.0,
      "step": 1054
    },
    {
      "epoch": 87.91666666666667,
      "grad_norm": 0.00023202608281280845,
      "learning_rate": 7.39768501550778e-05,
      "loss": 0.0,
      "step": 1055
    },
    {
      "epoch": 88.0,
      "grad_norm": 0.00028460295288823545,
      "learning_rate": 7.380742925933601e-05,
      "loss": 0.0,
      "step": 1056
    },
    {
      "epoch": 88.0,
      "eval_loss": 1.4522056579589844,
      "eval_runtime": 1.0004,
      "eval_samples_per_second": 4.998,
      "eval_steps_per_second": 2.999,
      "step": 1056
    },
    {
      "epoch": 88.08333333333333,
      "grad_norm": 0.0002381273079663515,
      "learning_rate": 7.36380890446732e-05,
      "loss": 0.0,
      "step": 1057
    },
    {
      "epoch": 88.16666666666667,
      "grad_norm": 0.000278831081232056,
      "learning_rate": 7.346883003270866e-05,
      "loss": 0.0,
      "step": 1058
    },
    {
      "epoch": 88.25,
      "grad_norm": 0.00023159862030297518,
      "learning_rate": 7.329965274481167e-05,
      "loss": 0.0,
      "step": 1059
    },
    {
      "epoch": 88.25,
      "eval_loss": 1.3893871307373047,
      "eval_runtime": 0.9971,
      "eval_samples_per_second": 5.015,
      "eval_steps_per_second": 3.009,
      "step": 1059
    },
    {
      "epoch": 88.33333333333333,
      "grad_norm": 0.00022889606771059334,
      "learning_rate": 7.31305577020996e-05,
      "loss": 0.0,
      "step": 1060
    },
    {
      "epoch": 88.41666666666667,
      "grad_norm": 0.00021206607925705612,
      "learning_rate": 7.296154542543661e-05,
      "loss": 0.0,
      "step": 1061
    },
    {
      "epoch": 88.5,
      "grad_norm": 0.00022070709383115172,
      "learning_rate": 7.279261643543189e-05,
      "loss": 0.0,
      "step": 1062
    },
    {
      "epoch": 88.5,
      "eval_loss": 1.4932341575622559,
      "eval_runtime": 0.9981,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.006,
      "step": 1062
    },
    {
      "epoch": 88.58333333333333,
      "grad_norm": 0.00017709661915432662,
      "learning_rate": 7.26237712524381e-05,
      "loss": 0.0,
      "step": 1063
    },
    {
      "epoch": 88.66666666666667,
      "grad_norm": 0.0002516576205380261,
      "learning_rate": 7.245501039654968e-05,
      "loss": 0.0,
      "step": 1064
    },
    {
      "epoch": 88.75,
      "grad_norm": 0.00030866669840179384,
      "learning_rate": 7.228633438760137e-05,
      "loss": 0.0,
      "step": 1065
    },
    {
      "epoch": 88.75,
      "eval_loss": 1.4500409364700317,
      "eval_runtime": 0.996,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 1065
    },
    {
      "epoch": 88.83333333333333,
      "grad_norm": 0.00022921084018889815,
      "learning_rate": 7.211774374516658e-05,
      "loss": 0.0,
      "step": 1066
    },
    {
      "epoch": 88.91666666666667,
      "grad_norm": 0.0002542839210946113,
      "learning_rate": 7.194923898855572e-05,
      "loss": 0.0,
      "step": 1067
    },
    {
      "epoch": 89.0,
      "grad_norm": 0.00021664109954144806,
      "learning_rate": 7.17808206368146e-05,
      "loss": 0.0,
      "step": 1068
    },
    {
      "epoch": 89.0,
      "eval_loss": 1.4473364353179932,
      "eval_runtime": 0.9991,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 3.003,
      "step": 1068
    },
    {
      "epoch": 89.08333333333333,
      "grad_norm": 0.00015698029892519116,
      "learning_rate": 7.161248920872299e-05,
      "loss": 0.0,
      "step": 1069
    },
    {
      "epoch": 89.16666666666667,
      "grad_norm": 0.0002733393048401922,
      "learning_rate": 7.144424522279283e-05,
      "loss": 0.0,
      "step": 1070
    },
    {
      "epoch": 89.25,
      "grad_norm": 0.0002544651797506958,
      "learning_rate": 7.127608919726676e-05,
      "loss": 0.0,
      "step": 1071
    },
    {
      "epoch": 89.25,
      "eval_loss": 1.4325125217437744,
      "eval_runtime": 0.9961,
      "eval_samples_per_second": 5.02,
      "eval_steps_per_second": 3.012,
      "step": 1071
    },
    {
      "epoch": 89.33333333333333,
      "grad_norm": 0.00025444559287279844,
      "learning_rate": 7.11080216501164e-05,
      "loss": 0.0,
      "step": 1072
    },
    {
      "epoch": 89.41666666666667,
      "grad_norm": 0.00020939962996635586,
      "learning_rate": 7.094004309904092e-05,
      "loss": 0.0,
      "step": 1073
    },
    {
      "epoch": 89.5,
      "grad_norm": 0.00026260720915161073,
      "learning_rate": 7.07721540614653e-05,
      "loss": 0.0,
      "step": 1074
    },
    {
      "epoch": 89.5,
      "eval_loss": 1.4599727392196655,
      "eval_runtime": 1.0033,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.99,
      "step": 1074
    },
    {
      "epoch": 89.58333333333333,
      "grad_norm": 0.0002521233109291643,
      "learning_rate": 7.060435505453883e-05,
      "loss": 0.0,
      "step": 1075
    },
    {
      "epoch": 89.66666666666667,
      "grad_norm": 0.00020737314480356872,
      "learning_rate": 7.04366465951334e-05,
      "loss": 0.0,
      "step": 1076
    },
    {
      "epoch": 89.75,
      "grad_norm": 0.0002816755441017449,
      "learning_rate": 7.026902919984206e-05,
      "loss": 0.0,
      "step": 1077
    },
    {
      "epoch": 89.75,
      "eval_loss": 1.464735746383667,
      "eval_runtime": 1.0032,
      "eval_samples_per_second": 4.984,
      "eval_steps_per_second": 2.99,
      "step": 1077
    },
    {
      "epoch": 89.83333333333333,
      "grad_norm": 0.00026479188818484545,
      "learning_rate": 7.010150338497735e-05,
      "loss": 0.0,
      "step": 1078
    },
    {
      "epoch": 89.91666666666667,
      "grad_norm": 0.00019316270481795073,
      "learning_rate": 6.993406966656973e-05,
      "loss": 0.0,
      "step": 1079
    },
    {
      "epoch": 90.0,
      "grad_norm": 0.00026588328182697296,
      "learning_rate": 6.976672856036585e-05,
      "loss": 0.0,
      "step": 1080
    },
    {
      "epoch": 90.0,
      "eval_loss": 1.4232285022735596,
      "eval_runtime": 1.0016,
      "eval_samples_per_second": 4.992,
      "eval_steps_per_second": 2.995,
      "step": 1080
    },
    {
      "epoch": 90.08333333333333,
      "grad_norm": 0.00018872418149840087,
      "learning_rate": 6.959948058182725e-05,
      "loss": 0.0,
      "step": 1081
    },
    {
      "epoch": 90.16666666666667,
      "grad_norm": 0.0002588490897323936,
      "learning_rate": 6.943232624612851e-05,
      "loss": 0.0,
      "step": 1082
    },
    {
      "epoch": 90.25,
      "grad_norm": 0.00026733879349194467,
      "learning_rate": 6.926526606815582e-05,
      "loss": 0.0,
      "step": 1083
    },
    {
      "epoch": 90.25,
      "eval_loss": 1.5282210111618042,
      "eval_runtime": 1.0033,
      "eval_samples_per_second": 4.983,
      "eval_steps_per_second": 2.99,
      "step": 1083
    },
    {
      "epoch": 90.33333333333333,
      "grad_norm": 0.00024882753496058285,
      "learning_rate": 6.909830056250527e-05,
      "loss": 0.0,
      "step": 1084
    },
    {
      "epoch": 90.41666666666667,
      "grad_norm": 0.00024459391715936363,
      "learning_rate": 6.893143024348137e-05,
      "loss": 0.0,
      "step": 1085
    },
    {
      "epoch": 90.5,
      "grad_norm": 0.0002499421825632453,
      "learning_rate": 6.876465562509544e-05,
      "loss": 0.0,
      "step": 1086
    },
    {
      "epoch": 90.5,
      "eval_loss": 1.4016743898391724,
      "eval_runtime": 1.015,
      "eval_samples_per_second": 4.926,
      "eval_steps_per_second": 2.956,
      "step": 1086
    },
    {
      "epoch": 90.58333333333333,
      "grad_norm": 0.00018500933947507292,
      "learning_rate": 6.859797722106402e-05,
      "loss": 0.0,
      "step": 1087
    },
    {
      "epoch": 90.66666666666667,
      "grad_norm": 0.00027746905107051134,
      "learning_rate": 6.84313955448072e-05,
      "loss": 0.0,
      "step": 1088
    },
    {
      "epoch": 90.75,
      "grad_norm": 0.0002307044924236834,
      "learning_rate": 6.826491110944717e-05,
      "loss": 0.0,
      "step": 1089
    },
    {
      "epoch": 90.75,
      "eval_loss": 1.4612730741500854,
      "eval_runtime": 1.0196,
      "eval_samples_per_second": 4.904,
      "eval_steps_per_second": 2.942,
      "step": 1089
    },
    {
      "epoch": 90.83333333333333,
      "grad_norm": 0.0002718761970754713,
      "learning_rate": 6.809852442780664e-05,
      "loss": 0.0,
      "step": 1090
    },
    {
      "epoch": 90.91666666666667,
      "grad_norm": 0.00020154645608272403,
      "learning_rate": 6.793223601240714e-05,
      "loss": 0.0,
      "step": 1091
    },
    {
      "epoch": 91.0,
      "grad_norm": 0.00027568713994696736,
      "learning_rate": 6.776604637546753e-05,
      "loss": 0.0,
      "step": 1092
    },
    {
      "epoch": 91.0,
      "eval_loss": 1.459275484085083,
      "eval_runtime": 1.0105,
      "eval_samples_per_second": 4.948,
      "eval_steps_per_second": 2.969,
      "step": 1092
    },
    {
      "epoch": 91.08333333333333,
      "grad_norm": 0.00025683880085125566,
      "learning_rate": 6.759995602890241e-05,
      "loss": 0.0,
      "step": 1093
    },
    {
      "epoch": 91.16666666666667,
      "grad_norm": 0.00020025591948069632,
      "learning_rate": 6.743396548432052e-05,
      "loss": 0.0,
      "step": 1094
    },
    {
      "epoch": 91.25,
      "grad_norm": 0.00024833643692545593,
      "learning_rate": 6.72680752530232e-05,
      "loss": 0.0,
      "step": 1095
    },
    {
      "epoch": 91.25,
      "eval_loss": 1.5110981464385986,
      "eval_runtime": 1.0239,
      "eval_samples_per_second": 4.883,
      "eval_steps_per_second": 2.93,
      "step": 1095
    },
    {
      "epoch": 91.33333333333333,
      "grad_norm": 0.0002284595393575728,
      "learning_rate": 6.710228584600281e-05,
      "loss": 0.0,
      "step": 1096
    },
    {
      "epoch": 91.41666666666667,
      "grad_norm": 0.00024574616691097617,
      "learning_rate": 6.693659777394106e-05,
      "loss": 0.0,
      "step": 1097
    },
    {
      "epoch": 91.5,
      "grad_norm": 0.00016971542208921164,
      "learning_rate": 6.677101154720755e-05,
      "loss": 0.0,
      "step": 1098
    },
    {
      "epoch": 91.5,
      "eval_loss": 1.4669500589370728,
      "eval_runtime": 1.0028,
      "eval_samples_per_second": 4.986,
      "eval_steps_per_second": 2.992,
      "step": 1098
    },
    {
      "epoch": 91.58333333333333,
      "grad_norm": 0.00024411121557932347,
      "learning_rate": 6.660552767585827e-05,
      "loss": 0.0,
      "step": 1099
    },
    {
      "epoch": 91.66666666666667,
      "grad_norm": 0.00021187023958191276,
      "learning_rate": 6.644014666963386e-05,
      "loss": 0.0,
      "step": 1100
    },
    {
      "epoch": 91.75,
      "grad_norm": 0.0002737513859756291,
      "learning_rate": 6.627486903795797e-05,
      "loss": 0.0,
      "step": 1101
    },
    {
      "epoch": 91.75,
      "eval_loss": 1.4107139110565186,
      "eval_runtime": 1.0046,
      "eval_samples_per_second": 4.977,
      "eval_steps_per_second": 2.986,
      "step": 1101
    },
    {
      "epoch": 91.83333333333333,
      "grad_norm": 0.00026798524777404964,
      "learning_rate": 6.6109695289936e-05,
      "loss": 0.0,
      "step": 1102
    },
    {
      "epoch": 91.91666666666667,
      "grad_norm": 0.00023803104704711586,
      "learning_rate": 6.59446259343533e-05,
      "loss": 0.0,
      "step": 1103
    },
    {
      "epoch": 92.0,
      "grad_norm": 0.00030428211903199553,
      "learning_rate": 6.577966147967368e-05,
      "loss": 0.0,
      "step": 1104
    },
    {
      "epoch": 92.0,
      "eval_loss": 1.4218857288360596,
      "eval_runtime": 1.0058,
      "eval_samples_per_second": 4.971,
      "eval_steps_per_second": 2.983,
      "step": 1104
    },
    {
      "epoch": 92.08333333333333,
      "grad_norm": 0.0002440172538626939,
      "learning_rate": 6.561480243403775e-05,
      "loss": 0.0,
      "step": 1105
    },
    {
      "epoch": 92.16666666666667,
      "grad_norm": 0.0002066042070509866,
      "learning_rate": 6.545004930526151e-05,
      "loss": 0.0,
      "step": 1106
    },
    {
      "epoch": 92.25,
      "grad_norm": 0.0002770608989521861,
      "learning_rate": 6.528540260083468e-05,
      "loss": 0.0,
      "step": 1107
    },
    {
      "epoch": 92.25,
      "eval_loss": 1.4512710571289062,
      "eval_runtime": 1.0045,
      "eval_samples_per_second": 4.977,
      "eval_steps_per_second": 2.986,
      "step": 1107
    },
    {
      "epoch": 92.33333333333333,
      "grad_norm": 0.0002331348805455491,
      "learning_rate": 6.512086282791917e-05,
      "loss": 0.0,
      "step": 1108
    },
    {
      "epoch": 92.41666666666667,
      "grad_norm": 0.00018374972569290549,
      "learning_rate": 6.495643049334741e-05,
      "loss": 0.0,
      "step": 1109
    },
    {
      "epoch": 92.5,
      "grad_norm": 0.000287120376015082,
      "learning_rate": 6.479210610362103e-05,
      "loss": 0.0,
      "step": 1110
    },
    {
      "epoch": 92.5,
      "eval_loss": 1.447845458984375,
      "eval_runtime": 1.0034,
      "eval_samples_per_second": 4.983,
      "eval_steps_per_second": 2.99,
      "step": 1110
    },
    {
      "epoch": 92.58333333333333,
      "grad_norm": 0.000193671730812639,
      "learning_rate": 6.462789016490909e-05,
      "loss": 0.0,
      "step": 1111
    },
    {
      "epoch": 92.66666666666667,
      "grad_norm": 0.00032020837534219027,
      "learning_rate": 6.446378318304661e-05,
      "loss": 0.0,
      "step": 1112
    },
    {
      "epoch": 92.75,
      "grad_norm": 0.00031950726406648755,
      "learning_rate": 6.429978566353295e-05,
      "loss": 0.0,
      "step": 1113
    },
    {
      "epoch": 92.75,
      "eval_loss": 1.460961937904358,
      "eval_runtime": 1.0026,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 1113
    },
    {
      "epoch": 92.83333333333333,
      "grad_norm": 0.00018058237037621439,
      "learning_rate": 6.413589811153029e-05,
      "loss": 0.0,
      "step": 1114
    },
    {
      "epoch": 92.91666666666667,
      "grad_norm": 0.0001791013783076778,
      "learning_rate": 6.397212103186215e-05,
      "loss": 0.0,
      "step": 1115
    },
    {
      "epoch": 93.0,
      "grad_norm": 0.00030095313559286296,
      "learning_rate": 6.380845492901172e-05,
      "loss": 0.0,
      "step": 1116
    },
    {
      "epoch": 93.0,
      "eval_loss": 1.4842355251312256,
      "eval_runtime": 1.005,
      "eval_samples_per_second": 4.975,
      "eval_steps_per_second": 2.985,
      "step": 1116
    },
    {
      "epoch": 93.08333333333333,
      "grad_norm": 0.00024829787435010076,
      "learning_rate": 6.36449003071203e-05,
      "loss": 0.0,
      "step": 1117
    },
    {
      "epoch": 93.16666666666667,
      "grad_norm": 0.00018106529023498297,
      "learning_rate": 6.348145766998584e-05,
      "loss": 0.0,
      "step": 1118
    },
    {
      "epoch": 93.25,
      "grad_norm": 0.00020544248400256038,
      "learning_rate": 6.331812752106136e-05,
      "loss": 0.0,
      "step": 1119
    },
    {
      "epoch": 93.25,
      "eval_loss": 1.4442026615142822,
      "eval_runtime": 1.0041,
      "eval_samples_per_second": 4.98,
      "eval_steps_per_second": 2.988,
      "step": 1119
    },
    {
      "epoch": 93.33333333333333,
      "grad_norm": 0.00019194027117919177,
      "learning_rate": 6.315491036345338e-05,
      "loss": 0.0,
      "step": 1120
    },
    {
      "epoch": 93.41666666666667,
      "grad_norm": 0.0002484790456946939,
      "learning_rate": 6.29918066999203e-05,
      "loss": 0.0,
      "step": 1121
    },
    {
      "epoch": 93.5,
      "grad_norm": 0.00019392886315472424,
      "learning_rate": 6.282881703287102e-05,
      "loss": 0.0,
      "step": 1122
    },
    {
      "epoch": 93.5,
      "eval_loss": 1.446962594985962,
      "eval_runtime": 1.0039,
      "eval_samples_per_second": 4.98,
      "eval_steps_per_second": 2.988,
      "step": 1122
    },
    {
      "epoch": 93.58333333333333,
      "grad_norm": 0.00024261420185212046,
      "learning_rate": 6.266594186436326e-05,
      "loss": 0.0,
      "step": 1123
    },
    {
      "epoch": 93.66666666666667,
      "grad_norm": 0.00023059324303176254,
      "learning_rate": 6.250318169610205e-05,
      "loss": 0.0,
      "step": 1124
    },
    {
      "epoch": 93.75,
      "grad_norm": 0.00022742467990610749,
      "learning_rate": 6.234053702943809e-05,
      "loss": 0.0,
      "step": 1125
    },
    {
      "epoch": 93.75,
      "eval_loss": 1.3777529001235962,
      "eval_runtime": 1.0007,
      "eval_samples_per_second": 4.996,
      "eval_steps_per_second": 2.998,
      "step": 1125
    },
    {
      "epoch": 93.83333333333333,
      "grad_norm": 0.00023679168953094631,
      "learning_rate": 6.217800836536649e-05,
      "loss": 0.0,
      "step": 1126
    },
    {
      "epoch": 93.91666666666667,
      "grad_norm": 0.00020631066581699997,
      "learning_rate": 6.20155962045249e-05,
      "loss": 0.0,
      "step": 1127
    },
    {
      "epoch": 94.0,
      "grad_norm": 0.00031968922121450305,
      "learning_rate": 6.185330104719219e-05,
      "loss": 0.0,
      "step": 1128
    },
    {
      "epoch": 94.0,
      "eval_loss": 1.4803357124328613,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 1128
    },
    {
      "epoch": 94.08333333333333,
      "grad_norm": 0.0003002771409228444,
      "learning_rate": 6.169112339328667e-05,
      "loss": 0.0,
      "step": 1129
    },
    {
      "epoch": 94.16666666666667,
      "grad_norm": 0.00019873693236149848,
      "learning_rate": 6.152906374236485e-05,
      "loss": 0.0,
      "step": 1130
    },
    {
      "epoch": 94.25,
      "grad_norm": 0.0002202183095505461,
      "learning_rate": 6.136712259361973e-05,
      "loss": 0.0,
      "step": 1131
    },
    {
      "epoch": 94.25,
      "eval_loss": 1.4455475807189941,
      "eval_runtime": 1.0045,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 1131
    },
    {
      "epoch": 94.33333333333333,
      "grad_norm": 0.00024485719040967524,
      "learning_rate": 6.120530044587928e-05,
      "loss": 0.0,
      "step": 1132
    },
    {
      "epoch": 94.41666666666667,
      "grad_norm": 0.0002436758513795212,
      "learning_rate": 6.104359779760487e-05,
      "loss": 0.0,
      "step": 1133
    },
    {
      "epoch": 94.5,
      "grad_norm": 0.00028675541398115456,
      "learning_rate": 6.08820151468898e-05,
      "loss": 0.0,
      "step": 1134
    },
    {
      "epoch": 94.5,
      "eval_loss": 1.4611090421676636,
      "eval_runtime": 1.0041,
      "eval_samples_per_second": 4.98,
      "eval_steps_per_second": 2.988,
      "step": 1134
    },
    {
      "epoch": 94.58333333333333,
      "grad_norm": 0.00019664719002321362,
      "learning_rate": 6.072055299145778e-05,
      "loss": 0.0,
      "step": 1135
    },
    {
      "epoch": 94.66666666666667,
      "grad_norm": 0.0001966721029020846,
      "learning_rate": 6.0559211828661336e-05,
      "loss": 0.0,
      "step": 1136
    },
    {
      "epoch": 94.75,
      "grad_norm": 0.00019340228755027056,
      "learning_rate": 6.039799215548022e-05,
      "loss": 0.0,
      "step": 1137
    },
    {
      "epoch": 94.75,
      "eval_loss": 1.4391952753067017,
      "eval_runtime": 1.0026,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 1137
    },
    {
      "epoch": 94.83333333333333,
      "grad_norm": 0.00019208670710213482,
      "learning_rate": 6.0236894468520076e-05,
      "loss": 0.0,
      "step": 1138
    },
    {
      "epoch": 94.91666666666667,
      "grad_norm": 0.0002574543468654156,
      "learning_rate": 6.007591926401073e-05,
      "loss": 0.0,
      "step": 1139
    },
    {
      "epoch": 95.0,
      "grad_norm": 0.0002195675187977031,
      "learning_rate": 5.991506703780475e-05,
      "loss": 0.0,
      "step": 1140
    },
    {
      "epoch": 95.0,
      "eval_loss": 1.48798668384552,
      "eval_runtime": 1.0038,
      "eval_samples_per_second": 4.981,
      "eval_steps_per_second": 2.989,
      "step": 1140
    },
    {
      "epoch": 95.08333333333333,
      "grad_norm": 0.0002706572995521128,
      "learning_rate": 5.9754338285375865e-05,
      "loss": 0.0,
      "step": 1141
    },
    {
      "epoch": 95.16666666666667,
      "grad_norm": 0.00023635175602976233,
      "learning_rate": 5.9593733501817496e-05,
      "loss": 0.0,
      "step": 1142
    },
    {
      "epoch": 95.25,
      "grad_norm": 0.0002643614134285599,
      "learning_rate": 5.94332531818412e-05,
      "loss": 0.0,
      "step": 1143
    },
    {
      "epoch": 95.25,
      "eval_loss": 1.449108600616455,
      "eval_runtime": 1.0057,
      "eval_samples_per_second": 4.972,
      "eval_steps_per_second": 2.983,
      "step": 1143
    },
    {
      "epoch": 95.33333333333333,
      "grad_norm": 0.00025834087864495814,
      "learning_rate": 5.927289781977512e-05,
      "loss": 0.0,
      "step": 1144
    },
    {
      "epoch": 95.41666666666667,
      "grad_norm": 0.00020736391888931394,
      "learning_rate": 5.9112667909562583e-05,
      "loss": 0.0,
      "step": 1145
    },
    {
      "epoch": 95.5,
      "grad_norm": 0.0002043943095486611,
      "learning_rate": 5.8952563944760296e-05,
      "loss": 0.0,
      "step": 1146
    },
    {
      "epoch": 95.5,
      "eval_loss": 1.4321585893630981,
      "eval_runtime": 1.0034,
      "eval_samples_per_second": 4.983,
      "eval_steps_per_second": 2.99,
      "step": 1146
    },
    {
      "epoch": 95.58333333333333,
      "grad_norm": 0.00025347102200612426,
      "learning_rate": 5.8792586418537165e-05,
      "loss": 0.0,
      "step": 1147
    },
    {
      "epoch": 95.66666666666667,
      "grad_norm": 0.00023919230443425477,
      "learning_rate": 5.863273582367265e-05,
      "loss": 0.0,
      "step": 1148
    },
    {
      "epoch": 95.75,
      "grad_norm": 0.0001826270017772913,
      "learning_rate": 5.847301265255517e-05,
      "loss": 0.0,
      "step": 1149
    },
    {
      "epoch": 95.75,
      "eval_loss": 1.4256231784820557,
      "eval_runtime": 1.004,
      "eval_samples_per_second": 4.98,
      "eval_steps_per_second": 2.988,
      "step": 1149
    },
    {
      "epoch": 95.83333333333333,
      "grad_norm": 0.0001947107957676053,
      "learning_rate": 5.831341739718055e-05,
      "loss": 0.0,
      "step": 1150
    },
    {
      "epoch": 95.91666666666667,
      "grad_norm": 0.00024130598467309028,
      "learning_rate": 5.815395054915077e-05,
      "loss": 0.0,
      "step": 1151
    },
    {
      "epoch": 96.0,
      "grad_norm": 0.00019108588458038867,
      "learning_rate": 5.799461259967216e-05,
      "loss": 0.0,
      "step": 1152
    },
    {
      "epoch": 96.0,
      "eval_loss": 1.4274420738220215,
      "eval_runtime": 1.0037,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 1152
    },
    {
      "epoch": 96.08333333333333,
      "grad_norm": 0.00024326781567651778,
      "learning_rate": 5.783540403955408e-05,
      "loss": 0.0,
      "step": 1153
    },
    {
      "epoch": 96.16666666666667,
      "grad_norm": 0.00023867524578236043,
      "learning_rate": 5.7676325359207195e-05,
      "loss": 0.0,
      "step": 1154
    },
    {
      "epoch": 96.25,
      "grad_norm": 0.00019874142890330404,
      "learning_rate": 5.751737704864224e-05,
      "loss": 0.0,
      "step": 1155
    },
    {
      "epoch": 96.25,
      "eval_loss": 1.4606952667236328,
      "eval_runtime": 1.0007,
      "eval_samples_per_second": 4.996,
      "eval_steps_per_second": 2.998,
      "step": 1155
    },
    {
      "epoch": 96.33333333333333,
      "grad_norm": 0.00024086519260890782,
      "learning_rate": 5.735855959746832e-05,
      "loss": 0.0,
      "step": 1156
    },
    {
      "epoch": 96.41666666666667,
      "grad_norm": 0.00022691629419568926,
      "learning_rate": 5.719987349489151e-05,
      "loss": 0.0,
      "step": 1157
    },
    {
      "epoch": 96.5,
      "grad_norm": 0.0002249542303616181,
      "learning_rate": 5.704131922971313e-05,
      "loss": 0.0,
      "step": 1158
    },
    {
      "epoch": 96.5,
      "eval_loss": 1.4671298265457153,
      "eval_runtime": 1.0073,
      "eval_samples_per_second": 4.964,
      "eval_steps_per_second": 2.978,
      "step": 1158
    },
    {
      "epoch": 96.58333333333333,
      "grad_norm": 0.0001906486286316067,
      "learning_rate": 5.6882897290328575e-05,
      "loss": 0.0,
      "step": 1159
    },
    {
      "epoch": 96.66666666666667,
      "grad_norm": 0.0002388394350418821,
      "learning_rate": 5.672460816472556e-05,
      "loss": 0.0,
      "step": 1160
    },
    {
      "epoch": 96.75,
      "grad_norm": 0.00027764347032643855,
      "learning_rate": 5.6566452340482745e-05,
      "loss": 0.0,
      "step": 1161
    },
    {
      "epoch": 96.75,
      "eval_loss": 1.4485013484954834,
      "eval_runtime": 1.004,
      "eval_samples_per_second": 4.98,
      "eval_steps_per_second": 2.988,
      "step": 1161
    },
    {
      "epoch": 96.83333333333333,
      "grad_norm": 0.00016738985141273588,
      "learning_rate": 5.6408430304768054e-05,
      "loss": 0.0,
      "step": 1162
    },
    {
      "epoch": 96.91666666666667,
      "grad_norm": 0.0002571232325863093,
      "learning_rate": 5.625054254433742e-05,
      "loss": 0.0,
      "step": 1163
    },
    {
      "epoch": 97.0,
      "grad_norm": 0.00028068048413842916,
      "learning_rate": 5.609278954553315e-05,
      "loss": 0.0,
      "step": 1164
    },
    {
      "epoch": 97.0,
      "eval_loss": 1.4598639011383057,
      "eval_runtime": 1.0006,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 1164
    },
    {
      "epoch": 97.08333333333333,
      "grad_norm": 0.00032785182702355087,
      "learning_rate": 5.5935171794282426e-05,
      "loss": 0.0,
      "step": 1165
    },
    {
      "epoch": 97.16666666666667,
      "grad_norm": 0.00022783233725931495,
      "learning_rate": 5.577768977609583e-05,
      "loss": 0.0,
      "step": 1166
    },
    {
      "epoch": 97.25,
      "grad_norm": 0.00022039542091079056,
      "learning_rate": 5.5620343976065824e-05,
      "loss": 0.0,
      "step": 1167
    },
    {
      "epoch": 97.25,
      "eval_loss": 1.4547145366668701,
      "eval_runtime": 1.0094,
      "eval_samples_per_second": 4.953,
      "eval_steps_per_second": 2.972,
      "step": 1167
    },
    {
      "epoch": 97.33333333333333,
      "grad_norm": 0.00017101553385145962,
      "learning_rate": 5.546313487886532e-05,
      "loss": 0.0,
      "step": 1168
    },
    {
      "epoch": 97.41666666666667,
      "grad_norm": 0.00017119671974796802,
      "learning_rate": 5.530606296874615e-05,
      "loss": 0.0,
      "step": 1169
    },
    {
      "epoch": 97.5,
      "grad_norm": 0.00024266945547424257,
      "learning_rate": 5.5149128729537457e-05,
      "loss": 0.0,
      "step": 1170
    },
    {
      "epoch": 97.5,
      "eval_loss": 1.4638510942459106,
      "eval_runtime": 1.0059,
      "eval_samples_per_second": 4.971,
      "eval_steps_per_second": 2.982,
      "step": 1170
    },
    {
      "epoch": 97.58333333333333,
      "grad_norm": 0.00015040033031255007,
      "learning_rate": 5.499233264464445e-05,
      "loss": 0.0,
      "step": 1171
    },
    {
      "epoch": 97.66666666666667,
      "grad_norm": 0.00026639882707968354,
      "learning_rate": 5.483567519704671e-05,
      "loss": 0.0,
      "step": 1172
    },
    {
      "epoch": 97.75,
      "grad_norm": 0.00027010549092665315,
      "learning_rate": 5.467915686929683e-05,
      "loss": 0.0,
      "step": 1173
    },
    {
      "epoch": 97.75,
      "eval_loss": 1.4823365211486816,
      "eval_runtime": 1.0036,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 1173
    },
    {
      "epoch": 97.83333333333333,
      "grad_norm": 0.0001897679758258164,
      "learning_rate": 5.452277814351877e-05,
      "loss": 0.0,
      "step": 1174
    },
    {
      "epoch": 97.91666666666667,
      "grad_norm": 0.00023772058193571866,
      "learning_rate": 5.436653950140656e-05,
      "loss": 0.0,
      "step": 1175
    },
    {
      "epoch": 98.0,
      "grad_norm": 0.00028180531808175147,
      "learning_rate": 5.421044142422273e-05,
      "loss": 0.0,
      "step": 1176
    },
    {
      "epoch": 98.0,
      "eval_loss": 1.4166607856750488,
      "eval_runtime": 1.0063,
      "eval_samples_per_second": 4.969,
      "eval_steps_per_second": 2.981,
      "step": 1176
    },
    {
      "epoch": 98.08333333333333,
      "grad_norm": 0.00024311781453434378,
      "learning_rate": 5.405448439279677e-05,
      "loss": 0.0,
      "step": 1177
    },
    {
      "epoch": 98.16666666666667,
      "grad_norm": 0.00018628075486049056,
      "learning_rate": 5.389866888752375e-05,
      "loss": 0.0,
      "step": 1178
    },
    {
      "epoch": 98.25,
      "grad_norm": 0.0002541711728554219,
      "learning_rate": 5.3742995388362794e-05,
      "loss": 0.0,
      "step": 1179
    },
    {
      "epoch": 98.25,
      "eval_loss": 1.4325954914093018,
      "eval_runtime": 1.0049,
      "eval_samples_per_second": 4.976,
      "eval_steps_per_second": 2.985,
      "step": 1179
    },
    {
      "epoch": 98.33333333333333,
      "grad_norm": 0.00021751067833974957,
      "learning_rate": 5.3587464374835596e-05,
      "loss": 0.0,
      "step": 1180
    },
    {
      "epoch": 98.41666666666667,
      "grad_norm": 0.00023783047799952328,
      "learning_rate": 5.3432076326024974e-05,
      "loss": 0.0,
      "step": 1181
    },
    {
      "epoch": 98.5,
      "grad_norm": 0.00018439280393067747,
      "learning_rate": 5.3276831720573276e-05,
      "loss": 0.0,
      "step": 1182
    },
    {
      "epoch": 98.5,
      "eval_loss": 1.4562852382659912,
      "eval_runtime": 1.0043,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 1182
    },
    {
      "epoch": 98.58333333333333,
      "grad_norm": 0.0002231418911833316,
      "learning_rate": 5.312173103668112e-05,
      "loss": 0.0,
      "step": 1183
    },
    {
      "epoch": 98.66666666666667,
      "grad_norm": 0.00024865460000000894,
      "learning_rate": 5.2966774752105766e-05,
      "loss": 0.0,
      "step": 1184
    },
    {
      "epoch": 98.75,
      "grad_norm": 0.0002488872851245105,
      "learning_rate": 5.281196334415968e-05,
      "loss": 0.0,
      "step": 1185
    },
    {
      "epoch": 98.75,
      "eval_loss": 1.4691059589385986,
      "eval_runtime": 1.0034,
      "eval_samples_per_second": 4.983,
      "eval_steps_per_second": 2.99,
      "step": 1185
    },
    {
      "epoch": 98.83333333333333,
      "grad_norm": 0.00023207739286590368,
      "learning_rate": 5.265729728970897e-05,
      "loss": 0.0,
      "step": 1186
    },
    {
      "epoch": 98.91666666666667,
      "grad_norm": 0.00023126830637920648,
      "learning_rate": 5.250277706517216e-05,
      "loss": 0.0,
      "step": 1187
    },
    {
      "epoch": 99.0,
      "grad_norm": 0.00019555870676413178,
      "learning_rate": 5.2348403146518495e-05,
      "loss": 0.0,
      "step": 1188
    },
    {
      "epoch": 99.0,
      "eval_loss": 1.5034492015838623,
      "eval_runtime": 1.0108,
      "eval_samples_per_second": 4.946,
      "eval_steps_per_second": 2.968,
      "step": 1188
    },
    {
      "epoch": 99.08333333333333,
      "grad_norm": 0.0002736698661465198,
      "learning_rate": 5.219417600926657e-05,
      "loss": 0.0,
      "step": 1189
    },
    {
      "epoch": 99.16666666666667,
      "grad_norm": 0.00020574359223246574,
      "learning_rate": 5.2040096128482876e-05,
      "loss": 0.0,
      "step": 1190
    },
    {
      "epoch": 99.25,
      "grad_norm": 0.0002623428008519113,
      "learning_rate": 5.18861639787802e-05,
      "loss": 0.0,
      "step": 1191
    },
    {
      "epoch": 99.25,
      "eval_loss": 1.4668630361557007,
      "eval_runtime": 1.0045,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 2.987,
      "step": 1191
    },
    {
      "epoch": 99.33333333333333,
      "grad_norm": 0.00021023277076892555,
      "learning_rate": 5.17323800343164e-05,
      "loss": 0.0,
      "step": 1192
    },
    {
      "epoch": 99.41666666666667,
      "grad_norm": 0.00013883040810469538,
      "learning_rate": 5.157874476879274e-05,
      "loss": 0.0,
      "step": 1193
    },
    {
      "epoch": 99.5,
      "grad_norm": 0.000198203488253057,
      "learning_rate": 5.1425258655452555e-05,
      "loss": 0.0,
      "step": 1194
    },
    {
      "epoch": 99.5,
      "eval_loss": 1.4295798540115356,
      "eval_runtime": 1.0042,
      "eval_samples_per_second": 4.979,
      "eval_steps_per_second": 2.988,
      "step": 1194
    },
    {
      "epoch": 99.58333333333333,
      "grad_norm": 0.0002205104974564165,
      "learning_rate": 5.127192216707974e-05,
      "loss": 0.0,
      "step": 1195
    },
    {
      "epoch": 99.66666666666667,
      "grad_norm": 0.0003061663010157645,
      "learning_rate": 5.111873577599726e-05,
      "loss": 0.0,
      "step": 1196
    },
    {
      "epoch": 99.75,
      "grad_norm": 0.0003154272853862494,
      "learning_rate": 5.096569995406576e-05,
      "loss": 0.0,
      "step": 1197
    },
    {
      "epoch": 99.75,
      "eval_loss": 1.4548038244247437,
      "eval_runtime": 1.003,
      "eval_samples_per_second": 4.985,
      "eval_steps_per_second": 2.991,
      "step": 1197
    },
    {
      "epoch": 99.83333333333333,
      "grad_norm": 0.00019170263840351254,
      "learning_rate": 5.081281517268214e-05,
      "loss": 0.0,
      "step": 1198
    },
    {
      "epoch": 99.91666666666667,
      "grad_norm": 0.00022106575488578528,
      "learning_rate": 5.0660081902777915e-05,
      "loss": 0.0,
      "step": 1199
    },
    {
      "epoch": 100.0,
      "grad_norm": 0.0001723959285300225,
      "learning_rate": 5.0507500614817995e-05,
      "loss": 0.0,
      "step": 1200
    },
    {
      "epoch": 100.0,
      "eval_loss": 1.4011321067810059,
      "eval_runtime": 1.0084,
      "eval_samples_per_second": 4.958,
      "eval_steps_per_second": 2.975,
      "step": 1200
    },
    {
      "epoch": 100.08333333333333,
      "grad_norm": 0.0002286540111526847,
      "learning_rate": 5.035507177879915e-05,
      "loss": 0.0,
      "step": 1201
    },
    {
      "epoch": 100.16666666666667,
      "grad_norm": 0.0002677565498743206,
      "learning_rate": 5.020279586424854e-05,
      "loss": 0.0,
      "step": 1202
    },
    {
      "epoch": 100.25,
      "grad_norm": 0.0001506322150817141,
      "learning_rate": 5.005067334022222e-05,
      "loss": 0.0,
      "step": 1203
    },
    {
      "epoch": 100.25,
      "eval_loss": 1.4534714221954346,
      "eval_runtime": 1.0236,
      "eval_samples_per_second": 4.885,
      "eval_steps_per_second": 2.931,
      "step": 1203
    },
    {
      "epoch": 100.33333333333333,
      "grad_norm": 0.00022571059525944293,
      "learning_rate": 4.989870467530381e-05,
      "loss": 0.0,
      "step": 1204
    },
    {
      "epoch": 100.41666666666667,
      "grad_norm": 0.00020459557708818465,
      "learning_rate": 4.9746890337603e-05,
      "loss": 0.0,
      "step": 1205
    },
    {
      "epoch": 100.5,
      "grad_norm": 0.00021097697026561946,
      "learning_rate": 4.95952307947541e-05,
      "loss": 0.0,
      "step": 1206
    },
    {
      "epoch": 100.5,
      "eval_loss": 1.471742868423462,
      "eval_runtime": 1.0208,
      "eval_samples_per_second": 4.898,
      "eval_steps_per_second": 2.939,
      "step": 1206
    },
    {
      "epoch": 100.58333333333333,
      "grad_norm": 0.00016982290253508836,
      "learning_rate": 4.944372651391458e-05,
      "loss": 0.0,
      "step": 1207
    },
    {
      "epoch": 100.66666666666667,
      "grad_norm": 0.00021725571423303336,
      "learning_rate": 4.929237796176369e-05,
      "loss": 0.0,
      "step": 1208
    },
    {
      "epoch": 100.75,
      "grad_norm": 0.00023430021246895194,
      "learning_rate": 4.914118560450096e-05,
      "loss": 0.0,
      "step": 1209
    },
    {
      "epoch": 100.75,
      "eval_loss": 1.4119641780853271,
      "eval_runtime": 1.0202,
      "eval_samples_per_second": 4.901,
      "eval_steps_per_second": 2.94,
      "step": 1209
    },
    {
      "epoch": 100.83333333333333,
      "grad_norm": 0.00022221525432541966,
      "learning_rate": 4.899014990784485e-05,
      "loss": 0.0,
      "step": 1210
    },
    {
      "epoch": 100.91666666666667,
      "grad_norm": 0.00024849589681252837,
      "learning_rate": 4.883927133703114e-05,
      "loss": 0.0,
      "step": 1211
    },
    {
      "epoch": 101.0,
      "grad_norm": 0.00028220232343301177,
      "learning_rate": 4.868855035681171e-05,
      "loss": 0.0,
      "step": 1212
    },
    {
      "epoch": 101.0,
      "eval_loss": 1.4326896667480469,
      "eval_runtime": 1.0007,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 1212
    },
    {
      "epoch": 101.08333333333333,
      "grad_norm": 0.00019575712212827057,
      "learning_rate": 4.8537987431453016e-05,
      "loss": 0.0,
      "step": 1213
    },
    {
      "epoch": 101.16666666666667,
      "grad_norm": 0.00018770224414765835,
      "learning_rate": 4.838758302473463e-05,
      "loss": 0.0,
      "step": 1214
    },
    {
      "epoch": 101.25,
      "grad_norm": 0.0002647640649229288,
      "learning_rate": 4.823733759994779e-05,
      "loss": 0.0,
      "step": 1215
    },
    {
      "epoch": 101.25,
      "eval_loss": 1.4788203239440918,
      "eval_runtime": 1.0025,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 1215
    },
    {
      "epoch": 101.33333333333333,
      "grad_norm": 0.00020825592218898237,
      "learning_rate": 4.808725161989411e-05,
      "loss": 0.0,
      "step": 1216
    },
    {
      "epoch": 101.41666666666667,
      "grad_norm": 0.00020642684830818325,
      "learning_rate": 4.7937325546884025e-05,
      "loss": 0.0,
      "step": 1217
    },
    {
      "epoch": 101.5,
      "grad_norm": 0.00016332407540176064,
      "learning_rate": 4.778755984273544e-05,
      "loss": 0.0,
      "step": 1218
    },
    {
      "epoch": 101.5,
      "eval_loss": 1.4651509523391724,
      "eval_runtime": 1.0035,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 2.989,
      "step": 1218
    },
    {
      "epoch": 101.58333333333333,
      "grad_norm": 0.00022306630853563547,
      "learning_rate": 4.7637954968772156e-05,
      "loss": 0.0,
      "step": 1219
    },
    {
      "epoch": 101.66666666666667,
      "grad_norm": 0.00026711157988756895,
      "learning_rate": 4.748851138582269e-05,
      "loss": 0.0,
      "step": 1220
    },
    {
      "epoch": 101.75,
      "grad_norm": 0.0002108532644342631,
      "learning_rate": 4.733922955421875e-05,
      "loss": 0.0,
      "step": 1221
    },
    {
      "epoch": 101.75,
      "eval_loss": 1.4105592966079712,
      "eval_runtime": 1.0015,
      "eval_samples_per_second": 4.993,
      "eval_steps_per_second": 2.996,
      "step": 1221
    },
    {
      "epoch": 101.83333333333333,
      "grad_norm": 0.00024027009203564376,
      "learning_rate": 4.7190109933793745e-05,
      "loss": 0.0,
      "step": 1222
    },
    {
      "epoch": 101.91666666666667,
      "grad_norm": 0.00022427992371376604,
      "learning_rate": 4.7041152983881374e-05,
      "loss": 0.0,
      "step": 1223
    },
    {
      "epoch": 102.0,
      "grad_norm": 0.0004897748585790396,
      "learning_rate": 4.6892359163314355e-05,
      "loss": 0.0,
      "step": 1224
    },
    {
      "epoch": 102.0,
      "eval_loss": 1.4485690593719482,
      "eval_runtime": 0.9998,
      "eval_samples_per_second": 5.001,
      "eval_steps_per_second": 3.001,
      "step": 1224
    },
    {
      "epoch": 102.08333333333333,
      "grad_norm": 0.00024897768162190914,
      "learning_rate": 4.674372893042287e-05,
      "loss": 0.0,
      "step": 1225
    },
    {
      "epoch": 102.16666666666667,
      "grad_norm": 0.00028172123711556196,
      "learning_rate": 4.659526274303324e-05,
      "loss": 0.0,
      "step": 1226
    },
    {
      "epoch": 102.25,
      "grad_norm": 0.00018349461606703699,
      "learning_rate": 4.64469610584664e-05,
      "loss": 0.0,
      "step": 1227
    },
    {
      "epoch": 102.25,
      "eval_loss": 1.462032675743103,
      "eval_runtime": 1.0022,
      "eval_samples_per_second": 4.989,
      "eval_steps_per_second": 2.993,
      "step": 1227
    },
    {
      "epoch": 102.33333333333333,
      "grad_norm": 0.00019778685236815363,
      "learning_rate": 4.629882433353663e-05,
      "loss": 0.0,
      "step": 1228
    },
    {
      "epoch": 102.41666666666667,
      "grad_norm": 0.00022630409512203187,
      "learning_rate": 4.615085302455007e-05,
      "loss": 0.0,
      "step": 1229
    },
    {
      "epoch": 102.5,
      "grad_norm": 0.00020736124133691192,
      "learning_rate": 4.6003047587303374e-05,
      "loss": 0.0,
      "step": 1230
    },
    {
      "epoch": 102.5,
      "eval_loss": 1.3791264295578003,
      "eval_runtime": 1.0023,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 1230
    },
    {
      "epoch": 102.58333333333333,
      "grad_norm": 0.00022134897881187499,
      "learning_rate": 4.585540847708213e-05,
      "loss": 0.0,
      "step": 1231
    },
    {
      "epoch": 102.66666666666667,
      "grad_norm": 0.00022019477910362184,
      "learning_rate": 4.570793614865971e-05,
      "loss": 0.0,
      "step": 1232
    },
    {
      "epoch": 102.75,
      "grad_norm": 0.0001611655461601913,
      "learning_rate": 4.556063105629571e-05,
      "loss": 0.0,
      "step": 1233
    },
    {
      "epoch": 102.75,
      "eval_loss": 1.4507088661193848,
      "eval_runtime": 1.0016,
      "eval_samples_per_second": 4.992,
      "eval_steps_per_second": 2.995,
      "step": 1233
    },
    {
      "epoch": 102.83333333333333,
      "grad_norm": 0.00022501603234559298,
      "learning_rate": 4.5413493653734596e-05,
      "loss": 0.0,
      "step": 1234
    },
    {
      "epoch": 102.91666666666667,
      "grad_norm": 0.00022102658112999052,
      "learning_rate": 4.5266524394204265e-05,
      "loss": 0.0,
      "step": 1235
    },
    {
      "epoch": 103.0,
      "grad_norm": 0.00021892250515520573,
      "learning_rate": 4.511972373041474e-05,
      "loss": 0.0,
      "step": 1236
    },
    {
      "epoch": 103.0,
      "eval_loss": 1.4665237665176392,
      "eval_runtime": 1.0,
      "eval_samples_per_second": 5.0,
      "eval_steps_per_second": 3.0,
      "step": 1236
    },
    {
      "epoch": 103.08333333333333,
      "grad_norm": 0.00026079147937707603,
      "learning_rate": 4.4973092114556655e-05,
      "loss": 0.0,
      "step": 1237
    },
    {
      "epoch": 103.16666666666667,
      "grad_norm": 0.00030228751711547375,
      "learning_rate": 4.4826629998299975e-05,
      "loss": 0.0,
      "step": 1238
    },
    {
      "epoch": 103.25,
      "grad_norm": 0.00017345401283819228,
      "learning_rate": 4.468033783279256e-05,
      "loss": 0.0,
      "step": 1239
    },
    {
      "epoch": 103.25,
      "eval_loss": 1.5057371854782104,
      "eval_runtime": 1.0007,
      "eval_samples_per_second": 4.997,
      "eval_steps_per_second": 2.998,
      "step": 1239
    },
    {
      "epoch": 103.33333333333333,
      "grad_norm": 0.00019399903248995543,
      "learning_rate": 4.453421606865868e-05,
      "loss": 0.0,
      "step": 1240
    },
    {
      "epoch": 103.41666666666667,
      "grad_norm": 0.000238911306951195,
      "learning_rate": 4.438826515599781e-05,
      "loss": 0.0,
      "step": 1241
    },
    {
      "epoch": 103.5,
      "grad_norm": 0.0002865233982447535,
      "learning_rate": 4.4242485544383116e-05,
      "loss": 0.0,
      "step": 1242
    },
    {
      "epoch": 103.5,
      "eval_loss": 1.4053056240081787,
      "eval_runtime": 1.0017,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 1242
    },
    {
      "epoch": 103.58333333333333,
      "grad_norm": 0.0002658265584614128,
      "learning_rate": 4.409687768286016e-05,
      "loss": 0.0,
      "step": 1243
    },
    {
      "epoch": 103.66666666666667,
      "grad_norm": 0.0002329486742382869,
      "learning_rate": 4.3951442019945345e-05,
      "loss": 0.0,
      "step": 1244
    },
    {
      "epoch": 103.75,
      "grad_norm": 0.00017572776414453983,
      "learning_rate": 4.380617900362473e-05,
      "loss": 0.0,
      "step": 1245
    },
    {
      "epoch": 103.75,
      "eval_loss": 1.5510873794555664,
      "eval_runtime": 0.9999,
      "eval_samples_per_second": 5.001,
      "eval_steps_per_second": 3.0,
      "step": 1245
    },
    {
      "epoch": 103.83333333333333,
      "grad_norm": 0.0002361142251174897,
      "learning_rate": 4.3661089081352566e-05,
      "loss": 0.0,
      "step": 1246
    },
    {
      "epoch": 103.91666666666667,
      "grad_norm": 0.0001952527672983706,
      "learning_rate": 4.351617270004993e-05,
      "loss": 0.0,
      "step": 1247
    },
    {
      "epoch": 104.0,
      "grad_norm": 0.0002132065565092489,
      "learning_rate": 4.337143030610331e-05,
      "loss": 0.0,
      "step": 1248
    },
    {
      "epoch": 104.0,
      "eval_loss": 1.4573650360107422,
      "eval_runtime": 0.9981,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 3.006,
      "step": 1248
    },
    {
      "epoch": 104.08333333333333,
      "grad_norm": 0.0002479370159562677,
      "learning_rate": 4.322686234536327e-05,
      "loss": 0.0,
      "step": 1249
    },
    {
      "epoch": 104.16666666666667,
      "grad_norm": 0.0001850281551014632,
      "learning_rate": 4.3082469263143065e-05,
      "loss": 0.0,
      "step": 1250
    },
    {
      "epoch": 104.25,
      "grad_norm": 0.0002331915748072788,
      "learning_rate": 4.293825150421733e-05,
      "loss": 0.0,
      "step": 1251
    },
    {
      "epoch": 104.25,
      "eval_loss": 1.3636500835418701,
      "eval_runtime": 1.0027,
      "eval_samples_per_second": 4.986,
      "eval_steps_per_second": 2.992,
      "step": 1251
    },
    {
      "epoch": 104.33333333333333,
      "grad_norm": 0.00020355739980004728,
      "learning_rate": 4.2794209512820515e-05,
      "loss": 0.0,
      "step": 1252
    },
    {
      "epoch": 104.41666666666667,
      "grad_norm": 0.00018262909725308418,
      "learning_rate": 4.265034373264576e-05,
      "loss": 0.0,
      "step": 1253
    },
    {
      "epoch": 104.5,
      "grad_norm": 0.00020290736574679613,
      "learning_rate": 4.250665460684341e-05,
      "loss": 0.0,
      "step": 1254
    },
    {
      "epoch": 104.5,
      "eval_loss": 1.4841196537017822,
      "eval_runtime": 1.0024,
      "eval_samples_per_second": 4.988,
      "eval_steps_per_second": 2.993,
      "step": 1254
    },
    {
      "epoch": 104.58333333333333,
      "grad_norm": 0.00018515273404773325,
      "learning_rate": 4.236314257801968e-05,
      "loss": 0.0,
      "step": 1255
    },
    {
      "epoch": 104.66666666666667,
      "grad_norm": 0.00020818575285375118,
      "learning_rate": 4.2219808088235145e-05,
      "loss": 0.0,
      "step": 1256
    },
    {
      "epoch": 104.75,
      "grad_norm": 0.00019322973093949258,
      "learning_rate": 4.2076651579003665e-05,
      "loss": 0.0,
      "step": 1257
    },
    {
      "epoch": 104.75,
      "eval_loss": 1.5334687232971191,
      "eval_runtime": 1.0018,
      "eval_samples_per_second": 4.991,
      "eval_steps_per_second": 2.995,
      "step": 1257
    },
    {
      "epoch": 104.83333333333333,
      "grad_norm": 0.0002183204487664625,
      "learning_rate": 4.193367349129079e-05,
      "loss": 0.0,
      "step": 1258
    },
    {
      "epoch": 104.91666666666667,
      "grad_norm": 0.0002152579982066527,
      "learning_rate": 4.179087426551252e-05,
      "loss": 0.0,
      "step": 1259
    },
    {
      "epoch": 105.0,
      "grad_norm": 0.00019633473129943013,
      "learning_rate": 4.164825434153381e-05,
      "loss": 0.0,
      "step": 1260
    },
    {
      "epoch": 105.0,
      "eval_loss": 1.4911757707595825,
      "eval_runtime": 1.0094,
      "eval_samples_per_second": 4.954,
      "eval_steps_per_second": 2.972,
      "step": 1260
    },
    {
      "epoch": 105.08333333333333,
      "grad_norm": 0.0002637727011460811,
      "learning_rate": 4.150581415866739e-05,
      "loss": 0.0,
      "step": 1261
    },
    {
      "epoch": 105.16666666666667,
      "grad_norm": 0.00020422996021807194,
      "learning_rate": 4.136355415567235e-05,
      "loss": 0.0,
      "step": 1262
    },
    {
      "epoch": 105.25,
      "grad_norm": 0.00017111633496824652,
      "learning_rate": 4.12214747707527e-05,
      "loss": 0.0,
      "step": 1263
    },
    {
      "epoch": 105.25,
      "eval_loss": 1.484751582145691,
      "eval_runtime": 1.0109,
      "eval_samples_per_second": 4.946,
      "eval_steps_per_second": 2.968,
      "step": 1263
    },
    {
      "epoch": 105.33333333333333,
      "grad_norm": 0.00018570460088085383,
      "learning_rate": 4.107957644155615e-05,
      "loss": 0.0,
      "step": 1264
    },
    {
      "epoch": 105.41666666666667,
      "grad_norm": 0.00023807834077160805,
      "learning_rate": 4.093785960517269e-05,
      "loss": 0.0,
      "step": 1265
    },
    {
      "epoch": 105.5,
      "grad_norm": 0.0003709854790940881,
      "learning_rate": 4.0796324698133236e-05,
      "loss": 0.0,
      "step": 1266
    },
    {
      "epoch": 105.5,
      "eval_loss": 1.4471591711044312,
      "eval_runtime": 1.0074,
      "eval_samples_per_second": 4.963,
      "eval_steps_per_second": 2.978,
      "step": 1266
    },
    {
      "epoch": 105.58333333333333,
      "grad_norm": 0.00017761172784958035,
      "learning_rate": 4.0654972156408353e-05,
      "loss": 0.0,
      "step": 1267
    },
    {
      "epoch": 105.66666666666667,
      "grad_norm": 0.0002263276546727866,
      "learning_rate": 4.051380241540679e-05,
      "loss": 0.0,
      "step": 1268
    },
    {
      "epoch": 105.75,
      "grad_norm": 0.0002249693643534556,
      "learning_rate": 4.037281590997426e-05,
      "loss": 0.0,
      "step": 1269
    },
    {
      "epoch": 105.75,
      "eval_loss": 1.4667726755142212,
      "eval_runtime": 1.0067,
      "eval_samples_per_second": 4.967,
      "eval_steps_per_second": 2.98,
      "step": 1269
    },
    {
      "epoch": 105.83333333333333,
      "grad_norm": 0.00017738777387421578,
      "learning_rate": 4.0232013074392064e-05,
      "loss": 0.0,
      "step": 1270
    },
    {
      "epoch": 105.91666666666667,
      "grad_norm": 0.00017963792197406292,
      "learning_rate": 4.0091394342375776e-05,
      "loss": 0.0,
      "step": 1271
    },
    {
      "epoch": 106.0,
      "grad_norm": 0.00024421370471827686,
      "learning_rate": 3.995096014707375e-05,
      "loss": 0.0,
      "step": 1272
    },
    {
      "epoch": 106.0,
      "eval_loss": 1.4575388431549072,
      "eval_runtime": 1.0087,
      "eval_samples_per_second": 4.957,
      "eval_steps_per_second": 2.974,
      "step": 1272
    },
    {
      "epoch": 106.08333333333333,
      "grad_norm": 0.0002474139619152993,
      "learning_rate": 3.981071092106602e-05,
      "loss": 0.0,
      "step": 1273
    },
    {
      "epoch": 106.16666666666667,
      "grad_norm": 0.00020794119336642325,
      "learning_rate": 3.967064709636285e-05,
      "loss": 0.0,
      "step": 1274
    },
    {
      "epoch": 106.25,
      "grad_norm": 0.0001975503982976079,
      "learning_rate": 3.953076910440336e-05,
      "loss": 0.0,
      "step": 1275
    },
    {
      "epoch": 106.25,
      "eval_loss": 1.5393081903457642,
      "eval_runtime": 1.0012,
      "eval_samples_per_second": 4.994,
      "eval_steps_per_second": 2.996,
      "step": 1275
    },
    {
      "epoch": 106.33333333333333,
      "grad_norm": 0.00026536473887972534,
      "learning_rate": 3.939107737605433e-05,
      "loss": 0.0,
      "step": 1276
    },
    {
      "epoch": 106.41666666666667,
      "grad_norm": 0.00016820701421238482,
      "learning_rate": 3.92515723416087e-05,
      "loss": 0.0,
      "step": 1277
    },
    {
      "epoch": 106.5,
      "grad_norm": 0.00027383770793676376,
      "learning_rate": 3.911225443078439e-05,
      "loss": 0.0,
      "step": 1278
    },
    {
      "epoch": 106.5,
      "eval_loss": 1.4637128114700317,
      "eval_runtime": 1.0027,
      "eval_samples_per_second": 4.987,
      "eval_steps_per_second": 2.992,
      "step": 1278
    },
    {
      "epoch": 106.58333333333333,
      "grad_norm": 0.00024615408619865775,
      "learning_rate": 3.897312407272294e-05,
      "loss": 0.0,
      "step": 1279
    },
    {
      "epoch": 106.66666666666667,
      "grad_norm": 0.0001741805754136294,
      "learning_rate": 3.8834181695988084e-05,
      "loss": 0.0,
      "step": 1280
    },
    {
      "epoch": 106.75,
      "grad_norm": 0.00027314855833537877,
      "learning_rate": 3.8695427728564605e-05,
      "loss": 0.0,
      "step": 1281
    },
    {
      "epoch": 106.75,
      "eval_loss": 1.3627104759216309,
      "eval_runtime": 1.0205,
      "eval_samples_per_second": 4.9,
      "eval_steps_per_second": 2.94,
      "step": 1281
    },
    {
      "epoch": 106.83333333333333,
      "grad_norm": 0.00022106872347649187,
      "learning_rate": 3.855686259785688e-05,
      "loss": 0.0,
      "step": 1282
    },
    {
      "epoch": 106.91666666666667,
      "grad_norm": 0.00016550111467950046,
      "learning_rate": 3.841848673068764e-05,
      "loss": 0.0,
      "step": 1283
    },
    {
      "epoch": 107.0,
      "grad_norm": 0.0002663950144778937,
      "learning_rate": 3.828030055329665e-05,
      "loss": 0.0,
      "step": 1284
    },
    {
      "epoch": 107.0,
      "eval_loss": 1.4758925437927246,
      "eval_runtime": 1.0073,
      "eval_samples_per_second": 4.964,
      "eval_steps_per_second": 2.978,
      "step": 1284
    },
    {
      "epoch": 107.08333333333333,
      "grad_norm": 0.00019543008238542825,
      "learning_rate": 3.8142304491339276e-05,
      "loss": 0.0,
      "step": 1285
    },
    {
      "epoch": 107.16666666666667,
      "grad_norm": 0.0002088417677441612,
      "learning_rate": 3.800449896988535e-05,
      "loss": 0.0,
      "step": 1286
    },
    {
      "epoch": 107.25,
      "grad_norm": 0.00017286150250583887,
      "learning_rate": 3.786688441341778e-05,
      "loss": 0.0,
      "step": 1287
    },
    {
      "epoch": 107.25,
      "eval_loss": 1.5210072994232178,
      "eval_runtime": 1.0067,
      "eval_samples_per_second": 4.967,
      "eval_steps_per_second": 2.98,
      "step": 1287
    }
  ],
  "logging_steps": 1,
  "max_steps": 1800,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 150,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 9.182254213890048e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}