{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 2167,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00046146746654360867,
      "grad_norm": 9.51411938145824,
      "learning_rate": 9.216589861751152e-08,
      "loss": 1.1509,
      "step": 1
    },
    {
      "epoch": 0.0023073373327180432,
      "grad_norm": 9.594129890510615,
      "learning_rate": 4.608294930875577e-07,
      "loss": 1.1369,
      "step": 5
    },
    {
      "epoch": 0.0046146746654360865,
      "grad_norm": 5.144220521250804,
      "learning_rate": 9.216589861751154e-07,
      "loss": 1.0949,
      "step": 10
    },
    {
      "epoch": 0.00692201199815413,
      "grad_norm": 3.40382562328973,
      "learning_rate": 1.382488479262673e-06,
      "loss": 1.0191,
      "step": 15
    },
    {
      "epoch": 0.009229349330872173,
      "grad_norm": 3.215915212337555,
      "learning_rate": 1.8433179723502307e-06,
      "loss": 1.0296,
      "step": 20
    },
    {
      "epoch": 0.011536686663590217,
      "grad_norm": 2.650742433924389,
      "learning_rate": 2.3041474654377884e-06,
      "loss": 0.976,
      "step": 25
    },
    {
      "epoch": 0.01384402399630826,
      "grad_norm": 2.7902393320247687,
      "learning_rate": 2.764976958525346e-06,
      "loss": 1.0089,
      "step": 30
    },
    {
      "epoch": 0.016151361329026302,
      "grad_norm": 2.4654209985126148,
      "learning_rate": 3.225806451612903e-06,
      "loss": 0.9951,
      "step": 35
    },
    {
      "epoch": 0.018458698661744346,
      "grad_norm": 2.527650306992279,
      "learning_rate": 3.6866359447004615e-06,
      "loss": 0.9988,
      "step": 40
    },
    {
      "epoch": 0.02076603599446239,
      "grad_norm": 2.655474988385568,
      "learning_rate": 4.147465437788019e-06,
      "loss": 1.004,
      "step": 45
    },
    {
      "epoch": 0.023073373327180433,
      "grad_norm": 2.537803872777302,
      "learning_rate": 4.608294930875577e-06,
      "loss": 0.9863,
      "step": 50
    },
    {
      "epoch": 0.025380710659898477,
      "grad_norm": 2.6464740488754366,
      "learning_rate": 5.0691244239631346e-06,
      "loss": 0.9694,
      "step": 55
    },
    {
      "epoch": 0.02768804799261652,
      "grad_norm": 2.7507142522196566,
      "learning_rate": 5.529953917050692e-06,
      "loss": 0.9688,
      "step": 60
    },
    {
      "epoch": 0.029995385325334564,
      "grad_norm": 2.836749382191462,
      "learning_rate": 5.9907834101382485e-06,
      "loss": 0.9968,
      "step": 65
    },
    {
      "epoch": 0.032302722658052604,
      "grad_norm": 3.048439725741993,
      "learning_rate": 6.451612903225806e-06,
      "loss": 1.0023,
      "step": 70
    },
    {
      "epoch": 0.03461005999077065,
      "grad_norm": 3.072103382083384,
      "learning_rate": 6.912442396313365e-06,
      "loss": 0.9909,
      "step": 75
    },
    {
      "epoch": 0.03691739732348869,
      "grad_norm": 2.4206649546182386,
      "learning_rate": 7.373271889400923e-06,
      "loss": 1.0277,
      "step": 80
    },
    {
      "epoch": 0.03922473465620674,
      "grad_norm": 2.6546178755277254,
      "learning_rate": 7.83410138248848e-06,
      "loss": 1.0123,
      "step": 85
    },
    {
      "epoch": 0.04153207198892478,
      "grad_norm": 2.3888921486796058,
      "learning_rate": 8.294930875576038e-06,
      "loss": 0.9688,
      "step": 90
    },
    {
      "epoch": 0.043839409321642826,
      "grad_norm": 2.32499977135365,
      "learning_rate": 8.755760368663595e-06,
      "loss": 0.9903,
      "step": 95
    },
    {
      "epoch": 0.046146746654360866,
      "grad_norm": 2.392443248966377,
      "learning_rate": 9.216589861751153e-06,
      "loss": 0.9893,
      "step": 100
    },
    {
      "epoch": 0.048454083987078914,
      "grad_norm": 2.680320857358668,
      "learning_rate": 9.67741935483871e-06,
      "loss": 0.9846,
      "step": 105
    },
    {
      "epoch": 0.050761421319796954,
      "grad_norm": 2.532469504703905,
      "learning_rate": 1.0138248847926269e-05,
      "loss": 1.0089,
      "step": 110
    },
    {
      "epoch": 0.053068758652515,
      "grad_norm": 3.1046898569172945,
      "learning_rate": 1.0599078341013826e-05,
      "loss": 1.0266,
      "step": 115
    },
    {
      "epoch": 0.05537609598523304,
      "grad_norm": 2.5574603903328743,
      "learning_rate": 1.1059907834101385e-05,
      "loss": 1.002,
      "step": 120
    },
    {
      "epoch": 0.05768343331795108,
      "grad_norm": 2.452071743693235,
      "learning_rate": 1.152073732718894e-05,
      "loss": 1.03,
      "step": 125
    },
    {
      "epoch": 0.05999077065066913,
      "grad_norm": 2.418236004711402,
      "learning_rate": 1.1981566820276497e-05,
      "loss": 1.006,
      "step": 130
    },
    {
      "epoch": 0.06229810798338717,
      "grad_norm": 2.378674843033103,
      "learning_rate": 1.2442396313364056e-05,
      "loss": 0.9717,
      "step": 135
    },
    {
      "epoch": 0.06460544531610521,
      "grad_norm": 2.288433336347559,
      "learning_rate": 1.2903225806451613e-05,
      "loss": 1.0247,
      "step": 140
    },
    {
      "epoch": 0.06691278264882326,
      "grad_norm": 2.7611308296401282,
      "learning_rate": 1.3364055299539171e-05,
      "loss": 1.003,
      "step": 145
    },
    {
      "epoch": 0.0692201199815413,
      "grad_norm": 2.421569626628109,
      "learning_rate": 1.382488479262673e-05,
      "loss": 1.0197,
      "step": 150
    },
    {
      "epoch": 0.07152745731425934,
      "grad_norm": 2.3978303307399247,
      "learning_rate": 1.4285714285714287e-05,
      "loss": 0.9898,
      "step": 155
    },
    {
      "epoch": 0.07383479464697738,
      "grad_norm": 2.980112762291027,
      "learning_rate": 1.4746543778801846e-05,
      "loss": 1.0275,
      "step": 160
    },
    {
      "epoch": 0.07614213197969544,
      "grad_norm": 2.6176775912790404,
      "learning_rate": 1.5207373271889403e-05,
      "loss": 1.0382,
      "step": 165
    },
    {
      "epoch": 0.07844946931241348,
      "grad_norm": 2.44164739077761,
      "learning_rate": 1.566820276497696e-05,
      "loss": 1.0236,
      "step": 170
    },
    {
      "epoch": 0.08075680664513152,
      "grad_norm": 2.404929271261824,
      "learning_rate": 1.6129032258064517e-05,
      "loss": 1.0304,
      "step": 175
    },
    {
      "epoch": 0.08306414397784956,
      "grad_norm": 2.3566906067196105,
      "learning_rate": 1.6589861751152075e-05,
      "loss": 1.0355,
      "step": 180
    },
    {
      "epoch": 0.0853714813105676,
      "grad_norm": 2.6391147388298246,
      "learning_rate": 1.705069124423963e-05,
      "loss": 1.0417,
      "step": 185
    },
    {
      "epoch": 0.08767881864328565,
      "grad_norm": 2.684091771591401,
      "learning_rate": 1.751152073732719e-05,
      "loss": 1.0434,
      "step": 190
    },
    {
      "epoch": 0.08998615597600369,
      "grad_norm": 2.482023036660176,
      "learning_rate": 1.7972350230414748e-05,
      "loss": 1.0638,
      "step": 195
    },
    {
      "epoch": 0.09229349330872173,
      "grad_norm": 2.4167958259613944,
      "learning_rate": 1.8433179723502307e-05,
      "loss": 1.0422,
      "step": 200
    },
    {
      "epoch": 0.09460083064143977,
      "grad_norm": 2.5336845010658586,
      "learning_rate": 1.8894009216589862e-05,
      "loss": 1.0711,
      "step": 205
    },
    {
      "epoch": 0.09690816797415783,
      "grad_norm": 2.51621301326488,
      "learning_rate": 1.935483870967742e-05,
      "loss": 1.0881,
      "step": 210
    },
    {
      "epoch": 0.09921550530687587,
      "grad_norm": 2.4344384988965175,
      "learning_rate": 1.981566820276498e-05,
      "loss": 1.0735,
      "step": 215
    },
    {
      "epoch": 0.10152284263959391,
      "grad_norm": 2.5052346642024728,
      "learning_rate": 1.9999883200175286e-05,
      "loss": 1.0593,
      "step": 220
    },
    {
      "epoch": 0.10383017997231195,
      "grad_norm": 2.3275673568454986,
      "learning_rate": 1.9999169433349454e-05,
      "loss": 1.0766,
      "step": 225
    },
    {
      "epoch": 0.10613751730503,
      "grad_norm": 2.444969349213072,
      "learning_rate": 1.9997806834748455e-05,
      "loss": 1.0805,
      "step": 230
    },
    {
      "epoch": 0.10844485463774804,
      "grad_norm": 2.5019688689621455,
      "learning_rate": 1.9995795492789368e-05,
      "loss": 1.0795,
      "step": 235
    },
    {
      "epoch": 0.11075219197046608,
      "grad_norm": 2.41754553967893,
      "learning_rate": 1.9993135537985285e-05,
      "loss": 1.0419,
      "step": 240
    },
    {
      "epoch": 0.11305952930318412,
      "grad_norm": 2.4632725320939297,
      "learning_rate": 1.9989827142936864e-05,
      "loss": 1.1022,
      "step": 245
    },
    {
      "epoch": 0.11536686663590216,
      "grad_norm": 2.1283515103999004,
      "learning_rate": 1.9985870522321118e-05,
      "loss": 1.0727,
      "step": 250
    },
    {
      "epoch": 0.11767420396862022,
      "grad_norm": 2.5373992715116316,
      "learning_rate": 1.9981265932877486e-05,
      "loss": 1.0595,
      "step": 255
    },
    {
      "epoch": 0.11998154130133826,
      "grad_norm": 2.382000156883209,
      "learning_rate": 1.9976013673391185e-05,
      "loss": 1.0585,
      "step": 260
    },
    {
      "epoch": 0.1222888786340563,
      "grad_norm": 2.4022206882693857,
      "learning_rate": 1.9970114084673796e-05,
      "loss": 1.089,
      "step": 265
    },
    {
      "epoch": 0.12459621596677434,
      "grad_norm": 2.4577010071803707,
      "learning_rate": 1.996356754954119e-05,
      "loss": 1.0971,
      "step": 270
    },
    {
      "epoch": 0.12690355329949238,
      "grad_norm": 2.973750019978815,
      "learning_rate": 1.995637449278864e-05,
      "loss": 1.083,
      "step": 275
    },
    {
      "epoch": 0.12921089063221042,
      "grad_norm": 2.771443155668778,
      "learning_rate": 1.994853538116329e-05,
      "loss": 1.0948,
      "step": 280
    },
    {
      "epoch": 0.13151822796492849,
      "grad_norm": 2.2945686154224902,
      "learning_rate": 1.9940050723333867e-05,
      "loss": 1.0684,
      "step": 285
    },
    {
      "epoch": 0.13382556529764653,
      "grad_norm": 2.2402037197255864,
      "learning_rate": 1.9930921069857653e-05,
      "loss": 1.0605,
      "step": 290
    },
    {
      "epoch": 0.13613290263036457,
      "grad_norm": 3.0321973969800955,
      "learning_rate": 1.9921147013144782e-05,
      "loss": 1.0629,
      "step": 295
    },
    {
      "epoch": 0.1384402399630826,
      "grad_norm": 2.4295781427476215,
      "learning_rate": 1.991072918741978e-05,
      "loss": 1.0353,
      "step": 300
    },
    {
      "epoch": 0.14074757729580065,
      "grad_norm": 2.5121504192318698,
      "learning_rate": 1.9899668268680438e-05,
      "loss": 1.1156,
      "step": 305
    },
    {
      "epoch": 0.1430549146285187,
      "grad_norm": 2.454863605026453,
      "learning_rate": 1.988796497465392e-05,
      "loss": 1.0921,
      "step": 310
    },
    {
      "epoch": 0.14536225196123673,
      "grad_norm": 2.2532325296884532,
      "learning_rate": 1.98756200647502e-05,
      "loss": 1.0683,
      "step": 315
    },
    {
      "epoch": 0.14766958929395477,
      "grad_norm": 2.3557373973476334,
      "learning_rate": 1.9862634340012796e-05,
      "loss": 1.0559,
      "step": 320
    },
    {
      "epoch": 0.1499769266266728,
      "grad_norm": 2.493215513816939,
      "learning_rate": 1.9849008643066774e-05,
      "loss": 1.0725,
      "step": 325
    },
    {
      "epoch": 0.15228426395939088,
      "grad_norm": 3.2539520651857594,
      "learning_rate": 1.983474385806408e-05,
      "loss": 1.0674,
      "step": 330
    },
    {
      "epoch": 0.15459160129210892,
      "grad_norm": 2.2486130234020165,
      "learning_rate": 1.9819840910626174e-05,
      "loss": 1.0705,
      "step": 335
    },
    {
      "epoch": 0.15689893862482696,
      "grad_norm": 2.237162636902425,
      "learning_rate": 1.9804300767783958e-05,
      "loss": 1.0772,
      "step": 340
    },
    {
      "epoch": 0.159206275957545,
      "grad_norm": 6.51182752032121,
      "learning_rate": 1.9788124437915034e-05,
      "loss": 1.0837,
      "step": 345
    },
    {
      "epoch": 0.16151361329026304,
      "grad_norm": 2.322519163352806,
      "learning_rate": 1.9771312970678258e-05,
      "loss": 1.0405,
      "step": 350
    },
    {
      "epoch": 0.16382095062298108,
      "grad_norm": 2.2704370082078773,
      "learning_rate": 1.9753867456945653e-05,
      "loss": 1.0632,
      "step": 355
    },
    {
      "epoch": 0.16612828795569912,
      "grad_norm": 2.1581678351113602,
      "learning_rate": 1.9735789028731603e-05,
      "loss": 1.0818,
      "step": 360
    },
    {
      "epoch": 0.16843562528841716,
      "grad_norm": 2.0342475926569583,
      "learning_rate": 1.971707885911941e-05,
      "loss": 1.0679,
      "step": 365
    },
    {
      "epoch": 0.1707429626211352,
      "grad_norm": 2.2080262528668957,
      "learning_rate": 1.9697738162185163e-05,
      "loss": 1.0813,
      "step": 370
    },
    {
      "epoch": 0.17305029995385326,
      "grad_norm": 2.627310254608405,
      "learning_rate": 1.9677768192918973e-05,
      "loss": 1.0682,
      "step": 375
    },
    {
      "epoch": 0.1753576372865713,
      "grad_norm": 31.427071093107436,
      "learning_rate": 1.9657170247143526e-05,
      "loss": 1.06,
      "step": 380
    },
    {
      "epoch": 0.17766497461928935,
      "grad_norm": 2.4322378895965016,
      "learning_rate": 1.9635945661430006e-05,
      "loss": 1.0648,
      "step": 385
    },
    {
      "epoch": 0.17997231195200739,
      "grad_norm": 2.446435285466414,
      "learning_rate": 1.9614095813011366e-05,
      "loss": 1.0795,
      "step": 390
    },
    {
      "epoch": 0.18227964928472543,
      "grad_norm": 2.6478307008342745,
      "learning_rate": 1.9591622119692953e-05,
      "loss": 1.0655,
      "step": 395
    },
    {
      "epoch": 0.18458698661744347,
      "grad_norm": 3.5462973637007433,
      "learning_rate": 1.956852603976052e-05,
      "loss": 1.074,
      "step": 400
    },
    {
      "epoch": 0.1868943239501615,
      "grad_norm": 2.1952483345123834,
      "learning_rate": 1.9544809071885603e-05,
      "loss": 1.066,
      "step": 405
    },
    {
      "epoch": 0.18920166128287955,
      "grad_norm": 2.2118543537817397,
      "learning_rate": 1.9520472755028256e-05,
      "loss": 1.0567,
      "step": 410
    },
    {
      "epoch": 0.1915089986155976,
      "grad_norm": 2.1220225112366085,
      "learning_rate": 1.9495518668337204e-05,
      "loss": 1.0485,
      "step": 415
    },
    {
      "epoch": 0.19381633594831565,
      "grad_norm": 2.0821093984759433,
      "learning_rate": 1.946994843104737e-05,
      "loss": 1.0374,
      "step": 420
    },
    {
      "epoch": 0.1961236732810337,
      "grad_norm": 2.0190113966629433,
      "learning_rate": 1.944376370237481e-05,
      "loss": 1.064,
      "step": 425
    },
    {
      "epoch": 0.19843101061375173,
      "grad_norm": 2.056684419876963,
      "learning_rate": 1.9416966181409047e-05,
      "loss": 1.0524,
      "step": 430
    },
    {
      "epoch": 0.20073834794646978,
      "grad_norm": 2.366243541981115,
      "learning_rate": 1.9389557607002808e-05,
      "loss": 1.0587,
      "step": 435
    },
    {
      "epoch": 0.20304568527918782,
      "grad_norm": 2.3366923572205356,
      "learning_rate": 1.9361539757659212e-05,
      "loss": 1.104,
      "step": 440
    },
    {
      "epoch": 0.20535302261190586,
      "grad_norm": 2.135135120153321,
      "learning_rate": 1.933291445141635e-05,
      "loss": 1.0838,
      "step": 445
    },
    {
      "epoch": 0.2076603599446239,
      "grad_norm": 2.1686749928093367,
      "learning_rate": 1.930368354572932e-05,
      "loss": 1.0889,
      "step": 450
    },
    {
      "epoch": 0.20996769727734194,
      "grad_norm": 2.18295591084296,
      "learning_rate": 1.9273848937349712e-05,
      "loss": 1.0517,
      "step": 455
    },
    {
      "epoch": 0.21227503461006,
      "grad_norm": 2.015301818923552,
      "learning_rate": 1.92434125622025e-05,
      "loss": 1.0766,
      "step": 460
    },
    {
      "epoch": 0.21458237194277804,
      "grad_norm": 2.0741949328544984,
      "learning_rate": 1.9212376395260447e-05,
      "loss": 1.0896,
      "step": 465
    },
    {
      "epoch": 0.21688970927549608,
      "grad_norm": 2.15451982178122,
      "learning_rate": 1.9180742450415962e-05,
      "loss": 1.0763,
      "step": 470
    },
    {
      "epoch": 0.21919704660821412,
      "grad_norm": 2.0906260465476967,
      "learning_rate": 1.9148512780350384e-05,
      "loss": 1.086,
      "step": 475
    },
    {
      "epoch": 0.22150438394093216,
      "grad_norm": 2.031559261836197,
      "learning_rate": 1.9115689476400817e-05,
      "loss": 1.059,
      "step": 480
    },
    {
      "epoch": 0.2238117212736502,
      "grad_norm": 2.07650174311531,
      "learning_rate": 1.9082274668424423e-05,
      "loss": 1.0679,
      "step": 485
    },
    {
      "epoch": 0.22611905860636825,
      "grad_norm": 2.126208239890011,
      "learning_rate": 1.9048270524660197e-05,
      "loss": 1.0809,
      "step": 490
    },
    {
      "epoch": 0.22842639593908629,
      "grad_norm": 1.9929349716624978,
      "learning_rate": 1.9013679251588304e-05,
      "loss": 1.085,
      "step": 495
    },
    {
      "epoch": 0.23073373327180433,
      "grad_norm": 3.001431077273745,
      "learning_rate": 1.8978503093786882e-05,
      "loss": 1.0558,
      "step": 500
    },
    {
      "epoch": 0.2330410706045224,
      "grad_norm": 1.9284000626000521,
      "learning_rate": 1.89427443337864e-05,
      "loss": 1.0685,
      "step": 505
    },
    {
      "epoch": 0.23534840793724043,
      "grad_norm": 2.156814659249471,
      "learning_rate": 1.890640529192155e-05,
      "loss": 1.0857,
      "step": 510
    },
    {
      "epoch": 0.23765574526995847,
      "grad_norm": 2.2063349330204174,
      "learning_rate": 1.8869488326180682e-05,
      "loss": 1.092,
      "step": 515
    },
    {
      "epoch": 0.23996308260267651,
      "grad_norm": 1.8963715836357997,
      "learning_rate": 1.8831995832052802e-05,
      "loss": 1.0694,
      "step": 520
    },
    {
      "epoch": 0.24227041993539455,
      "grad_norm": 2.0285632136378613,
      "learning_rate": 1.8793930242372117e-05,
      "loss": 1.0795,
      "step": 525
    },
    {
      "epoch": 0.2445777572681126,
      "grad_norm": 2.099474069037447,
      "learning_rate": 1.8755294027160203e-05,
      "loss": 1.0893,
      "step": 530
    },
    {
      "epoch": 0.24688509460083063,
      "grad_norm": 2.0358502445768165,
      "learning_rate": 1.8716089693465696e-05,
      "loss": 1.086,
      "step": 535
    },
    {
      "epoch": 0.24919243193354867,
      "grad_norm": 2.1218454361521633,
      "learning_rate": 1.8676319785201617e-05,
      "loss": 1.0842,
      "step": 540
    },
    {
      "epoch": 0.2514997692662667,
      "grad_norm": 2.0341225955626583,
      "learning_rate": 1.8635986882980325e-05,
      "loss": 1.0625,
      "step": 545
    },
    {
      "epoch": 0.25380710659898476,
      "grad_norm": 2.3910625184538747,
      "learning_rate": 1.8595093603946053e-05,
      "loss": 1.0727,
      "step": 550
    },
    {
      "epoch": 0.2561144439317028,
      "grad_norm": 1.98644765469211,
      "learning_rate": 1.855364260160507e-05,
      "loss": 1.0595,
      "step": 555
    },
    {
      "epoch": 0.25842178126442084,
      "grad_norm": 2.208738179396901,
      "learning_rate": 1.851163656565351e-05,
      "loss": 1.0936,
      "step": 560
    },
    {
      "epoch": 0.2607291185971389,
      "grad_norm": 2.0209364206754645,
      "learning_rate": 1.846907822180286e-05,
      "loss": 1.0684,
      "step": 565
    },
    {
      "epoch": 0.26303645592985697,
      "grad_norm": 1.925369099665116,
      "learning_rate": 1.842597033160306e-05,
      "loss": 1.0669,
      "step": 570
    },
    {
      "epoch": 0.265343793262575,
      "grad_norm": 2.169504176441067,
      "learning_rate": 1.8382315692263324e-05,
      "loss": 1.0914,
      "step": 575
    },
    {
      "epoch": 0.26765113059529305,
      "grad_norm": 2.0095996014073503,
      "learning_rate": 1.8338117136470648e-05,
      "loss": 1.0679,
      "step": 580
    },
    {
      "epoch": 0.2699584679280111,
      "grad_norm": 2.0780448467433468,
      "learning_rate": 1.829337753220597e-05,
      "loss": 1.0823,
      "step": 585
    },
    {
      "epoch": 0.27226580526072913,
      "grad_norm": 1.9092130149771946,
      "learning_rate": 1.8248099782558103e-05,
      "loss": 1.0485,
      "step": 590
    },
    {
      "epoch": 0.2745731425934472,
      "grad_norm": 2.2904699258286914,
      "learning_rate": 1.820228682553533e-05,
      "loss": 1.0676,
      "step": 595
    },
    {
      "epoch": 0.2768804799261652,
      "grad_norm": 2.1592942059891884,
      "learning_rate": 1.8155941633874787e-05,
      "loss": 1.0862,
      "step": 600
    },
    {
      "epoch": 0.27918781725888325,
      "grad_norm": 1.9056960337173154,
      "learning_rate": 1.810906721484954e-05,
      "loss": 1.027,
      "step": 605
    },
    {
      "epoch": 0.2814951545916013,
      "grad_norm": 2.029717811241469,
      "learning_rate": 1.8061666610073465e-05,
      "loss": 1.0638,
      "step": 610
    },
    {
      "epoch": 0.28380249192431933,
      "grad_norm": 2.0411421295106873,
      "learning_rate": 1.8013742895303883e-05,
      "loss": 1.0667,
      "step": 615
    },
    {
      "epoch": 0.2861098292570374,
      "grad_norm": 1.924799713813513,
      "learning_rate": 1.7965299180241963e-05,
      "loss": 1.0685,
      "step": 620
    },
    {
      "epoch": 0.2884171665897554,
      "grad_norm": 2.171875799314523,
      "learning_rate": 1.791633860833096e-05,
      "loss": 1.0463,
      "step": 625
    },
    {
      "epoch": 0.29072450392247345,
      "grad_norm": 2.068372996208825,
      "learning_rate": 1.7866864356552215e-05,
      "loss": 1.0715,
      "step": 630
    },
    {
      "epoch": 0.2930318412551915,
      "grad_norm": 1.8601211490681129,
      "learning_rate": 1.7816879635219028e-05,
      "loss": 1.0576,
      "step": 635
    },
    {
      "epoch": 0.29533917858790953,
      "grad_norm": 1.9725316785259686,
      "learning_rate": 1.7766387687768338e-05,
      "loss": 1.0648,
      "step": 640
    },
    {
      "epoch": 0.2976465159206276,
      "grad_norm": 2.1844471268704515,
      "learning_rate": 1.7715391790550255e-05,
      "loss": 1.0637,
      "step": 645
    },
    {
      "epoch": 0.2999538532533456,
      "grad_norm": 1.933021204525043,
      "learning_rate": 1.766389525261547e-05,
      "loss": 1.0803,
      "step": 650
    },
    {
      "epoch": 0.30226119058606365,
      "grad_norm": 2.1351960039602695,
      "learning_rate": 1.7611901415500536e-05,
      "loss": 1.0979,
      "step": 655
    },
    {
      "epoch": 0.30456852791878175,
      "grad_norm": 1.9611319269471612,
      "learning_rate": 1.7559413653011027e-05,
      "loss": 1.0652,
      "step": 660
    },
    {
      "epoch": 0.3068758652514998,
      "grad_norm": 2.033679368734863,
      "learning_rate": 1.7506435371002635e-05,
      "loss": 1.0749,
      "step": 665
    },
    {
      "epoch": 0.30918320258421783,
      "grad_norm": 2.0279720872015354,
      "learning_rate": 1.745297000716016e-05,
      "loss": 1.078,
      "step": 670
    },
    {
      "epoch": 0.31149053991693587,
      "grad_norm": 1.989733876253561,
      "learning_rate": 1.7399021030774443e-05,
      "loss": 1.0639,
      "step": 675
    },
    {
      "epoch": 0.3137978772496539,
      "grad_norm": 1.9037569950190747,
      "learning_rate": 1.734459194251725e-05,
      "loss": 1.0721,
      "step": 680
    },
    {
      "epoch": 0.31610521458237195,
      "grad_norm": 2.183774346551292,
      "learning_rate": 1.7289686274214116e-05,
      "loss": 1.0755,
      "step": 685
    },
    {
      "epoch": 0.31841255191509,
      "grad_norm": 1.992668508208317,
      "learning_rate": 1.7234307588615177e-05,
      "loss": 1.0761,
      "step": 690
    },
    {
      "epoch": 0.32071988924780803,
      "grad_norm": 1.9985850630928745,
      "learning_rate": 1.717845947916398e-05,
      "loss": 1.0575,
      "step": 695
    },
    {
      "epoch": 0.3230272265805261,
      "grad_norm": 2.1480400724448883,
      "learning_rate": 1.712214556976431e-05,
      "loss": 1.0404,
      "step": 700
    },
    {
      "epoch": 0.3253345639132441,
      "grad_norm": 1.9503339704430334,
      "learning_rate": 1.7065369514545054e-05,
      "loss": 1.0579,
      "step": 705
    },
    {
      "epoch": 0.32764190124596215,
      "grad_norm": 1.971699140050545,
      "learning_rate": 1.7008134997623066e-05,
      "loss": 1.0629,
      "step": 710
    },
    {
      "epoch": 0.3299492385786802,
      "grad_norm": 1.97358622805482,
      "learning_rate": 1.695044573286413e-05,
      "loss": 1.039,
      "step": 715
    },
    {
      "epoch": 0.33225657591139823,
      "grad_norm": 1.8903289514072814,
      "learning_rate": 1.6892305463641967e-05,
      "loss": 1.0996,
      "step": 720
    },
    {
      "epoch": 0.3345639132441163,
      "grad_norm": 1.9171530806208752,
      "learning_rate": 1.6833717962595327e-05,
      "loss": 1.0587,
      "step": 725
    },
    {
      "epoch": 0.3368712505768343,
      "grad_norm": 2.0292768253738855,
      "learning_rate": 1.677468703138319e-05,
      "loss": 1.0534,
      "step": 730
    },
    {
      "epoch": 0.33917858790955235,
      "grad_norm": 1.9857495035997068,
      "learning_rate": 1.6715216500438093e-05,
      "loss": 1.0805,
      "step": 735
    },
    {
      "epoch": 0.3414859252422704,
      "grad_norm": 5.464414796561983,
      "learning_rate": 1.6655310228717565e-05,
      "loss": 1.0802,
      "step": 740
    },
    {
      "epoch": 0.3437932625749885,
      "grad_norm": 1.909425909480839,
      "learning_rate": 1.6594972103453727e-05,
      "loss": 1.0813,
      "step": 745
    },
    {
      "epoch": 0.34610059990770653,
      "grad_norm": 1.9164783421961078,
      "learning_rate": 1.6534206039901057e-05,
      "loss": 1.0466,
      "step": 750
    },
    {
      "epoch": 0.34840793724042457,
      "grad_norm": 4.300395520109931,
      "learning_rate": 1.647301598108234e-05,
      "loss": 1.0326,
      "step": 755
    },
    {
      "epoch": 0.3507152745731426,
      "grad_norm": 2.2226539635666827,
      "learning_rate": 1.64114058975328e-05,
      "loss": 1.0824,
      "step": 760
    },
    {
      "epoch": 0.35302261190586065,
      "grad_norm": 2.08738140836867,
      "learning_rate": 1.6349379787042478e-05,
      "loss": 1.0445,
      "step": 765
    },
    {
      "epoch": 0.3553299492385787,
      "grad_norm": 1.7956395961308758,
      "learning_rate": 1.6286941674396788e-05,
      "loss": 1.0283,
      "step": 770
    },
    {
      "epoch": 0.35763728657129673,
      "grad_norm": 1.9001406773036147,
      "learning_rate": 1.6224095611115385e-05,
      "loss": 1.0558,
      "step": 775
    },
    {
      "epoch": 0.35994462390401477,
      "grad_norm": 1.8584506601925908,
      "learning_rate": 1.6160845675189254e-05,
      "loss": 1.0315,
      "step": 780
    },
    {
      "epoch": 0.3622519612367328,
      "grad_norm": 1.8994200106765273,
      "learning_rate": 1.6097195970816094e-05,
      "loss": 1.0736,
      "step": 785
    },
    {
      "epoch": 0.36455929856945085,
      "grad_norm": 2.396252821544053,
      "learning_rate": 1.603315062813401e-05,
      "loss": 1.0605,
      "step": 790
    },
    {
      "epoch": 0.3668666359021689,
      "grad_norm": 1.798952489279231,
      "learning_rate": 1.596871380295351e-05,
      "loss": 1.0439,
      "step": 795
    },
    {
      "epoch": 0.36917397323488693,
      "grad_norm": 1.8907451459454219,
      "learning_rate": 1.5903889676487832e-05,
      "loss": 1.047,
      "step": 800
    },
    {
      "epoch": 0.37148131056760497,
      "grad_norm": 1.9272449578154556,
      "learning_rate": 1.5838682455081657e-05,
      "loss": 1.0557,
      "step": 805
    },
    {
      "epoch": 0.373788647900323,
      "grad_norm": 1.8500068465129675,
      "learning_rate": 1.5773096369938125e-05,
      "loss": 1.0448,
      "step": 810
    },
    {
      "epoch": 0.37609598523304105,
      "grad_norm": 2.024989082401722,
      "learning_rate": 1.570713567684432e-05,
      "loss": 1.0444,
      "step": 815
    },
    {
      "epoch": 0.3784033225657591,
      "grad_norm": 1.864545609223796,
      "learning_rate": 1.5640804655895086e-05,
      "loss": 1.0316,
      "step": 820
    },
    {
      "epoch": 0.38071065989847713,
      "grad_norm": 1.9810163039010853,
      "learning_rate": 1.557410761121532e-05,
      "loss": 1.0476,
      "step": 825
    },
    {
      "epoch": 0.3830179972311952,
      "grad_norm": 1.9715732068507474,
      "learning_rate": 1.5507048870680668e-05,
      "loss": 1.0092,
      "step": 830
    },
    {
      "epoch": 0.38532533456391327,
      "grad_norm": 1.9346233566232378,
      "learning_rate": 1.5439632785636707e-05,
      "loss": 1.0834,
      "step": 835
    },
    {
      "epoch": 0.3876326718966313,
      "grad_norm": 2.2247085368619164,
      "learning_rate": 1.5371863730616586e-05,
      "loss": 1.0608,
      "step": 840
    },
    {
      "epoch": 0.38994000922934935,
      "grad_norm": 1.855445999462738,
      "learning_rate": 1.5303746103057163e-05,
      "loss": 1.0311,
      "step": 845
    },
    {
      "epoch": 0.3922473465620674,
      "grad_norm": 1.8433500481185805,
      "learning_rate": 1.5235284323013674e-05,
      "loss": 1.0513,
      "step": 850
    },
    {
      "epoch": 0.39455468389478543,
      "grad_norm": 1.9238020550812749,
      "learning_rate": 1.5166482832872923e-05,
      "loss": 1.0611,
      "step": 855
    },
    {
      "epoch": 0.39686202122750347,
      "grad_norm": 2.034539491931288,
      "learning_rate": 1.5097346097065008e-05,
      "loss": 1.0369,
      "step": 860
    },
    {
      "epoch": 0.3991693585602215,
      "grad_norm": 1.8719773240320596,
      "learning_rate": 1.5027878601773633e-05,
      "loss": 1.031,
      "step": 865
    },
    {
      "epoch": 0.40147669589293955,
      "grad_norm": 1.8218549093076317,
      "learning_rate": 1.4958084854645018e-05,
      "loss": 1.027,
      "step": 870
    },
    {
      "epoch": 0.4037840332256576,
      "grad_norm": 1.908377236915306,
      "learning_rate": 1.4887969384495403e-05,
      "loss": 1.0505,
      "step": 875
    },
    {
      "epoch": 0.40609137055837563,
      "grad_norm": 1.882874108335332,
      "learning_rate": 1.4817536741017153e-05,
      "loss": 1.0421,
      "step": 880
    },
    {
      "epoch": 0.40839870789109367,
      "grad_norm": 2.0217065440618622,
      "learning_rate": 1.4746791494483584e-05,
      "loss": 1.0533,
      "step": 885
    },
    {
      "epoch": 0.4107060452238117,
      "grad_norm": 1.8717323475177303,
      "learning_rate": 1.4675738235452352e-05,
      "loss": 1.0279,
      "step": 890
    },
    {
      "epoch": 0.41301338255652975,
      "grad_norm": 1.9788825364185045,
      "learning_rate": 1.4604381574467616e-05,
      "loss": 1.042,
      "step": 895
    },
    {
      "epoch": 0.4153207198892478,
      "grad_norm": 1.9327030504589935,
      "learning_rate": 1.4532726141760849e-05,
      "loss": 1.06,
      "step": 900
    },
    {
      "epoch": 0.41762805722196583,
      "grad_norm": 1.8050202525178007,
      "learning_rate": 1.4460776586950393e-05,
      "loss": 1.0176,
      "step": 905
    },
    {
      "epoch": 0.41993539455468387,
      "grad_norm": 1.7140772518888605,
      "learning_rate": 1.438853757873975e-05,
      "loss": 1.0336,
      "step": 910
    },
    {
      "epoch": 0.4222427318874019,
      "grad_norm": 1.9381284110778458,
      "learning_rate": 1.4316013804614644e-05,
      "loss": 1.0283,
      "step": 915
    },
    {
      "epoch": 0.42455006922012,
      "grad_norm": 1.8569863683755345,
      "learning_rate": 1.4243209970538846e-05,
      "loss": 1.0295,
      "step": 920
    },
    {
      "epoch": 0.42685740655283805,
      "grad_norm": 1.7584125894267681,
      "learning_rate": 1.4170130800648814e-05,
      "loss": 1.0451,
      "step": 925
    },
    {
      "epoch": 0.4291647438855561,
      "grad_norm": 1.8468563006595364,
      "learning_rate": 1.4096781036947159e-05,
      "loss": 1.0329,
      "step": 930
    },
    {
      "epoch": 0.43147208121827413,
      "grad_norm": 1.8005410726866136,
      "learning_rate": 1.4023165438994933e-05,
      "loss": 1.0523,
      "step": 935
    },
    {
      "epoch": 0.43377941855099217,
      "grad_norm": 1.7881203203680747,
      "learning_rate": 1.394928878360279e-05,
      "loss": 1.052,
      "step": 940
    },
    {
      "epoch": 0.4360867558837102,
      "grad_norm": 1.9402582404112974,
      "learning_rate": 1.3875155864521031e-05,
      "loss": 1.0418,
      "step": 945
    },
    {
      "epoch": 0.43839409321642825,
      "grad_norm": 1.926002050119894,
      "learning_rate": 1.3800771492128537e-05,
      "loss": 1.0491,
      "step": 950
    },
    {
      "epoch": 0.4407014305491463,
      "grad_norm": 1.8807563751664647,
      "learning_rate": 1.3726140493120639e-05,
      "loss": 1.032,
      "step": 955
    },
    {
      "epoch": 0.44300876788186433,
      "grad_norm": 1.9189485256851713,
      "learning_rate": 1.3651267710195909e-05,
      "loss": 1.0355,
      "step": 960
    },
    {
      "epoch": 0.44531610521458237,
      "grad_norm": 1.9803461150155048,
      "learning_rate": 1.3576158001741932e-05,
      "loss": 1.0569,
      "step": 965
    },
    {
      "epoch": 0.4476234425473004,
      "grad_norm": 2.018305042251882,
      "learning_rate": 1.3500816241520059e-05,
      "loss": 1.04,
      "step": 970
    },
    {
      "epoch": 0.44993077988001845,
      "grad_norm": 1.7580864552202506,
      "learning_rate": 1.3425247318349137e-05,
      "loss": 1.0075,
      "step": 975
    },
    {
      "epoch": 0.4522381172127365,
      "grad_norm": 1.8967387580024155,
      "learning_rate": 1.3349456135788298e-05,
      "loss": 1.0429,
      "step": 980
    },
    {
      "epoch": 0.45454545454545453,
      "grad_norm": 2.2301409193225985,
      "learning_rate": 1.3273447611818768e-05,
      "loss": 1.0244,
      "step": 985
    },
    {
      "epoch": 0.45685279187817257,
      "grad_norm": 1.8218900361937265,
      "learning_rate": 1.3197226678524739e-05,
      "loss": 1.0006,
      "step": 990
    },
    {
      "epoch": 0.4591601292108906,
      "grad_norm": 1.8705871989801575,
      "learning_rate": 1.3120798281773346e-05,
      "loss": 1.0382,
      "step": 995
    },
    {
      "epoch": 0.46146746654360865,
      "grad_norm": 1.8993921065361903,
      "learning_rate": 1.3044167380893726e-05,
      "loss": 1.0543,
      "step": 1000
    },
    {
      "epoch": 0.46377480387632675,
      "grad_norm": 1.762141098208751,
      "learning_rate": 1.2967338948355217e-05,
      "loss": 1.031,
      "step": 1005
    },
    {
      "epoch": 0.4660821412090448,
      "grad_norm": 1.8349620217027005,
      "learning_rate": 1.2890317969444716e-05,
      "loss": 1.0104,
      "step": 1010
    },
    {
      "epoch": 0.4683894785417628,
      "grad_norm": 1.9527169882770812,
      "learning_rate": 1.2813109441943166e-05,
      "loss": 1.0325,
      "step": 1015
    },
    {
      "epoch": 0.47069681587448087,
      "grad_norm": 1.7594153130967782,
      "learning_rate": 1.273571837580127e-05,
      "loss": 1.0476,
      "step": 1020
    },
    {
      "epoch": 0.4730041532071989,
      "grad_norm": 1.7823802580407797,
      "learning_rate": 1.2658149792814405e-05,
      "loss": 1.0397,
      "step": 1025
    },
    {
      "epoch": 0.47531149053991695,
      "grad_norm": 1.7288773807653248,
      "learning_rate": 1.258040872629676e-05,
      "loss": 1.0419,
      "step": 1030
    },
    {
      "epoch": 0.477618827872635,
      "grad_norm": 1.8969879276116197,
      "learning_rate": 1.2502500220754736e-05,
      "loss": 1.0538,
      "step": 1035
    },
    {
      "epoch": 0.47992616520535303,
      "grad_norm": 1.9748280209096565,
      "learning_rate": 1.242442933155961e-05,
      "loss": 1.0088,
      "step": 1040
    },
    {
      "epoch": 0.48223350253807107,
      "grad_norm": 1.8630834023430007,
      "learning_rate": 1.2346201124619502e-05,
      "loss": 1.0041,
      "step": 1045
    },
    {
      "epoch": 0.4845408398707891,
      "grad_norm": 1.93282001404706,
      "learning_rate": 1.2267820676050657e-05,
      "loss": 1.0117,
      "step": 1050
    },
    {
      "epoch": 0.48684817720350715,
      "grad_norm": 1.7732915883551568,
      "learning_rate": 1.2189293071848051e-05,
      "loss": 1.0395,
      "step": 1055
    },
    {
      "epoch": 0.4891555145362252,
      "grad_norm": 1.7668917225682153,
      "learning_rate": 1.2110623407555398e-05,
      "loss": 1.0055,
      "step": 1060
    },
    {
      "epoch": 0.49146285186894323,
      "grad_norm": 1.770548333794891,
      "learning_rate": 1.2031816787934465e-05,
      "loss": 1.0198,
      "step": 1065
    },
    {
      "epoch": 0.49377018920166127,
      "grad_norm": 1.804504292487286,
      "learning_rate": 1.1952878326633872e-05,
      "loss": 0.9925,
      "step": 1070
    },
    {
      "epoch": 0.4960775265343793,
      "grad_norm": 1.8384240011850799,
      "learning_rate": 1.187381314585725e-05,
      "loss": 1.0167,
      "step": 1075
    },
    {
      "epoch": 0.49838486386709735,
      "grad_norm": 1.8738489698458378,
      "learning_rate": 1.1794626376030866e-05,
      "loss": 1.0266,
      "step": 1080
    },
    {
      "epoch": 0.5006922011998154,
      "grad_norm": 1.7963716989600227,
      "learning_rate": 1.1715323155470745e-05,
      "loss": 1.0203,
      "step": 1085
    },
    {
      "epoch": 0.5029995385325334,
      "grad_norm": 1.7950924324700734,
      "learning_rate": 1.163590863004922e-05,
      "loss": 1.0014,
      "step": 1090
    },
    {
      "epoch": 0.5053068758652515,
      "grad_norm": 1.7996992785566162,
      "learning_rate": 1.1556387952861036e-05,
      "loss": 1.0147,
      "step": 1095
    },
    {
      "epoch": 0.5076142131979695,
      "grad_norm": 1.9262189643769105,
      "learning_rate": 1.1476766283888986e-05,
      "loss": 1.0176,
      "step": 1100
    },
    {
      "epoch": 0.5099215505306876,
      "grad_norm": 1.738673259571015,
      "learning_rate": 1.1397048789669061e-05,
      "loss": 1.0221,
      "step": 1105
    },
    {
      "epoch": 0.5122288878634056,
      "grad_norm": 1.7993896869653003,
      "learning_rate": 1.1317240642955226e-05,
      "loss": 1.0232,
      "step": 1110
    },
    {
      "epoch": 0.5145362251961236,
      "grad_norm": 1.8492729168966688,
      "learning_rate": 1.1237347022383747e-05,
      "loss": 1.0138,
      "step": 1115
    },
    {
      "epoch": 0.5168435625288417,
      "grad_norm": 1.792127722956897,
      "learning_rate": 1.1157373112137171e-05,
      "loss": 1.011,
      "step": 1120
    },
    {
      "epoch": 0.5191508998615597,
      "grad_norm": 1.767761412954839,
      "learning_rate": 1.107732410160793e-05,
      "loss": 0.9917,
      "step": 1125
    },
    {
      "epoch": 0.5214582371942778,
      "grad_norm": 1.78861016845621,
      "learning_rate": 1.0997205185061599e-05,
      "loss": 1.024,
      "step": 1130
    },
    {
      "epoch": 0.5237655745269958,
      "grad_norm": 1.796111964851059,
      "learning_rate": 1.0917021561299864e-05,
      "loss": 1.0094,
      "step": 1135
    },
    {
      "epoch": 0.5260729118597139,
      "grad_norm": 1.6839699201837544,
      "learning_rate": 1.083677843332316e-05,
      "loss": 1.0019,
      "step": 1140
    },
    {
      "epoch": 0.528380249192432,
      "grad_norm": 1.735381208836221,
      "learning_rate": 1.0756481007993063e-05,
      "loss": 0.9979,
      "step": 1145
    },
    {
      "epoch": 0.53068758652515,
      "grad_norm": 1.7283238773850635,
      "learning_rate": 1.0676134495694439e-05,
      "loss": 1.0127,
      "step": 1150
    },
    {
      "epoch": 0.5329949238578681,
      "grad_norm": 1.8700927823490678,
      "learning_rate": 1.0595744109997326e-05,
      "loss": 0.9897,
      "step": 1155
    },
    {
      "epoch": 0.5353022611905861,
      "grad_norm": 1.7850898978429104,
      "learning_rate": 1.0515315067318652e-05,
      "loss": 1.0155,
      "step": 1160
    },
    {
      "epoch": 0.5376095985233041,
      "grad_norm": 1.8867979217718087,
      "learning_rate": 1.0434852586583737e-05,
      "loss": 0.9996,
      "step": 1165
    },
    {
      "epoch": 0.5399169358560222,
      "grad_norm": 1.8409069763382047,
      "learning_rate": 1.0354361888887642e-05,
      "loss": 1.0038,
      "step": 1170
    },
    {
      "epoch": 0.5422242731887402,
      "grad_norm": 1.9318197730416369,
      "learning_rate": 1.0273848197156401e-05,
      "loss": 0.9893,
      "step": 1175
    },
    {
      "epoch": 0.5445316105214583,
      "grad_norm": 1.7534602196952722,
      "learning_rate": 1.0193316735808085e-05,
      "loss": 0.993,
      "step": 1180
    },
    {
      "epoch": 0.5468389478541763,
      "grad_norm": 1.7436059512387687,
      "learning_rate": 1.0112772730413816e-05,
      "loss": 1.0079,
      "step": 1185
    },
    {
      "epoch": 0.5491462851868943,
      "grad_norm": 1.8076118426423142,
      "learning_rate": 1.0032221407358683e-05,
      "loss": 1.0336,
      "step": 1190
    },
    {
      "epoch": 0.5514536225196124,
      "grad_norm": 1.9044420451434694,
      "learning_rate": 9.951667993502599e-06,
      "loss": 1.0152,
      "step": 1195
    },
    {
      "epoch": 0.5537609598523304,
      "grad_norm": 1.842329102136153,
      "learning_rate": 9.871117715841151e-06,
      "loss": 0.9783,
      "step": 1200
    },
    {
      "epoch": 0.5560682971850485,
      "grad_norm": 1.8583622986365993,
      "learning_rate": 9.790575801166432e-06,
      "loss": 1.0054,
      "step": 1205
    },
    {
      "epoch": 0.5583756345177665,
      "grad_norm": 1.7004919095912332,
      "learning_rate": 9.710047475727854e-06,
      "loss": 1.0011,
      "step": 1210
    },
    {
      "epoch": 0.5606829718504845,
      "grad_norm": 1.7280460978374188,
      "learning_rate": 9.629537964893063e-06,
      "loss": 1.0299,
      "step": 1215
    },
    {
      "epoch": 0.5629903091832026,
      "grad_norm": 1.7174011953937558,
      "learning_rate": 9.549052492808834e-06,
      "loss": 0.9946,
      "step": 1220
    },
    {
      "epoch": 0.5652976465159206,
      "grad_norm": 1.8215498597720168,
      "learning_rate": 9.468596282062114e-06,
      "loss": 1.0113,
      "step": 1225
    },
    {
      "epoch": 0.5676049838486387,
      "grad_norm": 1.6911500192296895,
      "learning_rate": 9.38817455334112e-06,
      "loss": 0.9855,
      "step": 1230
    },
    {
      "epoch": 0.5699123211813567,
      "grad_norm": 1.8405046704539174,
      "learning_rate": 9.307792525096582e-06,
      "loss": 1.0113,
      "step": 1235
    },
    {
      "epoch": 0.5722196585140747,
      "grad_norm": 1.838204327540361,
      "learning_rate": 9.227455413203115e-06,
      "loss": 0.9947,
      "step": 1240
    },
    {
      "epoch": 0.5745269958467928,
      "grad_norm": 1.656688699609939,
      "learning_rate": 9.147168430620788e-06,
      "loss": 0.9892,
      "step": 1245
    },
    {
      "epoch": 0.5768343331795108,
      "grad_norm": 1.7231036061816765,
      "learning_rate": 9.066936787056843e-06,
      "loss": 0.9944,
      "step": 1250
    },
    {
      "epoch": 0.5791416705122289,
      "grad_norm": 1.645605940940624,
      "learning_rate": 8.986765688627652e-06,
      "loss": 0.9936,
      "step": 1255
    },
    {
      "epoch": 0.5814490078449469,
      "grad_norm": 1.8141527360329759,
      "learning_rate": 8.906660337520903e-06,
      "loss": 1.0096,
      "step": 1260
    },
    {
      "epoch": 0.583756345177665,
      "grad_norm": 1.856808726362016,
      "learning_rate": 8.82662593165804e-06,
      "loss": 1.0032,
      "step": 1265
    },
    {
      "epoch": 0.586063682510383,
      "grad_norm": 1.8593818092553211,
      "learning_rate": 8.746667664356957e-06,
      "loss": 1.0177,
      "step": 1270
    },
    {
      "epoch": 0.588371019843101,
      "grad_norm": 1.7318701186944272,
      "learning_rate": 8.666790723995043e-06,
      "loss": 0.9933,
      "step": 1275
    },
    {
      "epoch": 0.5906783571758191,
      "grad_norm": 1.8632249625406112,
      "learning_rate": 8.587000293672482e-06,
      "loss": 1.0278,
      "step": 1280
    },
    {
      "epoch": 0.5929856945085371,
      "grad_norm": 1.8482080793994375,
      "learning_rate": 8.50730155087596e-06,
      "loss": 0.9753,
      "step": 1285
    },
    {
      "epoch": 0.5952930318412551,
      "grad_norm": 1.6654816438940703,
      "learning_rate": 8.427699667142681e-06,
      "loss": 0.9923,
      "step": 1290
    },
    {
      "epoch": 0.5976003691739732,
      "grad_norm": 1.816789112483473,
      "learning_rate": 8.348199807724806e-06,
      "loss": 0.9951,
      "step": 1295
    },
    {
      "epoch": 0.5999077065066912,
      "grad_norm": 1.8671938825009406,
      "learning_rate": 8.268807131254288e-06,
      "loss": 1.0063,
      "step": 1300
    },
    {
      "epoch": 0.6022150438394093,
      "grad_norm": 1.736173419625791,
      "learning_rate": 8.189526789408123e-06,
      "loss": 0.9942,
      "step": 1305
    },
    {
      "epoch": 0.6045223811721273,
      "grad_norm": 1.7397594354717327,
      "learning_rate": 8.110363926574088e-06,
      "loss": 0.9899,
      "step": 1310
    },
    {
      "epoch": 0.6068297185048455,
      "grad_norm": 1.7112354026341845,
      "learning_rate": 8.0313236795169e-06,
      "loss": 0.9981,
      "step": 1315
    },
    {
      "epoch": 0.6091370558375635,
      "grad_norm": 1.7633777819452738,
      "learning_rate": 7.952411177044923e-06,
      "loss": 0.9667,
      "step": 1320
    },
    {
      "epoch": 0.6114443931702815,
      "grad_norm": 1.7477692209080626,
      "learning_rate": 7.873631539677364e-06,
      "loss": 0.9979,
      "step": 1325
    },
    {
      "epoch": 0.6137517305029996,
      "grad_norm": 1.7532055508610305,
      "learning_rate": 7.794989879311991e-06,
      "loss": 0.9869,
      "step": 1330
    },
    {
      "epoch": 0.6160590678357176,
      "grad_norm": 1.8525858143415055,
      "learning_rate": 7.716491298893443e-06,
      "loss": 0.9834,
      "step": 1335
    },
    {
      "epoch": 0.6183664051684357,
      "grad_norm": 1.749585519245075,
      "learning_rate": 7.638140892082118e-06,
      "loss": 1.0092,
      "step": 1340
    },
    {
      "epoch": 0.6206737425011537,
      "grad_norm": 1.8420135288729067,
      "learning_rate": 7.559943742923626e-06,
      "loss": 0.9797,
      "step": 1345
    },
    {
      "epoch": 0.6229810798338717,
      "grad_norm": 1.7361527256574634,
      "learning_rate": 7.4819049255189215e-06,
      "loss": 1.0084,
      "step": 1350
    },
    {
      "epoch": 0.6252884171665898,
      "grad_norm": 1.8341519418326866,
      "learning_rate": 7.404029503695028e-06,
      "loss": 0.978,
      "step": 1355
    },
    {
      "epoch": 0.6275957544993078,
      "grad_norm": 1.8293945335237427,
      "learning_rate": 7.326322530676471e-06,
      "loss": 0.9949,
      "step": 1360
    },
    {
      "epoch": 0.6299030918320259,
      "grad_norm": 1.8042095660293147,
      "learning_rate": 7.248789048757368e-06,
      "loss": 0.9708,
      "step": 1365
    },
    {
      "epoch": 0.6322104291647439,
      "grad_norm": 1.845467719423503,
      "learning_rate": 7.171434088974252e-06,
      "loss": 0.9965,
      "step": 1370
    },
    {
      "epoch": 0.6345177664974619,
      "grad_norm": 1.6543843384272663,
      "learning_rate": 7.094262670779611e-06,
      "loss": 0.9745,
      "step": 1375
    },
    {
      "epoch": 0.63682510383018,
      "grad_norm": 1.78812671106571,
      "learning_rate": 7.017279801716177e-06,
      "loss": 0.9913,
      "step": 1380
    },
    {
      "epoch": 0.639132441162898,
      "grad_norm": 1.6947334759904245,
      "learning_rate": 6.940490477092004e-06,
      "loss": 0.9852,
      "step": 1385
    },
    {
      "epoch": 0.6414397784956161,
      "grad_norm": 1.8535301270043634,
      "learning_rate": 6.8638996796563275e-06,
      "loss": 1.007,
      "step": 1390
    },
    {
      "epoch": 0.6437471158283341,
      "grad_norm": 1.7676355127694694,
      "learning_rate": 6.78751237927623e-06,
      "loss": 0.9514,
      "step": 1395
    },
    {
      "epoch": 0.6460544531610521,
      "grad_norm": 1.6769380120076558,
      "learning_rate": 6.711333532614168e-06,
      "loss": 0.9698,
      "step": 1400
    },
    {
      "epoch": 0.6483617904937702,
      "grad_norm": 1.7272039849376555,
      "learning_rate": 6.6353680828063306e-06,
      "loss": 0.948,
      "step": 1405
    },
    {
      "epoch": 0.6506691278264882,
      "grad_norm": 1.7909691104530978,
      "learning_rate": 6.559620959141897e-06,
      "loss": 0.9741,
      "step": 1410
    },
    {
      "epoch": 0.6529764651592063,
      "grad_norm": 1.7584119603336634,
      "learning_rate": 6.48409707674317e-06,
      "loss": 0.9825,
      "step": 1415
    },
    {
      "epoch": 0.6552838024919243,
      "grad_norm": 1.704146715339984,
      "learning_rate": 6.408801336246645e-06,
      "loss": 0.9473,
      "step": 1420
    },
    {
      "epoch": 0.6575911398246423,
      "grad_norm": 1.675928516675119,
      "learning_rate": 6.3337386234850255e-06,
      "loss": 0.9726,
      "step": 1425
    },
    {
      "epoch": 0.6598984771573604,
      "grad_norm": 1.8640939079623915,
      "learning_rate": 6.258913809170169e-06,
      "loss": 0.9899,
      "step": 1430
    },
    {
      "epoch": 0.6622058144900784,
      "grad_norm": 1.7077639495220778,
      "learning_rate": 6.18433174857705e-06,
      "loss": 0.9856,
      "step": 1435
    },
    {
      "epoch": 0.6645131518227965,
      "grad_norm": 1.7756594990657744,
      "learning_rate": 6.1099972812287e-06,
      "loss": 0.9766,
      "step": 1440
    },
    {
      "epoch": 0.6668204891555145,
      "grad_norm": 1.9246917842171538,
      "learning_rate": 6.035915230582176e-06,
      "loss": 0.9802,
      "step": 1445
    },
    {
      "epoch": 0.6691278264882325,
      "grad_norm": 1.7061051671690723,
      "learning_rate": 5.962090403715592e-06,
      "loss": 0.9589,
      "step": 1450
    },
    {
      "epoch": 0.6714351638209506,
      "grad_norm": 1.9209301423646885,
      "learning_rate": 5.8885275910161574e-06,
      "loss": 0.9661,
      "step": 1455
    },
    {
      "epoch": 0.6737425011536686,
      "grad_norm": 1.7522165825796936,
      "learning_rate": 5.815231565869377e-06,
      "loss": 0.9683,
      "step": 1460
    },
    {
      "epoch": 0.6760498384863867,
      "grad_norm": 1.7093168808099815,
      "learning_rate": 5.742207084349274e-06,
      "loss": 0.9787,
      "step": 1465
    },
    {
      "epoch": 0.6783571758191047,
      "grad_norm": 1.7331687059615726,
      "learning_rate": 5.669458884909815e-06,
      "loss": 0.962,
      "step": 1470
    },
    {
      "epoch": 0.6806645131518227,
      "grad_norm": 1.7125984142423774,
      "learning_rate": 5.596991688077409e-06,
      "loss": 0.9749,
      "step": 1475
    },
    {
      "epoch": 0.6829718504845408,
      "grad_norm": 1.7116106483633,
      "learning_rate": 5.5248101961446065e-06,
      "loss": 0.9646,
      "step": 1480
    },
    {
      "epoch": 0.6852791878172588,
      "grad_norm": 1.7871177917200074,
      "learning_rate": 5.452919092864976e-06,
      "loss": 0.9869,
      "step": 1485
    },
    {
      "epoch": 0.687586525149977,
      "grad_norm": 1.7422263712914812,
      "learning_rate": 5.381323043149192e-06,
      "loss": 0.9598,
      "step": 1490
    },
    {
      "epoch": 0.689893862482695,
      "grad_norm": 1.827833481936086,
      "learning_rate": 5.310026692762316e-06,
      "loss": 0.9674,
      "step": 1495
    },
    {
      "epoch": 0.6922011998154131,
      "grad_norm": 1.8013595644003924,
      "learning_rate": 5.239034668022353e-06,
      "loss": 0.9573,
      "step": 1500
    },
    {
      "epoch": 0.6945085371481311,
      "grad_norm": 1.8007495209856474,
      "learning_rate": 5.168351575500049e-06,
      "loss": 0.9719,
      "step": 1505
    },
    {
      "epoch": 0.6968158744808491,
      "grad_norm": 1.7404494760342795,
      "learning_rate": 5.097982001719994e-06,
      "loss": 0.9724,
      "step": 1510
    },
    {
      "epoch": 0.6991232118135672,
      "grad_norm": 1.8207400554800481,
      "learning_rate": 5.027930512862976e-06,
      "loss": 0.9643,
      "step": 1515
    },
    {
      "epoch": 0.7014305491462852,
      "grad_norm": 1.6503774911907483,
      "learning_rate": 4.958201654469731e-06,
      "loss": 0.9718,
      "step": 1520
    },
    {
      "epoch": 0.7037378864790033,
      "grad_norm": 1.7042499652030019,
      "learning_rate": 4.888799951145948e-06,
      "loss": 0.9786,
      "step": 1525
    },
    {
      "epoch": 0.7060452238117213,
      "grad_norm": 1.691429781718496,
      "learning_rate": 4.8197299062687e-06,
      "loss": 0.9584,
      "step": 1530
    },
    {
      "epoch": 0.7083525611444393,
      "grad_norm": 1.789471718965235,
      "learning_rate": 4.750996001694215e-06,
      "loss": 0.978,
      "step": 1535
    },
    {
      "epoch": 0.7106598984771574,
      "grad_norm": 1.762516310353455,
      "learning_rate": 4.6826026974670665e-06,
      "loss": 0.9536,
      "step": 1540
    },
    {
      "epoch": 0.7129672358098754,
      "grad_norm": 1.6808685507807348,
      "learning_rate": 4.614554431530754e-06,
      "loss": 0.9453,
      "step": 1545
    },
    {
      "epoch": 0.7152745731425935,
      "grad_norm": 1.695661878440997,
      "learning_rate": 4.546855619439734e-06,
      "loss": 0.9674,
      "step": 1550
    },
    {
      "epoch": 0.7175819104753115,
      "grad_norm": 1.780885617378124,
      "learning_rate": 4.479510654072909e-06,
      "loss": 0.9724,
      "step": 1555
    },
    {
      "epoch": 0.7198892478080295,
      "grad_norm": 1.7441807694903777,
      "learning_rate": 4.412523905348568e-06,
      "loss": 0.9422,
      "step": 1560
    },
    {
      "epoch": 0.7221965851407476,
      "grad_norm": 1.7666139001524914,
      "learning_rate": 4.345899719940844e-06,
      "loss": 0.9496,
      "step": 1565
    },
    {
      "epoch": 0.7245039224734656,
      "grad_norm": 1.6463010573052135,
      "learning_rate": 4.279642420997655e-06,
      "loss": 0.9635,
      "step": 1570
    },
    {
      "epoch": 0.7268112598061837,
      "grad_norm": 1.7790169033851828,
      "learning_rate": 4.213756307860175e-06,
      "loss": 0.9795,
      "step": 1575
    },
    {
      "epoch": 0.7291185971389017,
      "grad_norm": 1.709252193673288,
      "learning_rate": 4.148245655783869e-06,
      "loss": 0.9542,
      "step": 1580
    },
    {
      "epoch": 0.7314259344716197,
      "grad_norm": 1.7064646780964507,
      "learning_rate": 4.083114715661069e-06,
      "loss": 0.9494,
      "step": 1585
    },
    {
      "epoch": 0.7337332718043378,
      "grad_norm": 1.7203471522785316,
      "learning_rate": 4.018367713745137e-06,
      "loss": 0.9513,
      "step": 1590
    },
    {
      "epoch": 0.7360406091370558,
      "grad_norm": 1.7329896835019194,
      "learning_rate": 3.954008851376252e-06,
      "loss": 0.9464,
      "step": 1595
    },
    {
      "epoch": 0.7383479464697739,
      "grad_norm": 1.6668720129339225,
      "learning_rate": 3.890042304708758e-06,
      "loss": 0.9349,
      "step": 1600
    },
    {
      "epoch": 0.7406552838024919,
      "grad_norm": 1.6612958616670062,
      "learning_rate": 3.826472224440202e-06,
      "loss": 0.9753,
      "step": 1605
    },
    {
      "epoch": 0.7429626211352099,
      "grad_norm": 1.689937062434287,
      "learning_rate": 3.763302735541987e-06,
      "loss": 0.9755,
      "step": 1610
    },
    {
      "epoch": 0.745269958467928,
      "grad_norm": 1.8524303075498816,
      "learning_rate": 3.700537936991733e-06,
      "loss": 0.9919,
      "step": 1615
    },
    {
      "epoch": 0.747577295800646,
      "grad_norm": 1.7330330880413027,
      "learning_rate": 3.6381819015072652e-06,
      "loss": 0.9968,
      "step": 1620
    },
    {
      "epoch": 0.7498846331333641,
      "grad_norm": 1.732375990079818,
      "learning_rate": 3.5762386752823643e-06,
      "loss": 0.9598,
      "step": 1625
    },
    {
      "epoch": 0.7521919704660821,
      "grad_norm": 1.6723382538398348,
      "learning_rate": 3.5147122777242203e-06,
      "loss": 0.9826,
      "step": 1630
    },
    {
      "epoch": 0.7544993077988001,
      "grad_norm": 1.698445076932435,
      "learning_rate": 3.4536067011925945e-06,
      "loss": 0.975,
      "step": 1635
    },
    {
      "epoch": 0.7568066451315182,
      "grad_norm": 1.6756544799204833,
      "learning_rate": 3.3929259107407785e-06,
      "loss": 0.9596,
      "step": 1640
    },
    {
      "epoch": 0.7591139824642362,
      "grad_norm": 1.7323687941815844,
      "learning_rate": 3.3326738438583116e-06,
      "loss": 0.9471,
      "step": 1645
    },
    {
      "epoch": 0.7614213197969543,
      "grad_norm": 1.6841658818773522,
      "learning_rate": 3.272854410215467e-06,
      "loss": 0.9478,
      "step": 1650
    },
    {
      "epoch": 0.7637286571296723,
      "grad_norm": 1.7258401397718819,
      "learning_rate": 3.213471491409568e-06,
      "loss": 0.9545,
      "step": 1655
    },
    {
      "epoch": 0.7660359944623903,
      "grad_norm": 1.754250495342998,
      "learning_rate": 3.1545289407131128e-06,
      "loss": 0.9557,
      "step": 1660
    },
    {
      "epoch": 0.7683433317951085,
      "grad_norm": 1.7109892895946872,
      "learning_rate": 3.0960305828237568e-06,
      "loss": 0.9649,
      "step": 1665
    },
    {
      "epoch": 0.7706506691278265,
      "grad_norm": 1.8321981237158624,
      "learning_rate": 3.0379802136161073e-06,
      "loss": 0.9612,
      "step": 1670
    },
    {
      "epoch": 0.7729580064605446,
      "grad_norm": 1.6838996787097582,
      "learning_rate": 2.9803815998954334e-06,
      "loss": 0.9701,
      "step": 1675
    },
    {
      "epoch": 0.7752653437932626,
      "grad_norm": 1.7069776476837635,
      "learning_rate": 2.9232384791532377e-06,
      "loss": 0.9724,
      "step": 1680
    },
    {
      "epoch": 0.7775726811259807,
      "grad_norm": 1.6302606016182208,
      "learning_rate": 2.866554559324731e-06,
      "loss": 0.9441,
      "step": 1685
    },
    {
      "epoch": 0.7798800184586987,
      "grad_norm": 1.6451304542174006,
      "learning_rate": 2.810333518548246e-06,
      "loss": 0.9337,
      "step": 1690
    },
    {
      "epoch": 0.7821873557914167,
      "grad_norm": 1.763422741436097,
      "learning_rate": 2.7545790049265506e-06,
      "loss": 0.9542,
      "step": 1695
    },
    {
      "epoch": 0.7844946931241348,
      "grad_norm": 1.6780739225283752,
      "learning_rate": 2.699294636290134e-06,
      "loss": 0.9468,
      "step": 1700
    },
    {
      "epoch": 0.7868020304568528,
      "grad_norm": 1.7170452157015115,
      "learning_rate": 2.6444839999624496e-06,
      "loss": 0.9333,
      "step": 1705
    },
    {
      "epoch": 0.7891093677895709,
      "grad_norm": 1.6339639009427172,
      "learning_rate": 2.5901506525271424e-06,
      "loss": 0.9656,
      "step": 1710
    },
    {
      "epoch": 0.7914167051222889,
      "grad_norm": 1.7076055984466658,
      "learning_rate": 2.5362981195972627e-06,
      "loss": 0.9292,
      "step": 1715
    },
    {
      "epoch": 0.7937240424550069,
      "grad_norm": 1.694775381636099,
      "learning_rate": 2.4829298955865022e-06,
      "loss": 0.9621,
      "step": 1720
    },
    {
      "epoch": 0.796031379787725,
      "grad_norm": 1.6448376757312444,
      "learning_rate": 2.4300494434824373e-06,
      "loss": 0.9323,
      "step": 1725
    },
    {
      "epoch": 0.798338717120443,
      "grad_norm": 1.7190721711044321,
      "learning_rate": 2.3776601946218225e-06,
      "loss": 0.9536,
      "step": 1730
    },
    {
      "epoch": 0.8006460544531611,
      "grad_norm": 1.7369056682520372,
      "learning_rate": 2.3257655484679376e-06,
      "loss": 0.9474,
      "step": 1735
    },
    {
      "epoch": 0.8029533917858791,
      "grad_norm": 1.9277048905233987,
      "learning_rate": 2.274368872390009e-06,
      "loss": 0.953,
      "step": 1740
    },
    {
      "epoch": 0.8052607291185971,
      "grad_norm": 1.6988058479966548,
      "learning_rate": 2.2234735014446905e-06,
      "loss": 0.9546,
      "step": 1745
    },
    {
      "epoch": 0.8075680664513152,
      "grad_norm": 1.708926311661711,
      "learning_rate": 2.1730827381596643e-06,
      "loss": 0.9442,
      "step": 1750
    },
    {
      "epoch": 0.8098754037840332,
      "grad_norm": 1.7384137551353784,
      "learning_rate": 2.123199852319352e-06,
      "loss": 0.9415,
      "step": 1755
    },
    {
      "epoch": 0.8121827411167513,
      "grad_norm": 1.706865871432203,
      "learning_rate": 2.073828080752728e-06,
      "loss": 0.9514,
      "step": 1760
    },
    {
      "epoch": 0.8144900784494693,
      "grad_norm": 1.631591345911517,
      "learning_rate": 2.024970627123295e-06,
      "loss": 0.9593,
      "step": 1765
    },
    {
      "epoch": 0.8167974157821873,
      "grad_norm": 1.7250014472303201,
      "learning_rate": 1.976630661721207e-06,
      "loss": 0.9312,
      "step": 1770
    },
    {
      "epoch": 0.8191047531149054,
      "grad_norm": 1.7176929983275837,
      "learning_rate": 1.9288113212575454e-06,
      "loss": 0.9392,
      "step": 1775
    },
    {
      "epoch": 0.8214120904476234,
      "grad_norm": 1.7515517183747666,
      "learning_rate": 1.8815157086607826e-06,
      "loss": 0.9461,
      "step": 1780
    },
    {
      "epoch": 0.8237194277803415,
      "grad_norm": 1.7256573401014044,
      "learning_rate": 1.8347468928754408e-06,
      "loss": 0.9625,
      "step": 1785
    },
    {
      "epoch": 0.8260267651130595,
      "grad_norm": 1.6925351828448565,
      "learning_rate": 1.7885079086629598e-06,
      "loss": 0.9618,
      "step": 1790
    },
    {
      "epoch": 0.8283341024457775,
      "grad_norm": 1.6848423059711715,
      "learning_rate": 1.7428017564047594e-06,
      "loss": 0.957,
      "step": 1795
    },
    {
      "epoch": 0.8306414397784956,
      "grad_norm": 1.685378392680059,
      "learning_rate": 1.697631401907559e-06,
      "loss": 0.9405,
      "step": 1800
    },
    {
      "epoch": 0.8329487771112136,
      "grad_norm": 1.779147836504438,
      "learning_rate": 1.6529997762109319e-06,
      "loss": 0.9475,
      "step": 1805
    },
    {
      "epoch": 0.8352561144439317,
      "grad_norm": 1.6862245640499274,
      "learning_rate": 1.6089097753971061e-06,
      "loss": 0.9433,
      "step": 1810
    },
    {
      "epoch": 0.8375634517766497,
      "grad_norm": 1.6387699919494911,
      "learning_rate": 1.565364260403055e-06,
      "loss": 0.9393,
      "step": 1815
    },
    {
      "epoch": 0.8398707891093677,
      "grad_norm": 1.7088328181524817,
      "learning_rate": 1.522366056834844e-06,
      "loss": 0.9322,
      "step": 1820
    },
    {
      "epoch": 0.8421781264420858,
      "grad_norm": 1.717214554275275,
      "learning_rate": 1.4799179547842823e-06,
      "loss": 0.9393,
      "step": 1825
    },
    {
      "epoch": 0.8444854637748038,
      "grad_norm": 1.717143943169584,
      "learning_rate": 1.4380227086478816e-06,
      "loss": 0.96,
      "step": 1830
    },
    {
      "epoch": 0.846792801107522,
      "grad_norm": 1.7390583641873172,
      "learning_rate": 1.3966830369481231e-06,
      "loss": 0.9487,
      "step": 1835
    },
    {
      "epoch": 0.84910013844024,
      "grad_norm": 1.6483510037137357,
      "learning_rate": 1.3559016221570663e-06,
      "loss": 0.9315,
      "step": 1840
    },
    {
      "epoch": 0.8514074757729581,
      "grad_norm": 1.7716145374153562,
      "learning_rate": 1.3156811105222723e-06,
      "loss": 0.9375,
      "step": 1845
    },
    {
      "epoch": 0.8537148131056761,
      "grad_norm": 1.7136369284376767,
      "learning_rate": 1.276024111895101e-06,
      "loss": 0.9592,
      "step": 1850
    },
    {
      "epoch": 0.8560221504383941,
      "grad_norm": 1.659445261277345,
      "learning_rate": 1.2369331995613664e-06,
      "loss": 0.9466,
      "step": 1855
    },
    {
      "epoch": 0.8583294877711122,
      "grad_norm": 1.7022849150801465,
      "learning_rate": 1.1984109100743445e-06,
      "loss": 0.934,
      "step": 1860
    },
    {
      "epoch": 0.8606368251038302,
      "grad_norm": 1.7296616243070897,
      "learning_rate": 1.1604597430902032e-06,
      "loss": 0.9413,
      "step": 1865
    },
    {
      "epoch": 0.8629441624365483,
      "grad_norm": 1.70400411645417,
      "learning_rate": 1.123082161205775e-06,
      "loss": 0.9192,
      "step": 1870
    },
    {
      "epoch": 0.8652514997692663,
      "grad_norm": 1.7716704719549248,
      "learning_rate": 1.0862805897987894e-06,
      "loss": 0.9313,
      "step": 1875
    },
    {
      "epoch": 0.8675588371019843,
      "grad_norm": 1.6028791905428008,
      "learning_rate": 1.0500574168704746e-06,
      "loss": 0.9222,
      "step": 1880
    },
    {
      "epoch": 0.8698661744347024,
      "grad_norm": 1.6811903757943443,
      "learning_rate": 1.014414992890611e-06,
      "loss": 0.9613,
      "step": 1885
    },
    {
      "epoch": 0.8721735117674204,
      "grad_norm": 1.6582769629121996,
      "learning_rate": 9.793556306450125e-07,
      "loss": 0.9397,
      "step": 1890
    },
    {
      "epoch": 0.8744808491001385,
      "grad_norm": 1.7329477389715338,
      "learning_rate": 9.448816050854559e-07,
      "loss": 0.9456,
      "step": 1895
    },
    {
      "epoch": 0.8767881864328565,
      "grad_norm": 1.6579278218600528,
      "learning_rate": 9.10995153182056e-07,
      "loss": 0.9622,
      "step": 1900
    },
    {
      "epoch": 0.8790955237655745,
      "grad_norm": 1.7059466024322731,
      "learning_rate": 8.776984737781135e-07,
      "loss": 0.9247,
      "step": 1905
    },
    {
      "epoch": 0.8814028610982926,
      "grad_norm": 1.6587934531932846,
      "learning_rate": 8.449937274474396e-07,
      "loss": 0.9287,
      "step": 1910
    },
    {
      "epoch": 0.8837101984310106,
      "grad_norm": 1.7000421816452764,
      "learning_rate": 8.128830363541574e-07,
      "loss": 0.9579,
      "step": 1915
    },
    {
      "epoch": 0.8860175357637287,
      "grad_norm": 1.5982289727068608,
      "learning_rate": 7.81368484114996e-07,
      "loss": 0.9252,
      "step": 1920
    },
    {
      "epoch": 0.8883248730964467,
      "grad_norm": 1.6595039047537794,
      "learning_rate": 7.504521156640854e-07,
      "loss": 0.9535,
      "step": 1925
    },
    {
      "epoch": 0.8906322104291647,
      "grad_norm": 1.67142320517366,
      "learning_rate": 7.201359371202698e-07,
      "loss": 0.9342,
      "step": 1930
    },
    {
      "epoch": 0.8929395477618828,
      "grad_norm": 1.724210373217245,
      "learning_rate": 6.904219156569325e-07,
      "loss": 0.9537,
      "step": 1935
    },
    {
      "epoch": 0.8952468850946008,
      "grad_norm": 1.775137829218875,
      "learning_rate": 6.613119793743428e-07,
      "loss": 0.9407,
      "step": 1940
    },
    {
      "epoch": 0.8975542224273189,
      "grad_norm": 1.6829966494434596,
      "learning_rate": 6.32808017174551e-07,
      "loss": 0.9271,
      "step": 1945
    },
    {
      "epoch": 0.8998615597600369,
      "grad_norm": 1.7666732440040138,
      "learning_rate": 6.049118786388153e-07,
      "loss": 0.9299,
      "step": 1950
    },
    {
      "epoch": 0.9021688970927549,
      "grad_norm": 1.7328446243608238,
      "learning_rate": 5.776253739075887e-07,
      "loss": 0.9368,
      "step": 1955
    },
    {
      "epoch": 0.904476234425473,
      "grad_norm": 1.794453478228994,
      "learning_rate": 5.509502735630601e-07,
      "loss": 0.9584,
      "step": 1960
    },
    {
      "epoch": 0.906783571758191,
      "grad_norm": 1.8595416734645607,
      "learning_rate": 5.248883085142653e-07,
      "loss": 0.9278,
      "step": 1965
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 1.8064599818138745,
      "learning_rate": 4.994411698847668e-07,
      "loss": 0.9521,
      "step": 1970
    },
    {
      "epoch": 0.9113982464236271,
      "grad_norm": 11.97761580494739,
      "learning_rate": 4.746105089029229e-07,
      "loss": 0.9353,
      "step": 1975
    },
    {
      "epoch": 0.9137055837563451,
      "grad_norm": 1.91129591540662,
      "learning_rate": 4.50397936794742e-07,
      "loss": 0.9518,
      "step": 1980
    },
    {
      "epoch": 0.9160129210890632,
      "grad_norm": 1.68892958160335,
      "learning_rate": 4.268050246793276e-07,
      "loss": 0.9417,
      "step": 1985
    },
    {
      "epoch": 0.9183202584217812,
      "grad_norm": 1.7682216031642473,
      "learning_rate": 4.038333034669406e-07,
      "loss": 0.9575,
      "step": 1990
    },
    {
      "epoch": 0.9206275957544993,
      "grad_norm": 1.6202959145852942,
      "learning_rate": 3.814842637596483e-07,
      "loss": 0.9202,
      "step": 1995
    },
    {
      "epoch": 0.9229349330872173,
      "grad_norm": 1.7355964322786217,
      "learning_rate": 3.5975935575461083e-07,
      "loss": 0.9408,
      "step": 2000
    },
    {
      "epoch": 0.9252422704199353,
      "grad_norm": 1.784833888232325,
      "learning_rate": 3.3865998914997645e-07,
      "loss": 0.9451,
      "step": 2005
    },
    {
      "epoch": 0.9275496077526535,
      "grad_norm": 1.7347540917405002,
      "learning_rate": 3.1818753305340566e-07,
      "loss": 0.9503,
      "step": 2010
    },
    {
      "epoch": 0.9298569450853715,
      "grad_norm": 1.7098932522181238,
      "learning_rate": 2.9834331589323697e-07,
      "loss": 0.9648,
      "step": 2015
    },
    {
      "epoch": 0.9321642824180896,
      "grad_norm": 1.7375733049730988,
      "learning_rate": 2.791286253322856e-07,
      "loss": 0.9325,
      "step": 2020
    },
    {
      "epoch": 0.9344716197508076,
      "grad_norm": 1.7376811511996035,
      "learning_rate": 2.605447081842838e-07,
      "loss": 0.9236,
      "step": 2025
    },
    {
      "epoch": 0.9367789570835257,
      "grad_norm": 1.6285382014408727,
      "learning_rate": 2.425927703329856e-07,
      "loss": 0.9374,
      "step": 2030
    },
    {
      "epoch": 0.9390862944162437,
      "grad_norm": 1.7187090366001978,
      "learning_rate": 2.2527397665391026e-07,
      "loss": 0.9408,
      "step": 2035
    },
    {
      "epoch": 0.9413936317489617,
      "grad_norm": 1.6018424242699771,
      "learning_rate": 2.0858945093876315e-07,
      "loss": 0.9255,
      "step": 2040
    },
    {
      "epoch": 0.9437009690816798,
      "grad_norm": 1.7403672056926338,
      "learning_rate": 1.9254027582250588e-07,
      "loss": 0.9386,
      "step": 2045
    },
    {
      "epoch": 0.9460083064143978,
      "grad_norm": 1.6413885110477684,
      "learning_rate": 1.7712749271311392e-07,
      "loss": 0.9463,
      "step": 2050
    },
    {
      "epoch": 0.9483156437471159,
      "grad_norm": 1.6584652712298515,
      "learning_rate": 1.6235210172399373e-07,
      "loss": 0.9197,
      "step": 2055
    },
    {
      "epoch": 0.9506229810798339,
      "grad_norm": 1.7146073811212112,
      "learning_rate": 1.4821506160909492e-07,
      "loss": 0.9325,
      "step": 2060
    },
    {
      "epoch": 0.9529303184125519,
      "grad_norm": 1.7862356926674563,
      "learning_rate": 1.3471728970068986e-07,
      "loss": 0.9415,
      "step": 2065
    },
    {
      "epoch": 0.95523765574527,
      "grad_norm": 1.7900835474706864,
      "learning_rate": 1.2185966184985687e-07,
      "loss": 0.9516,
      "step": 2070
    },
    {
      "epoch": 0.957544993077988,
      "grad_norm": 1.61965861822062,
      "learning_rate": 1.0964301236963904e-07,
      "loss": 0.9272,
      "step": 2075
    },
    {
      "epoch": 0.9598523304107061,
      "grad_norm": 1.752477339334271,
      "learning_rate": 9.806813398091419e-08,
      "loss": 0.9231,
      "step": 2080
    },
    {
      "epoch": 0.9621596677434241,
      "grad_norm": 1.6566621651012274,
      "learning_rate": 8.713577776095494e-08,
      "loss": 0.9293,
      "step": 2085
    },
    {
      "epoch": 0.9644670050761421,
      "grad_norm": 1.637994937785989,
      "learning_rate": 7.684665309468875e-08,
      "loss": 0.9539,
      "step": 2090
    },
    {
      "epoch": 0.9667743424088602,
      "grad_norm": 1.6112435656292767,
      "learning_rate": 6.720142762867032e-08,
      "loss": 0.9558,
      "step": 2095
    },
    {
      "epoch": 0.9690816797415782,
      "grad_norm": 1.7629733611663445,
      "learning_rate": 5.820072722775849e-08,
      "loss": 0.9441,
      "step": 2100
    },
    {
      "epoch": 0.9713890170742963,
      "grad_norm": 1.6502417380976349,
      "learning_rate": 4.984513593450424e-08,
      "loss": 0.9527,
      "step": 2105
    },
    {
      "epoch": 0.9736963544070143,
      "grad_norm": 1.697689686578805,
      "learning_rate": 4.2135195931249925e-08,
      "loss": 0.9468,
      "step": 2110
    },
    {
      "epoch": 0.9760036917397323,
      "grad_norm": 1.7391293446601994,
      "learning_rate": 3.50714075049563e-08,
      "loss": 0.932,
      "step": 2115
    },
    {
      "epoch": 0.9783110290724504,
      "grad_norm": 1.7092970910189305,
      "learning_rate": 2.8654229014730694e-08,
      "loss": 0.9377,
      "step": 2120
    },
    {
      "epoch": 0.9806183664051684,
      "grad_norm": 1.6908979053958657,
      "learning_rate": 2.2884076862089712e-08,
      "loss": 0.9238,
      "step": 2125
    },
    {
      "epoch": 0.9829257037378865,
      "grad_norm": 1.634296694613385,
      "learning_rate": 1.7761325463937495e-08,
      "loss": 0.9473,
      "step": 2130
    },
    {
      "epoch": 0.9852330410706045,
      "grad_norm": 1.700195091519778,
      "learning_rate": 1.3286307228269623e-08,
      "loss": 0.9491,
      "step": 2135
    },
    {
      "epoch": 0.9875403784033225,
      "grad_norm": 1.6899977441806657,
      "learning_rate": 9.459312532608122e-09,
      "loss": 0.9393,
      "step": 2140
    },
    {
      "epoch": 0.9898477157360406,
      "grad_norm": 1.6459431767651571,
      "learning_rate": 6.280589705153217e-09,
      "loss": 0.9316,
      "step": 2145
    },
    {
      "epoch": 0.9921550530687586,
      "grad_norm": 1.6824622254831971,
      "learning_rate": 3.750345008675105e-09,
      "loss": 0.9455,
      "step": 2150
    },
    {
      "epoch": 0.9944623904014767,
      "grad_norm": 1.6711402676574085,
      "learning_rate": 1.8687426271246646e-09,
      "loss": 0.9299,
      "step": 2155
    },
    {
      "epoch": 0.9967697277341947,
      "grad_norm": 1.7394983815714609,
      "learning_rate": 6.359046549864189e-10,
      "loss": 0.9262,
      "step": 2160
    },
    {
      "epoch": 0.9990770650669127,
      "grad_norm": 1.9029748936658466,
      "learning_rate": 5.1911089347100876e-11,
      "loss": 0.973,
      "step": 2165
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.9539673924446106,
      "eval_runtime": 317.6397,
      "eval_samples_per_second": 48.325,
      "eval_steps_per_second": 0.756,
      "step": 2167
    },
    {
      "epoch": 1.0,
      "step": 2167,
      "total_flos": 453725713858560.0,
      "train_loss": 1.0076359760722753,
      "train_runtime": 13620.7718,
      "train_samples_per_second": 10.182,
      "train_steps_per_second": 0.159
    }
  ],
  "logging_steps": 5,
  "max_steps": 2167,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 453725713858560.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}