{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998492272898606,
  "eval_steps": 500,
  "global_step": 4421,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0011307953260459858,
      "grad_norm": 0.205332413315773,
      "learning_rate": 2.5e-06,
      "loss": 0.9778,
      "step": 5
    },
    {
      "epoch": 0.0022615906520919715,
      "grad_norm": 0.2380959391593933,
      "learning_rate": 5e-06,
      "loss": 0.9816,
      "step": 10
    },
    {
      "epoch": 0.003392385978137957,
      "grad_norm": 0.22828762233257294,
      "learning_rate": 7.5e-06,
      "loss": 1.0123,
      "step": 15
    },
    {
      "epoch": 0.004523181304183943,
      "grad_norm": 0.1957542896270752,
      "learning_rate": 1e-05,
      "loss": 0.9404,
      "step": 20
    },
    {
      "epoch": 0.005653976630229929,
      "grad_norm": 0.2502771019935608,
      "learning_rate": 1.25e-05,
      "loss": 0.9604,
      "step": 25
    },
    {
      "epoch": 0.006784771956275914,
      "grad_norm": 0.24806493520736694,
      "learning_rate": 1.5e-05,
      "loss": 1.0407,
      "step": 30
    },
    {
      "epoch": 0.0079155672823219,
      "grad_norm": 0.28463977575302124,
      "learning_rate": 1.75e-05,
      "loss": 1.0461,
      "step": 35
    },
    {
      "epoch": 0.009046362608367886,
      "grad_norm": 0.2142462134361267,
      "learning_rate": 2e-05,
      "loss": 0.9104,
      "step": 40
    },
    {
      "epoch": 0.010177157934413872,
      "grad_norm": 0.21732334792613983,
      "learning_rate": 2.25e-05,
      "loss": 0.8991,
      "step": 45
    },
    {
      "epoch": 0.011307953260459858,
      "grad_norm": 0.2227325588464737,
      "learning_rate": 2.5e-05,
      "loss": 0.8901,
      "step": 50
    },
    {
      "epoch": 0.012438748586505842,
      "grad_norm": 0.19881105422973633,
      "learning_rate": 2.7500000000000004e-05,
      "loss": 0.8378,
      "step": 55
    },
    {
      "epoch": 0.013569543912551827,
      "grad_norm": 0.21935518085956573,
      "learning_rate": 3e-05,
      "loss": 0.8743,
      "step": 60
    },
    {
      "epoch": 0.014700339238597813,
      "grad_norm": 0.21730449795722961,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 0.8588,
      "step": 65
    },
    {
      "epoch": 0.0158311345646438,
      "grad_norm": 0.23200418055057526,
      "learning_rate": 3.5e-05,
      "loss": 0.7527,
      "step": 70
    },
    {
      "epoch": 0.016961929890689786,
      "grad_norm": 0.20900775492191315,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.8365,
      "step": 75
    },
    {
      "epoch": 0.018092725216735772,
      "grad_norm": 0.31192561984062195,
      "learning_rate": 4e-05,
      "loss": 0.7791,
      "step": 80
    },
    {
      "epoch": 0.019223520542781758,
      "grad_norm": 0.25915804505348206,
      "learning_rate": 4.25e-05,
      "loss": 0.8506,
      "step": 85
    },
    {
      "epoch": 0.020354315868827744,
      "grad_norm": 0.20527321100234985,
      "learning_rate": 4.5e-05,
      "loss": 0.8062,
      "step": 90
    },
    {
      "epoch": 0.02148511119487373,
      "grad_norm": 0.2385016530752182,
      "learning_rate": 4.75e-05,
      "loss": 0.7525,
      "step": 95
    },
    {
      "epoch": 0.022615906520919715,
      "grad_norm": 0.2394818663597107,
      "learning_rate": 5e-05,
      "loss": 0.7416,
      "step": 100
    },
    {
      "epoch": 0.023746701846965697,
      "grad_norm": 0.269607275724411,
      "learning_rate": 4.999983481113995e-05,
      "loss": 0.7653,
      "step": 105
    },
    {
      "epoch": 0.024877497173011683,
      "grad_norm": 0.21368731558322906,
      "learning_rate": 4.9999339246742786e-05,
      "loss": 0.75,
      "step": 110
    },
    {
      "epoch": 0.02600829249905767,
      "grad_norm": 0.25945496559143066,
      "learning_rate": 4.9998513313357435e-05,
      "loss": 0.7693,
      "step": 115
    },
    {
      "epoch": 0.027139087825103655,
      "grad_norm": 0.2617523968219757,
      "learning_rate": 4.999735702189871e-05,
      "loss": 0.7995,
      "step": 120
    },
    {
      "epoch": 0.02826988315114964,
      "grad_norm": 0.26992905139923096,
      "learning_rate": 4.999587038764713e-05,
      "loss": 0.7784,
      "step": 125
    },
    {
      "epoch": 0.029400678477195626,
      "grad_norm": 0.23823940753936768,
      "learning_rate": 4.999405343024871e-05,
      "loss": 0.7316,
      "step": 130
    },
    {
      "epoch": 0.030531473803241612,
      "grad_norm": 0.2858569920063019,
      "learning_rate": 4.9991906173714756e-05,
      "loss": 0.7796,
      "step": 135
    },
    {
      "epoch": 0.0316622691292876,
      "grad_norm": 0.25298023223876953,
      "learning_rate": 4.99894286464215e-05,
      "loss": 0.7169,
      "step": 140
    },
    {
      "epoch": 0.03279306445533359,
      "grad_norm": 0.35693949460983276,
      "learning_rate": 4.998662088110972e-05,
      "loss": 0.8062,
      "step": 145
    },
    {
      "epoch": 0.03392385978137957,
      "grad_norm": 0.42634308338165283,
      "learning_rate": 4.998348291488435e-05,
      "loss": 0.7035,
      "step": 150
    },
    {
      "epoch": 0.03505465510742556,
      "grad_norm": 0.34167715907096863,
      "learning_rate": 4.998001478921395e-05,
      "loss": 0.7683,
      "step": 155
    },
    {
      "epoch": 0.036185450433471544,
      "grad_norm": 0.2687824070453644,
      "learning_rate": 4.997621654993018e-05,
      "loss": 0.7816,
      "step": 160
    },
    {
      "epoch": 0.03731624575951753,
      "grad_norm": 0.2919199764728546,
      "learning_rate": 4.997208824722719e-05,
      "loss": 0.7392,
      "step": 165
    },
    {
      "epoch": 0.038447041085563516,
      "grad_norm": 0.24317045509815216,
      "learning_rate": 4.9967629935660944e-05,
      "loss": 0.6972,
      "step": 170
    },
    {
      "epoch": 0.0395778364116095,
      "grad_norm": 0.2556512951850891,
      "learning_rate": 4.9962841674148516e-05,
      "loss": 0.7431,
      "step": 175
    },
    {
      "epoch": 0.04070863173765549,
      "grad_norm": 0.35918310284614563,
      "learning_rate": 4.99577235259673e-05,
      "loss": 0.78,
      "step": 180
    },
    {
      "epoch": 0.04183942706370147,
      "grad_norm": 0.28553536534309387,
      "learning_rate": 4.9952275558754185e-05,
      "loss": 0.7467,
      "step": 185
    },
    {
      "epoch": 0.04297022238974746,
      "grad_norm": 0.25147977471351624,
      "learning_rate": 4.994649784450465e-05,
      "loss": 0.7579,
      "step": 190
    },
    {
      "epoch": 0.044101017715793445,
      "grad_norm": 0.3088456690311432,
      "learning_rate": 4.994039045957182e-05,
      "loss": 0.752,
      "step": 195
    },
    {
      "epoch": 0.04523181304183943,
      "grad_norm": 0.32329487800598145,
      "learning_rate": 4.993395348466544e-05,
      "loss": 0.7012,
      "step": 200
    },
    {
      "epoch": 0.046362608367885416,
      "grad_norm": 0.28732138872146606,
      "learning_rate": 4.992718700485085e-05,
      "loss": 0.7247,
      "step": 205
    },
    {
      "epoch": 0.047493403693931395,
      "grad_norm": 0.2657299339771271,
      "learning_rate": 4.99200911095478e-05,
      "loss": 0.7247,
      "step": 210
    },
    {
      "epoch": 0.04862419901997738,
      "grad_norm": 0.30124104022979736,
      "learning_rate": 4.991266589252933e-05,
      "loss": 0.7001,
      "step": 215
    },
    {
      "epoch": 0.049754994346023367,
      "grad_norm": 0.3533799946308136,
      "learning_rate": 4.990491145192049e-05,
      "loss": 0.7714,
      "step": 220
    },
    {
      "epoch": 0.05088578967206935,
      "grad_norm": 0.29441332817077637,
      "learning_rate": 4.989682789019706e-05,
      "loss": 0.7338,
      "step": 225
    },
    {
      "epoch": 0.05201658499811534,
      "grad_norm": 0.2670339345932007,
      "learning_rate": 4.988841531418418e-05,
      "loss": 0.719,
      "step": 230
    },
    {
      "epoch": 0.053147380324161324,
      "grad_norm": 0.44572877883911133,
      "learning_rate": 4.9879673835054955e-05,
      "loss": 0.7315,
      "step": 235
    },
    {
      "epoch": 0.05427817565020731,
      "grad_norm": 0.29553067684173584,
      "learning_rate": 4.9870603568328985e-05,
      "loss": 0.7495,
      "step": 240
    },
    {
      "epoch": 0.055408970976253295,
      "grad_norm": 0.26393231749534607,
      "learning_rate": 4.986120463387084e-05,
      "loss": 0.6637,
      "step": 245
    },
    {
      "epoch": 0.05653976630229928,
      "grad_norm": 0.35982418060302734,
      "learning_rate": 4.985147715588845e-05,
      "loss": 0.7571,
      "step": 250
    },
    {
      "epoch": 0.05767056162834527,
      "grad_norm": 0.38977113366127014,
      "learning_rate": 4.9841421262931506e-05,
      "loss": 0.7551,
      "step": 255
    },
    {
      "epoch": 0.05880135695439125,
      "grad_norm": 0.28935956954956055,
      "learning_rate": 4.983103708788972e-05,
      "loss": 0.7863,
      "step": 260
    },
    {
      "epoch": 0.05993215228043724,
      "grad_norm": 0.34443530440330505,
      "learning_rate": 4.98203247679911e-05,
      "loss": 0.8106,
      "step": 265
    },
    {
      "epoch": 0.061062947606483224,
      "grad_norm": 0.4763427674770355,
      "learning_rate": 4.980928444480011e-05,
      "loss": 0.7729,
      "step": 270
    },
    {
      "epoch": 0.06219374293252921,
      "grad_norm": 0.2860422730445862,
      "learning_rate": 4.9797916264215824e-05,
      "loss": 0.7593,
      "step": 275
    },
    {
      "epoch": 0.0633245382585752,
      "grad_norm": 0.28870680928230286,
      "learning_rate": 4.978622037647e-05,
      "loss": 0.7574,
      "step": 280
    },
    {
      "epoch": 0.06445533358462119,
      "grad_norm": 0.40277180075645447,
      "learning_rate": 4.9774196936125056e-05,
      "loss": 0.799,
      "step": 285
    },
    {
      "epoch": 0.06558612891066717,
      "grad_norm": 0.3290288746356964,
      "learning_rate": 4.9761846102072065e-05,
      "loss": 0.7519,
      "step": 290
    },
    {
      "epoch": 0.06671692423671316,
      "grad_norm": 0.3139791190624237,
      "learning_rate": 4.9749168037528635e-05,
      "loss": 0.6837,
      "step": 295
    },
    {
      "epoch": 0.06784771956275915,
      "grad_norm": 0.30802035331726074,
      "learning_rate": 4.9736162910036785e-05,
      "loss": 0.7662,
      "step": 300
    },
    {
      "epoch": 0.06897851488880513,
      "grad_norm": 0.34561124444007874,
      "learning_rate": 4.972283089146067e-05,
      "loss": 0.6897,
      "step": 305
    },
    {
      "epoch": 0.07010931021485112,
      "grad_norm": 0.3372039198875427,
      "learning_rate": 4.970917215798438e-05,
      "loss": 0.7344,
      "step": 310
    },
    {
      "epoch": 0.0712401055408971,
      "grad_norm": 0.41160914301872253,
      "learning_rate": 4.9695186890109567e-05,
      "loss": 0.832,
      "step": 315
    },
    {
      "epoch": 0.07237090086694309,
      "grad_norm": 0.2914057672023773,
      "learning_rate": 4.968087527265306e-05,
      "loss": 0.7113,
      "step": 320
    },
    {
      "epoch": 0.07350169619298907,
      "grad_norm": 0.3247675597667694,
      "learning_rate": 4.966623749474445e-05,
      "loss": 0.6996,
      "step": 325
    },
    {
      "epoch": 0.07463249151903506,
      "grad_norm": 0.435735285282135,
      "learning_rate": 4.9651273749823546e-05,
      "loss": 0.8236,
      "step": 330
    },
    {
      "epoch": 0.07576328684508105,
      "grad_norm": 0.3213053047657013,
      "learning_rate": 4.963598423563788e-05,
      "loss": 0.7012,
      "step": 335
    },
    {
      "epoch": 0.07689408217112703,
      "grad_norm": 0.3745056390762329,
      "learning_rate": 4.962036915424004e-05,
      "loss": 0.7018,
      "step": 340
    },
    {
      "epoch": 0.07802487749717302,
      "grad_norm": 0.28368842601776123,
      "learning_rate": 4.960442871198503e-05,
      "loss": 0.7084,
      "step": 345
    },
    {
      "epoch": 0.079155672823219,
      "grad_norm": 0.2621799409389496,
      "learning_rate": 4.958816311952752e-05,
      "loss": 0.7217,
      "step": 350
    },
    {
      "epoch": 0.08028646814926499,
      "grad_norm": 0.25561287999153137,
      "learning_rate": 4.95715725918191e-05,
      "loss": 0.7616,
      "step": 355
    },
    {
      "epoch": 0.08141726347531097,
      "grad_norm": 0.3495071828365326,
      "learning_rate": 4.9554657348105385e-05,
      "loss": 0.7061,
      "step": 360
    },
    {
      "epoch": 0.08254805880135696,
      "grad_norm": 0.3490068018436432,
      "learning_rate": 4.953741761192317e-05,
      "loss": 0.7809,
      "step": 365
    },
    {
      "epoch": 0.08367885412740295,
      "grad_norm": 0.39416739344596863,
      "learning_rate": 4.9519853611097434e-05,
      "loss": 0.7282,
      "step": 370
    },
    {
      "epoch": 0.08480964945344893,
      "grad_norm": 0.2763444185256958,
      "learning_rate": 4.950196557773837e-05,
      "loss": 0.7262,
      "step": 375
    },
    {
      "epoch": 0.08594044477949492,
      "grad_norm": 0.29107871651649475,
      "learning_rate": 4.948375374823828e-05,
      "loss": 0.7346,
      "step": 380
    },
    {
      "epoch": 0.0870712401055409,
      "grad_norm": 0.28965339064598083,
      "learning_rate": 4.946521836326847e-05,
      "loss": 0.6768,
      "step": 385
    },
    {
      "epoch": 0.08820203543158689,
      "grad_norm": 0.31072792410850525,
      "learning_rate": 4.9446359667776065e-05,
      "loss": 0.7277,
      "step": 390
    },
    {
      "epoch": 0.08933283075763288,
      "grad_norm": 0.2789427936077118,
      "learning_rate": 4.9427177910980794e-05,
      "loss": 0.7481,
      "step": 395
    },
    {
      "epoch": 0.09046362608367886,
      "grad_norm": 0.2573710083961487,
      "learning_rate": 4.9407673346371644e-05,
      "loss": 0.7077,
      "step": 400
    },
    {
      "epoch": 0.09159442140972485,
      "grad_norm": 0.4152914881706238,
      "learning_rate": 4.938784623170357e-05,
      "loss": 0.7233,
      "step": 405
    },
    {
      "epoch": 0.09272521673577083,
      "grad_norm": 0.30680012702941895,
      "learning_rate": 4.936769682899404e-05,
      "loss": 0.7353,
      "step": 410
    },
    {
      "epoch": 0.0938560120618168,
      "grad_norm": 0.30145958065986633,
      "learning_rate": 4.934722540451961e-05,
      "loss": 0.7001,
      "step": 415
    },
    {
      "epoch": 0.09498680738786279,
      "grad_norm": 0.31772518157958984,
      "learning_rate": 4.932643222881238e-05,
      "loss": 0.7183,
      "step": 420
    },
    {
      "epoch": 0.09611760271390878,
      "grad_norm": 0.3001084327697754,
      "learning_rate": 4.930531757665643e-05,
      "loss": 0.6898,
      "step": 425
    },
    {
      "epoch": 0.09724839803995476,
      "grad_norm": 0.2780250012874603,
      "learning_rate": 4.928388172708418e-05,
      "loss": 0.7782,
      "step": 430
    },
    {
      "epoch": 0.09837919336600075,
      "grad_norm": 0.28147390484809875,
      "learning_rate": 4.926212496337272e-05,
      "loss": 0.7311,
      "step": 435
    },
    {
      "epoch": 0.09950998869204673,
      "grad_norm": 0.4945797324180603,
      "learning_rate": 4.924004757304005e-05,
      "loss": 0.8001,
      "step": 440
    },
    {
      "epoch": 0.10064078401809272,
      "grad_norm": 0.3075043857097626,
      "learning_rate": 4.921764984784128e-05,
      "loss": 0.7233,
      "step": 445
    },
    {
      "epoch": 0.1017715793441387,
      "grad_norm": 0.3451552093029022,
      "learning_rate": 4.919493208376479e-05,
      "loss": 0.6629,
      "step": 450
    },
    {
      "epoch": 0.10290237467018469,
      "grad_norm": 0.28970155119895935,
      "learning_rate": 4.917189458102831e-05,
      "loss": 0.7793,
      "step": 455
    },
    {
      "epoch": 0.10403316999623068,
      "grad_norm": 0.2446502447128296,
      "learning_rate": 4.9148537644074936e-05,
      "loss": 0.6899,
      "step": 460
    },
    {
      "epoch": 0.10516396532227666,
      "grad_norm": 0.2791134715080261,
      "learning_rate": 4.912486158156912e-05,
      "loss": 0.69,
      "step": 465
    },
    {
      "epoch": 0.10629476064832265,
      "grad_norm": 0.35021790862083435,
      "learning_rate": 4.910086670639264e-05,
      "loss": 0.7497,
      "step": 470
    },
    {
      "epoch": 0.10742555597436863,
      "grad_norm": 0.27730756998062134,
      "learning_rate": 4.907655333564035e-05,
      "loss": 0.6799,
      "step": 475
    },
    {
      "epoch": 0.10855635130041462,
      "grad_norm": 0.3183215856552124,
      "learning_rate": 4.9051921790616095e-05,
      "loss": 0.723,
      "step": 480
    },
    {
      "epoch": 0.1096871466264606,
      "grad_norm": 0.31501445174217224,
      "learning_rate": 4.902697239682844e-05,
      "loss": 0.7611,
      "step": 485
    },
    {
      "epoch": 0.11081794195250659,
      "grad_norm": 0.30429741740226746,
      "learning_rate": 4.9001705483986314e-05,
      "loss": 0.7909,
      "step": 490
    },
    {
      "epoch": 0.11194873727855258,
      "grad_norm": 0.27980148792266846,
      "learning_rate": 4.8976121385994735e-05,
      "loss": 0.7085,
      "step": 495
    },
    {
      "epoch": 0.11307953260459856,
      "grad_norm": 0.2850303649902344,
      "learning_rate": 4.895022044095034e-05,
      "loss": 0.751,
      "step": 500
    },
    {
      "epoch": 0.11421032793064455,
      "grad_norm": 0.30970653891563416,
      "learning_rate": 4.892400299113693e-05,
      "loss": 0.6766,
      "step": 505
    },
    {
      "epoch": 0.11534112325669053,
      "grad_norm": 0.4121417999267578,
      "learning_rate": 4.8897469383020966e-05,
      "loss": 0.6824,
      "step": 510
    },
    {
      "epoch": 0.11647191858273652,
      "grad_norm": 0.3178861737251282,
      "learning_rate": 4.887061996724696e-05,
      "loss": 0.6798,
      "step": 515
    },
    {
      "epoch": 0.1176027139087825,
      "grad_norm": 0.3267967700958252,
      "learning_rate": 4.884345509863286e-05,
      "loss": 0.7661,
      "step": 520
    },
    {
      "epoch": 0.11873350923482849,
      "grad_norm": 0.3270506262779236,
      "learning_rate": 4.881597513616536e-05,
      "loss": 0.7321,
      "step": 525
    },
    {
      "epoch": 0.11986430456087448,
      "grad_norm": 0.3873696029186249,
      "learning_rate": 4.878818044299517e-05,
      "loss": 0.7278,
      "step": 530
    },
    {
      "epoch": 0.12099509988692046,
      "grad_norm": 0.3305418789386749,
      "learning_rate": 4.876007138643216e-05,
      "loss": 0.7304,
      "step": 535
    },
    {
      "epoch": 0.12212589521296645,
      "grad_norm": 0.26419228315353394,
      "learning_rate": 4.873164833794059e-05,
      "loss": 0.7248,
      "step": 540
    },
    {
      "epoch": 0.12325669053901243,
      "grad_norm": 0.3038617968559265,
      "learning_rate": 4.870291167313413e-05,
      "loss": 0.6681,
      "step": 545
    },
    {
      "epoch": 0.12438748586505842,
      "grad_norm": 0.2820129692554474,
      "learning_rate": 4.8673861771770934e-05,
      "loss": 0.7434,
      "step": 550
    },
    {
      "epoch": 0.12551828119110442,
      "grad_norm": 0.3421660363674164,
      "learning_rate": 4.8644499017748615e-05,
      "loss": 0.7266,
      "step": 555
    },
    {
      "epoch": 0.1266490765171504,
      "grad_norm": 0.3642486035823822,
      "learning_rate": 4.861482379909914e-05,
      "loss": 0.7421,
      "step": 560
    },
    {
      "epoch": 0.1277798718431964,
      "grad_norm": 0.35517194867134094,
      "learning_rate": 4.8584836507983786e-05,
      "loss": 0.7432,
      "step": 565
    },
    {
      "epoch": 0.12891066716924238,
      "grad_norm": 0.3161648213863373,
      "learning_rate": 4.855453754068784e-05,
      "loss": 0.7098,
      "step": 570
    },
    {
      "epoch": 0.13004146249528836,
      "grad_norm": 0.296561598777771,
      "learning_rate": 4.852392729761547e-05,
      "loss": 0.6641,
      "step": 575
    },
    {
      "epoch": 0.13117225782133435,
      "grad_norm": 0.323515921831131,
      "learning_rate": 4.849300618328435e-05,
      "loss": 0.7522,
      "step": 580
    },
    {
      "epoch": 0.13230305314738033,
      "grad_norm": 0.34789595007896423,
      "learning_rate": 4.8461774606320386e-05,
      "loss": 0.7712,
      "step": 585
    },
    {
      "epoch": 0.13343384847342632,
      "grad_norm": 0.3661488890647888,
      "learning_rate": 4.843023297945226e-05,
      "loss": 0.6862,
      "step": 590
    },
    {
      "epoch": 0.1345646437994723,
      "grad_norm": 0.43650659918785095,
      "learning_rate": 4.8398381719506e-05,
      "loss": 0.7003,
      "step": 595
    },
    {
      "epoch": 0.1356954391255183,
      "grad_norm": 0.38563141226768494,
      "learning_rate": 4.836622124739948e-05,
      "loss": 0.7094,
      "step": 600
    },
    {
      "epoch": 0.13682623445156428,
      "grad_norm": 0.30190715193748474,
      "learning_rate": 4.833375198813683e-05,
      "loss": 0.6664,
      "step": 605
    },
    {
      "epoch": 0.13795702977761026,
      "grad_norm": 0.35016635060310364,
      "learning_rate": 4.8300974370802855e-05,
      "loss": 0.6657,
      "step": 610
    },
    {
      "epoch": 0.13908782510365625,
      "grad_norm": 0.3495071530342102,
      "learning_rate": 4.8267888828557315e-05,
      "loss": 0.7689,
      "step": 615
    },
    {
      "epoch": 0.14021862042970223,
      "grad_norm": 0.2628171145915985,
      "learning_rate": 4.823449579862927e-05,
      "loss": 0.7278,
      "step": 620
    },
    {
      "epoch": 0.14134941575574822,
      "grad_norm": 0.3362691104412079,
      "learning_rate": 4.820079572231123e-05,
      "loss": 0.6934,
      "step": 625
    },
    {
      "epoch": 0.1424802110817942,
      "grad_norm": 0.32949429750442505,
      "learning_rate": 4.8166789044953385e-05,
      "loss": 0.6363,
      "step": 630
    },
    {
      "epoch": 0.1436110064078402,
      "grad_norm": 0.3482156991958618,
      "learning_rate": 4.813247621595766e-05,
      "loss": 0.6735,
      "step": 635
    },
    {
      "epoch": 0.14474180173388618,
      "grad_norm": 0.27361541986465454,
      "learning_rate": 4.809785768877183e-05,
      "loss": 0.6783,
      "step": 640
    },
    {
      "epoch": 0.14587259705993216,
      "grad_norm": 0.29385972023010254,
      "learning_rate": 4.80629339208835e-05,
      "loss": 0.6947,
      "step": 645
    },
    {
      "epoch": 0.14700339238597815,
      "grad_norm": 0.2907145023345947,
      "learning_rate": 4.802770537381407e-05,
      "loss": 0.6583,
      "step": 650
    },
    {
      "epoch": 0.14813418771202413,
      "grad_norm": 0.3557474613189697,
      "learning_rate": 4.799217251311261e-05,
      "loss": 0.6196,
      "step": 655
    },
    {
      "epoch": 0.14926498303807012,
      "grad_norm": 0.3381137251853943,
      "learning_rate": 4.795633580834974e-05,
      "loss": 0.6959,
      "step": 660
    },
    {
      "epoch": 0.1503957783641161,
      "grad_norm": 0.3507809042930603,
      "learning_rate": 4.792019573311142e-05,
      "loss": 0.7787,
      "step": 665
    },
    {
      "epoch": 0.1515265736901621,
      "grad_norm": 0.3603408634662628,
      "learning_rate": 4.7883752764992676e-05,
      "loss": 0.6956,
      "step": 670
    },
    {
      "epoch": 0.15265736901620808,
      "grad_norm": 0.3778272867202759,
      "learning_rate": 4.7847007385591295e-05,
      "loss": 0.6352,
      "step": 675
    },
    {
      "epoch": 0.15378816434225406,
      "grad_norm": 0.3363897502422333,
      "learning_rate": 4.7809960080501464e-05,
      "loss": 0.6615,
      "step": 680
    },
    {
      "epoch": 0.15491895966830005,
      "grad_norm": 0.32491081953048706,
      "learning_rate": 4.777261133930735e-05,
      "loss": 0.7499,
      "step": 685
    },
    {
      "epoch": 0.15604975499434603,
      "grad_norm": 0.318862646818161,
      "learning_rate": 4.773496165557663e-05,
      "loss": 0.725,
      "step": 690
    },
    {
      "epoch": 0.15718055032039202,
      "grad_norm": 0.45129063725471497,
      "learning_rate": 4.7697011526853976e-05,
      "loss": 0.7582,
      "step": 695
    },
    {
      "epoch": 0.158311345646438,
      "grad_norm": 0.3082630932331085,
      "learning_rate": 4.7658761454654454e-05,
      "loss": 0.834,
      "step": 700
    },
    {
      "epoch": 0.159442140972484,
      "grad_norm": 0.29232099652290344,
      "learning_rate": 4.762021194445695e-05,
      "loss": 0.688,
      "step": 705
    },
    {
      "epoch": 0.16057293629852998,
      "grad_norm": 0.304189532995224,
      "learning_rate": 4.758136350569743e-05,
      "loss": 0.6758,
      "step": 710
    },
    {
      "epoch": 0.16170373162457596,
      "grad_norm": 0.3389667570590973,
      "learning_rate": 4.754221665176223e-05,
      "loss": 0.6746,
      "step": 715
    },
    {
      "epoch": 0.16283452695062195,
      "grad_norm": 0.5311838388442993,
      "learning_rate": 4.7502771899981284e-05,
      "loss": 0.8003,
      "step": 720
    },
    {
      "epoch": 0.16396532227666794,
      "grad_norm": 0.26352110505104065,
      "learning_rate": 4.7463029771621294e-05,
      "loss": 0.6647,
      "step": 725
    },
    {
      "epoch": 0.16509611760271392,
      "grad_norm": 0.3928554058074951,
      "learning_rate": 4.74229907918788e-05,
      "loss": 0.7258,
      "step": 730
    },
    {
      "epoch": 0.1662269129287599,
      "grad_norm": 0.4840872883796692,
      "learning_rate": 4.738265548987327e-05,
      "loss": 0.7886,
      "step": 735
    },
    {
      "epoch": 0.1673577082548059,
      "grad_norm": 0.324370414018631,
      "learning_rate": 4.734202439864012e-05,
      "loss": 0.7031,
      "step": 740
    },
    {
      "epoch": 0.16848850358085188,
      "grad_norm": 0.30743566155433655,
      "learning_rate": 4.730109805512363e-05,
      "loss": 0.7228,
      "step": 745
    },
    {
      "epoch": 0.16961929890689786,
      "grad_norm": 0.3641277551651001,
      "learning_rate": 4.7259877000169896e-05,
      "loss": 0.7265,
      "step": 750
    },
    {
      "epoch": 0.17075009423294385,
      "grad_norm": 0.40837985277175903,
      "learning_rate": 4.721836177851963e-05,
      "loss": 0.7128,
      "step": 755
    },
    {
      "epoch": 0.17188088955898984,
      "grad_norm": 0.28167346119880676,
      "learning_rate": 4.717655293880102e-05,
      "loss": 0.6837,
      "step": 760
    },
    {
      "epoch": 0.17301168488503582,
      "grad_norm": 0.37647080421447754,
      "learning_rate": 4.713445103352241e-05,
      "loss": 0.7493,
      "step": 765
    },
    {
      "epoch": 0.1741424802110818,
      "grad_norm": 0.3222416043281555,
      "learning_rate": 4.7092056619065084e-05,
      "loss": 0.6314,
      "step": 770
    },
    {
      "epoch": 0.1752732755371278,
      "grad_norm": 0.29139477014541626,
      "learning_rate": 4.704937025567582e-05,
      "loss": 0.7274,
      "step": 775
    },
    {
      "epoch": 0.17640407086317378,
      "grad_norm": 0.3189648687839508,
      "learning_rate": 4.700639250745957e-05,
      "loss": 0.7202,
      "step": 780
    },
    {
      "epoch": 0.17753486618921976,
      "grad_norm": 0.26070472598075867,
      "learning_rate": 4.696312394237195e-05,
      "loss": 0.7426,
      "step": 785
    },
    {
      "epoch": 0.17866566151526575,
      "grad_norm": 0.384833961725235,
      "learning_rate": 4.691956513221174e-05,
      "loss": 0.7669,
      "step": 790
    },
    {
      "epoch": 0.17979645684131174,
      "grad_norm": 0.3161134421825409,
      "learning_rate": 4.6875716652613366e-05,
      "loss": 0.7224,
      "step": 795
    },
    {
      "epoch": 0.18092725216735772,
      "grad_norm": 0.40663212537765503,
      "learning_rate": 4.6831579083039265e-05,
      "loss": 0.7176,
      "step": 800
    },
    {
      "epoch": 0.1820580474934037,
      "grad_norm": 0.4073905646800995,
      "learning_rate": 4.6787153006772214e-05,
      "loss": 0.7454,
      "step": 805
    },
    {
      "epoch": 0.1831888428194497,
      "grad_norm": 0.36114805936813354,
      "learning_rate": 4.6742439010907645e-05,
      "loss": 0.7271,
      "step": 810
    },
    {
      "epoch": 0.18431963814549568,
      "grad_norm": 0.35414162278175354,
      "learning_rate": 4.6697437686345883e-05,
      "loss": 0.8134,
      "step": 815
    },
    {
      "epoch": 0.18545043347154166,
      "grad_norm": 0.3441600799560547,
      "learning_rate": 4.6652149627784324e-05,
      "loss": 0.7259,
      "step": 820
    },
    {
      "epoch": 0.18658122879758765,
      "grad_norm": 0.34488874673843384,
      "learning_rate": 4.660657543370958e-05,
      "loss": 0.7541,
      "step": 825
    },
    {
      "epoch": 0.1877120241236336,
      "grad_norm": 0.3300029933452606,
      "learning_rate": 4.65607157063896e-05,
      "loss": 0.7123,
      "step": 830
    },
    {
      "epoch": 0.1888428194496796,
      "grad_norm": 0.39021798968315125,
      "learning_rate": 4.651457105186566e-05,
      "loss": 0.7049,
      "step": 835
    },
    {
      "epoch": 0.18997361477572558,
      "grad_norm": 0.3784525394439697,
      "learning_rate": 4.646814207994441e-05,
      "loss": 0.7892,
      "step": 840
    },
    {
      "epoch": 0.19110441010177157,
      "grad_norm": 0.3650527000427246,
      "learning_rate": 4.642142940418973e-05,
      "loss": 0.7315,
      "step": 845
    },
    {
      "epoch": 0.19223520542781755,
      "grad_norm": 0.36192572116851807,
      "learning_rate": 4.637443364191474e-05,
      "loss": 0.6201,
      "step": 850
    },
    {
      "epoch": 0.19336600075386354,
      "grad_norm": 0.3428821265697479,
      "learning_rate": 4.6327155414173554e-05,
      "loss": 0.7248,
      "step": 855
    },
    {
      "epoch": 0.19449679607990952,
      "grad_norm": 0.2692446708679199,
      "learning_rate": 4.627959534575307e-05,
      "loss": 0.6986,
      "step": 860
    },
    {
      "epoch": 0.1956275914059555,
      "grad_norm": 0.33562323451042175,
      "learning_rate": 4.623175406516479e-05,
      "loss": 0.7553,
      "step": 865
    },
    {
      "epoch": 0.1967583867320015,
      "grad_norm": 0.332381010055542,
      "learning_rate": 4.618363220463644e-05,
      "loss": 0.7021,
      "step": 870
    },
    {
      "epoch": 0.19788918205804748,
      "grad_norm": 0.3331127166748047,
      "learning_rate": 4.6135230400103636e-05,
      "loss": 0.7278,
      "step": 875
    },
    {
      "epoch": 0.19901997738409347,
      "grad_norm": 0.32819780707359314,
      "learning_rate": 4.6086549291201485e-05,
      "loss": 0.7189,
      "step": 880
    },
    {
      "epoch": 0.20015077271013945,
      "grad_norm": 0.31646525859832764,
      "learning_rate": 4.603758952125615e-05,
      "loss": 0.6949,
      "step": 885
    },
    {
      "epoch": 0.20128156803618544,
      "grad_norm": 0.3622991740703583,
      "learning_rate": 4.5988351737276316e-05,
      "loss": 0.7193,
      "step": 890
    },
    {
      "epoch": 0.20241236336223142,
      "grad_norm": 0.3097212016582489,
      "learning_rate": 4.593883658994466e-05,
      "loss": 0.6913,
      "step": 895
    },
    {
      "epoch": 0.2035431586882774,
      "grad_norm": 0.3757197856903076,
      "learning_rate": 4.588904473360923e-05,
      "loss": 0.6859,
      "step": 900
    },
    {
      "epoch": 0.2046739540143234,
      "grad_norm": 0.3894336223602295,
      "learning_rate": 4.5838976826274826e-05,
      "loss": 0.7495,
      "step": 905
    },
    {
      "epoch": 0.20580474934036938,
      "grad_norm": 0.2777577042579651,
      "learning_rate": 4.578863352959429e-05,
      "loss": 0.7305,
      "step": 910
    },
    {
      "epoch": 0.20693554466641537,
      "grad_norm": 0.30092760920524597,
      "learning_rate": 4.573801550885979e-05,
      "loss": 0.6952,
      "step": 915
    },
    {
      "epoch": 0.20806633999246135,
      "grad_norm": 0.31918197870254517,
      "learning_rate": 4.568712343299394e-05,
      "loss": 0.6309,
      "step": 920
    },
    {
      "epoch": 0.20919713531850734,
      "grad_norm": 0.3190583884716034,
      "learning_rate": 4.563595797454109e-05,
      "loss": 0.6932,
      "step": 925
    },
    {
      "epoch": 0.21032793064455332,
      "grad_norm": 0.4575042128562927,
      "learning_rate": 4.558451980965832e-05,
      "loss": 0.7446,
      "step": 930
    },
    {
      "epoch": 0.2114587259705993,
      "grad_norm": 0.3298736810684204,
      "learning_rate": 4.553280961810658e-05,
      "loss": 0.7434,
      "step": 935
    },
    {
      "epoch": 0.2125895212966453,
      "grad_norm": 0.2681873142719269,
      "learning_rate": 4.548082808324169e-05,
      "loss": 0.7609,
      "step": 940
    },
    {
      "epoch": 0.21372031662269128,
      "grad_norm": 0.32544100284576416,
      "learning_rate": 4.542857589200527e-05,
      "loss": 0.7076,
      "step": 945
    },
    {
      "epoch": 0.21485111194873727,
      "grad_norm": 0.3351302444934845,
      "learning_rate": 4.537605373491573e-05,
      "loss": 0.7442,
      "step": 950
    },
    {
      "epoch": 0.21598190727478325,
      "grad_norm": 0.3408782482147217,
      "learning_rate": 4.532326230605908e-05,
      "loss": 0.6697,
      "step": 955
    },
    {
      "epoch": 0.21711270260082924,
      "grad_norm": 0.31308743357658386,
      "learning_rate": 4.52702023030798e-05,
      "loss": 0.6795,
      "step": 960
    },
    {
      "epoch": 0.21824349792687522,
      "grad_norm": 0.31887832283973694,
      "learning_rate": 4.521687442717161e-05,
      "loss": 0.6907,
      "step": 965
    },
    {
      "epoch": 0.2193742932529212,
      "grad_norm": 0.28720954060554504,
      "learning_rate": 4.516327938306818e-05,
      "loss": 0.6951,
      "step": 970
    },
    {
      "epoch": 0.2205050885789672,
      "grad_norm": 0.35572728514671326,
      "learning_rate": 4.510941787903385e-05,
      "loss": 0.6731,
      "step": 975
    },
    {
      "epoch": 0.22163588390501318,
      "grad_norm": 0.32665789127349854,
      "learning_rate": 4.505529062685426e-05,
      "loss": 0.6859,
      "step": 980
    },
    {
      "epoch": 0.22276667923105917,
      "grad_norm": 0.425155907869339,
      "learning_rate": 4.5000898341826935e-05,
      "loss": 0.7611,
      "step": 985
    },
    {
      "epoch": 0.22389747455710515,
      "grad_norm": 0.3223753273487091,
      "learning_rate": 4.494624174275185e-05,
      "loss": 0.6784,
      "step": 990
    },
    {
      "epoch": 0.22502826988315114,
      "grad_norm": 0.29629823565483093,
      "learning_rate": 4.48913215519219e-05,
      "loss": 0.7528,
      "step": 995
    },
    {
      "epoch": 0.22615906520919712,
      "grad_norm": 0.45501330494880676,
      "learning_rate": 4.483613849511337e-05,
      "loss": 0.7412,
      "step": 1000
    },
    {
      "epoch": 0.2272898605352431,
      "grad_norm": 0.47708141803741455,
      "learning_rate": 4.478069330157638e-05,
      "loss": 0.7186,
      "step": 1005
    },
    {
      "epoch": 0.2284206558612891,
      "grad_norm": 0.46172332763671875,
      "learning_rate": 4.472498670402519e-05,
      "loss": 0.7429,
      "step": 1010
    },
    {
      "epoch": 0.22955145118733508,
      "grad_norm": 0.2885262966156006,
      "learning_rate": 4.4669019438628545e-05,
      "loss": 0.6749,
      "step": 1015
    },
    {
      "epoch": 0.23068224651338107,
      "grad_norm": 0.3848798871040344,
      "learning_rate": 4.461279224499995e-05,
      "loss": 0.6889,
      "step": 1020
    },
    {
      "epoch": 0.23181304183942705,
      "grad_norm": 0.3475760519504547,
      "learning_rate": 4.455630586618788e-05,
      "loss": 0.7423,
      "step": 1025
    },
    {
      "epoch": 0.23294383716547304,
      "grad_norm": 0.3690018653869629,
      "learning_rate": 4.449956104866597e-05,
      "loss": 0.6995,
      "step": 1030
    },
    {
      "epoch": 0.23407463249151902,
      "grad_norm": 0.4979022741317749,
      "learning_rate": 4.444255854232318e-05,
      "loss": 0.7137,
      "step": 1035
    },
    {
      "epoch": 0.235205427817565,
      "grad_norm": 0.3002910017967224,
      "learning_rate": 4.438529910045381e-05,
      "loss": 0.6342,
      "step": 1040
    },
    {
      "epoch": 0.236336223143611,
      "grad_norm": 0.2860986292362213,
      "learning_rate": 4.432778347974764e-05,
      "loss": 0.6486,
      "step": 1045
    },
    {
      "epoch": 0.23746701846965698,
      "grad_norm": 0.3187776207923889,
      "learning_rate": 4.427001244027984e-05,
      "loss": 0.6935,
      "step": 1050
    },
    {
      "epoch": 0.23859781379570297,
      "grad_norm": 0.436594694852829,
      "learning_rate": 4.4211986745500976e-05,
      "loss": 0.7125,
      "step": 1055
    },
    {
      "epoch": 0.23972860912174895,
      "grad_norm": 0.25989067554473877,
      "learning_rate": 4.415370716222693e-05,
      "loss": 0.6699,
      "step": 1060
    },
    {
      "epoch": 0.24085940444779494,
      "grad_norm": 0.30455416440963745,
      "learning_rate": 4.4095174460628734e-05,
      "loss": 0.7244,
      "step": 1065
    },
    {
      "epoch": 0.24199019977384092,
      "grad_norm": 0.2574412226676941,
      "learning_rate": 4.40363894142224e-05,
      "loss": 0.6719,
      "step": 1070
    },
    {
      "epoch": 0.2431209950998869,
      "grad_norm": 0.2614154815673828,
      "learning_rate": 4.397735279985873e-05,
      "loss": 0.7,
      "step": 1075
    },
    {
      "epoch": 0.2442517904259329,
      "grad_norm": 0.32729870080947876,
      "learning_rate": 4.3918065397712983e-05,
      "loss": 0.6669,
      "step": 1080
    },
    {
      "epoch": 0.24538258575197888,
      "grad_norm": 0.5149984359741211,
      "learning_rate": 4.385852799127464e-05,
      "loss": 0.7371,
      "step": 1085
    },
    {
      "epoch": 0.24651338107802487,
      "grad_norm": 0.322007417678833,
      "learning_rate": 4.379874136733702e-05,
      "loss": 0.7595,
      "step": 1090
    },
    {
      "epoch": 0.24764417640407085,
      "grad_norm": 0.38709428906440735,
      "learning_rate": 4.373870631598683e-05,
      "loss": 0.7662,
      "step": 1095
    },
    {
      "epoch": 0.24877497173011684,
      "grad_norm": 0.3887243866920471,
      "learning_rate": 4.367842363059383e-05,
      "loss": 0.6608,
      "step": 1100
    },
    {
      "epoch": 0.24990576705616283,
      "grad_norm": 0.343573659658432,
      "learning_rate": 4.3617894107800275e-05,
      "loss": 0.7364,
      "step": 1105
    },
    {
      "epoch": 0.25103656238220884,
      "grad_norm": 0.3381284773349762,
      "learning_rate": 4.355711854751037e-05,
      "loss": 0.6939,
      "step": 1110
    },
    {
      "epoch": 0.2521673577082548,
      "grad_norm": 0.428345650434494,
      "learning_rate": 4.3496097752879764e-05,
      "loss": 0.7322,
      "step": 1115
    },
    {
      "epoch": 0.2532981530343008,
      "grad_norm": 0.3029363453388214,
      "learning_rate": 4.3434832530304906e-05,
      "loss": 0.6434,
      "step": 1120
    },
    {
      "epoch": 0.2544289483603468,
      "grad_norm": 0.32285043597221375,
      "learning_rate": 4.337332368941237e-05,
      "loss": 0.686,
      "step": 1125
    },
    {
      "epoch": 0.2555597436863928,
      "grad_norm": 0.2844852805137634,
      "learning_rate": 4.331157204304819e-05,
      "loss": 0.6786,
      "step": 1130
    },
    {
      "epoch": 0.25669053901243877,
      "grad_norm": 0.38639211654663086,
      "learning_rate": 4.324957840726708e-05,
      "loss": 0.669,
      "step": 1135
    },
    {
      "epoch": 0.25782133433848475,
      "grad_norm": 0.29250484704971313,
      "learning_rate": 4.3187343601321696e-05,
      "loss": 0.684,
      "step": 1140
    },
    {
      "epoch": 0.25895212966453074,
      "grad_norm": 0.3040000796318054,
      "learning_rate": 4.312486844765175e-05,
      "loss": 0.6721,
      "step": 1145
    },
    {
      "epoch": 0.2600829249905767,
      "grad_norm": 0.3095468580722809,
      "learning_rate": 4.3062153771873214e-05,
      "loss": 0.8026,
      "step": 1150
    },
    {
      "epoch": 0.2612137203166227,
      "grad_norm": 0.3532247543334961,
      "learning_rate": 4.299920040276735e-05,
      "loss": 0.7338,
      "step": 1155
    },
    {
      "epoch": 0.2623445156426687,
      "grad_norm": 0.3691394627094269,
      "learning_rate": 4.2936009172269766e-05,
      "loss": 0.6489,
      "step": 1160
    },
    {
      "epoch": 0.2634753109687147,
      "grad_norm": 0.3503078520298004,
      "learning_rate": 4.287258091545946e-05,
      "loss": 0.6705,
      "step": 1165
    },
    {
      "epoch": 0.26460610629476067,
      "grad_norm": 0.31756189465522766,
      "learning_rate": 4.280891647054775e-05,
      "loss": 0.6642,
      "step": 1170
    },
    {
      "epoch": 0.26573690162080665,
      "grad_norm": 0.27942630648612976,
      "learning_rate": 4.274501667886718e-05,
      "loss": 0.7139,
      "step": 1175
    },
    {
      "epoch": 0.26686769694685264,
      "grad_norm": 0.35604235529899597,
      "learning_rate": 4.268088238486048e-05,
      "loss": 0.8335,
      "step": 1180
    },
    {
      "epoch": 0.2679984922728986,
      "grad_norm": 0.3140622675418854,
      "learning_rate": 4.261651443606931e-05,
      "loss": 0.8127,
      "step": 1185
    },
    {
      "epoch": 0.2691292875989446,
      "grad_norm": 0.327470988035202,
      "learning_rate": 4.255191368312311e-05,
      "loss": 0.7311,
      "step": 1190
    },
    {
      "epoch": 0.2702600829249906,
      "grad_norm": 0.3089313805103302,
      "learning_rate": 4.2487080979727876e-05,
      "loss": 0.733,
      "step": 1195
    },
    {
      "epoch": 0.2713908782510366,
      "grad_norm": 0.3237866163253784,
      "learning_rate": 4.242201718265483e-05,
      "loss": 0.6754,
      "step": 1200
    },
    {
      "epoch": 0.27252167357708257,
      "grad_norm": 0.3597028851509094,
      "learning_rate": 4.235672315172912e-05,
      "loss": 0.741,
      "step": 1205
    },
    {
      "epoch": 0.27365246890312855,
      "grad_norm": 0.30509960651397705,
      "learning_rate": 4.229119974981848e-05,
      "loss": 0.7098,
      "step": 1210
    },
    {
      "epoch": 0.27478326422917454,
      "grad_norm": 0.37183189392089844,
      "learning_rate": 4.222544784282178e-05,
      "loss": 0.7037,
      "step": 1215
    },
    {
      "epoch": 0.2759140595552205,
      "grad_norm": 0.35368862748146057,
      "learning_rate": 4.2159468299657645e-05,
      "loss": 0.654,
      "step": 1220
    },
    {
      "epoch": 0.2770448548812665,
      "grad_norm": 0.3120376765727997,
      "learning_rate": 4.209326199225291e-05,
      "loss": 0.6845,
      "step": 1225
    },
    {
      "epoch": 0.2781756502073125,
      "grad_norm": 0.3322497308254242,
      "learning_rate": 4.202682979553112e-05,
      "loss": 0.738,
      "step": 1230
    },
    {
      "epoch": 0.2793064455333585,
      "grad_norm": 0.39859551191329956,
      "learning_rate": 4.1960172587401007e-05,
      "loss": 0.7208,
      "step": 1235
    },
    {
      "epoch": 0.28043724085940447,
      "grad_norm": 0.304196298122406,
      "learning_rate": 4.1893291248744794e-05,
      "loss": 0.6701,
      "step": 1240
    },
    {
      "epoch": 0.28156803618545045,
      "grad_norm": 0.30052655935287476,
      "learning_rate": 4.1826186663406685e-05,
      "loss": 0.7255,
      "step": 1245
    },
    {
      "epoch": 0.28269883151149644,
      "grad_norm": 0.3247777223587036,
      "learning_rate": 4.1758859718181054e-05,
      "loss": 0.7067,
      "step": 1250
    },
    {
      "epoch": 0.2838296268375424,
      "grad_norm": 0.39652687311172485,
      "learning_rate": 4.169131130280081e-05,
      "loss": 0.8056,
      "step": 1255
    },
    {
      "epoch": 0.2849604221635884,
      "grad_norm": 0.299211710691452,
      "learning_rate": 4.162354230992562e-05,
      "loss": 0.7158,
      "step": 1260
    },
    {
      "epoch": 0.2860912174896344,
      "grad_norm": 0.34312811493873596,
      "learning_rate": 4.155555363513009e-05,
      "loss": 0.6555,
      "step": 1265
    },
    {
      "epoch": 0.2872220128156804,
      "grad_norm": 0.34061411023139954,
      "learning_rate": 4.148734617689196e-05,
      "loss": 0.6973,
      "step": 1270
    },
    {
      "epoch": 0.28835280814172637,
      "grad_norm": 0.32622766494750977,
      "learning_rate": 4.1418920836580214e-05,
      "loss": 0.7034,
      "step": 1275
    },
    {
      "epoch": 0.28948360346777235,
      "grad_norm": 0.31413719058036804,
      "learning_rate": 4.135027851844316e-05,
      "loss": 0.6874,
      "step": 1280
    },
    {
      "epoch": 0.29061439879381834,
      "grad_norm": 0.3852449357509613,
      "learning_rate": 4.1281420129596504e-05,
      "loss": 0.6937,
      "step": 1285
    },
    {
      "epoch": 0.2917451941198643,
      "grad_norm": 0.25905337929725647,
      "learning_rate": 4.121234658001135e-05,
      "loss": 0.7273,
      "step": 1290
    },
    {
      "epoch": 0.2928759894459103,
      "grad_norm": 0.33746325969696045,
      "learning_rate": 4.114305878250218e-05,
      "loss": 0.6815,
      "step": 1295
    },
    {
      "epoch": 0.2940067847719563,
      "grad_norm": 0.36523139476776123,
      "learning_rate": 4.1073557652714755e-05,
      "loss": 0.6763,
      "step": 1300
    },
    {
      "epoch": 0.2951375800980023,
      "grad_norm": 0.4286907911300659,
      "learning_rate": 4.100384410911409e-05,
      "loss": 0.7807,
      "step": 1305
    },
    {
      "epoch": 0.29626837542404827,
      "grad_norm": 0.27938035130500793,
      "learning_rate": 4.0933919072972224e-05,
      "loss": 0.6515,
      "step": 1310
    },
    {
      "epoch": 0.29739917075009425,
      "grad_norm": 0.28958678245544434,
      "learning_rate": 4.086378346835614e-05,
      "loss": 0.6303,
      "step": 1315
    },
    {
      "epoch": 0.29852996607614024,
      "grad_norm": 0.31973332166671753,
      "learning_rate": 4.0793438222115477e-05,
      "loss": 0.733,
      "step": 1320
    },
    {
      "epoch": 0.2996607614021862,
      "grad_norm": 0.302673876285553,
      "learning_rate": 4.072288426387032e-05,
      "loss": 0.6551,
      "step": 1325
    },
    {
      "epoch": 0.3007915567282322,
      "grad_norm": 0.3454115092754364,
      "learning_rate": 4.065212252599889e-05,
      "loss": 0.6847,
      "step": 1330
    },
    {
      "epoch": 0.3019223520542782,
      "grad_norm": 0.32197806239128113,
      "learning_rate": 4.0581153943625266e-05,
      "loss": 0.7283,
      "step": 1335
    },
    {
      "epoch": 0.3030531473803242,
      "grad_norm": 0.2939291000366211,
      "learning_rate": 4.050997945460699e-05,
      "loss": 0.6519,
      "step": 1340
    },
    {
      "epoch": 0.30418394270637017,
      "grad_norm": 0.34127116203308105,
      "learning_rate": 4.043859999952266e-05,
      "loss": 0.7041,
      "step": 1345
    },
    {
      "epoch": 0.30531473803241616,
      "grad_norm": 0.3606717586517334,
      "learning_rate": 4.0367016521659564e-05,
      "loss": 0.6745,
      "step": 1350
    },
    {
      "epoch": 0.30644553335846214,
      "grad_norm": 0.3977923095226288,
      "learning_rate": 4.029522996700112e-05,
      "loss": 0.6635,
      "step": 1355
    },
    {
      "epoch": 0.3075763286845081,
      "grad_norm": 0.27561894059181213,
      "learning_rate": 4.0223241284214496e-05,
      "loss": 0.6661,
      "step": 1360
    },
    {
      "epoch": 0.3087071240105541,
      "grad_norm": 0.31549111008644104,
      "learning_rate": 4.015105142463794e-05,
      "loss": 0.6659,
      "step": 1365
    },
    {
      "epoch": 0.3098379193366001,
      "grad_norm": 0.32156458497047424,
      "learning_rate": 4.0078661342268314e-05,
      "loss": 0.6656,
      "step": 1370
    },
    {
      "epoch": 0.3109687146626461,
      "grad_norm": 0.33597517013549805,
      "learning_rate": 4.000607199374843e-05,
      "loss": 0.6291,
      "step": 1375
    },
    {
      "epoch": 0.31209950998869207,
      "grad_norm": 0.2836547791957855,
      "learning_rate": 3.9933284338354415e-05,
      "loss": 0.6936,
      "step": 1380
    },
    {
      "epoch": 0.31323030531473806,
      "grad_norm": 0.3355998396873474,
      "learning_rate": 3.986029933798308e-05,
      "loss": 0.6578,
      "step": 1385
    },
    {
      "epoch": 0.31436110064078404,
      "grad_norm": 0.3303869962692261,
      "learning_rate": 3.9787117957139116e-05,
      "loss": 0.6859,
      "step": 1390
    },
    {
      "epoch": 0.31549189596683,
      "grad_norm": 0.3788108825683594,
      "learning_rate": 3.9713741162922455e-05,
      "loss": 0.6997,
      "step": 1395
    },
    {
      "epoch": 0.316622691292876,
      "grad_norm": 0.33582428097724915,
      "learning_rate": 3.964016992501541e-05,
      "loss": 0.689,
      "step": 1400
    },
    {
      "epoch": 0.317753486618922,
      "grad_norm": 0.35693231225013733,
      "learning_rate": 3.956640521566989e-05,
      "loss": 0.676,
      "step": 1405
    },
    {
      "epoch": 0.318884281944968,
      "grad_norm": 0.3589436709880829,
      "learning_rate": 3.949244800969456e-05,
      "loss": 0.7545,
      "step": 1410
    },
    {
      "epoch": 0.32001507727101397,
      "grad_norm": 0.3047327399253845,
      "learning_rate": 3.941829928444194e-05,
      "loss": 0.6391,
      "step": 1415
    },
    {
      "epoch": 0.32114587259705996,
      "grad_norm": 0.292953759431839,
      "learning_rate": 3.9343960019795525e-05,
      "loss": 0.6886,
      "step": 1420
    },
    {
      "epoch": 0.32227666792310594,
      "grad_norm": 0.3644665777683258,
      "learning_rate": 3.926943119815675e-05,
      "loss": 0.7283,
      "step": 1425
    },
    {
      "epoch": 0.3234074632491519,
      "grad_norm": 0.3624630570411682,
      "learning_rate": 3.919471380443212e-05,
      "loss": 0.6566,
      "step": 1430
    },
    {
      "epoch": 0.3245382585751979,
      "grad_norm": 0.48623165488243103,
      "learning_rate": 3.911980882602011e-05,
      "loss": 0.8311,
      "step": 1435
    },
    {
      "epoch": 0.3256690539012439,
      "grad_norm": 0.3244991600513458,
      "learning_rate": 3.904471725279818e-05,
      "loss": 0.7087,
      "step": 1440
    },
    {
      "epoch": 0.3267998492272899,
      "grad_norm": 0.3399847149848938,
      "learning_rate": 3.8969440077109634e-05,
      "loss": 0.6146,
      "step": 1445
    },
    {
      "epoch": 0.32793064455333587,
      "grad_norm": 0.3181338310241699,
      "learning_rate": 3.889397829375052e-05,
      "loss": 0.7608,
      "step": 1450
    },
    {
      "epoch": 0.32906143987938186,
      "grad_norm": 0.5128947496414185,
      "learning_rate": 3.881833289995654e-05,
      "loss": 0.7225,
      "step": 1455
    },
    {
      "epoch": 0.33019223520542784,
      "grad_norm": 0.3176124095916748,
      "learning_rate": 3.874250489538981e-05,
      "loss": 0.7225,
      "step": 1460
    },
    {
      "epoch": 0.33132303053147383,
      "grad_norm": 0.3748844563961029,
      "learning_rate": 3.866649528212563e-05,
      "loss": 0.7188,
      "step": 1465
    },
    {
      "epoch": 0.3324538258575198,
      "grad_norm": 0.974604606628418,
      "learning_rate": 3.859030506463932e-05,
      "loss": 0.7509,
      "step": 1470
    },
    {
      "epoch": 0.3335846211835658,
      "grad_norm": 0.3221200704574585,
      "learning_rate": 3.851393524979291e-05,
      "loss": 0.6781,
      "step": 1475
    },
    {
      "epoch": 0.3347154165096118,
      "grad_norm": 0.33971571922302246,
      "learning_rate": 3.84373868468218e-05,
      "loss": 0.6711,
      "step": 1480
    },
    {
      "epoch": 0.33584621183565777,
      "grad_norm": 0.3183509409427643,
      "learning_rate": 3.836066086732145e-05,
      "loss": 0.6808,
      "step": 1485
    },
    {
      "epoch": 0.33697700716170376,
      "grad_norm": 0.2814907729625702,
      "learning_rate": 3.828375832523407e-05,
      "loss": 0.7171,
      "step": 1490
    },
    {
      "epoch": 0.33810780248774974,
      "grad_norm": 0.2738807797431946,
      "learning_rate": 3.820668023683507e-05,
      "loss": 0.7934,
      "step": 1495
    },
    {
      "epoch": 0.33923859781379573,
      "grad_norm": 0.3376060128211975,
      "learning_rate": 3.812942762071981e-05,
      "loss": 0.6045,
      "step": 1500
    },
    {
      "epoch": 0.3403693931398417,
      "grad_norm": 0.3851218819618225,
      "learning_rate": 3.8052001497790005e-05,
      "loss": 0.7214,
      "step": 1505
    },
    {
      "epoch": 0.3415001884658877,
      "grad_norm": 0.2853710949420929,
      "learning_rate": 3.7974402891240294e-05,
      "loss": 0.7312,
      "step": 1510
    },
    {
      "epoch": 0.3426309837919337,
      "grad_norm": 0.34209561347961426,
      "learning_rate": 3.78966328265447e-05,
      "loss": 0.66,
      "step": 1515
    },
    {
      "epoch": 0.34376177911797967,
      "grad_norm": 0.2967279851436615,
      "learning_rate": 3.7818692331443093e-05,
      "loss": 0.7354,
      "step": 1520
    },
    {
      "epoch": 0.34489257444402566,
      "grad_norm": 0.31301623582839966,
      "learning_rate": 3.7740582435927614e-05,
      "loss": 0.6634,
      "step": 1525
    },
    {
      "epoch": 0.34602336977007164,
      "grad_norm": 0.287758469581604,
      "learning_rate": 3.766230417222901e-05,
      "loss": 0.7688,
      "step": 1530
    },
    {
      "epoch": 0.34715416509611763,
      "grad_norm": 0.34585824608802795,
      "learning_rate": 3.7583858574803046e-05,
      "loss": 0.6542,
      "step": 1535
    },
    {
      "epoch": 0.3482849604221636,
      "grad_norm": 0.32640525698661804,
      "learning_rate": 3.7505246680316853e-05,
      "loss": 0.71,
      "step": 1540
    },
    {
      "epoch": 0.3494157557482096,
      "grad_norm": 0.2845459580421448,
      "learning_rate": 3.742646952763515e-05,
      "loss": 0.6233,
      "step": 1545
    },
    {
      "epoch": 0.3505465510742556,
      "grad_norm": 0.30241382122039795,
      "learning_rate": 3.7347528157806586e-05,
      "loss": 0.6739,
      "step": 1550
    },
    {
      "epoch": 0.35167734640030157,
      "grad_norm": 0.35119229555130005,
      "learning_rate": 3.726842361404996e-05,
      "loss": 0.72,
      "step": 1555
    },
    {
      "epoch": 0.35280814172634756,
      "grad_norm": 0.3631749153137207,
      "learning_rate": 3.718915694174042e-05,
      "loss": 0.6596,
      "step": 1560
    },
    {
      "epoch": 0.35393893705239354,
      "grad_norm": 0.258357971906662,
      "learning_rate": 3.7109729188395666e-05,
      "loss": 0.7037,
      "step": 1565
    },
    {
      "epoch": 0.35506973237843953,
      "grad_norm": 0.2907659113407135,
      "learning_rate": 3.703014140366209e-05,
      "loss": 0.6494,
      "step": 1570
    },
    {
      "epoch": 0.3562005277044855,
      "grad_norm": 0.309076189994812,
      "learning_rate": 3.695039463930093e-05,
      "loss": 0.6668,
      "step": 1575
    },
    {
      "epoch": 0.3573313230305315,
      "grad_norm": 0.33287695050239563,
      "learning_rate": 3.687048994917437e-05,
      "loss": 0.7215,
      "step": 1580
    },
    {
      "epoch": 0.3584621183565775,
      "grad_norm": 0.2877466082572937,
      "learning_rate": 3.679042838923157e-05,
      "loss": 0.6261,
      "step": 1585
    },
    {
      "epoch": 0.35959291368262347,
      "grad_norm": 0.26237618923187256,
      "learning_rate": 3.671021101749476e-05,
      "loss": 0.6966,
      "step": 1590
    },
    {
      "epoch": 0.36072370900866946,
      "grad_norm": 0.34308937191963196,
      "learning_rate": 3.6629838894045224e-05,
      "loss": 0.662,
      "step": 1595
    },
    {
      "epoch": 0.36185450433471544,
      "grad_norm": 0.337215393781662,
      "learning_rate": 3.654931308100934e-05,
      "loss": 0.7402,
      "step": 1600
    },
    {
      "epoch": 0.36298529966076143,
      "grad_norm": 0.4486747980117798,
      "learning_rate": 3.646863464254447e-05,
      "loss": 0.7111,
      "step": 1605
    },
    {
      "epoch": 0.3641160949868074,
      "grad_norm": 0.37535396218299866,
      "learning_rate": 3.638780464482497e-05,
      "loss": 0.7322,
      "step": 1610
    },
    {
      "epoch": 0.3652468903128534,
      "grad_norm": 0.4385060966014862,
      "learning_rate": 3.630682415602804e-05,
      "loss": 0.6517,
      "step": 1615
    },
    {
      "epoch": 0.3663776856388994,
      "grad_norm": 0.29366278648376465,
      "learning_rate": 3.6225694246319666e-05,
      "loss": 0.636,
      "step": 1620
    },
    {
      "epoch": 0.36750848096494537,
      "grad_norm": 0.3330417573451996,
      "learning_rate": 3.614441598784042e-05,
      "loss": 0.727,
      "step": 1625
    },
    {
      "epoch": 0.36863927629099136,
      "grad_norm": 0.3851955831050873,
      "learning_rate": 3.6062990454691334e-05,
      "loss": 0.7019,
      "step": 1630
    },
    {
      "epoch": 0.36977007161703734,
      "grad_norm": 0.4180035889148712,
      "learning_rate": 3.598141872291969e-05,
      "loss": 0.7318,
      "step": 1635
    },
    {
      "epoch": 0.37090086694308333,
      "grad_norm": 0.28281131386756897,
      "learning_rate": 3.589970187050481e-05,
      "loss": 0.7143,
      "step": 1640
    },
    {
      "epoch": 0.3720316622691293,
      "grad_norm": 0.35991495847702026,
      "learning_rate": 3.581784097734376e-05,
      "loss": 0.7144,
      "step": 1645
    },
    {
      "epoch": 0.3731624575951753,
      "grad_norm": 0.3908022940158844,
      "learning_rate": 3.5735837125237174e-05,
      "loss": 0.6779,
      "step": 1650
    },
    {
      "epoch": 0.3742932529212213,
      "grad_norm": 0.3579081594944,
      "learning_rate": 3.565369139787488e-05,
      "loss": 0.6774,
      "step": 1655
    },
    {
      "epoch": 0.3754240482472672,
      "grad_norm": 0.37918293476104736,
      "learning_rate": 3.5571404880821594e-05,
      "loss": 0.7551,
      "step": 1660
    },
    {
      "epoch": 0.3765548435733132,
      "grad_norm": 0.372585654258728,
      "learning_rate": 3.548897866150259e-05,
      "loss": 0.7081,
      "step": 1665
    },
    {
      "epoch": 0.3776856388993592,
      "grad_norm": 0.38565728068351746,
      "learning_rate": 3.540641382918934e-05,
      "loss": 0.6547,
      "step": 1670
    },
    {
      "epoch": 0.3788164342254052,
      "grad_norm": 0.3910474479198456,
      "learning_rate": 3.532371147498507e-05,
      "loss": 0.6847,
      "step": 1675
    },
    {
      "epoch": 0.37994722955145116,
      "grad_norm": 0.3123336732387543,
      "learning_rate": 3.524087269181039e-05,
      "loss": 0.6692,
      "step": 1680
    },
    {
      "epoch": 0.38107802487749715,
      "grad_norm": 0.3222855031490326,
      "learning_rate": 3.515789857438885e-05,
      "loss": 0.7101,
      "step": 1685
    },
    {
      "epoch": 0.38220882020354313,
      "grad_norm": 0.3308558762073517,
      "learning_rate": 3.507479021923241e-05,
      "loss": 0.7193,
      "step": 1690
    },
    {
      "epoch": 0.3833396155295891,
      "grad_norm": 0.36425960063934326,
      "learning_rate": 3.4991548724627054e-05,
      "loss": 0.6698,
      "step": 1695
    },
    {
      "epoch": 0.3844704108556351,
      "grad_norm": 0.3454649746417999,
      "learning_rate": 3.490817519061819e-05,
      "loss": 0.6996,
      "step": 1700
    },
    {
      "epoch": 0.3856012061816811,
      "grad_norm": 0.39363983273506165,
      "learning_rate": 3.4824670718996114e-05,
      "loss": 0.7256,
      "step": 1705
    },
    {
      "epoch": 0.3867320015077271,
      "grad_norm": 0.29884523153305054,
      "learning_rate": 3.4741036413281534e-05,
      "loss": 0.706,
      "step": 1710
    },
    {
      "epoch": 0.38786279683377306,
      "grad_norm": 0.6705525517463684,
      "learning_rate": 3.4657273378710874e-05,
      "loss": 0.7508,
      "step": 1715
    },
    {
      "epoch": 0.38899359215981905,
      "grad_norm": 0.31176072359085083,
      "learning_rate": 3.4573382722221776e-05,
      "loss": 0.6792,
      "step": 1720
    },
    {
      "epoch": 0.39012438748586503,
      "grad_norm": 0.37332355976104736,
      "learning_rate": 3.448936555243837e-05,
      "loss": 0.6805,
      "step": 1725
    },
    {
      "epoch": 0.391255182811911,
      "grad_norm": 0.4867086112499237,
      "learning_rate": 3.440522297965671e-05,
      "loss": 0.6306,
      "step": 1730
    },
    {
      "epoch": 0.392385978137957,
      "grad_norm": 0.32693204283714294,
      "learning_rate": 3.4320956115830046e-05,
      "loss": 0.719,
      "step": 1735
    },
    {
      "epoch": 0.393516773464003,
      "grad_norm": 0.2943226993083954,
      "learning_rate": 3.4236566074554157e-05,
      "loss": 0.7405,
      "step": 1740
    },
    {
      "epoch": 0.394647568790049,
      "grad_norm": 0.3139977753162384,
      "learning_rate": 3.415205397105261e-05,
      "loss": 0.7152,
      "step": 1745
    },
    {
      "epoch": 0.39577836411609496,
      "grad_norm": 0.33439525961875916,
      "learning_rate": 3.406742092216206e-05,
      "loss": 0.7017,
      "step": 1750
    },
    {
      "epoch": 0.39690915944214095,
      "grad_norm": 0.3081996440887451,
      "learning_rate": 3.398266804631744e-05,
      "loss": 0.6647,
      "step": 1755
    },
    {
      "epoch": 0.39803995476818693,
      "grad_norm": 0.3134262263774872,
      "learning_rate": 3.389779646353724e-05,
      "loss": 0.7313,
      "step": 1760
    },
    {
      "epoch": 0.3991707500942329,
      "grad_norm": 0.3375689685344696,
      "learning_rate": 3.381280729540866e-05,
      "loss": 0.6829,
      "step": 1765
    },
    {
      "epoch": 0.4003015454202789,
      "grad_norm": 0.38416242599487305,
      "learning_rate": 3.37277016650728e-05,
      "loss": 0.7534,
      "step": 1770
    },
    {
      "epoch": 0.4014323407463249,
      "grad_norm": 0.3711940050125122,
      "learning_rate": 3.364248069720982e-05,
      "loss": 0.6618,
      "step": 1775
    },
    {
      "epoch": 0.4025631360723709,
      "grad_norm": 0.338777631521225,
      "learning_rate": 3.3557145518024094e-05,
      "loss": 0.6692,
      "step": 1780
    },
    {
      "epoch": 0.40369393139841686,
      "grad_norm": 0.2786078155040741,
      "learning_rate": 3.3471697255229294e-05,
      "loss": 0.7504,
      "step": 1785
    },
    {
      "epoch": 0.40482472672446285,
      "grad_norm": 0.33004823327064514,
      "learning_rate": 3.338613703803351e-05,
      "loss": 0.7056,
      "step": 1790
    },
    {
      "epoch": 0.40595552205050883,
      "grad_norm": 0.3257131278514862,
      "learning_rate": 3.330046599712432e-05,
      "loss": 0.7102,
      "step": 1795
    },
    {
      "epoch": 0.4070863173765548,
      "grad_norm": 0.3138837516307831,
      "learning_rate": 3.321468526465386e-05,
      "loss": 0.6638,
      "step": 1800
    },
    {
      "epoch": 0.4082171127026008,
      "grad_norm": 0.3327350914478302,
      "learning_rate": 3.312879597422383e-05,
      "loss": 0.7355,
      "step": 1805
    },
    {
      "epoch": 0.4093479080286468,
      "grad_norm": 0.2875402569770813,
      "learning_rate": 3.304279926087055e-05,
      "loss": 0.7113,
      "step": 1810
    },
    {
      "epoch": 0.4104787033546928,
      "grad_norm": 0.5153040289878845,
      "learning_rate": 3.295669626104995e-05,
      "loss": 0.7401,
      "step": 1815
    },
    {
      "epoch": 0.41160949868073876,
      "grad_norm": 0.3518928587436676,
      "learning_rate": 3.287048811262254e-05,
      "loss": 0.6864,
      "step": 1820
    },
    {
      "epoch": 0.41274029400678475,
      "grad_norm": 0.3488028049468994,
      "learning_rate": 3.2784175954838376e-05,
      "loss": 0.6401,
      "step": 1825
    },
    {
      "epoch": 0.41387108933283073,
      "grad_norm": 0.37360239028930664,
      "learning_rate": 3.2697760928322016e-05,
      "loss": 0.7004,
      "step": 1830
    },
    {
      "epoch": 0.4150018846588767,
      "grad_norm": 0.3383936285972595,
      "learning_rate": 3.261124417505745e-05,
      "loss": 0.6563,
      "step": 1835
    },
    {
      "epoch": 0.4161326799849227,
      "grad_norm": 0.36131277680397034,
      "learning_rate": 3.252462683837297e-05,
      "loss": 0.6737,
      "step": 1840
    },
    {
      "epoch": 0.4172634753109687,
      "grad_norm": 0.3024144768714905,
      "learning_rate": 3.2437910062926116e-05,
      "loss": 0.6466,
      "step": 1845
    },
    {
      "epoch": 0.4183942706370147,
      "grad_norm": 0.6971142888069153,
      "learning_rate": 3.235109499468849e-05,
      "loss": 0.6927,
      "step": 1850
    },
    {
      "epoch": 0.41952506596306066,
      "grad_norm": 0.3525508642196655,
      "learning_rate": 3.226418278093069e-05,
      "loss": 0.7009,
      "step": 1855
    },
    {
      "epoch": 0.42065586128910665,
      "grad_norm": 0.3152811527252197,
      "learning_rate": 3.2177174570207066e-05,
      "loss": 0.7065,
      "step": 1860
    },
    {
      "epoch": 0.42178665661515263,
      "grad_norm": 0.2631702721118927,
      "learning_rate": 3.2090071512340584e-05,
      "loss": 0.6723,
      "step": 1865
    },
    {
      "epoch": 0.4229174519411986,
      "grad_norm": 0.35791584849357605,
      "learning_rate": 3.200287475840764e-05,
      "loss": 0.6927,
      "step": 1870
    },
    {
      "epoch": 0.4240482472672446,
      "grad_norm": 0.30266880989074707,
      "learning_rate": 3.191558546072283e-05,
      "loss": 0.6395,
      "step": 1875
    },
    {
      "epoch": 0.4251790425932906,
      "grad_norm": 0.27712151408195496,
      "learning_rate": 3.1828204772823705e-05,
      "loss": 0.6246,
      "step": 1880
    },
    {
      "epoch": 0.4263098379193366,
      "grad_norm": 0.4084063172340393,
      "learning_rate": 3.174073384945556e-05,
      "loss": 0.6993,
      "step": 1885
    },
    {
      "epoch": 0.42744063324538256,
      "grad_norm": 0.3760344088077545,
      "learning_rate": 3.1653173846556186e-05,
      "loss": 0.6413,
      "step": 1890
    },
    {
      "epoch": 0.42857142857142855,
      "grad_norm": 0.41881611943244934,
      "learning_rate": 3.156552592124054e-05,
      "loss": 0.7295,
      "step": 1895
    },
    {
      "epoch": 0.42970222389747453,
      "grad_norm": 0.3386279046535492,
      "learning_rate": 3.147779123178548e-05,
      "loss": 0.7482,
      "step": 1900
    },
    {
      "epoch": 0.4308330192235205,
      "grad_norm": 0.4601892828941345,
      "learning_rate": 3.138997093761449e-05,
      "loss": 0.7499,
      "step": 1905
    },
    {
      "epoch": 0.4319638145495665,
      "grad_norm": 0.4254579246044159,
      "learning_rate": 3.1302066199282295e-05,
      "loss": 0.7148,
      "step": 1910
    },
    {
      "epoch": 0.4330946098756125,
      "grad_norm": 0.3381584584712982,
      "learning_rate": 3.121407817845959e-05,
      "loss": 0.6117,
      "step": 1915
    },
    {
      "epoch": 0.4342254052016585,
      "grad_norm": 0.3117331266403198,
      "learning_rate": 3.112600803791764e-05,
      "loss": 0.6246,
      "step": 1920
    },
    {
      "epoch": 0.43535620052770446,
      "grad_norm": 0.4453639090061188,
      "learning_rate": 3.103785694151293e-05,
      "loss": 0.754,
      "step": 1925
    },
    {
      "epoch": 0.43648699585375045,
      "grad_norm": 0.4143831729888916,
      "learning_rate": 3.094962605417179e-05,
      "loss": 0.7966,
      "step": 1930
    },
    {
      "epoch": 0.43761779117979643,
      "grad_norm": 0.2990778684616089,
      "learning_rate": 3.086131654187501e-05,
      "loss": 0.6519,
      "step": 1935
    },
    {
      "epoch": 0.4387485865058424,
      "grad_norm": 0.3955526649951935,
      "learning_rate": 3.077292957164238e-05,
      "loss": 0.7048,
      "step": 1940
    },
    {
      "epoch": 0.4398793818318884,
      "grad_norm": 0.3522753119468689,
      "learning_rate": 3.068446631151736e-05,
      "loss": 0.7202,
      "step": 1945
    },
    {
      "epoch": 0.4410101771579344,
      "grad_norm": 0.3563268482685089,
      "learning_rate": 3.0595927930551524e-05,
      "loss": 0.7145,
      "step": 1950
    },
    {
      "epoch": 0.4421409724839804,
      "grad_norm": 0.38255730271339417,
      "learning_rate": 3.0507315598789237e-05,
      "loss": 0.7158,
      "step": 1955
    },
    {
      "epoch": 0.44327176781002636,
      "grad_norm": 0.3502512276172638,
      "learning_rate": 3.0418630487252087e-05,
      "loss": 0.644,
      "step": 1960
    },
    {
      "epoch": 0.44440256313607235,
      "grad_norm": 0.36824584007263184,
      "learning_rate": 3.0329873767923477e-05,
      "loss": 0.7561,
      "step": 1965
    },
    {
      "epoch": 0.44553335846211833,
      "grad_norm": 0.32158178091049194,
      "learning_rate": 3.0241046613733114e-05,
      "loss": 0.6694,
      "step": 1970
    },
    {
      "epoch": 0.4466641537881643,
      "grad_norm": 0.28382861614227295,
      "learning_rate": 3.01521501985415e-05,
      "loss": 0.6803,
      "step": 1975
    },
    {
      "epoch": 0.4477949491142103,
      "grad_norm": 0.3525499999523163,
      "learning_rate": 3.0063185697124446e-05,
      "loss": 0.7263,
      "step": 1980
    },
    {
      "epoch": 0.4489257444402563,
      "grad_norm": 0.2863157093524933,
      "learning_rate": 2.9974154285157497e-05,
      "loss": 0.7232,
      "step": 1985
    },
    {
      "epoch": 0.4500565397663023,
      "grad_norm": 0.3138844668865204,
      "learning_rate": 2.9885057139200468e-05,
      "loss": 0.6912,
      "step": 1990
    },
    {
      "epoch": 0.45118733509234826,
      "grad_norm": 0.33406513929367065,
      "learning_rate": 2.979589543668182e-05,
      "loss": 0.684,
      "step": 1995
    },
    {
      "epoch": 0.45231813041839425,
      "grad_norm": 0.3506259620189667,
      "learning_rate": 2.970667035588317e-05,
      "loss": 0.7522,
      "step": 2000
    },
    {
      "epoch": 0.45344892574444023,
      "grad_norm": 0.37139952182769775,
      "learning_rate": 2.9617383075923665e-05,
      "loss": 0.6471,
      "step": 2005
    },
    {
      "epoch": 0.4545797210704862,
      "grad_norm": 0.295625239610672,
      "learning_rate": 2.952803477674441e-05,
      "loss": 0.7209,
      "step": 2010
    },
    {
      "epoch": 0.4557105163965322,
      "grad_norm": 0.3062797486782074,
      "learning_rate": 2.9438626639092932e-05,
      "loss": 0.7059,
      "step": 2015
    },
    {
      "epoch": 0.4568413117225782,
      "grad_norm": 0.3885577917098999,
      "learning_rate": 2.9349159844507455e-05,
      "loss": 0.7319,
      "step": 2020
    },
    {
      "epoch": 0.4579721070486242,
      "grad_norm": 0.365987628698349,
      "learning_rate": 2.9259635575301436e-05,
      "loss": 0.6858,
      "step": 2025
    },
    {
      "epoch": 0.45910290237467016,
      "grad_norm": 0.32557693123817444,
      "learning_rate": 2.9170055014547825e-05,
      "loss": 0.622,
      "step": 2030
    },
    {
      "epoch": 0.46023369770071615,
      "grad_norm": 0.31643807888031006,
      "learning_rate": 2.908041934606347e-05,
      "loss": 0.6794,
      "step": 2035
    },
    {
      "epoch": 0.46136449302676213,
      "grad_norm": 0.3457587957382202,
      "learning_rate": 2.89907297543935e-05,
      "loss": 0.7015,
      "step": 2040
    },
    {
      "epoch": 0.4624952883528081,
      "grad_norm": 0.3037043809890747,
      "learning_rate": 2.8900987424795606e-05,
      "loss": 0.6773,
      "step": 2045
    },
    {
      "epoch": 0.4636260836788541,
      "grad_norm": 0.3223413825035095,
      "learning_rate": 2.8811193543224462e-05,
      "loss": 0.643,
      "step": 2050
    },
    {
      "epoch": 0.4647568790049001,
      "grad_norm": 0.5646958947181702,
      "learning_rate": 2.8721349296315963e-05,
      "loss": 0.6942,
      "step": 2055
    },
    {
      "epoch": 0.4658876743309461,
      "grad_norm": 0.3289279043674469,
      "learning_rate": 2.8631455871371614e-05,
      "loss": 0.6679,
      "step": 2060
    },
    {
      "epoch": 0.46701846965699206,
      "grad_norm": 0.4061075448989868,
      "learning_rate": 2.8541514456342815e-05,
      "loss": 0.7992,
      "step": 2065
    },
    {
      "epoch": 0.46814926498303805,
      "grad_norm": 0.37772536277770996,
      "learning_rate": 2.8451526239815134e-05,
      "loss": 0.6817,
      "step": 2070
    },
    {
      "epoch": 0.46928006030908404,
      "grad_norm": 0.31532320380210876,
      "learning_rate": 2.8361492410992662e-05,
      "loss": 0.6771,
      "step": 2075
    },
    {
      "epoch": 0.47041085563513,
      "grad_norm": 0.352198988199234,
      "learning_rate": 2.8271414159682224e-05,
      "loss": 0.6515,
      "step": 2080
    },
    {
      "epoch": 0.471541650961176,
      "grad_norm": 0.39696019887924194,
      "learning_rate": 2.8181292676277738e-05,
      "loss": 0.7276,
      "step": 2085
    },
    {
      "epoch": 0.472672446287222,
      "grad_norm": 0.4117799997329712,
      "learning_rate": 2.809112915174439e-05,
      "loss": 0.6333,
      "step": 2090
    },
    {
      "epoch": 0.473803241613268,
      "grad_norm": 0.36984243988990784,
      "learning_rate": 2.8000924777602965e-05,
      "loss": 0.7202,
      "step": 2095
    },
    {
      "epoch": 0.47493403693931396,
      "grad_norm": 0.3305279612541199,
      "learning_rate": 2.79106807459141e-05,
      "loss": 0.6418,
      "step": 2100
    },
    {
      "epoch": 0.47606483226535995,
      "grad_norm": 0.40777119994163513,
      "learning_rate": 2.7820398249262474e-05,
      "loss": 0.7948,
      "step": 2105
    },
    {
      "epoch": 0.47719562759140594,
      "grad_norm": 0.3309784233570099,
      "learning_rate": 2.7730078480741122e-05,
      "loss": 0.6319,
      "step": 2110
    },
    {
      "epoch": 0.4783264229174519,
      "grad_norm": 0.3214864134788513,
      "learning_rate": 2.7639722633935605e-05,
      "loss": 0.7008,
      "step": 2115
    },
    {
      "epoch": 0.4794572182434979,
      "grad_norm": 0.3192216157913208,
      "learning_rate": 2.754933190290826e-05,
      "loss": 0.6489,
      "step": 2120
    },
    {
      "epoch": 0.4805880135695439,
      "grad_norm": 0.31766754388809204,
      "learning_rate": 2.745890748218245e-05,
      "loss": 0.6728,
      "step": 2125
    },
    {
      "epoch": 0.4817188088955899,
      "grad_norm": 0.32393330335617065,
      "learning_rate": 2.736845056672671e-05,
      "loss": 0.6808,
      "step": 2130
    },
    {
      "epoch": 0.48284960422163586,
      "grad_norm": 0.3087853193283081,
      "learning_rate": 2.727796235193904e-05,
      "loss": 0.7033,
      "step": 2135
    },
    {
      "epoch": 0.48398039954768185,
      "grad_norm": 0.3951945900917053,
      "learning_rate": 2.7187444033631044e-05,
      "loss": 0.6537,
      "step": 2140
    },
    {
      "epoch": 0.48511119487372784,
      "grad_norm": 0.31923210620880127,
      "learning_rate": 2.709689680801213e-05,
      "loss": 0.6795,
      "step": 2145
    },
    {
      "epoch": 0.4862419901997738,
      "grad_norm": 0.4405725300312042,
      "learning_rate": 2.7006321871673752e-05,
      "loss": 0.7204,
      "step": 2150
    },
    {
      "epoch": 0.4873727855258198,
      "grad_norm": 0.36784470081329346,
      "learning_rate": 2.6915720421573538e-05,
      "loss": 0.698,
      "step": 2155
    },
    {
      "epoch": 0.4885035808518658,
      "grad_norm": 0.38032978773117065,
      "learning_rate": 2.682509365501953e-05,
      "loss": 0.74,
      "step": 2160
    },
    {
      "epoch": 0.4896343761779118,
      "grad_norm": 0.36600053310394287,
      "learning_rate": 2.6734442769654273e-05,
      "loss": 0.6317,
      "step": 2165
    },
    {
      "epoch": 0.49076517150395776,
      "grad_norm": 0.39383023977279663,
      "learning_rate": 2.6643768963439113e-05,
      "loss": 0.6807,
      "step": 2170
    },
    {
      "epoch": 0.49189596683000375,
      "grad_norm": 0.37128937244415283,
      "learning_rate": 2.6553073434638248e-05,
      "loss": 0.7359,
      "step": 2175
    },
    {
      "epoch": 0.49302676215604974,
      "grad_norm": 0.32236599922180176,
      "learning_rate": 2.6462357381802966e-05,
      "loss": 0.6154,
      "step": 2180
    },
    {
      "epoch": 0.4941575574820957,
      "grad_norm": 0.3519161343574524,
      "learning_rate": 2.6371622003755768e-05,
      "loss": 0.7197,
      "step": 2185
    },
    {
      "epoch": 0.4952883528081417,
      "grad_norm": 0.38883543014526367,
      "learning_rate": 2.628086849957455e-05,
      "loss": 0.7554,
      "step": 2190
    },
    {
      "epoch": 0.4964191481341877,
      "grad_norm": 0.34098756313323975,
      "learning_rate": 2.6190098068576763e-05,
      "loss": 0.7133,
      "step": 2195
    },
    {
      "epoch": 0.4975499434602337,
      "grad_norm": 0.36088091135025024,
      "learning_rate": 2.6099311910303502e-05,
      "loss": 0.6746,
      "step": 2200
    },
    {
      "epoch": 0.49868073878627966,
      "grad_norm": 0.38198113441467285,
      "learning_rate": 2.6008511224503728e-05,
      "loss": 0.6848,
      "step": 2205
    },
    {
      "epoch": 0.49981153411232565,
      "grad_norm": 0.3310260474681854,
      "learning_rate": 2.59176972111184e-05,
      "loss": 0.6657,
      "step": 2210
    },
    {
      "epoch": 0.5009423294383717,
      "grad_norm": 0.3948574364185333,
      "learning_rate": 2.582687107026458e-05,
      "loss": 0.6704,
      "step": 2215
    },
    {
      "epoch": 0.5020731247644177,
      "grad_norm": 0.31727057695388794,
      "learning_rate": 2.5736034002219594e-05,
      "loss": 0.6454,
      "step": 2220
    },
    {
      "epoch": 0.5032039200904637,
      "grad_norm": 0.33022522926330566,
      "learning_rate": 2.564518720740519e-05,
      "loss": 0.6928,
      "step": 2225
    },
    {
      "epoch": 0.5043347154165096,
      "grad_norm": 0.5317490696907043,
      "learning_rate": 2.555433188637164e-05,
      "loss": 0.823,
      "step": 2230
    },
    {
      "epoch": 0.5054655107425556,
      "grad_norm": 0.39583778381347656,
      "learning_rate": 2.54634692397819e-05,
      "loss": 0.7081,
      "step": 2235
    },
    {
      "epoch": 0.5065963060686016,
      "grad_norm": 0.36913448572158813,
      "learning_rate": 2.5372600468395723e-05,
      "loss": 0.6707,
      "step": 2240
    },
    {
      "epoch": 0.5077271013946476,
      "grad_norm": 0.33116042613983154,
      "learning_rate": 2.528172677305382e-05,
      "loss": 0.7008,
      "step": 2245
    },
    {
      "epoch": 0.5088578967206936,
      "grad_norm": 0.3586164116859436,
      "learning_rate": 2.5190849354661955e-05,
      "loss": 0.6895,
      "step": 2250
    },
    {
      "epoch": 0.5099886920467396,
      "grad_norm": 0.44672051072120667,
      "learning_rate": 2.50999694141751e-05,
      "loss": 0.7304,
      "step": 2255
    },
    {
      "epoch": 0.5111194873727856,
      "grad_norm": 0.4558676779270172,
      "learning_rate": 2.5009088152581565e-05,
      "loss": 0.7073,
      "step": 2260
    },
    {
      "epoch": 0.5122502826988315,
      "grad_norm": 0.31825345754623413,
      "learning_rate": 2.4918206770887102e-05,
      "loss": 0.7007,
      "step": 2265
    },
    {
      "epoch": 0.5133810780248775,
      "grad_norm": 0.41337841749191284,
      "learning_rate": 2.482732647009907e-05,
      "loss": 0.7995,
      "step": 2270
    },
    {
      "epoch": 0.5145118733509235,
      "grad_norm": 0.3080434799194336,
      "learning_rate": 2.473644845121051e-05,
      "loss": 0.7367,
      "step": 2275
    },
    {
      "epoch": 0.5156426686769695,
      "grad_norm": 0.35662513971328735,
      "learning_rate": 2.4645573915184354e-05,
      "loss": 0.6669,
      "step": 2280
    },
    {
      "epoch": 0.5167734640030155,
      "grad_norm": 0.41301533579826355,
      "learning_rate": 2.4554704062937467e-05,
      "loss": 0.6953,
      "step": 2285
    },
    {
      "epoch": 0.5179042593290615,
      "grad_norm": 0.42937204241752625,
      "learning_rate": 2.4463840095324834e-05,
      "loss": 0.6625,
      "step": 2290
    },
    {
      "epoch": 0.5190350546551075,
      "grad_norm": 0.32970476150512695,
      "learning_rate": 2.437298321312369e-05,
      "loss": 0.6823,
      "step": 2295
    },
    {
      "epoch": 0.5201658499811534,
      "grad_norm": 0.36597487330436707,
      "learning_rate": 2.428213461701759e-05,
      "loss": 0.6233,
      "step": 2300
    },
    {
      "epoch": 0.5212966453071994,
      "grad_norm": 0.31977376341819763,
      "learning_rate": 2.4191295507580648e-05,
      "loss": 0.6732,
      "step": 2305
    },
    {
      "epoch": 0.5224274406332454,
      "grad_norm": 0.3720978796482086,
      "learning_rate": 2.410046708526155e-05,
      "loss": 0.7449,
      "step": 2310
    },
    {
      "epoch": 0.5235582359592914,
      "grad_norm": 0.4317164421081543,
      "learning_rate": 2.4009650550367804e-05,
      "loss": 0.6818,
      "step": 2315
    },
    {
      "epoch": 0.5246890312853374,
      "grad_norm": 0.358803391456604,
      "learning_rate": 2.3918847103049792e-05,
      "loss": 0.7051,
      "step": 2320
    },
    {
      "epoch": 0.5258198266113834,
      "grad_norm": 0.37477102875709534,
      "learning_rate": 2.3828057943284932e-05,
      "loss": 0.6474,
      "step": 2325
    },
    {
      "epoch": 0.5269506219374294,
      "grad_norm": 0.3854588568210602,
      "learning_rate": 2.373728427086188e-05,
      "loss": 0.6464,
      "step": 2330
    },
    {
      "epoch": 0.5280814172634754,
      "grad_norm": 0.29804185032844543,
      "learning_rate": 2.3646527285364565e-05,
      "loss": 0.6824,
      "step": 2335
    },
    {
      "epoch": 0.5292122125895213,
      "grad_norm": 0.3477884829044342,
      "learning_rate": 2.3555788186156442e-05,
      "loss": 0.7401,
      "step": 2340
    },
    {
      "epoch": 0.5303430079155673,
      "grad_norm": 0.3655013144016266,
      "learning_rate": 2.346506817236457e-05,
      "loss": 0.6915,
      "step": 2345
    },
    {
      "epoch": 0.5314738032416133,
      "grad_norm": 0.31074225902557373,
      "learning_rate": 2.3374368442863814e-05,
      "loss": 0.7442,
      "step": 2350
    },
    {
      "epoch": 0.5326045985676593,
      "grad_norm": 0.38817688822746277,
      "learning_rate": 2.3283690196260967e-05,
      "loss": 0.7317,
      "step": 2355
    },
    {
      "epoch": 0.5337353938937053,
      "grad_norm": 0.2897610366344452,
      "learning_rate": 2.3193034630878907e-05,
      "loss": 0.6206,
      "step": 2360
    },
    {
      "epoch": 0.5348661892197513,
      "grad_norm": 0.38513097167015076,
      "learning_rate": 2.310240294474081e-05,
      "loss": 0.7794,
      "step": 2365
    },
    {
      "epoch": 0.5359969845457973,
      "grad_norm": 0.3019099533557892,
      "learning_rate": 2.3011796335554258e-05,
      "loss": 0.6191,
      "step": 2370
    },
    {
      "epoch": 0.5371277798718432,
      "grad_norm": 0.29924795031547546,
      "learning_rate": 2.2921216000695465e-05,
      "loss": 0.6881,
      "step": 2375
    },
    {
      "epoch": 0.5382585751978892,
      "grad_norm": 0.37753212451934814,
      "learning_rate": 2.2830663137193398e-05,
      "loss": 0.6226,
      "step": 2380
    },
    {
      "epoch": 0.5393893705239352,
      "grad_norm": 0.3259458839893341,
      "learning_rate": 2.274013894171401e-05,
      "loss": 0.7258,
      "step": 2385
    },
    {
      "epoch": 0.5405201658499812,
      "grad_norm": 0.3186294436454773,
      "learning_rate": 2.2649644610544392e-05,
      "loss": 0.7074,
      "step": 2390
    },
    {
      "epoch": 0.5416509611760272,
      "grad_norm": 0.328595370054245,
      "learning_rate": 2.255918133957697e-05,
      "loss": 0.6656,
      "step": 2395
    },
    {
      "epoch": 0.5427817565020732,
      "grad_norm": 0.34288713335990906,
      "learning_rate": 2.2468750324293717e-05,
      "loss": 0.6913,
      "step": 2400
    },
    {
      "epoch": 0.5439125518281192,
      "grad_norm": 0.34917885065078735,
      "learning_rate": 2.2378352759750333e-05,
      "loss": 0.6997,
      "step": 2405
    },
    {
      "epoch": 0.5450433471541651,
      "grad_norm": 0.38892245292663574,
      "learning_rate": 2.2287989840560485e-05,
      "loss": 0.6667,
      "step": 2410
    },
    {
      "epoch": 0.5461741424802111,
      "grad_norm": 0.41548117995262146,
      "learning_rate": 2.219766276087996e-05,
      "loss": 0.648,
      "step": 2415
    },
    {
      "epoch": 0.5473049378062571,
      "grad_norm": 0.37720760703086853,
      "learning_rate": 2.2107372714390974e-05,
      "loss": 0.7646,
      "step": 2420
    },
    {
      "epoch": 0.5484357331323031,
      "grad_norm": 0.32246890664100647,
      "learning_rate": 2.2017120894286287e-05,
      "loss": 0.6772,
      "step": 2425
    },
    {
      "epoch": 0.5495665284583491,
      "grad_norm": 0.35085204243659973,
      "learning_rate": 2.1926908493253527e-05,
      "loss": 0.658,
      "step": 2430
    },
    {
      "epoch": 0.5506973237843951,
      "grad_norm": 0.32103869318962097,
      "learning_rate": 2.1836736703459398e-05,
      "loss": 0.6576,
      "step": 2435
    },
    {
      "epoch": 0.551828119110441,
      "grad_norm": 0.30640605092048645,
      "learning_rate": 2.1746606716533907e-05,
      "loss": 0.7009,
      "step": 2440
    },
    {
      "epoch": 0.552958914436487,
      "grad_norm": 0.4351046681404114,
      "learning_rate": 2.1656519723554643e-05,
      "loss": 0.7124,
      "step": 2445
    },
    {
      "epoch": 0.554089709762533,
      "grad_norm": 0.3515176773071289,
      "learning_rate": 2.1566476915031013e-05,
      "loss": 0.7086,
      "step": 2450
    },
    {
      "epoch": 0.555220505088579,
      "grad_norm": 0.35644426941871643,
      "learning_rate": 2.1476479480888545e-05,
      "loss": 0.7245,
      "step": 2455
    },
    {
      "epoch": 0.556351300414625,
      "grad_norm": 0.49966442584991455,
      "learning_rate": 2.1386528610453104e-05,
      "loss": 0.7511,
      "step": 2460
    },
    {
      "epoch": 0.557482095740671,
      "grad_norm": 0.3358660340309143,
      "learning_rate": 2.129662549243523e-05,
      "loss": 0.6579,
      "step": 2465
    },
    {
      "epoch": 0.558612891066717,
      "grad_norm": 0.392120361328125,
      "learning_rate": 2.120677131491442e-05,
      "loss": 0.7838,
      "step": 2470
    },
    {
      "epoch": 0.559743686392763,
      "grad_norm": 0.3123244047164917,
      "learning_rate": 2.11169672653234e-05,
      "loss": 0.6543,
      "step": 2475
    },
    {
      "epoch": 0.5608744817188089,
      "grad_norm": 0.3226960301399231,
      "learning_rate": 2.1027214530432465e-05,
      "loss": 0.6582,
      "step": 2480
    },
    {
      "epoch": 0.5620052770448549,
      "grad_norm": 0.3497219681739807,
      "learning_rate": 2.0937514296333754e-05,
      "loss": 0.6815,
      "step": 2485
    },
    {
      "epoch": 0.5631360723709009,
      "grad_norm": 0.39245134592056274,
      "learning_rate": 2.0847867748425648e-05,
      "loss": 0.7226,
      "step": 2490
    },
    {
      "epoch": 0.5642668676969469,
      "grad_norm": 0.3870549499988556,
      "learning_rate": 2.0758276071397012e-05,
      "loss": 0.7073,
      "step": 2495
    },
    {
      "epoch": 0.5653976630229929,
      "grad_norm": 0.40596914291381836,
      "learning_rate": 2.0668740449211605e-05,
      "loss": 0.6929,
      "step": 2500
    },
    {
      "epoch": 0.5665284583490389,
      "grad_norm": 0.3204245865345001,
      "learning_rate": 2.0579262065092423e-05,
      "loss": 0.7193,
      "step": 2505
    },
    {
      "epoch": 0.5676592536750849,
      "grad_norm": 0.30433857440948486,
      "learning_rate": 2.048984210150604e-05,
      "loss": 0.6859,
      "step": 2510
    },
    {
      "epoch": 0.5687900490011308,
      "grad_norm": 0.392553448677063,
      "learning_rate": 2.0400481740147022e-05,
      "loss": 0.7217,
      "step": 2515
    },
    {
      "epoch": 0.5699208443271768,
      "grad_norm": 0.3402389585971832,
      "learning_rate": 2.0311182161922237e-05,
      "loss": 0.6868,
      "step": 2520
    },
    {
      "epoch": 0.5710516396532228,
      "grad_norm": 0.42901313304901123,
      "learning_rate": 2.022194454693536e-05,
      "loss": 0.6861,
      "step": 2525
    },
    {
      "epoch": 0.5721824349792688,
      "grad_norm": 0.34680864214897156,
      "learning_rate": 2.013277007447117e-05,
      "loss": 0.7805,
      "step": 2530
    },
    {
      "epoch": 0.5733132303053148,
      "grad_norm": 0.30028700828552246,
      "learning_rate": 2.0043659922980005e-05,
      "loss": 0.6454,
      "step": 2535
    },
    {
      "epoch": 0.5744440256313608,
      "grad_norm": 0.3310604691505432,
      "learning_rate": 1.995461527006225e-05,
      "loss": 0.6193,
      "step": 2540
    },
    {
      "epoch": 0.5755748209574068,
      "grad_norm": 0.3977152407169342,
      "learning_rate": 1.9865637292452636e-05,
      "loss": 0.7275,
      "step": 2545
    },
    {
      "epoch": 0.5767056162834527,
      "grad_norm": 0.42726007103919983,
      "learning_rate": 1.977672716600486e-05,
      "loss": 0.7321,
      "step": 2550
    },
    {
      "epoch": 0.5778364116094987,
      "grad_norm": 0.4253356158733368,
      "learning_rate": 1.968788606567589e-05,
      "loss": 0.7107,
      "step": 2555
    },
    {
      "epoch": 0.5789672069355447,
      "grad_norm": 0.3486230969429016,
      "learning_rate": 1.9599115165510544e-05,
      "loss": 0.6859,
      "step": 2560
    },
    {
      "epoch": 0.5800980022615907,
      "grad_norm": 0.3471638560295105,
      "learning_rate": 1.9510415638625932e-05,
      "loss": 0.656,
      "step": 2565
    },
    {
      "epoch": 0.5812287975876367,
      "grad_norm": 0.37314942479133606,
      "learning_rate": 1.942178865719593e-05,
      "loss": 0.6545,
      "step": 2570
    },
    {
      "epoch": 0.5823595929136827,
      "grad_norm": 0.3019452393054962,
      "learning_rate": 1.9333235392435774e-05,
      "loss": 0.6422,
      "step": 2575
    },
    {
      "epoch": 0.5834903882397287,
      "grad_norm": 0.30790606141090393,
      "learning_rate": 1.9244757014586458e-05,
      "loss": 0.6182,
      "step": 2580
    },
    {
      "epoch": 0.5846211835657746,
      "grad_norm": 0.3539668917655945,
      "learning_rate": 1.9156354692899405e-05,
      "loss": 0.6835,
      "step": 2585
    },
    {
      "epoch": 0.5857519788918206,
      "grad_norm": 0.3208529055118561,
      "learning_rate": 1.9068029595620884e-05,
      "loss": 0.6619,
      "step": 2590
    },
    {
      "epoch": 0.5868827742178666,
      "grad_norm": 0.49773553013801575,
      "learning_rate": 1.897978288997669e-05,
      "loss": 0.7187,
      "step": 2595
    },
    {
      "epoch": 0.5880135695439126,
      "grad_norm": 0.3386790156364441,
      "learning_rate": 1.889161574215663e-05,
      "loss": 0.6659,
      "step": 2600
    },
    {
      "epoch": 0.5891443648699586,
      "grad_norm": 0.3373807370662689,
      "learning_rate": 1.880352931729914e-05,
      "loss": 0.6461,
      "step": 2605
    },
    {
      "epoch": 0.5902751601960046,
      "grad_norm": 0.4661053717136383,
      "learning_rate": 1.8715524779475944e-05,
      "loss": 0.6994,
      "step": 2610
    },
    {
      "epoch": 0.5914059555220506,
      "grad_norm": 0.38146570324897766,
      "learning_rate": 1.862760329167655e-05,
      "loss": 0.6413,
      "step": 2615
    },
    {
      "epoch": 0.5925367508480965,
      "grad_norm": 0.3764294981956482,
      "learning_rate": 1.8539766015793006e-05,
      "loss": 0.6617,
      "step": 2620
    },
    {
      "epoch": 0.5936675461741425,
      "grad_norm": 0.35271722078323364,
      "learning_rate": 1.845201411260446e-05,
      "loss": 0.7036,
      "step": 2625
    },
    {
      "epoch": 0.5947983415001885,
      "grad_norm": 0.3613468110561371,
      "learning_rate": 1.8364348741761867e-05,
      "loss": 0.7361,
      "step": 2630
    },
    {
      "epoch": 0.5959291368262345,
      "grad_norm": 0.34245991706848145,
      "learning_rate": 1.8276771061772647e-05,
      "loss": 0.7073,
      "step": 2635
    },
    {
      "epoch": 0.5970599321522805,
      "grad_norm": 0.32761844992637634,
      "learning_rate": 1.8189282229985345e-05,
      "loss": 0.7661,
      "step": 2640
    },
    {
      "epoch": 0.5981907274783265,
      "grad_norm": 0.3382299542427063,
      "learning_rate": 1.8101883402574415e-05,
      "loss": 0.6813,
      "step": 2645
    },
    {
      "epoch": 0.5993215228043725,
      "grad_norm": 0.30160099267959595,
      "learning_rate": 1.8014575734524865e-05,
      "loss": 0.7183,
      "step": 2650
    },
    {
      "epoch": 0.6004523181304184,
      "grad_norm": 0.3124518096446991,
      "learning_rate": 1.7927360379617024e-05,
      "loss": 0.6506,
      "step": 2655
    },
    {
      "epoch": 0.6015831134564644,
      "grad_norm": 0.3907219469547272,
      "learning_rate": 1.78402384904113e-05,
      "loss": 0.6575,
      "step": 2660
    },
    {
      "epoch": 0.6027139087825104,
      "grad_norm": 0.35735592246055603,
      "learning_rate": 1.7753211218232938e-05,
      "loss": 0.6877,
      "step": 2665
    },
    {
      "epoch": 0.6038447041085564,
      "grad_norm": 0.40482988953590393,
      "learning_rate": 1.7666279713156815e-05,
      "loss": 0.6788,
      "step": 2670
    },
    {
      "epoch": 0.6049754994346024,
      "grad_norm": 0.40024474263191223,
      "learning_rate": 1.757944512399221e-05,
      "loss": 0.7644,
      "step": 2675
    },
    {
      "epoch": 0.6061062947606484,
      "grad_norm": 0.4042050242424011,
      "learning_rate": 1.7492708598267683e-05,
      "loss": 0.7347,
      "step": 2680
    },
    {
      "epoch": 0.6072370900866944,
      "grad_norm": 0.38071730732917786,
      "learning_rate": 1.7406071282215854e-05,
      "loss": 0.6841,
      "step": 2685
    },
    {
      "epoch": 0.6083678854127403,
      "grad_norm": 0.4327053427696228,
      "learning_rate": 1.7319534320758284e-05,
      "loss": 0.7712,
      "step": 2690
    },
    {
      "epoch": 0.6094986807387863,
      "grad_norm": 0.41496187448501587,
      "learning_rate": 1.7233098857490325e-05,
      "loss": 0.7306,
      "step": 2695
    },
    {
      "epoch": 0.6106294760648323,
      "grad_norm": 0.48277217149734497,
      "learning_rate": 1.714676603466605e-05,
      "loss": 0.6843,
      "step": 2700
    },
    {
      "epoch": 0.6117602713908783,
      "grad_norm": 0.4226689338684082,
      "learning_rate": 1.7060536993183084e-05,
      "loss": 0.6336,
      "step": 2705
    },
    {
      "epoch": 0.6128910667169243,
      "grad_norm": 0.3646908104419708,
      "learning_rate": 1.6974412872567597e-05,
      "loss": 0.6637,
      "step": 2710
    },
    {
      "epoch": 0.6140218620429703,
      "grad_norm": 0.30986544489860535,
      "learning_rate": 1.688839481095922e-05,
      "loss": 0.6905,
      "step": 2715
    },
    {
      "epoch": 0.6151526573690163,
      "grad_norm": 0.416892409324646,
      "learning_rate": 1.680248394509599e-05,
      "loss": 0.7408,
      "step": 2720
    },
    {
      "epoch": 0.6162834526950622,
      "grad_norm": 0.3360169231891632,
      "learning_rate": 1.6716681410299348e-05,
      "loss": 0.7591,
      "step": 2725
    },
    {
      "epoch": 0.6174142480211082,
      "grad_norm": 0.40622156858444214,
      "learning_rate": 1.6630988340459128e-05,
      "loss": 0.6792,
      "step": 2730
    },
    {
      "epoch": 0.6185450433471542,
      "grad_norm": 0.37062937021255493,
      "learning_rate": 1.654540586801858e-05,
      "loss": 0.6656,
      "step": 2735
    },
    {
      "epoch": 0.6196758386732002,
      "grad_norm": 0.29908493161201477,
      "learning_rate": 1.645993512395938e-05,
      "loss": 0.6576,
      "step": 2740
    },
    {
      "epoch": 0.6208066339992462,
      "grad_norm": 0.3012191951274872,
      "learning_rate": 1.6374577237786703e-05,
      "loss": 0.6174,
      "step": 2745
    },
    {
      "epoch": 0.6219374293252922,
      "grad_norm": 0.322457879781723,
      "learning_rate": 1.628933333751432e-05,
      "loss": 0.6562,
      "step": 2750
    },
    {
      "epoch": 0.6230682246513382,
      "grad_norm": 0.3631836771965027,
      "learning_rate": 1.6204204549649628e-05,
      "loss": 0.6264,
      "step": 2755
    },
    {
      "epoch": 0.6241990199773841,
      "grad_norm": 0.30250152945518494,
      "learning_rate": 1.6119191999178847e-05,
      "loss": 0.7027,
      "step": 2760
    },
    {
      "epoch": 0.6253298153034301,
      "grad_norm": 0.31643325090408325,
      "learning_rate": 1.6034296809552047e-05,
      "loss": 0.6767,
      "step": 2765
    },
    {
      "epoch": 0.6264606106294761,
      "grad_norm": 0.3336418569087982,
      "learning_rate": 1.594952010266843e-05,
      "loss": 0.67,
      "step": 2770
    },
    {
      "epoch": 0.6275914059555221,
      "grad_norm": 0.33178821206092834,
      "learning_rate": 1.5864862998861384e-05,
      "loss": 0.6477,
      "step": 2775
    },
    {
      "epoch": 0.6287222012815681,
      "grad_norm": 0.3760960102081299,
      "learning_rate": 1.5780326616883745e-05,
      "loss": 0.6692,
      "step": 2780
    },
    {
      "epoch": 0.6298529966076141,
      "grad_norm": 0.38543248176574707,
      "learning_rate": 1.5695912073893006e-05,
      "loss": 0.6762,
      "step": 2785
    },
    {
      "epoch": 0.63098379193366,
      "grad_norm": 0.39795583486557007,
      "learning_rate": 1.561162048543653e-05,
      "loss": 0.6861,
      "step": 2790
    },
    {
      "epoch": 0.632114587259706,
      "grad_norm": 0.30678924918174744,
      "learning_rate": 1.552745296543684e-05,
      "loss": 0.7045,
      "step": 2795
    },
    {
      "epoch": 0.633245382585752,
      "grad_norm": 0.39268332719802856,
      "learning_rate": 1.544341062617685e-05,
      "loss": 0.6791,
      "step": 2800
    },
    {
      "epoch": 0.634376177911798,
      "grad_norm": 0.3372342586517334,
      "learning_rate": 1.535949457828525e-05,
      "loss": 0.6737,
      "step": 2805
    },
    {
      "epoch": 0.635506973237844,
      "grad_norm": 0.3903445303440094,
      "learning_rate": 1.527570593072172e-05,
      "loss": 0.7094,
      "step": 2810
    },
    {
      "epoch": 0.63663776856389,
      "grad_norm": 0.3412375748157501,
      "learning_rate": 1.5192045790762354e-05,
      "loss": 0.7126,
      "step": 2815
    },
    {
      "epoch": 0.637768563889936,
      "grad_norm": 0.37893742322921753,
      "learning_rate": 1.5108515263985018e-05,
      "loss": 0.739,
      "step": 2820
    },
    {
      "epoch": 0.638899359215982,
      "grad_norm": 0.3894254267215729,
      "learning_rate": 1.502511545425469e-05,
      "loss": 0.7108,
      "step": 2825
    },
    {
      "epoch": 0.6400301545420279,
      "grad_norm": 0.3613717257976532,
      "learning_rate": 1.4941847463708958e-05,
      "loss": 0.672,
      "step": 2830
    },
    {
      "epoch": 0.6411609498680739,
      "grad_norm": 0.2811620235443115,
      "learning_rate": 1.4858712392743352e-05,
      "loss": 0.7129,
      "step": 2835
    },
    {
      "epoch": 0.6422917451941199,
      "grad_norm": 0.411286324262619,
      "learning_rate": 1.4775711339996896e-05,
      "loss": 0.6747,
      "step": 2840
    },
    {
      "epoch": 0.6434225405201659,
      "grad_norm": 0.39716291427612305,
      "learning_rate": 1.4692845402337523e-05,
      "loss": 0.7217,
      "step": 2845
    },
    {
      "epoch": 0.6445533358462119,
      "grad_norm": 0.3730713725090027,
      "learning_rate": 1.4610115674847619e-05,
      "loss": 0.6249,
      "step": 2850
    },
    {
      "epoch": 0.6456841311722579,
      "grad_norm": 0.3958978056907654,
      "learning_rate": 1.4527523250809545e-05,
      "loss": 0.6599,
      "step": 2855
    },
    {
      "epoch": 0.6468149264983039,
      "grad_norm": 0.2955171763896942,
      "learning_rate": 1.4445069221691148e-05,
      "loss": 0.6542,
      "step": 2860
    },
    {
      "epoch": 0.6479457218243498,
      "grad_norm": 0.45475757122039795,
      "learning_rate": 1.436275467713141e-05,
      "loss": 0.8182,
      "step": 2865
    },
    {
      "epoch": 0.6490765171503958,
      "grad_norm": 0.40360134840011597,
      "learning_rate": 1.428058070492599e-05,
      "loss": 0.6866,
      "step": 2870
    },
    {
      "epoch": 0.6502073124764418,
      "grad_norm": 0.3490990996360779,
      "learning_rate": 1.4198548391012878e-05,
      "loss": 0.6879,
      "step": 2875
    },
    {
      "epoch": 0.6513381078024878,
      "grad_norm": 0.3447786569595337,
      "learning_rate": 1.4116658819458025e-05,
      "loss": 0.6206,
      "step": 2880
    },
    {
      "epoch": 0.6524689031285338,
      "grad_norm": 0.4018050730228424,
      "learning_rate": 1.4034913072441015e-05,
      "loss": 0.6705,
      "step": 2885
    },
    {
      "epoch": 0.6535996984545798,
      "grad_norm": 0.31316670775413513,
      "learning_rate": 1.3953312230240801e-05,
      "loss": 0.7058,
      "step": 2890
    },
    {
      "epoch": 0.6547304937806258,
      "grad_norm": 0.4424934387207031,
      "learning_rate": 1.3871857371221389e-05,
      "loss": 0.6871,
      "step": 2895
    },
    {
      "epoch": 0.6558612891066717,
      "grad_norm": 0.36514902114868164,
      "learning_rate": 1.3790549571817615e-05,
      "loss": 0.6632,
      "step": 2900
    },
    {
      "epoch": 0.6569920844327177,
      "grad_norm": 0.3037571609020233,
      "learning_rate": 1.3709389906520875e-05,
      "loss": 0.6516,
      "step": 2905
    },
    {
      "epoch": 0.6581228797587637,
      "grad_norm": 0.3230195641517639,
      "learning_rate": 1.3628379447864997e-05,
      "loss": 0.7393,
      "step": 2910
    },
    {
      "epoch": 0.6592536750848097,
      "grad_norm": 0.425601601600647,
      "learning_rate": 1.3547519266411985e-05,
      "loss": 0.6665,
      "step": 2915
    },
    {
      "epoch": 0.6603844704108557,
      "grad_norm": 0.39113959670066833,
      "learning_rate": 1.3466810430737941e-05,
      "loss": 0.6772,
      "step": 2920
    },
    {
      "epoch": 0.6615152657369017,
      "grad_norm": 0.3463885188102722,
      "learning_rate": 1.3386254007418928e-05,
      "loss": 0.7132,
      "step": 2925
    },
    {
      "epoch": 0.6626460610629477,
      "grad_norm": 0.29994767904281616,
      "learning_rate": 1.3305851061016821e-05,
      "loss": 0.7092,
      "step": 2930
    },
    {
      "epoch": 0.6637768563889936,
      "grad_norm": 0.3709157407283783,
      "learning_rate": 1.3225602654065323e-05,
      "loss": 0.6795,
      "step": 2935
    },
    {
      "epoch": 0.6649076517150396,
      "grad_norm": 0.36443623900413513,
      "learning_rate": 1.3145509847055837e-05,
      "loss": 0.6979,
      "step": 2940
    },
    {
      "epoch": 0.6660384470410856,
      "grad_norm": 0.3367445468902588,
      "learning_rate": 1.3065573698423558e-05,
      "loss": 0.7412,
      "step": 2945
    },
    {
      "epoch": 0.6671692423671316,
      "grad_norm": 0.3487666845321655,
      "learning_rate": 1.2985795264533372e-05,
      "loss": 0.8255,
      "step": 2950
    },
    {
      "epoch": 0.6683000376931776,
      "grad_norm": 0.3769291937351227,
      "learning_rate": 1.2906175599665949e-05,
      "loss": 0.6697,
      "step": 2955
    },
    {
      "epoch": 0.6694308330192236,
      "grad_norm": 0.3350309431552887,
      "learning_rate": 1.2826715756003846e-05,
      "loss": 0.7478,
      "step": 2960
    },
    {
      "epoch": 0.6705616283452696,
      "grad_norm": 0.30802276730537415,
      "learning_rate": 1.2747416783617511e-05,
      "loss": 0.6233,
      "step": 2965
    },
    {
      "epoch": 0.6716924236713155,
      "grad_norm": 0.5399759411811829,
      "learning_rate": 1.2668279730451535e-05,
      "loss": 0.7359,
      "step": 2970
    },
    {
      "epoch": 0.6728232189973615,
      "grad_norm": 0.38919568061828613,
      "learning_rate": 1.2589305642310651e-05,
      "loss": 0.6935,
      "step": 2975
    },
    {
      "epoch": 0.6739540143234075,
      "grad_norm": 0.30821794271469116,
      "learning_rate": 1.2510495562846053e-05,
      "loss": 0.7083,
      "step": 2980
    },
    {
      "epoch": 0.6750848096494535,
      "grad_norm": 0.28666800260543823,
      "learning_rate": 1.2431850533541487e-05,
      "loss": 0.6569,
      "step": 2985
    },
    {
      "epoch": 0.6762156049754995,
      "grad_norm": 0.36479493975639343,
      "learning_rate": 1.2353371593699592e-05,
      "loss": 0.6867,
      "step": 2990
    },
    {
      "epoch": 0.6773464003015455,
      "grad_norm": 0.3713551461696625,
      "learning_rate": 1.22750597804281e-05,
      "loss": 0.68,
      "step": 2995
    },
    {
      "epoch": 0.6784771956275915,
      "grad_norm": 0.3654766380786896,
      "learning_rate": 1.2196916128626126e-05,
      "loss": 0.73,
      "step": 3000
    },
    {
      "epoch": 0.6796079909536374,
      "grad_norm": 0.2997152507305145,
      "learning_rate": 1.2118941670970551e-05,
      "loss": 0.6777,
      "step": 3005
    },
    {
      "epoch": 0.6807387862796834,
      "grad_norm": 0.3098806142807007,
      "learning_rate": 1.2041137437902297e-05,
      "loss": 0.709,
      "step": 3010
    },
    {
      "epoch": 0.6818695816057294,
      "grad_norm": 0.32077932357788086,
      "learning_rate": 1.1963504457612781e-05,
      "loss": 0.6451,
      "step": 3015
    },
    {
      "epoch": 0.6830003769317754,
      "grad_norm": 0.33692800998687744,
      "learning_rate": 1.1886043756030294e-05,
      "loss": 0.6855,
      "step": 3020
    },
    {
      "epoch": 0.6841311722578214,
      "grad_norm": 0.4159882664680481,
      "learning_rate": 1.1808756356806411e-05,
      "loss": 0.6746,
      "step": 3025
    },
    {
      "epoch": 0.6852619675838674,
      "grad_norm": 0.4914894104003906,
      "learning_rate": 1.1731643281302548e-05,
      "loss": 0.7548,
      "step": 3030
    },
    {
      "epoch": 0.6863927629099134,
      "grad_norm": 0.354419082403183,
      "learning_rate": 1.1654705548576364e-05,
      "loss": 0.7227,
      "step": 3035
    },
    {
      "epoch": 0.6875235582359593,
      "grad_norm": 0.42316100001335144,
      "learning_rate": 1.157794417536838e-05,
      "loss": 0.709,
      "step": 3040
    },
    {
      "epoch": 0.6886543535620053,
      "grad_norm": 0.35025471448898315,
      "learning_rate": 1.1501360176088494e-05,
      "loss": 0.6336,
      "step": 3045
    },
    {
      "epoch": 0.6897851488880513,
      "grad_norm": 0.33178970217704773,
      "learning_rate": 1.1424954562802598e-05,
      "loss": 0.616,
      "step": 3050
    },
    {
      "epoch": 0.6909159442140973,
      "grad_norm": 0.32804471254348755,
      "learning_rate": 1.1348728345219176e-05,
      "loss": 0.6617,
      "step": 3055
    },
    {
      "epoch": 0.6920467395401433,
      "grad_norm": 0.29233989119529724,
      "learning_rate": 1.127268253067598e-05,
      "loss": 0.6296,
      "step": 3060
    },
    {
      "epoch": 0.6931775348661893,
      "grad_norm": 0.3966659605503082,
      "learning_rate": 1.1196818124126729e-05,
      "loss": 0.6721,
      "step": 3065
    },
    {
      "epoch": 0.6943083301922353,
      "grad_norm": 0.34669914841651917,
      "learning_rate": 1.1121136128127812e-05,
      "loss": 0.6118,
      "step": 3070
    },
    {
      "epoch": 0.6954391255182812,
      "grad_norm": 0.33230316638946533,
      "learning_rate": 1.104563754282505e-05,
      "loss": 0.6855,
      "step": 3075
    },
    {
      "epoch": 0.6965699208443272,
      "grad_norm": 0.3585960865020752,
      "learning_rate": 1.0970323365940444e-05,
      "loss": 0.6893,
      "step": 3080
    },
    {
      "epoch": 0.6977007161703732,
      "grad_norm": 0.4158352315425873,
      "learning_rate": 1.0895194592759042e-05,
      "loss": 0.7072,
      "step": 3085
    },
    {
      "epoch": 0.6988315114964192,
      "grad_norm": 0.43162232637405396,
      "learning_rate": 1.082025221611577e-05,
      "loss": 0.7138,
      "step": 3090
    },
    {
      "epoch": 0.6999623068224652,
      "grad_norm": 0.3278350830078125,
      "learning_rate": 1.0745497226382267e-05,
      "loss": 0.6111,
      "step": 3095
    },
    {
      "epoch": 0.7010931021485112,
      "grad_norm": 0.44768843054771423,
      "learning_rate": 1.0670930611453874e-05,
      "loss": 0.6449,
      "step": 3100
    },
    {
      "epoch": 0.7022238974745572,
      "grad_norm": 0.48205995559692383,
      "learning_rate": 1.0596553356736507e-05,
      "loss": 0.6902,
      "step": 3105
    },
    {
      "epoch": 0.7033546928006031,
      "grad_norm": 0.3945559561252594,
      "learning_rate": 1.0522366445133686e-05,
      "loss": 0.6727,
      "step": 3110
    },
    {
      "epoch": 0.7044854881266491,
      "grad_norm": 0.33756589889526367,
      "learning_rate": 1.044837085703352e-05,
      "loss": 0.6969,
      "step": 3115
    },
    {
      "epoch": 0.7056162834526951,
      "grad_norm": 0.2790575325489044,
      "learning_rate": 1.0374567570295766e-05,
      "loss": 0.625,
      "step": 3120
    },
    {
      "epoch": 0.7067470787787411,
      "grad_norm": 0.4053255021572113,
      "learning_rate": 1.0300957560238875e-05,
      "loss": 0.7338,
      "step": 3125
    },
    {
      "epoch": 0.7078778741047871,
      "grad_norm": 0.3397720158100128,
      "learning_rate": 1.0227541799627136e-05,
      "loss": 0.6771,
      "step": 3130
    },
    {
      "epoch": 0.7090086694308331,
      "grad_norm": 0.3540814518928528,
      "learning_rate": 1.015432125865782e-05,
      "loss": 0.6582,
      "step": 3135
    },
    {
      "epoch": 0.7101394647568791,
      "grad_norm": 0.3383145034313202,
      "learning_rate": 1.0081296904948342e-05,
      "loss": 0.5987,
      "step": 3140
    },
    {
      "epoch": 0.711270260082925,
      "grad_norm": 0.4115695357322693,
      "learning_rate": 1.0008469703523493e-05,
      "loss": 0.6981,
      "step": 3145
    },
    {
      "epoch": 0.712401055408971,
      "grad_norm": 0.3034178912639618,
      "learning_rate": 9.935840616802645e-06,
      "loss": 0.6991,
      "step": 3150
    },
    {
      "epoch": 0.713531850735017,
      "grad_norm": 0.32083261013031006,
      "learning_rate": 9.863410604587095e-06,
      "loss": 0.6806,
      "step": 3155
    },
    {
      "epoch": 0.714662646061063,
      "grad_norm": 0.5665989518165588,
      "learning_rate": 9.791180624047322e-06,
      "loss": 0.7539,
      "step": 3160
    },
    {
      "epoch": 0.715793441387109,
      "grad_norm": 0.4178657829761505,
      "learning_rate": 9.719151629710386e-06,
      "loss": 0.6961,
      "step": 3165
    },
    {
      "epoch": 0.716924236713155,
      "grad_norm": 0.36418062448501587,
      "learning_rate": 9.647324573447291e-06,
      "loss": 0.7055,
      "step": 3170
    },
    {
      "epoch": 0.718055032039201,
      "grad_norm": 0.32820287346839905,
      "learning_rate": 9.575700404460386e-06,
      "loss": 0.6329,
      "step": 3175
    },
    {
      "epoch": 0.7191858273652469,
      "grad_norm": 0.5332444906234741,
      "learning_rate": 9.504280069270871e-06,
      "loss": 0.723,
      "step": 3180
    },
    {
      "epoch": 0.7203166226912929,
      "grad_norm": 0.5376641154289246,
      "learning_rate": 9.433064511706225e-06,
      "loss": 0.7362,
      "step": 3185
    },
    {
      "epoch": 0.7214474180173389,
      "grad_norm": 0.32007166743278503,
      "learning_rate": 9.362054672887819e-06,
      "loss": 0.6754,
      "step": 3190
    },
    {
      "epoch": 0.7225782133433849,
      "grad_norm": 0.37915733456611633,
      "learning_rate": 9.291251491218387e-06,
      "loss": 0.6565,
      "step": 3195
    },
    {
      "epoch": 0.7237090086694309,
      "grad_norm": 0.35389769077301025,
      "learning_rate": 9.220655902369665e-06,
      "loss": 0.6775,
      "step": 3200
    },
    {
      "epoch": 0.7248398039954769,
      "grad_norm": 0.5367900133132935,
      "learning_rate": 9.150268839270055e-06,
      "loss": 0.7366,
      "step": 3205
    },
    {
      "epoch": 0.7259705993215229,
      "grad_norm": 0.4069572985172272,
      "learning_rate": 9.080091232092247e-06,
      "loss": 0.6873,
      "step": 3210
    },
    {
      "epoch": 0.7271013946475688,
      "grad_norm": 0.5752056837081909,
      "learning_rate": 9.01012400824097e-06,
      "loss": 0.7199,
      "step": 3215
    },
    {
      "epoch": 0.7282321899736148,
      "grad_norm": 0.29914751648902893,
      "learning_rate": 8.940368092340682e-06,
      "loss": 0.7129,
      "step": 3220
    },
    {
      "epoch": 0.7293629852996608,
      "grad_norm": 0.33143705129623413,
      "learning_rate": 8.870824406223416e-06,
      "loss": 0.6581,
      "step": 3225
    },
    {
      "epoch": 0.7304937806257068,
      "grad_norm": 0.4050018787384033,
      "learning_rate": 8.801493868916536e-06,
      "loss": 0.6941,
      "step": 3230
    },
    {
      "epoch": 0.7316245759517528,
      "grad_norm": 0.33594897389411926,
      "learning_rate": 8.732377396630642e-06,
      "loss": 0.6639,
      "step": 3235
    },
    {
      "epoch": 0.7327553712777988,
      "grad_norm": 0.4058912694454193,
      "learning_rate": 8.663475902747445e-06,
      "loss": 0.7139,
      "step": 3240
    },
    {
      "epoch": 0.7338861666038448,
      "grad_norm": 0.5566866397857666,
      "learning_rate": 8.594790297807667e-06,
      "loss": 0.6765,
      "step": 3245
    },
    {
      "epoch": 0.7350169619298907,
      "grad_norm": 0.36217668652534485,
      "learning_rate": 8.526321489499067e-06,
      "loss": 0.6592,
      "step": 3250
    },
    {
      "epoch": 0.7361477572559367,
      "grad_norm": 0.3255480229854584,
      "learning_rate": 8.458070382644382e-06,
      "loss": 0.7567,
      "step": 3255
    },
    {
      "epoch": 0.7372785525819827,
      "grad_norm": 0.4506484866142273,
      "learning_rate": 8.390037879189422e-06,
      "loss": 0.6732,
      "step": 3260
    },
    {
      "epoch": 0.7384093479080287,
      "grad_norm": 0.4981943368911743,
      "learning_rate": 8.322224878191126e-06,
      "loss": 0.6665,
      "step": 3265
    },
    {
      "epoch": 0.7395401432340747,
      "grad_norm": 0.36179500818252563,
      "learning_rate": 8.25463227580567e-06,
      "loss": 0.6821,
      "step": 3270
    },
    {
      "epoch": 0.7406709385601207,
      "grad_norm": 0.34908345341682434,
      "learning_rate": 8.187260965276666e-06,
      "loss": 0.6194,
      "step": 3275
    },
    {
      "epoch": 0.7418017338861667,
      "grad_norm": 0.3363327980041504,
      "learning_rate": 8.120111836923283e-06,
      "loss": 0.6294,
      "step": 3280
    },
    {
      "epoch": 0.7429325292122126,
      "grad_norm": 0.34136900305747986,
      "learning_rate": 8.053185778128594e-06,
      "loss": 0.6208,
      "step": 3285
    },
    {
      "epoch": 0.7440633245382586,
      "grad_norm": 0.37522128224372864,
      "learning_rate": 7.986483673327724e-06,
      "loss": 0.6751,
      "step": 3290
    },
    {
      "epoch": 0.7451941198643046,
      "grad_norm": 0.34423232078552246,
      "learning_rate": 7.92000640399626e-06,
      "loss": 0.733,
      "step": 3295
    },
    {
      "epoch": 0.7463249151903506,
      "grad_norm": 0.4137992858886719,
      "learning_rate": 7.853754848638542e-06,
      "loss": 0.7044,
      "step": 3300
    },
    {
      "epoch": 0.7474557105163966,
      "grad_norm": 0.36555016040802,
      "learning_rate": 7.787729882776065e-06,
      "loss": 0.6735,
      "step": 3305
    },
    {
      "epoch": 0.7485865058424426,
      "grad_norm": 0.33875149488449097,
      "learning_rate": 7.721932378935973e-06,
      "loss": 0.732,
      "step": 3310
    },
    {
      "epoch": 0.7497173011684886,
      "grad_norm": 0.32351580262184143,
      "learning_rate": 7.656363206639409e-06,
      "loss": 0.7191,
      "step": 3315
    },
    {
      "epoch": 0.7508480964945344,
      "grad_norm": 0.48030319809913635,
      "learning_rate": 7.591023232390138e-06,
      "loss": 0.6972,
      "step": 3320
    },
    {
      "epoch": 0.7519788918205804,
      "grad_norm": 0.381740540266037,
      "learning_rate": 7.525913319663011e-06,
      "loss": 0.6752,
      "step": 3325
    },
    {
      "epoch": 0.7531096871466264,
      "grad_norm": 0.3707197308540344,
      "learning_rate": 7.461034328892621e-06,
      "loss": 0.6924,
      "step": 3330
    },
    {
      "epoch": 0.7542404824726724,
      "grad_norm": 0.4179406762123108,
      "learning_rate": 7.3963871174618945e-06,
      "loss": 0.6774,
      "step": 3335
    },
    {
      "epoch": 0.7553712777987184,
      "grad_norm": 0.3096112012863159,
      "learning_rate": 7.3319725396907485e-06,
      "loss": 0.6671,
      "step": 3340
    },
    {
      "epoch": 0.7565020731247644,
      "grad_norm": 0.37638741731643677,
      "learning_rate": 7.267791446824854e-06,
      "loss": 0.739,
      "step": 3345
    },
    {
      "epoch": 0.7576328684508103,
      "grad_norm": 0.33642110228538513,
      "learning_rate": 7.2038446870243195e-06,
      "loss": 0.6591,
      "step": 3350
    },
    {
      "epoch": 0.7587636637768563,
      "grad_norm": 0.3964068591594696,
      "learning_rate": 7.140133105352545e-06,
      "loss": 0.6936,
      "step": 3355
    },
    {
      "epoch": 0.7598944591029023,
      "grad_norm": 0.42048409581184387,
      "learning_rate": 7.076657543765008e-06,
      "loss": 0.729,
      "step": 3360
    },
    {
      "epoch": 0.7610252544289483,
      "grad_norm": 0.3949214518070221,
      "learning_rate": 7.013418841098174e-06,
      "loss": 0.7064,
      "step": 3365
    },
    {
      "epoch": 0.7621560497549943,
      "grad_norm": 0.38450565934181213,
      "learning_rate": 6.95041783305837e-06,
      "loss": 0.6666,
      "step": 3370
    },
    {
      "epoch": 0.7632868450810403,
      "grad_norm": 0.33812659978866577,
      "learning_rate": 6.887655352210765e-06,
      "loss": 0.6572,
      "step": 3375
    },
    {
      "epoch": 0.7644176404070863,
      "grad_norm": 0.373017281293869,
      "learning_rate": 6.825132227968378e-06,
      "loss": 0.7411,
      "step": 3380
    },
    {
      "epoch": 0.7655484357331322,
      "grad_norm": 0.36028534173965454,
      "learning_rate": 6.7628492865810995e-06,
      "loss": 0.6234,
      "step": 3385
    },
    {
      "epoch": 0.7666792310591782,
      "grad_norm": 0.3726188838481903,
      "learning_rate": 6.700807351124785e-06,
      "loss": 0.6261,
      "step": 3390
    },
    {
      "epoch": 0.7678100263852242,
      "grad_norm": 0.32167547941207886,
      "learning_rate": 6.639007241490347e-06,
      "loss": 0.7218,
      "step": 3395
    },
    {
      "epoch": 0.7689408217112702,
      "grad_norm": 0.3346633315086365,
      "learning_rate": 6.5774497743729734e-06,
      "loss": 0.6264,
      "step": 3400
    },
    {
      "epoch": 0.7700716170373162,
      "grad_norm": 0.5438939929008484,
      "learning_rate": 6.5161357632612745e-06,
      "loss": 0.6799,
      "step": 3405
    },
    {
      "epoch": 0.7712024123633622,
      "grad_norm": 0.7162203192710876,
      "learning_rate": 6.4550660184265866e-06,
      "loss": 0.7282,
      "step": 3410
    },
    {
      "epoch": 0.7723332076894082,
      "grad_norm": 0.3571074306964874,
      "learning_rate": 6.394241346912236e-06,
      "loss": 0.7061,
      "step": 3415
    },
    {
      "epoch": 0.7734640030154541,
      "grad_norm": 0.37110117077827454,
      "learning_rate": 6.333662552522865e-06,
      "loss": 0.6464,
      "step": 3420
    },
    {
      "epoch": 0.7745947983415001,
      "grad_norm": 0.42400380969047546,
      "learning_rate": 6.273330435813837e-06,
      "loss": 0.6814,
      "step": 3425
    },
    {
      "epoch": 0.7757255936675461,
      "grad_norm": 0.41441938281059265,
      "learning_rate": 6.213245794080641e-06,
      "loss": 0.6435,
      "step": 3430
    },
    {
      "epoch": 0.7768563889935921,
      "grad_norm": 0.38226518034935,
      "learning_rate": 6.153409421348358e-06,
      "loss": 0.6979,
      "step": 3435
    },
    {
      "epoch": 0.7779871843196381,
      "grad_norm": 0.28945887088775635,
      "learning_rate": 6.093822108361163e-06,
      "loss": 0.6509,
      "step": 3440
    },
    {
      "epoch": 0.7791179796456841,
      "grad_norm": 0.3852415680885315,
      "learning_rate": 6.034484642571866e-06,
      "loss": 0.7581,
      "step": 3445
    },
    {
      "epoch": 0.7802487749717301,
      "grad_norm": 0.36283373832702637,
      "learning_rate": 5.975397808131549e-06,
      "loss": 0.6021,
      "step": 3450
    },
    {
      "epoch": 0.781379570297776,
      "grad_norm": 0.3490721583366394,
      "learning_rate": 5.916562385879151e-06,
      "loss": 0.6571,
      "step": 3455
    },
    {
      "epoch": 0.782510365623822,
      "grad_norm": 0.32459717988967896,
      "learning_rate": 5.857979153331189e-06,
      "loss": 0.6211,
      "step": 3460
    },
    {
      "epoch": 0.783641160949868,
      "grad_norm": 0.37339502573013306,
      "learning_rate": 5.799648884671441e-06,
      "loss": 0.6819,
      "step": 3465
    },
    {
      "epoch": 0.784771956275914,
      "grad_norm": 0.35320839285850525,
      "learning_rate": 5.741572350740768e-06,
      "loss": 0.7348,
      "step": 3470
    },
    {
      "epoch": 0.78590275160196,
      "grad_norm": 0.2820529043674469,
      "learning_rate": 5.68375031902687e-06,
      "loss": 0.6302,
      "step": 3475
    },
    {
      "epoch": 0.787033546928006,
      "grad_norm": 0.35477685928344727,
      "learning_rate": 5.626183553654194e-06,
      "loss": 0.6241,
      "step": 3480
    },
    {
      "epoch": 0.788164342254052,
      "grad_norm": 0.36558765172958374,
      "learning_rate": 5.5688728153738155e-06,
      "loss": 0.6594,
      "step": 3485
    },
    {
      "epoch": 0.789295137580098,
      "grad_norm": 0.3570399880409241,
      "learning_rate": 5.511818861553364e-06,
      "loss": 0.6271,
      "step": 3490
    },
    {
      "epoch": 0.7904259329061439,
      "grad_norm": 0.4297529458999634,
      "learning_rate": 5.45502244616706e-06,
      "loss": 0.7279,
      "step": 3495
    },
    {
      "epoch": 0.7915567282321899,
      "grad_norm": 0.3277917504310608,
      "learning_rate": 5.398484319785688e-06,
      "loss": 0.7204,
      "step": 3500
    },
    {
      "epoch": 0.7926875235582359,
      "grad_norm": 0.35679319500923157,
      "learning_rate": 5.342205229566774e-06,
      "loss": 0.6979,
      "step": 3505
    },
    {
      "epoch": 0.7938183188842819,
      "grad_norm": 0.5490666627883911,
      "learning_rate": 5.286185919244599e-06,
      "loss": 0.7884,
      "step": 3510
    },
    {
      "epoch": 0.7949491142103279,
      "grad_norm": 0.3300570845603943,
      "learning_rate": 5.230427129120441e-06,
      "loss": 0.6661,
      "step": 3515
    },
    {
      "epoch": 0.7960799095363739,
      "grad_norm": 0.34464097023010254,
      "learning_rate": 5.174929596052791e-06,
      "loss": 0.729,
      "step": 3520
    },
    {
      "epoch": 0.7972107048624198,
      "grad_norm": 0.36439618468284607,
      "learning_rate": 5.119694053447566e-06,
      "loss": 0.6483,
      "step": 3525
    },
    {
      "epoch": 0.7983415001884658,
      "grad_norm": 0.3646329939365387,
      "learning_rate": 5.064721231248498e-06,
      "loss": 0.6497,
      "step": 3530
    },
    {
      "epoch": 0.7994722955145118,
      "grad_norm": 0.42587414383888245,
      "learning_rate": 5.010011855927393e-06,
      "loss": 0.6638,
      "step": 3535
    },
    {
      "epoch": 0.8006030908405578,
      "grad_norm": 0.3738311529159546,
      "learning_rate": 4.955566650474616e-06,
      "loss": 0.806,
      "step": 3540
    },
    {
      "epoch": 0.8017338861666038,
      "grad_norm": 0.4998151659965515,
      "learning_rate": 4.90138633438946e-06,
      "loss": 0.6658,
      "step": 3545
    },
    {
      "epoch": 0.8028646814926498,
      "grad_norm": 0.39495596289634705,
      "learning_rate": 4.847471623670713e-06,
      "loss": 0.7759,
      "step": 3550
    },
    {
      "epoch": 0.8039954768186958,
      "grad_norm": 0.38152778148651123,
      "learning_rate": 4.79382323080714e-06,
      "loss": 0.6445,
      "step": 3555
    },
    {
      "epoch": 0.8051262721447418,
      "grad_norm": 0.5026568174362183,
      "learning_rate": 4.740441864768086e-06,
      "loss": 0.7176,
      "step": 3560
    },
    {
      "epoch": 0.8062570674707877,
      "grad_norm": 0.3014233112335205,
      "learning_rate": 4.687328230994118e-06,
      "loss": 0.6597,
      "step": 3565
    },
    {
      "epoch": 0.8073878627968337,
      "grad_norm": 0.4386585056781769,
      "learning_rate": 4.634483031387676e-06,
      "loss": 0.7718,
      "step": 3570
    },
    {
      "epoch": 0.8085186581228797,
      "grad_norm": 0.3882271647453308,
      "learning_rate": 4.581906964303825e-06,
      "loss": 0.6668,
      "step": 3575
    },
    {
      "epoch": 0.8096494534489257,
      "grad_norm": 0.3510667681694031,
      "learning_rate": 4.529600724541022e-06,
      "loss": 0.7296,
      "step": 3580
    },
    {
      "epoch": 0.8107802487749717,
      "grad_norm": 0.5134342908859253,
      "learning_rate": 4.477565003331904e-06,
      "loss": 0.7208,
      "step": 3585
    },
    {
      "epoch": 0.8119110441010177,
      "grad_norm": 0.32369402050971985,
      "learning_rate": 4.4258004883342e-06,
      "loss": 0.6951,
      "step": 3590
    },
    {
      "epoch": 0.8130418394270637,
      "grad_norm": 0.4089120030403137,
      "learning_rate": 4.3743078636215935e-06,
      "loss": 0.6571,
      "step": 3595
    },
    {
      "epoch": 0.8141726347531096,
      "grad_norm": 0.3248507082462311,
      "learning_rate": 4.323087809674733e-06,
      "loss": 0.6267,
      "step": 3600
    },
    {
      "epoch": 0.8153034300791556,
      "grad_norm": 0.3590109348297119,
      "learning_rate": 4.2721410033722014e-06,
      "loss": 0.6919,
      "step": 3605
    },
    {
      "epoch": 0.8164342254052016,
      "grad_norm": 0.3924254775047302,
      "learning_rate": 4.221468117981592e-06,
      "loss": 0.6,
      "step": 3610
    },
    {
      "epoch": 0.8175650207312476,
      "grad_norm": 0.42247772216796875,
      "learning_rate": 4.1710698231505975e-06,
      "loss": 0.6375,
      "step": 3615
    },
    {
      "epoch": 0.8186958160572936,
      "grad_norm": 0.3658187985420227,
      "learning_rate": 4.120946784898156e-06,
      "loss": 0.7743,
      "step": 3620
    },
    {
      "epoch": 0.8198266113833396,
      "grad_norm": 0.39758992195129395,
      "learning_rate": 4.071099665605682e-06,
      "loss": 0.6259,
      "step": 3625
    },
    {
      "epoch": 0.8209574067093856,
      "grad_norm": 0.45203524827957153,
      "learning_rate": 4.021529124008278e-06,
      "loss": 0.7297,
      "step": 3630
    },
    {
      "epoch": 0.8220882020354315,
      "grad_norm": 0.43119361996650696,
      "learning_rate": 3.9722358151860515e-06,
      "loss": 0.6612,
      "step": 3635
    },
    {
      "epoch": 0.8232189973614775,
      "grad_norm": 0.41796061396598816,
      "learning_rate": 3.923220390555432e-06,
      "loss": 0.7526,
      "step": 3640
    },
    {
      "epoch": 0.8243497926875235,
      "grad_norm": 0.33241549134254456,
      "learning_rate": 3.87448349786059e-06,
      "loss": 0.6832,
      "step": 3645
    },
    {
      "epoch": 0.8254805880135695,
      "grad_norm": 0.3728543817996979,
      "learning_rate": 3.826025781164874e-06,
      "loss": 0.6604,
      "step": 3650
    },
    {
      "epoch": 0.8266113833396155,
      "grad_norm": 0.297720342874527,
      "learning_rate": 3.7778478808422753e-06,
      "loss": 0.7111,
      "step": 3655
    },
    {
      "epoch": 0.8277421786656615,
      "grad_norm": 0.3133184015750885,
      "learning_rate": 3.7299504335689905e-06,
      "loss": 0.6552,
      "step": 3660
    },
    {
      "epoch": 0.8288729739917075,
      "grad_norm": 0.3344557583332062,
      "learning_rate": 3.682334072314994e-06,
      "loss": 0.6516,
      "step": 3665
    },
    {
      "epoch": 0.8300037693177534,
      "grad_norm": 0.33505749702453613,
      "learning_rate": 3.6349994263356806e-06,
      "loss": 0.6788,
      "step": 3670
    },
    {
      "epoch": 0.8311345646437994,
      "grad_norm": 0.32801946997642517,
      "learning_rate": 3.587947121163551e-06,
      "loss": 0.6627,
      "step": 3675
    },
    {
      "epoch": 0.8322653599698454,
      "grad_norm": 0.3641601800918579,
      "learning_rate": 3.541177778599944e-06,
      "loss": 0.6904,
      "step": 3680
    },
    {
      "epoch": 0.8333961552958914,
      "grad_norm": 0.3527655005455017,
      "learning_rate": 3.494692016706799e-06,
      "loss": 0.7227,
      "step": 3685
    },
    {
      "epoch": 0.8345269506219374,
      "grad_norm": 0.32480356097221375,
      "learning_rate": 3.4484904497985167e-06,
      "loss": 0.6718,
      "step": 3690
    },
    {
      "epoch": 0.8356577459479834,
      "grad_norm": 0.40660572052001953,
      "learning_rate": 3.4025736884338326e-06,
      "loss": 0.7252,
      "step": 3695
    },
    {
      "epoch": 0.8367885412740294,
      "grad_norm": 0.3736969530582428,
      "learning_rate": 3.356942339407748e-06,
      "loss": 0.6344,
      "step": 3700
    },
    {
      "epoch": 0.8379193366000753,
      "grad_norm": 0.3524364233016968,
      "learning_rate": 3.311597005743508e-06,
      "loss": 0.6561,
      "step": 3705
    },
    {
      "epoch": 0.8390501319261213,
      "grad_norm": 0.346884548664093,
      "learning_rate": 3.26653828668462e-06,
      "loss": 0.7203,
      "step": 3710
    },
    {
      "epoch": 0.8401809272521673,
      "grad_norm": 0.3504559099674225,
      "learning_rate": 3.2217667776869716e-06,
      "loss": 0.6846,
      "step": 3715
    },
    {
      "epoch": 0.8413117225782133,
      "grad_norm": 0.4117507338523865,
      "learning_rate": 3.1772830704109108e-06,
      "loss": 0.7109,
      "step": 3720
    },
    {
      "epoch": 0.8424425179042593,
      "grad_norm": 0.35699552297592163,
      "learning_rate": 3.133087752713479e-06,
      "loss": 0.7086,
      "step": 3725
    },
    {
      "epoch": 0.8435733132303053,
      "grad_norm": 0.4353185296058655,
      "learning_rate": 3.089181408640612e-06,
      "loss": 0.6974,
      "step": 3730
    },
    {
      "epoch": 0.8447041085563513,
      "grad_norm": 0.35224634408950806,
      "learning_rate": 3.0455646184194137e-06,
      "loss": 0.695,
      "step": 3735
    },
    {
      "epoch": 0.8458349038823972,
      "grad_norm": 0.3479955792427063,
      "learning_rate": 3.0022379584505212e-06,
      "loss": 0.7459,
      "step": 3740
    },
    {
      "epoch": 0.8469656992084432,
      "grad_norm": 0.33437180519104004,
      "learning_rate": 2.9592020013004455e-06,
      "loss": 0.6236,
      "step": 3745
    },
    {
      "epoch": 0.8480964945344892,
      "grad_norm": 0.3484211266040802,
      "learning_rate": 2.9164573156940654e-06,
      "loss": 0.6564,
      "step": 3750
    },
    {
      "epoch": 0.8492272898605352,
      "grad_norm": 0.42290642857551575,
      "learning_rate": 2.874004466507041e-06,
      "loss": 0.8202,
      "step": 3755
    },
    {
      "epoch": 0.8503580851865812,
      "grad_norm": 0.3348793089389801,
      "learning_rate": 2.8318440147583862e-06,
      "loss": 0.6083,
      "step": 3760
    },
    {
      "epoch": 0.8514888805126272,
      "grad_norm": 0.45830124616622925,
      "learning_rate": 2.7899765176030627e-06,
      "loss": 0.6741,
      "step": 3765
    },
    {
      "epoch": 0.8526196758386732,
      "grad_norm": 0.40784764289855957,
      "learning_rate": 2.7484025283246034e-06,
      "loss": 0.6632,
      "step": 3770
    },
    {
      "epoch": 0.8537504711647191,
      "grad_norm": 0.31340643763542175,
      "learning_rate": 2.707122596327805e-06,
      "loss": 0.6891,
      "step": 3775
    },
    {
      "epoch": 0.8548812664907651,
      "grad_norm": 0.5138049721717834,
      "learning_rate": 2.6661372671314493e-06,
      "loss": 0.7407,
      "step": 3780
    },
    {
      "epoch": 0.8560120618168111,
      "grad_norm": 0.3300493359565735,
      "learning_rate": 2.6254470823611323e-06,
      "loss": 0.7163,
      "step": 3785
    },
    {
      "epoch": 0.8571428571428571,
      "grad_norm": 0.4111888110637665,
      "learning_rate": 2.585052579742059e-06,
      "loss": 0.7343,
      "step": 3790
    },
    {
      "epoch": 0.8582736524689031,
      "grad_norm": 0.3648470938205719,
      "learning_rate": 2.5449542930919864e-06,
      "loss": 0.6905,
      "step": 3795
    },
    {
      "epoch": 0.8594044477949491,
      "grad_norm": 0.3930950164794922,
      "learning_rate": 2.5051527523141356e-06,
      "loss": 0.6164,
      "step": 3800
    },
    {
      "epoch": 0.860535243120995,
      "grad_norm": 0.35205841064453125,
      "learning_rate": 2.465648483390193e-06,
      "loss": 0.6893,
      "step": 3805
    },
    {
      "epoch": 0.861666038447041,
      "grad_norm": 0.3441345989704132,
      "learning_rate": 2.4264420083733807e-06,
      "loss": 0.6441,
      "step": 3810
    },
    {
      "epoch": 0.862796833773087,
      "grad_norm": 0.3523414134979248,
      "learning_rate": 2.387533845381518e-06,
      "loss": 0.7179,
      "step": 3815
    },
    {
      "epoch": 0.863927629099133,
      "grad_norm": 0.4754193425178528,
      "learning_rate": 2.3489245085902194e-06,
      "loss": 0.7682,
      "step": 3820
    },
    {
      "epoch": 0.865058424425179,
      "grad_norm": 0.3973066508769989,
      "learning_rate": 2.310614508226078e-06,
      "loss": 0.6431,
      "step": 3825
    },
    {
      "epoch": 0.866189219751225,
      "grad_norm": 0.49921613931655884,
      "learning_rate": 2.2726043505599036e-06,
      "loss": 0.7379,
      "step": 3830
    },
    {
      "epoch": 0.867320015077271,
      "grad_norm": 0.3483542203903198,
      "learning_rate": 2.2348945379000783e-06,
      "loss": 0.6746,
      "step": 3835
    },
    {
      "epoch": 0.868450810403317,
      "grad_norm": 0.409015417098999,
      "learning_rate": 2.1974855685858663e-06,
      "loss": 0.6205,
      "step": 3840
    },
    {
      "epoch": 0.8695816057293629,
      "grad_norm": 0.38850805163383484,
      "learning_rate": 2.1603779369808757e-06,
      "loss": 0.6971,
      "step": 3845
    },
    {
      "epoch": 0.8707124010554089,
      "grad_norm": 0.39465731382369995,
      "learning_rate": 2.123572133466495e-06,
      "loss": 0.6327,
      "step": 3850
    },
    {
      "epoch": 0.8718431963814549,
      "grad_norm": 0.3345524072647095,
      "learning_rate": 2.087068644435425e-06,
      "loss": 0.6426,
      "step": 3855
    },
    {
      "epoch": 0.8729739917075009,
      "grad_norm": 0.28288835287094116,
      "learning_rate": 2.050867952285243e-06,
      "loss": 0.5873,
      "step": 3860
    },
    {
      "epoch": 0.8741047870335469,
      "grad_norm": 0.3995983898639679,
      "learning_rate": 2.0149705354120224e-06,
      "loss": 0.6867,
      "step": 3865
    },
    {
      "epoch": 0.8752355823595929,
      "grad_norm": 0.4070720076560974,
      "learning_rate": 1.9793768682040524e-06,
      "loss": 0.726,
      "step": 3870
    },
    {
      "epoch": 0.8763663776856389,
      "grad_norm": 0.37636858224868774,
      "learning_rate": 1.9440874210355065e-06,
      "loss": 0.6516,
      "step": 3875
    },
    {
      "epoch": 0.8774971730116848,
      "grad_norm": 0.2892749309539795,
      "learning_rate": 1.909102660260273e-06,
      "loss": 0.6692,
      "step": 3880
    },
    {
      "epoch": 0.8786279683377308,
      "grad_norm": 0.3219640851020813,
      "learning_rate": 1.8744230482057673e-06,
      "loss": 0.7656,
      "step": 3885
    },
    {
      "epoch": 0.8797587636637768,
      "grad_norm": 0.4004978835582733,
      "learning_rate": 1.8400490431668387e-06,
      "loss": 0.7057,
      "step": 3890
    },
    {
      "epoch": 0.8808895589898228,
      "grad_norm": 0.3124302327632904,
      "learning_rate": 1.805981099399709e-06,
      "loss": 0.6377,
      "step": 3895
    },
    {
      "epoch": 0.8820203543158688,
      "grad_norm": 0.3707364797592163,
      "learning_rate": 1.7722196671159542e-06,
      "loss": 0.6751,
      "step": 3900
    },
    {
      "epoch": 0.8831511496419148,
      "grad_norm": 0.38595885038375854,
      "learning_rate": 1.7387651924765796e-06,
      "loss": 0.6968,
      "step": 3905
    },
    {
      "epoch": 0.8842819449679608,
      "grad_norm": 0.3807552754878998,
      "learning_rate": 1.7056181175861025e-06,
      "loss": 0.7338,
      "step": 3910
    },
    {
      "epoch": 0.8854127402940067,
      "grad_norm": 0.40677499771118164,
      "learning_rate": 1.6727788804867277e-06,
      "loss": 0.713,
      "step": 3915
    },
    {
      "epoch": 0.8865435356200527,
      "grad_norm": 0.5259581804275513,
      "learning_rate": 1.6402479151525458e-06,
      "loss": 0.6833,
      "step": 3920
    },
    {
      "epoch": 0.8876743309460987,
      "grad_norm": 0.3447456359863281,
      "learning_rate": 1.6080256514838077e-06,
      "loss": 0.6712,
      "step": 3925
    },
    {
      "epoch": 0.8888051262721447,
      "grad_norm": 0.31114619970321655,
      "learning_rate": 1.5761125153012312e-06,
      "loss": 0.73,
      "step": 3930
    },
    {
      "epoch": 0.8899359215981907,
      "grad_norm": 0.29841819405555725,
      "learning_rate": 1.5445089283403768e-06,
      "loss": 0.6782,
      "step": 3935
    },
    {
      "epoch": 0.8910667169242367,
      "grad_norm": 0.45541536808013916,
      "learning_rate": 1.5132153082460908e-06,
      "loss": 0.7093,
      "step": 3940
    },
    {
      "epoch": 0.8921975122502827,
      "grad_norm": 0.31067731976509094,
      "learning_rate": 1.482232068566966e-06,
      "loss": 0.6212,
      "step": 3945
    },
    {
      "epoch": 0.8933283075763286,
      "grad_norm": 0.3661406934261322,
      "learning_rate": 1.4515596187498898e-06,
      "loss": 0.6728,
      "step": 3950
    },
    {
      "epoch": 0.8944591029023746,
      "grad_norm": 0.31056010723114014,
      "learning_rate": 1.4211983641346154e-06,
      "loss": 0.64,
      "step": 3955
    },
    {
      "epoch": 0.8955898982284206,
      "grad_norm": 0.3716438114643097,
      "learning_rate": 1.3911487059484362e-06,
      "loss": 0.7058,
      "step": 3960
    },
    {
      "epoch": 0.8967206935544666,
      "grad_norm": 0.3605138659477234,
      "learning_rate": 1.3614110413008474e-06,
      "loss": 0.7142,
      "step": 3965
    },
    {
      "epoch": 0.8978514888805126,
      "grad_norm": 0.39523765444755554,
      "learning_rate": 1.3319857631783227e-06,
      "loss": 0.667,
      "step": 3970
    },
    {
      "epoch": 0.8989822842065586,
      "grad_norm": 0.4720902144908905,
      "learning_rate": 1.302873260439122e-06,
      "loss": 0.7009,
      "step": 3975
    },
    {
      "epoch": 0.9001130795326046,
      "grad_norm": 0.39917027950286865,
      "learning_rate": 1.2740739178081274e-06,
      "loss": 0.6236,
      "step": 3980
    },
    {
      "epoch": 0.9012438748586505,
      "grad_norm": 0.38968703150749207,
      "learning_rate": 1.2455881158717874e-06,
      "loss": 0.6108,
      "step": 3985
    },
    {
      "epoch": 0.9023746701846965,
      "grad_norm": 0.3744681775569916,
      "learning_rate": 1.2174162310730764e-06,
      "loss": 0.674,
      "step": 3990
    },
    {
      "epoch": 0.9035054655107425,
      "grad_norm": 0.41147854924201965,
      "learning_rate": 1.1895586357065197e-06,
      "loss": 0.6971,
      "step": 3995
    },
    {
      "epoch": 0.9046362608367885,
      "grad_norm": 0.4496522843837738,
      "learning_rate": 1.1620156979132685e-06,
      "loss": 0.7027,
      "step": 4000
    },
    {
      "epoch": 0.9057670561628345,
      "grad_norm": 0.38566187024116516,
      "learning_rate": 1.134787781676236e-06,
      "loss": 0.6488,
      "step": 4005
    },
    {
      "epoch": 0.9068978514888805,
      "grad_norm": 0.3715657591819763,
      "learning_rate": 1.1078752468153042e-06,
      "loss": 0.6727,
      "step": 4010
    },
    {
      "epoch": 0.9080286468149265,
      "grad_norm": 0.3041117787361145,
      "learning_rate": 1.0812784489825507e-06,
      "loss": 0.6763,
      "step": 4015
    },
    {
      "epoch": 0.9091594421409724,
      "grad_norm": 0.40202027559280396,
      "learning_rate": 1.054997739657551e-06,
      "loss": 0.652,
      "step": 4020
    },
    {
      "epoch": 0.9102902374670184,
      "grad_norm": 0.41109445691108704,
      "learning_rate": 1.029033466142737e-06,
      "loss": 0.7183,
      "step": 4025
    },
    {
      "epoch": 0.9114210327930644,
      "grad_norm": 0.31253260374069214,
      "learning_rate": 1.0033859715588122e-06,
      "loss": 0.6929,
      "step": 4030
    },
    {
      "epoch": 0.9125518281191104,
      "grad_norm": 0.4093742072582245,
      "learning_rate": 9.780555948401994e-07,
      "loss": 0.7043,
      "step": 4035
    },
    {
      "epoch": 0.9136826234451564,
      "grad_norm": 0.3625013828277588,
      "learning_rate": 9.530426707305918e-07,
      "loss": 0.7268,
      "step": 4040
    },
    {
      "epoch": 0.9148134187712024,
      "grad_norm": 0.34964805841445923,
      "learning_rate": 9.283475297785005e-07,
      "loss": 0.6746,
      "step": 4045
    },
    {
      "epoch": 0.9159442140972484,
      "grad_norm": 0.3727870285511017,
      "learning_rate": 9.039704983328984e-07,
      "loss": 0.6868,
      "step": 4050
    },
    {
      "epoch": 0.9170750094232943,
      "grad_norm": 0.5575105547904968,
      "learning_rate": 8.799118985389126e-07,
      "loss": 0.7606,
      "step": 4055
    },
    {
      "epoch": 0.9182058047493403,
      "grad_norm": 0.38986077904701233,
      "learning_rate": 8.561720483335478e-07,
      "loss": 0.6885,
      "step": 4060
    },
    {
      "epoch": 0.9193366000753863,
      "grad_norm": 0.35799407958984375,
      "learning_rate": 8.327512614415195e-07,
      "loss": 0.6676,
      "step": 4065
    },
    {
      "epoch": 0.9204673954014323,
      "grad_norm": 0.3649112284183502,
      "learning_rate": 8.09649847371069e-07,
      "loss": 0.6487,
      "step": 4070
    },
    {
      "epoch": 0.9215981907274783,
      "grad_norm": 0.4163808226585388,
      "learning_rate": 7.868681114098914e-07,
      "loss": 0.6342,
      "step": 4075
    },
    {
      "epoch": 0.9227289860535243,
      "grad_norm": 0.34704506397247314,
      "learning_rate": 7.644063546211167e-07,
      "loss": 0.6623,
      "step": 4080
    },
    {
      "epoch": 0.9238597813795703,
      "grad_norm": 0.3512720465660095,
      "learning_rate": 7.422648738392934e-07,
      "loss": 0.6688,
      "step": 4085
    },
    {
      "epoch": 0.9249905767056162,
      "grad_norm": 0.33337023854255676,
      "learning_rate": 7.204439616665115e-07,
      "loss": 0.6587,
      "step": 4090
    },
    {
      "epoch": 0.9261213720316622,
      "grad_norm": 0.35821977257728577,
      "learning_rate": 6.989439064684911e-07,
      "loss": 0.6823,
      "step": 4095
    },
    {
      "epoch": 0.9272521673577082,
      "grad_norm": 0.46636807918548584,
      "learning_rate": 6.777649923708024e-07,
      "loss": 0.7261,
      "step": 4100
    },
    {
      "epoch": 0.9283829626837542,
      "grad_norm": 0.4258100688457489,
      "learning_rate": 6.569074992551022e-07,
      "loss": 0.6615,
      "step": 4105
    },
    {
      "epoch": 0.9295137580098002,
      "grad_norm": 0.39648309350013733,
      "learning_rate": 6.363717027554256e-07,
      "loss": 0.7147,
      "step": 4110
    },
    {
      "epoch": 0.9306445533358462,
      "grad_norm": 0.41724279522895813,
      "learning_rate": 6.161578742545665e-07,
      "loss": 0.6852,
      "step": 4115
    },
    {
      "epoch": 0.9317753486618922,
      "grad_norm": 0.3736780285835266,
      "learning_rate": 5.962662808804587e-07,
      "loss": 0.717,
      "step": 4120
    },
    {
      "epoch": 0.9329061439879381,
      "grad_norm": 0.3304630517959595,
      "learning_rate": 5.766971855026809e-07,
      "loss": 0.6539,
      "step": 4125
    },
    {
      "epoch": 0.9340369393139841,
      "grad_norm": 0.39884060621261597,
      "learning_rate": 5.574508467289518e-07,
      "loss": 0.7029,
      "step": 4130
    },
    {
      "epoch": 0.9351677346400301,
      "grad_norm": 0.49207261204719543,
      "learning_rate": 5.385275189017353e-07,
      "loss": 0.7092,
      "step": 4135
    },
    {
      "epoch": 0.9362985299660761,
      "grad_norm": 0.3424831032752991,
      "learning_rate": 5.199274520948677e-07,
      "loss": 0.6355,
      "step": 4140
    },
    {
      "epoch": 0.9374293252921221,
      "grad_norm": 0.32665055990219116,
      "learning_rate": 5.01650892110253e-07,
      "loss": 0.6958,
      "step": 4145
    },
    {
      "epoch": 0.9385601206181681,
      "grad_norm": 0.38883742690086365,
      "learning_rate": 4.836980804746261e-07,
      "loss": 0.6334,
      "step": 4150
    },
    {
      "epoch": 0.9396909159442141,
      "grad_norm": 0.3798101842403412,
      "learning_rate": 4.660692544363382e-07,
      "loss": 0.781,
      "step": 4155
    },
    {
      "epoch": 0.94082171127026,
      "grad_norm": 0.4334189295768738,
      "learning_rate": 4.487646469622464e-07,
      "loss": 0.7235,
      "step": 4160
    },
    {
      "epoch": 0.941952506596306,
      "grad_norm": 0.34717586636543274,
      "learning_rate": 4.31784486734621e-07,
      "loss": 0.669,
      "step": 4165
    },
    {
      "epoch": 0.943083301922352,
      "grad_norm": 0.3831476867198944,
      "learning_rate": 4.1512899814813156e-07,
      "loss": 0.6536,
      "step": 4170
    },
    {
      "epoch": 0.944214097248398,
      "grad_norm": 0.35673925280570984,
      "learning_rate": 3.9879840130686576e-07,
      "loss": 0.6853,
      "step": 4175
    },
    {
      "epoch": 0.945344892574444,
      "grad_norm": 0.48463523387908936,
      "learning_rate": 3.82792912021443e-07,
      "loss": 0.7454,
      "step": 4180
    },
    {
      "epoch": 0.94647568790049,
      "grad_norm": 0.36075058579444885,
      "learning_rate": 3.6711274180614153e-07,
      "loss": 0.6806,
      "step": 4185
    },
    {
      "epoch": 0.947606483226536,
      "grad_norm": 0.42450064420700073,
      "learning_rate": 3.517580978761148e-07,
      "loss": 0.7356,
      "step": 4190
    },
    {
      "epoch": 0.9487372785525819,
      "grad_norm": 0.36473605036735535,
      "learning_rate": 3.3672918314466007e-07,
      "loss": 0.717,
      "step": 4195
    },
    {
      "epoch": 0.9498680738786279,
      "grad_norm": 0.4312973916530609,
      "learning_rate": 3.220261962205179e-07,
      "loss": 0.6991,
      "step": 4200
    },
    {
      "epoch": 0.9509988692046739,
      "grad_norm": 0.3392401933670044,
      "learning_rate": 3.0764933140525475e-07,
      "loss": 0.6468,
      "step": 4205
    },
    {
      "epoch": 0.9521296645307199,
      "grad_norm": 0.426111102104187,
      "learning_rate": 2.935987786907124e-07,
      "loss": 0.7004,
      "step": 4210
    },
    {
      "epoch": 0.9532604598567659,
      "grad_norm": 0.3565954864025116,
      "learning_rate": 2.7987472375646804e-07,
      "loss": 0.7199,
      "step": 4215
    },
    {
      "epoch": 0.9543912551828119,
      "grad_norm": 0.3929762542247772,
      "learning_rate": 2.664773479674032e-07,
      "loss": 0.7348,
      "step": 4220
    },
    {
      "epoch": 0.9555220505088579,
      "grad_norm": 0.4081243872642517,
      "learning_rate": 2.5340682837129146e-07,
      "loss": 0.662,
      "step": 4225
    },
    {
      "epoch": 0.9566528458349038,
      "grad_norm": 0.3799093961715698,
      "learning_rate": 2.406633376964784e-07,
      "loss": 0.6571,
      "step": 4230
    },
    {
      "epoch": 0.9577836411609498,
      "grad_norm": 0.35904359817504883,
      "learning_rate": 2.2824704434957766e-07,
      "loss": 0.7287,
      "step": 4235
    },
    {
      "epoch": 0.9589144364869958,
      "grad_norm": 0.38494235277175903,
      "learning_rate": 2.1615811241325613e-07,
      "loss": 0.71,
      "step": 4240
    },
    {
      "epoch": 0.9600452318130418,
      "grad_norm": 0.4001871943473816,
      "learning_rate": 2.0439670164406345e-07,
      "loss": 0.7414,
      "step": 4245
    },
    {
      "epoch": 0.9611760271390878,
      "grad_norm": 0.33206847310066223,
      "learning_rate": 1.929629674703226e-07,
      "loss": 0.6673,
      "step": 4250
    },
    {
      "epoch": 0.9623068224651338,
      "grad_norm": 0.3849842846393585,
      "learning_rate": 1.8185706099007883e-07,
      "loss": 0.7487,
      "step": 4255
    },
    {
      "epoch": 0.9634376177911798,
      "grad_norm": 0.33372604846954346,
      "learning_rate": 1.7107912896908995e-07,
      "loss": 0.6522,
      "step": 4260
    },
    {
      "epoch": 0.9645684131172257,
      "grad_norm": 0.4485720992088318,
      "learning_rate": 1.6062931383890312e-07,
      "loss": 0.6499,
      "step": 4265
    },
    {
      "epoch": 0.9656992084432717,
      "grad_norm": 0.5238537788391113,
      "learning_rate": 1.5050775369495895e-07,
      "loss": 0.6708,
      "step": 4270
    },
    {
      "epoch": 0.9668300037693177,
      "grad_norm": 0.31111645698547363,
      "learning_rate": 1.4071458229478196e-07,
      "loss": 0.6394,
      "step": 4275
    },
    {
      "epoch": 0.9679607990953637,
      "grad_norm": 0.3432201147079468,
      "learning_rate": 1.3124992905619028e-07,
      "loss": 0.7097,
      "step": 4280
    },
    {
      "epoch": 0.9690915944214097,
      "grad_norm": 0.38018399477005005,
      "learning_rate": 1.2211391905561086e-07,
      "loss": 0.711,
      "step": 4285
    },
    {
      "epoch": 0.9702223897474557,
      "grad_norm": 0.36301785707473755,
      "learning_rate": 1.1330667302641151e-07,
      "loss": 0.664,
      "step": 4290
    },
    {
      "epoch": 0.9713531850735017,
      "grad_norm": 0.3279567360877991,
      "learning_rate": 1.0482830735730198e-07,
      "loss": 0.6311,
      "step": 4295
    },
    {
      "epoch": 0.9724839803995476,
      "grad_norm": 0.31279444694519043,
      "learning_rate": 9.66789340908103e-08,
      "loss": 0.6588,
      "step": 4300
    },
    {
      "epoch": 0.9736147757255936,
      "grad_norm": 0.38352543115615845,
      "learning_rate": 8.885866092178952e-08,
      "loss": 0.6798,
      "step": 4305
    },
    {
      "epoch": 0.9747455710516396,
      "grad_norm": 0.3573386073112488,
      "learning_rate": 8.136759119600213e-08,
      "loss": 0.6686,
      "step": 4310
    },
    {
      "epoch": 0.9758763663776856,
      "grad_norm": 0.3751896917819977,
      "learning_rate": 7.42058239087462e-08,
      "loss": 0.7003,
      "step": 4315
    },
    {
      "epoch": 0.9770071617037316,
      "grad_norm": 0.425658643245697,
      "learning_rate": 6.737345370355919e-08,
      "loss": 0.7152,
      "step": 4320
    },
    {
      "epoch": 0.9781379570297776,
      "grad_norm": 0.34428244829177856,
      "learning_rate": 6.087057087095504e-08,
      "loss": 0.7485,
      "step": 4325
    },
    {
      "epoch": 0.9792687523558236,
      "grad_norm": 0.4021622836589813,
      "learning_rate": 5.469726134723907e-08,
      "loss": 0.7458,
      "step": 4330
    },
    {
      "epoch": 0.9803995476818695,
      "grad_norm": 0.364872545003891,
      "learning_rate": 4.885360671336714e-08,
      "loss": 0.7113,
      "step": 4335
    },
    {
      "epoch": 0.9815303430079155,
      "grad_norm": 0.4006316363811493,
      "learning_rate": 4.3339684193871576e-08,
      "loss": 0.7263,
      "step": 4340
    },
    {
      "epoch": 0.9826611383339615,
      "grad_norm": 0.3257283866405487,
      "learning_rate": 3.8155566655839746e-08,
      "loss": 0.6425,
      "step": 4345
    },
    {
      "epoch": 0.9837919336600075,
      "grad_norm": 0.37064969539642334,
      "learning_rate": 3.330132260794538e-08,
      "loss": 0.678,
      "step": 4350
    },
    {
      "epoch": 0.9849227289860535,
      "grad_norm": 0.4389401078224182,
      "learning_rate": 2.8777016199554863e-08,
      "loss": 0.651,
      "step": 4355
    },
    {
      "epoch": 0.9860535243120995,
      "grad_norm": 0.4058115482330322,
      "learning_rate": 2.4582707219866772e-08,
      "loss": 0.7288,
      "step": 4360
    },
    {
      "epoch": 0.9871843196381455,
      "grad_norm": 0.36480987071990967,
      "learning_rate": 2.0718451097134773e-08,
      "loss": 0.7054,
      "step": 4365
    },
    {
      "epoch": 0.9883151149641914,
      "grad_norm": 0.33493801951408386,
      "learning_rate": 1.718429889792095e-08,
      "loss": 0.6635,
      "step": 4370
    },
    {
      "epoch": 0.9894459102902374,
      "grad_norm": 0.4736829698085785,
      "learning_rate": 1.3980297326432468e-08,
      "loss": 0.6585,
      "step": 4375
    },
    {
      "epoch": 0.9905767056162834,
      "grad_norm": 0.4238462746143341,
      "learning_rate": 1.110648872389708e-08,
      "loss": 0.6614,
      "step": 4380
    },
    {
      "epoch": 0.9917075009423294,
      "grad_norm": 0.32537785172462463,
      "learning_rate": 8.56291106801077e-09,
      "loss": 0.6681,
      "step": 4385
    },
    {
      "epoch": 0.9928382962683754,
      "grad_norm": 0.4619493782520294,
      "learning_rate": 6.349597972424293e-09,
      "loss": 0.6741,
      "step": 4390
    },
    {
      "epoch": 0.9939690915944214,
      "grad_norm": 0.35761797428131104,
      "learning_rate": 4.4665786863185014e-09,
      "loss": 0.6885,
      "step": 4395
    },
    {
      "epoch": 0.9950998869204674,
      "grad_norm": 0.3071589767932892,
      "learning_rate": 2.913878093990796e-09,
      "loss": 0.6676,
      "step": 4400
    },
    {
      "epoch": 0.9962306822465133,
      "grad_norm": 0.3391641080379486,
      "learning_rate": 1.6915167145525878e-09,
      "loss": 0.6981,
      "step": 4405
    },
    {
      "epoch": 0.9973614775725593,
      "grad_norm": 0.41276663541793823,
      "learning_rate": 7.995107016406378e-10,
      "loss": 0.6594,
      "step": 4410
    },
    {
      "epoch": 0.9984922728986053,
      "grad_norm": 0.4570743143558502,
      "learning_rate": 2.3787184321444335e-10,
      "loss": 0.7059,
      "step": 4415
    },
    {
      "epoch": 0.9996230682246513,
      "grad_norm": 0.3156117796897888,
      "learning_rate": 6.607561386928751e-12,
      "loss": 0.6465,
      "step": 4420
    },
    {
      "epoch": 0.9998492272898606,
      "step": 4421,
      "total_flos": 4.746119130111803e+18,
      "train_loss": 0.6650473316231887,
      "train_runtime": 22780.4973,
      "train_samples_per_second": 9.316,
      "train_steps_per_second": 0.194
    }
  ],
  "logging_steps": 5,
  "max_steps": 4421,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.746119130111803e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}