diff --git "a/trainer_state.json" "b/trainer_state.json"
--- "a/trainer_state.json"
+++ "b/trainer_state.json"
@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.014392802491784096,
-  "best_model_checkpoint": "/home/paperspace/Data/models/dbischof_premise_aea/llm3br256/checkpoint-500",
+  "best_metric": 0.01355398166924715,
+  "best_model_checkpoint": "/home/paperspace/Data/models/dbischof_premise_aea/llm3br256/checkpoint-450",
   "epoch": 4.995159728944821,
   "eval_steps": 5,
   "global_step": 645,
@@ -10,5559 +10,5559 @@
   "log_history": [
     {
       "epoch": 0.007744433688286544,
-      "grad_norm": 0.28707125782966614,
+      "grad_norm": 0.3086823523044586,
       "learning_rate": 1.5384615384615387e-06,
-      "loss": 0.0847,
+      "loss": 0.0814,
       "step": 1
     },
     {
       "epoch": 0.015488867376573089,
-      "grad_norm": 0.34009915590286255,
+      "grad_norm": 0.3209303617477417,
       "learning_rate": 3.0769230769230774e-06,
-      "loss": 0.0928,
+      "loss": 0.0926,
       "step": 2
     },
     {
       "epoch": 0.023233301064859633,
-      "grad_norm": 0.29313409328460693,
+      "grad_norm": 0.30226805806159973,
       "learning_rate": 4.615384615384616e-06,
-      "loss": 0.0934,
+      "loss": 0.0981,
       "step": 3
     },
     {
       "epoch": 0.030977734753146177,
-      "grad_norm": 0.2913404107093811,
+      "grad_norm": 0.3128693699836731,
       "learning_rate": 6.153846153846155e-06,
-      "loss": 0.0913,
+      "loss": 0.0918,
       "step": 4
     },
     {
       "epoch": 0.03872216844143272,
-      "grad_norm": 0.29106780886650085,
+      "grad_norm": 0.2983686327934265,
       "learning_rate": 7.692307692307694e-06,
-      "loss": 0.095,
+      "loss": 0.0896,
       "step": 5
     },
     {
       "epoch": 0.03872216844143272,
-      "eval_loss": 0.07727333903312683,
-      "eval_runtime": 5.9343,
-      "eval_samples_per_second": 8.426,
-      "eval_steps_per_second": 2.191,
+      "eval_loss": 0.0767456516623497,
+      "eval_runtime": 6.3413,
+      "eval_samples_per_second": 7.885,
+      "eval_steps_per_second": 2.05,
       "step": 5
     },
     {
       "epoch": 0.046466602129719266,
-      "grad_norm": 0.23025450110435486,
+      "grad_norm": 0.22847148776054382,
       "learning_rate": 9.230769230769232e-06,
-      "loss": 0.0948,
+      "loss": 0.1014,
       "step": 6
     },
     {
       "epoch": 0.05421103581800581,
-      "grad_norm": 0.21704453229904175,
+      "grad_norm": 0.2187601923942566,
       "learning_rate": 1.0769230769230771e-05,
-      "loss": 0.0727,
+      "loss": 0.0791,
       "step": 7
     },
     {
       "epoch": 0.061955469506292354,
-      "grad_norm": 0.17385561764240265,
+      "grad_norm": 0.17710556089878082,
       "learning_rate": 1.230769230769231e-05,
-      "loss": 0.0689,
+      "loss": 0.0764,
       "step": 8
     },
     {
       "epoch": 0.0696999031945789,
-      "grad_norm": 0.15649482607841492,
+      "grad_norm": 0.1523497849702835,
       "learning_rate": 1.3846153846153847e-05,
-      "loss": 0.0604,
+      "loss": 0.0548,
       "step": 9
     },
     {
       "epoch": 0.07744433688286544,
-      "grad_norm": 0.11710207164287567,
+      "grad_norm": 0.11329648643732071,
       "learning_rate": 1.5384615384615387e-05,
-      "loss": 0.0562,
+      "loss": 0.057,
       "step": 10
     },
     {
       "epoch": 0.07744433688286544,
-      "eval_loss": 0.04053657874464989,
-      "eval_runtime": 4.8954,
-      "eval_samples_per_second": 10.214,
-      "eval_steps_per_second": 2.656,
+      "eval_loss": 0.039704836905002594,
+      "eval_runtime": 4.3898,
+      "eval_samples_per_second": 11.39,
+      "eval_steps_per_second": 2.961,
       "step": 10
     },
     {
       "epoch": 0.08518877057115198,
-      "grad_norm": 0.09721983969211578,
+      "grad_norm": 0.09438801556825638,
       "learning_rate": 1.6923076923076924e-05,
-      "loss": 0.0393,
+      "loss": 0.0398,
       "step": 11
     },
     {
       "epoch": 0.09293320425943853,
-      "grad_norm": 0.09856045991182327,
+      "grad_norm": 0.09298978000879288,
       "learning_rate": 1.8461538461538465e-05,
-      "loss": 0.0404,
+      "loss": 0.0423,
       "step": 12
     },
     {
       "epoch": 0.10067763794772508,
-      "grad_norm": 0.11793606728315353,
+      "grad_norm": 0.10603779554367065,
       "learning_rate": 2e-05,
       "loss": 0.0455,
       "step": 13
     },
     {
       "epoch": 0.10842207163601161,
-      "grad_norm": 0.11285863816738129,
+      "grad_norm": 0.1061321273446083,
       "learning_rate": 2.1538461538461542e-05,
-      "loss": 0.059,
+      "loss": 0.0582,
       "step": 14
     },
     {
       "epoch": 0.11616650532429816,
-      "grad_norm": 0.08813278377056122,
+      "grad_norm": 0.08672691136598587,
       "learning_rate": 2.307692307692308e-05,
-      "loss": 0.032,
+      "loss": 0.0361,
       "step": 15
     },
     {
       "epoch": 0.11616650532429816,
-      "eval_loss": 0.03360835462808609,
-      "eval_runtime": 4.8812,
-      "eval_samples_per_second": 10.243,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.032478053122758865,
+      "eval_runtime": 4.3871,
+      "eval_samples_per_second": 11.397,
+      "eval_steps_per_second": 2.963,
       "step": 15
     },
     {
       "epoch": 0.12391093901258471,
-      "grad_norm": 0.06082022562623024,
+      "grad_norm": 0.06632386893033981,
       "learning_rate": 2.461538461538462e-05,
-      "loss": 0.0419,
+      "loss": 0.0436,
       "step": 16
     },
     {
       "epoch": 0.13165537270087124,
-      "grad_norm": 0.055546533316373825,
+      "grad_norm": 0.049268174916505814,
       "learning_rate": 2.6153846153846157e-05,
-      "loss": 0.0452,
+      "loss": 0.0365,
       "step": 17
     },
     {
       "epoch": 0.1393998063891578,
-      "grad_norm": 0.0525379441678524,
+      "grad_norm": 0.05043736472725868,
       "learning_rate": 2.7692307692307694e-05,
-      "loss": 0.0329,
+      "loss": 0.0322,
       "step": 18
     },
     {
       "epoch": 0.14714424007744434,
-      "grad_norm": 0.058248624205589294,
+      "grad_norm": 0.04957738518714905,
       "learning_rate": 2.9230769230769234e-05,
-      "loss": 0.0338,
+      "loss": 0.0354,
       "step": 19
     },
     {
       "epoch": 0.15488867376573087,
-      "grad_norm": 0.057563405483961105,
+      "grad_norm": 0.05300221964716911,
       "learning_rate": 3.0769230769230774e-05,
-      "loss": 0.0488,
+      "loss": 0.0478,
       "step": 20
     },
     {
       "epoch": 0.15488867376573087,
-      "eval_loss": 0.031162459403276443,
-      "eval_runtime": 4.9017,
-      "eval_samples_per_second": 10.201,
-      "eval_steps_per_second": 2.652,
+      "eval_loss": 0.030403098091483116,
+      "eval_runtime": 4.3847,
+      "eval_samples_per_second": 11.403,
+      "eval_steps_per_second": 2.965,
       "step": 20
     },
     {
       "epoch": 0.16263310745401743,
-      "grad_norm": 0.04852646589279175,
+      "grad_norm": 0.049294158816337585,
       "learning_rate": 3.230769230769231e-05,
-      "loss": 0.0364,
+      "loss": 0.037,
       "step": 21
     },
     {
       "epoch": 0.17037754114230397,
-      "grad_norm": 0.05401140823960304,
+      "grad_norm": 0.05417300760746002,
       "learning_rate": 3.384615384615385e-05,
-      "loss": 0.0446,
+      "loss": 0.0427,
       "step": 22
     },
     {
       "epoch": 0.1781219748305905,
-      "grad_norm": 0.0492316372692585,
+      "grad_norm": 0.05300293490290642,
       "learning_rate": 3.538461538461539e-05,
-      "loss": 0.0407,
+      "loss": 0.0396,
       "step": 23
     },
     {
       "epoch": 0.18586640851887706,
-      "grad_norm": 0.037774790078401566,
+      "grad_norm": 0.043480049818754196,
       "learning_rate": 3.692307692307693e-05,
-      "loss": 0.0315,
+      "loss": 0.035,
       "step": 24
     },
     {
       "epoch": 0.1936108422071636,
-      "grad_norm": 0.04360613971948624,
+      "grad_norm": 0.041117988526821136,
       "learning_rate": 3.846153846153846e-05,
-      "loss": 0.0331,
+      "loss": 0.0293,
       "step": 25
     },
     {
       "epoch": 0.1936108422071636,
-      "eval_loss": 0.02766346000134945,
-      "eval_runtime": 4.8772,
-      "eval_samples_per_second": 10.252,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.02704680897295475,
+      "eval_runtime": 4.4019,
+      "eval_samples_per_second": 11.359,
+      "eval_steps_per_second": 2.953,
       "step": 25
     },
     {
       "epoch": 0.20135527589545016,
-      "grad_norm": 0.037237901240587234,
+      "grad_norm": 0.037952277809381485,
       "learning_rate": 4e-05,
-      "loss": 0.0259,
+      "loss": 0.034,
       "step": 26
     },
     {
       "epoch": 0.2090997095837367,
-      "grad_norm": 0.03505983576178551,
+      "grad_norm": 0.03611045330762863,
       "learning_rate": 4.1538461538461544e-05,
-      "loss": 0.0303,
+      "loss": 0.0296,
       "step": 27
     },
     {
       "epoch": 0.21684414327202323,
-      "grad_norm": 0.041253913193941116,
+      "grad_norm": 0.04834708571434021,
       "learning_rate": 4.3076923076923084e-05,
-      "loss": 0.0453,
+      "loss": 0.0448,
       "step": 28
     },
     {
       "epoch": 0.2245885769603098,
-      "grad_norm": 0.04072079062461853,
+      "grad_norm": 0.03826717659831047,
       "learning_rate": 4.461538461538462e-05,
-      "loss": 0.0316,
+      "loss": 0.0306,
       "step": 29
     },
     {
       "epoch": 0.23233301064859632,
-      "grad_norm": 0.03738202154636383,
+      "grad_norm": 0.03805238753557205,
       "learning_rate": 4.615384615384616e-05,
-      "loss": 0.0377,
+      "loss": 0.0429,
       "step": 30
     },
     {
       "epoch": 0.23233301064859632,
-      "eval_loss": 0.025424109771847725,
-      "eval_runtime": 4.8765,
-      "eval_samples_per_second": 10.253,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.025311218574643135,
+      "eval_runtime": 4.3856,
+      "eval_samples_per_second": 11.401,
+      "eval_steps_per_second": 2.964,
       "step": 30
     },
     {
       "epoch": 0.24007744433688286,
-      "grad_norm": 0.03633822873234749,
+      "grad_norm": 0.03321514651179314,
       "learning_rate": 4.76923076923077e-05,
-      "loss": 0.0369,
+      "loss": 0.0378,
       "step": 31
     },
     {
       "epoch": 0.24782187802516942,
-      "grad_norm": 0.03256253898143768,
+      "grad_norm": 0.03013491816818714,
       "learning_rate": 4.923076923076924e-05,
-      "loss": 0.0349,
+      "loss": 0.0389,
       "step": 32
     },
     {
       "epoch": 0.25556631171345595,
-      "grad_norm": 0.031838804483413696,
+      "grad_norm": 0.03460712358355522,
       "learning_rate": 5.0769230769230766e-05,
-      "loss": 0.0283,
+      "loss": 0.027,
       "step": 33
     },
     {
       "epoch": 0.2633107454017425,
-      "grad_norm": 0.026707077398896217,
+      "grad_norm": 0.02806415595114231,
       "learning_rate": 5.230769230769231e-05,
-      "loss": 0.0283,
+      "loss": 0.0306,
       "step": 34
     },
     {
       "epoch": 0.271055179090029,
-      "grad_norm": 0.03254338726401329,
+      "grad_norm": 0.03351674601435661,
       "learning_rate": 5.384615384615385e-05,
-      "loss": 0.0316,
+      "loss": 0.0368,
       "step": 35
     },
     {
       "epoch": 0.271055179090029,
-      "eval_loss": 0.024270590394735336,
-      "eval_runtime": 4.8832,
-      "eval_samples_per_second": 10.239,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.024370329454541206,
+      "eval_runtime": 4.3804,
+      "eval_samples_per_second": 11.414,
+      "eval_steps_per_second": 2.968,
       "step": 35
     },
     {
       "epoch": 0.2787996127783156,
-      "grad_norm": 0.030620776116847992,
+      "grad_norm": 0.028795143589377403,
       "learning_rate": 5.538461538461539e-05,
-      "loss": 0.0306,
+      "loss": 0.0302,
       "step": 36
     },
     {
       "epoch": 0.28654404646660214,
-      "grad_norm": 0.03317311033606529,
+      "grad_norm": 0.027806995436549187,
       "learning_rate": 5.692307692307692e-05,
-      "loss": 0.0293,
+      "loss": 0.025,
       "step": 37
     },
     {
       "epoch": 0.2942884801548887,
-      "grad_norm": 0.026506489142775536,
+      "grad_norm": 0.02950594201683998,
       "learning_rate": 5.846153846153847e-05,
-      "loss": 0.0293,
+      "loss": 0.0282,
       "step": 38
     },
     {
       "epoch": 0.3020329138431752,
-      "grad_norm": 0.023665621876716614,
+      "grad_norm": 0.025643320754170418,
       "learning_rate": 6e-05,
-      "loss": 0.0166,
+      "loss": 0.017,
       "step": 39
     },
     {
       "epoch": 0.30977734753146174,
-      "grad_norm": 0.03278828039765358,
+      "grad_norm": 0.03114083595573902,
       "learning_rate": 6.153846153846155e-05,
-      "loss": 0.0374,
+      "loss": 0.0323,
       "step": 40
     },
     {
       "epoch": 0.30977734753146174,
-      "eval_loss": 0.023048410192131996,
-      "eval_runtime": 4.885,
-      "eval_samples_per_second": 10.235,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.022903937846422195,
+      "eval_runtime": 4.4182,
+      "eval_samples_per_second": 11.317,
+      "eval_steps_per_second": 2.942,
       "step": 40
     },
     {
       "epoch": 0.31752178121974833,
-      "grad_norm": 0.03030160255730152,
+      "grad_norm": 0.03194240480661392,
       "learning_rate": 6.307692307692308e-05,
-      "loss": 0.0334,
+      "loss": 0.0261,
       "step": 41
     },
     {
       "epoch": 0.32526621490803487,
-      "grad_norm": 0.03384114429354668,
+      "grad_norm": 0.02684875763952732,
       "learning_rate": 6.461538461538462e-05,
-      "loss": 0.0212,
+      "loss": 0.0219,
       "step": 42
     },
     {
       "epoch": 0.3330106485963214,
-      "grad_norm": 0.02560395933687687,
+      "grad_norm": 0.025787649676203728,
       "learning_rate": 6.615384615384616e-05,
-      "loss": 0.0363,
+      "loss": 0.0332,
       "step": 43
     },
     {
       "epoch": 0.34075508228460794,
-      "grad_norm": 0.026470044627785683,
+      "grad_norm": 0.022300513461232185,
       "learning_rate": 6.76923076923077e-05,
-      "loss": 0.024,
+      "loss": 0.0267,
       "step": 44
     },
     {
       "epoch": 0.34849951597289447,
-      "grad_norm": 0.023488877341151237,
+      "grad_norm": 0.025305645540356636,
       "learning_rate": 6.923076923076924e-05,
-      "loss": 0.0208,
+      "loss": 0.0223,
       "step": 45
     },
     {
       "epoch": 0.34849951597289447,
-      "eval_loss": 0.022530335932970047,
-      "eval_runtime": 4.8759,
-      "eval_samples_per_second": 10.255,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.022478284314274788,
+      "eval_runtime": 4.3839,
+      "eval_samples_per_second": 11.405,
+      "eval_steps_per_second": 2.965,
       "step": 45
     },
     {
       "epoch": 0.356243949661181,
-      "grad_norm": 0.029532263055443764,
+      "grad_norm": 0.03382590040564537,
       "learning_rate": 7.076923076923078e-05,
-      "loss": 0.0399,
+      "loss": 0.0446,
       "step": 46
     },
     {
       "epoch": 0.3639883833494676,
-      "grad_norm": 0.025283565744757652,
+      "grad_norm": 0.026729533448815346,
       "learning_rate": 7.23076923076923e-05,
-      "loss": 0.033,
+      "loss": 0.0336,
       "step": 47
     },
     {
       "epoch": 0.3717328170377541,
-      "grad_norm": 0.024645334109663963,
+      "grad_norm": 0.02412431500852108,
       "learning_rate": 7.384615384615386e-05,
-      "loss": 0.0431,
+      "loss": 0.0438,
       "step": 48
     },
     {
       "epoch": 0.37947725072604066,
-      "grad_norm": 0.025530191138386726,
+      "grad_norm": 0.03072945401072502,
       "learning_rate": 7.538461538461539e-05,
-      "loss": 0.0321,
+      "loss": 0.0331,
       "step": 49
     },
     {
       "epoch": 0.3872216844143272,
-      "grad_norm": 0.02383197844028473,
+      "grad_norm": 0.026063738390803337,
       "learning_rate": 7.692307692307693e-05,
-      "loss": 0.0305,
+      "loss": 0.0327,
       "step": 50
     },
     {
       "epoch": 0.3872216844143272,
-      "eval_loss": 0.021847765892744064,
-      "eval_runtime": 4.8901,
-      "eval_samples_per_second": 10.225,
-      "eval_steps_per_second": 2.658,
+      "eval_loss": 0.021576760336756706,
+      "eval_runtime": 4.3771,
+      "eval_samples_per_second": 11.423,
+      "eval_steps_per_second": 2.97,
       "step": 50
     },
     {
       "epoch": 0.39496611810261373,
-      "grad_norm": 0.02661319635808468,
+      "grad_norm": 0.02626851014792919,
       "learning_rate": 7.846153846153847e-05,
-      "loss": 0.0312,
+      "loss": 0.0295,
       "step": 51
     },
     {
       "epoch": 0.4027105517909003,
-      "grad_norm": 0.029026813805103302,
+      "grad_norm": 0.030156496912240982,
       "learning_rate": 8e-05,
-      "loss": 0.0202,
+      "loss": 0.02,
       "step": 52
     },
     {
       "epoch": 0.41045498547918685,
-      "grad_norm": 0.03153839334845543,
+      "grad_norm": 0.028987275436520576,
       "learning_rate": 8.153846153846155e-05,
-      "loss": 0.0322,
+      "loss": 0.0311,
       "step": 53
     },
     {
       "epoch": 0.4181994191674734,
-      "grad_norm": 0.027100125327706337,
+      "grad_norm": 0.02352583222091198,
       "learning_rate": 8.307692307692309e-05,
-      "loss": 0.0217,
+      "loss": 0.0192,
       "step": 54
     },
     {
       "epoch": 0.4259438528557599,
-      "grad_norm": 0.034204043447971344,
+      "grad_norm": 0.03398854285478592,
       "learning_rate": 8.461538461538461e-05,
-      "loss": 0.0238,
+      "loss": 0.0237,
       "step": 55
     },
     {
       "epoch": 0.4259438528557599,
-      "eval_loss": 0.021218011155724525,
-      "eval_runtime": 4.895,
-      "eval_samples_per_second": 10.215,
-      "eval_steps_per_second": 2.656,
+      "eval_loss": 0.020917313173413277,
+      "eval_runtime": 4.3812,
+      "eval_samples_per_second": 11.412,
+      "eval_steps_per_second": 2.967,
       "step": 55
     },
     {
       "epoch": 0.43368828654404645,
-      "grad_norm": 0.026411807164549828,
+      "grad_norm": 0.029533132910728455,
       "learning_rate": 8.615384615384617e-05,
-      "loss": 0.0264,
+      "loss": 0.0227,
       "step": 56
     },
     {
       "epoch": 0.441432720232333,
-      "grad_norm": 0.025747094303369522,
+      "grad_norm": 0.024922896176576614,
       "learning_rate": 8.76923076923077e-05,
-      "loss": 0.0231,
+      "loss": 0.0229,
       "step": 57
     },
     {
       "epoch": 0.4491771539206196,
-      "grad_norm": 0.028047436848282814,
+      "grad_norm": 0.022748827934265137,
       "learning_rate": 8.923076923076924e-05,
-      "loss": 0.0269,
+      "loss": 0.0214,
       "step": 58
     },
     {
       "epoch": 0.4569215876089061,
-      "grad_norm": 0.03033887967467308,
+      "grad_norm": 0.03145488351583481,
       "learning_rate": 9.076923076923078e-05,
-      "loss": 0.0286,
+      "loss": 0.0274,
       "step": 59
     },
     {
       "epoch": 0.46466602129719264,
-      "grad_norm": 0.024372393265366554,
+      "grad_norm": 0.02403653971850872,
       "learning_rate": 9.230769230769232e-05,
-      "loss": 0.0278,
+      "loss": 0.0255,
       "step": 60
     },
     {
       "epoch": 0.46466602129719264,
-      "eval_loss": 0.020728331059217453,
-      "eval_runtime": 4.8702,
-      "eval_samples_per_second": 10.266,
-      "eval_steps_per_second": 2.669,
+      "eval_loss": 0.02042277343571186,
+      "eval_runtime": 4.409,
+      "eval_samples_per_second": 11.34,
+      "eval_steps_per_second": 2.949,
       "step": 60
     },
     {
       "epoch": 0.4724104549854792,
-      "grad_norm": 0.028278978541493416,
+      "grad_norm": 0.0241488516330719,
       "learning_rate": 9.384615384615386e-05,
-      "loss": 0.0247,
+      "loss": 0.0213,
       "step": 61
     },
     {
       "epoch": 0.4801548886737657,
-      "grad_norm": 0.03280925378203392,
+      "grad_norm": 0.030788561329245567,
       "learning_rate": 9.53846153846154e-05,
-      "loss": 0.026,
+      "loss": 0.0259,
       "step": 62
     },
     {
       "epoch": 0.4878993223620523,
-      "grad_norm": 0.023919392377138138,
+      "grad_norm": 0.027498334646224976,
       "learning_rate": 9.692307692307692e-05,
-      "loss": 0.0312,
+      "loss": 0.0299,
       "step": 63
     },
     {
       "epoch": 0.49564375605033884,
-      "grad_norm": 0.0364394448697567,
+      "grad_norm": 0.0270383283495903,
       "learning_rate": 9.846153846153848e-05,
-      "loss": 0.0219,
+      "loss": 0.018,
       "step": 64
     },
     {
       "epoch": 0.5033881897386253,
-      "grad_norm": 0.02771547995507717,
+      "grad_norm": 0.026719942688941956,
       "learning_rate": 0.0001,
-      "loss": 0.0199,
+      "loss": 0.0237,
       "step": 65
     },
     {
       "epoch": 0.5033881897386253,
-      "eval_loss": 0.02000207081437111,
-      "eval_runtime": 4.8908,
-      "eval_samples_per_second": 10.223,
-      "eval_steps_per_second": 2.658,
+      "eval_loss": 0.019689319655299187,
+      "eval_runtime": 4.3801,
+      "eval_samples_per_second": 11.415,
+      "eval_steps_per_second": 2.968,
       "step": 65
     },
     {
       "epoch": 0.5111326234269119,
-      "grad_norm": 0.02505766600370407,
+      "grad_norm": 0.02332148514688015,
       "learning_rate": 9.999926652940913e-05,
-      "loss": 0.0206,
+      "loss": 0.016,
       "step": 66
     },
     {
       "epoch": 0.5188770571151985,
-      "grad_norm": 0.037389349192380905,
+      "grad_norm": 0.0363909974694252,
       "learning_rate": 9.999706613915566e-05,
-      "loss": 0.0265,
+      "loss": 0.0243,
       "step": 67
     },
     {
       "epoch": 0.526621490803485,
-      "grad_norm": 0.03750506415963173,
+      "grad_norm": 0.02725972980260849,
       "learning_rate": 9.999339889379647e-05,
-      "loss": 0.0236,
+      "loss": 0.0243,
       "step": 68
     },
     {
       "epoch": 0.5343659244917716,
-      "grad_norm": 0.028572333976626396,
+      "grad_norm": 0.026129694655537605,
       "learning_rate": 9.998826490092421e-05,
-      "loss": 0.0236,
+      "loss": 0.0289,
       "step": 69
     },
     {
       "epoch": 0.542110358180058,
-      "grad_norm": 0.024309856817126274,
+      "grad_norm": 0.024957949295639992,
       "learning_rate": 9.99816643111642e-05,
-      "loss": 0.0235,
+      "loss": 0.0273,
       "step": 70
     },
     {
       "epoch": 0.542110358180058,
-      "eval_loss": 0.02025166153907776,
-      "eval_runtime": 4.8811,
-      "eval_samples_per_second": 10.244,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.019689122214913368,
+      "eval_runtime": 4.3815,
+      "eval_samples_per_second": 11.412,
+      "eval_steps_per_second": 2.967,
       "step": 70
     },
     {
       "epoch": 0.5498547918683446,
-      "grad_norm": 0.035883497446775436,
+      "grad_norm": 0.02722254954278469,
       "learning_rate": 9.997359731816998e-05,
-      "loss": 0.0289,
+      "loss": 0.0269,
       "step": 71
     },
     {
       "epoch": 0.5575992255566312,
-      "grad_norm": 0.034139424562454224,
+      "grad_norm": 0.03509791940450668,
       "learning_rate": 9.996406415861763e-05,
-      "loss": 0.0366,
+      "loss": 0.0358,
       "step": 72
     },
     {
       "epoch": 0.5653436592449177,
-      "grad_norm": 0.02562110312283039,
+      "grad_norm": 0.02415742725133896,
       "learning_rate": 9.995306511219885e-05,
-      "loss": 0.0336,
+      "loss": 0.0321,
       "step": 73
     },
     {
       "epoch": 0.5730880929332043,
-      "grad_norm": 0.026915963739156723,
+      "grad_norm": 0.024679476395249367,
       "learning_rate": 9.994060050161269e-05,
-      "loss": 0.0193,
+      "loss": 0.0199,
       "step": 74
     },
     {
       "epoch": 0.5808325266214908,
-      "grad_norm": 0.02748969756066799,
+      "grad_norm": 0.02391170710325241,
       "learning_rate": 9.992667069255619e-05,
-      "loss": 0.0213,
+      "loss": 0.0192,
       "step": 75
     },
     {
       "epoch": 0.5808325266214908,
-      "eval_loss": 0.019886016845703125,
-      "eval_runtime": 4.8762,
-      "eval_samples_per_second": 10.254,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.019159631803631783,
+      "eval_runtime": 4.3838,
+      "eval_samples_per_second": 11.406,
+      "eval_steps_per_second": 2.965,
       "step": 75
     },
     {
       "epoch": 0.5885769603097774,
-      "grad_norm": 0.0281902477145195,
+      "grad_norm": 0.025728462263941765,
       "learning_rate": 9.991127609371356e-05,
-      "loss": 0.0333,
+      "loss": 0.0347,
       "step": 76
     },
     {
       "epoch": 0.5963213939980639,
-      "grad_norm": 0.032518427819013596,
+      "grad_norm": 0.023557180538773537,
       "learning_rate": 9.989441715674422e-05,
-      "loss": 0.0296,
+      "loss": 0.0294,
       "step": 77
     },
     {
       "epoch": 0.6040658276863504,
-      "grad_norm": 0.0259566493332386,
+      "grad_norm": 0.030054917559027672,
       "learning_rate": 9.987609437626955e-05,
-      "loss": 0.0282,
+      "loss": 0.0302,
       "step": 78
     },
     {
       "epoch": 0.611810261374637,
-      "grad_norm": 0.029854053631424904,
+      "grad_norm": 0.023635441437363625,
       "learning_rate": 9.985630828985835e-05,
-      "loss": 0.0205,
+      "loss": 0.0228,
       "step": 79
     },
     {
       "epoch": 0.6195546950629235,
-      "grad_norm": 0.03595299273729324,
+      "grad_norm": 0.04299585148692131,
       "learning_rate": 9.983505947801115e-05,
-      "loss": 0.044,
+      "loss": 0.0459,
       "step": 80
     },
     {
       "epoch": 0.6195546950629235,
-      "eval_loss": 0.01953260228037834,
-      "eval_runtime": 4.8809,
-      "eval_samples_per_second": 10.244,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.018766988068819046,
+      "eval_runtime": 4.3783,
+      "eval_samples_per_second": 11.42,
+      "eval_steps_per_second": 2.969,
       "step": 80
     },
     {
       "epoch": 0.6272991287512101,
-      "grad_norm": 0.02581968903541565,
+      "grad_norm": 0.024934271350502968,
       "learning_rate": 9.981234856414307e-05,
-      "loss": 0.0265,
+      "loss": 0.0236,
       "step": 81
     },
     {
       "epoch": 0.6350435624394967,
-      "grad_norm": 0.02523561753332615,
+      "grad_norm": 0.030999857932329178,
       "learning_rate": 9.978817621456562e-05,
-      "loss": 0.0232,
+      "loss": 0.0218,
       "step": 82
     },
     {
       "epoch": 0.6427879961277831,
-      "grad_norm": 0.022955749183893204,
+      "grad_norm": 0.02605932205915451,
       "learning_rate": 9.97625431384671e-05,
-      "loss": 0.0267,
+      "loss": 0.0262,
       "step": 83
     },
     {
       "epoch": 0.6505324298160697,
-      "grad_norm": 0.0209239199757576,
+      "grad_norm": 0.02674640342593193,
       "learning_rate": 9.973545008789181e-05,
-      "loss": 0.0303,
+      "loss": 0.0334,
       "step": 84
     },
     {
       "epoch": 0.6582768635043562,
-      "grad_norm": 0.028582807630300522,
+      "grad_norm": 0.026963254436850548,
       "learning_rate": 9.970689785771798e-05,
-      "loss": 0.021,
+      "loss": 0.0203,
       "step": 85
     },
     {
       "epoch": 0.6582768635043562,
-      "eval_loss": 0.019236262887716293,
-      "eval_runtime": 4.874,
-      "eval_samples_per_second": 10.258,
-      "eval_steps_per_second": 2.667,
+      "eval_loss": 0.01849793642759323,
+      "eval_runtime": 4.3938,
+      "eval_samples_per_second": 11.38,
+      "eval_steps_per_second": 2.959,
       "step": 85
     },
     {
       "epoch": 0.6660212971926428,
-      "grad_norm": 0.02616284228861332,
+      "grad_norm": 0.026988934725522995,
       "learning_rate": 9.967688728563446e-05,
-      "loss": 0.0176,
+      "loss": 0.0164,
       "step": 86
     },
     {
       "epoch": 0.6737657308809293,
-      "grad_norm": 0.029908856377005577,
+      "grad_norm": 0.0342542827129364,
       "learning_rate": 9.964541925211612e-05,
-      "loss": 0.0206,
+      "loss": 0.0189,
       "step": 87
     },
     {
       "epoch": 0.6815101645692159,
-      "grad_norm": 0.03139350563287735,
+      "grad_norm": 0.0271429605782032,
       "learning_rate": 9.961249468039807e-05,
-      "loss": 0.0301,
+      "loss": 0.0293,
       "step": 88
     },
     {
       "epoch": 0.6892545982575025,
-      "grad_norm": 0.025906842201948166,
+      "grad_norm": 0.037191689014434814,
       "learning_rate": 9.957811453644847e-05,
-      "loss": 0.0192,
+      "loss": 0.0204,
       "step": 89
     },
     {
       "epoch": 0.6969990319457889,
-      "grad_norm": 0.0281496811658144,
+      "grad_norm": 0.02466176636517048,
       "learning_rate": 9.954227982894034e-05,
-      "loss": 0.0296,
+      "loss": 0.032,
       "step": 90
     },
     {
       "epoch": 0.6969990319457889,
-      "eval_loss": 0.019074302166700363,
-      "eval_runtime": 4.8832,
-      "eval_samples_per_second": 10.239,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.018251437693834305,
+      "eval_runtime": 4.3926,
+      "eval_samples_per_second": 11.383,
+      "eval_steps_per_second": 2.96,
       "step": 90
     },
     {
       "epoch": 0.7047434656340755,
-      "grad_norm": 0.027965204790234566,
+      "grad_norm": 0.025401102378964424,
       "learning_rate": 9.950499160922183e-05,
-      "loss": 0.0213,
+      "loss": 0.0287,
       "step": 91
     },
     {
       "epoch": 0.712487899322362,
-      "grad_norm": 0.02602163329720497,
+      "grad_norm": 0.02289285883307457,
       "learning_rate": 9.946625097128543e-05,
-      "loss": 0.0269,
+      "loss": 0.023,
       "step": 92
     },
     {
       "epoch": 0.7202323330106486,
-      "grad_norm": 0.028190776705741882,
+      "grad_norm": 0.047656841576099396,
       "learning_rate": 9.942605905173592e-05,
-      "loss": 0.0207,
+      "loss": 0.0229,
       "step": 93
     },
     {
       "epoch": 0.7279767666989352,
-      "grad_norm": 0.025893300771713257,
+      "grad_norm": 0.027169659733772278,
       "learning_rate": 9.938441702975689e-05,
-      "loss": 0.0265,
+      "loss": 0.0216,
       "step": 94
     },
     {
       "epoch": 0.7357212003872217,
-      "grad_norm": 0.0202568881213665,
+      "grad_norm": 0.027544977143406868,
       "learning_rate": 9.934132612707632e-05,
-      "loss": 0.0141,
+      "loss": 0.0145,
       "step": 95
     },
     {
       "epoch": 0.7357212003872217,
-      "eval_loss": 0.018998095765709877,
-      "eval_runtime": 4.8865,
-      "eval_samples_per_second": 10.232,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.01838814653456211,
+      "eval_runtime": 4.4091,
+      "eval_samples_per_second": 11.34,
+      "eval_steps_per_second": 2.948,
       "step": 95
     },
     {
       "epoch": 0.7434656340755083,
-      "grad_norm": 0.03151071444153786,
+      "grad_norm": 0.03812320902943611,
       "learning_rate": 9.929678760793057e-05,
-      "loss": 0.028,
+      "loss": 0.0293,
       "step": 96
     },
     {
       "epoch": 0.7512100677637947,
-      "grad_norm": 0.037441398948431015,
+      "grad_norm": 0.026603760197758675,
       "learning_rate": 9.925080277902743e-05,
-      "loss": 0.0275,
+      "loss": 0.0237,
       "step": 97
     },
     {
       "epoch": 0.7589545014520813,
-      "grad_norm": 0.022733572870492935,
+      "grad_norm": 0.023724529892206192,
       "learning_rate": 9.920337298950765e-05,
-      "loss": 0.0227,
+      "loss": 0.0213,
       "step": 98
     },
     {
       "epoch": 0.7666989351403679,
-      "grad_norm": 0.021637218073010445,
+      "grad_norm": 0.02539847232401371,
       "learning_rate": 9.91544996309055e-05,
-      "loss": 0.0179,
+      "loss": 0.0213,
       "step": 99
     },
     {
       "epoch": 0.7744433688286544,
-      "grad_norm": 0.023374751210212708,
+      "grad_norm": 0.031199516728520393,
       "learning_rate": 9.91041841371078e-05,
-      "loss": 0.0289,
+      "loss": 0.0299,
       "step": 100
     },
     {
       "epoch": 0.7744433688286544,
-      "eval_loss": 0.01871725358068943,
-      "eval_runtime": 4.9046,
-      "eval_samples_per_second": 10.195,
-      "eval_steps_per_second": 2.651,
+      "eval_loss": 0.018127141520380974,
+      "eval_runtime": 4.3744,
+      "eval_samples_per_second": 11.43,
+      "eval_steps_per_second": 2.972,
       "step": 100
     },
     {
       "epoch": 0.782187802516941,
-      "grad_norm": 0.021633530035614967,
+      "grad_norm": 0.01887812837958336,
       "learning_rate": 9.905242798431196e-05,
-      "loss": 0.0267,
+      "loss": 0.026,
       "step": 101
     },
     {
       "epoch": 0.7899322362052275,
-      "grad_norm": 0.024837492033839226,
+      "grad_norm": 0.029699862003326416,
       "learning_rate": 9.899923269098262e-05,
-      "loss": 0.0341,
+      "loss": 0.0275,
       "step": 102
     },
     {
       "epoch": 0.797676669893514,
-      "grad_norm": 0.023348737508058548,
+      "grad_norm": 0.023589355871081352,
       "learning_rate": 9.894459981780711e-05,
-      "loss": 0.0263,
+      "loss": 0.0223,
       "step": 103
     },
     {
       "epoch": 0.8054211035818006,
-      "grad_norm": 0.02404264733195305,
+      "grad_norm": 0.020126909017562866,
       "learning_rate": 9.888853096764964e-05,
-      "loss": 0.0214,
+      "loss": 0.0301,
       "step": 104
     },
     {
       "epoch": 0.8131655372700871,
-      "grad_norm": 0.02434077486395836,
+      "grad_norm": 0.027466170489788055,
       "learning_rate": 9.883102778550434e-05,
-      "loss": 0.0159,
+      "loss": 0.0186,
       "step": 105
     },
     {
       "epoch": 0.8131655372700871,
-      "eval_loss": 0.01875956915318966,
-      "eval_runtime": 4.887,
-      "eval_samples_per_second": 10.231,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.018270503729581833,
+      "eval_runtime": 4.4268,
+      "eval_samples_per_second": 11.295,
+      "eval_steps_per_second": 2.937,
       "step": 105
     },
     {
       "epoch": 0.8209099709583737,
-      "grad_norm": 0.023013584315776825,
+      "grad_norm": 0.029163997620344162,
       "learning_rate": 9.877209195844692e-05,
-      "loss": 0.0266,
+      "loss": 0.0274,
       "step": 106
     },
     {
       "epoch": 0.8286544046466602,
-      "grad_norm": 0.03137190267443657,
+      "grad_norm": 0.031382910907268524,
       "learning_rate": 9.871172521558523e-05,
-      "loss": 0.0242,
+      "loss": 0.0308,
       "step": 107
     },
     {
       "epoch": 0.8363988383349468,
-      "grad_norm": 0.023217204958200455,
+      "grad_norm": 0.02163223922252655,
       "learning_rate": 9.864992932800845e-05,
-      "loss": 0.0254,
+      "loss": 0.0231,
       "step": 108
     },
     {
       "epoch": 0.8441432720232332,
-      "grad_norm": 0.027811044827103615,
+      "grad_norm": 0.03102894499897957,
       "learning_rate": 9.858670610873528e-05,
-      "loss": 0.0173,
+      "loss": 0.0252,
       "step": 109
     },
     {
       "epoch": 0.8518877057115198,
-      "grad_norm": 0.027365995571017265,
+      "grad_norm": 0.02512267790734768,
       "learning_rate": 9.852205741266058e-05,
-      "loss": 0.0275,
+      "loss": 0.0255,
       "step": 110
     },
     {
       "epoch": 0.8518877057115198,
-      "eval_loss": 0.01876773312687874,
-      "eval_runtime": 4.8844,
-      "eval_samples_per_second": 10.237,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.017753126099705696,
+      "eval_runtime": 4.3888,
+      "eval_samples_per_second": 11.393,
+      "eval_steps_per_second": 2.962,
       "step": 110
     },
     {
       "epoch": 0.8596321393998064,
-      "grad_norm": 0.022870220243930817,
+      "grad_norm": 0.021887609735131264,
       "learning_rate": 9.845598513650103e-05,
-      "loss": 0.0175,
+      "loss": 0.0203,
       "step": 111
     },
     {
       "epoch": 0.8673765730880929,
-      "grad_norm": 0.021480288356542587,
+      "grad_norm": 0.026221172884106636,
       "learning_rate": 9.838849121873949e-05,
-      "loss": 0.0179,
+      "loss": 0.0216,
       "step": 112
     },
     {
       "epoch": 0.8751210067763795,
-      "grad_norm": 0.025231841951608658,
+      "grad_norm": 0.01997440867125988,
       "learning_rate": 9.831957763956813e-05,
-      "loss": 0.0182,
+      "loss": 0.0226,
       "step": 113
     },
     {
       "epoch": 0.882865440464666,
-      "grad_norm": 0.023175878450274467,
+      "grad_norm": 0.01921810209751129,
       "learning_rate": 9.824924642083026e-05,
-      "loss": 0.0167,
+      "loss": 0.0133,
       "step": 114
     },
     {
       "epoch": 0.8906098741529526,
-      "grad_norm": 0.02536984719336033,
+      "grad_norm": 0.021300863474607468,
       "learning_rate": 9.817749962596115e-05,
-      "loss": 0.0271,
+      "loss": 0.0199,
       "step": 115
     },
     {
       "epoch": 0.8906098741529526,
-      "eval_loss": 0.018538037315011024,
-      "eval_runtime": 4.8812,
-      "eval_samples_per_second": 10.243,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.017665784806013107,
+      "eval_runtime": 4.3883,
+      "eval_samples_per_second": 11.394,
+      "eval_steps_per_second": 2.962,
       "step": 115
     },
     {
       "epoch": 0.8983543078412392,
-      "grad_norm": 0.02080857753753662,
+      "grad_norm": 0.02153032273054123,
       "learning_rate": 9.810433935992733e-05,
-      "loss": 0.0254,
+      "loss": 0.0238,
       "step": 116
     },
     {
       "epoch": 0.9060987415295256,
-      "grad_norm": 0.026430707424879074,
+      "grad_norm": 0.021676376461982727,
       "learning_rate": 9.802976776916494e-05,
-      "loss": 0.0185,
+      "loss": 0.0167,
       "step": 117
     },
     {
       "epoch": 0.9138431752178122,
-      "grad_norm": 0.02291349321603775,
+      "grad_norm": 0.021497417241334915,
       "learning_rate": 9.795378704151675e-05,
-      "loss": 0.0164,
+      "loss": 0.0189,
       "step": 118
     },
     {
       "epoch": 0.9215876089060987,
-      "grad_norm": 0.02319083735346794,
+      "grad_norm": 0.022522611543536186,
       "learning_rate": 9.787639940616788e-05,
-      "loss": 0.0237,
+      "loss": 0.024,
       "step": 119
     },
     {
       "epoch": 0.9293320425943853,
-      "grad_norm": 0.027965422719717026,
+      "grad_norm": 0.023478692397475243,
       "learning_rate": 9.779760713358059e-05,
-      "loss": 0.0262,
+      "loss": 0.0216,
       "step": 120
     },
     {
       "epoch": 0.9293320425943853,
-      "eval_loss": 0.018477478995919228,
-      "eval_runtime": 4.8802,
-      "eval_samples_per_second": 10.246,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.01727675460278988,
+      "eval_runtime": 4.3786,
+      "eval_samples_per_second": 11.419,
+      "eval_steps_per_second": 2.969,
       "step": 120
     },
     {
       "epoch": 0.9370764762826719,
-      "grad_norm": 0.023768456652760506,
+      "grad_norm": 0.029589442536234856,
       "learning_rate": 9.771741253542741e-05,
-      "loss": 0.0186,
+      "loss": 0.0234,
       "step": 121
     },
     {
       "epoch": 0.9448209099709584,
-      "grad_norm": 0.01906961388885975,
+      "grad_norm": 0.021279161795973778,
       "learning_rate": 9.763581796452353e-05,
       "loss": 0.0163,
       "step": 122
     },
     {
       "epoch": 0.952565343659245,
-      "grad_norm": 0.022706998512148857,
+      "grad_norm": 0.036104779690504074,
       "learning_rate": 9.755282581475769e-05,
-      "loss": 0.0253,
+      "loss": 0.0328,
       "step": 123
     },
     {
       "epoch": 0.9603097773475314,
-      "grad_norm": 0.02551465854048729,
+      "grad_norm": 0.020669342949986458,
       "learning_rate": 9.74684385210219e-05,
-      "loss": 0.0163,
+      "loss": 0.0155,
       "step": 124
     },
     {
       "epoch": 0.968054211035818,
-      "grad_norm": 0.02145274542272091,
+      "grad_norm": 0.021985569968819618,
       "learning_rate": 9.738265855914013e-05,
-      "loss": 0.0299,
+      "loss": 0.024,
       "step": 125
     },
     {
       "epoch": 0.968054211035818,
-      "eval_loss": 0.01828974299132824,
-      "eval_runtime": 4.8759,
-      "eval_samples_per_second": 10.254,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.017624683678150177,
+      "eval_runtime": 4.3751,
+      "eval_samples_per_second": 11.428,
+      "eval_steps_per_second": 2.971,
       "step": 125
     },
     {
       "epoch": 0.9757986447241046,
-      "grad_norm": 0.023152988404035568,
+      "grad_norm": 0.026250576600432396,
       "learning_rate": 9.729548844579552e-05,
-      "loss": 0.0178,
+      "loss": 0.0158,
       "step": 126
     },
     {
       "epoch": 0.9835430784123911,
-      "grad_norm": 0.026649784296751022,
+      "grad_norm": 0.028716014698147774,
       "learning_rate": 9.720693073845667e-05,
-      "loss": 0.024,
+      "loss": 0.0293,
       "step": 127
     },
     {
       "epoch": 0.9912875121006777,
-      "grad_norm": 0.020236071199178696,
+      "grad_norm": 0.025626949965953827,
       "learning_rate": 9.711698803530254e-05,
-      "loss": 0.0301,
+      "loss": 0.0321,
       "step": 128
     },
     {
       "epoch": 0.9990319457889641,
-      "grad_norm": 0.027533914893865585,
+      "grad_norm": 0.021693823859095573,
       "learning_rate": 9.70256629751462e-05,
-      "loss": 0.0195,
+      "loss": 0.0149,
       "step": 129
     },
     {
       "epoch": 1.0067763794772506,
-      "grad_norm": 0.053280122578144073,
+      "grad_norm": 0.049767978489398956,
       "learning_rate": 9.693295823735753e-05,
-      "loss": 0.0315,
+      "loss": 0.0319,
       "step": 130
     },
     {
       "epoch": 1.0067763794772506,
-      "eval_loss": 0.018024258315563202,
-      "eval_runtime": 4.8931,
-      "eval_samples_per_second": 10.219,
-      "eval_steps_per_second": 2.657,
+      "eval_loss": 0.01727178506553173,
+      "eval_runtime": 4.3778,
+      "eval_samples_per_second": 11.421,
+      "eval_steps_per_second": 2.97,
       "step": 130
     },
     {
       "epoch": 1.0145208131655372,
-      "grad_norm": 0.01893387921154499,
+      "grad_norm": 0.024738334119319916,
       "learning_rate": 9.683887654178445e-05,
-      "loss": 0.0226,
+      "loss": 0.0239,
       "step": 131
     },
     {
       "epoch": 1.0222652468538238,
-      "grad_norm": 0.029532097280025482,
+      "grad_norm": 0.024547995999455452,
       "learning_rate": 9.674342064867326e-05,
-      "loss": 0.0145,
+      "loss": 0.0206,
       "step": 132
     },
     {
       "epoch": 1.0300096805421104,
-      "grad_norm": 0.028108367696404457,
+      "grad_norm": 0.031586963683366776,
       "learning_rate": 9.664659335858755e-05,
-      "loss": 0.0148,
+      "loss": 0.0138,
       "step": 133
     },
     {
       "epoch": 1.037754114230397,
-      "grad_norm": 0.025696909055113792,
+      "grad_norm": 0.018796470016241074,
       "learning_rate": 9.654839751232611e-05,
-      "loss": 0.0198,
+      "loss": 0.0209,
       "step": 134
     },
     {
       "epoch": 1.0454985479186834,
-      "grad_norm": 0.02809828147292137,
+      "grad_norm": 0.0231508519500494,
       "learning_rate": 9.644883599083958e-05,
-      "loss": 0.0212,
+      "loss": 0.0202,
       "step": 135
     },
     {
       "epoch": 1.0454985479186834,
-      "eval_loss": 0.017997030168771744,
-      "eval_runtime": 4.8817,
-      "eval_samples_per_second": 10.242,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.017550285905599594,
+      "eval_runtime": 4.3777,
+      "eval_samples_per_second": 11.422,
+      "eval_steps_per_second": 2.97,
       "step": 135
     },
     {
       "epoch": 1.05324298160697,
-      "grad_norm": 0.023596247658133507,
+      "grad_norm": 0.029408982023596764,
       "learning_rate": 9.634791171514585e-05,
-      "loss": 0.027,
+      "loss": 0.0278,
       "step": 136
     },
     {
       "epoch": 1.0609874152952565,
-      "grad_norm": 0.032478995621204376,
+      "grad_norm": 0.027235113084316254,
       "learning_rate": 9.624562764624445e-05,
-      "loss": 0.0231,
+      "loss": 0.0149,
       "step": 137
     },
     {
       "epoch": 1.0687318489835431,
-      "grad_norm": 0.029977047815918922,
+      "grad_norm": 0.024401573464274406,
       "learning_rate": 9.614198678502965e-05,
-      "loss": 0.0139,
+      "loss": 0.015,
       "step": 138
     },
     {
       "epoch": 1.0764762826718297,
-      "grad_norm": 0.03173111006617546,
+      "grad_norm": 0.028705554082989693,
       "learning_rate": 9.603699217220239e-05,
-      "loss": 0.0188,
+      "loss": 0.0196,
       "step": 139
     },
     {
       "epoch": 1.084220716360116,
-      "grad_norm": 0.02266346476972103,
+      "grad_norm": 0.02626665309071541,
       "learning_rate": 9.59306468881811e-05,
-      "loss": 0.0172,
+      "loss": 0.0167,
       "step": 140
     },
     {
       "epoch": 1.084220716360116,
-      "eval_loss": 0.018361272290349007,
-      "eval_runtime": 4.8948,
-      "eval_samples_per_second": 10.215,
-      "eval_steps_per_second": 2.656,
+      "eval_loss": 0.017066117376089096,
+      "eval_runtime": 4.3787,
+      "eval_samples_per_second": 11.419,
+      "eval_steps_per_second": 2.969,
       "step": 140
     },
     {
       "epoch": 1.0919651500484027,
-      "grad_norm": 0.03363156318664551,
+      "grad_norm": 0.024959465488791466,
       "learning_rate": 9.582295405301131e-05,
-      "loss": 0.0202,
+      "loss": 0.0212,
       "step": 141
     },
     {
       "epoch": 1.0997095837366893,
-      "grad_norm": 0.03840557113289833,
+      "grad_norm": 0.02779693529009819,
       "learning_rate": 9.571391682627412e-05,
-      "loss": 0.0222,
+      "loss": 0.0178,
       "step": 142
     },
     {
       "epoch": 1.1074540174249758,
-      "grad_norm": 0.023486673831939697,
+      "grad_norm": 0.029659366235136986,
       "learning_rate": 9.56035384069935e-05,
-      "loss": 0.0396,
+      "loss": 0.04,
       "step": 143
     },
     {
       "epoch": 1.1151984511132624,
-      "grad_norm": 0.030952000990509987,
+      "grad_norm": 0.025969749316573143,
       "learning_rate": 9.549182203354242e-05,
       "loss": 0.0225,
       "step": 144
     },
     {
       "epoch": 1.1229428848015488,
-      "grad_norm": 0.030439218506217003,
+      "grad_norm": 0.026329027488827705,
       "learning_rate": 9.537877098354786e-05,
-      "loss": 0.0277,
+      "loss": 0.0205,
       "step": 145
     },
     {
       "epoch": 1.1229428848015488,
-      "eval_loss": 0.01816246099770069,
-      "eval_runtime": 4.8899,
-      "eval_samples_per_second": 10.225,
-      "eval_steps_per_second": 2.659,
+      "eval_loss": 0.01678595133125782,
+      "eval_runtime": 4.3744,
+      "eval_samples_per_second": 11.43,
+      "eval_steps_per_second": 2.972,
       "step": 145
     },
     {
       "epoch": 1.1306873184898354,
-      "grad_norm": 0.024195371195673943,
+      "grad_norm": 0.022639548406004906,
       "learning_rate": 9.526438857379463e-05,
-      "loss": 0.0116,
+      "loss": 0.0174,
       "step": 146
     },
     {
       "epoch": 1.138431752178122,
-      "grad_norm": 0.02799941971898079,
+      "grad_norm": 0.019363639876246452,
       "learning_rate": 9.514867816012809e-05,
-      "loss": 0.0195,
+      "loss": 0.0178,
       "step": 147
     },
     {
       "epoch": 1.1461761858664086,
-      "grad_norm": 0.030233675613999367,
+      "grad_norm": 0.024218933656811714,
       "learning_rate": 9.503164313735566e-05,
-      "loss": 0.0182,
+      "loss": 0.0191,
       "step": 148
     },
     {
       "epoch": 1.1539206195546952,
-      "grad_norm": 0.024903280660510063,
+      "grad_norm": 0.02254585176706314,
       "learning_rate": 9.491328693914722e-05,
-      "loss": 0.0222,
+      "loss": 0.0216,
       "step": 149
     },
     {
       "epoch": 1.1616650532429815,
-      "grad_norm": 0.023587804287672043,
+      "grad_norm": 0.021929148584604263,
       "learning_rate": 9.47936130379344e-05,
-      "loss": 0.0166,
+      "loss": 0.0164,
       "step": 150
     },
     {
       "epoch": 1.1616650532429815,
-      "eval_loss": 0.017931492999196053,
-      "eval_runtime": 4.8826,
-      "eval_samples_per_second": 10.24,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.016734711825847626,
+      "eval_runtime": 4.3868,
+      "eval_samples_per_second": 11.398,
+      "eval_steps_per_second": 2.963,
       "step": 150
     },
     {
       "epoch": 1.1694094869312681,
-      "grad_norm": 0.024121137335896492,
+      "grad_norm": 0.02163657918572426,
       "learning_rate": 9.467262494480869e-05,
-      "loss": 0.0216,
+      "loss": 0.0239,
       "step": 151
     },
     {
       "epoch": 1.1771539206195547,
-      "grad_norm": 0.02379632741212845,
+      "grad_norm": 0.020555593073368073,
       "learning_rate": 9.45503262094184e-05,
-      "loss": 0.023,
+      "loss": 0.0212,
       "step": 152
     },
     {
       "epoch": 1.1848983543078413,
-      "grad_norm": 0.02161642163991928,
+      "grad_norm": 0.02054913528263569,
       "learning_rate": 9.442672041986457e-05,
-      "loss": 0.0349,
+      "loss": 0.0338,
       "step": 153
     },
     {
       "epoch": 1.1926427879961277,
-      "grad_norm": 0.019304990768432617,
+      "grad_norm": 0.017929015681147575,
       "learning_rate": 9.430181120259565e-05,
-      "loss": 0.0193,
+      "loss": 0.021,
       "step": 154
     },
     {
       "epoch": 1.2003872216844143,
-      "grad_norm": 0.022498024627566338,
+      "grad_norm": 0.02343195676803589,
       "learning_rate": 9.417560222230115e-05,
-      "loss": 0.0272,
+      "loss": 0.0303,
       "step": 155
     },
     {
       "epoch": 1.2003872216844143,
-      "eval_loss": 0.018144290894269943,
-      "eval_runtime": 4.8768,
-      "eval_samples_per_second": 10.253,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.0167617779225111,
+      "eval_runtime": 4.4167,
+      "eval_samples_per_second": 11.321,
+      "eval_steps_per_second": 2.943,
       "step": 155
     },
     {
       "epoch": 1.2081316553727008,
-      "grad_norm": 0.03062877058982849,
+      "grad_norm": 0.026128176599740982,
       "learning_rate": 9.404809718180407e-05,
-      "loss": 0.0215,
+      "loss": 0.0245,
       "step": 156
     },
     {
       "epoch": 1.2158760890609874,
-      "grad_norm": 0.023427944630384445,
+      "grad_norm": 0.02399616688489914,
       "learning_rate": 9.391929982195232e-05,
-      "loss": 0.0301,
+      "loss": 0.032,
       "step": 157
     },
     {
       "epoch": 1.223620522749274,
-      "grad_norm": 0.02246953919529915,
+      "grad_norm": 0.027354400604963303,
       "learning_rate": 9.378921392150892e-05,
-      "loss": 0.0212,
+      "loss": 0.0198,
       "step": 158
     },
     {
       "epoch": 1.2313649564375604,
-      "grad_norm": 0.02264482155442238,
+      "grad_norm": 0.0203176848590374,
       "learning_rate": 9.365784329704115e-05,
-      "loss": 0.0164,
+      "loss": 0.0184,
       "step": 159
     },
     {
       "epoch": 1.239109390125847,
-      "grad_norm": 0.025367658585309982,
+      "grad_norm": 0.022227482870221138,
       "learning_rate": 9.35251918028086e-05,
-      "loss": 0.0193,
+      "loss": 0.0201,
       "step": 160
     },
     {
       "epoch": 1.239109390125847,
-      "eval_loss": 0.017837481573224068,
-      "eval_runtime": 4.8761,
-      "eval_samples_per_second": 10.254,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.016485435888171196,
+      "eval_runtime": 4.376,
+      "eval_samples_per_second": 11.426,
+      "eval_steps_per_second": 2.971,
       "step": 160
     },
     {
       "epoch": 1.2468538238141336,
-      "grad_norm": 0.02131119929254055,
+      "grad_norm": 0.020081602036952972,
       "learning_rate": 9.339126333065007e-05,
-      "loss": 0.0207,
+      "loss": 0.0191,
       "step": 161
     },
     {
       "epoch": 1.2545982575024202,
-      "grad_norm": 0.019136667251586914,
+      "grad_norm": 0.018554236739873886,
       "learning_rate": 9.325606180986939e-05,
-      "loss": 0.0147,
+      "loss": 0.0154,
       "step": 162
     },
     {
       "epoch": 1.2623426911907067,
-      "grad_norm": 0.024482635781168938,
+      "grad_norm": 0.02304654009640217,
       "learning_rate": 9.31195912071201e-05,
-      "loss": 0.0299,
+      "loss": 0.0319,
       "step": 163
     },
     {
       "epoch": 1.2700871248789931,
-      "grad_norm": 0.02487838640809059,
+      "grad_norm": 0.02430463396012783,
       "learning_rate": 9.298185552628917e-05,
-      "loss": 0.0232,
+      "loss": 0.0157,
       "step": 164
     },
     {
       "epoch": 1.2778315585672797,
-      "grad_norm": 0.025261854752898216,
+      "grad_norm": 0.023204822093248367,
       "learning_rate": 9.284285880837946e-05,
-      "loss": 0.0121,
+      "loss": 0.0183,
       "step": 165
     },
     {
       "epoch": 1.2778315585672797,
-      "eval_loss": 0.017772378399968147,
-      "eval_runtime": 4.8807,
-      "eval_samples_per_second": 10.245,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.016406066715717316,
+      "eval_runtime": 4.4127,
+      "eval_samples_per_second": 11.331,
+      "eval_steps_per_second": 2.946,
       "step": 165
     },
     {
       "epoch": 1.2855759922555663,
-      "grad_norm": 0.02148056961596012,
+      "grad_norm": 0.02340216562151909,
       "learning_rate": 9.270260513139116e-05,
-      "loss": 0.0347,
+      "loss": 0.0329,
       "step": 166
     },
     {
       "epoch": 1.2933204259438529,
-      "grad_norm": 0.02021237276494503,
+      "grad_norm": 0.023041503503918648,
       "learning_rate": 9.256109861020213e-05,
-      "loss": 0.02,
+      "loss": 0.0181,
       "step": 167
     },
     {
       "epoch": 1.3010648596321395,
-      "grad_norm": 0.017359554767608643,
+      "grad_norm": 0.02382810041308403,
       "learning_rate": 9.241834339644726e-05,
-      "loss": 0.0168,
+      "loss": 0.0199,
       "step": 168
     },
     {
       "epoch": 1.3088092933204258,
-      "grad_norm": 0.02310781180858612,
+      "grad_norm": 0.021713877096772194,
       "learning_rate": 9.22743436783966e-05,
-      "loss": 0.0192,
+      "loss": 0.0183,
       "step": 169
     },
     {
       "epoch": 1.3165537270087124,
-      "grad_norm": 0.020348088815808296,
+      "grad_norm": 0.02216421440243721,
       "learning_rate": 9.212910368083245e-05,
-      "loss": 0.0218,
+      "loss": 0.0221,
       "step": 170
     },
     {
       "epoch": 1.3165537270087124,
-      "eval_loss": 0.0177312009036541,
-      "eval_runtime": 4.8794,
-      "eval_samples_per_second": 10.247,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.016315914690494537,
+      "eval_runtime": 4.3752,
+      "eval_samples_per_second": 11.428,
+      "eval_steps_per_second": 2.971,
       "step": 170
     },
     {
       "epoch": 1.324298160696999,
-      "grad_norm": 0.019140997901558876,
+      "grad_norm": 0.022575192153453827,
       "learning_rate": 9.198262766492554e-05,
-      "loss": 0.0217,
+      "loss": 0.0251,
       "step": 171
     },
     {
       "epoch": 1.3320425943852856,
-      "grad_norm": 0.023120978847146034,
+      "grad_norm": 0.02038014493882656,
       "learning_rate": 9.183491992810979e-05,
-      "loss": 0.0275,
+      "loss": 0.0257,
       "step": 172
     },
     {
       "epoch": 1.3397870280735722,
-      "grad_norm": 0.024684559553861618,
+      "grad_norm": 0.022038010880351067,
       "learning_rate": 9.168598480395651e-05,
-      "loss": 0.0201,
+      "loss": 0.0192,
       "step": 173
     },
     {
       "epoch": 1.3475314617618586,
-      "grad_norm": 0.024830348789691925,
+      "grad_norm": 0.022859683260321617,
       "learning_rate": 9.153582666204701e-05,
-      "loss": 0.0234,
+      "loss": 0.0246,
       "step": 174
     },
     {
       "epoch": 1.3552758954501452,
-      "grad_norm": 0.023022592067718506,
+      "grad_norm": 0.02186562865972519,
       "learning_rate": 9.138444990784453e-05,
-      "loss": 0.016,
+      "loss": 0.0132,
       "step": 175
     },
     {
       "epoch": 1.3552758954501452,
-      "eval_loss": 0.017486225813627243,
-      "eval_runtime": 4.8842,
-      "eval_samples_per_second": 10.237,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.01624121144413948,
+      "eval_runtime": 4.3851,
+      "eval_samples_per_second": 11.402,
+      "eval_steps_per_second": 2.965,
       "step": 175
     },
     {
       "epoch": 1.3630203291384317,
-      "grad_norm": 0.02616291493177414,
+      "grad_norm": 0.022015810012817383,
       "learning_rate": 9.123185898256496e-05,
-      "loss": 0.0261,
+      "loss": 0.0209,
       "step": 176
     },
     {
       "epoch": 1.3707647628267183,
-      "grad_norm": 0.02299882471561432,
+      "grad_norm": 0.022759562358260155,
       "learning_rate": 9.107805836304658e-05,
-      "loss": 0.0254,
+      "loss": 0.0215,
       "step": 177
     },
     {
       "epoch": 1.378509196515005,
-      "grad_norm": 0.018913911655545235,
+      "grad_norm": 0.0224290881305933,
       "learning_rate": 9.092305256161859e-05,
-      "loss": 0.0124,
+      "loss": 0.0137,
       "step": 178
     },
     {
       "epoch": 1.3862536302032913,
-      "grad_norm": 0.02167947217822075,
+      "grad_norm": 0.02067345194518566,
       "learning_rate": 9.076684612596891e-05,
-      "loss": 0.0232,
+      "loss": 0.0234,
       "step": 179
     },
     {
       "epoch": 1.3939980638915779,
-      "grad_norm": 0.02304757945239544,
+      "grad_norm": 0.0244379211217165,
       "learning_rate": 9.060944363901056e-05,
-      "loss": 0.0268,
+      "loss": 0.0226,
       "step": 180
     },
     {
       "epoch": 1.3939980638915779,
-      "eval_loss": 0.01751082018017769,
-      "eval_runtime": 4.8781,
-      "eval_samples_per_second": 10.25,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.01581944338977337,
+      "eval_runtime": 4.39,
+      "eval_samples_per_second": 11.39,
+      "eval_steps_per_second": 2.961,
       "step": 180
     },
     {
       "epoch": 1.4017424975798645,
-      "grad_norm": 0.02488349750638008,
+      "grad_norm": 0.025064224377274513,
       "learning_rate": 9.045084971874738e-05,
-      "loss": 0.0128,
+      "loss": 0.0137,
       "step": 181
     },
     {
       "epoch": 1.409486931268151,
-      "grad_norm": 0.025742027908563614,
+      "grad_norm": 0.022704744711518288,
       "learning_rate": 9.029106901813839e-05,
-      "loss": 0.0243,
+      "loss": 0.0224,
       "step": 182
     },
     {
       "epoch": 1.4172313649564376,
-      "grad_norm": 0.020051000639796257,
+      "grad_norm": 0.023529507219791412,
       "learning_rate": 9.013010622496144e-05,
-      "loss": 0.0106,
+      "loss": 0.0148,
       "step": 183
     },
     {
       "epoch": 1.424975798644724,
-      "grad_norm": 0.021976549178361893,
+      "grad_norm": 0.022351229563355446,
       "learning_rate": 8.996796606167548e-05,
-      "loss": 0.0183,
+      "loss": 0.0186,
       "step": 184
     },
     {
       "epoch": 1.4327202323330106,
-      "grad_norm": 0.0210378710180521,
+      "grad_norm": 0.02896580472588539,
       "learning_rate": 8.980465328528219e-05,
-      "loss": 0.0152,
+      "loss": 0.0173,
       "step": 185
     },
     {
       "epoch": 1.4327202323330106,
-      "eval_loss": 0.017743976786732674,
-      "eval_runtime": 4.8802,
-      "eval_samples_per_second": 10.246,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.0159382913261652,
+      "eval_runtime": 4.3905,
+      "eval_samples_per_second": 11.388,
+      "eval_steps_per_second": 2.961,
       "step": 185
     },
     {
       "epoch": 1.4404646660212972,
-      "grad_norm": 0.02365756221115589,
+      "grad_norm": 0.022037331014871597,
       "learning_rate": 8.96401726871863e-05,
-      "loss": 0.0114,
+      "loss": 0.0116,
       "step": 186
     },
     {
       "epoch": 1.4482090997095838,
-      "grad_norm": 0.025590112432837486,
+      "grad_norm": 0.02559385821223259,
       "learning_rate": 8.94745290930551e-05,
-      "loss": 0.0189,
+      "loss": 0.023,
       "step": 187
     },
     {
       "epoch": 1.4559535333978704,
-      "grad_norm": 0.029832618311047554,
+      "grad_norm": 0.03725734353065491,
       "learning_rate": 8.930772736267674e-05,
-      "loss": 0.0324,
+      "loss": 0.0351,
       "step": 188
     },
     {
       "epoch": 1.4636979670861567,
-      "grad_norm": 0.025901637971401215,
+      "grad_norm": 0.021388601511716843,
       "learning_rate": 8.913977238981778e-05,
-      "loss": 0.0186,
+      "loss": 0.0169,
       "step": 189
     },
     {
       "epoch": 1.4714424007744433,
-      "grad_norm": 0.01908070780336857,
+      "grad_norm": 0.019340962171554565,
       "learning_rate": 8.897066910207958e-05,
-      "loss": 0.0279,
+      "loss": 0.0304,
       "step": 190
     },
     {
       "epoch": 1.4714424007744433,
-      "eval_loss": 0.017557693645358086,
-      "eval_runtime": 4.8877,
-      "eval_samples_per_second": 10.23,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.016351182013750076,
+      "eval_runtime": 4.3963,
+      "eval_samples_per_second": 11.373,
+      "eval_steps_per_second": 2.957,
       "step": 190
     },
     {
       "epoch": 1.47918683446273,
-      "grad_norm": 0.025517305359244347,
+      "grad_norm": 0.02193869836628437,
       "learning_rate": 8.880042246075365e-05,
-      "loss": 0.0279,
+      "loss": 0.0219,
       "step": 191
     },
     {
       "epoch": 1.4869312681510165,
-      "grad_norm": 0.019936546683311462,
+      "grad_norm": 0.020674917846918106,
       "learning_rate": 8.862903746067618e-05,
-      "loss": 0.0172,
+      "loss": 0.017,
       "step": 192
     },
     {
       "epoch": 1.494675701839303,
-      "grad_norm": 0.019224194809794426,
+      "grad_norm": 0.01704789139330387,
       "learning_rate": 8.845651913008145e-05,
-      "loss": 0.0138,
+      "loss": 0.0121,
       "step": 193
     },
     {
       "epoch": 1.5024201355275895,
-      "grad_norm": 0.017969885841012,
+      "grad_norm": 0.02329368144273758,
       "learning_rate": 8.828287253045435e-05,
-      "loss": 0.0151,
+      "loss": 0.0156,
       "step": 194
     },
     {
       "epoch": 1.510164569215876,
-      "grad_norm": 0.02093169093132019,
+      "grad_norm": 0.023794591426849365,
       "learning_rate": 8.810810275638183e-05,
-      "loss": 0.0206,
+      "loss": 0.0177,
       "step": 195
     },
     {
       "epoch": 1.510164569215876,
-      "eval_loss": 0.017626546323299408,
-      "eval_runtime": 4.9032,
-      "eval_samples_per_second": 10.197,
-      "eval_steps_per_second": 2.651,
+      "eval_loss": 0.016085928305983543,
+      "eval_runtime": 4.391,
+      "eval_samples_per_second": 11.387,
+      "eval_steps_per_second": 2.961,
       "step": 195
     },
     {
       "epoch": 1.5179090029041626,
-      "grad_norm": 0.027407390996813774,
+      "grad_norm": 0.01901249960064888,
       "learning_rate": 8.793221493540347e-05,
-      "loss": 0.0151,
+      "loss": 0.0138,
       "step": 196
     },
     {
       "epoch": 1.5256534365924492,
-      "grad_norm": 0.022155404090881348,
+      "grad_norm": 0.020555458962917328,
       "learning_rate": 8.775521422786104e-05,
-      "loss": 0.0187,
+      "loss": 0.0154,
       "step": 197
     },
     {
       "epoch": 1.5333978702807358,
-      "grad_norm": 0.02126327157020569,
+      "grad_norm": 0.02266288548707962,
       "learning_rate": 8.757710582674707e-05,
-      "loss": 0.0168,
+      "loss": 0.0196,
       "step": 198
     },
     {
       "epoch": 1.5411423039690222,
-      "grad_norm": 0.02067979797720909,
+      "grad_norm": 0.016408788040280342,
       "learning_rate": 8.739789495755253e-05,
-      "loss": 0.015,
+      "loss": 0.0147,
       "step": 199
     },
     {
       "epoch": 1.5488867376573088,
-      "grad_norm": 0.023581981658935547,
+      "grad_norm": 0.024890296161174774,
       "learning_rate": 8.721758687811352e-05,
-      "loss": 0.0196,
+      "loss": 0.0155,
       "step": 200
     },
     {
       "epoch": 1.5488867376573088,
-      "eval_loss": 0.017185786738991737,
-      "eval_runtime": 4.8793,
-      "eval_samples_per_second": 10.247,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.016014162451028824,
+      "eval_runtime": 4.3722,
+      "eval_samples_per_second": 11.436,
+      "eval_steps_per_second": 2.973,
       "step": 200
     },
     {
       "epoch": 1.5566311713455954,
-      "grad_norm": 0.0208896417170763,
+      "grad_norm": 0.023205876350402832,
       "learning_rate": 8.703618687845696e-05,
-      "loss": 0.0176,
+      "loss": 0.0158,
       "step": 201
     },
     {
       "epoch": 1.5643756050338817,
-      "grad_norm": 0.02558140642940998,
+      "grad_norm": 0.023312438279390335,
       "learning_rate": 8.685370028064546e-05,
-      "loss": 0.0224,
+      "loss": 0.0249,
       "step": 202
     },
     {
       "epoch": 1.5721200387221685,
-      "grad_norm": 0.01860946975648403,
+      "grad_norm": 0.02218124084174633,
       "learning_rate": 8.667013243862113e-05,
-      "loss": 0.0189,
+      "loss": 0.0236,
       "step": 203
     },
     {
       "epoch": 1.579864472410455,
-      "grad_norm": 0.024494647979736328,
+      "grad_norm": 0.021021878346800804,
       "learning_rate": 8.64854887380485e-05,
-      "loss": 0.0204,
+      "loss": 0.0172,
       "step": 204
     },
     {
       "epoch": 1.5876089060987415,
-      "grad_norm": 0.028290973976254463,
+      "grad_norm": 0.022670872509479523,
       "learning_rate": 8.629977459615655e-05,
-      "loss": 0.0262,
+      "loss": 0.0258,
       "step": 205
     },
     {
       "epoch": 1.5876089060987415,
-      "eval_loss": 0.016824763268232346,
-      "eval_runtime": 4.88,
-      "eval_samples_per_second": 10.246,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.015911860391497612,
+      "eval_runtime": 4.3722,
+      "eval_samples_per_second": 11.436,
+      "eval_steps_per_second": 2.973,
       "step": 205
     },
     {
       "epoch": 1.595353339787028,
-      "grad_norm": 0.020388493314385414,
+      "grad_norm": 0.02052771858870983,
       "learning_rate": 8.611299546157974e-05,
-      "loss": 0.0287,
+      "loss": 0.0291,
       "step": 206
     },
     {
       "epoch": 1.6030977734753145,
-      "grad_norm": 0.022215668112039566,
+      "grad_norm": 0.023315995931625366,
       "learning_rate": 8.592515681419813e-05,
-      "loss": 0.0249,
+      "loss": 0.0258,
       "step": 207
     },
     {
       "epoch": 1.6108422071636013,
-      "grad_norm": 0.028934534639120102,
+      "grad_norm": 0.03357525169849396,
       "learning_rate": 8.573626416497668e-05,
-      "loss": 0.0217,
+      "loss": 0.0187,
       "step": 208
     },
     {
       "epoch": 1.6185866408518876,
-      "grad_norm": 0.022588912397623062,
+      "grad_norm": 0.021634763106703758,
       "learning_rate": 8.554632305580354e-05,
-      "loss": 0.0207,
+      "loss": 0.0212,
       "step": 209
     },
     {
       "epoch": 1.6263310745401742,
-      "grad_norm": 0.02324405126273632,
+      "grad_norm": 0.02398337796330452,
       "learning_rate": 8.535533905932738e-05,
-      "loss": 0.0178,
+      "loss": 0.0217,
       "step": 210
     },
     {
       "epoch": 1.6263310745401742,
-      "eval_loss": 0.016888294368982315,
-      "eval_runtime": 4.8771,
-      "eval_samples_per_second": 10.252,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.01627761498093605,
+      "eval_runtime": 4.39,
+      "eval_samples_per_second": 11.389,
+      "eval_steps_per_second": 2.961,
       "step": 210
     },
     {
       "epoch": 1.6340755082284608,
-      "grad_norm": 0.023379050195217133,
+      "grad_norm": 0.024927034974098206,
       "learning_rate": 8.5163317778794e-05,
-      "loss": 0.0227,
+      "loss": 0.0225,
       "step": 211
     },
     {
       "epoch": 1.6418199419167472,
-      "grad_norm": 0.024302620440721512,
+      "grad_norm": 0.022668635472655296,
       "learning_rate": 8.497026484788189e-05,
-      "loss": 0.0279,
+      "loss": 0.0261,
       "step": 212
     },
     {
       "epoch": 1.649564375605034,
-      "grad_norm": 0.02425311878323555,
+      "grad_norm": 0.020460564643144608,
       "learning_rate": 8.477618593053693e-05,
-      "loss": 0.02,
+      "loss": 0.0273,
       "step": 213
     },
     {
       "epoch": 1.6573088092933204,
-      "grad_norm": 0.0243984404951334,
+      "grad_norm": 0.027241550385951996,
       "learning_rate": 8.458108672080624e-05,
       "loss": 0.0255,
       "step": 214
     },
     {
       "epoch": 1.665053242981607,
-      "grad_norm": 0.018734309822320938,
+      "grad_norm": 0.019933342933654785,
       "learning_rate": 8.438497294267117e-05,
-      "loss": 0.011,
+      "loss": 0.0197,
       "step": 215
     },
     {
       "epoch": 1.665053242981607,
-      "eval_loss": 0.01664450205862522,
-      "eval_runtime": 4.8808,
-      "eval_samples_per_second": 10.244,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.016057245433330536,
+      "eval_runtime": 4.3758,
+      "eval_samples_per_second": 11.427,
+      "eval_steps_per_second": 2.971,
       "step": 215
     },
     {
       "epoch": 1.6727976766698935,
-      "grad_norm": 0.019455671310424805,
+      "grad_norm": 0.016015920788049698,
       "learning_rate": 8.418785034987921e-05,
-      "loss": 0.0175,
+      "loss": 0.0148,
       "step": 216
     },
     {
       "epoch": 1.68054211035818,
-      "grad_norm": 0.021629663184285164,
+      "grad_norm": 0.020762229338288307,
       "learning_rate": 8.39897247257754e-05,
-      "loss": 0.0156,
+      "loss": 0.022,
       "step": 217
     },
     {
       "epoch": 1.6882865440464667,
-      "grad_norm": 0.022207748144865036,
+      "grad_norm": 0.0254424549639225,
       "learning_rate": 8.379060188313244e-05,
-      "loss": 0.0271,
+      "loss": 0.0286,
       "step": 218
     },
     {
       "epoch": 1.696030977734753,
-      "grad_norm": 0.021333666518330574,
+      "grad_norm": 0.01940356194972992,
       "learning_rate": 8.359048766398031e-05,
-      "loss": 0.0223,
+      "loss": 0.0171,
       "step": 219
     },
     {
       "epoch": 1.7037754114230397,
-      "grad_norm": 0.021991191431879997,
+      "grad_norm": 0.020493976771831512,
       "learning_rate": 8.338938793943478e-05,
-      "loss": 0.0128,
+      "loss": 0.0124,
       "step": 220
     },
     {
       "epoch": 1.7037754114230397,
-      "eval_loss": 0.016610655933618546,
-      "eval_runtime": 4.8782,
-      "eval_samples_per_second": 10.25,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.015820881351828575,
+      "eval_runtime": 4.3798,
+      "eval_samples_per_second": 11.416,
+      "eval_steps_per_second": 2.968,
       "step": 220
     },
     {
       "epoch": 1.7115198451113263,
-      "grad_norm": 0.01750914379954338,
+      "grad_norm": 0.0217495858669281,
       "learning_rate": 8.318730860952522e-05,
-      "loss": 0.0217,
+      "loss": 0.0229,
       "step": 221
     },
     {
       "epoch": 1.7192642787996126,
-      "grad_norm": 0.022801555693149567,
+      "grad_norm": 0.021223610267043114,
       "learning_rate": 8.298425560302146e-05,
-      "loss": 0.0229,
+      "loss": 0.0233,
       "step": 222
     },
     {
       "epoch": 1.7270087124878994,
-      "grad_norm": 0.028667643666267395,
+      "grad_norm": 0.02781669795513153,
       "learning_rate": 8.278023487725982e-05,
-      "loss": 0.0317,
+      "loss": 0.032,
       "step": 223
     },
     {
       "epoch": 1.7347531461761858,
-      "grad_norm": 0.0247921384871006,
+      "grad_norm": 0.02280505932867527,
       "learning_rate": 8.257525241796838e-05,
-      "loss": 0.0177,
+      "loss": 0.0162,
       "step": 224
     },
     {
       "epoch": 1.7424975798644724,
-      "grad_norm": 0.02079445868730545,
+      "grad_norm": 0.021283939480781555,
       "learning_rate": 8.236931423909138e-05,
-      "loss": 0.0223,
+      "loss": 0.0248,
       "step": 225
     },
     {
       "epoch": 1.7424975798644724,
-      "eval_loss": 0.016715094447135925,
-      "eval_runtime": 4.8828,
-      "eval_samples_per_second": 10.24,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.01560266874730587,
+      "eval_runtime": 4.3796,
+      "eval_samples_per_second": 11.416,
+      "eval_steps_per_second": 2.968,
       "step": 225
     },
     {
       "epoch": 1.750242013552759,
-      "grad_norm": 0.023619551211595535,
+      "grad_norm": 0.025019438937306404,
       "learning_rate": 8.216242638261276e-05,
-      "loss": 0.0237,
+      "loss": 0.0261,
       "step": 226
     },
     {
       "epoch": 1.7579864472410454,
-      "grad_norm": 0.020713407546281815,
+      "grad_norm": 0.020630711689591408,
       "learning_rate": 8.19545949183788e-05,
-      "loss": 0.0167,
+      "loss": 0.0171,
       "step": 227
     },
     {
       "epoch": 1.7657308809293322,
-      "grad_norm": 0.024574102833867073,
+      "grad_norm": 0.022184062749147415,
       "learning_rate": 8.17458259439202e-05,
-      "loss": 0.0281,
+      "loss": 0.0276,
       "step": 228
     },
     {
       "epoch": 1.7734753146176185,
-      "grad_norm": 0.01983151212334633,
+      "grad_norm": 0.018736379221081734,
       "learning_rate": 8.153612558427311e-05,
-      "loss": 0.0217,
+      "loss": 0.0199,
       "step": 229
     },
     {
       "epoch": 1.7812197483059051,
-      "grad_norm": 0.027135249227285385,
+      "grad_norm": 0.02617255039513111,
       "learning_rate": 8.132549999179933e-05,
-      "loss": 0.0201,
+      "loss": 0.017,
       "step": 230
     },
     {
       "epoch": 1.7812197483059051,
-      "eval_loss": 0.016661785542964935,
-      "eval_runtime": 4.8807,
-      "eval_samples_per_second": 10.244,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.015948235988616943,
+      "eval_runtime": 4.3895,
+      "eval_samples_per_second": 11.391,
+      "eval_steps_per_second": 2.962,
       "step": 230
     },
     {
       "epoch": 1.7889641819941917,
-      "grad_norm": 0.021816475316882133,
+      "grad_norm": 0.024188663810491562,
       "learning_rate": 8.111395534600603e-05,
-      "loss": 0.0166,
+      "loss": 0.0184,
       "step": 231
     },
     {
       "epoch": 1.796708615682478,
-      "grad_norm": 0.019049836322665215,
+      "grad_norm": 0.020861351862549782,
       "learning_rate": 8.090149785336425e-05,
-      "loss": 0.0125,
+      "loss": 0.0185,
       "step": 232
     },
     {
       "epoch": 1.804453049370765,
-      "grad_norm": 0.023273281753063202,
+      "grad_norm": 0.02357521653175354,
       "learning_rate": 8.068813374712688e-05,
-      "loss": 0.0295,
+      "loss": 0.031,
       "step": 233
     },
     {
       "epoch": 1.8121974830590513,
-      "grad_norm": 0.02431442402303219,
+      "grad_norm": 0.022738052532076836,
       "learning_rate": 8.047386928714582e-05,
-      "loss": 0.0193,
+      "loss": 0.0136,
       "step": 234
     },
     {
       "epoch": 1.8199419167473379,
-      "grad_norm": 0.02583279088139534,
+      "grad_norm": 0.02491193450987339,
       "learning_rate": 8.025871075968828e-05,
-      "loss": 0.0239,
+      "loss": 0.0248,
       "step": 235
     },
     {
       "epoch": 1.8199419167473379,
-      "eval_loss": 0.016347970813512802,
-      "eval_runtime": 4.883,
-      "eval_samples_per_second": 10.24,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.015809817239642143,
+      "eval_runtime": 4.3863,
+      "eval_samples_per_second": 11.399,
+      "eval_steps_per_second": 2.964,
       "step": 235
     },
     {
       "epoch": 1.8276863504356244,
-      "grad_norm": 0.021466901525855064,
+      "grad_norm": 0.021618014201521873,
       "learning_rate": 8.00426644772523e-05,
-      "loss": 0.0226,
+      "loss": 0.0184,
       "step": 236
     },
     {
       "epoch": 1.8354307841239108,
-      "grad_norm": 0.02583594247698784,
+      "grad_norm": 0.026012565940618515,
       "learning_rate": 7.982573677838172e-05,
-      "loss": 0.0113,
+      "loss": 0.0136,
       "step": 237
     },
     {
       "epoch": 1.8431752178121976,
-      "grad_norm": 0.02358117513358593,
+      "grad_norm": 0.023996589705348015,
       "learning_rate": 7.960793402748002e-05,
-      "loss": 0.0292,
+      "loss": 0.0288,
       "step": 238
     },
     {
       "epoch": 1.850919651500484,
-      "grad_norm": 0.025698702782392502,
+      "grad_norm": 0.025611311197280884,
       "learning_rate": 7.938926261462366e-05,
-      "loss": 0.0269,
+      "loss": 0.0254,
       "step": 239
     },
     {
       "epoch": 1.8586640851887706,
-      "grad_norm": 0.021297315135598183,
+      "grad_norm": 0.01994282752275467,
       "learning_rate": 7.916972895537471e-05,
-      "loss": 0.0206,
+      "loss": 0.0189,
       "step": 240
     },
     {
       "epoch": 1.8586640851887706,
-      "eval_loss": 0.016880055889487267,
-      "eval_runtime": 4.8849,
-      "eval_samples_per_second": 10.236,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.015514240600168705,
+      "eval_runtime": 4.3816,
+      "eval_samples_per_second": 11.411,
+      "eval_steps_per_second": 2.967,
       "step": 240
     },
     {
       "epoch": 1.8664085188770572,
-      "grad_norm": 0.02742616832256317,
+      "grad_norm": 0.02635214664041996,
       "learning_rate": 7.894933949059245e-05,
-      "loss": 0.0266,
+      "loss": 0.0268,
       "step": 241
     },
     {
       "epoch": 1.8741529525653435,
-      "grad_norm": 0.029985694214701653,
+      "grad_norm": 0.022437842562794685,
       "learning_rate": 7.872810068624451e-05,
-      "loss": 0.0209,
+      "loss": 0.0158,
       "step": 242
     },
     {
       "epoch": 1.8818973862536303,
-      "grad_norm": 0.01984225958585739,
+      "grad_norm": 0.022370561957359314,
       "learning_rate": 7.850601903321716e-05,
-      "loss": 0.0112,
+      "loss": 0.0188,
       "step": 243
     },
     {
       "epoch": 1.8896418199419167,
-      "grad_norm": 0.028832539916038513,
+      "grad_norm": 0.027548542246222496,
       "learning_rate": 7.828310104712489e-05,
-      "loss": 0.0176,
+      "loss": 0.0164,
       "step": 244
     },
     {
       "epoch": 1.8973862536302033,
-      "grad_norm": 0.025244107469916344,
+      "grad_norm": 0.02081076055765152,
       "learning_rate": 7.805935326811912e-05,
-      "loss": 0.0209,
+      "loss": 0.0185,
       "step": 245
     },
     {
       "epoch": 1.8973862536302033,
-      "eval_loss": 0.016251368448138237,
-      "eval_runtime": 4.8854,
-      "eval_samples_per_second": 10.235,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.015138417482376099,
+      "eval_runtime": 4.386,
+      "eval_samples_per_second": 11.4,
+      "eval_steps_per_second": 2.964,
       "step": 245
     },
     {
       "epoch": 1.90513068731849,
-      "grad_norm": 0.019776510074734688,
+      "grad_norm": 0.01958652399480343,
       "learning_rate": 7.783478226069651e-05,
-      "loss": 0.0146,
+      "loss": 0.0164,
       "step": 246
     },
     {
       "epoch": 1.9128751210067763,
-      "grad_norm": 0.030150357633829117,
+      "grad_norm": 0.02671448513865471,
       "learning_rate": 7.760939461350623e-05,
-      "loss": 0.0205,
+      "loss": 0.018,
       "step": 247
     },
     {
       "epoch": 1.920619554695063,
-      "grad_norm": 0.02409055270254612,
+      "grad_norm": 0.02252519316971302,
       "learning_rate": 7.738319693915672e-05,
-      "loss": 0.0209,
+      "loss": 0.0248,
       "step": 248
     },
     {
       "epoch": 1.9283639883833494,
-      "grad_norm": 0.02473391965031624,
+      "grad_norm": 0.023020565509796143,
       "learning_rate": 7.715619587402164e-05,
-      "loss": 0.0169,
+      "loss": 0.0244,
       "step": 249
     },
     {
       "epoch": 1.936108422071636,
-      "grad_norm": 0.028100404888391495,
+      "grad_norm": 0.021742597222328186,
       "learning_rate": 7.692839807804521e-05,
-      "loss": 0.0171,
+      "loss": 0.0154,
       "step": 250
     },
     {
       "epoch": 1.936108422071636,
-      "eval_loss": 0.016126085072755814,
-      "eval_runtime": 4.8878,
-      "eval_samples_per_second": 10.23,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.015089833177626133,
+      "eval_runtime": 4.3844,
+      "eval_samples_per_second": 11.404,
+      "eval_steps_per_second": 2.965,
       "step": 250
     },
     {
       "epoch": 1.9438528557599226,
-      "grad_norm": 0.031069206073880196,
+      "grad_norm": 0.025942670181393623,
       "learning_rate": 7.669981023454682e-05,
-      "loss": 0.0346,
+      "loss": 0.0317,
       "step": 251
     },
     {
       "epoch": 1.951597289448209,
-      "grad_norm": 0.020763061940670013,
+      "grad_norm": 0.021227659657597542,
       "learning_rate": 7.647043905002484e-05,
-      "loss": 0.0168,
+      "loss": 0.0187,
       "step": 252
     },
     {
       "epoch": 1.9593417231364958,
-      "grad_norm": 0.021877290681004524,
+      "grad_norm": 0.020006388425827026,
       "learning_rate": 7.624029125396004e-05,
-      "loss": 0.0276,
+      "loss": 0.0184,
       "step": 253
     },
     {
       "epoch": 1.9670861568247822,
-      "grad_norm": 0.023641012609004974,
+      "grad_norm": 0.024099906906485558,
       "learning_rate": 7.6009373598618e-05,
       "loss": 0.0182,
       "step": 254
     },
     {
       "epoch": 1.9748305905130688,
-      "grad_norm": 0.025783414021134377,
+      "grad_norm": 0.025464504957199097,
       "learning_rate": 7.577769285885109e-05,
-      "loss": 0.022,
+      "loss": 0.0223,
       "step": 255
     },
     {
       "epoch": 1.9748305905130688,
-      "eval_loss": 0.015866845846176147,
-      "eval_runtime": 4.8957,
-      "eval_samples_per_second": 10.213,
-      "eval_steps_per_second": 2.655,
+      "eval_loss": 0.015248560346662998,
+      "eval_runtime": 4.3709,
+      "eval_samples_per_second": 11.439,
+      "eval_steps_per_second": 2.974,
       "step": 255
     },
     {
       "epoch": 1.9825750242013553,
-      "grad_norm": 0.022825462743639946,
+      "grad_norm": 0.025076473131775856,
       "learning_rate": 7.554525583189969e-05,
-      "loss": 0.0184,
+      "loss": 0.0188,
       "step": 256
     },
     {
       "epoch": 1.9903194578896417,
-      "grad_norm": 0.024429945275187492,
+      "grad_norm": 0.016828592866659164,
       "learning_rate": 7.53120693371927e-05,
-      "loss": 0.0196,
+      "loss": 0.0182,
       "step": 257
     },
     {
       "epoch": 1.9980638915779285,
-      "grad_norm": 0.0280454121530056,
+      "grad_norm": 0.02599474973976612,
       "learning_rate": 7.507814021614761e-05,
-      "loss": 0.0297,
+      "loss": 0.0282,
       "step": 258
     },
     {
       "epoch": 2.005808325266215,
-      "grad_norm": 0.04602880775928497,
+      "grad_norm": 0.040355827659368515,
       "learning_rate": 7.484347533196961e-05,
-      "loss": 0.0211,
+      "loss": 0.0184,
       "step": 259
     },
     {
       "epoch": 2.0135527589545013,
-      "grad_norm": 0.01826930046081543,
+      "grad_norm": 0.01993139646947384,
       "learning_rate": 7.460808156945036e-05,
-      "loss": 0.0162,
+      "loss": 0.0161,
       "step": 260
     },
     {
       "epoch": 2.0135527589545013,
-      "eval_loss": 0.015875546261668205,
-      "eval_runtime": 4.8819,
-      "eval_samples_per_second": 10.242,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.01520194485783577,
+      "eval_runtime": 4.405,
+      "eval_samples_per_second": 11.351,
+      "eval_steps_per_second": 2.951,
       "step": 260
     },
     {
       "epoch": 2.021297192642788,
-      "grad_norm": 0.018936650827527046,
+      "grad_norm": 0.021229611709713936,
       "learning_rate": 7.437196583476596e-05,
-      "loss": 0.0169,
+      "loss": 0.0161,
       "step": 261
     },
     {
       "epoch": 2.0290416263310744,
-      "grad_norm": 0.02147481217980385,
+      "grad_norm": 0.0274257343262434,
       "learning_rate": 7.413513505527429e-05,
-      "loss": 0.0142,
+      "loss": 0.0223,
       "step": 262
     },
     {
       "epoch": 2.0367860600193612,
-      "grad_norm": 0.020604653283953667,
+      "grad_norm": 0.020992042496800423,
       "learning_rate": 7.389759617931182e-05,
-      "loss": 0.0115,
+      "loss": 0.0109,
       "step": 263
     },
     {
       "epoch": 2.0445304937076476,
-      "grad_norm": 0.021933911368250847,
+      "grad_norm": 0.021474428474903107,
       "learning_rate": 7.365935617598975e-05,
-      "loss": 0.0134,
+      "loss": 0.0101,
       "step": 264
     },
     {
       "epoch": 2.052274927395934,
-      "grad_norm": 0.02122250571846962,
+      "grad_norm": 0.021412339061498642,
       "learning_rate": 7.342042203498951e-05,
-      "loss": 0.0185,
+      "loss": 0.0139,
       "step": 265
     },
     {
       "epoch": 2.052274927395934,
-      "eval_loss": 0.01603526994585991,
-      "eval_runtime": 4.9059,
-      "eval_samples_per_second": 10.192,
-      "eval_steps_per_second": 2.65,
+      "eval_loss": 0.015354767441749573,
+      "eval_runtime": 4.3913,
+      "eval_samples_per_second": 11.386,
+      "eval_steps_per_second": 2.96,
       "step": 265
     },
     {
       "epoch": 2.060019361084221,
-      "grad_norm": 0.018767178058624268,
+      "grad_norm": 0.026226527988910675,
       "learning_rate": 7.318080076635772e-05,
-      "loss": 0.0087,
+      "loss": 0.013,
       "step": 266
     },
     {
       "epoch": 2.067763794772507,
-      "grad_norm": 0.01828618347644806,
+      "grad_norm": 0.018183927983045578,
       "learning_rate": 7.294049940030055e-05,
       "loss": 0.0088,
       "step": 267
     },
     {
       "epoch": 2.075508228460794,
-      "grad_norm": 0.029488379135727882,
+      "grad_norm": 0.019244108349084854,
       "learning_rate": 7.269952498697734e-05,
-      "loss": 0.0148,
+      "loss": 0.0131,
       "step": 268
     },
     {
       "epoch": 2.0832526621490803,
-      "grad_norm": 0.028726164251565933,
+      "grad_norm": 0.027739770710468292,
       "learning_rate": 7.245788459629396e-05,
-      "loss": 0.0226,
+      "loss": 0.0191,
       "step": 269
     },
     {
       "epoch": 2.0909970958373667,
-      "grad_norm": 0.03607122600078583,
+      "grad_norm": 0.022437987849116325,
       "learning_rate": 7.221558531769519e-05,
-      "loss": 0.0185,
+      "loss": 0.0173,
       "step": 270
     },
     {
       "epoch": 2.0909970958373667,
-      "eval_loss": 0.01613912731409073,
-      "eval_runtime": 4.8866,
-      "eval_samples_per_second": 10.232,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.015298700891435146,
+      "eval_runtime": 4.3814,
+      "eval_samples_per_second": 11.412,
+      "eval_steps_per_second": 2.967,
       "step": 270
     },
     {
       "epoch": 2.0987415295256535,
-      "grad_norm": 0.02318711020052433,
+      "grad_norm": 0.02765963226556778,
       "learning_rate": 7.197263425995682e-05,
-      "loss": 0.0187,
+      "loss": 0.0192,
       "step": 271
     },
     {
       "epoch": 2.10648596321394,
-      "grad_norm": 0.027442490682005882,
+      "grad_norm": 0.022411804646253586,
       "learning_rate": 7.172903855097711e-05,
-      "loss": 0.0185,
+      "loss": 0.0207,
       "step": 272
     },
     {
       "epoch": 2.1142303969022267,
-      "grad_norm": 0.02113383449614048,
+      "grad_norm": 0.017790112644433975,
       "learning_rate": 7.14848053375676e-05,
-      "loss": 0.0162,
+      "loss": 0.0229,
       "step": 273
     },
     {
       "epoch": 2.121974830590513,
-      "grad_norm": 0.02109163999557495,
+      "grad_norm": 0.019638855010271072,
       "learning_rate": 7.123994178524345e-05,
       "loss": 0.0189,
       "step": 274
     },
     {
       "epoch": 2.1297192642787994,
-      "grad_norm": 0.018890704959630966,
+      "grad_norm": 0.022188464179635048,
       "learning_rate": 7.099445507801323e-05,
-      "loss": 0.0196,
+      "loss": 0.0237,
       "step": 275
     },
     {
       "epoch": 2.1297192642787994,
-      "eval_loss": 0.016141431406140327,
-      "eval_runtime": 4.8795,
-      "eval_samples_per_second": 10.247,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.015217526815831661,
+      "eval_runtime": 4.3816,
+      "eval_samples_per_second": 11.411,
+      "eval_steps_per_second": 2.967,
       "step": 275
     },
     {
       "epoch": 2.1374636979670862,
-      "grad_norm": 0.026332931593060493,
+      "grad_norm": 0.02580423839390278,
       "learning_rate": 7.074835241816817e-05,
-      "loss": 0.029,
+      "loss": 0.0271,
       "step": 276
     },
     {
       "epoch": 2.1452081316553726,
-      "grad_norm": 0.02275455929338932,
+      "grad_norm": 0.022569693624973297,
       "learning_rate": 7.05016410260708e-05,
-      "loss": 0.0156,
+      "loss": 0.0161,
       "step": 277
     },
     {
       "epoch": 2.1529525653436594,
-      "grad_norm": 0.022596005350351334,
+      "grad_norm": 0.023885734379291534,
       "learning_rate": 7.025432813994315e-05,
-      "loss": 0.0184,
+      "loss": 0.0182,
       "step": 278
     },
     {
       "epoch": 2.160696999031946,
-      "grad_norm": 0.020018640905618668,
+      "grad_norm": 0.024710629135370255,
       "learning_rate": 7.000642101565434e-05,
-      "loss": 0.0107,
+      "loss": 0.0105,
       "step": 279
     },
     {
       "epoch": 2.168441432720232,
-      "grad_norm": 0.025625359266996384,
+      "grad_norm": 0.023105064406991005,
       "learning_rate": 6.975792692650777e-05,
-      "loss": 0.0146,
+      "loss": 0.0167,
       "step": 280
     },
     {
       "epoch": 2.168441432720232,
-      "eval_loss": 0.015940353274345398,
-      "eval_runtime": 4.9128,
-      "eval_samples_per_second": 10.178,
-      "eval_steps_per_second": 2.646,
+      "eval_loss": 0.01506556011736393,
+      "eval_runtime": 4.375,
+      "eval_samples_per_second": 11.428,
+      "eval_steps_per_second": 2.971,
       "step": 280
     },
     {
       "epoch": 2.176185866408519,
-      "grad_norm": 0.026554979383945465,
+      "grad_norm": 0.022073717787861824,
       "learning_rate": 6.950885316302773e-05,
-      "loss": 0.0213,
+      "loss": 0.0191,
       "step": 281
     },
     {
       "epoch": 2.1839303000968053,
-      "grad_norm": 0.023344026878476143,
+      "grad_norm": 0.01825207658112049,
       "learning_rate": 6.925920703274541e-05,
-      "loss": 0.0176,
+      "loss": 0.0151,
       "step": 282
     },
     {
       "epoch": 2.191674733785092,
-      "grad_norm": 0.03146139904856682,
+      "grad_norm": 0.03273662552237511,
       "learning_rate": 6.90089958599846e-05,
-      "loss": 0.0243,
+      "loss": 0.0266,
       "step": 283
     },
     {
       "epoch": 2.1994191674733785,
-      "grad_norm": 0.02688729763031006,
+      "grad_norm": 0.022013463079929352,
       "learning_rate": 6.875822698564679e-05,
-      "loss": 0.0235,
+      "loss": 0.0228,
       "step": 284
     },
     {
       "epoch": 2.207163601161665,
-      "grad_norm": 0.017707915976643562,
+      "grad_norm": 0.016240620985627174,
       "learning_rate": 6.850690776699573e-05,
-      "loss": 0.0091,
+      "loss": 0.0086,
       "step": 285
     },
     {
       "epoch": 2.207163601161665,
-      "eval_loss": 0.015938647091388702,
-      "eval_runtime": 4.8821,
-      "eval_samples_per_second": 10.241,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.014874408952891827,
+      "eval_runtime": 4.403,
+      "eval_samples_per_second": 11.356,
+      "eval_steps_per_second": 2.953,
       "step": 285
     },
     {
       "epoch": 2.2149080348499517,
-      "grad_norm": 0.02426217496395111,
+      "grad_norm": 0.025109486654400826,
       "learning_rate": 6.825504557744167e-05,
-      "loss": 0.0222,
+      "loss": 0.0234,
       "step": 286
     },
     {
       "epoch": 2.222652468538238,
-      "grad_norm": 0.017933079972863197,
+      "grad_norm": 0.02156895585358143,
       "learning_rate": 6.800264780632494e-05,
-      "loss": 0.0127,
+      "loss": 0.0094,
       "step": 287
     },
     {
       "epoch": 2.230396902226525,
-      "grad_norm": 0.02196042612195015,
+      "grad_norm": 0.024725494906306267,
       "learning_rate": 6.774972185869927e-05,
-      "loss": 0.013,
+      "loss": 0.0165,
       "step": 288
     },
     {
       "epoch": 2.2381413359148112,
-      "grad_norm": 0.02711823582649231,
+      "grad_norm": 0.022492345422506332,
       "learning_rate": 6.749627515511442e-05,
-      "loss": 0.0198,
+      "loss": 0.0196,
       "step": 289
     },
     {
       "epoch": 2.2458857696030976,
-      "grad_norm": 0.01899660937488079,
+      "grad_norm": 0.020706169307231903,
       "learning_rate": 6.724231513139852e-05,
-      "loss": 0.0106,
+      "loss": 0.012,
       "step": 290
     },
     {
       "epoch": 2.2458857696030976,
-      "eval_loss": 0.015821926295757294,
-      "eval_runtime": 4.8849,
-      "eval_samples_per_second": 10.236,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.01468344684690237,
+      "eval_runtime": 4.3794,
+      "eval_samples_per_second": 11.417,
+      "eval_steps_per_second": 2.968,
       "step": 290
     },
     {
       "epoch": 2.2536302032913844,
-      "grad_norm": 0.02587137557566166,
+      "grad_norm": 0.02125599980354309,
       "learning_rate": 6.698784923843992e-05,
-      "loss": 0.0204,
+      "loss": 0.0173,
       "step": 291
     },
     {
       "epoch": 2.261374636979671,
-      "grad_norm": 0.02532321773469448,
+      "grad_norm": 0.029972407966852188,
       "learning_rate": 6.673288494196858e-05,
-      "loss": 0.0191,
+      "loss": 0.0225,
       "step": 292
     },
     {
       "epoch": 2.2691190706679576,
-      "grad_norm": 0.03079635463654995,
+      "grad_norm": 0.02421470358967781,
       "learning_rate": 6.647742972233703e-05,
-      "loss": 0.0205,
+      "loss": 0.0211,
       "step": 293
     },
     {
       "epoch": 2.276863504356244,
-      "grad_norm": 0.023865051567554474,
+      "grad_norm": 0.02178541198372841,
       "learning_rate": 6.622149107430088e-05,
-      "loss": 0.0151,
+      "loss": 0.0113,
       "step": 294
     },
     {
       "epoch": 2.2846079380445303,
-      "grad_norm": 0.02512257918715477,
+      "grad_norm": 0.023280832916498184,
       "learning_rate": 6.5965076506799e-05,
-      "loss": 0.014,
+      "loss": 0.015,
       "step": 295
     },
     {
       "epoch": 2.2846079380445303,
-      "eval_loss": 0.015925200656056404,
-      "eval_runtime": 4.8773,
-      "eval_samples_per_second": 10.251,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.014939627610147,
+      "eval_runtime": 4.424,
+      "eval_samples_per_second": 11.302,
+      "eval_steps_per_second": 2.938,
       "step": 295
     },
     {
       "epoch": 2.292352371732817,
-      "grad_norm": 0.026422763243317604,
+      "grad_norm": 0.026383766904473305,
       "learning_rate": 6.570819354273317e-05,
-      "loss": 0.0173,
+      "loss": 0.0208,
       "step": 296
     },
     {
       "epoch": 2.3000968054211035,
-      "grad_norm": 0.02848372980952263,
+      "grad_norm": 0.028219886124134064,
       "learning_rate": 6.545084971874738e-05,
-      "loss": 0.0251,
+      "loss": 0.0234,
       "step": 297
     },
     {
       "epoch": 2.3078412391093903,
-      "grad_norm": 0.02191309630870819,
+      "grad_norm": 0.025900105014443398,
       "learning_rate": 6.519305258500666e-05,
-      "loss": 0.0104,
+      "loss": 0.01,
       "step": 298
     },
     {
       "epoch": 2.3155856727976767,
-      "grad_norm": 0.025703053921461105,
+      "grad_norm": 0.033304035663604736,
       "learning_rate": 6.493480970497569e-05,
-      "loss": 0.0311,
+      "loss": 0.0291,
       "step": 299
     },
     {
       "epoch": 2.323330106485963,
-      "grad_norm": 0.021763848140835762,
+      "grad_norm": 0.01692046783864498,
       "learning_rate": 6.467612865519674e-05,
-      "loss": 0.0168,
+      "loss": 0.0165,
       "step": 300
     },
     {
       "epoch": 2.323330106485963,
-      "eval_loss": 0.01583768054842949,
-      "eval_runtime": 4.8796,
-      "eval_samples_per_second": 10.247,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.015093058347702026,
+      "eval_runtime": 4.382,
+      "eval_samples_per_second": 11.41,
+      "eval_steps_per_second": 2.967,
       "step": 300
     },
     {
       "epoch": 2.33107454017425,
-      "grad_norm": 0.01981600932776928,
+      "grad_norm": 0.021342158317565918,
       "learning_rate": 6.441701702506754e-05,
-      "loss": 0.0174,
+      "loss": 0.0193,
       "step": 301
     },
     {
       "epoch": 2.3388189738625362,
-      "grad_norm": 0.021816400811076164,
+      "grad_norm": 0.01914130710065365,
       "learning_rate": 6.415748241661851e-05,
-      "loss": 0.0222,
+      "loss": 0.017,
       "step": 302
     },
     {
       "epoch": 2.346563407550823,
-      "grad_norm": 0.028364678844809532,
+      "grad_norm": 0.03137556463479996,
       "learning_rate": 6.389753244428972e-05,
-      "loss": 0.0222,
+      "loss": 0.0239,
       "step": 303
     },
     {
       "epoch": 2.3543078412391094,
-      "grad_norm": 0.03110797517001629,
+      "grad_norm": 0.02187853306531906,
       "learning_rate": 6.363717473470759e-05,
-      "loss": 0.0194,
+      "loss": 0.0162,
       "step": 304
     },
     {
       "epoch": 2.362052274927396,
-      "grad_norm": 0.03083011880517006,
+      "grad_norm": 0.024960605427622795,
       "learning_rate": 6.337641692646106e-05,
-      "loss": 0.0217,
+      "loss": 0.0183,
       "step": 305
     },
     {
       "epoch": 2.362052274927396,
-      "eval_loss": 0.01598162204027176,
-      "eval_runtime": 4.8805,
-      "eval_samples_per_second": 10.245,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.015014478005468845,
+      "eval_runtime": 4.394,
+      "eval_samples_per_second": 11.379,
+      "eval_steps_per_second": 2.959,
       "step": 305
     },
     {
       "epoch": 2.3697967086156826,
-      "grad_norm": 0.027600981295108795,
+      "grad_norm": 0.022767778486013412,
       "learning_rate": 6.311526666987743e-05,
-      "loss": 0.0168,
+      "loss": 0.0135,
       "step": 306
     },
     {
       "epoch": 2.377541142303969,
-      "grad_norm": 0.050711363554000854,
+      "grad_norm": 0.031544558703899384,
       "learning_rate": 6.285373162679803e-05,
-      "loss": 0.027,
+      "loss": 0.0314,
       "step": 307
     },
     {
       "epoch": 2.3852855759922553,
-      "grad_norm": 0.0258706696331501,
+      "grad_norm": 0.022678814828395844,
       "learning_rate": 6.259181947035342e-05,
-      "loss": 0.014,
+      "loss": 0.0127,
       "step": 308
     },
     {
       "epoch": 2.393030009680542,
-      "grad_norm": 0.022878140211105347,
+      "grad_norm": 0.024432960897684097,
       "learning_rate": 6.232953788473811e-05,
-      "loss": 0.0125,
+      "loss": 0.0113,
       "step": 309
     },
     {
       "epoch": 2.4007744433688285,
-      "grad_norm": 0.02646121010184288,
+      "grad_norm": 0.031243745237588882,
       "learning_rate": 6.206689456498529e-05,
-      "loss": 0.0225,
+      "loss": 0.0233,
       "step": 310
     },
     {
       "epoch": 2.4007744433688285,
-      "eval_loss": 0.015688462182879448,
-      "eval_runtime": 4.8894,
-      "eval_samples_per_second": 10.226,
-      "eval_steps_per_second": 2.659,
+      "eval_loss": 0.015055688098073006,
+      "eval_runtime": 4.3853,
+      "eval_samples_per_second": 11.402,
+      "eval_steps_per_second": 2.964,
       "step": 310
     },
     {
       "epoch": 2.4085188770571153,
-      "grad_norm": 0.01907186210155487,
+      "grad_norm": 0.02543908730149269,
       "learning_rate": 6.1803897216741e-05,
-      "loss": 0.0105,
+      "loss": 0.0167,
       "step": 311
     },
     {
       "epoch": 2.4162633107454017,
-      "grad_norm": 0.025598157197237015,
+      "grad_norm": 0.03086618147790432,
       "learning_rate": 6.154055355603807e-05,
-      "loss": 0.0195,
+      "loss": 0.0167,
       "step": 312
     },
     {
       "epoch": 2.4240077444336885,
-      "grad_norm": 0.021488605067133904,
+      "grad_norm": 0.027871888130903244,
       "learning_rate": 6.127687130906972e-05,
-      "loss": 0.0171,
+      "loss": 0.0142,
       "step": 313
     },
     {
       "epoch": 2.431752178121975,
-      "grad_norm": 0.023560060188174248,
+      "grad_norm": 0.02505462057888508,
       "learning_rate": 6.101285821196285e-05,
-      "loss": 0.0234,
+      "loss": 0.0172,
       "step": 314
     },
     {
       "epoch": 2.4394966118102612,
-      "grad_norm": 0.020358163863420486,
+      "grad_norm": 0.02217499166727066,
       "learning_rate": 6.0748522010551215e-05,
-      "loss": 0.0158,
+      "loss": 0.0163,
       "step": 315
     },
     {
       "epoch": 2.4394966118102612,
-      "eval_loss": 0.015287678688764572,
-      "eval_runtime": 4.884,
-      "eval_samples_per_second": 10.237,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.014902649447321892,
+      "eval_runtime": 4.4117,
+      "eval_samples_per_second": 11.334,
+      "eval_steps_per_second": 2.947,
       "step": 315
     },
     {
       "epoch": 2.447241045498548,
-      "grad_norm": 0.04023784399032593,
+      "grad_norm": 0.0311166662722826,
       "learning_rate": 6.048387046014795e-05,
-      "loss": 0.0195,
+      "loss": 0.0216,
       "step": 316
     },
     {
       "epoch": 2.4549854791868344,
-      "grad_norm": 0.018253512680530548,
+      "grad_norm": 0.023563671857118607,
       "learning_rate": 6.021891132531825e-05,
-      "loss": 0.0172,
+      "loss": 0.0163,
       "step": 317
     },
     {
       "epoch": 2.4627299128751208,
-      "grad_norm": 0.020507492125034332,
+      "grad_norm": 0.022931981831789017,
       "learning_rate": 5.995365237965144e-05,
-      "loss": 0.0234,
+      "loss": 0.0293,
       "step": 318
     },
     {
       "epoch": 2.4704743465634076,
-      "grad_norm": 0.025176333263516426,
+      "grad_norm": 0.022824544459581375,
       "learning_rate": 5.9688101405532925e-05,
-      "loss": 0.0196,
+      "loss": 0.0212,
       "step": 319
     },
     {
       "epoch": 2.478218780251694,
-      "grad_norm": 0.022779326885938644,
+      "grad_norm": 0.018992481753230095,
       "learning_rate": 5.9422266193915924e-05,
-      "loss": 0.0122,
+      "loss": 0.0121,
       "step": 320
     },
     {
       "epoch": 2.478218780251694,
-      "eval_loss": 0.015223703347146511,
-      "eval_runtime": 4.8811,
-      "eval_samples_per_second": 10.244,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.014721118845045567,
+      "eval_runtime": 4.4027,
+      "eval_samples_per_second": 11.357,
+      "eval_steps_per_second": 2.953,
       "step": 320
     },
     {
       "epoch": 2.4859632139399808,
-      "grad_norm": 0.019654158502817154,
+      "grad_norm": 0.02364177815616131,
       "learning_rate": 5.9156154544092815e-05,
-      "loss": 0.0191,
+      "loss": 0.0214,
       "step": 321
     },
     {
       "epoch": 2.493707647628267,
-      "grad_norm": 0.01823735609650612,
+      "grad_norm": 0.019365180283784866,
       "learning_rate": 5.8889774263466355e-05,
-      "loss": 0.0128,
+      "loss": 0.0135,
       "step": 322
     },
     {
       "epoch": 2.501452081316554,
-      "grad_norm": 0.022733347490429878,
+      "grad_norm": 0.025308910757303238,
       "learning_rate": 5.862313316732063e-05,
-      "loss": 0.0095,
+      "loss": 0.0162,
       "step": 323
     },
     {
       "epoch": 2.5091965150048403,
-      "grad_norm": 0.019566858187317848,
+      "grad_norm": 0.019596999511122704,
       "learning_rate": 5.8356239078591724e-05,
-      "loss": 0.012,
+      "loss": 0.0118,
       "step": 324
     },
     {
       "epoch": 2.5169409486931267,
-      "grad_norm": 0.023728664964437485,
+      "grad_norm": 0.029731974005699158,
       "learning_rate": 5.808909982763825e-05,
-      "loss": 0.0152,
+      "loss": 0.0213,
       "step": 325
     },
     {
       "epoch": 2.5169409486931267,
-      "eval_loss": 0.01537258829921484,
-      "eval_runtime": 4.8868,
-      "eval_samples_per_second": 10.232,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.014542792923748493,
+      "eval_runtime": 4.3988,
+      "eval_samples_per_second": 11.367,
+      "eval_steps_per_second": 2.955,
       "step": 325
     },
     {
       "epoch": 2.5246853823814135,
-      "grad_norm": 0.026009773835539818,
+      "grad_norm": 0.021189380437135696,
       "learning_rate": 5.782172325201155e-05,
-      "loss": 0.0158,
+      "loss": 0.0122,
       "step": 326
     },
     {
       "epoch": 2.5324298160697,
-      "grad_norm": 0.045942921191453934,
+      "grad_norm": 0.030742768198251724,
       "learning_rate": 5.7554117196225846e-05,
-      "loss": 0.0304,
+      "loss": 0.0271,
       "step": 327
     },
     {
       "epoch": 2.5401742497579862,
-      "grad_norm": 0.017686696723103523,
+      "grad_norm": 0.01944803074002266,
       "learning_rate": 5.728628951152799e-05,
-      "loss": 0.0157,
+      "loss": 0.0171,
       "step": 328
     },
     {
       "epoch": 2.547918683446273,
-      "grad_norm": 0.020913394168019295,
+      "grad_norm": 0.021265676245093346,
       "learning_rate": 5.701824805566722e-05,
-      "loss": 0.0162,
+      "loss": 0.0178,
       "step": 329
     },
     {
       "epoch": 2.5556631171345594,
-      "grad_norm": 0.025631655007600784,
+      "grad_norm": 0.02614085003733635,
       "learning_rate": 5.675000069266451e-05,
-      "loss": 0.0268,
+      "loss": 0.0253,
       "step": 330
     },
     {
       "epoch": 2.5556631171345594,
-      "eval_loss": 0.015396489761769772,
-      "eval_runtime": 4.8797,
-      "eval_samples_per_second": 10.246,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.014535368420183659,
+      "eval_runtime": 4.4134,
+      "eval_samples_per_second": 11.329,
+      "eval_steps_per_second": 2.946,
       "step": 330
     },
     {
       "epoch": 2.563407550822846,
-      "grad_norm": 0.021823951974511147,
+      "grad_norm": 0.021601444110274315,
       "learning_rate": 5.6481555292581946e-05,
-      "loss": 0.0116,
+      "loss": 0.0115,
       "step": 331
     },
     {
       "epoch": 2.5711519845111326,
-      "grad_norm": 0.023217862471938133,
+      "grad_norm": 0.02360411174595356,
       "learning_rate": 5.621291973129177e-05,
-      "loss": 0.0151,
+      "loss": 0.0149,
       "step": 332
     },
     {
       "epoch": 2.5788964181994194,
-      "grad_norm": 0.03442602604627609,
+      "grad_norm": 0.024015702307224274,
       "learning_rate": 5.5944101890245324e-05,
-      "loss": 0.0202,
+      "loss": 0.0197,
       "step": 333
     },
     {
       "epoch": 2.5866408518877058,
-      "grad_norm": 0.023536914959549904,
+      "grad_norm": 0.025345394387841225,
       "learning_rate": 5.5675109656241876e-05,
-      "loss": 0.014,
+      "loss": 0.0116,
       "step": 334
     },
     {
       "epoch": 2.594385285575992,
-      "grad_norm": 0.026387905701994896,
+      "grad_norm": 0.03014366328716278,
       "learning_rate": 5.540595092119709e-05,
-      "loss": 0.0174,
+      "loss": 0.023,
       "step": 335
     },
     {
       "epoch": 2.594385285575992,
-      "eval_loss": 0.01569586619734764,
-      "eval_runtime": 4.8895,
-      "eval_samples_per_second": 10.226,
-      "eval_steps_per_second": 2.659,
+      "eval_loss": 0.014927403070032597,
+      "eval_runtime": 4.3882,
+      "eval_samples_per_second": 11.394,
+      "eval_steps_per_second": 2.962,
       "step": 335
     },
     {
       "epoch": 2.602129719264279,
-      "grad_norm": 0.02376389689743519,
+      "grad_norm": 0.028806153684854507,
       "learning_rate": 5.5136633581911655e-05,
-      "loss": 0.0232,
+      "loss": 0.0245,
       "step": 336
     },
     {
       "epoch": 2.6098741529525653,
-      "grad_norm": 0.022475535050034523,
+      "grad_norm": 0.028237810358405113,
       "learning_rate": 5.486716553983951e-05,
-      "loss": 0.0176,
+      "loss": 0.017,
       "step": 337
     },
     {
       "epoch": 2.6176185866408517,
-      "grad_norm": 0.026273801922798157,
+      "grad_norm": 0.020786168053746223,
       "learning_rate": 5.4597554700855946e-05,
-      "loss": 0.0099,
+      "loss": 0.0103,
       "step": 338
     },
     {
       "epoch": 2.6253630203291385,
-      "grad_norm": 0.0252407044172287,
+      "grad_norm": 0.024947011843323708,
       "learning_rate": 5.432780897502589e-05,
-      "loss": 0.0169,
+      "loss": 0.0182,
       "step": 339
     },
     {
       "epoch": 2.633107454017425,
-      "grad_norm": 0.025699293240904808,
+      "grad_norm": 0.02584216557443142,
       "learning_rate": 5.4057936276371565e-05,
-      "loss": 0.0147,
+      "loss": 0.014,
       "step": 340
     },
     {
       "epoch": 2.633107454017425,
-      "eval_loss": 0.015603473410010338,
-      "eval_runtime": 4.8875,
-      "eval_samples_per_second": 10.23,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.014420481398701668,
+      "eval_runtime": 4.3828,
+      "eval_samples_per_second": 11.408,
+      "eval_steps_per_second": 2.966,
       "step": 340
     },
     {
       "epoch": 2.6408518877057117,
-      "grad_norm": 0.02292807772755623,
+      "grad_norm": 0.02316311001777649,
       "learning_rate": 5.378794452264053e-05,
-      "loss": 0.0112,
+      "loss": 0.0132,
       "step": 341
     },
     {
       "epoch": 2.648596321393998,
-      "grad_norm": 0.02671566605567932,
+      "grad_norm": 0.02283734641969204,
       "learning_rate": 5.351784163507319e-05,
-      "loss": 0.0157,
+      "loss": 0.0144,
       "step": 342
     },
     {
       "epoch": 2.656340755082285,
-      "grad_norm": 0.024869635701179504,
+      "grad_norm": 0.02243635058403015,
       "learning_rate": 5.324763553817054e-05,
-      "loss": 0.0183,
+      "loss": 0.0173,
       "step": 343
     },
     {
       "epoch": 2.664085188770571,
-      "grad_norm": 0.030287204310297966,
+      "grad_norm": 0.028348112478852272,
       "learning_rate": 5.2977334159461614e-05,
-      "loss": 0.0235,
+      "loss": 0.0222,
       "step": 344
     },
     {
       "epoch": 2.6718296224588576,
-      "grad_norm": 0.021120263263583183,
+      "grad_norm": 0.021189652383327484,
       "learning_rate": 5.270694542927088e-05,
-      "loss": 0.0191,
+      "loss": 0.0156,
       "step": 345
     },
     {
       "epoch": 2.6718296224588576,
-      "eval_loss": 0.015455065295100212,
-      "eval_runtime": 4.8759,
-      "eval_samples_per_second": 10.254,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.014493023045361042,
+      "eval_runtime": 4.3854,
+      "eval_samples_per_second": 11.402,
+      "eval_steps_per_second": 2.964,
       "step": 345
     },
     {
       "epoch": 2.6795740561471444,
-      "grad_norm": 0.022198256105184555,
+      "grad_norm": 0.02965528517961502,
       "learning_rate": 5.2436477280485605e-05,
-      "loss": 0.017,
+      "loss": 0.018,
       "step": 346
     },
     {
       "epoch": 2.6873184898354308,
-      "grad_norm": 0.02474604733288288,
+      "grad_norm": 0.026447108015418053,
       "learning_rate": 5.216593764832311e-05,
-      "loss": 0.0182,
+      "loss": 0.0227,
       "step": 347
     },
     {
       "epoch": 2.695062923523717,
-      "grad_norm": 0.022626683115959167,
+      "grad_norm": 0.02978765405714512,
       "learning_rate": 5.189533447009794e-05,
-      "loss": 0.0235,
+      "loss": 0.0234,
       "step": 348
     },
     {
       "epoch": 2.702807357212004,
-      "grad_norm": 0.025306569412350655,
+      "grad_norm": 0.02861112542450428,
       "learning_rate": 5.162467568498903e-05,
-      "loss": 0.0185,
+      "loss": 0.0177,
       "step": 349
     },
     {
       "epoch": 2.7105517909002903,
-      "grad_norm": 0.01958346739411354,
+      "grad_norm": 0.020247234031558037,
       "learning_rate": 5.135396923380673e-05,
-      "loss": 0.0139,
+      "loss": 0.0164,
       "step": 350
     },
     {
       "epoch": 2.7105517909002903,
-      "eval_loss": 0.015315129421651363,
-      "eval_runtime": 4.8828,
-      "eval_samples_per_second": 10.24,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.014293421059846878,
+      "eval_runtime": 4.3961,
+      "eval_samples_per_second": 11.374,
+      "eval_steps_per_second": 2.957,
       "step": 350
     },
     {
       "epoch": 2.718296224588577,
-      "grad_norm": 0.028099266812205315,
+      "grad_norm": 0.02749788947403431,
       "learning_rate": 5.108322305875988e-05,
-      "loss": 0.0151,
+      "loss": 0.0129,
       "step": 351
     },
     {
       "epoch": 2.7260406582768635,
-      "grad_norm": 0.026032108813524246,
+      "grad_norm": 0.02441268227994442,
       "learning_rate": 5.081244510322274e-05,
-      "loss": 0.0143,
+      "loss": 0.0154,
       "step": 352
     },
     {
       "epoch": 2.7337850919651503,
-      "grad_norm": 0.030373040586709976,
+      "grad_norm": 0.0233867596834898,
       "learning_rate": 5.0541643311502e-05,
-      "loss": 0.0177,
+      "loss": 0.0138,
       "step": 353
     },
     {
       "epoch": 2.7415295256534367,
-      "grad_norm": 0.026800263673067093,
+      "grad_norm": 0.024917351081967354,
       "learning_rate": 5.027082562860368e-05,
-      "loss": 0.0146,
+      "loss": 0.0148,
       "step": 354
     },
     {
       "epoch": 2.749273959341723,
-      "grad_norm": 0.028782140463590622,
+      "grad_norm": 0.029262401163578033,
       "learning_rate": 5e-05,
-      "loss": 0.026,
+      "loss": 0.0262,
       "step": 355
     },
     {
       "epoch": 2.749273959341723,
-      "eval_loss": 0.015001767314970493,
-      "eval_runtime": 4.8958,
-      "eval_samples_per_second": 10.213,
-      "eval_steps_per_second": 2.655,
+      "eval_loss": 0.01397681050002575,
+      "eval_runtime": 4.3833,
+      "eval_samples_per_second": 11.407,
+      "eval_steps_per_second": 2.966,
       "step": 355
     },
     {
       "epoch": 2.75701839303001,
-      "grad_norm": 0.023763621225953102,
+      "grad_norm": 0.020170222967863083,
       "learning_rate": 4.9729174371396334e-05,
-      "loss": 0.0138,
+      "loss": 0.0116,
       "step": 356
     },
     {
       "epoch": 2.764762826718296,
-      "grad_norm": 0.02057846635580063,
+      "grad_norm": 0.020452341064810753,
       "learning_rate": 4.945835668849801e-05,
-      "loss": 0.0101,
+      "loss": 0.0124,
       "step": 357
     },
     {
       "epoch": 2.7725072604065826,
-      "grad_norm": 0.026699546724557877,
+      "grad_norm": 0.0310356542468071,
       "learning_rate": 4.9187554896777285e-05,
-      "loss": 0.0185,
+      "loss": 0.0168,
       "step": 358
     },
     {
       "epoch": 2.7802516940948694,
-      "grad_norm": 0.025631215423345566,
+      "grad_norm": 0.024840321391820908,
       "learning_rate": 4.8916776941240135e-05,
-      "loss": 0.0177,
+      "loss": 0.0153,
       "step": 359
     },
     {
       "epoch": 2.7879961277831558,
-      "grad_norm": 0.020701708272099495,
+      "grad_norm": 0.020108085125684738,
       "learning_rate": 4.8646030766193285e-05,
-      "loss": 0.0162,
+      "loss": 0.0134,
       "step": 360
     },
     {
       "epoch": 2.7879961277831558,
-      "eval_loss": 0.014788495376706123,
-      "eval_runtime": 4.885,
-      "eval_samples_per_second": 10.235,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.014164156280457973,
+      "eval_runtime": 4.391,
+      "eval_samples_per_second": 11.387,
+      "eval_steps_per_second": 2.961,
       "step": 360
     },
     {
       "epoch": 2.7957405614714426,
-      "grad_norm": 0.018802624195814133,
+      "grad_norm": 0.020801270380616188,
       "learning_rate": 4.837532431501098e-05,
-      "loss": 0.0195,
+      "loss": 0.0194,
       "step": 361
     },
     {
       "epoch": 2.803484995159729,
-      "grad_norm": 0.024294838309288025,
+      "grad_norm": 0.024626409634947777,
       "learning_rate": 4.8104665529902075e-05,
-      "loss": 0.0172,
+      "loss": 0.0152,
       "step": 362
     },
     {
       "epoch": 2.8112294288480157,
-      "grad_norm": 0.02249518595635891,
+      "grad_norm": 0.02485991269350052,
       "learning_rate": 4.78340623516769e-05,
-      "loss": 0.0157,
+      "loss": 0.0156,
       "step": 363
     },
     {
       "epoch": 2.818973862536302,
-      "grad_norm": 0.022549943998456,
+      "grad_norm": 0.02390717901289463,
       "learning_rate": 4.756352271951441e-05,
-      "loss": 0.0167,
+      "loss": 0.0208,
       "step": 364
     },
     {
       "epoch": 2.8267182962245885,
-      "grad_norm": 0.03274448588490486,
+      "grad_norm": 0.021397821605205536,
       "learning_rate": 4.729305457072913e-05,
-      "loss": 0.0258,
+      "loss": 0.018,
       "step": 365
     },
     {
       "epoch": 2.8267182962245885,
-      "eval_loss": 0.014879841357469559,
-      "eval_runtime": 4.8948,
-      "eval_samples_per_second": 10.215,
-      "eval_steps_per_second": 2.656,
+      "eval_loss": 0.014422168955206871,
+      "eval_runtime": 4.4089,
+      "eval_samples_per_second": 11.341,
+      "eval_steps_per_second": 2.949,
       "step": 365
     },
     {
       "epoch": 2.8344627299128753,
-      "grad_norm": 0.031107768416404724,
+      "grad_norm": 0.023740559816360474,
       "learning_rate": 4.70226658405384e-05,
-      "loss": 0.0167,
+      "loss": 0.0139,
       "step": 366
     },
     {
       "epoch": 2.8422071636011617,
-      "grad_norm": 0.023017307743430138,
+      "grad_norm": 0.025647273287177086,
       "learning_rate": 4.675236446182946e-05,
-      "loss": 0.0126,
+      "loss": 0.0162,
       "step": 367
     },
     {
       "epoch": 2.849951597289448,
-      "grad_norm": 0.03121495246887207,
+      "grad_norm": 0.030185095965862274,
       "learning_rate": 4.648215836492682e-05,
-      "loss": 0.0139,
+      "loss": 0.0153,
       "step": 368
     },
     {
       "epoch": 2.857696030977735,
-      "grad_norm": 0.026987893506884575,
+      "grad_norm": 0.02621537074446678,
       "learning_rate": 4.6212055477359486e-05,
-      "loss": 0.0147,
+      "loss": 0.0175,
       "step": 369
     },
     {
       "epoch": 2.865440464666021,
-      "grad_norm": 0.024263298138976097,
+      "grad_norm": 0.02325296215713024,
       "learning_rate": 4.594206372362845e-05,
-      "loss": 0.0154,
+      "loss": 0.0166,
       "step": 370
     },
     {
       "epoch": 2.865440464666021,
-      "eval_loss": 0.014814168214797974,
-      "eval_runtime": 4.8923,
-      "eval_samples_per_second": 10.22,
-      "eval_steps_per_second": 2.657,
+      "eval_loss": 0.01447114534676075,
+      "eval_runtime": 4.3858,
+      "eval_samples_per_second": 11.4,
+      "eval_steps_per_second": 2.964,
       "step": 370
     },
     {
       "epoch": 2.8731848983543076,
-      "grad_norm": 0.022974541410803795,
+      "grad_norm": 0.022154103964567184,
       "learning_rate": 4.567219102497412e-05,
-      "loss": 0.0136,
+      "loss": 0.0135,
       "step": 371
     },
     {
       "epoch": 2.8809293320425944,
-      "grad_norm": 0.025871610268950462,
+      "grad_norm": 0.025845184922218323,
       "learning_rate": 4.540244529914406e-05,
-      "loss": 0.0126,
+      "loss": 0.0123,
       "step": 372
     },
     {
       "epoch": 2.888673765730881,
-      "grad_norm": 0.026091424748301506,
+      "grad_norm": 0.029730072245001793,
       "learning_rate": 4.5132834460160524e-05,
-      "loss": 0.023,
+      "loss": 0.017,
       "step": 373
     },
     {
       "epoch": 2.8964181994191676,
-      "grad_norm": 0.024125855416059494,
+      "grad_norm": 0.024403782561421394,
       "learning_rate": 4.486336641808835e-05,
-      "loss": 0.0129,
+      "loss": 0.0115,
       "step": 374
     },
     {
       "epoch": 2.904162633107454,
-      "grad_norm": 0.01973029226064682,
+      "grad_norm": 0.023468228057026863,
       "learning_rate": 4.4594049078802925e-05,
-      "loss": 0.0166,
+      "loss": 0.0204,
       "step": 375
     },
     {
       "epoch": 2.904162633107454,
-      "eval_loss": 0.01432761363685131,
-      "eval_runtime": 4.8944,
-      "eval_samples_per_second": 10.216,
-      "eval_steps_per_second": 2.656,
+      "eval_loss": 0.01408495381474495,
+      "eval_runtime": 4.3803,
+      "eval_samples_per_second": 11.415,
+      "eval_steps_per_second": 2.968,
       "step": 375
     },
     {
       "epoch": 2.9119070667957407,
-      "grad_norm": 0.022474128752946854,
+      "grad_norm": 0.022963017225265503,
       "learning_rate": 4.4324890343758136e-05,
-      "loss": 0.0115,
+      "loss": 0.0099,
       "step": 376
     },
     {
       "epoch": 2.919651500484027,
-      "grad_norm": 0.022197918966412544,
+      "grad_norm": 0.020131012424826622,
       "learning_rate": 4.405589810975468e-05,
-      "loss": 0.0108,
+      "loss": 0.0086,
       "step": 377
     },
     {
       "epoch": 2.9273959341723135,
-      "grad_norm": 0.023376472294330597,
+      "grad_norm": 0.023492030799388885,
       "learning_rate": 4.3787080268708244e-05,
-      "loss": 0.0105,
+      "loss": 0.0124,
       "step": 378
     },
     {
       "epoch": 2.9351403678606003,
-      "grad_norm": 0.01602279581129551,
+      "grad_norm": 0.025374602526426315,
       "learning_rate": 4.351844470741808e-05,
-      "loss": 0.0094,
+      "loss": 0.0092,
       "step": 379
     },
     {
       "epoch": 2.9428848015488867,
-      "grad_norm": 0.02684823051095009,
+      "grad_norm": 0.03317565843462944,
       "learning_rate": 4.3249999307335495e-05,
-      "loss": 0.0189,
+      "loss": 0.0284,
       "step": 380
     },
     {
       "epoch": 2.9428848015488867,
-      "eval_loss": 0.014240576885640621,
-      "eval_runtime": 4.8817,
-      "eval_samples_per_second": 10.242,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.013897891156375408,
+      "eval_runtime": 4.3747,
+      "eval_samples_per_second": 11.429,
+      "eval_steps_per_second": 2.972,
       "step": 380
     },
     {
       "epoch": 2.950629235237173,
-      "grad_norm": 0.0212652999907732,
+      "grad_norm": 0.02796320803463459,
       "learning_rate": 4.298175194433279e-05,
-      "loss": 0.0154,
+      "loss": 0.0157,
       "step": 381
     },
     {
       "epoch": 2.95837366892546,
-      "grad_norm": 0.019883181899785995,
+      "grad_norm": 0.01982416957616806,
       "learning_rate": 4.2713710488472006e-05,
-      "loss": 0.0087,
+      "loss": 0.0084,
       "step": 382
     },
     {
       "epoch": 2.9661181026137466,
-      "grad_norm": 0.02650902420282364,
+      "grad_norm": 0.027833865955471992,
       "learning_rate": 4.244588280377417e-05,
-      "loss": 0.0164,
+      "loss": 0.0189,
       "step": 383
     },
     {
       "epoch": 2.973862536302033,
-      "grad_norm": 0.02401239052414894,
+      "grad_norm": 0.024295540526509285,
       "learning_rate": 4.2178276747988446e-05,
-      "loss": 0.0139,
+      "loss": 0.0124,
       "step": 384
     },
     {
       "epoch": 2.9816069699903194,
-      "grad_norm": 0.022838260978460312,
+      "grad_norm": 0.03249318525195122,
       "learning_rate": 4.1910900172361764e-05,
-      "loss": 0.0155,
+      "loss": 0.021,
       "step": 385
     },
     {
       "epoch": 2.9816069699903194,
-      "eval_loss": 0.0144858593121171,
-      "eval_runtime": 4.8906,
-      "eval_samples_per_second": 10.224,
-      "eval_steps_per_second": 2.658,
+      "eval_loss": 0.013895859941840172,
+      "eval_runtime": 4.3776,
+      "eval_samples_per_second": 11.422,
+      "eval_steps_per_second": 2.97,
       "step": 385
     },
     {
       "epoch": 2.989351403678606,
-      "grad_norm": 0.03657938912510872,
+      "grad_norm": 0.031626492738723755,
       "learning_rate": 4.164376092140828e-05,
-      "loss": 0.0286,
+      "loss": 0.0255,
       "step": 386
     },
     {
       "epoch": 2.9970958373668926,
-      "grad_norm": 0.02792074717581272,
+      "grad_norm": 0.02495499886572361,
       "learning_rate": 4.1376866832679385e-05,
-      "loss": 0.014,
+      "loss": 0.0174,
       "step": 387
     },
     {
       "epoch": 3.004840271055179,
-      "grad_norm": 0.05196017026901245,
+      "grad_norm": 0.05411753058433533,
       "learning_rate": 4.1110225736533664e-05,
-      "loss": 0.0222,
+      "loss": 0.0246,
       "step": 388
     },
     {
       "epoch": 3.0125847047434657,
-      "grad_norm": 0.0229202788323164,
+      "grad_norm": 0.018482988700270653,
       "learning_rate": 4.084384545590719e-05,
-      "loss": 0.007,
+      "loss": 0.0066,
       "step": 389
     },
     {
       "epoch": 3.020329138431752,
-      "grad_norm": 0.021996086463332176,
+      "grad_norm": 0.024023229256272316,
       "learning_rate": 4.057773380608411e-05,
-      "loss": 0.0121,
+      "loss": 0.0125,
       "step": 390
     },
     {
       "epoch": 3.020329138431752,
-      "eval_loss": 0.014621075242757797,
-      "eval_runtime": 4.8766,
-      "eval_samples_per_second": 10.253,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.014542804099619389,
+      "eval_runtime": 4.4398,
+      "eval_samples_per_second": 11.262,
+      "eval_steps_per_second": 2.928,
       "step": 390
     },
     {
       "epoch": 3.028073572120039,
-      "grad_norm": 0.024300433695316315,
+      "grad_norm": 0.023777876049280167,
       "learning_rate": 4.0311898594467086e-05,
-      "loss": 0.0119,
+      "loss": 0.0129,
       "step": 391
     },
     {
       "epoch": 3.0358180058083253,
-      "grad_norm": 0.023426620289683342,
+      "grad_norm": 0.02729886770248413,
       "learning_rate": 4.0046347620348586e-05,
-      "loss": 0.0123,
+      "loss": 0.0146,
       "step": 392
     },
     {
       "epoch": 3.0435624394966116,
-      "grad_norm": 0.024129556491971016,
+      "grad_norm": 0.02031349390745163,
       "learning_rate": 3.9781088674681764e-05,
-      "loss": 0.0124,
+      "loss": 0.0097,
       "step": 393
     },
     {
       "epoch": 3.0513068731848985,
-      "grad_norm": 0.04510955512523651,
+      "grad_norm": 0.04125319421291351,
       "learning_rate": 3.951612953985207e-05,
-      "loss": 0.0174,
+      "loss": 0.018,
       "step": 394
     },
     {
       "epoch": 3.059051306873185,
-      "grad_norm": 0.02260909229516983,
+      "grad_norm": 0.02806476317346096,
       "learning_rate": 3.92514779894488e-05,
-      "loss": 0.0122,
+      "loss": 0.0157,
       "step": 395
     },
     {
       "epoch": 3.059051306873185,
-      "eval_loss": 0.014701277017593384,
-      "eval_runtime": 4.8794,
-      "eval_samples_per_second": 10.247,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.014474487863481045,
+      "eval_runtime": 4.3861,
+      "eval_samples_per_second": 11.4,
+      "eval_steps_per_second": 2.964,
       "step": 395
     },
     {
       "epoch": 3.0667957405614716,
-      "grad_norm": 0.020229579880833626,
+      "grad_norm": 0.03150569275021553,
       "learning_rate": 3.8987141788037154e-05,
-      "loss": 0.0063,
+      "loss": 0.0104,
       "step": 396
     },
     {
       "epoch": 3.074540174249758,
-      "grad_norm": 0.024916259571909904,
+      "grad_norm": 0.034014422446489334,
       "learning_rate": 3.8723128690930296e-05,
-      "loss": 0.0099,
+      "loss": 0.0128,
       "step": 397
     },
     {
       "epoch": 3.0822846079380444,
-      "grad_norm": 0.017238672822713852,
+      "grad_norm": 0.024559644982218742,
       "learning_rate": 3.8459446443961944e-05,
-      "loss": 0.0071,
+      "loss": 0.0073,
       "step": 398
     },
     {
       "epoch": 3.090029041626331,
-      "grad_norm": 0.028883591294288635,
+      "grad_norm": 0.03375939279794693,
       "learning_rate": 3.8196102783258994e-05,
-      "loss": 0.0181,
+      "loss": 0.0184,
       "step": 399
     },
     {
       "epoch": 3.0977734753146176,
-      "grad_norm": 0.025792468339204788,
+      "grad_norm": 0.026912059634923935,
       "learning_rate": 3.793310543501473e-05,
       "loss": 0.0136,
       "step": 400
     },
     {
       "epoch": 3.0977734753146176,
-      "eval_loss": 0.014834250323474407,
-      "eval_runtime": 4.8859,
-      "eval_samples_per_second": 10.234,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.014197892509400845,
+      "eval_runtime": 4.3827,
+      "eval_samples_per_second": 11.408,
+      "eval_steps_per_second": 2.966,
       "step": 400
     },
     {
       "epoch": 3.1055179090029044,
-      "grad_norm": 0.03113100863993168,
+      "grad_norm": 0.0277080275118351,
       "learning_rate": 3.7670462115261906e-05,
-      "loss": 0.0193,
+      "loss": 0.0191,
       "step": 401
     },
     {
       "epoch": 3.1132623426911907,
-      "grad_norm": 0.02263321541249752,
+      "grad_norm": 0.03689959645271301,
       "learning_rate": 3.7408180529646596e-05,
-      "loss": 0.0123,
+      "loss": 0.0167,
       "step": 402
     },
     {
       "epoch": 3.121006776379477,
-      "grad_norm": 0.023540707305073738,
+      "grad_norm": 0.025296786800026894,
       "learning_rate": 3.714626837320195e-05,
-      "loss": 0.0119,
+      "loss": 0.0104,
       "step": 403
     },
     {
       "epoch": 3.128751210067764,
-      "grad_norm": 0.031784623861312866,
+      "grad_norm": 0.03194635733962059,
       "learning_rate": 3.688473333012259e-05,
-      "loss": 0.0175,
+      "loss": 0.0185,
       "step": 404
     },
     {
       "epoch": 3.1364956437560503,
-      "grad_norm": 0.022701062262058258,
+      "grad_norm": 0.030948929488658905,
       "learning_rate": 3.6623583073538966e-05,
-      "loss": 0.0107,
+      "loss": 0.0087,
       "step": 405
     },
     {
       "epoch": 3.1364956437560503,
-      "eval_loss": 0.01486950647085905,
-      "eval_runtime": 4.892,
-      "eval_samples_per_second": 10.221,
-      "eval_steps_per_second": 2.657,
+      "eval_loss": 0.014084648340940475,
+      "eval_runtime": 4.3751,
+      "eval_samples_per_second": 11.428,
+      "eval_steps_per_second": 2.971,
       "step": 405
     },
     {
       "epoch": 3.144240077444337,
-      "grad_norm": 0.026784732937812805,
+      "grad_norm": 0.028673294931650162,
       "learning_rate": 3.636282526529242e-05,
-      "loss": 0.0125,
+      "loss": 0.0149,
       "step": 406
     },
     {
       "epoch": 3.1519845111326235,
-      "grad_norm": 0.026719210669398308,
+      "grad_norm": 0.030361266806721687,
       "learning_rate": 3.6102467555710295e-05,
-      "loss": 0.0103,
+      "loss": 0.0133,
       "step": 407
     },
     {
       "epoch": 3.15972894482091,
-      "grad_norm": 0.03489716723561287,
+      "grad_norm": 0.03140443190932274,
       "learning_rate": 3.584251758338151e-05,
-      "loss": 0.0134,
+      "loss": 0.0136,
       "step": 408
     },
     {
       "epoch": 3.1674733785091966,
-      "grad_norm": 0.02056041732430458,
+      "grad_norm": 0.02556728571653366,
       "learning_rate": 3.558298297493247e-05,
-      "loss": 0.0073,
+      "loss": 0.0093,
       "step": 409
     },
     {
       "epoch": 3.175217812197483,
-      "grad_norm": 0.030753985047340393,
+      "grad_norm": 0.03045126423239708,
       "learning_rate": 3.5323871344803263e-05,
-      "loss": 0.0164,
+      "loss": 0.0217,
       "step": 410
     },
     {
       "epoch": 3.175217812197483,
-      "eval_loss": 0.01476968638598919,
-      "eval_runtime": 4.8875,
-      "eval_samples_per_second": 10.23,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.01385459117591381,
+      "eval_runtime": 4.3774,
+      "eval_samples_per_second": 11.422,
+      "eval_steps_per_second": 2.97,
       "step": 410
     },
     {
       "epoch": 3.1829622458857694,
-      "grad_norm": 0.025167269632220268,
+      "grad_norm": 0.021814046427607536,
       "learning_rate": 3.506519029502433e-05,
-      "loss": 0.0121,
+      "loss": 0.0118,
       "step": 411
     },
     {
       "epoch": 3.190706679574056,
-      "grad_norm": 0.03184746950864792,
+      "grad_norm": 0.04128853231668472,
       "learning_rate": 3.480694741499334e-05,
-      "loss": 0.0174,
+      "loss": 0.0143,
       "step": 412
     },
     {
       "epoch": 3.1984511132623425,
-      "grad_norm": 0.014001097530126572,
+      "grad_norm": 0.02113756537437439,
       "learning_rate": 3.4549150281252636e-05,
-      "loss": 0.0057,
+      "loss": 0.0119,
       "step": 413
     },
     {
       "epoch": 3.2061955469506294,
-      "grad_norm": 0.027478694915771484,
+      "grad_norm": 0.030161535367369652,
       "learning_rate": 3.4291806457266826e-05,
       "loss": 0.0138,
       "step": 414
     },
     {
       "epoch": 3.2139399806389157,
-      "grad_norm": 0.02516726590692997,
+      "grad_norm": 0.023096317425370216,
       "learning_rate": 3.403492349320101e-05,
-      "loss": 0.0112,
+      "loss": 0.0125,
       "step": 415
     },
     {
       "epoch": 3.2139399806389157,
-      "eval_loss": 0.014760926365852356,
-      "eval_runtime": 4.876,
-      "eval_samples_per_second": 10.254,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.013588756322860718,
+      "eval_runtime": 4.3818,
+      "eval_samples_per_second": 11.411,
+      "eval_steps_per_second": 2.967,
       "step": 415
     },
     {
       "epoch": 3.2216844143272025,
-      "grad_norm": 0.03305725008249283,
+      "grad_norm": 0.032038476318120956,
       "learning_rate": 3.3778508925699124e-05,
-      "loss": 0.0256,
+      "loss": 0.0246,
       "step": 416
     },
     {
       "epoch": 3.229428848015489,
-      "grad_norm": 0.024431169033050537,
+      "grad_norm": 0.019922303035855293,
       "learning_rate": 3.3522570277662985e-05,
-      "loss": 0.0083,
+      "loss": 0.0084,
       "step": 417
     },
     {
       "epoch": 3.2371732817037753,
-      "grad_norm": 0.03031334839761257,
+      "grad_norm": 0.031198205426335335,
       "learning_rate": 3.326711505803142e-05,
-      "loss": 0.0107,
+      "loss": 0.0114,
       "step": 418
     },
     {
       "epoch": 3.244917715392062,
-      "grad_norm": 0.033758629113435745,
+      "grad_norm": 0.03261866793036461,
       "learning_rate": 3.3012150761560085e-05,
-      "loss": 0.0186,
+      "loss": 0.0224,
       "step": 419
     },
     {
       "epoch": 3.2526621490803485,
-      "grad_norm": 0.02770036645233631,
+      "grad_norm": 0.02441861294209957,
       "learning_rate": 3.275768486860149e-05,
-      "loss": 0.0097,
+      "loss": 0.0115,
       "step": 420
     },
     {
       "epoch": 3.2526621490803485,
-      "eval_loss": 0.015088791027665138,
-      "eval_runtime": 4.8982,
-      "eval_samples_per_second": 10.208,
-      "eval_steps_per_second": 2.654,
+      "eval_loss": 0.01377787534147501,
+      "eval_runtime": 4.4109,
+      "eval_samples_per_second": 11.336,
+      "eval_steps_per_second": 2.947,
       "step": 420
     },
     {
       "epoch": 3.260406582768635,
-      "grad_norm": 0.02369946427643299,
+      "grad_norm": 0.023703662678599358,
       "learning_rate": 3.250372484488558e-05,
-      "loss": 0.0094,
+      "loss": 0.0096,
       "step": 421
     },
     {
       "epoch": 3.2681510164569216,
-      "grad_norm": 0.03576388210058212,
+      "grad_norm": 0.03410341590642929,
       "learning_rate": 3.225027814130074e-05,
-      "loss": 0.0125,
+      "loss": 0.012,
       "step": 422
     },
     {
       "epoch": 3.275895450145208,
-      "grad_norm": 0.025971444323658943,
+      "grad_norm": 0.0334019772708416,
       "learning_rate": 3.199735219367507e-05,
-      "loss": 0.0118,
+      "loss": 0.0134,
       "step": 423
     },
     {
       "epoch": 3.283639883833495,
-      "grad_norm": 0.028038574382662773,
+      "grad_norm": 0.024044804275035858,
       "learning_rate": 3.174495442255836e-05,
-      "loss": 0.0099,
+      "loss": 0.0088,
       "step": 424
     },
     {
       "epoch": 3.291384317521781,
-      "grad_norm": 0.027834760025143623,
+      "grad_norm": 0.027393875643610954,
       "learning_rate": 3.149309223300428e-05,
-      "loss": 0.0113,
+      "loss": 0.0128,
       "step": 425
     },
     {
       "epoch": 3.291384317521781,
-      "eval_loss": 0.014965364709496498,
-      "eval_runtime": 4.8786,
-      "eval_samples_per_second": 10.249,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.013857954181730747,
+      "eval_runtime": 4.3701,
+      "eval_samples_per_second": 11.441,
+      "eval_steps_per_second": 2.975,
       "step": 425
     },
     {
       "epoch": 3.299128751210068,
-      "grad_norm": 0.023443985730409622,
+      "grad_norm": 0.02405543252825737,
       "learning_rate": 3.124177301435324e-05,
-      "loss": 0.0132,
+      "loss": 0.0133,
       "step": 426
     },
     {
       "epoch": 3.3068731848983544,
-      "grad_norm": 0.024410808458924294,
+      "grad_norm": 0.02057347074151039,
       "learning_rate": 3.09910041400154e-05,
-      "loss": 0.0102,
+      "loss": 0.0097,
       "step": 427
     },
     {
       "epoch": 3.3146176185866407,
-      "grad_norm": 0.032607510685920715,
+      "grad_norm": 0.025036605075001717,
       "learning_rate": 3.0740792967254604e-05,
-      "loss": 0.0168,
+      "loss": 0.0129,
       "step": 428
     },
     {
       "epoch": 3.3223620522749275,
-      "grad_norm": 0.03291484713554382,
+      "grad_norm": 0.03239162638783455,
       "learning_rate": 3.0491146836972272e-05,
-      "loss": 0.019,
+      "loss": 0.0177,
       "step": 429
     },
     {
       "epoch": 3.330106485963214,
-      "grad_norm": 0.03559967130422592,
+      "grad_norm": 0.03456740453839302,
       "learning_rate": 3.024207307349224e-05,
-      "loss": 0.0303,
+      "loss": 0.0278,
       "step": 430
     },
     {
       "epoch": 3.330106485963214,
-      "eval_loss": 0.014858649112284184,
-      "eval_runtime": 4.8834,
-      "eval_samples_per_second": 10.239,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.013759260065853596,
+      "eval_runtime": 4.3788,
+      "eval_samples_per_second": 11.419,
+      "eval_steps_per_second": 2.969,
       "step": 430
     },
     {
       "epoch": 3.3378509196515003,
-      "grad_norm": 0.02721838466823101,
+      "grad_norm": 0.02619517222046852,
       "learning_rate": 2.9993578984345672e-05,
-      "loss": 0.0111,
+      "loss": 0.0109,
       "step": 431
     },
     {
       "epoch": 3.345595353339787,
-      "grad_norm": 0.028012285009026527,
+      "grad_norm": 0.02865227498114109,
       "learning_rate": 2.9745671860056868e-05,
-      "loss": 0.0136,
+      "loss": 0.0142,
       "step": 432
     },
     {
       "epoch": 3.3533397870280734,
-      "grad_norm": 0.029208144173026085,
+      "grad_norm": 0.028698042035102844,
       "learning_rate": 2.9498358973929196e-05,
-      "loss": 0.013,
+      "loss": 0.0121,
       "step": 433
     },
     {
       "epoch": 3.3610842207163603,
-      "grad_norm": 0.031169850379228592,
+      "grad_norm": 0.029013466089963913,
       "learning_rate": 2.9251647581831836e-05,
-      "loss": 0.0187,
+      "loss": 0.0158,
       "step": 434
     },
     {
       "epoch": 3.3688286544046466,
-      "grad_norm": 0.03211589530110359,
+      "grad_norm": 0.0390060655772686,
       "learning_rate": 2.900554492198677e-05,
-      "loss": 0.0161,
+      "loss": 0.0197,
       "step": 435
     },
     {
       "epoch": 3.3688286544046466,
-      "eval_loss": 0.014618839137256145,
-      "eval_runtime": 4.887,
-      "eval_samples_per_second": 10.231,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.013566420413553715,
+      "eval_runtime": 4.3727,
+      "eval_samples_per_second": 11.435,
+      "eval_steps_per_second": 2.973,
       "step": 435
     },
     {
       "epoch": 3.3765730880929334,
-      "grad_norm": 0.0314168706536293,
+      "grad_norm": 0.024725977331399918,
       "learning_rate": 2.876005821475657e-05,
-      "loss": 0.0106,
+      "loss": 0.0104,
       "step": 436
     },
     {
       "epoch": 3.38431752178122,
-      "grad_norm": 0.03567107021808624,
+      "grad_norm": 0.029143916442990303,
       "learning_rate": 2.851519466243242e-05,
-      "loss": 0.0173,
+      "loss": 0.0104,
       "step": 437
     },
     {
       "epoch": 3.392061955469506,
-      "grad_norm": 0.031098151579499245,
+      "grad_norm": 0.03371770679950714,
       "learning_rate": 2.8270961449022893e-05,
-      "loss": 0.0185,
+      "loss": 0.0192,
       "step": 438
     },
     {
       "epoch": 3.399806389157793,
-      "grad_norm": 0.028943657875061035,
+      "grad_norm": 0.026737425476312637,
       "learning_rate": 2.802736574004319e-05,
-      "loss": 0.0159,
+      "loss": 0.0172,
       "step": 439
     },
     {
       "epoch": 3.4075508228460794,
-      "grad_norm": 0.023004574701189995,
+      "grad_norm": 0.02045326493680477,
       "learning_rate": 2.7784414682304832e-05,
-      "loss": 0.011,
+      "loss": 0.0095,
       "step": 440
     },
     {
       "epoch": 3.4075508228460794,
-      "eval_loss": 0.014386112801730633,
-      "eval_runtime": 4.8818,
-      "eval_samples_per_second": 10.242,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.013339264318346977,
+      "eval_runtime": 4.3959,
+      "eval_samples_per_second": 11.374,
+      "eval_steps_per_second": 2.957,
       "step": 440
     },
     {
       "epoch": 3.4152952565343657,
-      "grad_norm": 0.027619289234280586,
+      "grad_norm": 0.02013881504535675,
       "learning_rate": 2.7542115403706063e-05,
-      "loss": 0.0089,
+      "loss": 0.0076,
       "step": 441
     },
     {
       "epoch": 3.4230396902226525,
-      "grad_norm": 0.025844210758805275,
+      "grad_norm": 0.028215833008289337,
       "learning_rate": 2.7300475013022663e-05,
-      "loss": 0.0127,
+      "loss": 0.0118,
       "step": 442
     },
     {
       "epoch": 3.430784123910939,
-      "grad_norm": 0.01797422766685486,
+      "grad_norm": 0.02091830037534237,
       "learning_rate": 2.7059500599699476e-05,
-      "loss": 0.0068,
+      "loss": 0.0098,
       "step": 443
     },
     {
       "epoch": 3.4385285575992257,
-      "grad_norm": 0.031139735132455826,
+      "grad_norm": 0.035130295902490616,
       "learning_rate": 2.6819199233642278e-05,
-      "loss": 0.0135,
+      "loss": 0.0151,
       "step": 444
     },
     {
       "epoch": 3.446272991287512,
-      "grad_norm": 0.03126378357410431,
+      "grad_norm": 0.01884886436164379,
       "learning_rate": 2.65795779650105e-05,
-      "loss": 0.0084,
+      "loss": 0.0075,
       "step": 445
     },
     {
       "epoch": 3.446272991287512,
-      "eval_loss": 0.014389649964869022,
-      "eval_runtime": 4.8893,
-      "eval_samples_per_second": 10.226,
-      "eval_steps_per_second": 2.659,
+      "eval_loss": 0.01332936156541109,
+      "eval_runtime": 4.3734,
+      "eval_samples_per_second": 11.433,
+      "eval_steps_per_second": 2.973,
       "step": 445
     },
     {
       "epoch": 3.454017424975799,
-      "grad_norm": 0.019535277038812637,
+      "grad_norm": 0.01937946490943432,
       "learning_rate": 2.6340643824010247e-05,
-      "loss": 0.0099,
+      "loss": 0.0102,
       "step": 446
     },
     {
       "epoch": 3.4617618586640853,
-      "grad_norm": 0.029923155903816223,
+      "grad_norm": 0.03142572566866875,
       "learning_rate": 2.6102403820688177e-05,
-      "loss": 0.0158,
+      "loss": 0.0182,
       "step": 447
     },
     {
       "epoch": 3.4695062923523716,
-      "grad_norm": 0.023479627445340157,
+      "grad_norm": 0.024633850902318954,
       "learning_rate": 2.586486494472572e-05,
-      "loss": 0.0066,
+      "loss": 0.0121,
       "step": 448
     },
     {
       "epoch": 3.4772507260406584,
-      "grad_norm": 0.03173988685011864,
+      "grad_norm": 0.03723684325814247,
       "learning_rate": 2.562803416523405e-05,
-      "loss": 0.01,
+      "loss": 0.0131,
       "step": 449
     },
     {
       "epoch": 3.484995159728945,
-      "grad_norm": 0.03306049853563309,
+      "grad_norm": 0.029163116589188576,
       "learning_rate": 2.539191843054963e-05,
-      "loss": 0.0127,
+      "loss": 0.0112,
       "step": 450
     },
     {
       "epoch": 3.484995159728945,
-      "eval_loss": 0.014806166291236877,
-      "eval_runtime": 4.9121,
-      "eval_samples_per_second": 10.179,
-      "eval_steps_per_second": 2.647,
+      "eval_loss": 0.01355398166924715,
+      "eval_runtime": 4.377,
+      "eval_samples_per_second": 11.423,
+      "eval_steps_per_second": 2.97,
       "step": 450
     },
     {
       "epoch": 3.492739593417231,
-      "grad_norm": 0.02089696377515793,
+      "grad_norm": 0.022902697324752808,
       "learning_rate": 2.51565246680304e-05,
       "loss": 0.0062,
       "step": 451
     },
     {
       "epoch": 3.500484027105518,
-      "grad_norm": 0.03812693804502487,
+      "grad_norm": 0.03286541998386383,
       "learning_rate": 2.4921859783852408e-05,
-      "loss": 0.0116,
+      "loss": 0.0114,
       "step": 452
     },
     {
       "epoch": 3.5082284607938043,
-      "grad_norm": 0.02929401397705078,
+      "grad_norm": 0.03832395002245903,
       "learning_rate": 2.4687930662807303e-05,
-      "loss": 0.0136,
+      "loss": 0.0139,
       "step": 453
     },
     {
       "epoch": 3.515972894482091,
-      "grad_norm": 0.024923592805862427,
+      "grad_norm": 0.027338461950421333,
       "learning_rate": 2.445474416810033e-05,
-      "loss": 0.0094,
+      "loss": 0.0097,
       "step": 454
     },
     {
       "epoch": 3.5237173281703775,
-      "grad_norm": 0.02743164636194706,
+      "grad_norm": 0.02658306434750557,
       "learning_rate": 2.422230714114891e-05,
-      "loss": 0.0134,
+      "loss": 0.0129,
       "step": 455
     },
     {
       "epoch": 3.5237173281703775,
-      "eval_loss": 0.01469426229596138,
-      "eval_runtime": 4.8924,
-      "eval_samples_per_second": 10.22,
-      "eval_steps_per_second": 2.657,
+      "eval_loss": 0.013670838437974453,
+      "eval_runtime": 4.3915,
+      "eval_samples_per_second": 11.386,
+      "eval_steps_per_second": 2.96,
       "step": 455
     },
     {
       "epoch": 3.5314617618586643,
-      "grad_norm": 0.04384300857782364,
+      "grad_norm": 0.03319023177027702,
       "learning_rate": 2.399062640138201e-05,
-      "loss": 0.0233,
+      "loss": 0.0169,
       "step": 456
     },
     {
       "epoch": 3.5392061955469507,
-      "grad_norm": 0.03357204422354698,
+      "grad_norm": 0.03149385377764702,
       "learning_rate": 2.3759708746039976e-05,
-      "loss": 0.0177,
+      "loss": 0.017,
       "step": 457
     },
     {
       "epoch": 3.546950629235237,
-      "grad_norm": 0.03177043795585632,
+      "grad_norm": 0.031950753182172775,
       "learning_rate": 2.3529560949975182e-05,
-      "loss": 0.0087,
+      "loss": 0.0078,
       "step": 458
     },
     {
       "epoch": 3.554695062923524,
-      "grad_norm": 0.02979344129562378,
+      "grad_norm": 0.024568330496549606,
       "learning_rate": 2.3300189765453196e-05,
-      "loss": 0.0082,
+      "loss": 0.0094,
       "step": 459
     },
     {
       "epoch": 3.5624394966118103,
-      "grad_norm": 0.021871499717235565,
+      "grad_norm": 0.03836764395236969,
       "learning_rate": 2.3071601921954794e-05,
-      "loss": 0.0092,
+      "loss": 0.011,
       "step": 460
     },
     {
       "epoch": 3.5624394966118103,
-      "eval_loss": 0.014372522011399269,
-      "eval_runtime": 4.8873,
-      "eval_samples_per_second": 10.231,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.013646690174937248,
+      "eval_runtime": 4.3876,
+      "eval_samples_per_second": 11.396,
+      "eval_steps_per_second": 2.963,
       "step": 460
     },
     {
       "epoch": 3.5701839303000966,
-      "grad_norm": 0.027945492416620255,
+      "grad_norm": 0.028227275237441063,
       "learning_rate": 2.2843804125978357e-05,
-      "loss": 0.0164,
+      "loss": 0.0157,
       "step": 461
     },
     {
       "epoch": 3.5779283639883834,
-      "grad_norm": 0.024697836488485336,
+      "grad_norm": 0.026608886197209358,
       "learning_rate": 2.2616803060843283e-05,
-      "loss": 0.0074,
+      "loss": 0.0078,
       "step": 462
     },
     {
       "epoch": 3.58567279767667,
-      "grad_norm": 0.024211924523115158,
+      "grad_norm": 0.02461622655391693,
       "learning_rate": 2.2390605386493757e-05,
-      "loss": 0.0087,
+      "loss": 0.0124,
       "step": 463
     },
     {
       "epoch": 3.593417231364956,
-      "grad_norm": 0.025920916348695755,
+      "grad_norm": 0.02602962777018547,
       "learning_rate": 2.2165217739303508e-05,
       "loss": 0.0128,
       "step": 464
     },
     {
       "epoch": 3.601161665053243,
-      "grad_norm": 0.027798939496278763,
+      "grad_norm": 0.03675542399287224,
       "learning_rate": 2.194064673188089e-05,
-      "loss": 0.0205,
+      "loss": 0.0233,
       "step": 465
     },
     {
       "epoch": 3.601161665053243,
-      "eval_loss": 0.014178312383592129,
-      "eval_runtime": 4.8802,
-      "eval_samples_per_second": 10.246,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.013559740036725998,
+      "eval_runtime": 4.3879,
+      "eval_samples_per_second": 11.395,
+      "eval_steps_per_second": 2.963,
       "step": 465
     },
     {
       "epoch": 3.60890609874153,
-      "grad_norm": 0.0249908696860075,
+      "grad_norm": 0.02911258488893509,
       "learning_rate": 2.171689895287513e-05,
-      "loss": 0.0098,
+      "loss": 0.0113,
       "step": 466
     },
     {
       "epoch": 3.616650532429816,
-      "grad_norm": 0.023805009201169014,
+      "grad_norm": 0.02370772697031498,
       "learning_rate": 2.149398096678283e-05,
-      "loss": 0.0099,
+      "loss": 0.0103,
       "step": 467
     },
     {
       "epoch": 3.6243949661181025,
-      "grad_norm": 0.030275024473667145,
+      "grad_norm": 0.03354567289352417,
       "learning_rate": 2.12718993137555e-05,
-      "loss": 0.0201,
+      "loss": 0.018,
       "step": 468
     },
     {
       "epoch": 3.6321393998063893,
-      "grad_norm": 0.025657106190919876,
+      "grad_norm": 0.027623234316706657,
       "learning_rate": 2.105066050940758e-05,
-      "loss": 0.0102,
+      "loss": 0.0114,
       "step": 469
     },
     {
       "epoch": 3.6398838334946757,
-      "grad_norm": 0.02271328866481781,
+      "grad_norm": 0.02787254936993122,
       "learning_rate": 2.08302710446253e-05,
-      "loss": 0.0097,
+      "loss": 0.0132,
       "step": 470
     },
     {
       "epoch": 3.6398838334946757,
-      "eval_loss": 0.014142417348921299,
-      "eval_runtime": 4.8856,
-      "eval_samples_per_second": 10.234,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.013419919647276402,
+      "eval_runtime": 4.3777,
+      "eval_samples_per_second": 11.422,
+      "eval_steps_per_second": 2.97,
       "step": 470
     },
     {
       "epoch": 3.647628267182962,
-      "grad_norm": 0.026042208075523376,
+      "grad_norm": 0.028550326824188232,
       "learning_rate": 2.061073738537635e-05,
-      "loss": 0.0177,
+      "loss": 0.0165,
       "step": 471
     },
     {
       "epoch": 3.655372700871249,
-      "grad_norm": 0.021258225664496422,
+      "grad_norm": 0.02313777059316635,
       "learning_rate": 2.039206597252001e-05,
-      "loss": 0.0065,
+      "loss": 0.0064,
       "step": 472
     },
     {
       "epoch": 3.6631171345595352,
-      "grad_norm": 0.027606485411524773,
+      "grad_norm": 0.027786806225776672,
       "learning_rate": 2.0174263221618307e-05,
-      "loss": 0.0127,
+      "loss": 0.0103,
       "step": 473
     },
     {
       "epoch": 3.6708615682478216,
-      "grad_norm": 0.02728329971432686,
+      "grad_norm": 0.022411901503801346,
       "learning_rate": 1.9957335522747707e-05,
-      "loss": 0.0123,
+      "loss": 0.0106,
       "step": 474
     },
     {
       "epoch": 3.6786060019361084,
-      "grad_norm": 0.03719132021069527,
+      "grad_norm": 0.050343386828899384,
       "learning_rate": 1.9741289240311755e-05,
-      "loss": 0.0158,
+      "loss": 0.0147,
       "step": 475
     },
     {
       "epoch": 3.6786060019361084,
-      "eval_loss": 0.014227832667529583,
-      "eval_runtime": 4.8832,
-      "eval_samples_per_second": 10.239,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.013563673943281174,
+      "eval_runtime": 4.383,
+      "eval_samples_per_second": 11.408,
+      "eval_steps_per_second": 2.966,
       "step": 475
     },
     {
       "epoch": 3.6863504356243952,
-      "grad_norm": 0.029825210571289062,
+      "grad_norm": 0.032792188227176666,
       "learning_rate": 1.9526130712854185e-05,
       "loss": 0.0128,
       "step": 476
     },
     {
       "epoch": 3.6940948693126816,
-      "grad_norm": 0.09481414407491684,
+      "grad_norm": 0.037031542509794235,
       "learning_rate": 1.931186625287313e-05,
-      "loss": 0.0202,
+      "loss": 0.0189,
       "step": 477
     },
     {
       "epoch": 3.701839303000968,
-      "grad_norm": 0.027814751490950584,
+      "grad_norm": 0.029033049941062927,
       "learning_rate": 1.909850214663575e-05,
-      "loss": 0.0121,
+      "loss": 0.0104,
       "step": 478
     },
     {
       "epoch": 3.709583736689255,
-      "grad_norm": 0.03036467730998993,
+      "grad_norm": 0.02778778411448002,
       "learning_rate": 1.8886044653993968e-05,
-      "loss": 0.0163,
+      "loss": 0.0157,
       "step": 479
     },
     {
       "epoch": 3.717328170377541,
-      "grad_norm": 0.023233845829963684,
+      "grad_norm": 0.020983900874853134,
       "learning_rate": 1.8674500008200674e-05,
-      "loss": 0.0095,
+      "loss": 0.0073,
       "step": 480
     },
     {
       "epoch": 3.717328170377541,
-      "eval_loss": 0.014037776738405228,
-      "eval_runtime": 4.8827,
-      "eval_samples_per_second": 10.24,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.01357563678175211,
+      "eval_runtime": 4.4128,
+      "eval_samples_per_second": 11.331,
+      "eval_steps_per_second": 2.946,
       "step": 480
     },
     {
       "epoch": 3.7250726040658275,
-      "grad_norm": 0.02636660821735859,
+      "grad_norm": 0.02595222182571888,
       "learning_rate": 1.8463874415726918e-05,
-      "loss": 0.0125,
+      "loss": 0.0123,
       "step": 481
     },
     {
       "epoch": 3.7328170377541143,
-      "grad_norm": 0.022603245452046394,
+      "grad_norm": 0.019221501424908638,
       "learning_rate": 1.82541740560798e-05,
-      "loss": 0.0072,
+      "loss": 0.0061,
       "step": 482
     },
     {
       "epoch": 3.7405614714424007,
-      "grad_norm": 0.019264785572886467,
+      "grad_norm": 0.022757533937692642,
       "learning_rate": 1.8045405081621215e-05,
-      "loss": 0.0068,
+      "loss": 0.0104,
       "step": 483
     },
     {
       "epoch": 3.748305905130687,
-      "grad_norm": 0.02744339220225811,
+      "grad_norm": 0.027410903945565224,
       "learning_rate": 1.7837573617387265e-05,
-      "loss": 0.0139,
+      "loss": 0.0112,
       "step": 484
     },
     {
       "epoch": 3.756050338818974,
-      "grad_norm": 0.032306037843227386,
+      "grad_norm": 0.04779921472072601,
       "learning_rate": 1.7630685760908622e-05,
-      "loss": 0.0163,
+      "loss": 0.0143,
       "step": 485
     },
     {
       "epoch": 3.756050338818974,
-      "eval_loss": 0.014070287346839905,
-      "eval_runtime": 4.8787,
-      "eval_samples_per_second": 10.249,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.013623585924506187,
+      "eval_runtime": 4.3803,
+      "eval_samples_per_second": 11.415,
+      "eval_steps_per_second": 2.968,
       "step": 485
     },
     {
       "epoch": 3.7637947725072602,
-      "grad_norm": 0.034267835319042206,
+      "grad_norm": 0.02756400592625141,
       "learning_rate": 1.7424747582031637e-05,
-      "loss": 0.0145,
+      "loss": 0.0104,
       "step": 486
     },
     {
       "epoch": 3.771539206195547,
-      "grad_norm": 0.02139255404472351,
+      "grad_norm": 0.03580893948674202,
       "learning_rate": 1.72197651227402e-05,
-      "loss": 0.0084,
+      "loss": 0.011,
       "step": 487
     },
     {
       "epoch": 3.7792836398838334,
-      "grad_norm": 0.020995331928133965,
+      "grad_norm": 0.030986238270998,
       "learning_rate": 1.7015744396978556e-05,
-      "loss": 0.0065,
+      "loss": 0.0092,
       "step": 488
     },
     {
       "epoch": 3.7870280735721202,
-      "grad_norm": 0.03288980573415756,
+      "grad_norm": 0.034952398389577866,
       "learning_rate": 1.6812691390474787e-05,
-      "loss": 0.0175,
+      "loss": 0.0153,
       "step": 489
     },
     {
       "epoch": 3.7947725072604066,
-      "grad_norm": 0.021166102960705757,
+      "grad_norm": 0.021729690954089165,
       "learning_rate": 1.6610612060565234e-05,
-      "loss": 0.007,
+      "loss": 0.0086,
       "step": 490
     },
     {
       "epoch": 3.7947725072604066,
-      "eval_loss": 0.014264380559325218,
-      "eval_runtime": 4.8993,
-      "eval_samples_per_second": 10.206,
-      "eval_steps_per_second": 2.653,
+      "eval_loss": 0.013717330060899258,
+      "eval_runtime": 4.3856,
+      "eval_samples_per_second": 11.401,
+      "eval_steps_per_second": 2.964,
       "step": 490
     },
     {
       "epoch": 3.802516940948693,
-      "grad_norm": 0.02033647708594799,
+      "grad_norm": 0.016947131603956223,
       "learning_rate": 1.64095123360197e-05,
-      "loss": 0.0081,
+      "loss": 0.0062,
       "step": 491
     },
     {
       "epoch": 3.81026137463698,
-      "grad_norm": 0.01951659470796585,
+      "grad_norm": 0.025249946862459183,
       "learning_rate": 1.6209398116867574e-05,
-      "loss": 0.008,
+      "loss": 0.0075,
       "step": 492
     },
     {
       "epoch": 3.818005808325266,
-      "grad_norm": 0.028182433918118477,
+      "grad_norm": 0.03721735626459122,
       "learning_rate": 1.6010275274224606e-05,
-      "loss": 0.0143,
+      "loss": 0.0152,
       "step": 493
     },
     {
       "epoch": 3.8257502420135525,
-      "grad_norm": 0.03811497241258621,
+      "grad_norm": 0.04120490700006485,
       "learning_rate": 1.5812149650120784e-05,
-      "loss": 0.0139,
+      "loss": 0.013,
       "step": 494
     },
     {
       "epoch": 3.8334946757018393,
-      "grad_norm": 0.02721046842634678,
+      "grad_norm": 0.018610995262861252,
       "learning_rate": 1.561502705732883e-05,
-      "loss": 0.0069,
+      "loss": 0.0055,
       "step": 495
     },
     {
       "epoch": 3.8334946757018393,
-      "eval_loss": 0.014395428821444511,
-      "eval_runtime": 4.885,
-      "eval_samples_per_second": 10.235,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.013805697672069073,
+      "eval_runtime": 4.3797,
+      "eval_samples_per_second": 11.416,
+      "eval_steps_per_second": 2.968,
       "step": 495
     },
     {
       "epoch": 3.8412391093901257,
-      "grad_norm": 0.03506116569042206,
+      "grad_norm": 0.027707822620868683,
       "learning_rate": 1.5418913279193746e-05,
-      "loss": 0.0154,
+      "loss": 0.0117,
       "step": 496
     },
     {
       "epoch": 3.8489835430784125,
-      "grad_norm": 0.029712386429309845,
+      "grad_norm": 0.02745365910232067,
       "learning_rate": 1.5223814069463078e-05,
-      "loss": 0.0074,
+      "loss": 0.0067,
       "step": 497
     },
     {
       "epoch": 3.856727976766699,
-      "grad_norm": 0.021429866552352905,
+      "grad_norm": 0.024162985384464264,
       "learning_rate": 1.5029735152118124e-05,
-      "loss": 0.0067,
+      "loss": 0.008,
       "step": 498
     },
     {
       "epoch": 3.8644724104549857,
-      "grad_norm": 0.024990901350975037,
+      "grad_norm": 0.019784841686487198,
       "learning_rate": 1.4836682221206e-05,
-      "loss": 0.0089,
+      "loss": 0.0071,
       "step": 499
     },
     {
       "epoch": 3.872216844143272,
-      "grad_norm": 0.0315503366291523,
+      "grad_norm": 0.030959174036979675,
       "learning_rate": 1.4644660940672627e-05,
-      "loss": 0.012,
+      "loss": 0.0108,
       "step": 500
     },
     {
       "epoch": 3.872216844143272,
-      "eval_loss": 0.014392802491784096,
-      "eval_runtime": 4.8814,
-      "eval_samples_per_second": 10.243,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.013773207552731037,
+      "eval_runtime": 4.3857,
+      "eval_samples_per_second": 11.401,
+      "eval_steps_per_second": 2.964,
       "step": 500
     },
     {
       "epoch": 3.8799612778315584,
-      "grad_norm": 0.022510502487421036,
+      "grad_norm": 0.024243952706456184,
       "learning_rate": 1.4453676944196476e-05,
-      "loss": 0.0107,
+      "loss": 0.0101,
       "step": 501
     },
     {
       "epoch": 3.8877057115198452,
-      "grad_norm": 0.024121427908539772,
+      "grad_norm": 0.02308865636587143,
       "learning_rate": 1.4263735835023317e-05,
-      "loss": 0.0077,
+      "loss": 0.0072,
       "step": 502
     },
     {
       "epoch": 3.8954501452081316,
-      "grad_norm": 0.031639214605093,
+      "grad_norm": 0.02923147939145565,
       "learning_rate": 1.4074843185801883e-05,
-      "loss": 0.0116,
+      "loss": 0.0154,
       "step": 503
     },
     {
       "epoch": 3.903194578896418,
-      "grad_norm": 0.03393334150314331,
+      "grad_norm": 0.036476731300354004,
       "learning_rate": 1.388700453842029e-05,
-      "loss": 0.0186,
+      "loss": 0.0173,
       "step": 504
     },
     {
       "epoch": 3.9109390125847048,
-      "grad_norm": 0.023499028757214546,
+      "grad_norm": 0.02512337453663349,
       "learning_rate": 1.3700225403843469e-05,
-      "loss": 0.0065,
+      "loss": 0.0079,
       "step": 505
     },
     {
       "epoch": 3.9109390125847048,
-      "eval_loss": 0.014433367177844048,
-      "eval_runtime": 4.8831,
-      "eval_samples_per_second": 10.239,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.01357070542871952,
+      "eval_runtime": 4.3848,
+      "eval_samples_per_second": 11.403,
+      "eval_steps_per_second": 2.965,
       "step": 505
     },
     {
       "epoch": 3.918683446272991,
-      "grad_norm": 0.029848378151655197,
+      "grad_norm": 0.03514130413532257,
       "learning_rate": 1.3514511261951513e-05,
-      "loss": 0.0114,
+      "loss": 0.0128,
       "step": 506
     },
     {
       "epoch": 3.926427879961278,
-      "grad_norm": 0.03068527579307556,
+      "grad_norm": 0.022887328639626503,
       "learning_rate": 1.332986756137889e-05,
-      "loss": 0.0096,
+      "loss": 0.009,
       "step": 507
     },
     {
       "epoch": 3.9341723136495643,
-      "grad_norm": 0.03030090034008026,
+      "grad_norm": 0.028089886531233788,
       "learning_rate": 1.3146299719354544e-05,
-      "loss": 0.0139,
+      "loss": 0.0121,
       "step": 508
     },
     {
       "epoch": 3.941916747337851,
-      "grad_norm": 0.035816751420497894,
+      "grad_norm": 0.03206073120236397,
       "learning_rate": 1.296381312154305e-05,
-      "loss": 0.0227,
+      "loss": 0.0203,
       "step": 509
     },
     {
       "epoch": 3.9496611810261375,
-      "grad_norm": 0.027982637286186218,
+      "grad_norm": 0.02883659303188324,
       "learning_rate": 1.2782413121886483e-05,
-      "loss": 0.0092,
+      "loss": 0.0105,
       "step": 510
     },
     {
       "epoch": 3.9496611810261375,
-      "eval_loss": 0.014166494831442833,
-      "eval_runtime": 4.9122,
-      "eval_samples_per_second": 10.179,
-      "eval_steps_per_second": 2.646,
+      "eval_loss": 0.013343135826289654,
+      "eval_runtime": 4.3891,
+      "eval_samples_per_second": 11.392,
+      "eval_steps_per_second": 2.962,
       "step": 510
     },
     {
       "epoch": 3.957405614714424,
-      "grad_norm": 0.02737162820994854,
+      "grad_norm": 0.03410857170820236,
       "learning_rate": 1.260210504244747e-05,
-      "loss": 0.0092,
+      "loss": 0.0143,
       "step": 511
     },
     {
       "epoch": 3.9651500484027107,
-      "grad_norm": 0.022624744102358818,
+      "grad_norm": 0.027420617640018463,
       "learning_rate": 1.2422894173252935e-05,
-      "loss": 0.0085,
+      "loss": 0.0113,
       "step": 512
     },
     {
       "epoch": 3.972894482090997,
-      "grad_norm": 0.03060479834675789,
+      "grad_norm": 0.02563648670911789,
       "learning_rate": 1.2244785772138972e-05,
-      "loss": 0.0128,
+      "loss": 0.0109,
       "step": 513
     },
     {
       "epoch": 3.9806389157792834,
-      "grad_norm": 0.018269168213009834,
+      "grad_norm": 0.019080108031630516,
       "learning_rate": 1.2067785064596532e-05,
-      "loss": 0.0058,
+      "loss": 0.0062,
       "step": 514
     },
     {
       "epoch": 3.9883833494675702,
-      "grad_norm": 0.028229568153619766,
+      "grad_norm": 0.025618528947234154,
       "learning_rate": 1.1891897243618182e-05,
-      "loss": 0.0137,
+      "loss": 0.0117,
       "step": 515
     },
     {
       "epoch": 3.9883833494675702,
-      "eval_loss": 0.0140122314915061,
-      "eval_runtime": 4.8866,
-      "eval_samples_per_second": 10.232,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.013279752805829048,
+      "eval_runtime": 4.3835,
+      "eval_samples_per_second": 11.406,
+      "eval_steps_per_second": 2.966,
       "step": 515
     },
     {
       "epoch": 3.9961277831558566,
-      "grad_norm": 0.031048007309436798,
+      "grad_norm": 0.030934466049075127,
       "learning_rate": 1.1717127469545657e-05,
-      "loss": 0.0127,
+      "loss": 0.014,
       "step": 516
     },
     {
       "epoch": 4.003872216844143,
-      "grad_norm": 0.08782518655061722,
+      "grad_norm": 0.07555267214775085,
       "learning_rate": 1.1543480869918555e-05,
-      "loss": 0.0316,
+      "loss": 0.0301,
       "step": 517
     },
     {
       "epoch": 4.01161665053243,
-      "grad_norm": 0.021657759323716164,
+      "grad_norm": 0.019586144015192986,
       "learning_rate": 1.1370962539323837e-05,
-      "loss": 0.006,
+      "loss": 0.0074,
       "step": 518
     },
     {
       "epoch": 4.019361084220717,
-      "grad_norm": 0.016995133832097054,
+      "grad_norm": 0.018221458420157433,
       "learning_rate": 1.1199577539246347e-05,
-      "loss": 0.0066,
+      "loss": 0.0058,
       "step": 519
     },
     {
       "epoch": 4.0271055179090025,
-      "grad_norm": 0.023740965873003006,
+      "grad_norm": 0.017618490383028984,
       "learning_rate": 1.102933089792042e-05,
-      "loss": 0.0096,
+      "loss": 0.008,
       "step": 520
     },
     {
       "epoch": 4.0271055179090025,
-      "eval_loss": 0.014096870087087154,
-      "eval_runtime": 4.9197,
-      "eval_samples_per_second": 10.163,
-      "eval_steps_per_second": 2.642,
+      "eval_loss": 0.013532751239836216,
+      "eval_runtime": 4.3955,
+      "eval_samples_per_second": 11.375,
+      "eval_steps_per_second": 2.958,
       "step": 520
     },
     {
       "epoch": 4.034849951597289,
-      "grad_norm": 0.020324736833572388,
+      "grad_norm": 0.0197518989443779,
       "learning_rate": 1.0860227610182222e-05,
-      "loss": 0.006,
+      "loss": 0.0056,
       "step": 521
     },
     {
       "epoch": 4.042594385285576,
-      "grad_norm": 0.026595408096909523,
+      "grad_norm": 0.019375814124941826,
       "learning_rate": 1.0692272637323281e-05,
-      "loss": 0.0099,
+      "loss": 0.0066,
       "step": 522
     },
     {
       "epoch": 4.050338818973863,
-      "grad_norm": 0.025080036371946335,
+      "grad_norm": 0.024912869557738304,
       "learning_rate": 1.0525470906944918e-05,
-      "loss": 0.0111,
+      "loss": 0.0131,
       "step": 523
     },
     {
       "epoch": 4.058083252662149,
-      "grad_norm": 0.023843206465244293,
+      "grad_norm": 0.023752361536026,
       "learning_rate": 1.0359827312813702e-05,
-      "loss": 0.0102,
+      "loss": 0.0106,
       "step": 524
     },
     {
       "epoch": 4.065827686350436,
-      "grad_norm": 0.02740602195262909,
+      "grad_norm": 0.03184114396572113,
       "learning_rate": 1.0195346714717813e-05,
-      "loss": 0.0166,
+      "loss": 0.0147,
       "step": 525
     },
     {
       "epoch": 4.065827686350436,
-      "eval_loss": 0.014254918321967125,
-      "eval_runtime": 4.8789,
-      "eval_samples_per_second": 10.248,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.013714994303882122,
+      "eval_runtime": 4.3817,
+      "eval_samples_per_second": 11.411,
+      "eval_steps_per_second": 2.967,
       "step": 525
     },
     {
       "epoch": 4.0735721200387225,
-      "grad_norm": 0.022155968472361565,
+      "grad_norm": 0.03174939751625061,
       "learning_rate": 1.0032033938324525e-05,
-      "loss": 0.0078,
+      "loss": 0.0104,
       "step": 526
     },
     {
       "epoch": 4.081316553727008,
-      "grad_norm": 0.024045893922448158,
+      "grad_norm": 0.026718808338046074,
       "learning_rate": 9.869893775038558e-06,
-      "loss": 0.0081,
+      "loss": 0.0102,
       "step": 527
     },
     {
       "epoch": 4.089060987415295,
-      "grad_norm": 0.02037333883345127,
+      "grad_norm": 0.019018756225705147,
       "learning_rate": 9.708930981861602e-06,
-      "loss": 0.0065,
+      "loss": 0.0053,
       "step": 528
     },
     {
       "epoch": 4.096805421103582,
-      "grad_norm": 0.03122127056121826,
+      "grad_norm": 0.026199419051408768,
       "learning_rate": 9.549150281252633e-06,
-      "loss": 0.0154,
+      "loss": 0.0116,
       "step": 529
     },
     {
       "epoch": 4.104549854791868,
-      "grad_norm": 0.02209511026740074,
+      "grad_norm": 0.024391720071434975,
       "learning_rate": 9.39055636098945e-06,
-      "loss": 0.0063,
+      "loss": 0.007,
       "step": 530
     },
     {
       "epoch": 4.104549854791868,
-      "eval_loss": 0.014675913378596306,
-      "eval_runtime": 4.8816,
-      "eval_samples_per_second": 10.243,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.01429485809057951,
+      "eval_runtime": 4.3839,
+      "eval_samples_per_second": 11.405,
+      "eval_steps_per_second": 2.965,
       "step": 530
     },
     {
       "epoch": 4.112294288480155,
-      "grad_norm": 0.023835474625229836,
+      "grad_norm": 0.024786392226815224,
       "learning_rate": 9.233153874031102e-06,
-      "loss": 0.0093,
+      "loss": 0.0087,
       "step": 531
     },
     {
       "epoch": 4.120038722168442,
-      "grad_norm": 0.019489478319883347,
+      "grad_norm": 0.02699310891330242,
       "learning_rate": 9.076947438381412e-06,
-      "loss": 0.0064,
+      "loss": 0.0067,
       "step": 532
     },
     {
       "epoch": 4.127783155856728,
-      "grad_norm": 0.0215182825922966,
+      "grad_norm": 0.02589493803679943,
       "learning_rate": 8.921941636953435e-06,
-      "loss": 0.0066,
+      "loss": 0.0071,
       "step": 533
     },
     {
       "epoch": 4.135527589545014,
-      "grad_norm": 0.026780812069773674,
+      "grad_norm": 0.026244331151247025,
       "learning_rate": 8.768141017435034e-06,
-      "loss": 0.0092,
+      "loss": 0.0086,
       "step": 534
     },
     {
       "epoch": 4.143272023233301,
-      "grad_norm": 0.024805335327982903,
+      "grad_norm": 0.021770892664790154,
       "learning_rate": 8.615550092155478e-06,
-      "loss": 0.0065,
+      "loss": 0.0059,
       "step": 535
     },
     {
       "epoch": 4.143272023233301,
-      "eval_loss": 0.015071693807840347,
-      "eval_runtime": 4.8815,
-      "eval_samples_per_second": 10.243,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.01460697129368782,
+      "eval_runtime": 4.3795,
+      "eval_samples_per_second": 11.417,
+      "eval_steps_per_second": 2.968,
       "step": 535
     },
     {
       "epoch": 4.151016456921588,
-      "grad_norm": 0.020369093865156174,
+      "grad_norm": 0.020085930824279785,
       "learning_rate": 8.46417333795299e-06,
-      "loss": 0.006,
+      "loss": 0.0057,
       "step": 536
     },
     {
       "epoch": 4.158760890609874,
-      "grad_norm": 0.043270278722047806,
+      "grad_norm": 0.06338154524564743,
       "learning_rate": 8.3140151960435e-06,
-      "loss": 0.0079,
+      "loss": 0.0124,
       "step": 537
     },
     {
       "epoch": 4.166505324298161,
-      "grad_norm": 0.02860189788043499,
+      "grad_norm": 0.027511760592460632,
       "learning_rate": 8.165080071890208e-06,
-      "loss": 0.008,
+      "loss": 0.0085,
       "step": 538
     },
     {
       "epoch": 4.1742497579864475,
-      "grad_norm": 0.03253103047609329,
+      "grad_norm": 0.02810286357998848,
       "learning_rate": 8.017372335074486e-06,
-      "loss": 0.0108,
+      "loss": 0.0085,
       "step": 539
     },
     {
       "epoch": 4.181994191674733,
-      "grad_norm": 0.03648286312818527,
+      "grad_norm": 0.04062161222100258,
       "learning_rate": 7.870896319167548e-06,
-      "loss": 0.0116,
+      "loss": 0.015,
       "step": 540
     },
     {
       "epoch": 4.181994191674733,
-      "eval_loss": 0.015149474143981934,
-      "eval_runtime": 4.8811,
-      "eval_samples_per_second": 10.244,
-      "eval_steps_per_second": 2.663,
+      "eval_loss": 0.014409583061933517,
+      "eval_runtime": 4.378,
+      "eval_samples_per_second": 11.421,
+      "eval_steps_per_second": 2.969,
       "step": 540
     },
     {
       "epoch": 4.18973862536302,
-      "grad_norm": 0.02855644002556801,
+      "grad_norm": 0.028866812586784363,
       "learning_rate": 7.725656321603413e-06,
-      "loss": 0.0057,
+      "loss": 0.0099,
       "step": 541
     },
     {
       "epoch": 4.197483059051307,
-      "grad_norm": 0.02625049278140068,
+      "grad_norm": 0.026194989681243896,
       "learning_rate": 7.581656603552745e-06,
-      "loss": 0.0086,
+      "loss": 0.0074,
       "step": 542
     },
     {
       "epoch": 4.205227492739594,
-      "grad_norm": 0.028735188767313957,
+      "grad_norm": 0.024282068014144897,
       "learning_rate": 7.438901389797881e-06,
-      "loss": 0.0073,
+      "loss": 0.0068,
       "step": 543
     },
     {
       "epoch": 4.21297192642788,
-      "grad_norm": 0.03049030341207981,
+      "grad_norm": 0.025171253830194473,
       "learning_rate": 7.2973948686088585e-06,
-      "loss": 0.0103,
+      "loss": 0.0094,
       "step": 544
     },
     {
       "epoch": 4.220716360116167,
-      "grad_norm": 0.03025457076728344,
+      "grad_norm": 0.0284416601061821,
       "learning_rate": 7.157141191620548e-06,
       "loss": 0.0121,
       "step": 545
     },
     {
       "epoch": 4.220716360116167,
-      "eval_loss": 0.01492508314549923,
-      "eval_runtime": 4.8859,
-      "eval_samples_per_second": 10.234,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.014207126572728157,
+      "eval_runtime": 4.3922,
+      "eval_samples_per_second": 11.384,
+      "eval_steps_per_second": 2.96,
       "step": 545
     },
     {
       "epoch": 4.228460793804453,
-      "grad_norm": 0.032634418457746506,
+      "grad_norm": 0.028630098327994347,
       "learning_rate": 7.018144473710825e-06,
-      "loss": 0.0091,
+      "loss": 0.0102,
       "step": 546
     },
     {
       "epoch": 4.236205227492739,
-      "grad_norm": 0.01986607536673546,
+      "grad_norm": 0.021594729274511337,
       "learning_rate": 6.880408792879905e-06,
-      "loss": 0.006,
+      "loss": 0.0058,
       "step": 547
     },
     {
       "epoch": 4.243949661181026,
-      "grad_norm": 0.03163382411003113,
+      "grad_norm": 0.03029385209083557,
       "learning_rate": 6.7439381901306165e-06,
       "loss": 0.0117,
       "step": 548
     },
     {
       "epoch": 4.251694094869313,
-      "grad_norm": 0.028815779834985733,
+      "grad_norm": 0.04508291184902191,
       "learning_rate": 6.6087366693499295e-06,
-      "loss": 0.0098,
+      "loss": 0.0129,
       "step": 549
     },
     {
       "epoch": 4.259438528557599,
-      "grad_norm": 0.03270835056900978,
+      "grad_norm": 0.031344689428806305,
       "learning_rate": 6.474808197191401e-06,
-      "loss": 0.0124,
+      "loss": 0.0113,
       "step": 550
     },
     {
       "epoch": 4.259438528557599,
-      "eval_loss": 0.014822663739323616,
-      "eval_runtime": 4.913,
-      "eval_samples_per_second": 10.177,
-      "eval_steps_per_second": 2.646,
+      "eval_loss": 0.014008813537657261,
+      "eval_runtime": 4.3994,
+      "eval_samples_per_second": 11.365,
+      "eval_steps_per_second": 2.955,
       "step": 550
     },
     {
       "epoch": 4.267182962245886,
-      "grad_norm": 0.03482763096690178,
+      "grad_norm": 0.029013406485319138,
       "learning_rate": 6.342156702958851e-06,
-      "loss": 0.0106,
+      "loss": 0.0108,
       "step": 551
     },
     {
       "epoch": 4.2749273959341725,
-      "grad_norm": 0.03085647150874138,
+      "grad_norm": 0.023874938488006592,
       "learning_rate": 6.210786078491087e-06,
-      "loss": 0.0073,
+      "loss": 0.0072,
       "step": 552
     },
     {
       "epoch": 4.282671829622458,
-      "grad_norm": 0.030419712886214256,
+      "grad_norm": 0.02854079380631447,
       "learning_rate": 6.080700178047688e-06,
-      "loss": 0.009,
+      "loss": 0.0093,
       "step": 553
     },
     {
       "epoch": 4.290416263310745,
-      "grad_norm": 0.030969636514782906,
+      "grad_norm": 0.024804938584566116,
       "learning_rate": 5.951902818195937e-06,
-      "loss": 0.0095,
+      "loss": 0.007,
       "step": 554
     },
     {
       "epoch": 4.298160696999032,
-      "grad_norm": 0.021281538531184196,
+      "grad_norm": 0.020646195858716965,
       "learning_rate": 5.824397777698859e-06,
-      "loss": 0.0065,
+      "loss": 0.0068,
       "step": 555
     },
     {
       "epoch": 4.298160696999032,
-      "eval_loss": 0.014675424434244633,
-      "eval_runtime": 4.8865,
-      "eval_samples_per_second": 10.232,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.013997526839375496,
+      "eval_runtime": 4.3804,
+      "eval_samples_per_second": 11.414,
+      "eval_steps_per_second": 2.968,
       "step": 555
     },
     {
       "epoch": 4.305905130687319,
-      "grad_norm": 0.026220398023724556,
+      "grad_norm": 0.02421155571937561,
       "learning_rate": 5.698188797404358e-06,
-      "loss": 0.0098,
+      "loss": 0.0102,
       "step": 556
     },
     {
       "epoch": 4.313649564375605,
-      "grad_norm": 0.03300410136580467,
+      "grad_norm": 0.029476799070835114,
       "learning_rate": 5.573279580135438e-06,
-      "loss": 0.0096,
+      "loss": 0.0101,
       "step": 557
     },
     {
       "epoch": 4.321393998063892,
-      "grad_norm": 0.02256063185632229,
+      "grad_norm": 0.024082157760858536,
       "learning_rate": 5.449673790581611e-06,
-      "loss": 0.0074,
+      "loss": 0.008,
       "step": 558
     },
     {
       "epoch": 4.329138431752178,
-      "grad_norm": 0.01977851614356041,
+      "grad_norm": 0.022371482104063034,
       "learning_rate": 5.327375055191314e-06,
-      "loss": 0.0057,
+      "loss": 0.0075,
       "step": 559
     },
     {
       "epoch": 4.336882865440464,
-      "grad_norm": 0.027061451226472855,
+      "grad_norm": 0.03012903593480587,
       "learning_rate": 5.206386962065602e-06,
       "loss": 0.0095,
       "step": 560
     },
     {
       "epoch": 4.336882865440464,
-      "eval_loss": 0.014610102400183678,
-      "eval_runtime": 4.8775,
-      "eval_samples_per_second": 10.251,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.014015709049999714,
+      "eval_runtime": 4.3936,
+      "eval_samples_per_second": 11.38,
+      "eval_steps_per_second": 2.959,
       "step": 560
     },
     {
       "epoch": 4.344627299128751,
-      "grad_norm": 0.023445401340723038,
+      "grad_norm": 0.024076025933027267,
       "learning_rate": 5.086713060852788e-06,
-      "loss": 0.0073,
+      "loss": 0.0095,
       "step": 561
     },
     {
       "epoch": 4.352371732817038,
-      "grad_norm": 0.025033244863152504,
+      "grad_norm": 0.023301830515265465,
       "learning_rate": 4.9683568626443525e-06,
-      "loss": 0.0067,
+      "loss": 0.0082,
       "step": 562
     },
     {
       "epoch": 4.360116166505325,
-      "grad_norm": 0.024385705590248108,
+      "grad_norm": 0.021706709638237953,
       "learning_rate": 4.851321839871908e-06,
-      "loss": 0.0085,
+      "loss": 0.0092,
       "step": 563
     },
     {
       "epoch": 4.367860600193611,
-      "grad_norm": 0.01870056986808777,
+      "grad_norm": 0.026768041774630547,
       "learning_rate": 4.735611426205372e-06,
-      "loss": 0.006,
+      "loss": 0.0066,
       "step": 564
     },
     {
       "epoch": 4.3756050338818975,
-      "grad_norm": 0.034633465111255646,
+      "grad_norm": 0.03235882148146629,
       "learning_rate": 4.621229016452156e-06,
-      "loss": 0.0159,
+      "loss": 0.0149,
       "step": 565
     },
     {
       "epoch": 4.3756050338818975,
-      "eval_loss": 0.014616014435887337,
-      "eval_runtime": 4.9057,
-      "eval_samples_per_second": 10.192,
-      "eval_steps_per_second": 2.65,
+      "eval_loss": 0.014083543792366982,
+      "eval_runtime": 4.378,
+      "eval_samples_per_second": 11.421,
+      "eval_steps_per_second": 2.969,
       "step": 565
     },
     {
       "epoch": 4.383349467570184,
-      "grad_norm": 0.018921665847301483,
+      "grad_norm": 0.02369586005806923,
       "learning_rate": 4.508177966457589e-06,
-      "loss": 0.0064,
+      "loss": 0.0051,
       "step": 566
     },
     {
       "epoch": 4.39109390125847,
-      "grad_norm": 0.027389317750930786,
+      "grad_norm": 0.039982546120882034,
       "learning_rate": 4.396461593006512e-06,
-      "loss": 0.0098,
+      "loss": 0.0113,
       "step": 567
     },
     {
       "epoch": 4.398838334946757,
-      "grad_norm": 0.024363059550523758,
+      "grad_norm": 0.020895374938845634,
       "learning_rate": 4.286083173725885e-06,
-      "loss": 0.0069,
+      "loss": 0.0059,
       "step": 568
     },
     {
       "epoch": 4.406582768635044,
-      "grad_norm": 0.028289014473557472,
+      "grad_norm": 0.027250470593571663,
       "learning_rate": 4.1770459469887005e-06,
-      "loss": 0.0106,
+      "loss": 0.0093,
       "step": 569
     },
     {
       "epoch": 4.41432720232333,
-      "grad_norm": 0.022007154300808907,
+      "grad_norm": 0.025468921288847923,
       "learning_rate": 4.069353111818913e-06,
-      "loss": 0.0058,
+      "loss": 0.0063,
       "step": 570
     },
     {
       "epoch": 4.41432720232333,
-      "eval_loss": 0.014609377831220627,
-      "eval_runtime": 4.8842,
-      "eval_samples_per_second": 10.237,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.014124446548521519,
+      "eval_runtime": 4.4028,
+      "eval_samples_per_second": 11.356,
+      "eval_steps_per_second": 2.953,
       "step": 570
     },
     {
       "epoch": 4.422071636011617,
-      "grad_norm": 0.0371798574924469,
+      "grad_norm": 0.03921718895435333,
       "learning_rate": 3.963007827797627e-06,
-      "loss": 0.0134,
+      "loss": 0.0146,
       "step": 571
     },
     {
       "epoch": 4.429816069699903,
-      "grad_norm": 0.024761347100138664,
+      "grad_norm": 0.02063320204615593,
       "learning_rate": 3.858013214970363e-06,
-      "loss": 0.0072,
+      "loss": 0.0057,
       "step": 572
     },
     {
       "epoch": 4.437560503388189,
-      "grad_norm": 0.023980263620615005,
+      "grad_norm": 0.02861708216369152,
       "learning_rate": 3.7543723537555585e-06,
-      "loss": 0.0091,
+      "loss": 0.0081,
       "step": 573
     },
     {
       "epoch": 4.445304937076476,
-      "grad_norm": 0.02221355028450489,
+      "grad_norm": 0.022752026095986366,
       "learning_rate": 3.6520882848541603e-06,
-      "loss": 0.0055,
+      "loss": 0.007,
       "step": 574
     },
     {
       "epoch": 4.453049370764763,
-      "grad_norm": 0.022976085543632507,
+      "grad_norm": 0.026500146836042404,
       "learning_rate": 3.551164009160429e-06,
-      "loss": 0.0067,
+      "loss": 0.0073,
       "step": 575
     },
     {
       "epoch": 4.453049370764763,
-      "eval_loss": 0.014659564942121506,
-      "eval_runtime": 4.8765,
-      "eval_samples_per_second": 10.253,
-      "eval_steps_per_second": 2.666,
+      "eval_loss": 0.014138166792690754,
+      "eval_runtime": 4.3847,
+      "eval_samples_per_second": 11.403,
+      "eval_steps_per_second": 2.965,
       "step": 575
     },
     {
       "epoch": 4.46079380445305,
-      "grad_norm": 0.029720356687903404,
+      "grad_norm": 0.031930096447467804,
       "learning_rate": 3.4516024876738883e-06,
-      "loss": 0.0092,
+      "loss": 0.0094,
       "step": 576
     },
     {
       "epoch": 4.468538238141336,
-      "grad_norm": 0.031045470386743546,
+      "grad_norm": 0.03620978817343712,
       "learning_rate": 3.35340664141246e-06,
-      "loss": 0.0143,
+      "loss": 0.0132,
       "step": 577
     },
     {
       "epoch": 4.4762826718296225,
-      "grad_norm": 0.026502283290028572,
+      "grad_norm": 0.033169616013765335,
       "learning_rate": 3.256579351326744e-06,
-      "loss": 0.0095,
+      "loss": 0.0082,
       "step": 578
     },
     {
       "epoch": 4.484027105517909,
-      "grad_norm": 0.024021372199058533,
+      "grad_norm": 0.022525381296873093,
       "learning_rate": 3.1611234582155537e-06,
       "loss": 0.0066,
       "step": 579
     },
     {
       "epoch": 4.491771539206195,
-      "grad_norm": 0.028039049357175827,
+      "grad_norm": 0.02931237779557705,
       "learning_rate": 3.067041762642475e-06,
-      "loss": 0.0119,
+      "loss": 0.0114,
       "step": 580
     },
     {
       "epoch": 4.491771539206195,
-      "eval_loss": 0.014740652404725552,
-      "eval_runtime": 4.8871,
-      "eval_samples_per_second": 10.231,
-      "eval_steps_per_second": 2.66,
+      "eval_loss": 0.014170495793223381,
+      "eval_runtime": 4.4146,
+      "eval_samples_per_second": 11.326,
+      "eval_steps_per_second": 2.945,
       "step": 580
     },
     {
       "epoch": 4.499515972894482,
-      "grad_norm": 0.029212895780801773,
+      "grad_norm": 0.026359669864177704,
       "learning_rate": 2.9743370248538017e-06,
-      "loss": 0.0103,
+      "loss": 0.0093,
       "step": 581
     },
     {
       "epoch": 4.507260406582769,
-      "grad_norm": 0.031230414286255836,
+      "grad_norm": 0.028039660304784775,
       "learning_rate": 2.8830119646974795e-06,
-      "loss": 0.012,
+      "loss": 0.0108,
       "step": 582
     },
     {
       "epoch": 4.515004840271056,
-      "grad_norm": 0.029624436050653458,
+      "grad_norm": 0.04683896154165268,
       "learning_rate": 2.793069261543335e-06,
-      "loss": 0.0088,
+      "loss": 0.0115,
       "step": 583
     },
     {
       "epoch": 4.522749273959342,
-      "grad_norm": 0.030751042068004608,
+      "grad_norm": 0.026938101276755333,
       "learning_rate": 2.7045115542044863e-06,
-      "loss": 0.0075,
+      "loss": 0.0072,
       "step": 584
     },
     {
       "epoch": 4.530493707647628,
-      "grad_norm": 0.025034423917531967,
+      "grad_norm": 0.02176631987094879,
       "learning_rate": 2.6173414408598827e-06,
-      "loss": 0.0061,
+      "loss": 0.0064,
       "step": 585
     },
     {
       "epoch": 4.530493707647628,
-      "eval_loss": 0.014803922735154629,
-      "eval_runtime": 4.8787,
-      "eval_samples_per_second": 10.249,
-      "eval_steps_per_second": 2.665,
+      "eval_loss": 0.014215817674994469,
+      "eval_runtime": 4.3799,
+      "eval_samples_per_second": 11.416,
+      "eval_steps_per_second": 2.968,
       "step": 585
     },
     {
       "epoch": 4.538238141335915,
-      "grad_norm": 0.033418022096157074,
+      "grad_norm": 0.036009158939123154,
       "learning_rate": 2.531561478978106e-06,
-      "loss": 0.0115,
+      "loss": 0.0126,
       "step": 586
     },
     {
       "epoch": 4.545982575024201,
-      "grad_norm": 0.02079368196427822,
+      "grad_norm": 0.01736406236886978,
       "learning_rate": 2.4471741852423237e-06,
-      "loss": 0.0054,
+      "loss": 0.005,
       "step": 587
     },
     {
       "epoch": 4.553727008712488,
-      "grad_norm": 0.02381896786391735,
+      "grad_norm": 0.020737022161483765,
       "learning_rate": 2.3641820354764754e-06,
       "loss": 0.008,
       "step": 588
     },
     {
       "epoch": 4.561471442400775,
-      "grad_norm": 0.02589632011950016,
+      "grad_norm": 0.023268405348062515,
       "learning_rate": 2.282587464572594e-06,
-      "loss": 0.007,
+      "loss": 0.0051,
       "step": 589
     },
     {
       "epoch": 4.569215876089061,
-      "grad_norm": 0.027822522446513176,
+      "grad_norm": 0.031557440757751465,
       "learning_rate": 2.202392866419423e-06,
-      "loss": 0.0099,
+      "loss": 0.011,
       "step": 590
     },
     {
       "epoch": 4.569215876089061,
-      "eval_loss": 0.014874737709760666,
-      "eval_runtime": 4.8841,
-      "eval_samples_per_second": 10.237,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.014235487207770348,
+      "eval_runtime": 4.3869,
+      "eval_samples_per_second": 11.398,
+      "eval_steps_per_second": 2.963,
       "step": 590
     },
     {
       "epoch": 4.5769603097773475,
-      "grad_norm": 0.029225606471300125,
+      "grad_norm": 0.02688080631196499,
       "learning_rate": 2.123600593832109e-06,
-      "loss": 0.0075,
+      "loss": 0.0082,
       "step": 591
     },
     {
       "epoch": 4.584704743465634,
-      "grad_norm": 0.0329628512263298,
+      "grad_norm": 0.025659406557679176,
       "learning_rate": 2.046212958483268e-06,
-      "loss": 0.0111,
+      "loss": 0.0086,
       "step": 592
     },
     {
       "epoch": 4.59244917715392,
-      "grad_norm": 0.023934243246912956,
+      "grad_norm": 0.03055460751056671,
       "learning_rate": 1.9702322308350674e-06,
-      "loss": 0.0066,
+      "loss": 0.0089,
       "step": 593
     },
     {
       "epoch": 4.600193610842207,
-      "grad_norm": 0.03325507417321205,
+      "grad_norm": 0.035748060792684555,
       "learning_rate": 1.895660640072683e-06,
-      "loss": 0.0129,
+      "loss": 0.0138,
       "step": 594
     },
     {
       "epoch": 4.607938044530494,
-      "grad_norm": 0.030898934230208397,
+      "grad_norm": 0.02365659736096859,
       "learning_rate": 1.8225003740388547e-06,
-      "loss": 0.0095,
+      "loss": 0.0088,
       "step": 595
     },
     {
       "epoch": 4.607938044530494,
-      "eval_loss": 0.01490810140967369,
-      "eval_runtime": 4.9411,
-      "eval_samples_per_second": 10.119,
-      "eval_steps_per_second": 2.631,
+      "eval_loss": 0.014199705794453621,
+      "eval_runtime": 4.3843,
+      "eval_samples_per_second": 11.404,
+      "eval_steps_per_second": 2.965,
       "step": 595
     },
     {
       "epoch": 4.615682478218781,
-      "grad_norm": 0.03055388107895851,
+      "grad_norm": 0.027468683198094368,
       "learning_rate": 1.7507535791697339e-06,
-      "loss": 0.0085,
+      "loss": 0.0087,
       "step": 596
     },
     {
       "epoch": 4.623426911907067,
-      "grad_norm": 0.0313650481402874,
+      "grad_norm": 0.030503327026963234,
       "learning_rate": 1.6804223604318825e-06,
-      "loss": 0.0102,
+      "loss": 0.0097,
       "step": 597
     },
     {
       "epoch": 4.631171345595353,
-      "grad_norm": 0.023773135617375374,
+      "grad_norm": 0.020194243639707565,
       "learning_rate": 1.6115087812605123e-06,
-      "loss": 0.0057,
+      "loss": 0.0071,
       "step": 598
     },
     {
       "epoch": 4.63891577928364,
-      "grad_norm": 0.030964914709329605,
+      "grad_norm": 0.03341412916779518,
       "learning_rate": 1.5440148634989826e-06,
-      "loss": 0.0086,
+      "loss": 0.0094,
       "step": 599
     },
     {
       "epoch": 4.646660212971926,
-      "grad_norm": 0.02739991620182991,
+      "grad_norm": 0.017528802156448364,
       "learning_rate": 1.4779425873394259e-06,
-      "loss": 0.0056,
+      "loss": 0.0049,
       "step": 600
     },
     {
       "epoch": 4.646660212971926,
-      "eval_loss": 0.01487812865525484,
-      "eval_runtime": 4.8913,
-      "eval_samples_per_second": 10.222,
-      "eval_steps_per_second": 2.658,
+      "eval_loss": 0.014156252145767212,
+      "eval_runtime": 4.3836,
+      "eval_samples_per_second": 11.406,
+      "eval_steps_per_second": 2.966,
       "step": 600
     },
     {
       "epoch": 4.654404646660213,
-      "grad_norm": 0.029686711728572845,
+      "grad_norm": 0.026105152443051338,
       "learning_rate": 1.413293891264722e-06,
-      "loss": 0.0094,
+      "loss": 0.0075,
       "step": 601
     },
     {
       "epoch": 4.6621490803485,
-      "grad_norm": 0.031117435544729233,
+      "grad_norm": 0.02391001582145691,
       "learning_rate": 1.350070671991549e-06,
-      "loss": 0.0062,
+      "loss": 0.0072,
       "step": 602
     },
     {
       "epoch": 4.6698935140367865,
-      "grad_norm": 0.03201832249760628,
+      "grad_norm": 0.03564263507723808,
       "learning_rate": 1.288274784414789e-06,
-      "loss": 0.0104,
+      "loss": 0.0101,
       "step": 603
     },
     {
       "epoch": 4.6776379477250725,
-      "grad_norm": 0.03937843069434166,
+      "grad_norm": 0.039392489939928055,
       "learning_rate": 1.227908041553083e-06,
-      "loss": 0.0143,
+      "loss": 0.0161,
       "step": 604
     },
     {
       "epoch": 4.685382381413359,
-      "grad_norm": 0.029048357158899307,
+      "grad_norm": 0.02236698567867279,
       "learning_rate": 1.1689722144956671e-06,
-      "loss": 0.0082,
+      "loss": 0.0079,
       "step": 605
     },
     {
       "epoch": 4.685382381413359,
-      "eval_loss": 0.014861347153782845,
-      "eval_runtime": 4.907,
-      "eval_samples_per_second": 10.189,
-      "eval_steps_per_second": 2.649,
+      "eval_loss": 0.014194218441843987,
+      "eval_runtime": 4.3813,
+      "eval_samples_per_second": 11.412,
+      "eval_steps_per_second": 2.967,
       "step": 605
     },
     {
       "epoch": 4.693126815101646,
-      "grad_norm": 0.03306948021054268,
+      "grad_norm": 0.026224391534924507,
       "learning_rate": 1.1114690323503652e-06,
-      "loss": 0.0083,
+      "loss": 0.01,
       "step": 606
     },
     {
       "epoch": 4.700871248789932,
-      "grad_norm": 0.022601239383220673,
+      "grad_norm": 0.020556289702653885,
       "learning_rate": 1.055400182192906e-06,
-      "loss": 0.0073,
+      "loss": 0.0082,
       "step": 607
     },
     {
       "epoch": 4.708615682478219,
-      "grad_norm": 0.03448133543133736,
+      "grad_norm": 0.02937549352645874,
       "learning_rate": 1.0007673090173808e-06,
-      "loss": 0.0131,
+      "loss": 0.0101,
       "step": 608
     },
     {
       "epoch": 4.716360116166506,
-      "grad_norm": 0.030954794958233833,
+      "grad_norm": 0.04566709324717522,
       "learning_rate": 9.475720156880419e-07,
-      "loss": 0.0142,
+      "loss": 0.0177,
       "step": 609
     },
     {
       "epoch": 4.724104549854792,
-      "grad_norm": 0.023078350350260735,
+      "grad_norm": 0.024665864184498787,
       "learning_rate": 8.958158628922019e-07,
-      "loss": 0.0071,
+      "loss": 0.0061,
       "step": 610
     },
     {
       "epoch": 4.724104549854792,
-      "eval_loss": 0.014815458096563816,
-      "eval_runtime": 4.8854,
-      "eval_samples_per_second": 10.235,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.014207074418663979,
+      "eval_runtime": 4.3956,
+      "eval_samples_per_second": 11.375,
+      "eval_steps_per_second": 2.958,
       "step": 610
     },
     {
       "epoch": 4.731848983543078,
-      "grad_norm": 0.04069937393069267,
+      "grad_norm": 0.038001518696546555,
       "learning_rate": 8.455003690945041e-07,
-      "loss": 0.0127,
+      "loss": 0.0125,
       "step": 611
     },
     {
       "epoch": 4.739593417231365,
-      "grad_norm": 0.03061266802251339,
+      "grad_norm": 0.023636765778064728,
       "learning_rate": 7.966270104923457e-07,
-      "loss": 0.0074,
+      "loss": 0.008,
       "step": 612
     },
     {
       "epoch": 4.747337850919651,
-      "grad_norm": 0.028428025543689728,
+      "grad_norm": 0.03029024600982666,
       "learning_rate": 7.491972209725806e-07,
-      "loss": 0.0079,
+      "loss": 0.0087,
       "step": 613
     },
     {
       "epoch": 4.755082284607938,
-      "grad_norm": 0.028242439031600952,
+      "grad_norm": 0.033240076154470444,
       "learning_rate": 7.032123920694356e-07,
-      "loss": 0.0117,
+      "loss": 0.0132,
       "step": 614
     },
     {
       "epoch": 4.762826718296225,
-      "grad_norm": 0.033104002475738525,
+      "grad_norm": 0.03281666710972786,
       "learning_rate": 6.58673872923693e-07,
-      "loss": 0.013,
+      "loss": 0.012,
       "step": 615
     },
     {
       "epoch": 4.762826718296225,
-      "eval_loss": 0.014770575799047947,
-      "eval_runtime": 4.8913,
-      "eval_samples_per_second": 10.222,
-      "eval_steps_per_second": 2.658,
+      "eval_loss": 0.014188296161592007,
+      "eval_runtime": 4.3999,
+      "eval_samples_per_second": 11.364,
+      "eval_steps_per_second": 2.955,
       "step": 615
     },
     {
       "epoch": 4.770571151984511,
-      "grad_norm": 0.019485721364617348,
+      "grad_norm": 0.022298675030469894,
       "learning_rate": 6.15582970243117e-07,
-      "loss": 0.0058,
+      "loss": 0.0057,
       "step": 616
     },
     {
       "epoch": 4.7783155856727975,
-      "grad_norm": 0.03126183897256851,
+      "grad_norm": 0.03161963075399399,
       "learning_rate": 5.739409482640956e-07,
-      "loss": 0.0113,
+      "loss": 0.0114,
       "step": 617
     },
     {
       "epoch": 4.786060019361084,
-      "grad_norm": 0.025258295238018036,
+      "grad_norm": 0.021711550652980804,
       "learning_rate": 5.337490287145696e-07,
-      "loss": 0.0063,
+      "loss": 0.0061,
       "step": 618
     },
     {
       "epoch": 4.793804453049371,
-      "grad_norm": 0.028379211202263832,
+      "grad_norm": 0.030854670330882072,
       "learning_rate": 4.950083907781733e-07,
-      "loss": 0.0114,
+      "loss": 0.0109,
       "step": 619
     },
     {
       "epoch": 4.801548886737657,
-      "grad_norm": 0.02911349944770336,
+      "grad_norm": 0.033852025866508484,
       "learning_rate": 4.577201710596612e-07,
-      "loss": 0.0098,
+      "loss": 0.0107,
       "step": 620
     },
     {
       "epoch": 4.801548886737657,
-      "eval_loss": 0.014800284057855606,
-      "eval_runtime": 4.9525,
-      "eval_samples_per_second": 10.096,
-      "eval_steps_per_second": 2.625,
+      "eval_loss": 0.014202372170984745,
+      "eval_runtime": 4.3771,
+      "eval_samples_per_second": 11.423,
+      "eval_steps_per_second": 2.97,
       "step": 620
     },
     {
       "epoch": 4.809293320425944,
-      "grad_norm": 0.02293875440955162,
+      "grad_norm": 0.023144640028476715,
       "learning_rate": 4.2188546355153013e-07,
-      "loss": 0.0067,
+      "loss": 0.0074,
       "step": 621
     },
     {
       "epoch": 4.817037754114231,
-      "grad_norm": 0.029778452590107918,
+      "grad_norm": 0.02478072978556156,
       "learning_rate": 3.8750531960194404e-07,
-      "loss": 0.0085,
+      "loss": 0.0086,
       "step": 622
     },
     {
       "epoch": 4.8247821878025166,
-      "grad_norm": 0.025466740131378174,
+      "grad_norm": 0.029951592907309532,
       "learning_rate": 3.5458074788387586e-07,
-      "loss": 0.0073,
+      "loss": 0.0076,
       "step": 623
     },
     {
       "epoch": 4.832526621490803,
-      "grad_norm": 0.027897918596863747,
+      "grad_norm": 0.01997525617480278,
       "learning_rate": 3.2311271436554214e-07,
-      "loss": 0.0054,
+      "loss": 0.0057,
       "step": 624
     },
     {
       "epoch": 4.84027105517909,
-      "grad_norm": 0.035511862486600876,
+      "grad_norm": 0.03244117274880409,
       "learning_rate": 2.9310214228202013e-07,
-      "loss": 0.0099,
+      "loss": 0.0104,
       "step": 625
     },
     {
       "epoch": 4.84027105517909,
-      "eval_loss": 0.014806985855102539,
-      "eval_runtime": 4.8947,
-      "eval_samples_per_second": 10.215,
-      "eval_steps_per_second": 2.656,
+      "eval_loss": 0.014163807965815067,
+      "eval_runtime": 4.4035,
+      "eval_samples_per_second": 11.355,
+      "eval_steps_per_second": 2.952,
       "step": 625
     },
     {
       "epoch": 4.848015488867377,
-      "grad_norm": 0.02574082277715206,
+      "grad_norm": 0.026225412264466286,
       "learning_rate": 2.645499121081918e-07,
-      "loss": 0.0079,
+      "loss": 0.0076,
       "step": 626
     },
     {
       "epoch": 4.855759922555663,
-      "grad_norm": 0.02519819885492325,
+      "grad_norm": 0.0230186078697443,
       "learning_rate": 2.3745686153290313e-07,
-      "loss": 0.0064,
+      "loss": 0.0073,
       "step": 627
     },
     {
       "epoch": 4.86350435624395,
-      "grad_norm": 0.019594265148043633,
+      "grad_norm": 0.024355830624699593,
       "learning_rate": 2.1182378543438408e-07,
-      "loss": 0.0063,
+      "loss": 0.0067,
       "step": 628
     },
     {
       "epoch": 4.8712487899322365,
-      "grad_norm": 0.02448831871151924,
+      "grad_norm": 0.024597806856036186,
       "learning_rate": 1.8765143585693922e-07,
-      "loss": 0.0079,
+      "loss": 0.0075,
       "step": 629
     },
     {
       "epoch": 4.8789932236205225,
-      "grad_norm": 0.038438599556684494,
+      "grad_norm": 0.029924264177680016,
       "learning_rate": 1.6494052198886555e-07,
-      "loss": 0.0113,
+      "loss": 0.0117,
       "step": 630
     },
     {
       "epoch": 4.8789932236205225,
-      "eval_loss": 0.01481575332581997,
-      "eval_runtime": 4.8807,
-      "eval_samples_per_second": 10.244,
-      "eval_steps_per_second": 2.664,
+      "eval_loss": 0.014171132817864418,
+      "eval_runtime": 4.3853,
+      "eval_samples_per_second": 11.402,
+      "eval_steps_per_second": 2.964,
       "step": 630
     },
     {
       "epoch": 4.886737657308809,
-      "grad_norm": 0.023797594010829926,
+      "grad_norm": 0.018734289333224297,
       "learning_rate": 1.4369171014165794e-07,
-      "loss": 0.0049,
+      "loss": 0.0048,
       "step": 631
     },
     {
       "epoch": 4.894482090997096,
-      "grad_norm": 0.03225729987025261,
+      "grad_norm": 0.03172624111175537,
       "learning_rate": 1.2390562373046367e-07,
-      "loss": 0.0084,
+      "loss": 0.0082,
       "step": 632
     },
     {
       "epoch": 4.902226524685382,
-      "grad_norm": 0.03375403210520744,
+      "grad_norm": 0.03550919145345688,
       "learning_rate": 1.0558284325578038e-07,
-      "loss": 0.009,
+      "loss": 0.0095,
       "step": 633
     },
     {
       "epoch": 4.909970958373669,
-      "grad_norm": 0.039523348212242126,
+      "grad_norm": 0.02223341353237629,
       "learning_rate": 8.872390628643646e-08,
-      "loss": 0.008,
+      "loss": 0.007,
       "step": 634
     },
     {
       "epoch": 4.917715392061956,
-      "grad_norm": 0.03767726570367813,
+      "grad_norm": 0.03693339601159096,
       "learning_rate": 7.332930744380906e-08,
-      "loss": 0.0128,
+      "loss": 0.013,
       "step": 635
     },
     {
       "epoch": 4.917715392061956,
-      "eval_loss": 0.014787551015615463,
-      "eval_runtime": 4.884,
-      "eval_samples_per_second": 10.237,
-      "eval_steps_per_second": 2.662,
+      "eval_loss": 0.0141725679859519,
+      "eval_runtime": 4.3795,
+      "eval_samples_per_second": 11.417,
+      "eval_steps_per_second": 2.968,
       "step": 635
     },
     {
       "epoch": 4.9254598257502415,
-      "grad_norm": 0.028903989121317863,
+      "grad_norm": 0.026395732536911964,
       "learning_rate": 5.9399498387313625e-08,
-      "loss": 0.0082,
+      "loss": 0.007,
       "step": 636
     },
     {
       "epoch": 4.933204259438528,
-      "grad_norm": 0.026451796293258667,
+      "grad_norm": 0.020851749926805496,
       "learning_rate": 4.6934887801164396e-08,
-      "loss": 0.0086,
+      "loss": 0.0057,
       "step": 637
     },
     {
       "epoch": 4.940948693126815,
-      "grad_norm": 0.03643113374710083,
+      "grad_norm": 0.031540464609861374,
       "learning_rate": 3.593584138237294e-08,
-      "loss": 0.0072,
+      "loss": 0.0073,
       "step": 638
     },
     {
       "epoch": 4.948693126815102,
-      "grad_norm": 0.02226923778653145,
+      "grad_norm": 0.03027508594095707,
       "learning_rate": 2.6402681830023367e-08,
-      "loss": 0.0067,
+      "loss": 0.0078,
       "step": 639
     },
     {
       "epoch": 4.956437560503388,
-      "grad_norm": 0.029183663427829742,
+      "grad_norm": 0.02472063899040222,
       "learning_rate": 1.8335688835802167e-08,
-      "loss": 0.0076,
+      "loss": 0.0079,
       "step": 640
     },
     {
       "epoch": 4.956437560503388,
-      "eval_loss": 0.014783758670091629,
-      "eval_runtime": 4.8914,
-      "eval_samples_per_second": 10.222,
-      "eval_steps_per_second": 2.658,
+      "eval_loss": 0.014218751341104507,
+      "eval_runtime": 4.3853,
+      "eval_samples_per_second": 11.402,
+      "eval_steps_per_second": 2.964,
       "step": 640
     },
     {
       "epoch": 4.964181994191675,
-      "grad_norm": 0.0250617153942585,
+      "grad_norm": 0.019472140818834305,
       "learning_rate": 1.173509907579362e-08,
-      "loss": 0.0076,
+      "loss": 0.0056,
       "step": 641
     },
     {
       "epoch": 4.9719264278799615,
-      "grad_norm": 0.02384646050632,
+      "grad_norm": 0.02013242617249489,
       "learning_rate": 6.601106203535379e-09,
-      "loss": 0.0076,
+      "loss": 0.0068,
       "step": 642
     },
     {
       "epoch": 4.9796708615682475,
-      "grad_norm": 0.03039230965077877,
+      "grad_norm": 0.028774941340088844,
       "learning_rate": 2.9338608443452154e-09,
-      "loss": 0.0098,
+      "loss": 0.0099,
       "step": 643
     },
     {
       "epoch": 4.987415295256534,
-      "grad_norm": 0.029255622997879982,
+      "grad_norm": 0.02832302264869213,
       "learning_rate": 7.334705908745854e-10,
-      "loss": 0.0073,
+      "loss": 0.0091,
       "step": 644
     },
     {
       "epoch": 4.995159728944821,
-      "grad_norm": 0.03153900057077408,
+      "grad_norm": 0.029083870351314545,
       "learning_rate": 0.0,
-      "loss": 0.0095,
+      "loss": 0.0082,
       "step": 645
     },
     {
       "epoch": 4.995159728944821,
-      "eval_loss": 0.014772945083677769,
-      "eval_runtime": 4.8858,
-      "eval_samples_per_second": 10.234,
-      "eval_steps_per_second": 2.661,
+      "eval_loss": 0.014191328547894955,
+      "eval_runtime": 4.4062,
+      "eval_samples_per_second": 11.348,
+      "eval_steps_per_second": 2.95,
       "step": 645
     },
     {
       "epoch": 4.995159728944821,
       "step": 645,
-      "total_flos": 8.673571522147123e+17,
-      "train_loss": 0.018316316543969997,
-      "train_runtime": 6901.9145,
-      "train_samples_per_second": 2.993,
-      "train_steps_per_second": 0.093
+      "total_flos": 8.671508285069722e+17,
+      "train_loss": 0.018418933986144703,
+      "train_runtime": 6828.7584,
+      "train_samples_per_second": 3.025,
+      "train_steps_per_second": 0.094
     }
   ],
   "logging_steps": 1,
@@ -5582,7 +5582,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.673571522147123e+17,
+  "total_flos": 8.671508285069722e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null