diff --git "a/trainer_state.json" "b/trainer_state.json"
--- "a/trainer_state.json"
+++ "b/trainer_state.json"
@@ -1,13707 +1,6867 @@
 {
-  "best_metric": 0.4892176389694214,
-  "best_model_checkpoint": "vit-base-kidney-stone-Michel_Daudon_-w256_1k_v1-_MIX\\checkpoint-1900",
-  "epoch": 30.0,
+  "best_metric": 0.49404826760292053,
+  "best_model_checkpoint": "vit-base-kidney-stone-Michel_Daudon_-w256_1k_v1-_MIX\\checkpoint-100",
+  "epoch": 15.0,
   "eval_steps": 100,
-  "global_step": 9000,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.016666666666666666,
-      "grad_norm": 1.7575280666351318,
-      "learning_rate": 0.0001998888888888889,
-      "loss": 1.6537,
+      "grad_norm": 1.9064857959747314,
+      "learning_rate": 0.0001997777777777778,
+      "loss": 1.7094,
       "step": 5
     },
     {
       "epoch": 0.03333333333333333,
-      "grad_norm": 2.239774465560913,
-      "learning_rate": 0.0001997777777777778,
-      "loss": 1.3428,
+      "grad_norm": 2.7905783653259277,
+      "learning_rate": 0.00019955555555555558,
+      "loss": 1.4593,
       "step": 10
     },
     {
       "epoch": 0.05,
-      "grad_norm": 2.6088061332702637,
-      "learning_rate": 0.00019966666666666668,
-      "loss": 1.067,
+      "grad_norm": 1.8204519748687744,
+      "learning_rate": 0.00019933333333333334,
+      "loss": 1.1462,
       "step": 15
     },
     {
       "epoch": 0.06666666666666667,
-      "grad_norm": 2.2520010471343994,
-      "learning_rate": 0.00019955555555555558,
-      "loss": 0.9642,
+      "grad_norm": 1.706943154335022,
+      "learning_rate": 0.00019911111111111111,
+      "loss": 0.9582,
       "step": 20
     },
     {
       "epoch": 0.08333333333333333,
-      "grad_norm": 3.0229618549346924,
-      "learning_rate": 0.00019944444444444445,
-      "loss": 0.7568,
+      "grad_norm": 3.0309908390045166,
+      "learning_rate": 0.0001988888888888889,
+      "loss": 0.7536,
       "step": 25
     },
     {
       "epoch": 0.1,
-      "grad_norm": 2.241093873977661,
-      "learning_rate": 0.00019933333333333334,
-      "loss": 0.7595,
+      "grad_norm": 1.9617438316345215,
+      "learning_rate": 0.00019866666666666668,
+      "loss": 0.676,
       "step": 30
     },
     {
       "epoch": 0.11666666666666667,
-      "grad_norm": 2.076584577560425,
-      "learning_rate": 0.00019922222222222222,
-      "loss": 0.7373,
+      "grad_norm": 1.9273114204406738,
+      "learning_rate": 0.00019844444444444445,
+      "loss": 0.5552,
       "step": 35
     },
     {
       "epoch": 0.13333333333333333,
-      "grad_norm": 2.7718095779418945,
-      "learning_rate": 0.00019911111111111111,
-      "loss": 0.6494,
+      "grad_norm": 3.4164087772369385,
+      "learning_rate": 0.00019822222222222225,
+      "loss": 0.6516,
       "step": 40
     },
     {
       "epoch": 0.15,
-      "grad_norm": 2.384659767150879,
-      "learning_rate": 0.000199,
-      "loss": 0.4462,
+      "grad_norm": 3.5544183254241943,
+      "learning_rate": 0.00019800000000000002,
+      "loss": 0.5647,
       "step": 45
     },
     {
       "epoch": 0.16666666666666666,
-      "grad_norm": 3.0616390705108643,
-      "learning_rate": 0.0001988888888888889,
-      "loss": 0.4696,
+      "grad_norm": 3.6793570518493652,
+      "learning_rate": 0.00019777777777777778,
+      "loss": 0.486,
       "step": 50
     },
     {
       "epoch": 0.18333333333333332,
-      "grad_norm": 2.308093786239624,
-      "learning_rate": 0.0001987777777777778,
-      "loss": 0.3844,
+      "grad_norm": 2.249004364013672,
+      "learning_rate": 0.00019755555555555555,
+      "loss": 0.3747,
       "step": 55
     },
     {
       "epoch": 0.2,
-      "grad_norm": 1.1798769235610962,
-      "learning_rate": 0.00019866666666666668,
-      "loss": 0.3304,
+      "grad_norm": 3.5101637840270996,
+      "learning_rate": 0.00019733333333333335,
+      "loss": 0.47,
       "step": 60
     },
     {
       "epoch": 0.21666666666666667,
-      "grad_norm": 4.37687349319458,
-      "learning_rate": 0.00019855555555555555,
-      "loss": 0.3106,
+      "grad_norm": 1.7197117805480957,
+      "learning_rate": 0.00019711111111111112,
+      "loss": 0.3378,
       "step": 65
     },
     {
       "epoch": 0.23333333333333334,
-      "grad_norm": 2.5567283630371094,
-      "learning_rate": 0.00019844444444444445,
-      "loss": 0.3691,
+      "grad_norm": 2.20279598236084,
+      "learning_rate": 0.0001968888888888889,
+      "loss": 0.3737,
       "step": 70
     },
     {
       "epoch": 0.25,
-      "grad_norm": 1.4980002641677856,
-      "learning_rate": 0.00019833333333333335,
-      "loss": 0.2298,
+      "grad_norm": 1.9954789876937866,
+      "learning_rate": 0.00019666666666666666,
+      "loss": 0.2932,
       "step": 75
     },
     {
       "epoch": 0.26666666666666666,
-      "grad_norm": 3.9859678745269775,
-      "learning_rate": 0.00019822222222222225,
-      "loss": 0.3213,
+      "grad_norm": 3.8087406158447266,
+      "learning_rate": 0.00019644444444444445,
+      "loss": 0.4012,
       "step": 80
     },
     {
       "epoch": 0.2833333333333333,
-      "grad_norm": 1.6726502180099487,
-      "learning_rate": 0.00019811111111111112,
-      "loss": 0.3258,
+      "grad_norm": 2.9667723178863525,
+      "learning_rate": 0.00019622222222222225,
+      "loss": 0.3963,
       "step": 85
     },
     {
       "epoch": 0.3,
-      "grad_norm": 3.702517509460449,
-      "learning_rate": 0.00019800000000000002,
-      "loss": 0.2331,
+      "grad_norm": 1.8624991178512573,
+      "learning_rate": 0.000196,
+      "loss": 0.2989,
       "step": 90
     },
     {
       "epoch": 0.31666666666666665,
-      "grad_norm": 0.5436533093452454,
-      "learning_rate": 0.0001978888888888889,
-      "loss": 0.2113,
+      "grad_norm": 1.9633820056915283,
+      "learning_rate": 0.0001957777777777778,
+      "loss": 0.2265,
       "step": 95
     },
     {
       "epoch": 0.3333333333333333,
-      "grad_norm": 3.0394375324249268,
-      "learning_rate": 0.00019777777777777778,
-      "loss": 0.3419,
+      "grad_norm": 3.80328106880188,
+      "learning_rate": 0.00019555555555555556,
+      "loss": 0.1919,
       "step": 100
     },
     {
       "epoch": 0.3333333333333333,
-      "eval_accuracy": 0.8104166666666667,
-      "eval_f1": 0.8037348597648912,
-      "eval_loss": 0.5920196771621704,
-      "eval_precision": 0.8329260666124263,
-      "eval_recall": 0.8104166666666667,
-      "eval_runtime": 19.3414,
-      "eval_samples_per_second": 124.086,
-      "eval_steps_per_second": 15.511,
+      "eval_accuracy": 0.83375,
+      "eval_f1": 0.8355968544321966,
+      "eval_loss": 0.49404826760292053,
+      "eval_precision": 0.8588680878951838,
+      "eval_recall": 0.83375,
+      "eval_runtime": 19.6143,
+      "eval_samples_per_second": 122.36,
+      "eval_steps_per_second": 15.295,
       "step": 100
     },
     {
       "epoch": 0.35,
-      "grad_norm": 1.8970186710357666,
-      "learning_rate": 0.00019766666666666666,
-      "loss": 0.2765,
+      "grad_norm": 5.658657073974609,
+      "learning_rate": 0.00019533333333333336,
+      "loss": 0.2803,
       "step": 105
     },
     {
       "epoch": 0.36666666666666664,
-      "grad_norm": 1.5360679626464844,
-      "learning_rate": 0.00019755555555555555,
-      "loss": 0.2353,
+      "grad_norm": 3.1921985149383545,
+      "learning_rate": 0.0001951111111111111,
+      "loss": 0.3077,
       "step": 110
     },
     {
       "epoch": 0.38333333333333336,
-      "grad_norm": 3.6116840839385986,
-      "learning_rate": 0.00019744444444444445,
-      "loss": 0.2738,
+      "grad_norm": 3.844204902648926,
+      "learning_rate": 0.0001948888888888889,
+      "loss": 0.2994,
       "step": 115
     },
     {
       "epoch": 0.4,
-      "grad_norm": 3.6358067989349365,
-      "learning_rate": 0.00019733333333333335,
-      "loss": 0.2935,
+      "grad_norm": 4.315810203552246,
+      "learning_rate": 0.0001946666666666667,
+      "loss": 0.1864,
       "step": 120
     },
     {
       "epoch": 0.4166666666666667,
-      "grad_norm": 3.661120653152466,
-      "learning_rate": 0.00019722222222222225,
-      "loss": 0.2425,
+      "grad_norm": 5.215671539306641,
+      "learning_rate": 0.00019444444444444446,
+      "loss": 0.2488,
       "step": 125
     },
     {
       "epoch": 0.43333333333333335,
-      "grad_norm": 3.818962574005127,
-      "learning_rate": 0.00019711111111111112,
-      "loss": 0.2794,
+      "grad_norm": 3.103822708129883,
+      "learning_rate": 0.00019422222222222223,
+      "loss": 0.3068,
       "step": 130
     },
     {
       "epoch": 0.45,
-      "grad_norm": 3.4926016330718994,
-      "learning_rate": 0.00019700000000000002,
-      "loss": 0.2348,
+      "grad_norm": 0.7061305642127991,
+      "learning_rate": 0.000194,
+      "loss": 0.1777,
       "step": 135
     },
     {
       "epoch": 0.4666666666666667,
-      "grad_norm": 3.391545295715332,
-      "learning_rate": 0.0001968888888888889,
-      "loss": 0.2721,
+      "grad_norm": 2.6940581798553467,
+      "learning_rate": 0.0001937777777777778,
+      "loss": 0.2376,
       "step": 140
     },
     {
       "epoch": 0.48333333333333334,
-      "grad_norm": 2.5546278953552246,
-      "learning_rate": 0.0001967777777777778,
-      "loss": 0.2702,
+      "grad_norm": 1.1854926347732544,
+      "learning_rate": 0.00019355555555555557,
+      "loss": 0.2264,
       "step": 145
     },
     {
       "epoch": 0.5,
-      "grad_norm": 2.7241134643554688,
-      "learning_rate": 0.00019666666666666666,
-      "loss": 0.1186,
+      "grad_norm": 3.0454626083374023,
+      "learning_rate": 0.00019333333333333333,
+      "loss": 0.132,
       "step": 150
     },
     {
       "epoch": 0.5166666666666667,
-      "grad_norm": 3.302971124649048,
-      "learning_rate": 0.00019655555555555556,
-      "loss": 0.2457,
+      "grad_norm": 1.9664143323898315,
+      "learning_rate": 0.0001931111111111111,
+      "loss": 0.1079,
       "step": 155
     },
     {
       "epoch": 0.5333333333333333,
-      "grad_norm": 1.8170207738876343,
-      "learning_rate": 0.00019644444444444445,
-      "loss": 0.1694,
+      "grad_norm": 1.7733229398727417,
+      "learning_rate": 0.0001928888888888889,
+      "loss": 0.1218,
       "step": 160
     },
     {
       "epoch": 0.55,
-      "grad_norm": 3.637444257736206,
-      "learning_rate": 0.00019633333333333335,
-      "loss": 0.1459,
+      "grad_norm": 1.5969592332839966,
+      "learning_rate": 0.0001926666666666667,
+      "loss": 0.1428,
       "step": 165
     },
     {
       "epoch": 0.5666666666666667,
-      "grad_norm": 5.878379821777344,
-      "learning_rate": 0.00019622222222222225,
-      "loss": 0.2476,
+      "grad_norm": 5.696412563323975,
+      "learning_rate": 0.00019244444444444444,
+      "loss": 0.1614,
       "step": 170
     },
     {
       "epoch": 0.5833333333333334,
-      "grad_norm": 0.23280678689479828,
-      "learning_rate": 0.00019611111111111112,
-      "loss": 0.1386,
+      "grad_norm": 2.1628549098968506,
+      "learning_rate": 0.00019222222222222224,
+      "loss": 0.1757,
       "step": 175
     },
     {
       "epoch": 0.6,
-      "grad_norm": 3.800858974456787,
-      "learning_rate": 0.000196,
-      "loss": 0.1907,
+      "grad_norm": 2.9628496170043945,
+      "learning_rate": 0.000192,
+      "loss": 0.2107,
       "step": 180
     },
     {
       "epoch": 0.6166666666666667,
-      "grad_norm": 2.076817274093628,
-      "learning_rate": 0.0001958888888888889,
-      "loss": 0.1731,
+      "grad_norm": 2.077115535736084,
+      "learning_rate": 0.0001917777777777778,
+      "loss": 0.1429,
       "step": 185
     },
     {
       "epoch": 0.6333333333333333,
-      "grad_norm": 5.865987777709961,
-      "learning_rate": 0.0001957777777777778,
-      "loss": 0.3662,
+      "grad_norm": 3.4383513927459717,
+      "learning_rate": 0.00019155555555555554,
+      "loss": 0.1408,
       "step": 190
     },
     {
       "epoch": 0.65,
-      "grad_norm": 0.6317228674888611,
-      "learning_rate": 0.0001956666666666667,
-      "loss": 0.2164,
+      "grad_norm": 1.9439654350280762,
+      "learning_rate": 0.00019133333333333334,
+      "loss": 0.2277,
       "step": 195
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 3.592862606048584,
-      "learning_rate": 0.00019555555555555556,
-      "loss": 0.1693,
+      "grad_norm": 3.0688512325286865,
+      "learning_rate": 0.00019111111111111114,
+      "loss": 0.1697,
       "step": 200
     },
     {
       "epoch": 0.6666666666666666,
-      "eval_accuracy": 0.8054166666666667,
-      "eval_f1": 0.8085017430590019,
-      "eval_loss": 0.6791102290153503,
-      "eval_precision": 0.8274404713362377,
-      "eval_recall": 0.8054166666666667,
-      "eval_runtime": 16.4158,
-      "eval_samples_per_second": 146.201,
-      "eval_steps_per_second": 18.275,
+      "eval_accuracy": 0.8091666666666667,
+      "eval_f1": 0.8058565506725107,
+      "eval_loss": 0.6992664337158203,
+      "eval_precision": 0.8484515744733175,
+      "eval_recall": 0.8091666666666667,
+      "eval_runtime": 16.2767,
+      "eval_samples_per_second": 147.45,
+      "eval_steps_per_second": 18.431,
       "step": 200
     },
     {
       "epoch": 0.6833333333333333,
-      "grad_norm": 1.3022174835205078,
-      "learning_rate": 0.00019544444444444446,
-      "loss": 0.1451,
+      "grad_norm": 2.3009352684020996,
+      "learning_rate": 0.0001908888888888889,
+      "loss": 0.182,
       "step": 205
     },
     {
       "epoch": 0.7,
-      "grad_norm": 1.6777466535568237,
-      "learning_rate": 0.00019533333333333336,
-      "loss": 0.1191,
+      "grad_norm": 2.4892539978027344,
+      "learning_rate": 0.00019066666666666668,
+      "loss": 0.1905,
       "step": 210
     },
     {
       "epoch": 0.7166666666666667,
-      "grad_norm": 9.961943626403809,
-      "learning_rate": 0.00019522222222222223,
-      "loss": 0.2022,
+      "grad_norm": 4.452750205993652,
+      "learning_rate": 0.00019044444444444444,
+      "loss": 0.1919,
       "step": 215
     },
     {
       "epoch": 0.7333333333333333,
-      "grad_norm": 5.279577255249023,
-      "learning_rate": 0.0001951111111111111,
-      "loss": 0.2409,
+      "grad_norm": 5.22628116607666,
+      "learning_rate": 0.00019022222222222224,
+      "loss": 0.2431,
       "step": 220
     },
     {
       "epoch": 0.75,
-      "grad_norm": 4.718049049377441,
-      "learning_rate": 0.000195,
-      "loss": 0.18,
+      "grad_norm": 0.6624262928962708,
+      "learning_rate": 0.00019,
+      "loss": 0.1524,
       "step": 225
     },
     {
       "epoch": 0.7666666666666667,
-      "grad_norm": 3.50532603263855,
-      "learning_rate": 0.0001948888888888889,
-      "loss": 0.1734,
+      "grad_norm": 2.029726505279541,
+      "learning_rate": 0.00018977777777777778,
+      "loss": 0.1629,
       "step": 230
     },
     {
       "epoch": 0.7833333333333333,
-      "grad_norm": 4.378666877746582,
-      "learning_rate": 0.0001947777777777778,
-      "loss": 0.1661,
+      "grad_norm": 5.0926432609558105,
+      "learning_rate": 0.00018955555555555558,
+      "loss": 0.2157,
       "step": 235
     },
     {
       "epoch": 0.8,
-      "grad_norm": 2.3236806392669678,
-      "learning_rate": 0.0001946666666666667,
-      "loss": 0.1863,
+      "grad_norm": 8.236963272094727,
+      "learning_rate": 0.00018933333333333335,
+      "loss": 0.3344,
       "step": 240
     },
     {
       "epoch": 0.8166666666666667,
-      "grad_norm": 0.8682406544685364,
-      "learning_rate": 0.00019455555555555556,
-      "loss": 0.0993,
+      "grad_norm": 7.307300567626953,
+      "learning_rate": 0.00018911111111111112,
+      "loss": 0.2596,
       "step": 245
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 2.807497262954712,
-      "learning_rate": 0.00019444444444444446,
-      "loss": 0.1905,
+      "grad_norm": 2.3130578994750977,
+      "learning_rate": 0.00018888888888888888,
+      "loss": 0.2115,
       "step": 250
     },
     {
       "epoch": 0.85,
-      "grad_norm": 0.17561952769756317,
-      "learning_rate": 0.00019433333333333333,
-      "loss": 0.2684,
+      "grad_norm": 0.5068075060844421,
+      "learning_rate": 0.00018866666666666668,
+      "loss": 0.2243,
       "step": 255
     },
     {
       "epoch": 0.8666666666666667,
-      "grad_norm": 0.3161854147911072,
-      "learning_rate": 0.00019422222222222223,
-      "loss": 0.2887,
+      "grad_norm": 2.3893234729766846,
+      "learning_rate": 0.00018844444444444445,
+      "loss": 0.1137,
       "step": 260
     },
     {
       "epoch": 0.8833333333333333,
-      "grad_norm": 4.627614498138428,
-      "learning_rate": 0.0001941111111111111,
-      "loss": 0.2264,
+      "grad_norm": 0.2729203402996063,
+      "learning_rate": 0.00018822222222222222,
+      "loss": 0.1274,
       "step": 265
     },
     {
       "epoch": 0.9,
-      "grad_norm": 0.9844505786895752,
-      "learning_rate": 0.000194,
-      "loss": 0.1595,
+      "grad_norm": 1.9677048921585083,
+      "learning_rate": 0.000188,
+      "loss": 0.0976,
       "step": 270
     },
     {
       "epoch": 0.9166666666666666,
-      "grad_norm": 1.0909786224365234,
-      "learning_rate": 0.0001938888888888889,
-      "loss": 0.1181,
+      "grad_norm": 3.91174578666687,
+      "learning_rate": 0.00018777777777777779,
+      "loss": 0.1093,
       "step": 275
     },
     {
       "epoch": 0.9333333333333333,
-      "grad_norm": 0.2937873899936676,
-      "learning_rate": 0.0001937777777777778,
-      "loss": 0.1832,
+      "grad_norm": 5.099088668823242,
+      "learning_rate": 0.00018755555555555558,
+      "loss": 0.1828,
       "step": 280
     },
     {
       "epoch": 0.95,
-      "grad_norm": 0.8012539744377136,
-      "learning_rate": 0.0001936666666666667,
-      "loss": 0.1029,
+      "grad_norm": 0.11100547760725021,
+      "learning_rate": 0.00018733333333333335,
+      "loss": 0.1379,
       "step": 285
     },
     {
       "epoch": 0.9666666666666667,
-      "grad_norm": 0.6252049207687378,
-      "learning_rate": 0.00019355555555555557,
-      "loss": 0.1341,
+      "grad_norm": 3.4891722202301025,
+      "learning_rate": 0.00018711111111111112,
+      "loss": 0.1675,
       "step": 290
     },
     {
       "epoch": 0.9833333333333333,
-      "grad_norm": 4.394129753112793,
-      "learning_rate": 0.00019344444444444446,
-      "loss": 0.1562,
+      "grad_norm": 1.8972853422164917,
+      "learning_rate": 0.0001868888888888889,
+      "loss": 0.113,
       "step": 295
     },
     {
       "epoch": 1.0,
-      "grad_norm": 3.52641224861145,
-      "learning_rate": 0.00019333333333333333,
-      "loss": 0.1732,
+      "grad_norm": 1.0424381494522095,
+      "learning_rate": 0.0001866666666666667,
+      "loss": 0.1514,
       "step": 300
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7979166666666667,
-      "eval_f1": 0.7981486548781239,
-      "eval_loss": 0.7756109833717346,
-      "eval_precision": 0.8414897792253007,
-      "eval_recall": 0.7979166666666667,
-      "eval_runtime": 16.1962,
-      "eval_samples_per_second": 148.183,
-      "eval_steps_per_second": 18.523,
+      "eval_accuracy": 0.8441666666666666,
+      "eval_f1": 0.8442861914822136,
+      "eval_loss": 0.5554845333099365,
+      "eval_precision": 0.8565221700627794,
+      "eval_recall": 0.8441666666666666,
+      "eval_runtime": 16.2163,
+      "eval_samples_per_second": 147.999,
+      "eval_steps_per_second": 18.5,
       "step": 300
     },
     {
       "epoch": 1.0166666666666666,
-      "grad_norm": 1.3813756704330444,
-      "learning_rate": 0.00019322222222222223,
-      "loss": 0.0591,
+      "grad_norm": 2.4335975646972656,
+      "learning_rate": 0.00018644444444444446,
+      "loss": 0.1182,
       "step": 305
     },
     {
       "epoch": 1.0333333333333334,
-      "grad_norm": 4.474184989929199,
-      "learning_rate": 0.0001931111111111111,
-      "loss": 0.1352,
+      "grad_norm": 1.7020270824432373,
+      "learning_rate": 0.00018622222222222223,
+      "loss": 0.0787,
       "step": 310
     },
     {
       "epoch": 1.05,
-      "grad_norm": 5.625171184539795,
-      "learning_rate": 0.000193,
-      "loss": 0.097,
+      "grad_norm": 1.561579704284668,
+      "learning_rate": 0.00018600000000000002,
+      "loss": 0.1003,
       "step": 315
     },
     {
       "epoch": 1.0666666666666667,
-      "grad_norm": 3.8796048164367676,
-      "learning_rate": 0.0001928888888888889,
-      "loss": 0.075,
+      "grad_norm": 4.530466556549072,
+      "learning_rate": 0.0001857777777777778,
+      "loss": 0.1934,
       "step": 320
     },
     {
       "epoch": 1.0833333333333333,
-      "grad_norm": 1.0892186164855957,
-      "learning_rate": 0.0001927777777777778,
-      "loss": 0.0852,
+      "grad_norm": 0.5621032118797302,
+      "learning_rate": 0.00018555555555555556,
+      "loss": 0.0552,
       "step": 325
     },
     {
       "epoch": 1.1,
-      "grad_norm": 4.347273349761963,
-      "learning_rate": 0.0001926666666666667,
-      "loss": 0.0828,
+      "grad_norm": 2.3908560276031494,
+      "learning_rate": 0.00018533333333333333,
+      "loss": 0.0584,
       "step": 330
     },
     {
       "epoch": 1.1166666666666667,
-      "grad_norm": 5.047768592834473,
-      "learning_rate": 0.00019255555555555557,
-      "loss": 0.1083,
+      "grad_norm": 0.051260460168123245,
+      "learning_rate": 0.00018511111111111113,
+      "loss": 0.0557,
       "step": 335
     },
     {
       "epoch": 1.1333333333333333,
-      "grad_norm": 5.478116512298584,
-      "learning_rate": 0.00019244444444444444,
-      "loss": 0.0999,
+      "grad_norm": 3.336754322052002,
+      "learning_rate": 0.0001848888888888889,
+      "loss": 0.0478,
       "step": 340
     },
     {
       "epoch": 1.15,
-      "grad_norm": 3.4530398845672607,
-      "learning_rate": 0.00019233333333333334,
-      "loss": 0.0427,
+      "grad_norm": 2.0402088165283203,
+      "learning_rate": 0.00018466666666666666,
+      "loss": 0.0697,
       "step": 345
     },
     {
       "epoch": 1.1666666666666667,
-      "grad_norm": 4.7983927726745605,
-      "learning_rate": 0.00019222222222222224,
-      "loss": 0.0982,
+      "grad_norm": 0.07167880982160568,
+      "learning_rate": 0.00018444444444444446,
+      "loss": 0.0657,
       "step": 350
     },
     {
       "epoch": 1.1833333333333333,
-      "grad_norm": 0.7118657231330872,
-      "learning_rate": 0.00019211111111111113,
-      "loss": 0.1383,
+      "grad_norm": 0.1843060851097107,
+      "learning_rate": 0.00018422222222222223,
+      "loss": 0.051,
       "step": 355
     },
     {
       "epoch": 1.2,
-      "grad_norm": 0.7196682095527649,
-      "learning_rate": 0.000192,
-      "loss": 0.0796,
+      "grad_norm": 1.968123435974121,
+      "learning_rate": 0.00018400000000000003,
+      "loss": 0.0749,
       "step": 360
     },
     {
       "epoch": 1.2166666666666668,
-      "grad_norm": 0.4793323576450348,
-      "learning_rate": 0.0001918888888888889,
-      "loss": 0.0629,
+      "grad_norm": 0.06399338692426682,
+      "learning_rate": 0.00018377777777777777,
+      "loss": 0.0238,
       "step": 365
     },
     {
       "epoch": 1.2333333333333334,
-      "grad_norm": 0.6793131828308105,
-      "learning_rate": 0.0001917777777777778,
-      "loss": 0.1197,
+      "grad_norm": 1.6411094665527344,
+      "learning_rate": 0.00018355555555555557,
+      "loss": 0.1656,
       "step": 370
     },
     {
       "epoch": 1.25,
-      "grad_norm": 0.21413554251194,
-      "learning_rate": 0.00019166666666666667,
-      "loss": 0.0664,
+      "grad_norm": 0.09286128729581833,
+      "learning_rate": 0.00018333333333333334,
+      "loss": 0.1165,
       "step": 375
     },
     {
       "epoch": 1.2666666666666666,
-      "grad_norm": 1.7877485752105713,
-      "learning_rate": 0.00019155555555555554,
-      "loss": 0.143,
+      "grad_norm": 3.0926060676574707,
+      "learning_rate": 0.00018311111111111113,
+      "loss": 0.0651,
       "step": 380
     },
     {
       "epoch": 1.2833333333333332,
-      "grad_norm": 6.370367527008057,
-      "learning_rate": 0.00019144444444444444,
-      "loss": 0.2054,
+      "grad_norm": 5.042904376983643,
+      "learning_rate": 0.00018288888888888887,
+      "loss": 0.0755,
       "step": 385
     },
     {
       "epoch": 1.3,
-      "grad_norm": 0.28719836473464966,
-      "learning_rate": 0.00019133333333333334,
-      "loss": 0.138,
+      "grad_norm": 2.9012796878814697,
+      "learning_rate": 0.00018266666666666667,
+      "loss": 0.156,
       "step": 390
     },
     {
       "epoch": 1.3166666666666667,
-      "grad_norm": 3.242438316345215,
-      "learning_rate": 0.00019122222222222224,
-      "loss": 0.1403,
+      "grad_norm": 3.0070407390594482,
+      "learning_rate": 0.00018244444444444447,
+      "loss": 0.0835,
       "step": 395
     },
     {
       "epoch": 1.3333333333333333,
-      "grad_norm": 0.3408154249191284,
-      "learning_rate": 0.00019111111111111114,
-      "loss": 0.0691,
+      "grad_norm": 0.43113213777542114,
+      "learning_rate": 0.00018222222222222224,
+      "loss": 0.0991,
       "step": 400
     },
     {
       "epoch": 1.3333333333333333,
-      "eval_accuracy": 0.8158333333333333,
-      "eval_f1": 0.818791034241064,
-      "eval_loss": 0.7157689332962036,
-      "eval_precision": 0.8508201435729894,
-      "eval_recall": 0.8158333333333333,
-      "eval_runtime": 16.4091,
-      "eval_samples_per_second": 146.26,
-      "eval_steps_per_second": 18.283,
+      "eval_accuracy": 0.8466666666666667,
+      "eval_f1": 0.8452871413747736,
+      "eval_loss": 0.5917803049087524,
+      "eval_precision": 0.8740985832209479,
+      "eval_recall": 0.8466666666666667,
+      "eval_runtime": 16.2452,
+      "eval_samples_per_second": 147.736,
+      "eval_steps_per_second": 18.467,
       "step": 400
     },
     {
       "epoch": 1.35,
-      "grad_norm": 0.3010420501232147,
-      "learning_rate": 0.000191,
-      "loss": 0.0488,
+      "grad_norm": 2.517106533050537,
+      "learning_rate": 0.000182,
+      "loss": 0.0486,
       "step": 405
     },
     {
       "epoch": 1.3666666666666667,
-      "grad_norm": 2.1333274841308594,
-      "learning_rate": 0.0001908888888888889,
-      "loss": 0.0994,
+      "grad_norm": 0.1869000792503357,
+      "learning_rate": 0.00018177777777777778,
+      "loss": 0.0563,
       "step": 410
     },
     {
       "epoch": 1.3833333333333333,
-      "grad_norm": 0.04511966556310654,
-      "learning_rate": 0.00019077777777777778,
-      "loss": 0.0823,
+      "grad_norm": 0.7783178091049194,
+      "learning_rate": 0.00018155555555555557,
+      "loss": 0.0826,
       "step": 415
     },
     {
       "epoch": 1.4,
-      "grad_norm": 1.2672332525253296,
-      "learning_rate": 0.00019066666666666668,
-      "loss": 0.0859,
+      "grad_norm": 3.3294942378997803,
+      "learning_rate": 0.00018133333333333334,
+      "loss": 0.0831,
       "step": 420
     },
     {
       "epoch": 1.4166666666666667,
-      "grad_norm": 1.1415125131607056,
-      "learning_rate": 0.00019055555555555555,
-      "loss": 0.1502,
+      "grad_norm": 3.404653787612915,
+      "learning_rate": 0.0001811111111111111,
+      "loss": 0.1035,
       "step": 425
     },
     {
       "epoch": 1.4333333333333333,
-      "grad_norm": 2.681697368621826,
-      "learning_rate": 0.00019044444444444444,
-      "loss": 0.1071,
+      "grad_norm": 0.4671889841556549,
+      "learning_rate": 0.0001808888888888889,
+      "loss": 0.0932,
       "step": 430
     },
     {
       "epoch": 1.45,
-      "grad_norm": 2.7002527713775635,
-      "learning_rate": 0.00019033333333333334,
-      "loss": 0.0784,
+      "grad_norm": 2.1595776081085205,
+      "learning_rate": 0.00018066666666666668,
+      "loss": 0.2025,
       "step": 435
     },
     {
       "epoch": 1.4666666666666668,
-      "grad_norm": 0.444049209356308,
-      "learning_rate": 0.00019022222222222224,
-      "loss": 0.0912,
+      "grad_norm": 4.700916290283203,
+      "learning_rate": 0.00018044444444444447,
+      "loss": 0.0901,
       "step": 440
     },
     {
       "epoch": 1.4833333333333334,
-      "grad_norm": 3.072381019592285,
-      "learning_rate": 0.00019011111111111114,
-      "loss": 0.0711,
+      "grad_norm": 1.5004734992980957,
+      "learning_rate": 0.00018022222222222221,
+      "loss": 0.1482,
       "step": 445
     },
     {
       "epoch": 1.5,
-      "grad_norm": 0.38654211163520813,
-      "learning_rate": 0.00019,
-      "loss": 0.0562,
+      "grad_norm": 3.7114951610565186,
+      "learning_rate": 0.00018,
+      "loss": 0.0692,
       "step": 450
     },
     {
       "epoch": 1.5166666666666666,
-      "grad_norm": 7.993372917175293,
-      "learning_rate": 0.00018988888888888888,
-      "loss": 0.1665,
+      "grad_norm": 0.04959668591618538,
+      "learning_rate": 0.00017977777777777778,
+      "loss": 0.1148,
       "step": 455
     },
     {
       "epoch": 1.5333333333333332,
-      "grad_norm": 0.9832102656364441,
-      "learning_rate": 0.00018977777777777778,
-      "loss": 0.0924,
+      "grad_norm": 1.0318381786346436,
+      "learning_rate": 0.00017955555555555558,
+      "loss": 0.1147,
       "step": 460
     },
     {
       "epoch": 1.55,
-      "grad_norm": 1.8267433643341064,
-      "learning_rate": 0.00018966666666666668,
-      "loss": 0.0928,
+      "grad_norm": 1.9109596014022827,
+      "learning_rate": 0.00017933333333333332,
+      "loss": 0.0536,
       "step": 465
     },
     {
       "epoch": 1.5666666666666667,
-      "grad_norm": 0.08047886192798615,
-      "learning_rate": 0.00018955555555555558,
-      "loss": 0.0532,
+      "grad_norm": 5.839930057525635,
+      "learning_rate": 0.00017911111111111112,
+      "loss": 0.0835,
       "step": 470
     },
     {
       "epoch": 1.5833333333333335,
-      "grad_norm": 1.1710773706436157,
-      "learning_rate": 0.00018944444444444445,
-      "loss": 0.051,
+      "grad_norm": 5.867558002471924,
+      "learning_rate": 0.0001788888888888889,
+      "loss": 0.0561,
       "step": 475
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.06582245975732803,
-      "learning_rate": 0.00018933333333333335,
-      "loss": 0.0369,
+      "grad_norm": 1.1940624713897705,
+      "learning_rate": 0.00017866666666666668,
+      "loss": 0.0418,
       "step": 480
     },
     {
       "epoch": 1.6166666666666667,
-      "grad_norm": 0.11815045773983002,
-      "learning_rate": 0.00018922222222222224,
-      "loss": 0.0328,
+      "grad_norm": 1.6862461566925049,
+      "learning_rate": 0.00017844444444444445,
+      "loss": 0.041,
       "step": 485
     },
     {
       "epoch": 1.6333333333333333,
-      "grad_norm": 2.978722333908081,
-      "learning_rate": 0.00018911111111111112,
-      "loss": 0.0729,
+      "grad_norm": 0.31286120414733887,
+      "learning_rate": 0.00017822222222222222,
+      "loss": 0.0752,
       "step": 490
     },
     {
       "epoch": 1.65,
-      "grad_norm": 0.19941926002502441,
-      "learning_rate": 0.00018899999999999999,
-      "loss": 0.0677,
+      "grad_norm": 2.0851168632507324,
+      "learning_rate": 0.00017800000000000002,
+      "loss": 0.1608,
       "step": 495
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 0.6372964382171631,
-      "learning_rate": 0.00018888888888888888,
-      "loss": 0.0714,
+      "grad_norm": 2.748857021331787,
+      "learning_rate": 0.00017777777777777779,
+      "loss": 0.0415,
       "step": 500
     },
     {
       "epoch": 1.6666666666666665,
-      "eval_accuracy": 0.8316666666666667,
-      "eval_f1": 0.8265743516796846,
-      "eval_loss": 0.7521939277648926,
-      "eval_precision": 0.849911827609538,
-      "eval_recall": 0.8316666666666667,
-      "eval_runtime": 16.359,
-      "eval_samples_per_second": 146.708,
-      "eval_steps_per_second": 18.339,
+      "eval_accuracy": 0.8558333333333333,
+      "eval_f1": 0.8552659972827449,
+      "eval_loss": 0.6080264449119568,
+      "eval_precision": 0.8689976032419315,
+      "eval_recall": 0.8558333333333333,
+      "eval_runtime": 16.1623,
+      "eval_samples_per_second": 148.493,
+      "eval_steps_per_second": 18.562,
       "step": 500
     },
     {
       "epoch": 1.6833333333333333,
-      "grad_norm": 0.19961658120155334,
-      "learning_rate": 0.00018877777777777778,
-      "loss": 0.0278,
+      "grad_norm": 1.0894508361816406,
+      "learning_rate": 0.00017755555555555556,
+      "loss": 0.0154,
       "step": 505
     },
     {
       "epoch": 1.7,
-      "grad_norm": 0.0633421242237091,
-      "learning_rate": 0.00018866666666666668,
-      "loss": 0.0786,
+      "grad_norm": 0.996065616607666,
+      "learning_rate": 0.00017733333333333335,
+      "loss": 0.0303,
       "step": 510
     },
     {
       "epoch": 1.7166666666666668,
-      "grad_norm": 0.3892693817615509,
-      "learning_rate": 0.00018855555555555558,
-      "loss": 0.0777,
+      "grad_norm": 3.247182846069336,
+      "learning_rate": 0.00017711111111111112,
+      "loss": 0.0568,
       "step": 515
     },
     {
       "epoch": 1.7333333333333334,
-      "grad_norm": 6.342217445373535,
-      "learning_rate": 0.00018844444444444445,
-      "loss": 0.1477,
+      "grad_norm": 2.761436700820923,
+      "learning_rate": 0.0001768888888888889,
+      "loss": 0.0606,
       "step": 520
     },
     {
       "epoch": 1.75,
-      "grad_norm": 0.5710381269454956,
-      "learning_rate": 0.00018833333333333335,
-      "loss": 0.0451,
+      "grad_norm": 6.956387996673584,
+      "learning_rate": 0.00017666666666666666,
+      "loss": 0.0851,
       "step": 525
     },
     {
       "epoch": 1.7666666666666666,
-      "grad_norm": 6.171818733215332,
-      "learning_rate": 0.00018822222222222222,
-      "loss": 0.2093,
+      "grad_norm": 2.860804796218872,
+      "learning_rate": 0.00017644444444444446,
+      "loss": 0.1605,
       "step": 530
     },
     {
       "epoch": 1.7833333333333332,
-      "grad_norm": 0.03403923660516739,
-      "learning_rate": 0.00018811111111111112,
-      "loss": 0.077,
+      "grad_norm": 0.03756829723715782,
+      "learning_rate": 0.00017622222222222223,
+      "loss": 0.0315,
       "step": 535
     },
     {
       "epoch": 1.8,
-      "grad_norm": 4.398832321166992,
-      "learning_rate": 0.000188,
-      "loss": 0.0748,
+      "grad_norm": 1.456839919090271,
+      "learning_rate": 0.00017600000000000002,
+      "loss": 0.0121,
       "step": 540
     },
     {
       "epoch": 1.8166666666666667,
-      "grad_norm": 0.9979174733161926,
-      "learning_rate": 0.0001878888888888889,
-      "loss": 0.0671,
+      "grad_norm": 0.11041226238012314,
+      "learning_rate": 0.0001757777777777778,
+      "loss": 0.0116,
       "step": 545
     },
     {
       "epoch": 1.8333333333333335,
-      "grad_norm": 0.09938632696866989,
-      "learning_rate": 0.00018777777777777779,
-      "loss": 0.0113,
+      "grad_norm": 0.11240129172801971,
+      "learning_rate": 0.00017555555555555556,
+      "loss": 0.0768,
       "step": 550
     },
     {
       "epoch": 1.85,
-      "grad_norm": 0.7623908519744873,
-      "learning_rate": 0.00018766666666666668,
-      "loss": 0.0342,
+      "grad_norm": 4.018540382385254,
+      "learning_rate": 0.00017533333333333336,
+      "loss": 0.035,
       "step": 555
     },
     {
       "epoch": 1.8666666666666667,
-      "grad_norm": 0.514573872089386,
-      "learning_rate": 0.00018755555555555558,
-      "loss": 0.0629,
+      "grad_norm": 0.03860333189368248,
+      "learning_rate": 0.00017511111111111113,
+      "loss": 0.0786,
       "step": 560
     },
     {
       "epoch": 1.8833333333333333,
-      "grad_norm": 0.025599155575037003,
-      "learning_rate": 0.00018744444444444445,
-      "loss": 0.038,
+      "grad_norm": 0.029116548597812653,
+      "learning_rate": 0.0001748888888888889,
+      "loss": 0.0359,
       "step": 565
     },
     {
       "epoch": 1.9,
-      "grad_norm": 0.030182309448719025,
-      "learning_rate": 0.00018733333333333335,
-      "loss": 0.0141,
+      "grad_norm": 5.215725898742676,
+      "learning_rate": 0.00017466666666666667,
+      "loss": 0.0511,
       "step": 570
     },
     {
       "epoch": 1.9166666666666665,
-      "grad_norm": 0.1014530286192894,
-      "learning_rate": 0.00018722222222222222,
-      "loss": 0.0219,
+      "grad_norm": 0.027058551087975502,
+      "learning_rate": 0.00017444444444444446,
+      "loss": 0.0457,
       "step": 575
     },
     {
       "epoch": 1.9333333333333333,
-      "grad_norm": 0.032234955579042435,
-      "learning_rate": 0.00018711111111111112,
-      "loss": 0.1218,
+      "grad_norm": 1.5527430772781372,
+      "learning_rate": 0.00017422222222222223,
+      "loss": 0.0715,
       "step": 580
     },
     {
       "epoch": 1.95,
-      "grad_norm": 2.227205991744995,
-      "learning_rate": 0.00018700000000000002,
-      "loss": 0.0763,
+      "grad_norm": 3.5508975982666016,
+      "learning_rate": 0.000174,
+      "loss": 0.0818,
       "step": 585
     },
     {
       "epoch": 1.9666666666666668,
-      "grad_norm": 2.487708330154419,
-      "learning_rate": 0.0001868888888888889,
-      "loss": 0.1369,
+      "grad_norm": 2.2463531494140625,
+      "learning_rate": 0.0001737777777777778,
+      "loss": 0.0686,
       "step": 590
     },
     {
       "epoch": 1.9833333333333334,
-      "grad_norm": 0.12172972410917282,
-      "learning_rate": 0.0001867777777777778,
-      "loss": 0.0399,
+      "grad_norm": 0.2972193658351898,
+      "learning_rate": 0.00017355555555555557,
+      "loss": 0.1337,
       "step": 595
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.19052840769290924,
-      "learning_rate": 0.0001866666666666667,
-      "loss": 0.0673,
+      "grad_norm": 0.3056110441684723,
+      "learning_rate": 0.00017333333333333334,
+      "loss": 0.1112,
       "step": 600
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8620833333333333,
-      "eval_f1": 0.8598426762698227,
-      "eval_loss": 0.5385421514511108,
-      "eval_precision": 0.865491848801535,
-      "eval_recall": 0.8620833333333333,
-      "eval_runtime": 16.2367,
-      "eval_samples_per_second": 147.813,
-      "eval_steps_per_second": 18.477,
+      "eval_accuracy": 0.7983333333333333,
+      "eval_f1": 0.8028411962372825,
+      "eval_loss": 0.9788005352020264,
+      "eval_precision": 0.8485110792093202,
+      "eval_recall": 0.7983333333333333,
+      "eval_runtime": 16.1917,
+      "eval_samples_per_second": 148.224,
+      "eval_steps_per_second": 18.528,
       "step": 600
     },
     {
       "epoch": 2.0166666666666666,
-      "grad_norm": 6.696073532104492,
-      "learning_rate": 0.00018655555555555558,
-      "loss": 0.0318,
+      "grad_norm": 0.35267236828804016,
+      "learning_rate": 0.0001731111111111111,
+      "loss": 0.0498,
       "step": 605
     },
     {
       "epoch": 2.033333333333333,
-      "grad_norm": 0.4431828558444977,
-      "learning_rate": 0.00018644444444444446,
-      "loss": 0.0346,
+      "grad_norm": 0.5053727030754089,
+      "learning_rate": 0.0001728888888888889,
+      "loss": 0.0129,
       "step": 610
     },
     {
       "epoch": 2.05,
-      "grad_norm": 1.9983868598937988,
-      "learning_rate": 0.00018633333333333333,
-      "loss": 0.0311,
+      "grad_norm": 0.8910978436470032,
+      "learning_rate": 0.00017266666666666667,
+      "loss": 0.016,
       "step": 615
     },
     {
       "epoch": 2.066666666666667,
-      "grad_norm": 0.025751996785402298,
-      "learning_rate": 0.00018622222222222223,
-      "loss": 0.0499,
+      "grad_norm": 0.03884819522500038,
+      "learning_rate": 0.00017244444444444444,
+      "loss": 0.0718,
       "step": 620
     },
     {
       "epoch": 2.0833333333333335,
-      "grad_norm": 0.7397699952125549,
-      "learning_rate": 0.00018611111111111112,
-      "loss": 0.0373,
+      "grad_norm": 0.19660811126232147,
+      "learning_rate": 0.00017222222222222224,
+      "loss": 0.1112,
       "step": 625
     },
     {
       "epoch": 2.1,
-      "grad_norm": 0.02873407118022442,
-      "learning_rate": 0.00018600000000000002,
-      "loss": 0.0239,
+      "grad_norm": 0.03204696252942085,
+      "learning_rate": 0.000172,
+      "loss": 0.0101,
       "step": 630
     },
     {
       "epoch": 2.1166666666666667,
-      "grad_norm": 1.2805113792419434,
-      "learning_rate": 0.0001858888888888889,
-      "loss": 0.0504,
+      "grad_norm": 0.9553326964378357,
+      "learning_rate": 0.0001717777777777778,
+      "loss": 0.0149,
       "step": 635
     },
     {
       "epoch": 2.1333333333333333,
-      "grad_norm": 1.9268577098846436,
-      "learning_rate": 0.0001857777777777778,
-      "loss": 0.1207,
+      "grad_norm": 0.08955259621143341,
+      "learning_rate": 0.00017155555555555555,
+      "loss": 0.0569,
       "step": 640
     },
     {
       "epoch": 2.15,
-      "grad_norm": 0.8597666621208191,
-      "learning_rate": 0.0001856666666666667,
-      "loss": 0.0521,
+      "grad_norm": 1.9781664609909058,
+      "learning_rate": 0.00017133333333333334,
+      "loss": 0.0126,
       "step": 645
     },
     {
       "epoch": 2.1666666666666665,
-      "grad_norm": 0.03927866369485855,
-      "learning_rate": 0.00018555555555555556,
-      "loss": 0.0069,
+      "grad_norm": 0.216256245970726,
+      "learning_rate": 0.0001711111111111111,
+      "loss": 0.0904,
       "step": 650
     },
     {
       "epoch": 2.183333333333333,
-      "grad_norm": 1.7735105752944946,
-      "learning_rate": 0.00018544444444444443,
-      "loss": 0.0441,
+      "grad_norm": 0.8125318884849548,
+      "learning_rate": 0.0001708888888888889,
+      "loss": 0.0194,
       "step": 655
     },
     {
       "epoch": 2.2,
-      "grad_norm": 0.6752846240997314,
-      "learning_rate": 0.00018533333333333333,
-      "loss": 0.1115,
+      "grad_norm": 4.675413608551025,
+      "learning_rate": 0.00017066666666666668,
+      "loss": 0.1388,
       "step": 660
     },
     {
       "epoch": 2.216666666666667,
-      "grad_norm": 0.07458436489105225,
-      "learning_rate": 0.00018522222222222223,
-      "loss": 0.0677,
+      "grad_norm": 0.02955440618097782,
+      "learning_rate": 0.00017044444444444445,
+      "loss": 0.0071,
       "step": 665
     },
     {
       "epoch": 2.2333333333333334,
-      "grad_norm": 0.1430908441543579,
-      "learning_rate": 0.00018511111111111113,
-      "loss": 0.0163,
+      "grad_norm": 0.02534662000834942,
+      "learning_rate": 0.00017022222222222224,
+      "loss": 0.0544,
       "step": 670
     },
     {
       "epoch": 2.25,
-      "grad_norm": 0.3623637557029724,
-      "learning_rate": 0.00018500000000000002,
-      "loss": 0.1642,
+      "grad_norm": 5.448978424072266,
+      "learning_rate": 0.00017,
+      "loss": 0.0389,
       "step": 675
     },
     {
       "epoch": 2.2666666666666666,
-      "grad_norm": 1.302395224571228,
-      "learning_rate": 0.0001848888888888889,
-      "loss": 0.0253,
+      "grad_norm": 0.0721999928355217,
+      "learning_rate": 0.00016977777777777778,
+      "loss": 0.0122,
       "step": 680
     },
     {
       "epoch": 2.283333333333333,
-      "grad_norm": 2.6454572677612305,
-      "learning_rate": 0.0001847777777777778,
-      "loss": 0.0334,
+      "grad_norm": 2.670487642288208,
+      "learning_rate": 0.00016955555555555555,
+      "loss": 0.0556,
       "step": 685
     },
     {
       "epoch": 2.3,
-      "grad_norm": 7.444616794586182,
-      "learning_rate": 0.00018466666666666666,
-      "loss": 0.1229,
+      "grad_norm": 10.20238208770752,
+      "learning_rate": 0.00016933333333333335,
+      "loss": 0.0856,
       "step": 690
     },
     {
       "epoch": 2.3166666666666664,
-      "grad_norm": 0.12746256589889526,
-      "learning_rate": 0.00018455555555555556,
-      "loss": 0.0331,
+      "grad_norm": 4.622935771942139,
+      "learning_rate": 0.00016911111111111112,
+      "loss": 0.0296,
       "step": 695
     },
     {
       "epoch": 2.3333333333333335,
-      "grad_norm": 0.040420129895210266,
-      "learning_rate": 0.00018444444444444446,
-      "loss": 0.0655,
+      "grad_norm": 0.029859546571969986,
+      "learning_rate": 0.00016888888888888889,
+      "loss": 0.0658,
       "step": 700
     },
     {
       "epoch": 2.3333333333333335,
-      "eval_accuracy": 0.8433333333333334,
-      "eval_f1": 0.8358534752322105,
-      "eval_loss": 0.779900312423706,
-      "eval_precision": 0.8497247208877523,
-      "eval_recall": 0.8433333333333334,
-      "eval_runtime": 16.3191,
-      "eval_samples_per_second": 147.067,
-      "eval_steps_per_second": 18.383,
+      "eval_accuracy": 0.8004166666666667,
+      "eval_f1": 0.8001592559476315,
+      "eval_loss": 1.0271917581558228,
+      "eval_precision": 0.83100022533418,
+      "eval_recall": 0.8004166666666667,
+      "eval_runtime": 16.1972,
+      "eval_samples_per_second": 148.174,
+      "eval_steps_per_second": 18.522,
       "step": 700
     },
     {
       "epoch": 2.35,
-      "grad_norm": 0.7723918557167053,
-      "learning_rate": 0.00018433333333333333,
-      "loss": 0.0279,
+      "grad_norm": 0.0164314117282629,
+      "learning_rate": 0.00016866666666666668,
+      "loss": 0.0271,
       "step": 705
     },
     {
       "epoch": 2.3666666666666667,
-      "grad_norm": 0.0238429456949234,
-      "learning_rate": 0.00018422222222222223,
-      "loss": 0.0304,
+      "grad_norm": 0.014630046673119068,
+      "learning_rate": 0.00016844444444444445,
+      "loss": 0.0873,
       "step": 710
     },
     {
       "epoch": 2.3833333333333333,
-      "grad_norm": 0.05413050949573517,
-      "learning_rate": 0.00018411111111111113,
-      "loss": 0.0077,
+      "grad_norm": 1.244563341140747,
+      "learning_rate": 0.00016822222222222225,
+      "loss": 0.0357,
       "step": 715
     },
     {
       "epoch": 2.4,
-      "grad_norm": 0.9589130282402039,
-      "learning_rate": 0.00018400000000000003,
-      "loss": 0.0271,
-      "step": 720
+      "grad_norm": 0.23327180743217468,
+      "learning_rate": 0.000168,
+      "loss": 0.0053,
+      "step": 720
     },
     {
       "epoch": 2.4166666666666665,
-      "grad_norm": 0.038370680063962936,
-      "learning_rate": 0.0001838888888888889,
-      "loss": 0.0569,
+      "grad_norm": 0.3023635745048523,
+      "learning_rate": 0.0001677777777777778,
+      "loss": 0.0087,
       "step": 725
     },
     {
       "epoch": 2.4333333333333336,
-      "grad_norm": 0.015245645307004452,
-      "learning_rate": 0.00018377777777777777,
-      "loss": 0.0323,
+      "grad_norm": 3.1904029846191406,
+      "learning_rate": 0.00016755555555555556,
+      "loss": 0.1053,
       "step": 730
     },
     {
       "epoch": 2.45,
-      "grad_norm": 0.014902304857969284,
-      "learning_rate": 0.00018366666666666667,
-      "loss": 0.0086,
+      "grad_norm": 0.01983281597495079,
+      "learning_rate": 0.00016733333333333335,
+      "loss": 0.0184,
       "step": 735
     },
     {
       "epoch": 2.466666666666667,
-      "grad_norm": 2.174741506576538,
-      "learning_rate": 0.00018355555555555557,
-      "loss": 0.0184,
+      "grad_norm": 0.022035181522369385,
+      "learning_rate": 0.00016711111111111112,
+      "loss": 0.0062,
       "step": 740
     },
     {
       "epoch": 2.4833333333333334,
-      "grad_norm": 0.06217186525464058,
-      "learning_rate": 0.00018344444444444446,
-      "loss": 0.0043,
+      "grad_norm": 0.04722364619374275,
+      "learning_rate": 0.0001668888888888889,
+      "loss": 0.0088,
       "step": 745
     },
     {
       "epoch": 2.5,
-      "grad_norm": 0.4531421363353729,
-      "learning_rate": 0.00018333333333333334,
-      "loss": 0.0065,
+      "grad_norm": 0.0249915961176157,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 0.082,
       "step": 750
     },
     {
       "epoch": 2.5166666666666666,
-      "grad_norm": 0.04818582162261009,
-      "learning_rate": 0.00018322222222222223,
-      "loss": 0.0143,
+      "grad_norm": 0.06522756069898605,
+      "learning_rate": 0.00016644444444444446,
+      "loss": 0.0055,
       "step": 755
     },
     {
       "epoch": 2.533333333333333,
-      "grad_norm": 2.271834135055542,
-      "learning_rate": 0.00018311111111111113,
-      "loss": 0.0784,
+      "grad_norm": 0.031748611479997635,
+      "learning_rate": 0.00016622222222222223,
+      "loss": 0.0484,
       "step": 760
     },
     {
       "epoch": 2.55,
-      "grad_norm": 0.01363254152238369,
-      "learning_rate": 0.000183,
-      "loss": 0.0485,
+      "grad_norm": 2.838484764099121,
+      "learning_rate": 0.000166,
+      "loss": 0.0781,
       "step": 765
     },
     {
       "epoch": 2.5666666666666664,
-      "grad_norm": 0.2280726283788681,
-      "learning_rate": 0.00018288888888888887,
-      "loss": 0.0427,
+      "grad_norm": 0.019979197531938553,
+      "learning_rate": 0.0001657777777777778,
+      "loss": 0.0082,
       "step": 770
     },
     {
       "epoch": 2.5833333333333335,
-      "grad_norm": 4.314803600311279,
-      "learning_rate": 0.00018277777777777777,
-      "loss": 0.1475,
+      "grad_norm": 0.01695883832871914,
+      "learning_rate": 0.00016555555555555556,
+      "loss": 0.0334,
       "step": 775
     },
     {
       "epoch": 2.6,
-      "grad_norm": 0.693932056427002,
-      "learning_rate": 0.00018266666666666667,
-      "loss": 0.0777,
+      "grad_norm": 0.018755167722702026,
+      "learning_rate": 0.00016533333333333333,
+      "loss": 0.0376,
       "step": 780
     },
     {
       "epoch": 2.6166666666666667,
-      "grad_norm": 7.489694595336914,
-      "learning_rate": 0.00018255555555555557,
-      "loss": 0.0713,
+      "grad_norm": 0.04571496695280075,
+      "learning_rate": 0.00016511111111111113,
+      "loss": 0.0181,
       "step": 785
     },
     {
       "epoch": 2.6333333333333333,
-      "grad_norm": 1.1213643550872803,
-      "learning_rate": 0.00018244444444444447,
-      "loss": 0.0048,
+      "grad_norm": 1.9246848821640015,
+      "learning_rate": 0.0001648888888888889,
+      "loss": 0.0062,
       "step": 790
     },
     {
       "epoch": 2.65,
-      "grad_norm": 0.890018880367279,
-      "learning_rate": 0.00018233333333333334,
-      "loss": 0.0263,
+      "grad_norm": 0.06697019934654236,
+      "learning_rate": 0.00016466666666666667,
+      "loss": 0.0195,
       "step": 795
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 4.770391941070557,
-      "learning_rate": 0.00018222222222222224,
-      "loss": 0.0135,
+      "grad_norm": 2.771127462387085,
+      "learning_rate": 0.00016444444444444444,
+      "loss": 0.0977,
       "step": 800
     },
     {
       "epoch": 2.6666666666666665,
-      "eval_accuracy": 0.8395833333333333,
-      "eval_f1": 0.8413337839862026,
-      "eval_loss": 0.6977739930152893,
-      "eval_precision": 0.8529186337069479,
-      "eval_recall": 0.8395833333333333,
-      "eval_runtime": 16.4132,
-      "eval_samples_per_second": 146.224,
-      "eval_steps_per_second": 18.278,
+      "eval_accuracy": 0.8479166666666667,
+      "eval_f1": 0.8481618314675412,
+      "eval_loss": 0.6860576272010803,
+      "eval_precision": 0.8570360706170527,
+      "eval_recall": 0.8479166666666667,
+      "eval_runtime": 16.0735,
+      "eval_samples_per_second": 149.314,
+      "eval_steps_per_second": 18.664,
       "step": 800
     },
     {
       "epoch": 2.6833333333333336,
-      "grad_norm": 1.9553234577178955,
-      "learning_rate": 0.00018211111111111113,
-      "loss": 0.1172,
+      "grad_norm": 0.019645988941192627,
+      "learning_rate": 0.00016422222222222223,
+      "loss": 0.0331,
       "step": 805
     },
     {
       "epoch": 2.7,
-      "grad_norm": 1.9874789714813232,
-      "learning_rate": 0.000182,
-      "loss": 0.0638,
+      "grad_norm": 0.041057515889406204,
+      "learning_rate": 0.000164,
+      "loss": 0.0238,
       "step": 810
     },
     {
       "epoch": 2.716666666666667,
-      "grad_norm": 2.0748958587646484,
-      "learning_rate": 0.0001818888888888889,
-      "loss": 0.1061,
+      "grad_norm": 0.024724528193473816,
+      "learning_rate": 0.0001637777777777778,
+      "loss": 0.0484,
       "step": 815
     },
     {
       "epoch": 2.7333333333333334,
-      "grad_norm": 3.271331548690796,
-      "learning_rate": 0.00018177777777777778,
-      "loss": 0.1042,
+      "grad_norm": 0.015088117681443691,
+      "learning_rate": 0.00016355555555555557,
+      "loss": 0.004,
       "step": 820
     },
     {
       "epoch": 2.75,
-      "grad_norm": 5.6369733810424805,
-      "learning_rate": 0.00018166666666666667,
-      "loss": 0.0576,
+      "grad_norm": 0.023515278473496437,
+      "learning_rate": 0.00016333333333333334,
+      "loss": 0.004,
       "step": 825
     },
     {
       "epoch": 2.7666666666666666,
-      "grad_norm": 0.051588039845228195,
-      "learning_rate": 0.00018155555555555557,
-      "loss": 0.034,
+      "grad_norm": 0.026812009513378143,
+      "learning_rate": 0.00016311111111111113,
+      "loss": 0.0174,
       "step": 830
     },
     {
       "epoch": 2.783333333333333,
-      "grad_norm": 0.0270976684987545,
-      "learning_rate": 0.00018144444444444447,
-      "loss": 0.0192,
+      "grad_norm": 1.222553014755249,
+      "learning_rate": 0.0001628888888888889,
+      "loss": 0.0486,
       "step": 835
     },
     {
       "epoch": 2.8,
-      "grad_norm": 1.5272257328033447,
-      "learning_rate": 0.00018133333333333334,
-      "loss": 0.0559,
+      "grad_norm": 5.861104488372803,
+      "learning_rate": 0.00016266666666666667,
+      "loss": 0.0468,
       "step": 840
     },
     {
       "epoch": 2.8166666666666664,
-      "grad_norm": 2.0996463298797607,
-      "learning_rate": 0.00018122222222222224,
-      "loss": 0.0338,
+      "grad_norm": 0.019749319180846214,
+      "learning_rate": 0.00016244444444444444,
+      "loss": 0.0231,
       "step": 845
     },
     {
       "epoch": 2.8333333333333335,
-      "grad_norm": 8.849459648132324,
-      "learning_rate": 0.0001811111111111111,
-      "loss": 0.0178,
+      "grad_norm": 0.10898631066083908,
+      "learning_rate": 0.00016222222222222224,
+      "loss": 0.0243,
       "step": 850
     },
     {
       "epoch": 2.85,
-      "grad_norm": 4.66837739944458,
-      "learning_rate": 0.000181,
-      "loss": 0.036,
+      "grad_norm": 8.215620994567871,
+      "learning_rate": 0.000162,
+      "loss": 0.0806,
       "step": 855
     },
     {
       "epoch": 2.8666666666666667,
-      "grad_norm": 0.0836125910282135,
-      "learning_rate": 0.0001808888888888889,
-      "loss": 0.0193,
+      "grad_norm": 4.63622522354126,
+      "learning_rate": 0.00016177777777777778,
+      "loss": 0.0632,
       "step": 860
     },
     {
       "epoch": 2.8833333333333333,
-      "grad_norm": 0.24081940948963165,
-      "learning_rate": 0.00018077777777777778,
-      "loss": 0.0052,
+      "grad_norm": 0.016983600333333015,
+      "learning_rate": 0.00016155555555555557,
+      "loss": 0.0721,
       "step": 865
     },
     {
       "epoch": 2.9,
-      "grad_norm": 0.014513032510876656,
-      "learning_rate": 0.00018066666666666668,
-      "loss": 0.038,
+      "grad_norm": 2.936657667160034,
+      "learning_rate": 0.00016133333333333334,
+      "loss": 0.0559,
       "step": 870
     },
     {
       "epoch": 2.9166666666666665,
-      "grad_norm": 2.398954391479492,
-      "learning_rate": 0.00018055555555555557,
-      "loss": 0.0241,
+      "grad_norm": 0.019631261005997658,
+      "learning_rate": 0.0001611111111111111,
+      "loss": 0.0073,
       "step": 875
     },
     {
       "epoch": 2.9333333333333336,
-      "grad_norm": 2.782942295074463,
-      "learning_rate": 0.00018044444444444447,
-      "loss": 0.1027,
+      "grad_norm": 0.07632032036781311,
+      "learning_rate": 0.00016088888888888888,
+      "loss": 0.065,
       "step": 880
     },
     {
       "epoch": 2.95,
-      "grad_norm": 2.2646985054016113,
-      "learning_rate": 0.00018033333333333334,
-      "loss": 0.047,
+      "grad_norm": 0.2032032459974289,
+      "learning_rate": 0.00016066666666666668,
+      "loss": 0.0053,
       "step": 885
     },
     {
       "epoch": 2.966666666666667,
-      "grad_norm": 0.2077503353357315,
-      "learning_rate": 0.00018022222222222221,
-      "loss": 0.0273,
+      "grad_norm": 4.927019119262695,
+      "learning_rate": 0.00016044444444444445,
+      "loss": 0.0142,
       "step": 890
     },
     {
       "epoch": 2.9833333333333334,
-      "grad_norm": 0.01212611235678196,
-      "learning_rate": 0.0001801111111111111,
-      "loss": 0.0114,
+      "grad_norm": 0.012328370474278927,
+      "learning_rate": 0.00016022222222222222,
+      "loss": 0.0913,
       "step": 895
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.025400619953870773,
-      "learning_rate": 0.00018,
-      "loss": 0.0075,
+      "grad_norm": 0.020481785759329796,
+      "learning_rate": 0.00016,
+      "loss": 0.03,
       "step": 900
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8104166666666667,
-      "eval_f1": 0.8160570679017576,
-      "eval_loss": 1.0180033445358276,
-      "eval_precision": 0.8370214132253262,
-      "eval_recall": 0.8104166666666667,
-      "eval_runtime": 16.3381,
-      "eval_samples_per_second": 146.896,
-      "eval_steps_per_second": 18.362,
+      "eval_accuracy": 0.8025,
+      "eval_f1": 0.8047601163566459,
+      "eval_loss": 0.8317471146583557,
+      "eval_precision": 0.82254261480191,
+      "eval_recall": 0.8025,
+      "eval_runtime": 16.0096,
+      "eval_samples_per_second": 149.91,
+      "eval_steps_per_second": 18.739,
       "step": 900
     },
     {
       "epoch": 3.0166666666666666,
-      "grad_norm": 3.0035810470581055,
-      "learning_rate": 0.0001798888888888889,
-      "loss": 0.0519,
+      "grad_norm": 0.021587694063782692,
+      "learning_rate": 0.00015977777777777778,
+      "loss": 0.0048,
       "step": 905
     },
     {
       "epoch": 3.033333333333333,
-      "grad_norm": 5.318724155426025,
-      "learning_rate": 0.00017977777777777778,
-      "loss": 0.034,
+      "grad_norm": 0.029200172051787376,
+      "learning_rate": 0.00015955555555555558,
+      "loss": 0.014,
       "step": 910
     },
     {
       "epoch": 3.05,
-      "grad_norm": 3.7328836917877197,
-      "learning_rate": 0.00017966666666666668,
-      "loss": 0.0523,
+      "grad_norm": 0.11076593399047852,
+      "learning_rate": 0.00015933333333333332,
+      "loss": 0.0038,
       "step": 915
     },
     {
       "epoch": 3.066666666666667,
-      "grad_norm": 0.03396003693342209,
-      "learning_rate": 0.00017955555555555558,
-      "loss": 0.0671,
+      "grad_norm": 0.04768664762377739,
+      "learning_rate": 0.00015911111111111112,
+      "loss": 0.0142,
       "step": 920
     },
     {
       "epoch": 3.0833333333333335,
-      "grad_norm": 3.068767786026001,
-      "learning_rate": 0.00017944444444444445,
-      "loss": 0.0562,
+      "grad_norm": 6.136537075042725,
+      "learning_rate": 0.0001588888888888889,
+      "loss": 0.044,
       "step": 925
     },
     {
       "epoch": 3.1,
-      "grad_norm": 4.049549102783203,
-      "learning_rate": 0.00017933333333333332,
-      "loss": 0.0955,
+      "grad_norm": 1.5751808881759644,
+      "learning_rate": 0.00015866666666666668,
+      "loss": 0.0362,
       "step": 930
     },
     {
       "epoch": 3.1166666666666667,
-      "grad_norm": 0.06512529402971268,
-      "learning_rate": 0.00017922222222222222,
-      "loss": 0.0092,
+      "grad_norm": 3.6770124435424805,
+      "learning_rate": 0.00015844444444444445,
+      "loss": 0.0116,
       "step": 935
     },
     {
       "epoch": 3.1333333333333333,
-      "grad_norm": 2.167185068130493,
-      "learning_rate": 0.00017911111111111112,
-      "loss": 0.0061,
+      "grad_norm": 0.040930673480033875,
+      "learning_rate": 0.00015822222222222222,
+      "loss": 0.0036,
       "step": 940
     },
     {
       "epoch": 3.15,
-      "grad_norm": 0.01653483882546425,
-      "learning_rate": 0.00017900000000000001,
-      "loss": 0.0138,
+      "grad_norm": 2.1845993995666504,
+      "learning_rate": 0.00015800000000000002,
+      "loss": 0.0846,
       "step": 945
     },
     {
       "epoch": 3.1666666666666665,
-      "grad_norm": 0.07170548290014267,
-      "learning_rate": 0.0001788888888888889,
-      "loss": 0.0213,
+      "grad_norm": 5.29158353805542,
+      "learning_rate": 0.0001577777777777778,
+      "loss": 0.012,
       "step": 950
     },
     {
       "epoch": 3.183333333333333,
-      "grad_norm": 0.01880640909075737,
-      "learning_rate": 0.00017877777777777778,
-      "loss": 0.0222,
+      "grad_norm": 4.327261447906494,
+      "learning_rate": 0.00015755555555555556,
+      "loss": 0.029,
       "step": 955
     },
     {
       "epoch": 3.2,
-      "grad_norm": 3.4432425498962402,
-      "learning_rate": 0.00017866666666666668,
-      "loss": 0.0454,
+      "grad_norm": 0.04290402680635452,
+      "learning_rate": 0.00015733333333333333,
+      "loss": 0.0051,
       "step": 960
     },
     {
       "epoch": 3.216666666666667,
-      "grad_norm": 4.25826358795166,
-      "learning_rate": 0.00017855555555555555,
-      "loss": 0.0922,
+      "grad_norm": 6.41172456741333,
+      "learning_rate": 0.00015711111111111112,
+      "loss": 0.0888,
       "step": 965
     },
     {
       "epoch": 3.2333333333333334,
-      "grad_norm": 3.4342238903045654,
-      "learning_rate": 0.00017844444444444445,
-      "loss": 0.057,
+      "grad_norm": 0.013120060786604881,
+      "learning_rate": 0.00015688888888888892,
+      "loss": 0.0059,
       "step": 970
     },
     {
       "epoch": 3.25,
-      "grad_norm": 0.04943245276808739,
-      "learning_rate": 0.00017833333333333335,
-      "loss": 0.044,
+      "grad_norm": 0.014242022298276424,
+      "learning_rate": 0.00015666666666666666,
+      "loss": 0.0036,
       "step": 975
     },
     {
       "epoch": 3.2666666666666666,
-      "grad_norm": 1.111425757408142,
-      "learning_rate": 0.00017822222222222222,
-      "loss": 0.0068,
+      "grad_norm": 0.015532501973211765,
+      "learning_rate": 0.00015644444444444446,
+      "loss": 0.0438,
       "step": 980
     },
     {
       "epoch": 3.283333333333333,
-      "grad_norm": 0.01014188677072525,
-      "learning_rate": 0.00017811111111111112,
-      "loss": 0.0077,
+      "grad_norm": 0.014511325396597385,
+      "learning_rate": 0.00015622222222222223,
+      "loss": 0.0028,
       "step": 985
     },
     {
       "epoch": 3.3,
-      "grad_norm": 0.00853718351572752,
-      "learning_rate": 0.00017800000000000002,
-      "loss": 0.0476,
+      "grad_norm": 2.748915433883667,
+      "learning_rate": 0.00015600000000000002,
+      "loss": 0.0564,
       "step": 990
     },
     {
       "epoch": 3.3166666666666664,
-      "grad_norm": 0.02944503165781498,
-      "learning_rate": 0.00017788888888888892,
-      "loss": 0.0137,
+      "grad_norm": 2.6591851711273193,
+      "learning_rate": 0.00015577777777777777,
+      "loss": 0.1238,
       "step": 995
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 0.012295613996684551,
-      "learning_rate": 0.00017777777777777779,
-      "loss": 0.0338,
+      "grad_norm": 0.0233880914747715,
+      "learning_rate": 0.00015555555555555556,
+      "loss": 0.0253,
       "step": 1000
     },
     {
       "epoch": 3.3333333333333335,
-      "eval_accuracy": 0.8429166666666666,
-      "eval_f1": 0.8422077483725371,
-      "eval_loss": 0.7638025879859924,
-      "eval_precision": 0.8601360964887654,
-      "eval_recall": 0.8429166666666666,
-      "eval_runtime": 16.2888,
-      "eval_samples_per_second": 147.34,
-      "eval_steps_per_second": 18.418,
+      "eval_accuracy": 0.8241666666666667,
+      "eval_f1": 0.8253623209178303,
+      "eval_loss": 0.8573578000068665,
+      "eval_precision": 0.8407910958614392,
+      "eval_recall": 0.8241666666666667,
+      "eval_runtime": 16.1693,
+      "eval_samples_per_second": 148.43,
+      "eval_steps_per_second": 18.554,
       "step": 1000
     },
     {
       "epoch": 3.35,
-      "grad_norm": 0.01096256822347641,
-      "learning_rate": 0.00017766666666666666,
-      "loss": 0.0443,
+      "grad_norm": 0.009820850566029549,
+      "learning_rate": 0.00015533333333333333,
+      "loss": 0.0348,
       "step": 1005
     },
     {
       "epoch": 3.3666666666666667,
-      "grad_norm": 3.139845132827759,
-      "learning_rate": 0.00017755555555555556,
-      "loss": 0.0752,
+      "grad_norm": 0.4129643440246582,
+      "learning_rate": 0.00015511111111111113,
+      "loss": 0.0035,
       "step": 1010
     },
     {
       "epoch": 3.3833333333333333,
-      "grad_norm": 3.4195477962493896,
-      "learning_rate": 0.00017744444444444445,
-      "loss": 0.0347,
+      "grad_norm": 0.0425117164850235,
+      "learning_rate": 0.0001548888888888889,
+      "loss": 0.0787,
       "step": 1015
     },
     {
       "epoch": 3.4,
-      "grad_norm": 1.5012662410736084,
-      "learning_rate": 0.00017733333333333335,
-      "loss": 0.0249,
+      "grad_norm": 0.012955604121088982,
+      "learning_rate": 0.00015466666666666667,
+      "loss": 0.0151,
       "step": 1020
     },
     {
       "epoch": 3.4166666666666665,
-      "grad_norm": 0.3454837203025818,
-      "learning_rate": 0.00017722222222222222,
-      "loss": 0.0636,
+      "grad_norm": 0.013103988952934742,
+      "learning_rate": 0.00015444444444444446,
+      "loss": 0.0429,
       "step": 1025
     },
     {
       "epoch": 3.4333333333333336,
-      "grad_norm": 0.009671506471931934,
-      "learning_rate": 0.00017711111111111112,
-      "loss": 0.0112,
+      "grad_norm": 0.08540816605091095,
+      "learning_rate": 0.00015422222222222223,
+      "loss": 0.0035,
       "step": 1030
     },
     {
       "epoch": 3.45,
-      "grad_norm": 0.009137900546193123,
-      "learning_rate": 0.00017700000000000002,
-      "loss": 0.0232,
+      "grad_norm": 0.01831856369972229,
+      "learning_rate": 0.000154,
+      "loss": 0.0296,
       "step": 1035
     },
     {
       "epoch": 3.466666666666667,
-      "grad_norm": 1.6161612272262573,
-      "learning_rate": 0.0001768888888888889,
-      "loss": 0.0575,
+      "grad_norm": 3.1137874126434326,
+      "learning_rate": 0.00015377777777777777,
+      "loss": 0.015,
       "step": 1040
     },
     {
       "epoch": 3.4833333333333334,
-      "grad_norm": 2.7803761959075928,
-      "learning_rate": 0.00017677777777777776,
-      "loss": 0.1043,
+      "grad_norm": 4.800497531890869,
+      "learning_rate": 0.00015355555555555557,
+      "loss": 0.0402,
       "step": 1045
     },
     {
       "epoch": 3.5,
-      "grad_norm": 4.598694324493408,
-      "learning_rate": 0.00017666666666666666,
-      "loss": 0.2,
+      "grad_norm": 0.012581158429384232,
+      "learning_rate": 0.00015333333333333334,
+      "loss": 0.0061,
       "step": 1050
     },
     {
       "epoch": 3.5166666666666666,
-      "grad_norm": 0.3334619998931885,
-      "learning_rate": 0.00017655555555555556,
-      "loss": 0.0704,
+      "grad_norm": 0.008870863355696201,
+      "learning_rate": 0.0001531111111111111,
+      "loss": 0.0137,
       "step": 1055
     },
     {
       "epoch": 3.533333333333333,
-      "grad_norm": 3.1704840660095215,
-      "learning_rate": 0.00017644444444444446,
-      "loss": 0.0466,
+      "grad_norm": 0.11069171875715256,
+      "learning_rate": 0.0001528888888888889,
+      "loss": 0.0031,
       "step": 1060
     },
     {
       "epoch": 3.55,
-      "grad_norm": 0.5454235672950745,
-      "learning_rate": 0.00017633333333333335,
-      "loss": 0.074,
+      "grad_norm": 6.617146015167236,
+      "learning_rate": 0.00015266666666666667,
+      "loss": 0.064,
       "step": 1065
     },
     {
       "epoch": 3.5666666666666664,
-      "grad_norm": 0.10015742480754852,
-      "learning_rate": 0.00017622222222222223,
-      "loss": 0.0137,
+      "grad_norm": 2.2220444679260254,
+      "learning_rate": 0.00015244444444444447,
+      "loss": 0.0057,
       "step": 1070
     },
     {
       "epoch": 3.5833333333333335,
-      "grad_norm": 0.6166223883628845,
-      "learning_rate": 0.00017611111111111112,
-      "loss": 0.0161,
+      "grad_norm": 3.3805482387542725,
+      "learning_rate": 0.0001522222222222222,
+      "loss": 0.0308,
       "step": 1075
     },
     {
       "epoch": 3.6,
-      "grad_norm": 0.07125667482614517,
-      "learning_rate": 0.00017600000000000002,
-      "loss": 0.008,
+      "grad_norm": 0.009273400530219078,
+      "learning_rate": 0.000152,
+      "loss": 0.0257,
       "step": 1080
     },
     {
       "epoch": 3.6166666666666667,
-      "grad_norm": 0.10988776385784149,
-      "learning_rate": 0.0001758888888888889,
-      "loss": 0.0037,
+      "grad_norm": 0.007726817391812801,
+      "learning_rate": 0.00015177777777777778,
+      "loss": 0.002,
       "step": 1085
     },
     {
       "epoch": 3.6333333333333333,
-      "grad_norm": 4.895864963531494,
-      "learning_rate": 0.0001757777777777778,
-      "loss": 0.1261,
+      "grad_norm": 0.007703765761107206,
+      "learning_rate": 0.00015155555555555557,
+      "loss": 0.0073,
       "step": 1090
     },
     {
       "epoch": 3.65,
-      "grad_norm": 3.7196929454803467,
-      "learning_rate": 0.00017566666666666666,
-      "loss": 0.0097,
+      "grad_norm": 3.1173300743103027,
+      "learning_rate": 0.00015133333333333334,
+      "loss": 0.0203,
       "step": 1095
     },
     {
       "epoch": 3.6666666666666665,
-      "grad_norm": 1.5260200500488281,
-      "learning_rate": 0.00017555555555555556,
-      "loss": 0.0488,
+      "grad_norm": 0.027209792286157608,
+      "learning_rate": 0.0001511111111111111,
+      "loss": 0.0564,
       "step": 1100
     },
     {
       "epoch": 3.6666666666666665,
-      "eval_accuracy": 0.7983333333333333,
-      "eval_f1": 0.7985829803110943,
-      "eval_loss": 1.040056586265564,
-      "eval_precision": 0.82276451694565,
-      "eval_recall": 0.7983333333333333,
-      "eval_runtime": 16.232,
-      "eval_samples_per_second": 147.856,
-      "eval_steps_per_second": 18.482,
+      "eval_accuracy": 0.8391666666666666,
+      "eval_f1": 0.8343497769638814,
+      "eval_loss": 0.8590586185455322,
+      "eval_precision": 0.8512898032858356,
+      "eval_recall": 0.8391666666666666,
+      "eval_runtime": 16.022,
+      "eval_samples_per_second": 149.794,
+      "eval_steps_per_second": 18.724,
       "step": 1100
     },
     {
       "epoch": 3.6833333333333336,
-      "grad_norm": 0.0966605693101883,
-      "learning_rate": 0.00017544444444444446,
-      "loss": 0.0819,
+      "grad_norm": 0.3074783682823181,
+      "learning_rate": 0.0001508888888888889,
+      "loss": 0.0627,
       "step": 1105
     },
     {
       "epoch": 3.7,
-      "grad_norm": 4.365535736083984,
-      "learning_rate": 0.00017533333333333336,
-      "loss": 0.111,
+      "grad_norm": 0.7689422965049744,
+      "learning_rate": 0.00015066666666666668,
+      "loss": 0.0064,
       "step": 1110
     },
     {
       "epoch": 3.716666666666667,
-      "grad_norm": 0.023431312292814255,
-      "learning_rate": 0.00017522222222222223,
-      "loss": 0.037,
+      "grad_norm": 0.7673523426055908,
+      "learning_rate": 0.00015044444444444445,
+      "loss": 0.0569,
       "step": 1115
     },
     {
       "epoch": 3.7333333333333334,
-      "grad_norm": 2.030966281890869,
-      "learning_rate": 0.00017511111111111113,
-      "loss": 0.0408,
+      "grad_norm": 2.515536308288574,
+      "learning_rate": 0.00015022222222222222,
+      "loss": 0.0478,
       "step": 1120
     },
     {
       "epoch": 3.75,
-      "grad_norm": 1.2563936710357666,
-      "learning_rate": 0.000175,
-      "loss": 0.0786,
+      "grad_norm": 0.008888054639101028,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.0185,
       "step": 1125
     },
     {
       "epoch": 3.7666666666666666,
-      "grad_norm": 0.03219285607337952,
-      "learning_rate": 0.0001748888888888889,
-      "loss": 0.0792,
+      "grad_norm": 0.025508493185043335,
+      "learning_rate": 0.00014977777777777778,
+      "loss": 0.0433,
       "step": 1130
     },
     {
       "epoch": 3.783333333333333,
-      "grad_norm": 0.49413928389549255,
-      "learning_rate": 0.0001747777777777778,
-      "loss": 0.0261,
+      "grad_norm": 0.22528721392154694,
+      "learning_rate": 0.00014955555555555555,
+      "loss": 0.0329,
       "step": 1135
     },
     {
       "epoch": 3.8,
-      "grad_norm": 2.306758165359497,
-      "learning_rate": 0.00017466666666666667,
-      "loss": 0.0933,
+      "grad_norm": 0.02366475760936737,
+      "learning_rate": 0.00014933333333333335,
+      "loss": 0.0977,
       "step": 1140
     },
     {
       "epoch": 3.8166666666666664,
-      "grad_norm": 0.8901767134666443,
-      "learning_rate": 0.00017455555555555556,
-      "loss": 0.0446,
+      "grad_norm": 1.9770526885986328,
+      "learning_rate": 0.00014911111111111112,
+      "loss": 0.0474,
       "step": 1145
     },
     {
       "epoch": 3.8333333333333335,
-      "grad_norm": 0.030653255060315132,
-      "learning_rate": 0.00017444444444444446,
-      "loss": 0.0259,
+      "grad_norm": 0.021462541073560715,
+      "learning_rate": 0.0001488888888888889,
+      "loss": 0.0031,
       "step": 1150
     },
     {
       "epoch": 3.85,
-      "grad_norm": 0.019782505929470062,
-      "learning_rate": 0.00017433333333333336,
-      "loss": 0.0597,
+      "grad_norm": 0.016281824558973312,
+      "learning_rate": 0.00014866666666666666,
+      "loss": 0.0395,
       "step": 1155
     },
     {
       "epoch": 3.8666666666666667,
-      "grad_norm": 0.237277090549469,
-      "learning_rate": 0.00017422222222222223,
-      "loss": 0.0194,
+      "grad_norm": 0.011671984568238258,
+      "learning_rate": 0.00014844444444444445,
+      "loss": 0.0422,
       "step": 1160
     },
     {
       "epoch": 3.8833333333333333,
-      "grad_norm": 3.122256278991699,
-      "learning_rate": 0.0001741111111111111,
-      "loss": 0.0324,
+      "grad_norm": 1.627789855003357,
+      "learning_rate": 0.00014822222222222225,
+      "loss": 0.0116,
       "step": 1165
     },
     {
       "epoch": 3.9,
-      "grad_norm": 0.035242628306150436,
-      "learning_rate": 0.000174,
-      "loss": 0.004,
+      "grad_norm": 0.21025590598583221,
+      "learning_rate": 0.000148,
+      "loss": 0.0108,
       "step": 1170
     },
     {
       "epoch": 3.9166666666666665,
-      "grad_norm": 2.5928890705108643,
-      "learning_rate": 0.0001738888888888889,
-      "loss": 0.0593,
+      "grad_norm": 0.9990274906158447,
+      "learning_rate": 0.0001477777777777778,
+      "loss": 0.0596,
       "step": 1175
     },
     {
       "epoch": 3.9333333333333336,
-      "grad_norm": 0.19947613775730133,
-      "learning_rate": 0.0001737777777777778,
-      "loss": 0.0031,
+      "grad_norm": 0.007340074982494116,
+      "learning_rate": 0.00014755555555555556,
+      "loss": 0.0044,
       "step": 1180
     },
     {
       "epoch": 3.95,
-      "grad_norm": 0.00948380772024393,
-      "learning_rate": 0.00017366666666666667,
-      "loss": 0.007,
+      "grad_norm": 8.026524543762207,
+      "learning_rate": 0.00014733333333333335,
+      "loss": 0.0432,
       "step": 1185
     },
     {
       "epoch": 3.966666666666667,
-      "grad_norm": 0.15441906452178955,
-      "learning_rate": 0.00017355555555555557,
-      "loss": 0.0029,
+      "grad_norm": 2.962063789367676,
+      "learning_rate": 0.00014711111111111112,
+      "loss": 0.0504,
       "step": 1190
     },
     {
       "epoch": 3.9833333333333334,
-      "grad_norm": 0.011880452744662762,
-      "learning_rate": 0.00017344444444444447,
-      "loss": 0.0065,
+      "grad_norm": 0.4192357063293457,
+      "learning_rate": 0.0001468888888888889,
+      "loss": 0.0345,
       "step": 1195
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.02088858373463154,
-      "learning_rate": 0.00017333333333333334,
-      "loss": 0.0794,
+      "grad_norm": 3.6934778690338135,
+      "learning_rate": 0.00014666666666666666,
+      "loss": 0.0285,
       "step": 1200
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8495833333333334,
-      "eval_f1": 0.8481373809485657,
-      "eval_loss": 0.7388473749160767,
-      "eval_precision": 0.8497200322586838,
-      "eval_recall": 0.8495833333333334,
-      "eval_runtime": 16.3626,
-      "eval_samples_per_second": 146.676,
-      "eval_steps_per_second": 18.334,
+      "eval_accuracy": 0.75125,
+      "eval_f1": 0.7483716523062018,
+      "eval_loss": 1.3453402519226074,
+      "eval_precision": 0.8089996769385102,
+      "eval_recall": 0.75125,
+      "eval_runtime": 16.185,
+      "eval_samples_per_second": 148.285,
+      "eval_steps_per_second": 18.536,
       "step": 1200
     },
     {
       "epoch": 4.016666666666667,
-      "grad_norm": 5.267594814300537,
-      "learning_rate": 0.00017322222222222223,
-      "loss": 0.0967,
+      "grad_norm": 3.0329835414886475,
+      "learning_rate": 0.00014644444444444446,
+      "loss": 0.1116,
       "step": 1205
     },
     {
       "epoch": 4.033333333333333,
-      "grad_norm": 0.1025567352771759,
-      "learning_rate": 0.0001731111111111111,
-      "loss": 0.0063,
+      "grad_norm": 0.008245925419032574,
+      "learning_rate": 0.00014622222222222223,
+      "loss": 0.0071,
       "step": 1210
     },
     {
       "epoch": 4.05,
-      "grad_norm": 0.07298365235328674,
-      "learning_rate": 0.000173,
-      "loss": 0.003,
+      "grad_norm": 0.031323954463005066,
+      "learning_rate": 0.000146,
+      "loss": 0.0118,
       "step": 1215
     },
     {
       "epoch": 4.066666666666666,
-      "grad_norm": 1.120330572128296,
-      "learning_rate": 0.0001728888888888889,
-      "loss": 0.0759,
+      "grad_norm": 0.020334072411060333,
+      "learning_rate": 0.0001457777777777778,
+      "loss": 0.0059,
       "step": 1220
     },
     {
       "epoch": 4.083333333333333,
-      "grad_norm": 0.011293798685073853,
-      "learning_rate": 0.0001727777777777778,
-      "loss": 0.003,
+      "grad_norm": 0.023309530690312386,
+      "learning_rate": 0.00014555555555555556,
+      "loss": 0.0048,
       "step": 1225
     },
     {
       "epoch": 4.1,
-      "grad_norm": 0.015631891787052155,
-      "learning_rate": 0.00017266666666666667,
-      "loss": 0.0879,
+      "grad_norm": 0.07732044160366058,
+      "learning_rate": 0.00014533333333333333,
+      "loss": 0.0033,
       "step": 1230
     },
     {
       "epoch": 4.116666666666666,
-      "grad_norm": 0.08340942114591599,
-      "learning_rate": 0.00017255555555555557,
-      "loss": 0.0327,
+      "grad_norm": 0.16771095991134644,
+      "learning_rate": 0.0001451111111111111,
+      "loss": 0.002,
       "step": 1235
     },
     {
       "epoch": 4.133333333333334,
-      "grad_norm": 0.011817115359008312,
-      "learning_rate": 0.00017244444444444444,
-      "loss": 0.02,
+      "grad_norm": 0.0193961039185524,
+      "learning_rate": 0.0001448888888888889,
+      "loss": 0.0373,
       "step": 1240
     },
     {
       "epoch": 4.15,
-      "grad_norm": 4.441591262817383,
-      "learning_rate": 0.00017233333333333334,
-      "loss": 0.0964,
+      "grad_norm": 0.012680591084063053,
+      "learning_rate": 0.0001446666666666667,
+      "loss": 0.0265,
       "step": 1245
     },
     {
       "epoch": 4.166666666666667,
-      "grad_norm": 0.0307245422154665,
-      "learning_rate": 0.00017222222222222224,
-      "loss": 0.0294,
+      "grad_norm": 3.6955759525299072,
+      "learning_rate": 0.00014444444444444444,
+      "loss": 0.0204,
       "step": 1250
     },
     {
       "epoch": 4.183333333333334,
-      "grad_norm": 0.2551024854183197,
-      "learning_rate": 0.0001721111111111111,
-      "loss": 0.0098,
+      "grad_norm": 0.17912250757217407,
+      "learning_rate": 0.00014422222222222223,
+      "loss": 0.0345,
       "step": 1255
     },
     {
       "epoch": 4.2,
-      "grad_norm": 0.021809710189700127,
-      "learning_rate": 0.000172,
-      "loss": 0.0443,
+      "grad_norm": 0.008037371560931206,
+      "learning_rate": 0.000144,
+      "loss": 0.0019,
       "step": 1260
     },
     {
       "epoch": 4.216666666666667,
-      "grad_norm": 2.603322744369507,
-      "learning_rate": 0.0001718888888888889,
-      "loss": 0.0328,
+      "grad_norm": 1.6326488256454468,
+      "learning_rate": 0.0001437777777777778,
+      "loss": 0.0404,
       "step": 1265
     },
     {
       "epoch": 4.233333333333333,
-      "grad_norm": 4.0956573486328125,
-      "learning_rate": 0.0001717777777777778,
-      "loss": 0.0338,
+      "grad_norm": 0.21533696353435516,
+      "learning_rate": 0.00014355555555555554,
+      "loss": 0.0024,
       "step": 1270
     },
     {
       "epoch": 4.25,
-      "grad_norm": 5.8344268798828125,
-      "learning_rate": 0.00017166666666666667,
-      "loss": 0.054,
+      "grad_norm": 2.628861665725708,
+      "learning_rate": 0.00014333333333333334,
+      "loss": 0.0062,
       "step": 1275
     },
     {
       "epoch": 4.266666666666667,
-      "grad_norm": 4.867835521697998,
-      "learning_rate": 0.00017155555555555555,
-      "loss": 0.0289,
-      "step": 1280
+      "grad_norm": 0.014976616948843002,
+      "learning_rate": 0.0001431111111111111,
+      "loss": 0.0215,
+      "step": 1280
     },
     {
       "epoch": 4.283333333333333,
-      "grad_norm": 7.187802314758301,
-      "learning_rate": 0.00017144444444444444,
-      "loss": 0.0651,
+      "grad_norm": 0.12851203978061676,
+      "learning_rate": 0.0001428888888888889,
+      "loss": 0.0022,
       "step": 1285
     },
     {
       "epoch": 4.3,
-      "grad_norm": 0.19430683553218842,
-      "learning_rate": 0.00017133333333333334,
-      "loss": 0.0565,
+      "grad_norm": 0.01767564006149769,
+      "learning_rate": 0.00014266666666666667,
+      "loss": 0.0234,
       "step": 1290
     },
     {
       "epoch": 4.316666666666666,
-      "grad_norm": 0.010342041030526161,
-      "learning_rate": 0.00017122222222222224,
-      "loss": 0.0206,
+      "grad_norm": 0.10187935829162598,
+      "learning_rate": 0.00014244444444444444,
+      "loss": 0.0076,
       "step": 1295
     },
     {
       "epoch": 4.333333333333333,
-      "grad_norm": 0.6548381447792053,
-      "learning_rate": 0.0001711111111111111,
-      "loss": 0.0034,
+      "grad_norm": 0.015292627736926079,
+      "learning_rate": 0.00014222222222222224,
+      "loss": 0.002,
       "step": 1300
     },
     {
       "epoch": 4.333333333333333,
-      "eval_accuracy": 0.8279166666666666,
-      "eval_f1": 0.8252457143524822,
-      "eval_loss": 0.9748605489730835,
-      "eval_precision": 0.8426798194205973,
-      "eval_recall": 0.8279166666666666,
-      "eval_runtime": 16.321,
-      "eval_samples_per_second": 147.049,
-      "eval_steps_per_second": 18.381,
+      "eval_accuracy": 0.8191666666666667,
+      "eval_f1": 0.822682331314537,
+      "eval_loss": 0.9746004343032837,
+      "eval_precision": 0.8380616290123944,
+      "eval_recall": 0.8191666666666667,
+      "eval_runtime": 16.1244,
+      "eval_samples_per_second": 148.843,
+      "eval_steps_per_second": 18.605,
       "step": 1300
     },
     {
       "epoch": 4.35,
-      "grad_norm": 0.02649116702377796,
-      "learning_rate": 0.000171,
-      "loss": 0.012,
+      "grad_norm": 0.029992559924721718,
+      "learning_rate": 0.000142,
+      "loss": 0.0309,
       "step": 1305
     },
     {
       "epoch": 4.366666666666666,
-      "grad_norm": 0.00635824678465724,
-      "learning_rate": 0.0001708888888888889,
-      "loss": 0.0695,
+      "grad_norm": 0.20593196153640747,
+      "learning_rate": 0.00014177777777777778,
+      "loss": 0.0021,
       "step": 1310
     },
     {
       "epoch": 4.383333333333334,
-      "grad_norm": 3.5505950450897217,
-      "learning_rate": 0.00017077777777777778,
-      "loss": 0.1248,
+      "grad_norm": 0.007687207777053118,
+      "learning_rate": 0.00014155555555555555,
+      "loss": 0.0683,
       "step": 1315
     },
     {
       "epoch": 4.4,
-      "grad_norm": 3.20735764503479,
-      "learning_rate": 0.00017066666666666668,
-      "loss": 0.045,
+      "grad_norm": 0.04832199588418007,
+      "learning_rate": 0.00014133333333333334,
+      "loss": 0.0028,
       "step": 1320
     },
     {
       "epoch": 4.416666666666667,
-      "grad_norm": 0.2630263864994049,
-      "learning_rate": 0.00017055555555555555,
-      "loss": 0.0096,
+      "grad_norm": 6.2812418937683105,
+      "learning_rate": 0.00014111111111111111,
+      "loss": 0.0389,
       "step": 1325
     },
     {
       "epoch": 4.433333333333334,
-      "grad_norm": 3.3768668174743652,
-      "learning_rate": 0.00017044444444444445,
-      "loss": 0.0451,
+      "grad_norm": 0.05290313437581062,
+      "learning_rate": 0.00014088888888888888,
+      "loss": 0.0327,
       "step": 1330
     },
     {
       "epoch": 4.45,
-      "grad_norm": 0.16904784739017487,
-      "learning_rate": 0.00017033333333333334,
-      "loss": 0.0437,
+      "grad_norm": 0.024216249585151672,
+      "learning_rate": 0.00014066666666666668,
+      "loss": 0.0028,
       "step": 1335
     },
     {
       "epoch": 4.466666666666667,
-      "grad_norm": 0.00831939559429884,
-      "learning_rate": 0.00017022222222222224,
-      "loss": 0.0355,
+      "grad_norm": 0.008240735158324242,
+      "learning_rate": 0.00014044444444444445,
+      "loss": 0.0018,
       "step": 1340
     },
     {
       "epoch": 4.483333333333333,
-      "grad_norm": 0.0073820254765450954,
-      "learning_rate": 0.00017011111111111111,
-      "loss": 0.0578,
+      "grad_norm": 0.006367730442434549,
+      "learning_rate": 0.00014022222222222225,
+      "loss": 0.0102,
       "step": 1345
     },
     {
       "epoch": 4.5,
-      "grad_norm": 3.848128318786621,
-      "learning_rate": 0.00017,
-      "loss": 0.0593,
+      "grad_norm": 0.6259393095970154,
+      "learning_rate": 0.00014,
+      "loss": 0.0202,
       "step": 1350
     },
     {
       "epoch": 4.516666666666667,
-      "grad_norm": 0.691386342048645,
-      "learning_rate": 0.0001698888888888889,
-      "loss": 0.0711,
+      "grad_norm": 0.028926260769367218,
+      "learning_rate": 0.00013977777777777778,
+      "loss": 0.0059,
       "step": 1355
     },
     {
       "epoch": 4.533333333333333,
-      "grad_norm": 0.18936562538146973,
-      "learning_rate": 0.00016977777777777778,
-      "loss": 0.0163,
+      "grad_norm": 0.005139854736626148,
+      "learning_rate": 0.00013955555555555558,
+      "loss": 0.0014,
       "step": 1360
     },
     {
       "epoch": 4.55,
-      "grad_norm": 0.03111095167696476,
-      "learning_rate": 0.00016966666666666668,
-      "loss": 0.0086,
+      "grad_norm": 0.00576843461021781,
+      "learning_rate": 0.00013933333333333335,
+      "loss": 0.0323,
       "step": 1365
     },
     {
       "epoch": 4.566666666666666,
-      "grad_norm": 0.08653925359249115,
-      "learning_rate": 0.00016955555555555555,
-      "loss": 0.0237,
+      "grad_norm": 0.011091756634414196,
+      "learning_rate": 0.00013911111111111112,
+      "loss": 0.0396,
       "step": 1370
     },
     {
       "epoch": 4.583333333333333,
-      "grad_norm": 0.08695255219936371,
-      "learning_rate": 0.00016944444444444445,
-      "loss": 0.004,
+      "grad_norm": 0.013332534581422806,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 0.0367,
       "step": 1375
     },
     {
       "epoch": 4.6,
-      "grad_norm": 0.05409492552280426,
-      "learning_rate": 0.00016933333333333335,
-      "loss": 0.0028,
+      "grad_norm": 0.006733342073857784,
+      "learning_rate": 0.00013866666666666669,
+      "loss": 0.05,
       "step": 1380
     },
     {
       "epoch": 4.616666666666667,
-      "grad_norm": 0.2642468214035034,
-      "learning_rate": 0.00016922222222222225,
-      "loss": 0.0219,
+      "grad_norm": 0.05589795485138893,
+      "learning_rate": 0.00013844444444444445,
+      "loss": 0.0106,
       "step": 1385
     },
     {
       "epoch": 4.633333333333333,
-      "grad_norm": 9.090007781982422,
-      "learning_rate": 0.00016911111111111112,
-      "loss": 0.0588,
+      "grad_norm": 0.07307516783475876,
+      "learning_rate": 0.00013822222222222222,
+      "loss": 0.0027,
       "step": 1390
     },
     {
       "epoch": 4.65,
-      "grad_norm": 0.06260046362876892,
-      "learning_rate": 0.00016900000000000002,
-      "loss": 0.0081,
+      "grad_norm": 0.47502943873405457,
+      "learning_rate": 0.000138,
+      "loss": 0.0455,
       "step": 1395
     },
     {
       "epoch": 4.666666666666667,
-      "grad_norm": 2.2390575408935547,
-      "learning_rate": 0.00016888888888888889,
-      "loss": 0.0276,
+      "grad_norm": 0.02746354602277279,
+      "learning_rate": 0.0001377777777777778,
+      "loss": 0.0214,
       "step": 1400
     },
     {
       "epoch": 4.666666666666667,
-      "eval_accuracy": 0.8066666666666666,
-      "eval_f1": 0.8115644692607008,
-      "eval_loss": 1.1395381689071655,
-      "eval_precision": 0.8350845926294496,
-      "eval_recall": 0.8066666666666666,
-      "eval_runtime": 16.5164,
-      "eval_samples_per_second": 145.31,
-      "eval_steps_per_second": 18.164,
+      "eval_accuracy": 0.8645833333333334,
+      "eval_f1": 0.8572351785202907,
+      "eval_loss": 0.7404390573501587,
+      "eval_precision": 0.8640564678405307,
+      "eval_recall": 0.8645833333333334,
+      "eval_runtime": 16.1315,
+      "eval_samples_per_second": 148.777,
+      "eval_steps_per_second": 18.597,
       "step": 1400
     },
     {
       "epoch": 4.683333333333334,
-      "grad_norm": 1.7876168489456177,
-      "learning_rate": 0.00016877777777777778,
-      "loss": 0.0038,
+      "grad_norm": 1.4660977125167847,
+      "learning_rate": 0.00013755555555555556,
+      "loss": 0.0157,
       "step": 1405
     },
     {
       "epoch": 4.7,
-      "grad_norm": 0.05303347110748291,
-      "learning_rate": 0.00016866666666666668,
-      "loss": 0.0166,
+      "grad_norm": 0.016876785084605217,
+      "learning_rate": 0.00013733333333333333,
+      "loss": 0.0429,
       "step": 1410
     },
     {
       "epoch": 4.716666666666667,
-      "grad_norm": 0.018022559583187103,
-      "learning_rate": 0.00016855555555555555,
-      "loss": 0.0016,
+      "grad_norm": 0.027184031903743744,
+      "learning_rate": 0.00013711111111111113,
+      "loss": 0.0056,
       "step": 1415
     },
     {
       "epoch": 4.733333333333333,
-      "grad_norm": 5.291451930999756,
-      "learning_rate": 0.00016844444444444445,
-      "loss": 0.0297,
+      "grad_norm": 0.011776816099882126,
+      "learning_rate": 0.0001368888888888889,
+      "loss": 0.0651,
       "step": 1420
     },
     {
       "epoch": 4.75,
-      "grad_norm": 2.263148546218872,
-      "learning_rate": 0.00016833333333333335,
-      "loss": 0.0507,
+      "grad_norm": 6.020449638366699,
+      "learning_rate": 0.00013666666666666666,
+      "loss": 0.0353,
       "step": 1425
     },
     {
       "epoch": 4.766666666666667,
-      "grad_norm": 0.022111594676971436,
-      "learning_rate": 0.00016822222222222225,
-      "loss": 0.0912,
+      "grad_norm": 0.8004612922668457,
+      "learning_rate": 0.00013644444444444443,
+      "loss": 0.0519,
       "step": 1430
     },
     {
       "epoch": 4.783333333333333,
-      "grad_norm": 0.07172089070081711,
-      "learning_rate": 0.00016811111111111112,
-      "loss": 0.0023,
+      "grad_norm": 3.433058261871338,
+      "learning_rate": 0.00013622222222222223,
+      "loss": 0.061,
       "step": 1435
     },
     {
       "epoch": 4.8,
-      "grad_norm": 0.0857483372092247,
-      "learning_rate": 0.000168,
-      "loss": 0.0177,
+      "grad_norm": 0.025435922667384148,
+      "learning_rate": 0.00013600000000000003,
+      "loss": 0.0145,
       "step": 1440
     },
     {
       "epoch": 4.816666666666666,
-      "grad_norm": 0.031902212649583817,
-      "learning_rate": 0.0001678888888888889,
-      "loss": 0.0152,
+      "grad_norm": 1.6531327962875366,
+      "learning_rate": 0.00013577777777777777,
+      "loss": 0.0827,
       "step": 1445
     },
     {
       "epoch": 4.833333333333333,
-      "grad_norm": 0.18040472269058228,
-      "learning_rate": 0.0001677777777777778,
-      "loss": 0.0208,
+      "grad_norm": 0.12251879274845123,
+      "learning_rate": 0.00013555555555555556,
+      "loss": 0.0024,
       "step": 1450
     },
     {
       "epoch": 4.85,
-      "grad_norm": 0.08346249163150787,
-      "learning_rate": 0.00016766666666666669,
-      "loss": 0.0052,
+      "grad_norm": 1.521263837814331,
+      "learning_rate": 0.00013533333333333333,
+      "loss": 0.144,
       "step": 1455
     },
     {
       "epoch": 4.866666666666667,
-      "grad_norm": 0.057205043733119965,
-      "learning_rate": 0.00016755555555555556,
-      "loss": 0.0276,
+      "grad_norm": 0.3508593440055847,
+      "learning_rate": 0.00013511111111111113,
+      "loss": 0.0225,
       "step": 1460
     },
     {
       "epoch": 4.883333333333333,
-      "grad_norm": 2.290008783340454,
-      "learning_rate": 0.00016744444444444445,
-      "loss": 0.0485,
+      "grad_norm": 0.11305627971887589,
+      "learning_rate": 0.0001348888888888889,
+      "loss": 0.0249,
       "step": 1465
     },
     {
       "epoch": 4.9,
-      "grad_norm": 0.006165376864373684,
-      "learning_rate": 0.00016733333333333335,
-      "loss": 0.0508,
+      "grad_norm": 0.012486869469285011,
+      "learning_rate": 0.00013466666666666667,
+      "loss": 0.0031,
       "step": 1470
     },
     {
       "epoch": 4.916666666666667,
-      "grad_norm": 0.011485300026834011,
-      "learning_rate": 0.00016722222222222222,
-      "loss": 0.0028,
+      "grad_norm": 0.0059285652823746204,
+      "learning_rate": 0.00013444444444444447,
+      "loss": 0.0043,
       "step": 1475
     },
     {
       "epoch": 4.933333333333334,
-      "grad_norm": 3.2664902210235596,
-      "learning_rate": 0.00016711111111111112,
-      "loss": 0.0105,
+      "grad_norm": 0.5254614949226379,
+      "learning_rate": 0.00013422222222222224,
+      "loss": 0.0461,
       "step": 1480
     },
     {
       "epoch": 4.95,
-      "grad_norm": 3.3061978816986084,
-      "learning_rate": 0.000167,
-      "loss": 0.0162,
+      "grad_norm": 1.1848276853561401,
+      "learning_rate": 0.000134,
+      "loss": 0.1102,
       "step": 1485
     },
     {
       "epoch": 4.966666666666667,
-      "grad_norm": 0.009094956330955029,
-      "learning_rate": 0.0001668888888888889,
-      "loss": 0.0016,
+      "grad_norm": 0.18194884061813354,
+      "learning_rate": 0.00013377777777777777,
+      "loss": 0.0031,
       "step": 1490
     },
     {
       "epoch": 4.983333333333333,
-      "grad_norm": 0.2529154419898987,
-      "learning_rate": 0.0001667777777777778,
-      "loss": 0.0195,
+      "grad_norm": 4.425944805145264,
+      "learning_rate": 0.00013355555555555557,
+      "loss": 0.0415,
       "step": 1495
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.7396290302276611,
-      "learning_rate": 0.0001666666666666667,
-      "loss": 0.0855,
+      "grad_norm": 0.02117891050875187,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.0282,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8729166666666667,
-      "eval_f1": 0.876295294495617,
-      "eval_loss": 0.6391319036483765,
-      "eval_precision": 0.8860482676059394,
-      "eval_recall": 0.8729166666666667,
-      "eval_runtime": 16.436,
-      "eval_samples_per_second": 146.021,
-      "eval_steps_per_second": 18.253,
+      "eval_accuracy": 0.8233333333333334,
+      "eval_f1": 0.8219169204173855,
+      "eval_loss": 1.0063419342041016,
+      "eval_precision": 0.8485748860661025,
+      "eval_recall": 0.8233333333333334,
+      "eval_runtime": 16.192,
+      "eval_samples_per_second": 148.221,
+      "eval_steps_per_second": 18.528,
       "step": 1500
     },
     {
       "epoch": 5.016666666666667,
-      "grad_norm": 0.06716179847717285,
-      "learning_rate": 0.00016655555555555556,
-      "loss": 0.0213,
+      "grad_norm": 4.644002437591553,
+      "learning_rate": 0.0001331111111111111,
+      "loss": 0.0379,
       "step": 1505
     },
     {
       "epoch": 5.033333333333333,
-      "grad_norm": 6.611462116241455,
-      "learning_rate": 0.00016644444444444446,
-      "loss": 0.0718,
+      "grad_norm": 0.00795979518443346,
+      "learning_rate": 0.00013288888888888888,
+      "loss": 0.0134,
       "step": 1510
     },
     {
       "epoch": 5.05,
-      "grad_norm": 0.016353707760572433,
-      "learning_rate": 0.00016633333333333333,
-      "loss": 0.1105,
+      "grad_norm": 0.9242565631866455,
+      "learning_rate": 0.00013266666666666667,
+      "loss": 0.0379,
       "step": 1515
     },
     {
       "epoch": 5.066666666666666,
-      "grad_norm": 5.457656383514404,
-      "learning_rate": 0.00016622222222222223,
-      "loss": 0.0735,
+      "grad_norm": 2.5486600399017334,
+      "learning_rate": 0.00013244444444444447,
+      "loss": 0.0742,
       "step": 1520
     },
     {
       "epoch": 5.083333333333333,
-      "grad_norm": 0.05260824039578438,
-      "learning_rate": 0.00016611111111111113,
-      "loss": 0.0215,
+      "grad_norm": 0.006554941181093454,
+      "learning_rate": 0.00013222222222222221,
+      "loss": 0.0018,
       "step": 1525
     },
     {
       "epoch": 5.1,
-      "grad_norm": 0.1573859602212906,
-      "learning_rate": 0.000166,
-      "loss": 0.0533,
+      "grad_norm": 1.2694039344787598,
+      "learning_rate": 0.000132,
+      "loss": 0.0052,
       "step": 1530
     },
     {
       "epoch": 5.116666666666666,
-      "grad_norm": 5.261136531829834,
-      "learning_rate": 0.0001658888888888889,
-      "loss": 0.0207,
+      "grad_norm": 3.337841033935547,
+      "learning_rate": 0.00013177777777777778,
+      "loss": 0.0082,
       "step": 1535
     },
     {
       "epoch": 5.133333333333334,
-      "grad_norm": 0.01707770675420761,
-      "learning_rate": 0.0001657777777777778,
-      "loss": 0.0487,
+      "grad_norm": 0.009860611520707607,
+      "learning_rate": 0.00013155555555555558,
+      "loss": 0.0615,
       "step": 1540
     },
     {
       "epoch": 5.15,
-      "grad_norm": 0.03299952670931816,
-      "learning_rate": 0.0001656666666666667,
-      "loss": 0.004,
+      "grad_norm": 0.007277206052094698,
+      "learning_rate": 0.00013133333333333332,
+      "loss": 0.0018,
       "step": 1545
     },
     {
       "epoch": 5.166666666666667,
-      "grad_norm": 9.225671768188477,
-      "learning_rate": 0.00016555555555555556,
-      "loss": 0.0334,
+      "grad_norm": 1.4662901163101196,
+      "learning_rate": 0.00013111111111111111,
+      "loss": 0.0491,
       "step": 1550
     },
     {
       "epoch": 5.183333333333334,
-      "grad_norm": 0.12211981415748596,
-      "learning_rate": 0.00016544444444444443,
-      "loss": 0.0516,
+      "grad_norm": 2.8612852096557617,
+      "learning_rate": 0.0001308888888888889,
+      "loss": 0.0299,
       "step": 1555
     },
     {
       "epoch": 5.2,
-      "grad_norm": 0.014277663081884384,
-      "learning_rate": 0.00016533333333333333,
-      "loss": 0.081,
+      "grad_norm": 2.971787929534912,
+      "learning_rate": 0.00013066666666666668,
+      "loss": 0.0181,
       "step": 1560
     },
     {
       "epoch": 5.216666666666667,
-      "grad_norm": 1.6364424228668213,
-      "learning_rate": 0.00016522222222222223,
-      "loss": 0.082,
+      "grad_norm": 0.00736116012558341,
+      "learning_rate": 0.00013044444444444445,
+      "loss": 0.0234,
       "step": 1565
     },
     {
       "epoch": 5.233333333333333,
-      "grad_norm": 0.6388437151908875,
-      "learning_rate": 0.00016511111111111113,
-      "loss": 0.0074,
+      "grad_norm": 0.008742854930460453,
+      "learning_rate": 0.00013022222222222222,
+      "loss": 0.0022,
       "step": 1570
     },
     {
       "epoch": 5.25,
-      "grad_norm": 3.8681483268737793,
-      "learning_rate": 0.000165,
-      "loss": 0.0783,
+      "grad_norm": 0.008386828005313873,
+      "learning_rate": 0.00013000000000000002,
+      "loss": 0.0359,
       "step": 1575
     },
     {
       "epoch": 5.266666666666667,
-      "grad_norm": 0.012944153510034084,
-      "learning_rate": 0.0001648888888888889,
-      "loss": 0.0645,
+      "grad_norm": 3.0489320755004883,
+      "learning_rate": 0.00012977777777777779,
+      "loss": 0.1501,
       "step": 1580
     },
     {
       "epoch": 5.283333333333333,
-      "grad_norm": 1.8428641557693481,
-      "learning_rate": 0.0001647777777777778,
-      "loss": 0.077,
+      "grad_norm": 1.003911018371582,
+      "learning_rate": 0.00012955555555555555,
+      "loss": 0.0048,
       "step": 1585
     },
     {
       "epoch": 5.3,
-      "grad_norm": 4.154857158660889,
-      "learning_rate": 0.00016466666666666667,
-      "loss": 0.0632,
+      "grad_norm": 0.008067019283771515,
+      "learning_rate": 0.00012933333333333332,
+      "loss": 0.0038,
       "step": 1590
     },
     {
       "epoch": 5.316666666666666,
-      "grad_norm": 0.01847732625901699,
-      "learning_rate": 0.00016455555555555556,
-      "loss": 0.0056,
+      "grad_norm": 0.049136195331811905,
+      "learning_rate": 0.00012911111111111112,
+      "loss": 0.0428,
       "step": 1595
     },
     {
       "epoch": 5.333333333333333,
-      "grad_norm": 0.08974515646696091,
-      "learning_rate": 0.00016444444444444444,
-      "loss": 0.0256,
+      "grad_norm": 5.870452880859375,
+      "learning_rate": 0.00012888888888888892,
+      "loss": 0.03,
       "step": 1600
     },
     {
       "epoch": 5.333333333333333,
-      "eval_accuracy": 0.8108333333333333,
-      "eval_f1": 0.8104957223501372,
-      "eval_loss": 1.0149054527282715,
-      "eval_precision": 0.8289302386979596,
-      "eval_recall": 0.8108333333333333,
-      "eval_runtime": 16.4851,
-      "eval_samples_per_second": 145.586,
-      "eval_steps_per_second": 18.198,
+      "eval_accuracy": 0.8025,
+      "eval_f1": 0.8058110499926088,
+      "eval_loss": 1.0066046714782715,
+      "eval_precision": 0.8375690681755358,
+      "eval_recall": 0.8025,
+      "eval_runtime": 16.1417,
+      "eval_samples_per_second": 148.683,
+      "eval_steps_per_second": 18.585,
       "step": 1600
     },
     {
       "epoch": 5.35,
-      "grad_norm": 0.00833277590572834,
-      "learning_rate": 0.00016433333333333333,
-      "loss": 0.0039,
+      "grad_norm": 0.008594261482357979,
+      "learning_rate": 0.00012866666666666666,
+      "loss": 0.0046,
       "step": 1605
     },
     {
       "epoch": 5.366666666666666,
-      "grad_norm": 0.008828302845358849,
-      "learning_rate": 0.00016422222222222223,
-      "loss": 0.0094,
+      "grad_norm": 0.8685113191604614,
+      "learning_rate": 0.00012844444444444446,
+      "loss": 0.0505,
       "step": 1610
     },
     {
       "epoch": 5.383333333333334,
-      "grad_norm": 0.00815830659121275,
-      "learning_rate": 0.00016411111111111113,
-      "loss": 0.0018,
+      "grad_norm": 0.016676442697644234,
+      "learning_rate": 0.00012822222222222222,
+      "loss": 0.0022,
       "step": 1615
     },
     {
       "epoch": 5.4,
-      "grad_norm": 2.7772281169891357,
-      "learning_rate": 0.000164,
-      "loss": 0.0835,
+      "grad_norm": 0.016672354191541672,
+      "learning_rate": 0.00012800000000000002,
+      "loss": 0.0352,
       "step": 1620
     },
     {
       "epoch": 5.416666666666667,
-      "grad_norm": 0.12098819017410278,
-      "learning_rate": 0.0001638888888888889,
-      "loss": 0.0034,
+      "grad_norm": 0.08625214546918869,
+      "learning_rate": 0.00012777777777777776,
+      "loss": 0.002,
       "step": 1625
     },
     {
       "epoch": 5.433333333333334,
-      "grad_norm": 1.934064269065857,
-      "learning_rate": 0.0001637777777777778,
-      "loss": 0.0738,
+      "grad_norm": 0.005574665032327175,
+      "learning_rate": 0.00012755555555555556,
+      "loss": 0.0029,
       "step": 1630
     },
     {
       "epoch": 5.45,
-      "grad_norm": 0.015587633475661278,
-      "learning_rate": 0.00016366666666666667,
-      "loss": 0.0405,
+      "grad_norm": 0.008648420684039593,
+      "learning_rate": 0.00012733333333333336,
+      "loss": 0.002,
       "step": 1635
     },
     {
       "epoch": 5.466666666666667,
-      "grad_norm": 0.02005455456674099,
-      "learning_rate": 0.00016355555555555557,
-      "loss": 0.0046,
+      "grad_norm": 0.15442383289337158,
+      "learning_rate": 0.00012711111111111113,
+      "loss": 0.002,
       "step": 1640
     },
     {
       "epoch": 5.483333333333333,
-      "grad_norm": 0.008922387845814228,
-      "learning_rate": 0.00016344444444444444,
-      "loss": 0.0479,
+      "grad_norm": 0.005889351479709148,
+      "learning_rate": 0.0001268888888888889,
+      "loss": 0.0018,
       "step": 1645
     },
     {
       "epoch": 5.5,
-      "grad_norm": 0.006808533798903227,
-      "learning_rate": 0.00016333333333333334,
-      "loss": 0.0169,
+      "grad_norm": 0.008873962797224522,
+      "learning_rate": 0.00012666666666666666,
+      "loss": 0.0047,
       "step": 1650
     },
     {
       "epoch": 5.516666666666667,
-      "grad_norm": 0.006602839566767216,
-      "learning_rate": 0.00016322222222222224,
-      "loss": 0.0056,
+      "grad_norm": 0.03735602647066116,
+      "learning_rate": 0.00012644444444444446,
+      "loss": 0.0017,
       "step": 1655
     },
     {
       "epoch": 5.533333333333333,
-      "grad_norm": 0.005980366375297308,
-      "learning_rate": 0.00016311111111111113,
-      "loss": 0.0191,
+      "grad_norm": 0.013543691486120224,
+      "learning_rate": 0.00012622222222222223,
+      "loss": 0.0015,
       "step": 1660
     },
     {
       "epoch": 5.55,
-      "grad_norm": 0.013945339247584343,
-      "learning_rate": 0.000163,
-      "loss": 0.0379,
+      "grad_norm": 0.0045076883397996426,
+      "learning_rate": 0.000126,
+      "loss": 0.0017,
       "step": 1665
     },
     {
       "epoch": 5.566666666666666,
-      "grad_norm": 0.011805513873696327,
-      "learning_rate": 0.0001628888888888889,
-      "loss": 0.0016,
+      "grad_norm": 0.006698412820696831,
+      "learning_rate": 0.0001257777777777778,
+      "loss": 0.0013,
       "step": 1670
     },
     {
       "epoch": 5.583333333333333,
-      "grad_norm": 0.13204213976860046,
-      "learning_rate": 0.00016277777777777777,
-      "loss": 0.0036,
+      "grad_norm": 0.0054786233231425285,
+      "learning_rate": 0.00012555555555555557,
+      "loss": 0.0012,
       "step": 1675
     },
     {
       "epoch": 5.6,
-      "grad_norm": 0.02674812637269497,
-      "learning_rate": 0.00016266666666666667,
-      "loss": 0.0051,
+      "grad_norm": 0.00462621683254838,
+      "learning_rate": 0.00012533333333333334,
+      "loss": 0.0046,
       "step": 1680
     },
     {
       "epoch": 5.616666666666667,
-      "grad_norm": 3.3026175498962402,
-      "learning_rate": 0.00016255555555555557,
-      "loss": 0.0082,
+      "grad_norm": 0.00577858230099082,
+      "learning_rate": 0.0001251111111111111,
+      "loss": 0.0012,
       "step": 1685
     },
     {
       "epoch": 5.633333333333333,
-      "grad_norm": 1.1135234832763672,
-      "learning_rate": 0.00016244444444444444,
-      "loss": 0.004,
+      "grad_norm": 0.005244240630418062,
+      "learning_rate": 0.0001248888888888889,
+      "loss": 0.0012,
       "step": 1690
     },
     {
       "epoch": 5.65,
-      "grad_norm": 4.535706996917725,
-      "learning_rate": 0.00016233333333333334,
-      "loss": 0.0567,
+      "grad_norm": 0.005541090853512287,
+      "learning_rate": 0.00012466666666666667,
+      "loss": 0.0063,
       "step": 1695
     },
     {
       "epoch": 5.666666666666667,
-      "grad_norm": 0.009421279653906822,
-      "learning_rate": 0.00016222222222222224,
-      "loss": 0.0017,
+      "grad_norm": 0.004590183962136507,
+      "learning_rate": 0.00012444444444444444,
+      "loss": 0.028,
       "step": 1700
     },
     {
       "epoch": 5.666666666666667,
-      "eval_accuracy": 0.8279166666666666,
-      "eval_f1": 0.8299219945509423,
-      "eval_loss": 0.915321946144104,
-      "eval_precision": 0.8575355796485858,
-      "eval_recall": 0.8279166666666666,
-      "eval_runtime": 16.5798,
-      "eval_samples_per_second": 144.755,
-      "eval_steps_per_second": 18.094,
+      "eval_accuracy": 0.8108333333333333,
+      "eval_f1": 0.806730816529903,
+      "eval_loss": 1.1451038122177124,
+      "eval_precision": 0.8325199864730404,
+      "eval_recall": 0.8108333333333333,
+      "eval_runtime": 16.252,
+      "eval_samples_per_second": 147.674,
+      "eval_steps_per_second": 18.459,
       "step": 1700
     },
     {
       "epoch": 5.683333333333334,
-      "grad_norm": 0.008201410062611103,
-      "learning_rate": 0.00016211111111111114,
-      "loss": 0.0227,
+      "grad_norm": 0.004028300754725933,
+      "learning_rate": 0.0001242222222222222,
+      "loss": 0.0013,
       "step": 1705
     },
     {
       "epoch": 5.7,
-      "grad_norm": 0.020748548209667206,
-      "learning_rate": 0.000162,
-      "loss": 0.0352,
+      "grad_norm": 0.004005535040050745,
+      "learning_rate": 0.000124,
+      "loss": 0.0011,
       "step": 1710
     },
     {
       "epoch": 5.716666666666667,
-      "grad_norm": 0.018580986186861992,
-      "learning_rate": 0.00016188888888888888,
-      "loss": 0.0048,
+      "grad_norm": 0.004743133205920458,
+      "learning_rate": 0.0001237777777777778,
+      "loss": 0.0264,
       "step": 1715
     },
     {
       "epoch": 5.733333333333333,
-      "grad_norm": 0.004419848322868347,
-      "learning_rate": 0.00016177777777777778,
-      "loss": 0.0401,
+      "grad_norm": 0.006460868753492832,
+      "learning_rate": 0.00012355555555555557,
+      "loss": 0.0011,
       "step": 1720
     },
     {
       "epoch": 5.75,
-      "grad_norm": 0.005119729321449995,
-      "learning_rate": 0.00016166666666666668,
-      "loss": 0.0013,
+      "grad_norm": 0.004264959134161472,
+      "learning_rate": 0.00012333333333333334,
+      "loss": 0.0012,
       "step": 1725
     },
     {
       "epoch": 5.766666666666667,
-      "grad_norm": 0.08189668506383896,
-      "learning_rate": 0.00016155555555555557,
-      "loss": 0.0217,
+      "grad_norm": 0.005785064306110144,
+      "learning_rate": 0.0001231111111111111,
+      "loss": 0.0012,
       "step": 1730
     },
     {
       "epoch": 5.783333333333333,
-      "grad_norm": 0.006547198630869389,
-      "learning_rate": 0.00016144444444444444,
-      "loss": 0.0184,
+      "grad_norm": 0.004207594785839319,
+      "learning_rate": 0.0001228888888888889,
+      "loss": 0.0424,
       "step": 1735
     },
     {
       "epoch": 5.8,
-      "grad_norm": 0.22105437517166138,
-      "learning_rate": 0.00016133333333333334,
-      "loss": 0.012,
+      "grad_norm": 0.02953197993338108,
+      "learning_rate": 0.00012266666666666668,
+      "loss": 0.0014,
       "step": 1740
     },
     {
       "epoch": 5.816666666666666,
-      "grad_norm": 0.24154917895793915,
-      "learning_rate": 0.00016122222222222224,
-      "loss": 0.0617,
+      "grad_norm": 0.022996142506599426,
+      "learning_rate": 0.00012244444444444445,
+      "loss": 0.0048,
       "step": 1745
     },
     {
       "epoch": 5.833333333333333,
-      "grad_norm": 3.97434401512146,
-      "learning_rate": 0.0001611111111111111,
-      "loss": 0.0425,
+      "grad_norm": 0.004951572045683861,
+      "learning_rate": 0.00012222222222222224,
+      "loss": 0.0015,
       "step": 1750
     },
     {
       "epoch": 5.85,
-      "grad_norm": 0.02286333031952381,
-      "learning_rate": 0.000161,
-      "loss": 0.0018,
+      "grad_norm": 0.005419463850557804,
+      "learning_rate": 0.000122,
+      "loss": 0.0013,
       "step": 1755
     },
     {
       "epoch": 5.866666666666667,
-      "grad_norm": 0.021875595673918724,
-      "learning_rate": 0.00016088888888888888,
-      "loss": 0.0235,
+      "grad_norm": 0.006298539228737354,
+      "learning_rate": 0.0001217777777777778,
+      "loss": 0.0011,
       "step": 1760
     },
     {
       "epoch": 5.883333333333333,
-      "grad_norm": 0.018294136971235275,
-      "learning_rate": 0.00016077777777777778,
-      "loss": 0.0023,
+      "grad_norm": 0.0049714320339262486,
+      "learning_rate": 0.00012155555555555555,
+      "loss": 0.0036,
       "step": 1765
     },
     {
       "epoch": 5.9,
-      "grad_norm": 0.007513054646551609,
-      "learning_rate": 0.00016066666666666668,
-      "loss": 0.0019,
+      "grad_norm": 0.005732921417802572,
+      "learning_rate": 0.00012133333333333335,
+      "loss": 0.0011,
       "step": 1770
     },
     {
       "epoch": 5.916666666666667,
-      "grad_norm": 0.2321351319551468,
-      "learning_rate": 0.00016055555555555558,
-      "loss": 0.0297,
+      "grad_norm": 0.0045644911006093025,
+      "learning_rate": 0.0001211111111111111,
+      "loss": 0.0011,
       "step": 1775
     },
     {
       "epoch": 5.933333333333334,
-      "grad_norm": 5.686223030090332,
-      "learning_rate": 0.00016044444444444445,
-      "loss": 0.0142,
+      "grad_norm": 0.06536725163459778,
+      "learning_rate": 0.0001208888888888889,
+      "loss": 0.0014,
       "step": 1780
     },
     {
       "epoch": 5.95,
-      "grad_norm": 0.005366206634789705,
-      "learning_rate": 0.00016033333333333335,
-      "loss": 0.0036,
+      "grad_norm": 0.011526883579790592,
+      "learning_rate": 0.00012066666666666668,
+      "loss": 0.0011,
       "step": 1785
     },
     {
       "epoch": 5.966666666666667,
-      "grad_norm": 0.06957004964351654,
-      "learning_rate": 0.00016022222222222222,
-      "loss": 0.0063,
+      "grad_norm": 0.008464247919619083,
+      "learning_rate": 0.00012044444444444445,
+      "loss": 0.0156,
       "step": 1790
     },
     {
       "epoch": 5.983333333333333,
-      "grad_norm": 0.004177103750407696,
-      "learning_rate": 0.00016011111111111111,
-      "loss": 0.0012,
+      "grad_norm": 0.023652683943510056,
+      "learning_rate": 0.00012022222222222223,
+      "loss": 0.001,
       "step": 1795
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.015750739723443985,
-      "learning_rate": 0.00016,
-      "loss": 0.0393,
+      "grad_norm": 0.008493137545883656,
+      "learning_rate": 0.00012,
+      "loss": 0.0078,
       "step": 1800
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8175,
-      "eval_f1": 0.816914470065881,
-      "eval_loss": 1.0392119884490967,
-      "eval_precision": 0.8205004250507112,
-      "eval_recall": 0.8175,
-      "eval_runtime": 16.5387,
-      "eval_samples_per_second": 145.114,
-      "eval_steps_per_second": 18.139,
+      "eval_accuracy": 0.805,
+      "eval_f1": 0.8044910937430988,
+      "eval_loss": 1.0700016021728516,
+      "eval_precision": 0.8220365210565673,
+      "eval_recall": 0.805,
+      "eval_runtime": 16.2972,
+      "eval_samples_per_second": 147.264,
+      "eval_steps_per_second": 18.408,
       "step": 1800
     },
     {
       "epoch": 6.016666666666667,
-      "grad_norm": 0.005316098686307669,
-      "learning_rate": 0.00015988888888888888,
-      "loss": 0.0011,
+      "grad_norm": 0.0037866304628551006,
+      "learning_rate": 0.00011977777777777779,
+      "loss": 0.0009,
       "step": 1805
     },
     {
       "epoch": 6.033333333333333,
-      "grad_norm": 0.005011474713683128,
-      "learning_rate": 0.00015977777777777778,
-      "loss": 0.0175,
+      "grad_norm": 0.004154861439019442,
+      "learning_rate": 0.00011955555555555556,
+      "loss": 0.0041,
       "step": 1810
     },
     {
       "epoch": 6.05,
-      "grad_norm": 0.13085180521011353,
-      "learning_rate": 0.00015966666666666668,
-      "loss": 0.0013,
+      "grad_norm": 0.003539556637406349,
+      "learning_rate": 0.00011933333333333334,
+      "loss": 0.0009,
       "step": 1815
     },
     {
       "epoch": 6.066666666666666,
-      "grad_norm": 0.03689475730061531,
-      "learning_rate": 0.00015955555555555558,
-      "loss": 0.096,
+      "grad_norm": 0.003458508290350437,
+      "learning_rate": 0.00011911111111111111,
+      "loss": 0.0009,
       "step": 1820
     },
     {
       "epoch": 6.083333333333333,
-      "grad_norm": 1.0409414768218994,
-      "learning_rate": 0.00015944444444444445,
-      "loss": 0.0022,
+      "grad_norm": 0.00397747615352273,
+      "learning_rate": 0.00011888888888888889,
+      "loss": 0.0009,
       "step": 1825
     },
     {
       "epoch": 6.1,
-      "grad_norm": 0.004165023099631071,
-      "learning_rate": 0.00015933333333333332,
-      "loss": 0.0303,
+      "grad_norm": 0.0036647163797169924,
+      "learning_rate": 0.00011866666666666669,
+      "loss": 0.0009,
       "step": 1830
     },
     {
       "epoch": 6.116666666666666,
-      "grad_norm": 0.22820724546909332,
-      "learning_rate": 0.00015922222222222222,
+      "grad_norm": 0.0038258638232946396,
+      "learning_rate": 0.00011844444444444444,
       "loss": 0.0014,
       "step": 1835
     },
     {
       "epoch": 6.133333333333334,
-      "grad_norm": 0.014393319375813007,
-      "learning_rate": 0.00015911111111111112,
-      "loss": 0.0011,
+      "grad_norm": 0.003876335686072707,
+      "learning_rate": 0.00011822222222222224,
+      "loss": 0.0009,
       "step": 1840
     },
     {
       "epoch": 6.15,
-      "grad_norm": 0.012803591787815094,
-      "learning_rate": 0.00015900000000000002,
-      "loss": 0.0051,
+      "grad_norm": 0.003523820312693715,
+      "learning_rate": 0.000118,
+      "loss": 0.001,
       "step": 1845
     },
     {
       "epoch": 6.166666666666667,
-      "grad_norm": 2.723040819168091,
-      "learning_rate": 0.0001588888888888889,
-      "loss": 0.0878,
+      "grad_norm": 0.003132395911961794,
+      "learning_rate": 0.00011777777777777779,
+      "loss": 0.0025,
       "step": 1850
     },
     {
       "epoch": 6.183333333333334,
-      "grad_norm": 0.005053788889199495,
-      "learning_rate": 0.00015877777777777779,
-      "loss": 0.017,
+      "grad_norm": 5.537290573120117,
+      "learning_rate": 0.00011755555555555555,
+      "loss": 0.0107,
       "step": 1855
     },
     {
       "epoch": 6.2,
-      "grad_norm": 1.2146646976470947,
-      "learning_rate": 0.00015866666666666668,
-      "loss": 0.0037,
+      "grad_norm": 0.0034560244530439377,
+      "learning_rate": 0.00011733333333333334,
+      "loss": 0.0008,
       "step": 1860
     },
     {
       "epoch": 6.216666666666667,
-      "grad_norm": 0.0046356450766325,
-      "learning_rate": 0.00015855555555555558,
-      "loss": 0.078,
+      "grad_norm": 0.0036603149492293596,
+      "learning_rate": 0.00011711111111111113,
+      "loss": 0.0235,
       "step": 1865
     },
     {
       "epoch": 6.233333333333333,
-      "grad_norm": 1.4572330713272095,
-      "learning_rate": 0.00015844444444444445,
-      "loss": 0.0882,
+      "grad_norm": 0.003383870469406247,
+      "learning_rate": 0.0001168888888888889,
+      "loss": 0.0008,
       "step": 1870
     },
     {
       "epoch": 6.25,
-      "grad_norm": 2.5006649494171143,
-      "learning_rate": 0.00015833333333333332,
-      "loss": 0.0693,
+      "grad_norm": 0.0035630343481898308,
+      "learning_rate": 0.00011666666666666668,
+      "loss": 0.0008,
       "step": 1875
     },
     {
       "epoch": 6.266666666666667,
-      "grad_norm": 0.09266872704029083,
-      "learning_rate": 0.00015822222222222222,
-      "loss": 0.0823,
+      "grad_norm": 0.003963821567595005,
+      "learning_rate": 0.00011644444444444445,
+      "loss": 0.0008,
       "step": 1880
     },
     {
       "epoch": 6.283333333333333,
-      "grad_norm": 0.026718921959400177,
-      "learning_rate": 0.00015811111111111112,
-      "loss": 0.0529,
+      "grad_norm": 0.0037082587368786335,
+      "learning_rate": 0.00011622222222222223,
+      "loss": 0.0008,
       "step": 1885
     },
     {
       "epoch": 6.3,
-      "grad_norm": 0.09975450485944748,
-      "learning_rate": 0.00015800000000000002,
-      "loss": 0.0021,
+      "grad_norm": 0.0029203067533671856,
+      "learning_rate": 0.000116,
+      "loss": 0.0008,
       "step": 1890
     },
     {
       "epoch": 6.316666666666666,
-      "grad_norm": 0.01540566049516201,
-      "learning_rate": 0.0001578888888888889,
-      "loss": 0.0074,
+      "grad_norm": 0.003045389661565423,
+      "learning_rate": 0.00011577777777777778,
+      "loss": 0.0008,
       "step": 1895
     },
     {
       "epoch": 6.333333333333333,
-      "grad_norm": 0.03563358634710312,
-      "learning_rate": 0.0001577777777777778,
-      "loss": 0.0031,
+      "grad_norm": 0.00312291388399899,
+      "learning_rate": 0.00011555555555555555,
+      "loss": 0.0008,
       "step": 1900
     },
     {
       "epoch": 6.333333333333333,
-      "eval_accuracy": 0.8870833333333333,
-      "eval_f1": 0.8880432263296901,
-      "eval_loss": 0.4892176389694214,
-      "eval_precision": 0.8988360882885232,
-      "eval_recall": 0.8870833333333333,
-      "eval_runtime": 16.5312,
-      "eval_samples_per_second": 145.18,
-      "eval_steps_per_second": 18.148,
+      "eval_accuracy": 0.8145833333333333,
+      "eval_f1": 0.8164840112231514,
+      "eval_loss": 1.0179976224899292,
+      "eval_precision": 0.8302814517469502,
+      "eval_recall": 0.8145833333333333,
+      "eval_runtime": 16.1514,
+      "eval_samples_per_second": 148.594,
+      "eval_steps_per_second": 18.574,
       "step": 1900
     },
     {
       "epoch": 6.35,
-      "grad_norm": 0.26140907406806946,
-      "learning_rate": 0.00015766666666666669,
-      "loss": 0.0021,
+      "grad_norm": 0.00345528032630682,
+      "learning_rate": 0.00011533333333333334,
+      "loss": 0.0008,
       "step": 1905
     },
     {
       "epoch": 6.366666666666666,
-      "grad_norm": 3.015192985534668,
-      "learning_rate": 0.00015755555555555556,
-      "loss": 0.0161,
+      "grad_norm": 0.0034716781228780746,
+      "learning_rate": 0.00011511111111111112,
+      "loss": 0.0008,
       "step": 1910
     },
     {
       "epoch": 6.383333333333334,
-      "grad_norm": 2.95857834815979,
-      "learning_rate": 0.00015744444444444446,
-      "loss": 0.0332,
+      "grad_norm": 0.0039277165196835995,
+      "learning_rate": 0.00011488888888888889,
+      "loss": 0.0008,
       "step": 1915
     },
     {
       "epoch": 6.4,
-      "grad_norm": 0.0037966009695082903,
-      "learning_rate": 0.00015733333333333333,
-      "loss": 0.0537,
+      "grad_norm": 0.1721392273902893,
+      "learning_rate": 0.00011466666666666667,
+      "loss": 0.0011,
       "step": 1920
     },
     {
       "epoch": 6.416666666666667,
-      "grad_norm": 0.03891352564096451,
-      "learning_rate": 0.00015722222222222223,
-      "loss": 0.0229,
+      "grad_norm": 0.002793088788166642,
+      "learning_rate": 0.00011444444444444444,
+      "loss": 0.0008,
       "step": 1925
     },
     {
       "epoch": 6.433333333333334,
-      "grad_norm": 0.010085624642670155,
-      "learning_rate": 0.00015711111111111112,
-      "loss": 0.0483,
+      "grad_norm": 0.002836239989846945,
+      "learning_rate": 0.00011422222222222224,
+      "loss": 0.0009,
       "step": 1930
     },
     {
       "epoch": 6.45,
-      "grad_norm": 0.008644535206258297,
-      "learning_rate": 0.00015700000000000002,
-      "loss": 0.0382,
+      "grad_norm": 0.002708101412281394,
+      "learning_rate": 0.00011399999999999999,
+      "loss": 0.0123,
       "step": 1935
     },
     {
       "epoch": 6.466666666666667,
-      "grad_norm": 0.009054177440702915,
-      "learning_rate": 0.00015688888888888892,
-      "loss": 0.0018,
+      "grad_norm": 0.002972810994833708,
+      "learning_rate": 0.00011377777777777779,
+      "loss": 0.0007,
       "step": 1940
     },
     {
       "epoch": 6.483333333333333,
-      "grad_norm": 1.2819900512695312,
-      "learning_rate": 0.0001567777777777778,
-      "loss": 0.0659,
+      "grad_norm": 0.003506299341097474,
+      "learning_rate": 0.00011355555555555557,
+      "loss": 0.0198,
       "step": 1945
     },
     {
       "epoch": 6.5,
-      "grad_norm": 0.01331441942602396,
-      "learning_rate": 0.00015666666666666666,
-      "loss": 0.0476,
+      "grad_norm": 1.8103302717208862,
+      "learning_rate": 0.00011333333333333334,
+      "loss": 0.0444,
       "step": 1950
     },
     {
       "epoch": 6.516666666666667,
-      "grad_norm": 0.05239478498697281,
-      "learning_rate": 0.00015655555555555556,
-      "loss": 0.0062,
+      "grad_norm": 0.003239205339923501,
+      "learning_rate": 0.00011311111111111112,
+      "loss": 0.0008,
       "step": 1955
     },
     {
       "epoch": 6.533333333333333,
-      "grad_norm": 0.26421651244163513,
-      "learning_rate": 0.00015644444444444446,
-      "loss": 0.0166,
+      "grad_norm": 0.003294306341558695,
+      "learning_rate": 0.0001128888888888889,
+      "loss": 0.0009,
       "step": 1960
     },
     {
       "epoch": 6.55,
-      "grad_norm": 2.851979970932007,
-      "learning_rate": 0.00015633333333333333,
-      "loss": 0.0086,
+      "grad_norm": 0.004026326350867748,
+      "learning_rate": 0.00011266666666666668,
+      "loss": 0.0008,
       "step": 1965
     },
     {
       "epoch": 6.566666666666666,
-      "grad_norm": 0.33906373381614685,
-      "learning_rate": 0.00015622222222222223,
-      "loss": 0.0024,
+      "grad_norm": 0.1938793808221817,
+      "learning_rate": 0.00011244444444444445,
+      "loss": 0.001,
       "step": 1970
     },
     {
       "epoch": 6.583333333333333,
-      "grad_norm": 0.004474999848753214,
-      "learning_rate": 0.00015611111111111113,
-      "loss": 0.0328,
+      "grad_norm": 0.0094077680259943,
+      "learning_rate": 0.00011222222222222223,
+      "loss": 0.001,
       "step": 1975
     },
     {
       "epoch": 6.6,
-      "grad_norm": 0.19756446778774261,
-      "learning_rate": 0.00015600000000000002,
-      "loss": 0.0017,
+      "grad_norm": 0.003139768959954381,
+      "learning_rate": 0.00011200000000000001,
+      "loss": 0.0008,
       "step": 1980
     },
     {
       "epoch": 6.616666666666667,
-      "grad_norm": 0.005711189936846495,
-      "learning_rate": 0.0001558888888888889,
-      "loss": 0.0138,
+      "grad_norm": 0.003127722768113017,
+      "learning_rate": 0.00011177777777777778,
+      "loss": 0.0009,
       "step": 1985
     },
     {
       "epoch": 6.633333333333333,
-      "grad_norm": 0.007347718812525272,
-      "learning_rate": 0.00015577777777777777,
-      "loss": 0.0407,
+      "grad_norm": 0.013376519083976746,
+      "learning_rate": 0.00011155555555555556,
+      "loss": 0.0009,
       "step": 1990
     },
     {
       "epoch": 6.65,
-      "grad_norm": 3.438262701034546,
-      "learning_rate": 0.00015566666666666666,
-      "loss": 0.0478,
+      "grad_norm": 0.039839036762714386,
+      "learning_rate": 0.00011133333333333333,
+      "loss": 0.0009,
       "step": 1995
     },
     {
       "epoch": 6.666666666666667,
-      "grad_norm": 0.00929984450340271,
-      "learning_rate": 0.00015555555555555556,
-      "loss": 0.1446,
+      "grad_norm": 0.0035732537508010864,
+      "learning_rate": 0.00011111111111111112,
+      "loss": 0.0008,
       "step": 2000
     },
     {
       "epoch": 6.666666666666667,
-      "eval_accuracy": 0.81875,
-      "eval_f1": 0.8177260694283878,
-      "eval_loss": 0.8976751565933228,
-      "eval_precision": 0.836190677565054,
-      "eval_recall": 0.81875,
-      "eval_runtime": 16.5139,
-      "eval_samples_per_second": 145.332,
-      "eval_steps_per_second": 18.167,
+      "eval_accuracy": 0.8245833333333333,
+      "eval_f1": 0.8236114651594607,
+      "eval_loss": 0.9881937503814697,
+      "eval_precision": 0.840083114538835,
+      "eval_recall": 0.8245833333333333,
+      "eval_runtime": 16.197,
+      "eval_samples_per_second": 148.176,
+      "eval_steps_per_second": 18.522,
       "step": 2000
     },
     {
       "epoch": 6.683333333333334,
-      "grad_norm": 9.216179847717285,
-      "learning_rate": 0.00015544444444444446,
-      "loss": 0.0565,
+      "grad_norm": 0.0029575335793197155,
+      "learning_rate": 0.00011088888888888889,
+      "loss": 0.0007,
       "step": 2005
     },
     {
       "epoch": 6.7,
-      "grad_norm": 0.004474996123462915,
-      "learning_rate": 0.00015533333333333333,
-      "loss": 0.0267,
+      "grad_norm": 0.002966308733448386,
+      "learning_rate": 0.00011066666666666667,
+      "loss": 0.0007,
       "step": 2010
     },
     {
       "epoch": 6.716666666666667,
-      "grad_norm": 0.049678560346364975,
-      "learning_rate": 0.00015522222222222223,
-      "loss": 0.0977,
+      "grad_norm": 0.005334249697625637,
+      "learning_rate": 0.00011044444444444444,
+      "loss": 0.0008,
       "step": 2015
     },
     {
       "epoch": 6.733333333333333,
-      "grad_norm": 0.025646694004535675,
-      "learning_rate": 0.00015511111111111113,
-      "loss": 0.0223,
+      "grad_norm": 0.002641512779518962,
+      "learning_rate": 0.00011022222222222222,
+      "loss": 0.0007,
       "step": 2020
     },
     {
       "epoch": 6.75,
-      "grad_norm": 2.4551033973693848,
-      "learning_rate": 0.000155,
-      "loss": 0.0467,
+      "grad_norm": 0.0025473148562014103,
+      "learning_rate": 0.00011000000000000002,
+      "loss": 0.0007,
       "step": 2025
     },
     {
       "epoch": 6.766666666666667,
-      "grad_norm": 0.020824356004595757,
-      "learning_rate": 0.0001548888888888889,
-      "loss": 0.0446,
+      "grad_norm": 0.0044576372019946575,
+      "learning_rate": 0.00010977777777777777,
+      "loss": 0.0007,
       "step": 2030
     },
     {
       "epoch": 6.783333333333333,
-      "grad_norm": 0.2895689308643341,
-      "learning_rate": 0.00015477777777777777,
-      "loss": 0.0054,
+      "grad_norm": 0.0023774567525833845,
+      "learning_rate": 0.00010955555555555557,
+      "loss": 0.0008,
       "step": 2035
     },
     {
       "epoch": 6.8,
-      "grad_norm": 0.7860792279243469,
-      "learning_rate": 0.00015466666666666667,
-      "loss": 0.0029,
+      "grad_norm": 0.003503770800307393,
+      "learning_rate": 0.00010933333333333333,
+      "loss": 0.0008,
       "step": 2040
     },
     {
       "epoch": 6.816666666666666,
-      "grad_norm": 0.027105744928121567,
-      "learning_rate": 0.00015455555555555557,
-      "loss": 0.0035,
+      "grad_norm": 0.002677364507690072,
+      "learning_rate": 0.00010911111111111112,
+      "loss": 0.0007,
       "step": 2045
     },
     {
       "epoch": 6.833333333333333,
-      "grad_norm": 0.0050941952504217625,
-      "learning_rate": 0.00015444444444444446,
-      "loss": 0.0011,
+      "grad_norm": 0.0024984863121062517,
+      "learning_rate": 0.00010888888888888889,
+      "loss": 0.0008,
       "step": 2050
     },
     {
       "epoch": 6.85,
-      "grad_norm": 4.211833477020264,
-      "learning_rate": 0.00015433333333333334,
-      "loss": 0.1187,
+      "grad_norm": 0.0025663827545940876,
+      "learning_rate": 0.00010866666666666667,
+      "loss": 0.0006,
       "step": 2055
     },
     {
       "epoch": 6.866666666666667,
-      "grad_norm": 0.012652314268052578,
-      "learning_rate": 0.00015422222222222223,
-      "loss": 0.0021,
+      "grad_norm": 0.0024766959249973297,
+      "learning_rate": 0.00010844444444444446,
+      "loss": 0.0007,
       "step": 2060
     },
     {
       "epoch": 6.883333333333333,
-      "grad_norm": 0.037593305110931396,
-      "learning_rate": 0.0001541111111111111,
-      "loss": 0.0636,
+      "grad_norm": 0.002558353589847684,
+      "learning_rate": 0.00010822222222222223,
+      "loss": 0.0006,
       "step": 2065
     },
     {
       "epoch": 6.9,
-      "grad_norm": 0.07034880667924881,
-      "learning_rate": 0.000154,
-      "loss": 0.0314,
+      "grad_norm": 0.0025132466107606888,
+      "learning_rate": 0.00010800000000000001,
+      "loss": 0.0007,
       "step": 2070
     },
     {
       "epoch": 6.916666666666667,
-      "grad_norm": 0.02227076329290867,
-      "learning_rate": 0.0001538888888888889,
-      "loss": 0.0181,
+      "grad_norm": 0.010478183627128601,
+      "learning_rate": 0.00010777777777777778,
+      "loss": 0.0009,
       "step": 2075
     },
     {
       "epoch": 6.933333333333334,
-      "grad_norm": 0.3988129198551178,
-      "learning_rate": 0.00015377777777777777,
-      "loss": 0.1238,
+      "grad_norm": 0.005028113257139921,
+      "learning_rate": 0.00010755555555555556,
+      "loss": 0.0007,
       "step": 2080
     },
     {
       "epoch": 6.95,
-      "grad_norm": 0.03829626739025116,
-      "learning_rate": 0.00015366666666666667,
-      "loss": 0.0101,
+      "grad_norm": 0.0025496745947748423,
+      "learning_rate": 0.00010733333333333333,
+      "loss": 0.0006,
       "step": 2085
     },
     {
       "epoch": 6.966666666666667,
-      "grad_norm": 1.945186734199524,
-      "learning_rate": 0.00015355555555555557,
-      "loss": 0.0915,
+      "grad_norm": 0.003591779852285981,
+      "learning_rate": 0.00010711111111111111,
+      "loss": 0.0006,
       "step": 2090
     },
     {
       "epoch": 6.983333333333333,
-      "grad_norm": 0.4144499897956848,
-      "learning_rate": 0.00015344444444444447,
-      "loss": 0.0589,
+      "grad_norm": 0.00283693871460855,
+      "learning_rate": 0.00010688888888888891,
+      "loss": 0.0006,
       "step": 2095
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.018785452470183372,
-      "learning_rate": 0.00015333333333333334,
-      "loss": 0.0176,
+      "grad_norm": 0.0038050340954214334,
+      "learning_rate": 0.00010666666666666667,
+      "loss": 0.0006,
       "step": 2100
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8608333333333333,
-      "eval_f1": 0.8636543749084247,
-      "eval_loss": 0.6660823822021484,
-      "eval_precision": 0.8756421871291711,
-      "eval_recall": 0.8608333333333333,
-      "eval_runtime": 16.6642,
-      "eval_samples_per_second": 144.021,
-      "eval_steps_per_second": 18.003,
+      "eval_accuracy": 0.8283333333333334,
+      "eval_f1": 0.827043103835229,
+      "eval_loss": 1.0365735292434692,
+      "eval_precision": 0.8424180828626023,
+      "eval_recall": 0.8283333333333334,
+      "eval_runtime": 16.047,
+      "eval_samples_per_second": 149.561,
+      "eval_steps_per_second": 18.695,
       "step": 2100
     },
     {
       "epoch": 7.016666666666667,
-      "grad_norm": 0.02621830813586712,
-      "learning_rate": 0.0001532222222222222,
-      "loss": 0.0077,
+      "grad_norm": 0.002981683472171426,
+      "learning_rate": 0.00010644444444444446,
+      "loss": 0.0006,
       "step": 2105
     },
     {
       "epoch": 7.033333333333333,
-      "grad_norm": 0.007334025111049414,
-      "learning_rate": 0.0001531111111111111,
-      "loss": 0.0017,
+      "grad_norm": 0.0025825523771345615,
+      "learning_rate": 0.00010622222222222222,
+      "loss": 0.0006,
       "step": 2110
     },
     {
       "epoch": 7.05,
-      "grad_norm": 2.3927223682403564,
-      "learning_rate": 0.000153,
-      "loss": 0.0723,
+      "grad_norm": 0.002548804972320795,
+      "learning_rate": 0.00010600000000000002,
+      "loss": 0.0006,
       "step": 2115
     },
     {
       "epoch": 7.066666666666666,
-      "grad_norm": 5.4654221534729,
-      "learning_rate": 0.0001528888888888889,
-      "loss": 0.0146,
+      "grad_norm": 0.003182685235515237,
+      "learning_rate": 0.00010577777777777777,
+      "loss": 0.0006,
       "step": 2120
     },
     {
       "epoch": 7.083333333333333,
-      "grad_norm": 0.14990371465682983,
-      "learning_rate": 0.00015277777777777777,
-      "loss": 0.0073,
+      "grad_norm": 0.002312670461833477,
+      "learning_rate": 0.00010555555555555557,
+      "loss": 0.0006,
       "step": 2125
     },
     {
       "epoch": 7.1,
-      "grad_norm": 0.7896360158920288,
-      "learning_rate": 0.00015266666666666667,
-      "loss": 0.0036,
+      "grad_norm": 0.0025875107385218143,
+      "learning_rate": 0.00010533333333333332,
+      "loss": 0.0006,
       "step": 2130
     },
     {
       "epoch": 7.116666666666666,
-      "grad_norm": 0.010146372951567173,
-      "learning_rate": 0.00015255555555555557,
-      "loss": 0.0228,
+      "grad_norm": 0.0023565725423395634,
+      "learning_rate": 0.00010511111111111112,
+      "loss": 0.0006,
       "step": 2135
     },
     {
       "epoch": 7.133333333333334,
-      "grad_norm": 0.01116099487990141,
-      "learning_rate": 0.00015244444444444447,
-      "loss": 0.0012,
+      "grad_norm": 0.002113408874720335,
+      "learning_rate": 0.0001048888888888889,
+      "loss": 0.0006,
       "step": 2140
     },
     {
       "epoch": 7.15,
-      "grad_norm": 0.5267151594161987,
-      "learning_rate": 0.00015233333333333334,
-      "loss": 0.002,
+      "grad_norm": 0.002329460810869932,
+      "learning_rate": 0.00010466666666666667,
+      "loss": 0.0006,
       "step": 2145
     },
     {
       "epoch": 7.166666666666667,
-      "grad_norm": 0.021047750487923622,
-      "learning_rate": 0.0001522222222222222,
-      "loss": 0.0069,
+      "grad_norm": 0.002042634878307581,
+      "learning_rate": 0.00010444444444444445,
+      "loss": 0.0006,
       "step": 2150
     },
     {
       "epoch": 7.183333333333334,
-      "grad_norm": 0.012312190607190132,
-      "learning_rate": 0.0001521111111111111,
-      "loss": 0.0012,
+      "grad_norm": 0.0021435196977108717,
+      "learning_rate": 0.00010422222222222222,
+      "loss": 0.0006,
       "step": 2155
     },
     {
       "epoch": 7.2,
-      "grad_norm": 5.025228500366211,
-      "learning_rate": 0.000152,
-      "loss": 0.035,
+      "grad_norm": 0.010415912605822086,
+      "learning_rate": 0.00010400000000000001,
+      "loss": 0.0153,
       "step": 2160
     },
     {
       "epoch": 7.216666666666667,
-      "grad_norm": 0.030802858993411064,
-      "learning_rate": 0.0001518888888888889,
-      "loss": 0.0042,
+      "grad_norm": 0.0036404260899871588,
+      "learning_rate": 0.00010377777777777778,
+      "loss": 0.0006,
       "step": 2165
     },
     {
       "epoch": 7.233333333333333,
-      "grad_norm": 0.003741396823897958,
-      "learning_rate": 0.00015177777777777778,
-      "loss": 0.0265,
+      "grad_norm": 0.002469377126544714,
+      "learning_rate": 0.00010355555555555556,
+      "loss": 0.0452,
       "step": 2170
     },
     {
       "epoch": 7.25,
-      "grad_norm": 4.000439643859863,
-      "learning_rate": 0.00015166666666666668,
-      "loss": 0.0693,
+      "grad_norm": 0.0038751347456127405,
+      "learning_rate": 0.00010333333333333334,
+      "loss": 0.0006,
       "step": 2175
     },
     {
       "epoch": 7.266666666666667,
-      "grad_norm": 0.39389580488204956,
-      "learning_rate": 0.00015155555555555557,
-      "loss": 0.0025,
+      "grad_norm": 0.023641176521778107,
+      "learning_rate": 0.00010311111111111111,
+      "loss": 0.0006,
       "step": 2180
     },
     {
       "epoch": 7.283333333333333,
-      "grad_norm": 0.018459133803844452,
-      "learning_rate": 0.00015144444444444445,
-      "loss": 0.007,
+      "grad_norm": 0.002154020359739661,
+      "learning_rate": 0.0001028888888888889,
+      "loss": 0.0007,
       "step": 2185
     },
     {
       "epoch": 7.3,
-      "grad_norm": 0.008117812685668468,
-      "learning_rate": 0.00015133333333333334,
-      "loss": 0.0122,
+      "grad_norm": 0.09074875712394714,
+      "learning_rate": 0.00010266666666666666,
+      "loss": 0.0012,
       "step": 2190
     },
     {
       "epoch": 7.316666666666666,
-      "grad_norm": 0.005213357973843813,
-      "learning_rate": 0.00015122222222222221,
-      "loss": 0.0055,
+      "grad_norm": 0.027209369465708733,
+      "learning_rate": 0.00010244444444444446,
+      "loss": 0.0228,
       "step": 2195
     },
     {
       "epoch": 7.333333333333333,
-      "grad_norm": 0.00523899681866169,
-      "learning_rate": 0.0001511111111111111,
-      "loss": 0.0312,
+      "grad_norm": 0.0022254737559705973,
+      "learning_rate": 0.00010222222222222222,
+      "loss": 0.0009,
       "step": 2200
     },
     {
       "epoch": 7.333333333333333,
-      "eval_accuracy": 0.8408333333333333,
-      "eval_f1": 0.841214039225934,
-      "eval_loss": 0.772219717502594,
-      "eval_precision": 0.8520210641880901,
-      "eval_recall": 0.8408333333333333,
-      "eval_runtime": 16.456,
-      "eval_samples_per_second": 145.843,
-      "eval_steps_per_second": 18.23,
+      "eval_accuracy": 0.8120833333333334,
+      "eval_f1": 0.8143212038450485,
+      "eval_loss": 1.1136418581008911,
+      "eval_precision": 0.8309008687497237,
+      "eval_recall": 0.8120833333333334,
+      "eval_runtime": 16.2138,
+      "eval_samples_per_second": 148.022,
+      "eval_steps_per_second": 18.503,
       "step": 2200
     },
     {
       "epoch": 7.35,
-      "grad_norm": 0.5468858480453491,
-      "learning_rate": 0.000151,
-      "loss": 0.0184,
+      "grad_norm": 0.004089110065251589,
+      "learning_rate": 0.00010200000000000001,
+      "loss": 0.0009,
       "step": 2205
     },
     {
       "epoch": 7.366666666666666,
-      "grad_norm": 0.0054657068103551865,
-      "learning_rate": 0.0001508888888888889,
-      "loss": 0.0014,
+      "grad_norm": 0.005873320158571005,
+      "learning_rate": 0.00010177777777777777,
+      "loss": 0.0169,
       "step": 2210
     },
     {
       "epoch": 7.383333333333334,
-      "grad_norm": 0.0031742462888360023,
-      "learning_rate": 0.0001507777777777778,
-      "loss": 0.0009,
+      "grad_norm": 0.014257393777370453,
+      "learning_rate": 0.00010155555555555557,
+      "loss": 0.0019,
       "step": 2215
     },
     {
       "epoch": 7.4,
-      "grad_norm": 0.00267440895549953,
-      "learning_rate": 0.00015066666666666668,
+      "grad_norm": 0.004869324155151844,
+      "learning_rate": 0.00010133333333333335,
       "loss": 0.0009,
       "step": 2220
     },
     {
       "epoch": 7.416666666666667,
-      "grad_norm": 0.0032548161689192057,
-      "learning_rate": 0.00015055555555555555,
-      "loss": 0.0008,
+      "grad_norm": 0.003435335122048855,
+      "learning_rate": 0.00010111111111111112,
+      "loss": 0.0006,
       "step": 2225
     },
     {
       "epoch": 7.433333333333334,
-      "grad_norm": 0.008603979833424091,
-      "learning_rate": 0.00015044444444444445,
-      "loss": 0.0031,
+      "grad_norm": 0.005046080332249403,
+      "learning_rate": 0.0001008888888888889,
+      "loss": 0.0026,
       "step": 2230
     },
     {
       "epoch": 7.45,
-      "grad_norm": 0.0036078346893191338,
-      "learning_rate": 0.00015033333333333335,
-      "loss": 0.0009,
+      "grad_norm": 0.0024404891300946474,
+      "learning_rate": 0.00010066666666666667,
+      "loss": 0.0006,
       "step": 2235
     },
     {
       "epoch": 7.466666666666667,
-      "grad_norm": 0.05252474173903465,
-      "learning_rate": 0.00015022222222222222,
-      "loss": 0.0011,
+      "grad_norm": 0.003708339761942625,
+      "learning_rate": 0.00010044444444444445,
+      "loss": 0.0006,
       "step": 2240
     },
     {
       "epoch": 7.483333333333333,
-      "grad_norm": 0.0057592373341321945,
-      "learning_rate": 0.00015011111111111112,
-      "loss": 0.0017,
+      "grad_norm": 0.002780113136395812,
+      "learning_rate": 0.00010022222222222222,
+      "loss": 0.0006,
       "step": 2245
     },
     {
       "epoch": 7.5,
-      "grad_norm": 0.003402211470529437,
-      "learning_rate": 0.00015000000000000001,
-      "loss": 0.0125,
+      "grad_norm": 11.760756492614746,
+      "learning_rate": 0.0001,
+      "loss": 0.0129,
       "step": 2250
     },
     {
       "epoch": 7.516666666666667,
-      "grad_norm": 0.004304531961679459,
-      "learning_rate": 0.0001498888888888889,
-      "loss": 0.0009,
+      "grad_norm": 0.002225663512945175,
+      "learning_rate": 9.977777777777779e-05,
+      "loss": 0.0248,
       "step": 2255
     },
     {
       "epoch": 7.533333333333333,
-      "grad_norm": 0.004373368341475725,
-      "learning_rate": 0.00014977777777777778,
-      "loss": 0.0015,
+      "grad_norm": 0.007424809038639069,
+      "learning_rate": 9.955555555555556e-05,
+      "loss": 0.0007,
       "step": 2260
     },
     {
       "epoch": 7.55,
-      "grad_norm": 0.17799116671085358,
-      "learning_rate": 0.00014966666666666665,
-      "loss": 0.0014,
+      "grad_norm": 5.496004581451416,
+      "learning_rate": 9.933333333333334e-05,
+      "loss": 0.032,
       "step": 2265
     },
     {
       "epoch": 7.566666666666666,
-      "grad_norm": 0.11391420662403107,
-      "learning_rate": 0.00014955555555555555,
-      "loss": 0.002,
+      "grad_norm": 0.0022342163138091564,
+      "learning_rate": 9.911111111111112e-05,
+      "loss": 0.0136,
       "step": 2270
     },
     {
       "epoch": 7.583333333333333,
-      "grad_norm": 2.068371295928955,
-      "learning_rate": 0.00014944444444444445,
-      "loss": 0.0034,
+      "grad_norm": 0.002678543096408248,
+      "learning_rate": 9.888888888888889e-05,
+      "loss": 0.0007,
       "step": 2275
     },
     {
       "epoch": 7.6,
-      "grad_norm": 0.004461531527340412,
-      "learning_rate": 0.00014933333333333335,
-      "loss": 0.0008,
+      "grad_norm": 0.0034278975799679756,
+      "learning_rate": 9.866666666666668e-05,
+      "loss": 0.0102,
       "step": 2280
     },
     {
       "epoch": 7.616666666666667,
-      "grad_norm": 0.0026394540909677744,
-      "learning_rate": 0.00014922222222222222,
-      "loss": 0.0007,
+      "grad_norm": 0.002528877230361104,
+      "learning_rate": 9.844444444444444e-05,
+      "loss": 0.0006,
       "step": 2285
     },
     {
       "epoch": 7.633333333333333,
-      "grad_norm": 0.002601665211841464,
-      "learning_rate": 0.00014911111111111112,
-      "loss": 0.0007,
+      "grad_norm": 0.009201227687299252,
+      "learning_rate": 9.822222222222223e-05,
+      "loss": 0.0262,
       "step": 2290
     },
     {
       "epoch": 7.65,
-      "grad_norm": 0.0071794381365180016,
-      "learning_rate": 0.00014900000000000002,
-      "loss": 0.0016,
+      "grad_norm": 0.0034583392553031445,
+      "learning_rate": 9.8e-05,
+      "loss": 0.0007,
       "step": 2295
     },
     {
       "epoch": 7.666666666666667,
-      "grad_norm": 0.005524220876395702,
-      "learning_rate": 0.0001488888888888889,
-      "loss": 0.0018,
+      "grad_norm": 0.015669595450162888,
+      "learning_rate": 9.777777777777778e-05,
+      "loss": 0.0068,
       "step": 2300
     },
     {
       "epoch": 7.666666666666667,
-      "eval_accuracy": 0.8483333333333334,
-      "eval_f1": 0.8453297360138619,
-      "eval_loss": 0.8193511962890625,
-      "eval_precision": 0.8641175497657522,
-      "eval_recall": 0.8483333333333334,
-      "eval_runtime": 16.2376,
-      "eval_samples_per_second": 147.805,
-      "eval_steps_per_second": 18.476,
+      "eval_accuracy": 0.8116666666666666,
+      "eval_f1": 0.8015287837222055,
+      "eval_loss": 1.0873174667358398,
+      "eval_precision": 0.812814282117045,
+      "eval_recall": 0.8116666666666666,
+      "eval_runtime": 16.3225,
+      "eval_samples_per_second": 147.036,
+      "eval_steps_per_second": 18.38,
       "step": 2300
     },
     {
       "epoch": 7.683333333333334,
-      "grad_norm": 0.014535258524119854,
-      "learning_rate": 0.00014877777777777779,
-      "loss": 0.0008,
+      "grad_norm": 0.010960573330521584,
+      "learning_rate": 9.755555555555555e-05,
+      "loss": 0.0009,
       "step": 2305
     },
     {
       "epoch": 7.7,
-      "grad_norm": 0.0027348026633262634,
-      "learning_rate": 0.00014866666666666666,
-      "loss": 0.0008,
+      "grad_norm": 3.8007144927978516,
+      "learning_rate": 9.733333333333335e-05,
+      "loss": 0.0211,
       "step": 2310
     },
     {
       "epoch": 7.716666666666667,
-      "grad_norm": 0.01817270927131176,
-      "learning_rate": 0.00014855555555555556,
-      "loss": 0.001,
+      "grad_norm": 0.0147212203592062,
+      "learning_rate": 9.711111111111111e-05,
+      "loss": 0.0006,
       "step": 2315
     },
     {
       "epoch": 7.733333333333333,
-      "grad_norm": 4.863348960876465,
-      "learning_rate": 0.00014844444444444445,
-      "loss": 0.0205,
+      "grad_norm": 4.280189514160156,
+      "learning_rate": 9.68888888888889e-05,
+      "loss": 0.0332,
       "step": 2320
     },
     {
       "epoch": 7.75,
-      "grad_norm": 0.0023010699078440666,
-      "learning_rate": 0.00014833333333333335,
-      "loss": 0.0041,
+      "grad_norm": 0.0037267047446221113,
+      "learning_rate": 9.666666666666667e-05,
+      "loss": 0.0008,
       "step": 2325
     },
     {
       "epoch": 7.766666666666667,
-      "grad_norm": 0.002950769616290927,
-      "learning_rate": 0.00014822222222222225,
-      "loss": 0.0006,
+      "grad_norm": 0.0027066045440733433,
+      "learning_rate": 9.644444444444445e-05,
+      "loss": 0.0008,
       "step": 2330
     },
     {
       "epoch": 7.783333333333333,
-      "grad_norm": 8.950093269348145,
-      "learning_rate": 0.00014811111111111112,
-      "loss": 0.0183,
+      "grad_norm": 0.003192759584635496,
+      "learning_rate": 9.622222222222222e-05,
+      "loss": 0.0007,
       "step": 2335
     },
     {
       "epoch": 7.8,
-      "grad_norm": 0.0024769071023911238,
-      "learning_rate": 0.000148,
-      "loss": 0.0199,
+      "grad_norm": 0.007623758167028427,
+      "learning_rate": 9.6e-05,
+      "loss": 0.0008,
       "step": 2340
     },
     {
       "epoch": 7.816666666666666,
-      "grad_norm": 0.0035010206047445536,
-      "learning_rate": 0.0001478888888888889,
-      "loss": 0.0132,
+      "grad_norm": 0.00502683874219656,
+      "learning_rate": 9.577777777777777e-05,
+      "loss": 0.0286,
       "step": 2345
     },
     {
       "epoch": 7.833333333333333,
-      "grad_norm": 0.8080799579620361,
-      "learning_rate": 0.0001477777777777778,
-      "loss": 0.0069,
+      "grad_norm": 0.0025516434106975794,
+      "learning_rate": 9.555555555555557e-05,
+      "loss": 0.0006,
       "step": 2350
     },
     {
       "epoch": 7.85,
-      "grad_norm": 0.0025033564306795597,
-      "learning_rate": 0.00014766666666666666,
-      "loss": 0.0007,
+      "grad_norm": 0.018869969993829727,
+      "learning_rate": 9.533333333333334e-05,
+      "loss": 0.0006,
       "step": 2355
     },
     {
       "epoch": 7.866666666666667,
-      "grad_norm": 0.002949489513412118,
-      "learning_rate": 0.00014755555555555556,
-      "loss": 0.0007,
+      "grad_norm": 0.0022587133571505547,
+      "learning_rate": 9.511111111111112e-05,
+      "loss": 0.0379,
       "step": 2360
     },
     {
       "epoch": 7.883333333333333,
-      "grad_norm": 0.00507625425234437,
-      "learning_rate": 0.00014744444444444446,
-      "loss": 0.003,
+      "grad_norm": 0.0023919830564409494,
+      "learning_rate": 9.488888888888889e-05,
+      "loss": 0.0005,
       "step": 2365
     },
     {
       "epoch": 7.9,
-      "grad_norm": 0.0031526118982583284,
-      "learning_rate": 0.00014733333333333335,
-      "loss": 0.0468,
+      "grad_norm": 0.002412996254861355,
+      "learning_rate": 9.466666666666667e-05,
+      "loss": 0.0227,
       "step": 2370
     },
     {
       "epoch": 7.916666666666667,
-      "grad_norm": 0.00233761896379292,
-      "learning_rate": 0.00014722222222222223,
-      "loss": 0.0015,
+      "grad_norm": 0.0020158858969807625,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.0005,
       "step": 2375
     },
     {
       "epoch": 7.933333333333334,
-      "grad_norm": 0.004013798665255308,
-      "learning_rate": 0.00014711111111111112,
-      "loss": 0.0422,
+      "grad_norm": 3.1069014072418213,
+      "learning_rate": 9.422222222222223e-05,
+      "loss": 0.0474,
       "step": 2380
     },
     {
       "epoch": 7.95,
-      "grad_norm": 0.006964639760553837,
-      "learning_rate": 0.000147,
-      "loss": 0.0014,
+      "grad_norm": 0.003413447178900242,
+      "learning_rate": 9.4e-05,
+      "loss": 0.0008,
       "step": 2385
     },
     {
       "epoch": 7.966666666666667,
-      "grad_norm": 0.005233841482549906,
-      "learning_rate": 0.0001468888888888889,
-      "loss": 0.0037,
+      "grad_norm": 0.004730647895485163,
+      "learning_rate": 9.377777777777779e-05,
+      "loss": 0.0006,
       "step": 2390
     },
     {
       "epoch": 7.983333333333333,
-      "grad_norm": 0.006709870416671038,
-      "learning_rate": 0.0001467777777777778,
-      "loss": 0.0011,
+      "grad_norm": 0.005170903634279966,
+      "learning_rate": 9.355555555555556e-05,
+      "loss": 0.005,
       "step": 2395
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.005775137804448605,
-      "learning_rate": 0.00014666666666666666,
-      "loss": 0.0008,
+      "grad_norm": 0.002543902490288019,
+      "learning_rate": 9.333333333333334e-05,
+      "loss": 0.0006,
       "step": 2400
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8570833333333333,
-      "eval_f1": 0.8534869100426493,
-      "eval_loss": 0.7871036529541016,
-      "eval_precision": 0.8752354693055823,
-      "eval_recall": 0.8570833333333333,
-      "eval_runtime": 16.3837,
-      "eval_samples_per_second": 146.487,
-      "eval_steps_per_second": 18.311,
+      "eval_accuracy": 0.8325,
+      "eval_f1": 0.8292048079037411,
+      "eval_loss": 0.8601341843605042,
+      "eval_precision": 0.8382643704935783,
+      "eval_recall": 0.8325,
+      "eval_runtime": 16.1666,
+      "eval_samples_per_second": 148.454,
+      "eval_steps_per_second": 18.557,
       "step": 2400
     },
     {
       "epoch": 8.016666666666667,
-      "grad_norm": 5.687709808349609,
-      "learning_rate": 0.00014655555555555556,
-      "loss": 0.0131,
+      "grad_norm": 0.002132824622094631,
+      "learning_rate": 9.311111111111111e-05,
+      "loss": 0.0005,
       "step": 2405
     },
     {
       "epoch": 8.033333333333333,
-      "grad_norm": 0.003728059120476246,
-      "learning_rate": 0.00014644444444444446,
-      "loss": 0.0009,
+      "grad_norm": 0.002072495874017477,
+      "learning_rate": 9.28888888888889e-05,
+      "loss": 0.0005,
       "step": 2410
     },
     {
       "epoch": 8.05,
-      "grad_norm": 0.03790562227368355,
-      "learning_rate": 0.00014633333333333336,
-      "loss": 0.001,
+      "grad_norm": 0.002085267100483179,
+      "learning_rate": 9.266666666666666e-05,
+      "loss": 0.0097,
       "step": 2415
     },
     {
       "epoch": 8.066666666666666,
-      "grad_norm": 0.016470499336719513,
-      "learning_rate": 0.00014622222222222223,
-      "loss": 0.0009,
+      "grad_norm": 4.095912933349609,
+      "learning_rate": 9.244444444444445e-05,
+      "loss": 0.0046,
       "step": 2420
     },
     {
       "epoch": 8.083333333333334,
-      "grad_norm": 0.0025461844634264708,
-      "learning_rate": 0.0001461111111111111,
-      "loss": 0.0375,
+      "grad_norm": 0.02202429063618183,
+      "learning_rate": 9.222222222222223e-05,
+      "loss": 0.0006,
       "step": 2425
     },
     {
       "epoch": 8.1,
-      "grad_norm": 0.2699083685874939,
-      "learning_rate": 0.000146,
-      "loss": 0.0014,
+      "grad_norm": 0.0047103771939873695,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 0.0677,
       "step": 2430
     },
     {
       "epoch": 8.116666666666667,
-      "grad_norm": 0.004635660909116268,
-      "learning_rate": 0.0001458888888888889,
-      "loss": 0.0008,
+      "grad_norm": 0.0025165516417473555,
+      "learning_rate": 9.177777777777778e-05,
+      "loss": 0.0006,
       "step": 2435
     },
     {
       "epoch": 8.133333333333333,
-      "grad_norm": 0.002575015416368842,
-      "learning_rate": 0.0001457777777777778,
-      "loss": 0.0007,
+      "grad_norm": 0.002185888821259141,
+      "learning_rate": 9.155555555555557e-05,
+      "loss": 0.0009,
       "step": 2440
     },
     {
       "epoch": 8.15,
-      "grad_norm": 0.00613428745418787,
-      "learning_rate": 0.0001456666666666667,
-      "loss": 0.0009,
+      "grad_norm": 0.003206634661182761,
+      "learning_rate": 9.133333333333334e-05,
+      "loss": 0.0045,
       "step": 2445
     },
     {
       "epoch": 8.166666666666666,
-      "grad_norm": 0.01103020366281271,
-      "learning_rate": 0.00014555555555555556,
-      "loss": 0.0016,
+      "grad_norm": 0.0054768663831055164,
+      "learning_rate": 9.111111111111112e-05,
+      "loss": 0.0072,
       "step": 2450
     },
     {
       "epoch": 8.183333333333334,
-      "grad_norm": 0.006930557545274496,
-      "learning_rate": 0.00014544444444444446,
-      "loss": 0.0007,
+      "grad_norm": 0.002786393743008375,
+      "learning_rate": 9.088888888888889e-05,
+      "loss": 0.0005,
       "step": 2455
     },
     {
       "epoch": 8.2,
-      "grad_norm": 0.0033845205325633287,
-      "learning_rate": 0.00014533333333333333,
-      "loss": 0.0006,
+      "grad_norm": 1.1637638807296753,
+      "learning_rate": 9.066666666666667e-05,
+      "loss": 0.0455,
       "step": 2460
     },
     {
       "epoch": 8.216666666666667,
-      "grad_norm": 0.002517259679734707,
-      "learning_rate": 0.00014522222222222223,
-      "loss": 0.0006,
+      "grad_norm": 0.0023684033658355474,
+      "learning_rate": 9.044444444444445e-05,
+      "loss": 0.0005,
       "step": 2465
     },
     {
       "epoch": 8.233333333333333,
-      "grad_norm": 0.004058354068547487,
-      "learning_rate": 0.0001451111111111111,
-      "loss": 0.0006,
+      "grad_norm": 0.0026305948849767447,
+      "learning_rate": 9.022222222222224e-05,
+      "loss": 0.0005,
       "step": 2470
     },
     {
       "epoch": 8.25,
-      "grad_norm": 0.002601025393232703,
-      "learning_rate": 0.000145,
-      "loss": 0.0006,
+      "grad_norm": 1.0434577465057373,
+      "learning_rate": 9e-05,
+      "loss": 0.0019,
       "step": 2475
     },
     {
       "epoch": 8.266666666666667,
-      "grad_norm": 0.004104811232537031,
-      "learning_rate": 0.0001448888888888889,
-      "loss": 0.0006,
+      "grad_norm": 0.002434673486277461,
+      "learning_rate": 8.977777777777779e-05,
+      "loss": 0.0009,
       "step": 2480
     },
     {
       "epoch": 8.283333333333333,
-      "grad_norm": 0.002773802727460861,
-      "learning_rate": 0.0001447777777777778,
+      "grad_norm": 0.003538089105859399,
+      "learning_rate": 8.955555555555556e-05,
       "loss": 0.0006,
       "step": 2485
     },
     {
       "epoch": 8.3,
-      "grad_norm": 0.0024969547521322966,
-      "learning_rate": 0.0001446666666666667,
-      "loss": 0.0102,
+      "grad_norm": 0.0025343557354062796,
+      "learning_rate": 8.933333333333334e-05,
+      "loss": 0.0011,
       "step": 2490
     },
     {
       "epoch": 8.316666666666666,
-      "grad_norm": 0.0023750008549541235,
-      "learning_rate": 0.00014455555555555557,
-      "loss": 0.0005,
+      "grad_norm": 0.03506913036108017,
+      "learning_rate": 8.911111111111111e-05,
+      "loss": 0.0007,
       "step": 2495
     },
     {
       "epoch": 8.333333333333334,
-      "grad_norm": 3.1138103008270264,
-      "learning_rate": 0.00014444444444444444,
-      "loss": 0.0033,
+      "grad_norm": 0.0023856956977397203,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0187,
       "step": 2500
     },
     {
       "epoch": 8.333333333333334,
       "eval_accuracy": 0.8258333333333333,
-      "eval_f1": 0.8220356535524002,
-      "eval_loss": 0.9941890239715576,
-      "eval_precision": 0.8480280685343223,
+      "eval_f1": 0.8241328180566471,
+      "eval_loss": 0.970003068447113,
+      "eval_precision": 0.8374685562548414,
       "eval_recall": 0.8258333333333333,
-      "eval_runtime": 16.3915,
-      "eval_samples_per_second": 146.417,
-      "eval_steps_per_second": 18.302,
+      "eval_runtime": 16.1877,
+      "eval_samples_per_second": 148.261,
+      "eval_steps_per_second": 18.533,
       "step": 2500
     },
     {
       "epoch": 8.35,
-      "grad_norm": 0.0020911507308483124,
-      "learning_rate": 0.00014433333333333334,
-      "loss": 0.0008,
+      "grad_norm": 0.005118364468216896,
+      "learning_rate": 8.866666666666668e-05,
+      "loss": 0.0006,
       "step": 2505
     },
     {
       "epoch": 8.366666666666667,
-      "grad_norm": 0.0024478973355144262,
-      "learning_rate": 0.00014422222222222223,
-      "loss": 0.0021,
+      "grad_norm": 0.0032844129018485546,
+      "learning_rate": 8.844444444444445e-05,
+      "loss": 0.009,
       "step": 2510
     },
     {
       "epoch": 8.383333333333333,
-      "grad_norm": 0.002716888440772891,
-      "learning_rate": 0.0001441111111111111,
-      "loss": 0.0005,
+      "grad_norm": 0.02022561803460121,
+      "learning_rate": 8.822222222222223e-05,
+      "loss": 0.0011,
       "step": 2515
     },
     {
       "epoch": 8.4,
-      "grad_norm": 0.0019291191129013896,
-      "learning_rate": 0.000144,
-      "loss": 0.0024,
+      "grad_norm": 0.002716699382290244,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 0.0006,
       "step": 2520
     },
     {
       "epoch": 8.416666666666666,
-      "grad_norm": 0.0020477138459682465,
-      "learning_rate": 0.0001438888888888889,
-      "loss": 0.0005,
+      "grad_norm": 0.004801027476787567,
+      "learning_rate": 8.777777777777778e-05,
+      "loss": 0.0006,
       "step": 2525
     },
     {
       "epoch": 8.433333333333334,
-      "grad_norm": 0.006664696615189314,
-      "learning_rate": 0.0001437777777777778,
-      "loss": 0.0006,
+      "grad_norm": 0.0022399628069251776,
+      "learning_rate": 8.755555555555556e-05,
+      "loss": 0.0009,
       "step": 2530
     },
     {
       "epoch": 8.45,
-      "grad_norm": 0.006252924911677837,
-      "learning_rate": 0.00014366666666666667,
-      "loss": 0.0393,
+      "grad_norm": 0.002084235893562436,
+      "learning_rate": 8.733333333333333e-05,
+      "loss": 0.0005,
       "step": 2535
     },
     {
       "epoch": 8.466666666666667,
-      "grad_norm": 2.285886526107788,
-      "learning_rate": 0.00014355555555555554,
-      "loss": 0.0484,
+      "grad_norm": 0.015903901308774948,
+      "learning_rate": 8.711111111111112e-05,
+      "loss": 0.0022,
       "step": 2540
     },
     {
       "epoch": 8.483333333333333,
-      "grad_norm": 0.3105466961860657,
-      "learning_rate": 0.00014344444444444444,
-      "loss": 0.0827,
+      "grad_norm": 0.002923174062743783,
+      "learning_rate": 8.68888888888889e-05,
+      "loss": 0.0005,
       "step": 2545
     },
     {
       "epoch": 8.5,
-      "grad_norm": 2.8777239322662354,
-      "learning_rate": 0.00014333333333333334,
-      "loss": 0.0425,
+      "grad_norm": 0.0019452901324257255,
+      "learning_rate": 8.666666666666667e-05,
+      "loss": 0.0005,
       "step": 2550
     },
     {
       "epoch": 8.516666666666667,
-      "grad_norm": 0.005135390907526016,
-      "learning_rate": 0.00014322222222222224,
-      "loss": 0.0034,
+      "grad_norm": 0.002018929924815893,
+      "learning_rate": 8.644444444444445e-05,
+      "loss": 0.0424,
       "step": 2555
     },
     {
       "epoch": 8.533333333333333,
-      "grad_norm": 0.005072362255305052,
-      "learning_rate": 0.0001431111111111111,
-      "loss": 0.0014,
+      "grad_norm": 0.06330401450395584,
+      "learning_rate": 8.622222222222222e-05,
+      "loss": 0.0007,
       "step": 2560
     },
     {
       "epoch": 8.55,
-      "grad_norm": 0.01533975824713707,
-      "learning_rate": 0.000143,
-      "loss": 0.0022,
+      "grad_norm": 0.002739762654528022,
+      "learning_rate": 8.6e-05,
+      "loss": 0.0005,
       "step": 2565
     },
     {
       "epoch": 8.566666666666666,
-      "grad_norm": 0.008371562696993351,
-      "learning_rate": 0.0001428888888888889,
-      "loss": 0.001,
+      "grad_norm": 0.0017543025314807892,
+      "learning_rate": 8.577777777777777e-05,
+      "loss": 0.0005,
       "step": 2570
     },
     {
       "epoch": 8.583333333333334,
-      "grad_norm": 0.0038396709132939577,
-      "learning_rate": 0.00014277777777777778,
-      "loss": 0.0012,
+      "grad_norm": 0.0019296887330710888,
+      "learning_rate": 8.555555555555556e-05,
+      "loss": 0.0266,
       "step": 2575
     },
     {
       "epoch": 8.6,
-      "grad_norm": 0.003405633382499218,
-      "learning_rate": 0.00014266666666666667,
-      "loss": 0.0007,
+      "grad_norm": 0.0020027935970574617,
+      "learning_rate": 8.533333333333334e-05,
+      "loss": 0.0004,
       "step": 2580
     },
     {
       "epoch": 8.616666666666667,
-      "grad_norm": 0.002158754039555788,
-      "learning_rate": 0.00014255555555555555,
-      "loss": 0.0015,
+      "grad_norm": 0.001972978701815009,
+      "learning_rate": 8.511111111111112e-05,
+      "loss": 0.0005,
       "step": 2585
     },
     {
       "epoch": 8.633333333333333,
-      "grad_norm": 0.002263590693473816,
-      "learning_rate": 0.00014244444444444444,
-      "loss": 0.0013,
+      "grad_norm": 0.00312838819809258,
+      "learning_rate": 8.488888888888889e-05,
+      "loss": 0.0005,
       "step": 2590
     },
     {
       "epoch": 8.65,
-      "grad_norm": 0.005182481370866299,
-      "learning_rate": 0.00014233333333333334,
-      "loss": 0.0007,
+      "grad_norm": 0.0019264626316726208,
+      "learning_rate": 8.466666666666667e-05,
+      "loss": 0.0005,
       "step": 2595
     },
     {
       "epoch": 8.666666666666666,
-      "grad_norm": 0.003480789717286825,
-      "learning_rate": 0.00014222222222222224,
-      "loss": 0.0017,
+      "grad_norm": 0.0022585391998291016,
+      "learning_rate": 8.444444444444444e-05,
+      "loss": 0.0005,
       "step": 2600
     },
     {
       "epoch": 8.666666666666666,
       "eval_accuracy": 0.8175,
-      "eval_f1": 0.8186579673786826,
-      "eval_loss": 1.1084047555923462,
-      "eval_precision": 0.8561720161181153,
+      "eval_f1": 0.8198611702512841,
+      "eval_loss": 0.8824928998947144,
+      "eval_precision": 0.8339199486595633,
       "eval_recall": 0.8175,
-      "eval_runtime": 16.3366,
-      "eval_samples_per_second": 146.91,
-      "eval_steps_per_second": 18.364,
+      "eval_runtime": 16.215,
+      "eval_samples_per_second": 148.011,
+      "eval_steps_per_second": 18.501,
       "step": 2600
     },
     {
       "epoch": 8.683333333333334,
-      "grad_norm": 0.0025681203696876764,
-      "learning_rate": 0.00014211111111111114,
-      "loss": 0.0006,
+      "grad_norm": 0.0068211923353374004,
+      "learning_rate": 8.422222222222223e-05,
+      "loss": 0.0005,
       "step": 2605
     },
     {
       "epoch": 8.7,
-      "grad_norm": 0.0025423429906368256,
-      "learning_rate": 0.000142,
-      "loss": 0.0016,
+      "grad_norm": 0.16162340342998505,
+      "learning_rate": 8.4e-05,
+      "loss": 0.001,
       "step": 2610
     },
     {
       "epoch": 8.716666666666667,
-      "grad_norm": 6.255505561828613,
-      "learning_rate": 0.00014188888888888888,
-      "loss": 0.0163,
+      "grad_norm": 0.0017909558955579996,
+      "learning_rate": 8.377777777777778e-05,
+      "loss": 0.0107,
       "step": 2615
     },
     {
       "epoch": 8.733333333333333,
-      "grad_norm": 0.002673147479072213,
-      "learning_rate": 0.00014177777777777778,
-      "loss": 0.0008,
+      "grad_norm": 0.001604414195753634,
+      "learning_rate": 8.355555555555556e-05,
+      "loss": 0.0004,
       "step": 2620
     },
     {
       "epoch": 8.75,
-      "grad_norm": 0.004418432712554932,
-      "learning_rate": 0.00014166666666666668,
-      "loss": 0.0907,
+      "grad_norm": 0.0016672975616529584,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.0005,
       "step": 2625
     },
     {
       "epoch": 8.766666666666667,
-      "grad_norm": 0.06287478655576706,
-      "learning_rate": 0.00014155555555555555,
-      "loss": 0.0118,
+      "grad_norm": 0.002143802586942911,
+      "learning_rate": 8.311111111111111e-05,
+      "loss": 0.0005,
       "step": 2630
     },
     {
       "epoch": 8.783333333333333,
-      "grad_norm": 0.02641911990940571,
-      "learning_rate": 0.00014144444444444445,
-      "loss": 0.0007,
+      "grad_norm": 0.3950815498828888,
+      "learning_rate": 8.28888888888889e-05,
+      "loss": 0.0016,
       "step": 2635
     },
     {
       "epoch": 8.8,
-      "grad_norm": 0.0021477967966347933,
-      "learning_rate": 0.00014133333333333334,
-      "loss": 0.0006,
+      "grad_norm": 0.0016165695851668715,
+      "learning_rate": 8.266666666666667e-05,
+      "loss": 0.0005,
       "step": 2640
     },
     {
       "epoch": 8.816666666666666,
-      "grad_norm": 0.2916870713233948,
-      "learning_rate": 0.00014122222222222224,
-      "loss": 0.0009,
+      "grad_norm": 0.0016247531166300178,
+      "learning_rate": 8.244444444444445e-05,
+      "loss": 0.0005,
       "step": 2645
     },
     {
       "epoch": 8.833333333333334,
-      "grad_norm": 0.002433206420391798,
-      "learning_rate": 0.00014111111111111111,
-      "loss": 0.0643,
+      "grad_norm": 0.0016288519836962223,
+      "learning_rate": 8.222222222222222e-05,
+      "loss": 0.0004,
       "step": 2650
     },
     {
       "epoch": 8.85,
-      "grad_norm": 0.0035392683930695057,
-      "learning_rate": 0.000141,
-      "loss": 0.0005,
+      "grad_norm": 0.0017224808689206839,
+      "learning_rate": 8.2e-05,
+      "loss": 0.0004,
       "step": 2655
     },
     {
       "epoch": 8.866666666666667,
-      "grad_norm": 0.012625632807612419,
-      "learning_rate": 0.00014088888888888888,
-      "loss": 0.0137,
+      "grad_norm": 0.0016860649921000004,
+      "learning_rate": 8.177777777777778e-05,
+      "loss": 0.0004,
       "step": 2660
     },
     {
       "epoch": 8.883333333333333,
-      "grad_norm": 1.3027019500732422,
-      "learning_rate": 0.00014077777777777778,
-      "loss": 0.0071,
+      "grad_norm": 0.00168362888507545,
+      "learning_rate": 8.155555555555557e-05,
+      "loss": 0.0005,
       "step": 2665
     },
     {
       "epoch": 8.9,
-      "grad_norm": 0.007935917004942894,
-      "learning_rate": 0.00014066666666666668,
-      "loss": 0.0011,
+      "grad_norm": 0.0017627644119784236,
+      "learning_rate": 8.133333333333334e-05,
+      "loss": 0.0004,
       "step": 2670
     },
     {
       "epoch": 8.916666666666666,
-      "grad_norm": 0.01064575556665659,
-      "learning_rate": 0.00014055555555555555,
-      "loss": 0.0372,
+      "grad_norm": 0.0017018822254613042,
+      "learning_rate": 8.111111111111112e-05,
+      "loss": 0.0004,
       "step": 2675
     },
     {
       "epoch": 8.933333333333334,
-      "grad_norm": 0.0029459598008543253,
-      "learning_rate": 0.00014044444444444445,
-      "loss": 0.0365,
+      "grad_norm": 0.0016837342409417033,
+      "learning_rate": 8.088888888888889e-05,
+      "loss": 0.0004,
       "step": 2680
     },
     {
       "epoch": 8.95,
-      "grad_norm": 5.695804595947266,
-      "learning_rate": 0.00014033333333333335,
-      "loss": 0.028,
+      "grad_norm": 0.0017775363521650434,
+      "learning_rate": 8.066666666666667e-05,
+      "loss": 0.0004,
       "step": 2685
     },
     {
       "epoch": 8.966666666666667,
-      "grad_norm": 0.01090436615049839,
-      "learning_rate": 0.00014022222222222225,
-      "loss": 0.0016,
+      "grad_norm": 0.001605857047252357,
+      "learning_rate": 8.044444444444444e-05,
+      "loss": 0.0004,
       "step": 2690
     },
     {
       "epoch": 8.983333333333333,
-      "grad_norm": 0.004951427225023508,
-      "learning_rate": 0.00014011111111111112,
-      "loss": 0.038,
+      "grad_norm": 0.0027426250744611025,
+      "learning_rate": 8.022222222222222e-05,
+      "loss": 0.0004,
       "step": 2695
     },
     {
       "epoch": 9.0,
-      "grad_norm": 0.005922562908381224,
-      "learning_rate": 0.00014,
-      "loss": 0.0672,
+      "grad_norm": 0.0015770348254591227,
+      "learning_rate": 8e-05,
+      "loss": 0.0005,
       "step": 2700
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.84375,
-      "eval_f1": 0.8444540552198715,
-      "eval_loss": 0.8912330865859985,
-      "eval_precision": 0.8733864492722258,
-      "eval_recall": 0.84375,
-      "eval_runtime": 16.2373,
-      "eval_samples_per_second": 147.807,
-      "eval_steps_per_second": 18.476,
+      "eval_accuracy": 0.8241666666666667,
+      "eval_f1": 0.8229834552144357,
+      "eval_loss": 1.0313628911972046,
+      "eval_precision": 0.845454998030999,
+      "eval_recall": 0.8241666666666667,
+      "eval_runtime": 16.1682,
+      "eval_samples_per_second": 148.439,
+      "eval_steps_per_second": 18.555,
       "step": 2700
     },
     {
       "epoch": 9.016666666666667,
-      "grad_norm": 0.104985311627388,
-      "learning_rate": 0.00013988888888888889,
-      "loss": 0.0022,
+      "grad_norm": 0.002008032752200961,
+      "learning_rate": 7.977777777777779e-05,
+      "loss": 0.0004,
       "step": 2705
     },
     {
       "epoch": 9.033333333333333,
-      "grad_norm": 0.008143506944179535,
-      "learning_rate": 0.00013977777777777778,
-      "loss": 0.0073,
+      "grad_norm": 0.0015036368276923895,
+      "learning_rate": 7.955555555555556e-05,
+      "loss": 0.0004,
       "step": 2710
     },
     {
       "epoch": 9.05,
-      "grad_norm": 0.005883979145437479,
-      "learning_rate": 0.00013966666666666668,
-      "loss": 0.0065,
+      "grad_norm": 0.00159637036267668,
+      "learning_rate": 7.933333333333334e-05,
+      "loss": 0.0004,
       "step": 2715
     },
     {
       "epoch": 9.066666666666666,
-      "grad_norm": 0.03593851998448372,
-      "learning_rate": 0.00013955555555555558,
-      "loss": 0.0128,
+      "grad_norm": 0.0032770384568721056,
+      "learning_rate": 7.911111111111111e-05,
+      "loss": 0.0004,
       "step": 2720
     },
     {
       "epoch": 9.083333333333334,
-      "grad_norm": 3.8942365646362305,
-      "learning_rate": 0.00013944444444444445,
-      "loss": 0.0946,
+      "grad_norm": 0.001699652522802353,
+      "learning_rate": 7.88888888888889e-05,
+      "loss": 0.0004,
       "step": 2725
     },
     {
       "epoch": 9.1,
-      "grad_norm": 0.024253543466329575,
-      "learning_rate": 0.00013933333333333335,
-      "loss": 0.0368,
+      "grad_norm": 0.0016313965898007154,
+      "learning_rate": 7.866666666666666e-05,
+      "loss": 0.0004,
       "step": 2730
     },
     {
       "epoch": 9.116666666666667,
-      "grad_norm": 6.3494954109191895,
-      "learning_rate": 0.00013922222222222222,
-      "loss": 0.0644,
+      "grad_norm": 0.0015831812052056193,
+      "learning_rate": 7.844444444444446e-05,
+      "loss": 0.0004,
       "step": 2735
     },
     {
       "epoch": 9.133333333333333,
-      "grad_norm": 0.004255510866641998,
-      "learning_rate": 0.00013911111111111112,
-      "loss": 0.0008,
+      "grad_norm": 0.0015456965193152428,
+      "learning_rate": 7.822222222222223e-05,
+      "loss": 0.0004,
       "step": 2740
     },
     {
       "epoch": 9.15,
-      "grad_norm": 0.02173234149813652,
-      "learning_rate": 0.000139,
-      "loss": 0.0026,
+      "grad_norm": 0.0015633227303624153,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.0004,
       "step": 2745
     },
     {
       "epoch": 9.166666666666666,
-      "grad_norm": 0.6059193015098572,
-      "learning_rate": 0.0001388888888888889,
-      "loss": 0.0579,
+      "grad_norm": 0.001547831459902227,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.0005,
       "step": 2750
     },
     {
       "epoch": 9.183333333333334,
-      "grad_norm": 4.733312129974365,
-      "learning_rate": 0.0001387777777777778,
-      "loss": 0.1371,
+      "grad_norm": 0.0014629991492256522,
+      "learning_rate": 7.755555555555556e-05,
+      "loss": 0.0004,
       "step": 2755
     },
     {
       "epoch": 9.2,
-      "grad_norm": 0.023999568074941635,
-      "learning_rate": 0.00013866666666666669,
-      "loss": 0.0953,
+      "grad_norm": 0.0014544447185471654,
+      "learning_rate": 7.733333333333333e-05,
+      "loss": 0.0004,
       "step": 2760
     },
     {
       "epoch": 9.216666666666667,
-      "grad_norm": 0.010103575885295868,
-      "learning_rate": 0.00013855555555555558,
-      "loss": 0.0073,
+      "grad_norm": 0.0022293925285339355,
+      "learning_rate": 7.711111111111112e-05,
+      "loss": 0.0004,
       "step": 2765
     },
     {
       "epoch": 9.233333333333333,
-      "grad_norm": 0.06156833842396736,
-      "learning_rate": 0.00013844444444444445,
-      "loss": 0.0458,
+      "grad_norm": 0.0015222608344629407,
+      "learning_rate": 7.688888888888889e-05,
+      "loss": 0.0004,
       "step": 2770
     },
     {
       "epoch": 9.25,
-      "grad_norm": 0.08024519681930542,
-      "learning_rate": 0.00013833333333333333,
-      "loss": 0.004,
+      "grad_norm": 0.0014466847060248256,
+      "learning_rate": 7.666666666666667e-05,
+      "loss": 0.0004,
       "step": 2775
     },
     {
       "epoch": 9.266666666666667,
-      "grad_norm": 0.01808352954685688,
-      "learning_rate": 0.00013822222222222222,
-      "loss": 0.0053,
+      "grad_norm": 0.0013690460473299026,
+      "learning_rate": 7.644444444444445e-05,
+      "loss": 0.0004,
       "step": 2780
     },
     {
       "epoch": 9.283333333333333,
-      "grad_norm": 0.21667584776878357,
-      "learning_rate": 0.00013811111111111112,
-      "loss": 0.0065,
+      "grad_norm": 0.006811714731156826,
+      "learning_rate": 7.622222222222223e-05,
+      "loss": 0.0004,
       "step": 2785
     },
     {
       "epoch": 9.3,
-      "grad_norm": 0.06053479388356209,
-      "learning_rate": 0.000138,
-      "loss": 0.0035,
+      "grad_norm": 0.0016252178465947509,
+      "learning_rate": 7.6e-05,
+      "loss": 0.0004,
       "step": 2790
     },
     {
       "epoch": 9.316666666666666,
-      "grad_norm": 0.06590431928634644,
-      "learning_rate": 0.0001378888888888889,
-      "loss": 0.0133,
+      "grad_norm": 0.0015843961155042052,
+      "learning_rate": 7.577777777777779e-05,
+      "loss": 0.0004,
       "step": 2795
     },
     {
       "epoch": 9.333333333333334,
-      "grad_norm": 3.769622564315796,
-      "learning_rate": 0.0001377777777777778,
-      "loss": 0.0227,
+      "grad_norm": 0.0015566531801596284,
+      "learning_rate": 7.555555555555556e-05,
+      "loss": 0.0004,
       "step": 2800
     },
     {
       "epoch": 9.333333333333334,
-      "eval_accuracy": 0.81125,
-      "eval_f1": 0.8086305266796243,
-      "eval_loss": 1.154728651046753,
-      "eval_precision": 0.8295025032763728,
-      "eval_recall": 0.81125,
-      "eval_runtime": 16.366,
-      "eval_samples_per_second": 146.646,
-      "eval_steps_per_second": 18.331,
+      "eval_accuracy": 0.8233333333333334,
+      "eval_f1": 0.8230003179522786,
+      "eval_loss": 1.0322812795639038,
+      "eval_precision": 0.8443270213451313,
+      "eval_recall": 0.8233333333333334,
+      "eval_runtime": 16.2938,
+      "eval_samples_per_second": 147.295,
+      "eval_steps_per_second": 18.412,
       "step": 2800
     },
     {
       "epoch": 9.35,
-      "grad_norm": 1.7696926593780518,
-      "learning_rate": 0.0001376666666666667,
-      "loss": 0.0519,
+      "grad_norm": 0.001486313994973898,
+      "learning_rate": 7.533333333333334e-05,
+      "loss": 0.0004,
       "step": 2805
     },
     {
       "epoch": 9.366666666666667,
-      "grad_norm": 0.022752732038497925,
-      "learning_rate": 0.00013755555555555556,
-      "loss": 0.0037,
+      "grad_norm": 0.001433184719644487,
+      "learning_rate": 7.511111111111111e-05,
+      "loss": 0.0004,
       "step": 2810
     },
     {
       "epoch": 9.383333333333333,
-      "grad_norm": 0.011072320863604546,
-      "learning_rate": 0.00013744444444444443,
-      "loss": 0.0067,
+      "grad_norm": 0.0014735893346369267,
+      "learning_rate": 7.488888888888889e-05,
+      "loss": 0.0004,
       "step": 2815
     },
     {
       "epoch": 9.4,
-      "grad_norm": 0.004133034031838179,
-      "learning_rate": 0.00013733333333333333,
-      "loss": 0.0008,
+      "grad_norm": 0.001455883146263659,
+      "learning_rate": 7.466666666666667e-05,
+      "loss": 0.0003,
       "step": 2820
     },
     {
       "epoch": 9.416666666666666,
-      "grad_norm": 0.011127435602247715,
-      "learning_rate": 0.00013722222222222223,
-      "loss": 0.0008,
+      "grad_norm": 0.0016761834267526865,
+      "learning_rate": 7.444444444444444e-05,
+      "loss": 0.0004,
       "step": 2825
     },
     {
       "epoch": 9.433333333333334,
-      "grad_norm": 0.008180396631360054,
-      "learning_rate": 0.00013711111111111113,
-      "loss": 0.0008,
+      "grad_norm": 0.0016179028898477554,
+      "learning_rate": 7.422222222222223e-05,
+      "loss": 0.0003,
       "step": 2830
     },
     {
       "epoch": 9.45,
-      "grad_norm": 0.00265864678658545,
-      "learning_rate": 0.00013700000000000002,
-      "loss": 0.0392,
+      "grad_norm": 0.002692132955417037,
+      "learning_rate": 7.4e-05,
+      "loss": 0.0004,
       "step": 2835
     },
     {
       "epoch": 9.466666666666667,
-      "grad_norm": 0.4797627329826355,
-      "learning_rate": 0.0001368888888888889,
-      "loss": 0.0048,
+      "grad_norm": 0.0013550370931625366,
+      "learning_rate": 7.377777777777778e-05,
+      "loss": 0.0004,
       "step": 2840
     },
     {
       "epoch": 9.483333333333333,
-      "grad_norm": 3.1840622425079346,
-      "learning_rate": 0.0001367777777777778,
-      "loss": 0.039,
+      "grad_norm": 0.001369455480016768,
+      "learning_rate": 7.355555555555556e-05,
+      "loss": 0.0003,
       "step": 2845
     },
     {
       "epoch": 9.5,
-      "grad_norm": 0.0052743516862392426,
-      "learning_rate": 0.00013666666666666666,
-      "loss": 0.0008,
+      "grad_norm": 0.0013966824626550078,
+      "learning_rate": 7.333333333333333e-05,
+      "loss": 0.0004,
       "step": 2850
     },
     {
       "epoch": 9.516666666666667,
-      "grad_norm": 0.00512054143473506,
-      "learning_rate": 0.00013655555555555556,
-      "loss": 0.0213,
+      "grad_norm": 0.0013944619568064809,
+      "learning_rate": 7.311111111111111e-05,
+      "loss": 0.0003,
       "step": 2855
     },
     {
       "epoch": 9.533333333333333,
-      "grad_norm": 0.5938228368759155,
-      "learning_rate": 0.00013644444444444443,
-      "loss": 0.0181,
+      "grad_norm": 0.0024860929697752,
+      "learning_rate": 7.28888888888889e-05,
+      "loss": 0.0004,
       "step": 2860
     },
     {
       "epoch": 9.55,
-      "grad_norm": 0.010207610204815865,
-      "learning_rate": 0.00013633333333333333,
-      "loss": 0.0008,
+      "grad_norm": 0.0013516085455194116,
+      "learning_rate": 7.266666666666667e-05,
+      "loss": 0.0003,
       "step": 2865
     },
     {
       "epoch": 9.566666666666666,
-      "grad_norm": 0.0038496803026646376,
-      "learning_rate": 0.00013622222222222223,
-      "loss": 0.0041,
+      "grad_norm": 0.001471055904403329,
+      "learning_rate": 7.244444444444445e-05,
+      "loss": 0.0003,
       "step": 2870
     },
     {
       "epoch": 9.583333333333334,
-      "grad_norm": 0.007706665899604559,
-      "learning_rate": 0.00013611111111111113,
-      "loss": 0.0007,
+      "grad_norm": 0.001384889823384583,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 0.0003,
       "step": 2875
     },
     {
       "epoch": 9.6,
-      "grad_norm": 4.353385925292969,
-      "learning_rate": 0.00013600000000000003,
-      "loss": 0.0661,
+      "grad_norm": 0.0014320468762889504,
+      "learning_rate": 7.2e-05,
+      "loss": 0.0003,
       "step": 2880
     },
     {
       "epoch": 9.616666666666667,
-      "grad_norm": 0.3112136721611023,
-      "learning_rate": 0.0001358888888888889,
-      "loss": 0.0011,
+      "grad_norm": 0.0013736225664615631,
+      "learning_rate": 7.177777777777777e-05,
+      "loss": 0.0003,
       "step": 2885
     },
     {
       "epoch": 9.633333333333333,
-      "grad_norm": 0.002694859867915511,
-      "learning_rate": 0.00013577777777777777,
-      "loss": 0.0101,
+      "grad_norm": 0.0013744637835770845,
+      "learning_rate": 7.155555555555555e-05,
+      "loss": 0.0003,
       "step": 2890
     },
     {
       "epoch": 9.65,
-      "grad_norm": 0.037817806005477905,
-      "learning_rate": 0.00013566666666666667,
-      "loss": 0.0031,
+      "grad_norm": 0.0018320129020139575,
+      "learning_rate": 7.133333333333334e-05,
+      "loss": 0.0003,
       "step": 2895
     },
     {
       "epoch": 9.666666666666666,
-      "grad_norm": 0.24604125320911407,
-      "learning_rate": 0.00013555555555555556,
-      "loss": 0.0012,
+      "grad_norm": 0.0013941832585260272,
+      "learning_rate": 7.111111111111112e-05,
+      "loss": 0.0003,
       "step": 2900
     },
     {
       "epoch": 9.666666666666666,
-      "eval_accuracy": 0.8154166666666667,
-      "eval_f1": 0.8128526443643208,
-      "eval_loss": 1.173401951789856,
-      "eval_precision": 0.8368916797749519,
-      "eval_recall": 0.8154166666666667,
-      "eval_runtime": 16.4101,
-      "eval_samples_per_second": 146.252,
-      "eval_steps_per_second": 18.281,
+      "eval_accuracy": 0.8229166666666666,
+      "eval_f1": 0.8228729911863876,
+      "eval_loss": 1.039668321609497,
+      "eval_precision": 0.8432751844640474,
+      "eval_recall": 0.8229166666666666,
+      "eval_runtime": 16.256,
+      "eval_samples_per_second": 147.638,
+      "eval_steps_per_second": 18.455,
       "step": 2900
     },
     {
       "epoch": 9.683333333333334,
-      "grad_norm": 0.005376523360610008,
-      "learning_rate": 0.00013544444444444444,
-      "loss": 0.021,
+      "grad_norm": 0.0013740541180595756,
+      "learning_rate": 7.088888888888889e-05,
+      "loss": 0.0003,
       "step": 2905
     },
     {
       "epoch": 9.7,
-      "grad_norm": 0.02001657336950302,
-      "learning_rate": 0.00013533333333333333,
-      "loss": 0.0022,
+      "grad_norm": 0.0013458637986332178,
+      "learning_rate": 7.066666666666667e-05,
+      "loss": 0.0003,
       "step": 2910
     },
     {
       "epoch": 9.716666666666667,
-      "grad_norm": 0.003076221328228712,
-      "learning_rate": 0.00013522222222222223,
-      "loss": 0.0007,
+      "grad_norm": 0.001225246349349618,
+      "learning_rate": 7.044444444444444e-05,
+      "loss": 0.0003,
       "step": 2915
     },
     {
       "epoch": 9.733333333333333,
-      "grad_norm": 0.01039606798440218,
-      "learning_rate": 0.00013511111111111113,
-      "loss": 0.0011,
+      "grad_norm": 0.0012834464432671666,
+      "learning_rate": 7.022222222222222e-05,
+      "loss": 0.0003,
       "step": 2920
     },
     {
       "epoch": 9.75,
-      "grad_norm": 0.1864362359046936,
-      "learning_rate": 0.00013500000000000003,
-      "loss": 0.0065,
+      "grad_norm": 0.001338280038908124,
+      "learning_rate": 7e-05,
+      "loss": 0.0003,
       "step": 2925
     },
     {
       "epoch": 9.766666666666667,
-      "grad_norm": 0.016571182757616043,
-      "learning_rate": 0.0001348888888888889,
-      "loss": 0.0449,
+      "grad_norm": 0.0015021463623270392,
+      "learning_rate": 6.977777777777779e-05,
+      "loss": 0.0003,
       "step": 2930
     },
     {
       "epoch": 9.783333333333333,
-      "grad_norm": 0.01569582149386406,
-      "learning_rate": 0.00013477777777777777,
-      "loss": 0.0146,
+      "grad_norm": 0.0013752388767898083,
+      "learning_rate": 6.955555555555556e-05,
+      "loss": 0.0003,
       "step": 2935
     },
     {
       "epoch": 9.8,
-      "grad_norm": 0.019407009705901146,
-      "learning_rate": 0.00013466666666666667,
-      "loss": 0.0013,
+      "grad_norm": 0.0013425349025055766,
+      "learning_rate": 6.933333333333334e-05,
+      "loss": 0.0003,
       "step": 2940
     },
     {
       "epoch": 9.816666666666666,
-      "grad_norm": 0.5265975594520569,
-      "learning_rate": 0.00013455555555555557,
-      "loss": 0.0061,
+      "grad_norm": 0.0012357112718746066,
+      "learning_rate": 6.911111111111111e-05,
+      "loss": 0.0003,
       "step": 2945
     },
     {
       "epoch": 9.833333333333334,
-      "grad_norm": 4.177003383636475,
-      "learning_rate": 0.00013444444444444447,
-      "loss": 0.1295,
+      "grad_norm": 0.001375521649606526,
+      "learning_rate": 6.88888888888889e-05,
+      "loss": 0.0003,
       "step": 2950
     },
     {
       "epoch": 9.85,
-      "grad_norm": 0.8331624865531921,
-      "learning_rate": 0.00013433333333333334,
-      "loss": 0.0019,
+      "grad_norm": 0.0016292021609842777,
+      "learning_rate": 6.866666666666666e-05,
+      "loss": 0.0003,
       "step": 2955
     },
     {
       "epoch": 9.866666666666667,
-      "grad_norm": 0.003004693426191807,
-      "learning_rate": 0.00013422222222222224,
-      "loss": 0.0063,
+      "grad_norm": 0.0016653906786814332,
+      "learning_rate": 6.844444444444445e-05,
+      "loss": 0.0003,
       "step": 2960
     },
     {
       "epoch": 9.883333333333333,
-      "grad_norm": 4.55336332321167,
-      "learning_rate": 0.00013411111111111113,
-      "loss": 0.0141,
+      "grad_norm": 0.0014140658313408494,
+      "learning_rate": 6.822222222222222e-05,
+      "loss": 0.0003,
       "step": 2965
     },
     {
       "epoch": 9.9,
-      "grad_norm": 0.028174813836812973,
-      "learning_rate": 0.000134,
-      "loss": 0.0036,
+      "grad_norm": 0.0020091510377824306,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.0003,
       "step": 2970
     },
     {
       "epoch": 9.916666666666666,
-      "grad_norm": 0.005432470701634884,
-      "learning_rate": 0.00013388888888888888,
-      "loss": 0.0532,
+      "grad_norm": 0.0013111529406160116,
+      "learning_rate": 6.777777777777778e-05,
+      "loss": 0.0003,
       "step": 2975
     },
     {
       "epoch": 9.933333333333334,
-      "grad_norm": 0.005422735121101141,
-      "learning_rate": 0.00013377777777777777,
-      "loss": 0.0457,
+      "grad_norm": 0.001292747212573886,
+      "learning_rate": 6.755555555555557e-05,
+      "loss": 0.0003,
       "step": 2980
     },
     {
       "epoch": 9.95,
-      "grad_norm": 0.012920910492539406,
-      "learning_rate": 0.00013366666666666667,
-      "loss": 0.055,
+      "grad_norm": 0.001311841537244618,
+      "learning_rate": 6.733333333333333e-05,
+      "loss": 0.0003,
       "step": 2985
     },
     {
       "epoch": 9.966666666666667,
-      "grad_norm": 0.06324435770511627,
-      "learning_rate": 0.00013355555555555557,
-      "loss": 0.0033,
+      "grad_norm": 0.0013749853242188692,
+      "learning_rate": 6.711111111111112e-05,
+      "loss": 0.0003,
       "step": 2990
     },
     {
       "epoch": 9.983333333333333,
-      "grad_norm": 0.07277432084083557,
-      "learning_rate": 0.00013344444444444447,
-      "loss": 0.059,
+      "grad_norm": 0.0012660091742873192,
+      "learning_rate": 6.688888888888889e-05,
+      "loss": 0.0003,
       "step": 2995
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.010990701615810394,
-      "learning_rate": 0.00013333333333333334,
-      "loss": 0.0011,
+      "grad_norm": 0.0012998112943023443,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.0003,
       "step": 3000
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.8541666666666666,
-      "eval_f1": 0.8557666164263935,
-      "eval_loss": 0.976228654384613,
-      "eval_precision": 0.8800122545883688,
-      "eval_recall": 0.8541666666666666,
-      "eval_runtime": 16.3709,
-      "eval_samples_per_second": 146.602,
-      "eval_steps_per_second": 18.325,
+      "eval_accuracy": 0.82375,
+      "eval_f1": 0.8238551734845775,
+      "eval_loss": 1.0472605228424072,
+      "eval_precision": 0.843733845755455,
+      "eval_recall": 0.82375,
+      "eval_runtime": 16.2776,
+      "eval_samples_per_second": 147.442,
+      "eval_steps_per_second": 18.43,
       "step": 3000
     },
     {
       "epoch": 10.016666666666667,
-      "grad_norm": 0.006173337809741497,
-      "learning_rate": 0.00013322222222222224,
-      "loss": 0.0374,
+      "grad_norm": 0.0012788537424057722,
+      "learning_rate": 6.644444444444444e-05,
+      "loss": 0.0003,
       "step": 3005
     },
     {
       "epoch": 10.033333333333333,
-      "grad_norm": 1.120737075805664,
-      "learning_rate": 0.0001331111111111111,
-      "loss": 0.0029,
+      "grad_norm": 0.00120165862608701,
+      "learning_rate": 6.622222222222224e-05,
+      "loss": 0.0003,
       "step": 3010
     },
     {
       "epoch": 10.05,
-      "grad_norm": 4.69635009765625,
-      "learning_rate": 0.000133,
-      "loss": 0.0122,
+      "grad_norm": 0.0015083089238032699,
+      "learning_rate": 6.6e-05,
+      "loss": 0.0003,
       "step": 3015
     },
     {
       "epoch": 10.066666666666666,
-      "grad_norm": 0.017189996317029,
-      "learning_rate": 0.00013288888888888888,
-      "loss": 0.0021,
+      "grad_norm": 0.0012163989013060927,
+      "learning_rate": 6.577777777777779e-05,
+      "loss": 0.0003,
       "step": 3020
     },
     {
       "epoch": 10.083333333333334,
-      "grad_norm": 0.42469900846481323,
-      "learning_rate": 0.00013277777777777778,
-      "loss": 0.0022,
+      "grad_norm": 0.0012580789625644684,
+      "learning_rate": 6.555555555555556e-05,
+      "loss": 0.0003,
       "step": 3025
     },
     {
       "epoch": 10.1,
-      "grad_norm": 0.02446696348488331,
-      "learning_rate": 0.00013266666666666667,
-      "loss": 0.0014,
+      "grad_norm": 0.0012319968082010746,
+      "learning_rate": 6.533333333333334e-05,
+      "loss": 0.0003,
       "step": 3030
     },
     {
       "epoch": 10.116666666666667,
-      "grad_norm": 0.005652728956192732,
-      "learning_rate": 0.00013255555555555557,
-      "loss": 0.0227,
+      "grad_norm": 0.0012067770585417747,
+      "learning_rate": 6.511111111111111e-05,
+      "loss": 0.0003,
       "step": 3035
     },
     {
       "epoch": 10.133333333333333,
-      "grad_norm": 5.11104679107666,
-      "learning_rate": 0.00013244444444444447,
-      "loss": 0.0167,
+      "grad_norm": 0.001497513148933649,
+      "learning_rate": 6.488888888888889e-05,
+      "loss": 0.0003,
       "step": 3040
     },
     {
       "epoch": 10.15,
-      "grad_norm": 0.0030653595458716154,
-      "learning_rate": 0.00013233333333333334,
-      "loss": 0.0019,
+      "grad_norm": 0.0012726489221677184,
+      "learning_rate": 6.466666666666666e-05,
+      "loss": 0.0003,
       "step": 3045
     },
     {
       "epoch": 10.166666666666666,
-      "grad_norm": 0.005747953429818153,
-      "learning_rate": 0.00013222222222222221,
-      "loss": 0.0377,
+      "grad_norm": 0.0021845733281224966,
+      "learning_rate": 6.444444444444446e-05,
+      "loss": 0.0003,
       "step": 3050
     },
     {
       "epoch": 10.183333333333334,
-      "grad_norm": 4.133553981781006,
-      "learning_rate": 0.0001321111111111111,
-      "loss": 0.0347,
+      "grad_norm": 0.0012573804706335068,
+      "learning_rate": 6.422222222222223e-05,
+      "loss": 0.0003,
       "step": 3055
     },
     {
       "epoch": 10.2,
-      "grad_norm": 0.0021964400075376034,
-      "learning_rate": 0.000132,
-      "loss": 0.017,
+      "grad_norm": 0.0012677261838689446,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.0003,
       "step": 3060
     },
     {
       "epoch": 10.216666666666667,
-      "grad_norm": 0.0024710092693567276,
-      "learning_rate": 0.0001318888888888889,
-      "loss": 0.0061,
+      "grad_norm": 0.0013547474518418312,
+      "learning_rate": 6.377777777777778e-05,
+      "loss": 0.0003,
       "step": 3065
     },
     {
       "epoch": 10.233333333333333,
-      "grad_norm": 0.03365384042263031,
-      "learning_rate": 0.00013177777777777778,
-      "loss": 0.001,
+      "grad_norm": 0.0014618139248341322,
+      "learning_rate": 6.355555555555556e-05,
+      "loss": 0.0003,
       "step": 3070
     },
     {
       "epoch": 10.25,
-      "grad_norm": 0.0038394404109567404,
-      "learning_rate": 0.00013166666666666668,
-      "loss": 0.0015,
+      "grad_norm": 0.0013444339856505394,
+      "learning_rate": 6.333333333333333e-05,
+      "loss": 0.0003,
       "step": 3075
     },
     {
       "epoch": 10.266666666666667,
-      "grad_norm": 0.001704901224002242,
-      "learning_rate": 0.00013155555555555558,
-      "loss": 0.0034,
+      "grad_norm": 0.001224585110321641,
+      "learning_rate": 6.311111111111112e-05,
+      "loss": 0.0003,
       "step": 3080
     },
     {
       "epoch": 10.283333333333333,
-      "grad_norm": 0.06235228851437569,
-      "learning_rate": 0.00013144444444444445,
-      "loss": 0.0012,
+      "grad_norm": 0.0012875745305791497,
+      "learning_rate": 6.28888888888889e-05,
+      "loss": 0.0003,
       "step": 3085
     },
     {
       "epoch": 10.3,
-      "grad_norm": 0.0024882310535758734,
-      "learning_rate": 0.00013133333333333332,
-      "loss": 0.0014,
+      "grad_norm": 0.0011786774266511202,
+      "learning_rate": 6.266666666666667e-05,
+      "loss": 0.0003,
       "step": 3090
     },
     {
       "epoch": 10.316666666666666,
-      "grad_norm": 0.004312310367822647,
-      "learning_rate": 0.00013122222222222222,
-      "loss": 0.0025,
+      "grad_norm": 0.0011809630086645484,
+      "learning_rate": 6.244444444444445e-05,
+      "loss": 0.0003,
       "step": 3095
     },
     {
       "epoch": 10.333333333333334,
-      "grad_norm": 0.0018701782682910562,
-      "learning_rate": 0.00013111111111111111,
-      "loss": 0.0006,
+      "grad_norm": 0.0012090777745470405,
+      "learning_rate": 6.222222222222222e-05,
+      "loss": 0.0003,
       "step": 3100
     },
     {
       "epoch": 10.333333333333334,
-      "eval_accuracy": 0.8433333333333334,
-      "eval_f1": 0.8446630058135226,
-      "eval_loss": 1.0484122037887573,
-      "eval_precision": 0.8706871499387724,
-      "eval_recall": 0.8433333333333334,
-      "eval_runtime": 16.402,
-      "eval_samples_per_second": 146.323,
-      "eval_steps_per_second": 18.29,
+      "eval_accuracy": 0.8229166666666666,
+      "eval_f1": 0.8232929171631832,
+      "eval_loss": 1.0535778999328613,
+      "eval_precision": 0.8428141178213524,
+      "eval_recall": 0.8229166666666666,
+      "eval_runtime": 16.1468,
+      "eval_samples_per_second": 148.636,
+      "eval_steps_per_second": 18.58,
       "step": 3100
     },
     {
       "epoch": 10.35,
-      "grad_norm": 0.005032852292060852,
-      "learning_rate": 0.000131,
-      "loss": 0.0006,
+      "grad_norm": 0.0014626936754211783,
+      "learning_rate": 6.2e-05,
+      "loss": 0.0003,
       "step": 3105
     },
     {
       "epoch": 10.366666666666667,
-      "grad_norm": 0.08438866585493088,
-      "learning_rate": 0.0001308888888888889,
-      "loss": 0.0623,
+      "grad_norm": 0.0012622346403077245,
+      "learning_rate": 6.177777777777779e-05,
+      "loss": 0.0003,
       "step": 3110
     },
     {
       "epoch": 10.383333333333333,
-      "grad_norm": 0.06251600384712219,
-      "learning_rate": 0.00013077777777777778,
-      "loss": 0.0008,
+      "grad_norm": 0.0012126830406486988,
+      "learning_rate": 6.155555555555555e-05,
+      "loss": 0.0003,
       "step": 3115
     },
     {
       "epoch": 10.4,
-      "grad_norm": 0.0586080402135849,
-      "learning_rate": 0.00013066666666666668,
-      "loss": 0.0078,
+      "grad_norm": 0.0012099441373720765,
+      "learning_rate": 6.133333333333334e-05,
+      "loss": 0.0003,
       "step": 3120
     },
     {
       "epoch": 10.416666666666666,
-      "grad_norm": 0.006658656056970358,
-      "learning_rate": 0.00013055555555555555,
-      "loss": 0.0095,
+      "grad_norm": 0.001116348896175623,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.0003,
       "step": 3125
     },
     {
       "epoch": 10.433333333333334,
-      "grad_norm": 5.791745185852051,
-      "learning_rate": 0.00013044444444444445,
-      "loss": 0.1118,
+      "grad_norm": 0.0010997578501701355,
+      "learning_rate": 6.08888888888889e-05,
+      "loss": 0.0003,
       "step": 3130
     },
     {
       "epoch": 10.45,
-      "grad_norm": 0.004401494283229113,
-      "learning_rate": 0.00013033333333333332,
-      "loss": 0.0009,
+      "grad_norm": 0.001287137158215046,
+      "learning_rate": 6.066666666666667e-05,
+      "loss": 0.0003,
       "step": 3135
     },
     {
       "epoch": 10.466666666666667,
-      "grad_norm": 0.0022874914575368166,
-      "learning_rate": 0.00013022222222222222,
-      "loss": 0.0185,
+      "grad_norm": 0.0011528626782819629,
+      "learning_rate": 6.044444444444445e-05,
+      "loss": 0.0003,
       "step": 3140
     },
     {
       "epoch": 10.483333333333333,
-      "grad_norm": 3.865443468093872,
-      "learning_rate": 0.00013011111111111112,
-      "loss": 0.0376,
+      "grad_norm": 0.0011705560609698296,
+      "learning_rate": 6.0222222222222225e-05,
+      "loss": 0.0003,
       "step": 3145
     },
     {
       "epoch": 10.5,
-      "grad_norm": 0.0027721410151571035,
-      "learning_rate": 0.00013000000000000002,
-      "loss": 0.005,
+      "grad_norm": 0.001192841213196516,
+      "learning_rate": 6e-05,
+      "loss": 0.0003,
       "step": 3150
     },
     {
       "epoch": 10.516666666666667,
-      "grad_norm": 0.017367303371429443,
-      "learning_rate": 0.00012988888888888891,
-      "loss": 0.0008,
+      "grad_norm": 0.0018158146413043141,
+      "learning_rate": 5.977777777777778e-05,
+      "loss": 0.0003,
       "step": 3155
     },
     {
       "epoch": 10.533333333333333,
-      "grad_norm": 0.7523870468139648,
-      "learning_rate": 0.00012977777777777779,
-      "loss": 0.0037,
+      "grad_norm": 0.0011581690050661564,
+      "learning_rate": 5.9555555555555554e-05,
+      "loss": 0.0003,
       "step": 3160
     },
     {
       "epoch": 10.55,
-      "grad_norm": 0.012842146679759026,
-      "learning_rate": 0.00012966666666666666,
-      "loss": 0.0019,
+      "grad_norm": 0.0010940982028841972,
+      "learning_rate": 5.9333333333333343e-05,
+      "loss": 0.0003,
       "step": 3165
     },
     {
       "epoch": 10.566666666666666,
-      "grad_norm": 0.0022280437406152487,
-      "learning_rate": 0.00012955555555555555,
-      "loss": 0.0006,
+      "grad_norm": 0.0011641662567853928,
+      "learning_rate": 5.911111111111112e-05,
+      "loss": 0.0003,
       "step": 3170
     },
     {
       "epoch": 10.583333333333334,
-      "grad_norm": 0.011129364371299744,
-      "learning_rate": 0.00012944444444444445,
-      "loss": 0.0007,
+      "grad_norm": 0.0020831157453358173,
+      "learning_rate": 5.8888888888888896e-05,
+      "loss": 0.0003,
       "step": 3175
     },
     {
       "epoch": 10.6,
-      "grad_norm": 0.0027514935936778784,
-      "learning_rate": 0.00012933333333333332,
-      "loss": 0.0418,
+      "grad_norm": 0.001108500873669982,
+      "learning_rate": 5.866666666666667e-05,
+      "loss": 0.0003,
       "step": 3180
     },
     {
       "epoch": 10.616666666666667,
-      "grad_norm": 0.037714362144470215,
-      "learning_rate": 0.00012922222222222222,
-      "loss": 0.0012,
+      "grad_norm": 0.0011437841458246112,
+      "learning_rate": 5.844444444444445e-05,
+      "loss": 0.0003,
       "step": 3185
     },
     {
       "epoch": 10.633333333333333,
-      "grad_norm": 0.011000487022101879,
-      "learning_rate": 0.00012911111111111112,
-      "loss": 0.0086,
+      "grad_norm": 0.001127341645769775,
+      "learning_rate": 5.8222222222222224e-05,
+      "loss": 0.0003,
       "step": 3190
     },
     {
       "epoch": 10.65,
-      "grad_norm": 0.01230768021196127,
-      "learning_rate": 0.00012900000000000002,
-      "loss": 0.0607,
+      "grad_norm": 0.0011988459154963493,
+      "learning_rate": 5.8e-05,
+      "loss": 0.0003,
       "step": 3195
     },
     {
       "epoch": 10.666666666666666,
-      "grad_norm": 0.002924771048128605,
-      "learning_rate": 0.00012888888888888892,
-      "loss": 0.0291,
+      "grad_norm": 0.0011538334656506777,
+      "learning_rate": 5.7777777777777776e-05,
+      "loss": 0.0003,
       "step": 3200
     },
     {
       "epoch": 10.666666666666666,
-      "eval_accuracy": 0.8475,
-      "eval_f1": 0.847273915874202,
-      "eval_loss": 0.7565938234329224,
-      "eval_precision": 0.860639706378405,
-      "eval_recall": 0.8475,
-      "eval_runtime": 16.4177,
-      "eval_samples_per_second": 146.184,
-      "eval_steps_per_second": 18.273,
+      "eval_accuracy": 0.8229166666666666,
+      "eval_f1": 0.8234150436905647,
+      "eval_loss": 1.0604647397994995,
+      "eval_precision": 0.8429112605322028,
+      "eval_recall": 0.8229166666666666,
+      "eval_runtime": 16.1744,
+      "eval_samples_per_second": 148.382,
+      "eval_steps_per_second": 18.548,
       "step": 3200
     },
     {
       "epoch": 10.683333333333334,
-      "grad_norm": 0.0030694138258695602,
-      "learning_rate": 0.0001287777777777778,
-      "loss": 0.0135,
+      "grad_norm": 0.0011893869377672672,
+      "learning_rate": 5.755555555555556e-05,
+      "loss": 0.0003,
       "step": 3205
     },
     {
       "epoch": 10.7,
-      "grad_norm": 0.01310473121702671,
-      "learning_rate": 0.00012866666666666666,
-      "loss": 0.0008,
+      "grad_norm": 0.0011279975296929479,
+      "learning_rate": 5.7333333333333336e-05,
+      "loss": 0.0003,
       "step": 3210
     },
     {
       "epoch": 10.716666666666667,
-      "grad_norm": 3.685610771179199,
-      "learning_rate": 0.00012855555555555556,
-      "loss": 0.0208,
+      "grad_norm": 0.0011479031527414918,
+      "learning_rate": 5.711111111111112e-05,
+      "loss": 0.0003,
       "step": 3215
     },
     {
       "epoch": 10.733333333333333,
-      "grad_norm": 0.010308889672160149,
-      "learning_rate": 0.00012844444444444446,
-      "loss": 0.003,
+      "grad_norm": 0.001087042735889554,
+      "learning_rate": 5.6888888888888895e-05,
+      "loss": 0.0003,
       "step": 3220
     },
     {
       "epoch": 10.75,
-      "grad_norm": 0.3047170042991638,
-      "learning_rate": 0.00012833333333333335,
-      "loss": 0.0048,
+      "grad_norm": 0.001129115466028452,
+      "learning_rate": 5.666666666666667e-05,
+      "loss": 0.0003,
       "step": 3225
     },
     {
       "epoch": 10.766666666666667,
-      "grad_norm": 0.0021848841570317745,
-      "learning_rate": 0.00012822222222222222,
-      "loss": 0.058,
+      "grad_norm": 0.0012088987277820706,
+      "learning_rate": 5.644444444444445e-05,
+      "loss": 0.0003,
       "step": 3230
     },
     {
       "epoch": 10.783333333333333,
-      "grad_norm": 0.4298514425754547,
-      "learning_rate": 0.00012811111111111112,
-      "loss": 0.0011,
+      "grad_norm": 0.0010945212561637163,
+      "learning_rate": 5.622222222222222e-05,
+      "loss": 0.0003,
       "step": 3235
     },
     {
       "epoch": 10.8,
-      "grad_norm": 5.36182975769043,
-      "learning_rate": 0.00012800000000000002,
-      "loss": 0.0464,
+      "grad_norm": 0.0011299666948616505,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.0003,
       "step": 3240
     },
     {
       "epoch": 10.816666666666666,
-      "grad_norm": 0.03031322732567787,
-      "learning_rate": 0.0001278888888888889,
-      "loss": 0.0009,
+      "grad_norm": 0.0011260713217779994,
+      "learning_rate": 5.577777777777778e-05,
+      "loss": 0.0003,
       "step": 3245
     },
     {
       "epoch": 10.833333333333334,
-      "grad_norm": 2.8504996299743652,
-      "learning_rate": 0.00012777777777777776,
-      "loss": 0.1037,
+      "grad_norm": 0.001181177794933319,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0003,
       "step": 3250
     },
     {
       "epoch": 10.85,
-      "grad_norm": 0.058789223432540894,
-      "learning_rate": 0.00012766666666666666,
-      "loss": 0.0008,
+      "grad_norm": 0.001052678795531392,
+      "learning_rate": 5.5333333333333334e-05,
+      "loss": 0.0003,
       "step": 3255
     },
     {
       "epoch": 10.866666666666667,
-      "grad_norm": 0.0024002608843147755,
-      "learning_rate": 0.00012755555555555556,
-      "loss": 0.0035,
+      "grad_norm": 0.0011460294481366873,
+      "learning_rate": 5.511111111111111e-05,
+      "loss": 0.0003,
       "step": 3260
     },
     {
       "epoch": 10.883333333333333,
-      "grad_norm": 0.003112984588369727,
-      "learning_rate": 0.00012744444444444446,
-      "loss": 0.0073,
+      "grad_norm": 0.0010628080926835537,
+      "learning_rate": 5.488888888888889e-05,
+      "loss": 0.0003,
       "step": 3265
     },
     {
       "epoch": 10.9,
-      "grad_norm": 0.007087992038577795,
-      "learning_rate": 0.00012733333333333336,
-      "loss": 0.0177,
+      "grad_norm": 0.0011463587870821357,
+      "learning_rate": 5.466666666666666e-05,
+      "loss": 0.0003,
       "step": 3270
     },
     {
       "epoch": 10.916666666666666,
-      "grad_norm": 0.01676088385283947,
-      "learning_rate": 0.00012722222222222223,
-      "loss": 0.0505,
+      "grad_norm": 0.001158402068540454,
+      "learning_rate": 5.4444444444444446e-05,
+      "loss": 0.0003,
       "step": 3275
     },
     {
       "epoch": 10.933333333333334,
-      "grad_norm": 0.0031650334130972624,
-      "learning_rate": 0.00012711111111111113,
-      "loss": 0.0321,
+      "grad_norm": 0.001134671620093286,
+      "learning_rate": 5.422222222222223e-05,
+      "loss": 0.0003,
       "step": 3280
     },
     {
       "epoch": 10.95,
-      "grad_norm": 0.006751966662704945,
-      "learning_rate": 0.000127,
-      "loss": 0.0033,
+      "grad_norm": 0.0011160625144839287,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.0003,
       "step": 3285
     },
     {
       "epoch": 10.966666666666667,
-      "grad_norm": 0.0028243011329323053,
-      "learning_rate": 0.0001268888888888889,
-      "loss": 0.0492,
+      "grad_norm": 0.0011388997081667185,
+      "learning_rate": 5.377777777777778e-05,
+      "loss": 0.0003,
       "step": 3290
     },
     {
       "epoch": 10.983333333333333,
-      "grad_norm": 0.017750203609466553,
-      "learning_rate": 0.00012677777777777777,
-      "loss": 0.0028,
+      "grad_norm": 0.0011283744825050235,
+      "learning_rate": 5.355555555555556e-05,
+      "loss": 0.0003,
       "step": 3295
     },
     {
       "epoch": 11.0,
-      "grad_norm": 6.92876672744751,
-      "learning_rate": 0.00012666666666666666,
-      "loss": 0.0381,
+      "grad_norm": 0.0013243857538327575,
+      "learning_rate": 5.333333333333333e-05,
+      "loss": 0.0003,
       "step": 3300
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.8495833333333334,
-      "eval_f1": 0.8499147188652664,
-      "eval_loss": 0.8844965696334839,
-      "eval_precision": 0.8735749958604834,
-      "eval_recall": 0.8495833333333334,
-      "eval_runtime": 16.4696,
-      "eval_samples_per_second": 145.723,
-      "eval_steps_per_second": 18.215,
+      "eval_accuracy": 0.8229166666666666,
+      "eval_f1": 0.8234254122343189,
+      "eval_loss": 1.066739559173584,
+      "eval_precision": 0.8428892479257427,
+      "eval_recall": 0.8229166666666666,
+      "eval_runtime": 16.2208,
+      "eval_samples_per_second": 147.959,
+      "eval_steps_per_second": 18.495,
       "step": 3300
     },
     {
       "epoch": 11.016666666666667,
-      "grad_norm": 0.003936965949833393,
-      "learning_rate": 0.00012655555555555556,
-      "loss": 0.0137,
+      "grad_norm": 0.0010209716856479645,
+      "learning_rate": 5.311111111111111e-05,
+      "loss": 0.0003,
       "step": 3305
     },
     {
       "epoch": 11.033333333333333,
-      "grad_norm": 0.03111075796186924,
-      "learning_rate": 0.00012644444444444446,
-      "loss": 0.0215,
+      "grad_norm": 0.0010844237403944135,
+      "learning_rate": 5.2888888888888885e-05,
+      "loss": 0.0003,
       "step": 3310
     },
     {
       "epoch": 11.05,
-      "grad_norm": 2.4439704418182373,
-      "learning_rate": 0.00012633333333333336,
-      "loss": 0.0356,
+      "grad_norm": 0.0011187931522727013,
+      "learning_rate": 5.266666666666666e-05,
+      "loss": 0.0003,
       "step": 3315
     },
     {
       "epoch": 11.066666666666666,
-      "grad_norm": 0.03321113809943199,
-      "learning_rate": 0.00012622222222222223,
-      "loss": 0.0009,
+      "grad_norm": 0.001078811357729137,
+      "learning_rate": 5.244444444444445e-05,
+      "loss": 0.0003,
       "step": 3320
     },
     {
       "epoch": 11.083333333333334,
-      "grad_norm": 0.01358803827315569,
-      "learning_rate": 0.0001261111111111111,
-      "loss": 0.005,
+      "grad_norm": 0.001145863439887762,
+      "learning_rate": 5.222222222222223e-05,
+      "loss": 0.0003,
       "step": 3325
     },
     {
       "epoch": 11.1,
-      "grad_norm": 4.2657470703125,
-      "learning_rate": 0.000126,
-      "loss": 0.017,
+      "grad_norm": 0.001140416832640767,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.0003,
       "step": 3330
     },
     {
       "epoch": 11.116666666666667,
-      "grad_norm": 0.003020117525011301,
-      "learning_rate": 0.0001258888888888889,
-      "loss": 0.0026,
+      "grad_norm": 0.0010497266193851829,
+      "learning_rate": 5.177777777777778e-05,
+      "loss": 0.0003,
       "step": 3335
     },
     {
       "epoch": 11.133333333333333,
-      "grad_norm": 0.04301142320036888,
-      "learning_rate": 0.0001257777777777778,
-      "loss": 0.0015,
+      "grad_norm": 0.0010120444931089878,
+      "learning_rate": 5.1555555555555556e-05,
+      "loss": 0.0003,
       "step": 3340
     },
     {
       "epoch": 11.15,
-      "grad_norm": 0.005632729269564152,
-      "learning_rate": 0.00012566666666666667,
-      "loss": 0.0247,
+      "grad_norm": 0.001234417431987822,
+      "learning_rate": 5.133333333333333e-05,
+      "loss": 0.0003,
       "step": 3345
     },
     {
       "epoch": 11.166666666666666,
-      "grad_norm": 0.09856072813272476,
-      "learning_rate": 0.00012555555555555557,
-      "loss": 0.0008,
+      "grad_norm": 0.0016579917864874005,
+      "learning_rate": 5.111111111111111e-05,
+      "loss": 0.0003,
       "step": 3350
     },
     {
       "epoch": 11.183333333333334,
-      "grad_norm": 5.7037034034729,
-      "learning_rate": 0.00012544444444444446,
-      "loss": 0.0337,
+      "grad_norm": 0.0010375332785770297,
+      "learning_rate": 5.0888888888888884e-05,
+      "loss": 0.0003,
       "step": 3355
     },
     {
       "epoch": 11.2,
-      "grad_norm": 0.0052301473915576935,
-      "learning_rate": 0.00012533333333333334,
-      "loss": 0.0008,
+      "grad_norm": 0.0010682027786970139,
+      "learning_rate": 5.0666666666666674e-05,
+      "loss": 0.0003,
       "step": 3360
     },
     {
       "epoch": 11.216666666666667,
-      "grad_norm": 0.03294184431433678,
-      "learning_rate": 0.0001252222222222222,
-      "loss": 0.0016,
+      "grad_norm": 0.001105083036236465,
+      "learning_rate": 5.044444444444445e-05,
+      "loss": 0.0003,
       "step": 3365
     },
     {
       "epoch": 11.233333333333333,
-      "grad_norm": 0.02187947928905487,
-      "learning_rate": 0.0001251111111111111,
-      "loss": 0.0008,
+      "grad_norm": 0.001123164314776659,
+      "learning_rate": 5.0222222222222226e-05,
+      "loss": 0.0003,
       "step": 3370
     },
     {
       "epoch": 11.25,
-      "grad_norm": 0.04761303588747978,
-      "learning_rate": 0.000125,
-      "loss": 0.0009,
+      "grad_norm": 0.0010376630816608667,
+      "learning_rate": 5e-05,
+      "loss": 0.0003,
       "step": 3375
     },
     {
       "epoch": 11.266666666666667,
-      "grad_norm": 0.002532374579459429,
-      "learning_rate": 0.0001248888888888889,
-      "loss": 0.0005,
+      "grad_norm": 0.001307243830524385,
+      "learning_rate": 4.977777777777778e-05,
+      "loss": 0.0003,
       "step": 3380
     },
     {
       "epoch": 11.283333333333333,
-      "grad_norm": 0.002213146071881056,
-      "learning_rate": 0.0001247777777777778,
-      "loss": 0.0133,
+      "grad_norm": 0.0010514870518818498,
+      "learning_rate": 4.955555555555556e-05,
+      "loss": 0.0003,
       "step": 3385
     },
     {
       "epoch": 11.3,
-      "grad_norm": 0.0021498173009604216,
-      "learning_rate": 0.00012466666666666667,
-      "loss": 0.0014,
+      "grad_norm": 0.0010323934257030487,
+      "learning_rate": 4.933333333333334e-05,
+      "loss": 0.0003,
       "step": 3390
     },
     {
       "epoch": 11.316666666666666,
-      "grad_norm": 0.0019711016211658716,
-      "learning_rate": 0.00012455555555555557,
-      "loss": 0.0005,
+      "grad_norm": 0.0009983570780605078,
+      "learning_rate": 4.9111111111111114e-05,
+      "loss": 0.0003,
       "step": 3395
     },
     {
       "epoch": 11.333333333333334,
-      "grad_norm": 0.0019320246065035462,
-      "learning_rate": 0.00012444444444444444,
-      "loss": 0.0004,
+      "grad_norm": 0.001139927888289094,
+      "learning_rate": 4.888888888888889e-05,
+      "loss": 0.0002,
       "step": 3400
     },
     {
       "epoch": 11.333333333333334,
-      "eval_accuracy": 0.8766666666666667,
-      "eval_f1": 0.8796211020950767,
-      "eval_loss": 0.5031188130378723,
-      "eval_precision": 0.890443244037547,
-      "eval_recall": 0.8766666666666667,
-      "eval_runtime": 16.403,
-      "eval_samples_per_second": 146.315,
-      "eval_steps_per_second": 18.289,
+      "eval_accuracy": 0.82375,
+      "eval_f1": 0.8242540593318951,
+      "eval_loss": 1.071115493774414,
+      "eval_precision": 0.8436316302595999,
+      "eval_recall": 0.82375,
+      "eval_runtime": 16.1606,
+      "eval_samples_per_second": 148.509,
+      "eval_steps_per_second": 18.564,
       "step": 3400
     },
     {
       "epoch": 11.35,
-      "grad_norm": 0.0018348570447415113,
-      "learning_rate": 0.00012433333333333334,
-      "loss": 0.0005,
+      "grad_norm": 0.001095398678444326,
+      "learning_rate": 4.866666666666667e-05,
+      "loss": 0.0003,
       "step": 3405
     },
     {
       "epoch": 11.366666666666667,
-      "grad_norm": 0.00232733809389174,
-      "learning_rate": 0.0001242222222222222,
-      "loss": 0.0009,
+      "grad_norm": 0.0010764299659058452,
+      "learning_rate": 4.844444444444445e-05,
+      "loss": 0.0003,
       "step": 3410
     },
     {
       "epoch": 11.383333333333333,
-      "grad_norm": 0.002548550721257925,
-      "learning_rate": 0.0001241111111111111,
-      "loss": 0.0005,
+      "grad_norm": 0.002229253761470318,
+      "learning_rate": 4.8222222222222225e-05,
+      "loss": 0.0003,
       "step": 3415
     },
     {
       "epoch": 11.4,
-      "grad_norm": 0.001666440162807703,
-      "learning_rate": 0.000124,
-      "loss": 0.0005,
+      "grad_norm": 0.001123200636357069,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0003,
       "step": 3420
     },
     {
       "epoch": 11.416666666666666,
-      "grad_norm": 0.002285932656377554,
-      "learning_rate": 0.0001238888888888889,
-      "loss": 0.0005,
+      "grad_norm": 0.001161285792477429,
+      "learning_rate": 4.7777777777777784e-05,
+      "loss": 0.0003,
       "step": 3425
     },
     {
       "epoch": 11.433333333333334,
-      "grad_norm": 0.0062283603474497795,
-      "learning_rate": 0.0001237777777777778,
-      "loss": 0.0004,
+      "grad_norm": 0.001057513989508152,
+      "learning_rate": 4.755555555555556e-05,
+      "loss": 0.0002,
       "step": 3430
     },
     {
       "epoch": 11.45,
-      "grad_norm": 0.002072214614599943,
-      "learning_rate": 0.00012366666666666667,
-      "loss": 0.0014,
+      "grad_norm": 0.0015073309186846018,
+      "learning_rate": 4.7333333333333336e-05,
+      "loss": 0.0003,
       "step": 3435
     },
     {
       "epoch": 11.466666666666667,
-      "grad_norm": 0.0014418592909350991,
-      "learning_rate": 0.00012355555555555557,
-      "loss": 0.002,
+      "grad_norm": 0.001460050349123776,
+      "learning_rate": 4.711111111111111e-05,
+      "loss": 0.0003,
       "step": 3440
     },
     {
       "epoch": 11.483333333333333,
-      "grad_norm": 0.0022575506009161472,
-      "learning_rate": 0.00012344444444444444,
-      "loss": 0.0004,
+      "grad_norm": 0.0011347598629072309,
+      "learning_rate": 4.6888888888888895e-05,
+      "loss": 0.0003,
       "step": 3445
     },
     {
       "epoch": 11.5,
-      "grad_norm": 0.001715444610454142,
-      "learning_rate": 0.00012333333333333334,
-      "loss": 0.0004,
+      "grad_norm": 0.0010017537279054523,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 0.0003,
       "step": 3450
     },
     {
       "epoch": 11.516666666666667,
-      "grad_norm": 0.0018324055708944798,
-      "learning_rate": 0.00012322222222222224,
-      "loss": 0.0496,
+      "grad_norm": 0.0013595032505691051,
+      "learning_rate": 4.644444444444445e-05,
+      "loss": 0.0003,
       "step": 3455
     },
     {
       "epoch": 11.533333333333333,
-      "grad_norm": 0.0016769124194979668,
-      "learning_rate": 0.0001231111111111111,
-      "loss": 0.0131,
+      "grad_norm": 0.0010035188170149922,
+      "learning_rate": 4.6222222222222224e-05,
+      "loss": 0.0002,
       "step": 3460
     },
     {
       "epoch": 11.55,
-      "grad_norm": 0.0020876601338386536,
-      "learning_rate": 0.000123,
-      "loss": 0.0362,
+      "grad_norm": 0.0009602317586541176,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0002,
       "step": 3465
     },
     {
       "epoch": 11.566666666666666,
-      "grad_norm": 0.09268075972795486,
-      "learning_rate": 0.0001228888888888889,
-      "loss": 0.0017,
+      "grad_norm": 0.0010560882510617375,
+      "learning_rate": 4.577777777777778e-05,
+      "loss": 0.0002,
       "step": 3470
     },
     {
       "epoch": 11.583333333333334,
-      "grad_norm": 0.06659951061010361,
-      "learning_rate": 0.0001227777777777778,
-      "loss": 0.0009,
+      "grad_norm": 0.0011481407564133406,
+      "learning_rate": 4.555555555555556e-05,
+      "loss": 0.0002,
       "step": 3475
     },
     {
       "epoch": 11.6,
-      "grad_norm": 0.0015468542696908116,
-      "learning_rate": 0.00012266666666666668,
-      "loss": 0.0028,
+      "grad_norm": 0.0009703555842861533,
+      "learning_rate": 4.5333333333333335e-05,
+      "loss": 0.0002,
       "step": 3480
     },
     {
       "epoch": 11.616666666666667,
-      "grad_norm": 0.0016447785310447216,
-      "learning_rate": 0.00012255555555555555,
-      "loss": 0.0008,
+      "grad_norm": 0.001077459310181439,
+      "learning_rate": 4.511111111111112e-05,
+      "loss": 0.0002,
       "step": 3485
     },
     {
       "epoch": 11.633333333333333,
-      "grad_norm": 0.0016294143861159682,
-      "learning_rate": 0.00012244444444444445,
-      "loss": 0.0049,
+      "grad_norm": 0.0010155506897717714,
+      "learning_rate": 4.4888888888888894e-05,
+      "loss": 0.0002,
       "step": 3490
     },
     {
       "epoch": 11.65,
-      "grad_norm": 0.005532711278647184,
-      "learning_rate": 0.00012233333333333334,
-      "loss": 0.0571,
+      "grad_norm": 0.0009485118207521737,
+      "learning_rate": 4.466666666666667e-05,
+      "loss": 0.0002,
       "step": 3495
     },
     {
       "epoch": 11.666666666666666,
-      "grad_norm": 0.002438447205349803,
-      "learning_rate": 0.00012222222222222224,
-      "loss": 0.0237,
+      "grad_norm": 0.0009584659128449857,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0002,
       "step": 3500
     },
     {
       "epoch": 11.666666666666666,
-      "eval_accuracy": 0.84375,
-      "eval_f1": 0.8496935440936948,
-      "eval_loss": 0.7362565398216248,
-      "eval_precision": 0.8639324284614791,
-      "eval_recall": 0.84375,
-      "eval_runtime": 16.3131,
-      "eval_samples_per_second": 147.121,
-      "eval_steps_per_second": 18.39,
+      "eval_accuracy": 0.8245833333333333,
+      "eval_f1": 0.8250917696172906,
+      "eval_loss": 1.0750116109848022,
+      "eval_precision": 0.8441252709594841,
+      "eval_recall": 0.8245833333333333,
+      "eval_runtime": 16.036,
+      "eval_samples_per_second": 149.663,
+      "eval_steps_per_second": 18.708,
       "step": 3500
     },
     {
       "epoch": 11.683333333333334,
-      "grad_norm": 0.005051767453551292,
-      "learning_rate": 0.0001221111111111111,
-      "loss": 0.0012,
+      "grad_norm": 0.001023426535539329,
+      "learning_rate": 4.422222222222222e-05,
+      "loss": 0.0002,
       "step": 3505
     },
     {
       "epoch": 11.7,
-      "grad_norm": 0.007528571877628565,
-      "learning_rate": 0.000122,
-      "loss": 0.0031,
+      "grad_norm": 0.0009891815716400743,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0002,
       "step": 3510
     },
     {
       "epoch": 11.716666666666667,
-      "grad_norm": 0.06755325943231583,
-      "learning_rate": 0.0001218888888888889,
-      "loss": 0.001,
+      "grad_norm": 0.0009777439991012216,
+      "learning_rate": 4.377777777777778e-05,
+      "loss": 0.0002,
       "step": 3515
     },
     {
       "epoch": 11.733333333333333,
-      "grad_norm": 0.07226196676492691,
-      "learning_rate": 0.0001217777777777778,
-      "loss": 0.0008,
+      "grad_norm": 0.0009470573859289289,
+      "learning_rate": 4.355555555555556e-05,
+      "loss": 0.0002,
       "step": 3520
     },
     {
       "epoch": 11.75,
-      "grad_norm": 0.006411743350327015,
-      "learning_rate": 0.00012166666666666667,
-      "loss": 0.0034,
+      "grad_norm": 0.0010164746781811118,
+      "learning_rate": 4.3333333333333334e-05,
+      "loss": 0.0002,
       "step": 3525
     },
     {
       "epoch": 11.766666666666667,
-      "grad_norm": 0.005936475470662117,
-      "learning_rate": 0.00012155555555555555,
-      "loss": 0.0006,
+      "grad_norm": 0.0010477656032890081,
+      "learning_rate": 4.311111111111111e-05,
+      "loss": 0.0002,
       "step": 3530
     },
     {
       "epoch": 11.783333333333333,
-      "grad_norm": 0.0029445281252264977,
-      "learning_rate": 0.00012144444444444445,
-      "loss": 0.0006,
+      "grad_norm": 0.0009475238621234894,
+      "learning_rate": 4.2888888888888886e-05,
+      "loss": 0.0002,
       "step": 3535
     },
     {
       "epoch": 11.8,
-      "grad_norm": 0.0029235887341201305,
-      "learning_rate": 0.00012133333333333335,
-      "loss": 0.0005,
+      "grad_norm": 0.000989060034044087,
+      "learning_rate": 4.266666666666667e-05,
+      "loss": 0.0002,
       "step": 3540
     },
     {
       "epoch": 11.816666666666666,
-      "grad_norm": 0.011982815340161324,
-      "learning_rate": 0.00012122222222222223,
-      "loss": 0.0005,
+      "grad_norm": 0.00100313953589648,
+      "learning_rate": 4.2444444444444445e-05,
+      "loss": 0.0002,
       "step": 3545
     },
     {
       "epoch": 11.833333333333334,
-      "grad_norm": 0.0021216070745140314,
-      "learning_rate": 0.0001211111111111111,
-      "loss": 0.0015,
+      "grad_norm": 0.001019208342768252,
+      "learning_rate": 4.222222222222222e-05,
+      "loss": 0.0002,
       "step": 3550
     },
     {
       "epoch": 11.85,
-      "grad_norm": 0.05128023028373718,
-      "learning_rate": 0.000121,
-      "loss": 0.0006,
+      "grad_norm": 0.0009714317275211215,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0002,
       "step": 3555
     },
     {
       "epoch": 11.866666666666667,
-      "grad_norm": 0.0021100989542901516,
-      "learning_rate": 0.0001208888888888889,
-      "loss": 0.0005,
+      "grad_norm": 0.0009354642825201154,
+      "learning_rate": 4.177777777777778e-05,
+      "loss": 0.0002,
       "step": 3560
     },
     {
       "epoch": 11.883333333333333,
-      "grad_norm": 0.0026339164469391108,
-      "learning_rate": 0.00012077777777777778,
-      "loss": 0.0008,
+      "grad_norm": 0.0009658602648414671,
+      "learning_rate": 4.155555555555556e-05,
+      "loss": 0.0002,
       "step": 3565
     },
     {
       "epoch": 11.9,
-      "grad_norm": 0.0016842600889503956,
-      "learning_rate": 0.00012066666666666668,
-      "loss": 0.0006,
+      "grad_norm": 0.0009628900443203747,
+      "learning_rate": 4.133333333333333e-05,
+      "loss": 0.0002,
       "step": 3570
     },
     {
       "epoch": 11.916666666666666,
-      "grad_norm": 0.01689351722598076,
-      "learning_rate": 0.00012055555555555555,
-      "loss": 0.0378,
+      "grad_norm": 0.001019063638523221,
+      "learning_rate": 4.111111111111111e-05,
+      "loss": 0.0002,
       "step": 3575
     },
     {
       "epoch": 11.933333333333334,
-      "grad_norm": 0.0016014392022043467,
-      "learning_rate": 0.00012044444444444445,
-      "loss": 0.0364,
+      "grad_norm": 0.0008965663728304207,
+      "learning_rate": 4.088888888888889e-05,
+      "loss": 0.0002,
       "step": 3580
     },
     {
       "epoch": 11.95,
-      "grad_norm": 1.5635490417480469,
-      "learning_rate": 0.00012033333333333335,
-      "loss": 0.0258,
+      "grad_norm": 0.0009232118027284741,
+      "learning_rate": 4.066666666666667e-05,
+      "loss": 0.0002,
       "step": 3585
     },
     {
       "epoch": 11.966666666666667,
-      "grad_norm": 0.02634459361433983,
-      "learning_rate": 0.00012022222222222223,
-      "loss": 0.0009,
+      "grad_norm": 0.0009745347197167575,
+      "learning_rate": 4.0444444444444444e-05,
+      "loss": 0.0002,
       "step": 3590
     },
     {
       "epoch": 11.983333333333333,
-      "grad_norm": 0.027317289263010025,
-      "learning_rate": 0.0001201111111111111,
-      "loss": 0.0014,
+      "grad_norm": 0.0009313573827967048,
+      "learning_rate": 4.022222222222222e-05,
+      "loss": 0.0002,
       "step": 3595
     },
     {
       "epoch": 12.0,
-      "grad_norm": 0.6779407262802124,
-      "learning_rate": 0.00012,
-      "loss": 0.0091,
+      "grad_norm": 0.0008985653985291719,
+      "learning_rate": 4e-05,
+      "loss": 0.0002,
       "step": 3600
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.84,
-      "eval_f1": 0.8418068124755962,
-      "eval_loss": 0.804792046546936,
-      "eval_precision": 0.8454934079705146,
-      "eval_recall": 0.84,
-      "eval_runtime": 16.4375,
-      "eval_samples_per_second": 146.008,
-      "eval_steps_per_second": 18.251,
+      "eval_accuracy": 0.825,
+      "eval_f1": 0.825717838344821,
+      "eval_loss": 1.080410122871399,
+      "eval_precision": 0.8443250031183468,
+      "eval_recall": 0.825,
+      "eval_runtime": 16.1788,
+      "eval_samples_per_second": 148.343,
+      "eval_steps_per_second": 18.543,
       "step": 3600
     },
     {
       "epoch": 12.016666666666667,
-      "grad_norm": 0.0016628989251330495,
-      "learning_rate": 0.0001198888888888889,
-      "loss": 0.0018,
+      "grad_norm": 0.0010198820382356644,
+      "learning_rate": 3.977777777777778e-05,
+      "loss": 0.0002,
       "step": 3605
     },
     {
       "epoch": 12.033333333333333,
-      "grad_norm": 0.33100393414497375,
-      "learning_rate": 0.00011977777777777779,
-      "loss": 0.0009,
+      "grad_norm": 0.0009462315938435495,
+      "learning_rate": 3.9555555555555556e-05,
+      "loss": 0.0002,
       "step": 3610
     },
     {
       "epoch": 12.05,
-      "grad_norm": 0.0020524028223007917,
-      "learning_rate": 0.00011966666666666668,
-      "loss": 0.0004,
+      "grad_norm": 0.0009798554237931967,
+      "learning_rate": 3.933333333333333e-05,
+      "loss": 0.0002,
       "step": 3615
     },
     {
       "epoch": 12.066666666666666,
-      "grad_norm": 0.001767252804711461,
-      "learning_rate": 0.00011955555555555556,
-      "loss": 0.045,
+      "grad_norm": 0.0009488945943303406,
+      "learning_rate": 3.9111111111111115e-05,
+      "loss": 0.0002,
       "step": 3620
     },
     {
       "epoch": 12.083333333333334,
-      "grad_norm": 2.633908987045288,
-      "learning_rate": 0.00011944444444444445,
-      "loss": 0.0057,
+      "grad_norm": 0.0009590586996637285,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.0002,
       "step": 3625
     },
     {
       "epoch": 12.1,
-      "grad_norm": 0.0036698703188449144,
-      "learning_rate": 0.00011933333333333334,
-      "loss": 0.0044,
+      "grad_norm": 0.0010122099192813039,
+      "learning_rate": 3.866666666666667e-05,
+      "loss": 0.0002,
       "step": 3630
     },
     {
       "epoch": 12.116666666666667,
-      "grad_norm": 0.0020075407810509205,
-      "learning_rate": 0.00011922222222222224,
-      "loss": 0.002,
+      "grad_norm": 0.000985791441053152,
+      "learning_rate": 3.844444444444444e-05,
+      "loss": 0.0002,
       "step": 3635
     },
     {
       "epoch": 12.133333333333333,
-      "grad_norm": 0.0018214501906186342,
-      "learning_rate": 0.00011911111111111111,
-      "loss": 0.0004,
+      "grad_norm": 0.0010135495103895664,
+      "learning_rate": 3.8222222222222226e-05,
+      "loss": 0.0002,
       "step": 3640
     },
     {
       "epoch": 12.15,
-      "grad_norm": 0.0019067685352638364,
-      "learning_rate": 0.000119,
-      "loss": 0.0004,
+      "grad_norm": 0.0009662476368248463,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0002,
       "step": 3645
     },
     {
       "epoch": 12.166666666666666,
-      "grad_norm": 0.002069906098768115,
-      "learning_rate": 0.00011888888888888889,
-      "loss": 0.0095,
+      "grad_norm": 0.0009176658932119608,
+      "learning_rate": 3.777777777777778e-05,
+      "loss": 0.0002,
       "step": 3650
     },
     {
       "epoch": 12.183333333333334,
-      "grad_norm": 0.0024852773640304804,
-      "learning_rate": 0.00011877777777777779,
-      "loss": 0.0004,
+      "grad_norm": 0.0008892506593838334,
+      "learning_rate": 3.7555555555555554e-05,
+      "loss": 0.0002,
       "step": 3655
     },
     {
       "epoch": 12.2,
-      "grad_norm": 9.604182243347168,
-      "learning_rate": 0.00011866666666666669,
-      "loss": 0.0188,
+      "grad_norm": 0.0010145674459636211,
+      "learning_rate": 3.733333333333334e-05,
+      "loss": 0.0002,
       "step": 3660
     },
     {
       "epoch": 12.216666666666667,
-      "grad_norm": 2.104646921157837,
-      "learning_rate": 0.00011855555555555556,
-      "loss": 0.0389,
+      "grad_norm": 0.0012200063792988658,
+      "learning_rate": 3.7111111111111113e-05,
+      "loss": 0.0002,
       "step": 3665
     },
     {
       "epoch": 12.233333333333333,
-      "grad_norm": 0.7446481585502625,
-      "learning_rate": 0.00011844444444444444,
-      "loss": 0.0021,
+      "grad_norm": 0.0009412114159204066,
+      "learning_rate": 3.688888888888889e-05,
+      "loss": 0.0002,
       "step": 3670
     },
     {
       "epoch": 12.25,
-      "grad_norm": 0.03771788626909256,
-      "learning_rate": 0.00011833333333333334,
-      "loss": 0.0024,
+      "grad_norm": 0.0009575862786732614,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 0.0002,
       "step": 3675
     },
     {
       "epoch": 12.266666666666667,
-      "grad_norm": 13.72928524017334,
-      "learning_rate": 0.00011822222222222224,
-      "loss": 0.0165,
+      "grad_norm": 0.000991379376500845,
+      "learning_rate": 3.644444444444445e-05,
+      "loss": 0.0002,
       "step": 3680
     },
     {
       "epoch": 12.283333333333333,
-      "grad_norm": 0.001726761693134904,
-      "learning_rate": 0.00011811111111111111,
-      "loss": 0.0007,
+      "grad_norm": 0.0009558075689710677,
+      "learning_rate": 3.6222222222222225e-05,
+      "loss": 0.0002,
       "step": 3685
     },
     {
       "epoch": 12.3,
-      "grad_norm": 0.001717666513286531,
-      "learning_rate": 0.000118,
-      "loss": 0.0004,
+      "grad_norm": 0.0010733663802966475,
+      "learning_rate": 3.6e-05,
+      "loss": 0.0002,
       "step": 3690
     },
     {
       "epoch": 12.316666666666666,
-      "grad_norm": 0.262983500957489,
-      "learning_rate": 0.0001178888888888889,
-      "loss": 0.0007,
+      "grad_norm": 0.0009840013226494193,
+      "learning_rate": 3.577777777777778e-05,
+      "loss": 0.0002,
       "step": 3695
     },
     {
       "epoch": 12.333333333333334,
-      "grad_norm": 0.010516014881432056,
-      "learning_rate": 0.00011777777777777779,
-      "loss": 0.0161,
+      "grad_norm": 0.0009803380817174911,
+      "learning_rate": 3.555555555555556e-05,
+      "loss": 0.0002,
       "step": 3700
     },
     {
       "epoch": 12.333333333333334,
-      "eval_accuracy": 0.8333333333333334,
-      "eval_f1": 0.8377065438724984,
-      "eval_loss": 0.8593041896820068,
-      "eval_precision": 0.8518478915166444,
-      "eval_recall": 0.8333333333333334,
-      "eval_runtime": 16.2146,
-      "eval_samples_per_second": 148.015,
-      "eval_steps_per_second": 18.502,
+      "eval_accuracy": 0.825,
+      "eval_f1": 0.8256688865367663,
+      "eval_loss": 1.0838724374771118,
+      "eval_precision": 0.8439715540502706,
+      "eval_recall": 0.825,
+      "eval_runtime": 16.2751,
+      "eval_samples_per_second": 147.464,
+      "eval_steps_per_second": 18.433,
       "step": 3700
     },
     {
       "epoch": 12.35,
-      "grad_norm": 0.0019110937137156725,
-      "learning_rate": 0.00011766666666666668,
-      "loss": 0.0004,
+      "grad_norm": 0.0008731271955184639,
+      "learning_rate": 3.5333333333333336e-05,
+      "loss": 0.0002,
       "step": 3705
     },
     {
       "epoch": 12.366666666666667,
-      "grad_norm": 0.0034273462370038033,
-      "learning_rate": 0.00011755555555555555,
-      "loss": 0.0004,
+      "grad_norm": 0.0008993327501229942,
+      "learning_rate": 3.511111111111111e-05,
+      "loss": 0.0002,
       "step": 3710
     },
     {
       "epoch": 12.383333333333333,
-      "grad_norm": 9.240645408630371,
-      "learning_rate": 0.00011744444444444445,
-      "loss": 0.0165,
+      "grad_norm": 0.0008738188189454377,
+      "learning_rate": 3.4888888888888895e-05,
+      "loss": 0.0002,
       "step": 3715
     },
     {
       "epoch": 12.4,
-      "grad_norm": 0.003429051721468568,
-      "learning_rate": 0.00011733333333333334,
-      "loss": 0.0005,
+      "grad_norm": 0.0008783842204138637,
+      "learning_rate": 3.466666666666667e-05,
+      "loss": 0.0002,
       "step": 3720
     },
     {
       "epoch": 12.416666666666666,
-      "grad_norm": 0.0014275041176006198,
-      "learning_rate": 0.00011722222222222223,
-      "loss": 0.0004,
+      "grad_norm": 0.0009066717466339469,
+      "learning_rate": 3.444444444444445e-05,
+      "loss": 0.0002,
       "step": 3725
     },
     {
       "epoch": 12.433333333333334,
-      "grad_norm": 0.001430855947546661,
-      "learning_rate": 0.00011711111111111113,
-      "loss": 0.0003,
+      "grad_norm": 0.0009696232154965401,
+      "learning_rate": 3.4222222222222224e-05,
+      "loss": 0.0002,
       "step": 3730
     },
     {
       "epoch": 12.45,
-      "grad_norm": 0.0022639541421085596,
-      "learning_rate": 0.000117,
-      "loss": 0.0004,
+      "grad_norm": 0.0009064245386980474,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0002,
       "step": 3735
     },
     {
       "epoch": 12.466666666666667,
-      "grad_norm": 0.0016214401694014668,
-      "learning_rate": 0.0001168888888888889,
-      "loss": 0.0003,
+      "grad_norm": 0.000978025607764721,
+      "learning_rate": 3.377777777777778e-05,
+      "loss": 0.0002,
       "step": 3740
     },
     {
       "epoch": 12.483333333333333,
-      "grad_norm": 0.0012897223932668567,
-      "learning_rate": 0.00011677777777777778,
-      "loss": 0.0004,
+      "grad_norm": 0.0009780435357242823,
+      "learning_rate": 3.355555555555556e-05,
+      "loss": 0.0002,
       "step": 3745
     },
     {
       "epoch": 12.5,
-      "grad_norm": 0.0018359068781137466,
-      "learning_rate": 0.00011666666666666668,
-      "loss": 0.0262,
+      "grad_norm": 0.000990138971246779,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0002,
       "step": 3750
     },
     {
       "epoch": 12.516666666666667,
-      "grad_norm": 0.0020773480646312237,
-      "learning_rate": 0.00011655555555555555,
-      "loss": 0.0477,
+      "grad_norm": 0.0011121403658762574,
+      "learning_rate": 3.311111111111112e-05,
+      "loss": 0.0002,
       "step": 3755
     },
     {
       "epoch": 12.533333333333333,
-      "grad_norm": 0.0022992955055087805,
-      "learning_rate": 0.00011644444444444445,
-      "loss": 0.0004,
+      "grad_norm": 0.0010146560380235314,
+      "learning_rate": 3.2888888888888894e-05,
+      "loss": 0.0002,
       "step": 3760
     },
     {
       "epoch": 12.55,
-      "grad_norm": 0.006840771064162254,
-      "learning_rate": 0.00011633333333333333,
-      "loss": 0.0012,
+      "grad_norm": 0.0009179182816296816,
+      "learning_rate": 3.266666666666667e-05,
+      "loss": 0.0002,
       "step": 3765
     },
     {
       "epoch": 12.566666666666666,
-      "grad_norm": 0.002239038934931159,
-      "learning_rate": 0.00011622222222222223,
-      "loss": 0.0004,
+      "grad_norm": 0.0008610658696852624,
+      "learning_rate": 3.2444444444444446e-05,
+      "loss": 0.0002,
       "step": 3770
     },
     {
       "epoch": 12.583333333333334,
-      "grad_norm": 0.19226376712322235,
-      "learning_rate": 0.00011611111111111113,
-      "loss": 0.0008,
+      "grad_norm": 0.0008907515439204872,
+      "learning_rate": 3.222222222222223e-05,
+      "loss": 0.0002,
       "step": 3775
     },
     {
       "epoch": 12.6,
-      "grad_norm": 0.002981218509376049,
-      "learning_rate": 0.000116,
-      "loss": 0.0005,
+      "grad_norm": 0.0009273330797441304,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.0002,
       "step": 3780
     },
     {
       "epoch": 12.616666666666667,
-      "grad_norm": 0.002413095673546195,
-      "learning_rate": 0.00011588888888888889,
-      "loss": 0.0005,
+      "grad_norm": 0.0009633517474867404,
+      "learning_rate": 3.177777777777778e-05,
+      "loss": 0.0002,
       "step": 3785
     },
     {
       "epoch": 12.633333333333333,
-      "grad_norm": 0.03261173516511917,
-      "learning_rate": 0.00011577777777777778,
-      "loss": 0.0028,
+      "grad_norm": 0.0009191379067488015,
+      "learning_rate": 3.155555555555556e-05,
+      "loss": 0.0002,
       "step": 3790
     },
     {
       "epoch": 12.65,
-      "grad_norm": 0.00731159932911396,
-      "learning_rate": 0.00011566666666666668,
-      "loss": 0.0016,
+      "grad_norm": 0.0009611905552446842,
+      "learning_rate": 3.1333333333333334e-05,
+      "loss": 0.0002,
       "step": 3795
     },
     {
       "epoch": 12.666666666666666,
-      "grad_norm": 0.0534551627933979,
-      "learning_rate": 0.00011555555555555555,
-      "loss": 0.0389,
+      "grad_norm": 0.0009501809836365283,
+      "learning_rate": 3.111111111111111e-05,
+      "loss": 0.0002,
       "step": 3800
     },
     {
       "epoch": 12.666666666666666,
-      "eval_accuracy": 0.8275,
-      "eval_f1": 0.8350138332400756,
-      "eval_loss": 1.0442439317703247,
-      "eval_precision": 0.8660628713793063,
-      "eval_recall": 0.8275,
-      "eval_runtime": 16.2699,
-      "eval_samples_per_second": 147.512,
-      "eval_steps_per_second": 18.439,
+      "eval_accuracy": 0.8245833333333333,
+      "eval_f1": 0.8253265865890868,
+      "eval_loss": 1.087546944618225,
+      "eval_precision": 0.8436226516151129,
+      "eval_recall": 0.8245833333333333,
+      "eval_runtime": 16.1531,
+      "eval_samples_per_second": 148.578,
+      "eval_steps_per_second": 18.572,
       "step": 3800
     },
     {
       "epoch": 12.683333333333334,
-      "grad_norm": 0.0019389952067285776,
-      "learning_rate": 0.00011544444444444444,
-      "loss": 0.0003,
+      "grad_norm": 0.0010033076396211982,
+      "learning_rate": 3.088888888888889e-05,
+      "loss": 0.0002,
       "step": 3805
     },
     {
       "epoch": 12.7,
-      "grad_norm": 0.007572950795292854,
-      "learning_rate": 0.00011533333333333334,
-      "loss": 0.0004,
+      "grad_norm": 0.0009223477100022137,
+      "learning_rate": 3.066666666666667e-05,
+      "loss": 0.0002,
       "step": 3810
     },
     {
       "epoch": 12.716666666666667,
-      "grad_norm": 0.018977656960487366,
-      "learning_rate": 0.00011522222222222223,
-      "loss": 0.0007,
+      "grad_norm": 0.0009772386401891708,
+      "learning_rate": 3.044444444444445e-05,
+      "loss": 0.0002,
       "step": 3815
     },
     {
       "epoch": 12.733333333333333,
-      "grad_norm": 0.0018432236975058913,
-      "learning_rate": 0.00011511111111111112,
-      "loss": 0.0004,
+      "grad_norm": 0.0009396148379892111,
+      "learning_rate": 3.0222222222222225e-05,
+      "loss": 0.0002,
       "step": 3820
     },
     {
       "epoch": 12.75,
-      "grad_norm": 0.11818553507328033,
-      "learning_rate": 0.00011499999999999999,
-      "loss": 0.0007,
+      "grad_norm": 0.0009102340554818511,
+      "learning_rate": 3e-05,
+      "loss": 0.0002,
       "step": 3825
     },
     {
       "epoch": 12.766666666666667,
-      "grad_norm": 0.013535923324525356,
-      "learning_rate": 0.00011488888888888889,
-      "loss": 0.0004,
+      "grad_norm": 0.0009031001245602965,
+      "learning_rate": 2.9777777777777777e-05,
+      "loss": 0.0002,
       "step": 3830
     },
     {
       "epoch": 12.783333333333333,
-      "grad_norm": 0.0017047617584466934,
-      "learning_rate": 0.00011477777777777779,
-      "loss": 0.0005,
+      "grad_norm": 0.0010484493104740977,
+      "learning_rate": 2.955555555555556e-05,
+      "loss": 0.0002,
       "step": 3835
     },
     {
       "epoch": 12.8,
-      "grad_norm": 0.003165441332384944,
-      "learning_rate": 0.00011466666666666667,
-      "loss": 0.0004,
+      "grad_norm": 0.0009632807341404259,
+      "learning_rate": 2.9333333333333336e-05,
+      "loss": 0.0002,
       "step": 3840
     },
     {
       "epoch": 12.816666666666666,
-      "grad_norm": 0.01935717463493347,
-      "learning_rate": 0.00011455555555555557,
-      "loss": 0.0004,
+      "grad_norm": 0.0009951338870450854,
+      "learning_rate": 2.9111111111111112e-05,
+      "loss": 0.0002,
       "step": 3845
     },
     {
       "epoch": 12.833333333333334,
-      "grad_norm": 0.0017967324238270521,
-      "learning_rate": 0.00011444444444444444,
-      "loss": 0.0018,
+      "grad_norm": 0.0009625991224311292,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.0002,
       "step": 3850
     },
     {
       "epoch": 12.85,
-      "grad_norm": 0.0010822145268321037,
-      "learning_rate": 0.00011433333333333334,
-      "loss": 0.0003,
+      "grad_norm": 0.0008322183275595307,
+      "learning_rate": 2.8666666666666668e-05,
+      "loss": 0.0002,
       "step": 3855
     },
     {
       "epoch": 12.866666666666667,
-      "grad_norm": 0.0011991558130830526,
-      "learning_rate": 0.00011422222222222224,
-      "loss": 0.0003,
+      "grad_norm": 0.0009956645080819726,
+      "learning_rate": 2.8444444444444447e-05,
+      "loss": 0.0002,
       "step": 3860
     },
     {
       "epoch": 12.883333333333333,
-      "grad_norm": 0.5517290830612183,
-      "learning_rate": 0.00011411111111111112,
-      "loss": 0.0009,
+      "grad_norm": 0.0008614265825599432,
+      "learning_rate": 2.8222222222222223e-05,
+      "loss": 0.0002,
       "step": 3865
     },
     {
       "epoch": 12.9,
-      "grad_norm": 0.0012466531479731202,
-      "learning_rate": 0.00011399999999999999,
-      "loss": 0.0003,
+      "grad_norm": 0.0010614398634061217,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0002,
       "step": 3870
     },
     {
       "epoch": 12.916666666666666,
-      "grad_norm": 0.0011643904726952314,
-      "learning_rate": 0.00011388888888888889,
-      "loss": 0.0003,
+      "grad_norm": 0.0009259260259568691,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0002,
       "step": 3875
     },
     {
       "epoch": 12.933333333333334,
-      "grad_norm": 0.0011681226314976811,
-      "learning_rate": 0.00011377777777777779,
-      "loss": 0.0005,
+      "grad_norm": 0.0008746630628593266,
+      "learning_rate": 2.7555555555555555e-05,
+      "loss": 0.0002,
       "step": 3880
     },
     {
       "epoch": 12.95,
-      "grad_norm": 0.0010736598633229733,
-      "learning_rate": 0.00011366666666666667,
-      "loss": 0.0003,
+      "grad_norm": 0.0015265063848346472,
+      "learning_rate": 2.733333333333333e-05,
+      "loss": 0.0002,
       "step": 3885
     },
     {
       "epoch": 12.966666666666667,
-      "grad_norm": 0.0012137951562181115,
-      "learning_rate": 0.00011355555555555557,
-      "loss": 0.0003,
+      "grad_norm": 0.0009173708385787904,
+      "learning_rate": 2.7111111111111114e-05,
+      "loss": 0.0002,
       "step": 3890
     },
     {
       "epoch": 12.983333333333333,
-      "grad_norm": 0.0011743142968043685,
-      "learning_rate": 0.00011344444444444444,
-      "loss": 0.0003,
+      "grad_norm": 0.0008483538404107094,
+      "learning_rate": 2.688888888888889e-05,
+      "loss": 0.0002,
       "step": 3895
     },
     {
       "epoch": 13.0,
-      "grad_norm": 0.0011001998791471124,
-      "learning_rate": 0.00011333333333333334,
-      "loss": 0.0003,
+      "grad_norm": 0.0008921425906009972,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.0002,
       "step": 3900
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.8329166666666666,
-      "eval_f1": 0.8381909258853266,
-      "eval_loss": 0.9752159714698792,
-      "eval_precision": 0.8534915647352261,
-      "eval_recall": 0.8329166666666666,
-      "eval_runtime": 16.3747,
-      "eval_samples_per_second": 146.568,
-      "eval_steps_per_second": 18.321,
+      "eval_accuracy": 0.8245833333333333,
+      "eval_f1": 0.8253265865890868,
+      "eval_loss": 1.0909274816513062,
+      "eval_precision": 0.8436226516151129,
+      "eval_recall": 0.8245833333333333,
+      "eval_runtime": 16.1912,
+      "eval_samples_per_second": 148.228,
+      "eval_steps_per_second": 18.529,
       "step": 3900
     },
     {
       "epoch": 13.016666666666667,
-      "grad_norm": 0.0011232566321268678,
-      "learning_rate": 0.00011322222222222223,
-      "loss": 0.0003,
+      "grad_norm": 0.0009027371415868402,
+      "learning_rate": 2.6444444444444443e-05,
+      "loss": 0.0002,
       "step": 3905
     },
     {
       "epoch": 13.033333333333333,
-      "grad_norm": 0.0009692104067653418,
-      "learning_rate": 0.00011311111111111112,
-      "loss": 0.0003,
+      "grad_norm": 0.0008715075091458857,
+      "learning_rate": 2.6222222222222226e-05,
+      "loss": 0.0002,
       "step": 3910
     },
     {
       "epoch": 13.05,
-      "grad_norm": 0.0014119136612862349,
-      "learning_rate": 0.000113,
-      "loss": 0.0003,
+      "grad_norm": 0.0008808128186501563,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.0002,
       "step": 3915
     },
     {
       "epoch": 13.066666666666666,
-      "grad_norm": 0.0012654305901378393,
-      "learning_rate": 0.0001128888888888889,
+      "grad_norm": 0.0008808749844320118,
+      "learning_rate": 2.5777777777777778e-05,
       "loss": 0.0002,
       "step": 3920
     },
     {
       "epoch": 13.083333333333334,
-      "grad_norm": 0.006738747004419565,
-      "learning_rate": 0.00011277777777777778,
-      "loss": 0.0003,
+      "grad_norm": 0.0009195414604619145,
+      "learning_rate": 2.5555555555555554e-05,
+      "loss": 0.0002,
       "step": 3925
     },
     {
       "epoch": 13.1,
-      "grad_norm": 0.0011596987023949623,
-      "learning_rate": 0.00011266666666666668,
-      "loss": 0.0003,
+      "grad_norm": 0.0008957713143900037,
+      "learning_rate": 2.5333333333333337e-05,
+      "loss": 0.0002,
       "step": 3930
     },
     {
       "epoch": 13.116666666666667,
-      "grad_norm": 0.0013030455447733402,
-      "learning_rate": 0.00011255555555555557,
+      "grad_norm": 0.0008772239089012146,
+      "learning_rate": 2.5111111111111113e-05,
       "loss": 0.0002,
       "step": 3935
     },
     {
       "epoch": 13.133333333333333,
-      "grad_norm": 0.0014643303584307432,
-      "learning_rate": 0.00011244444444444445,
-      "loss": 0.0003,
+      "grad_norm": 0.0008563318406231701,
+      "learning_rate": 2.488888888888889e-05,
+      "loss": 0.0002,
       "step": 3940
     },
     {
       "epoch": 13.15,
-      "grad_norm": 0.0012246562400832772,
-      "learning_rate": 0.00011233333333333333,
-      "loss": 0.0003,
+      "grad_norm": 0.0009402587311342359,
+      "learning_rate": 2.466666666666667e-05,
+      "loss": 0.0002,
       "step": 3945
     },
     {
       "epoch": 13.166666666666666,
-      "grad_norm": 0.0015180285554379225,
-      "learning_rate": 0.00011222222222222223,
-      "loss": 0.0003,
+      "grad_norm": 0.0008356410544365644,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.0002,
       "step": 3950
     },
     {
       "epoch": 13.183333333333334,
-      "grad_norm": 0.0010317383566871285,
-      "learning_rate": 0.00011211111111111113,
-      "loss": 0.0003,
+      "grad_norm": 0.0008352281292900443,
+      "learning_rate": 2.4222222222222224e-05,
+      "loss": 0.0002,
       "step": 3955
     },
     {
       "epoch": 13.2,
-      "grad_norm": 0.007808352820575237,
-      "learning_rate": 0.00011200000000000001,
-      "loss": 0.0003,
+      "grad_norm": 0.000897344492841512,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0002,
       "step": 3960
     },
     {
       "epoch": 13.216666666666667,
-      "grad_norm": 0.00089990597916767,
-      "learning_rate": 0.00011188888888888888,
+      "grad_norm": 0.0008463854319415987,
+      "learning_rate": 2.377777777777778e-05,
       "loss": 0.0002,
       "step": 3965
     },
     {
       "epoch": 13.233333333333333,
-      "grad_norm": 0.0011120266281068325,
-      "learning_rate": 0.00011177777777777778,
-      "loss": 0.0016,
+      "grad_norm": 0.0009595841402187943,
+      "learning_rate": 2.3555555555555556e-05,
+      "loss": 0.0002,
       "step": 3970
     },
     {
       "epoch": 13.25,
-      "grad_norm": 0.0014344818191602826,
-      "learning_rate": 0.00011166666666666668,
-      "loss": 0.0005,
+      "grad_norm": 0.0008370388532057405,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.0002,
       "step": 3975
     },
     {
       "epoch": 13.266666666666667,
-      "grad_norm": 0.0010766021441668272,
-      "learning_rate": 0.00011155555555555556,
-      "loss": 0.0003,
+      "grad_norm": 0.0008347583352588117,
+      "learning_rate": 2.3111111111111112e-05,
+      "loss": 0.0002,
       "step": 3980
     },
     {
       "epoch": 13.283333333333333,
-      "grad_norm": 0.0016216132789850235,
-      "learning_rate": 0.00011144444444444444,
-      "loss": 0.0516,
+      "grad_norm": 0.0008347966941073537,
+      "learning_rate": 2.288888888888889e-05,
+      "loss": 0.0002,
       "step": 3985
     },
     {
       "epoch": 13.3,
-      "grad_norm": 0.0009334416245110333,
-      "learning_rate": 0.00011133333333333333,
+      "grad_norm": 0.0009280767990276217,
+      "learning_rate": 2.2666666666666668e-05,
       "loss": 0.0002,
       "step": 3990
     },
     {
       "epoch": 13.316666666666666,
-      "grad_norm": 0.0012486886698752642,
-      "learning_rate": 0.00011122222222222223,
+      "grad_norm": 0.000874265911988914,
+      "learning_rate": 2.2444444444444447e-05,
       "loss": 0.0002,
       "step": 3995
     },
     {
       "epoch": 13.333333333333334,
-      "grad_norm": 0.0011065199505537748,
-      "learning_rate": 0.00011111111111111112,
-      "loss": 0.0003,
+      "grad_norm": 0.000886201742105186,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0002,
       "step": 4000
     },
     {
       "epoch": 13.333333333333334,
-      "eval_accuracy": 0.8520833333333333,
-      "eval_f1": 0.8564440923684329,
-      "eval_loss": 0.831327497959137,
-      "eval_precision": 0.8734575912929097,
-      "eval_recall": 0.8520833333333333,
-      "eval_runtime": 16.4785,
-      "eval_samples_per_second": 145.645,
-      "eval_steps_per_second": 18.206,
+      "eval_accuracy": 0.8245833333333333,
+      "eval_f1": 0.8253265865890868,
+      "eval_loss": 1.0929937362670898,
+      "eval_precision": 0.8436226516151129,
+      "eval_recall": 0.8245833333333333,
+      "eval_runtime": 16.3533,
+      "eval_samples_per_second": 146.76,
+      "eval_steps_per_second": 18.345,
       "step": 4000
     },
     {
       "epoch": 13.35,
-      "grad_norm": 0.006497128866612911,
-      "learning_rate": 0.00011100000000000001,
-      "loss": 0.0003,
+      "grad_norm": 0.001023485790938139,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.0002,
       "step": 4005
     },
     {
       "epoch": 13.366666666666667,
-      "grad_norm": 0.0013144650729373097,
-      "learning_rate": 0.00011088888888888889,
-      "loss": 0.0003,
+      "grad_norm": 0.0008574578678235412,
+      "learning_rate": 2.177777777777778e-05,
+      "loss": 0.0002,
       "step": 4010
     },
     {
       "epoch": 13.383333333333333,
-      "grad_norm": 0.000973715737927705,
-      "learning_rate": 0.00011077777777777778,
+      "grad_norm": 0.0008512691128998995,
+      "learning_rate": 2.1555555555555555e-05,
       "loss": 0.0002,
       "step": 4015
     },
     {
       "epoch": 13.4,
-      "grad_norm": 0.0025900560431182384,
-      "learning_rate": 0.00011066666666666667,
-      "loss": 0.0003,
+      "grad_norm": 0.0020782637875527143,
+      "learning_rate": 2.1333333333333335e-05,
+      "loss": 0.0002,
       "step": 4020
     },
     {
       "epoch": 13.416666666666666,
-      "grad_norm": 0.0008232370601035655,
-      "learning_rate": 0.00011055555555555557,
-      "loss": 0.0003,
+      "grad_norm": 0.0008019442902877927,
+      "learning_rate": 2.111111111111111e-05,
+      "loss": 0.0002,
       "step": 4025
     },
     {
       "epoch": 13.433333333333334,
-      "grad_norm": 0.0010933306766673923,
-      "learning_rate": 0.00011044444444444444,
-      "loss": 0.0062,
+      "grad_norm": 0.0008946466259658337,
+      "learning_rate": 2.088888888888889e-05,
+      "loss": 0.0002,
       "step": 4030
     },
     {
       "epoch": 13.45,
-      "grad_norm": 0.0012017994886264205,
-      "learning_rate": 0.00011033333333333334,
+      "grad_norm": 0.0010831499239429832,
+      "learning_rate": 2.0666666666666666e-05,
       "loss": 0.0002,
       "step": 4035
     },
     {
       "epoch": 13.466666666666667,
-      "grad_norm": 0.0009921758901327848,
-      "learning_rate": 0.00011022222222222222,
+      "grad_norm": 0.0008192082750611007,
+      "learning_rate": 2.0444444444444446e-05,
       "loss": 0.0002,
       "step": 4040
     },
     {
       "epoch": 13.483333333333333,
-      "grad_norm": 0.002100698882713914,
-      "learning_rate": 0.00011011111111111112,
+      "grad_norm": 0.0008729513501748443,
+      "learning_rate": 2.0222222222222222e-05,
       "loss": 0.0002,
       "step": 4045
     },
     {
       "epoch": 13.5,
-      "grad_norm": 0.0008774257148616016,
-      "learning_rate": 0.00011000000000000002,
-      "loss": 0.0039,
+      "grad_norm": 0.0008157137781381607,
+      "learning_rate": 2e-05,
+      "loss": 0.0002,
       "step": 4050
     },
     {
       "epoch": 13.516666666666667,
-      "grad_norm": 0.0008782350923866034,
-      "learning_rate": 0.00010988888888888889,
+      "grad_norm": 0.0008871884201653302,
+      "learning_rate": 1.9777777777777778e-05,
       "loss": 0.0002,
       "step": 4055
     },
     {
       "epoch": 13.533333333333333,
-      "grad_norm": 0.7388290762901306,
-      "learning_rate": 0.00010977777777777777,
-      "loss": 0.0009,
+      "grad_norm": 0.0008388046990148723,
+      "learning_rate": 1.9555555555555557e-05,
+      "loss": 0.0002,
       "step": 4060
     },
     {
       "epoch": 13.55,
-      "grad_norm": 0.0014949586475268006,
-      "learning_rate": 0.00010966666666666667,
-      "loss": 0.0003,
+      "grad_norm": 0.0009184422669932246,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 0.0002,
       "step": 4065
     },
     {
       "epoch": 13.566666666666666,
-      "grad_norm": 0.009636199101805687,
-      "learning_rate": 0.00010955555555555557,
-      "loss": 0.0004,
+      "grad_norm": 0.0015923472819849849,
+      "learning_rate": 1.9111111111111113e-05,
+      "loss": 0.0002,
       "step": 4070
     },
     {
       "epoch": 13.583333333333334,
-      "grad_norm": 0.007746892049908638,
-      "learning_rate": 0.00010944444444444445,
-      "loss": 0.0003,
+      "grad_norm": 0.0008163443999364972,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 0.0002,
       "step": 4075
     },
     {
       "epoch": 13.6,
-      "grad_norm": 0.002316263969987631,
-      "learning_rate": 0.00010933333333333333,
-      "loss": 0.0003,
+      "grad_norm": 0.0009096835856325924,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.0002,
       "step": 4080
     },
     {
       "epoch": 13.616666666666667,
-      "grad_norm": 0.001132502220571041,
-      "learning_rate": 0.00010922222222222222,
+      "grad_norm": 0.0009327562875114381,
+      "learning_rate": 1.8444444444444445e-05,
       "loss": 0.0002,
       "step": 4085
     },
     {
       "epoch": 13.633333333333333,
-      "grad_norm": 0.0010267929174005985,
-      "learning_rate": 0.00010911111111111112,
-      "loss": 0.0205,
+      "grad_norm": 0.0008120681159198284,
+      "learning_rate": 1.8222222222222224e-05,
+      "loss": 0.0002,
       "step": 4090
     },
     {
       "epoch": 13.65,
-      "grad_norm": 0.0015395983355119824,
-      "learning_rate": 0.000109,
-      "loss": 0.0003,
+      "grad_norm": 0.0008197089773602784,
+      "learning_rate": 1.8e-05,
+      "loss": 0.0002,
       "step": 4095
     },
     {
       "epoch": 13.666666666666666,
-      "grad_norm": 0.0013162312097847462,
-      "learning_rate": 0.00010888888888888889,
-      "loss": 0.0003,
+      "grad_norm": 0.0010860937181860209,
+      "learning_rate": 1.777777777777778e-05,
+      "loss": 0.0002,
       "step": 4100
     },
     {
       "epoch": 13.666666666666666,
-      "eval_accuracy": 0.78875,
-      "eval_f1": 0.788065223103418,
-      "eval_loss": 1.400270938873291,
-      "eval_precision": 0.8193366497306572,
-      "eval_recall": 0.78875,
-      "eval_runtime": 16.2537,
-      "eval_samples_per_second": 147.659,
-      "eval_steps_per_second": 18.457,
+      "eval_accuracy": 0.82375,
+      "eval_f1": 0.8246155047936204,
+      "eval_loss": 1.0954351425170898,
+      "eval_precision": 0.842946826937574,
+      "eval_recall": 0.82375,
+      "eval_runtime": 16.1001,
+      "eval_samples_per_second": 149.068,
+      "eval_steps_per_second": 18.633,
       "step": 4100
     },
     {
       "epoch": 13.683333333333334,
-      "grad_norm": 0.003271897556260228,
-      "learning_rate": 0.00010877777777777778,
-      "loss": 0.0004,
+      "grad_norm": 0.0008897311636246741,
+      "learning_rate": 1.7555555555555556e-05,
+      "loss": 0.0002,
       "step": 4105
     },
     {
       "epoch": 13.7,
-      "grad_norm": 0.002615569159388542,
-      "learning_rate": 0.00010866666666666667,
-      "loss": 0.1077,
+      "grad_norm": 0.0009046689374372363,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.0002,
       "step": 4110
     },
     {
       "epoch": 13.716666666666667,
-      "grad_norm": 0.15410467982292175,
-      "learning_rate": 0.00010855555555555557,
-      "loss": 0.0014,
+      "grad_norm": 0.0009022593148984015,
+      "learning_rate": 1.7111111111111112e-05,
+      "loss": 0.0002,
       "step": 4115
     },
     {
       "epoch": 13.733333333333333,
-      "grad_norm": 0.004168429411947727,
-      "learning_rate": 0.00010844444444444446,
-      "loss": 0.0011,
+      "grad_norm": 0.0008375992765650153,
+      "learning_rate": 1.688888888888889e-05,
+      "loss": 0.0002,
       "step": 4120
     },
     {
       "epoch": 13.75,
-      "grad_norm": 0.008824387565255165,
-      "learning_rate": 0.00010833333333333333,
-      "loss": 0.0552,
+      "grad_norm": 0.0010343692265450954,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0002,
       "step": 4125
     },
     {
       "epoch": 13.766666666666667,
-      "grad_norm": 0.011968709528446198,
-      "learning_rate": 0.00010822222222222223,
-      "loss": 0.0017,
+      "grad_norm": 0.000839115004055202,
+      "learning_rate": 1.6444444444444447e-05,
+      "loss": 0.0002,
       "step": 4130
     },
     {
       "epoch": 13.783333333333333,
-      "grad_norm": 0.010361285880208015,
-      "learning_rate": 0.00010811111111111112,
-      "loss": 0.0026,
+      "grad_norm": 0.0008834049222059548,
+      "learning_rate": 1.6222222222222223e-05,
+      "loss": 0.0002,
       "step": 4135
     },
     {
       "epoch": 13.8,
-      "grad_norm": 0.005046170670539141,
-      "learning_rate": 0.00010800000000000001,
-      "loss": 0.0009,
+      "grad_norm": 0.0008546257740817964,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0002,
       "step": 4140
     },
     {
       "epoch": 13.816666666666666,
-      "grad_norm": 0.003155169077217579,
-      "learning_rate": 0.00010788888888888888,
-      "loss": 0.0006,
+      "grad_norm": 0.0008155339164659381,
+      "learning_rate": 1.577777777777778e-05,
+      "loss": 0.0002,
       "step": 4145
     },
     {
       "epoch": 13.833333333333334,
-      "grad_norm": 0.05111585557460785,
-      "learning_rate": 0.00010777777777777778,
-      "loss": 0.0008,
+      "grad_norm": 0.0008447145810350776,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.0002,
       "step": 4150
     },
     {
       "epoch": 13.85,
-      "grad_norm": 0.004040716215968132,
-      "learning_rate": 0.00010766666666666668,
-      "loss": 0.0042,
+      "grad_norm": 0.0008784612873569131,
+      "learning_rate": 1.5333333333333334e-05,
+      "loss": 0.0002,
       "step": 4155
     },
     {
       "epoch": 13.866666666666667,
-      "grad_norm": 0.003093767212703824,
-      "learning_rate": 0.00010755555555555556,
-      "loss": 0.0004,
+      "grad_norm": 0.0007966684061102569,
+      "learning_rate": 1.5111111111111112e-05,
+      "loss": 0.0002,
       "step": 4160
     },
     {
       "epoch": 13.883333333333333,
-      "grad_norm": 0.0056046415120363235,
-      "learning_rate": 0.00010744444444444446,
-      "loss": 0.0006,
+      "grad_norm": 0.0008763640653342009,
+      "learning_rate": 1.4888888888888888e-05,
+      "loss": 0.0002,
       "step": 4165
     },
     {
       "epoch": 13.9,
-      "grad_norm": 0.0010761625599116087,
-      "learning_rate": 0.00010733333333333333,
-      "loss": 0.0007,
+      "grad_norm": 0.0008411027956753969,
+      "learning_rate": 1.4666666666666668e-05,
+      "loss": 0.0002,
       "step": 4170
     },
     {
       "epoch": 13.916666666666666,
-      "grad_norm": 0.08055099844932556,
-      "learning_rate": 0.00010722222222222223,
-      "loss": 0.0006,
+      "grad_norm": 0.0008471577893942595,
+      "learning_rate": 1.4444444444444444e-05,
+      "loss": 0.0002,
       "step": 4175
     },
     {
       "epoch": 13.933333333333334,
-      "grad_norm": 0.002173234708607197,
-      "learning_rate": 0.00010711111111111111,
-      "loss": 0.0201,
+      "grad_norm": 0.0008789217681623995,
+      "learning_rate": 1.4222222222222224e-05,
+      "loss": 0.0002,
       "step": 4180
     },
     {
       "epoch": 13.95,
-      "grad_norm": 0.002146204235032201,
-      "learning_rate": 0.00010700000000000001,
-      "loss": 0.0004,
+      "grad_norm": 0.0008297561435028911,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.0002,
       "step": 4185
     },
     {
       "epoch": 13.966666666666667,
-      "grad_norm": 0.0016474430449306965,
-      "learning_rate": 0.00010688888888888891,
-      "loss": 0.0004,
+      "grad_norm": 0.0008161651203408837,
+      "learning_rate": 1.3777777777777778e-05,
+      "loss": 0.0002,
       "step": 4190
     },
     {
       "epoch": 13.983333333333333,
-      "grad_norm": 0.0024102318566292524,
-      "learning_rate": 0.00010677777777777778,
-      "loss": 0.0003,
+      "grad_norm": 0.0008389149443246424,
+      "learning_rate": 1.3555555555555557e-05,
+      "loss": 0.0002,
       "step": 4195
     },
     {
       "epoch": 14.0,
-      "grad_norm": 0.0011729050893336535,
-      "learning_rate": 0.00010666666666666667,
-      "loss": 0.0007,
+      "grad_norm": 0.0008032581536099315,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.0002,
       "step": 4200
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.8170833333333334,
-      "eval_f1": 0.8205361607805431,
-      "eval_loss": 1.1200592517852783,
-      "eval_precision": 0.8392273327998413,
-      "eval_recall": 0.8170833333333334,
-      "eval_runtime": 16.3341,
-      "eval_samples_per_second": 146.932,
-      "eval_steps_per_second": 18.366,
+      "eval_accuracy": 0.82375,
+      "eval_f1": 0.8246155047936204,
+      "eval_loss": 1.0975261926651,
+      "eval_precision": 0.842946826937574,
+      "eval_recall": 0.82375,
+      "eval_runtime": 16.1873,
+      "eval_samples_per_second": 148.264,
+      "eval_steps_per_second": 18.533,
       "step": 4200
     },
     {
       "epoch": 14.016666666666667,
-      "grad_norm": 0.0010447083041071892,
-      "learning_rate": 0.00010655555555555556,
-      "loss": 0.0034,
+      "grad_norm": 0.0007788930088281631,
+      "learning_rate": 1.3111111111111113e-05,
+      "loss": 0.0002,
       "step": 4205
     },
     {
       "epoch": 14.033333333333333,
-      "grad_norm": 0.0017008072463795543,
-      "learning_rate": 0.00010644444444444446,
-      "loss": 0.0003,
+      "grad_norm": 0.0008488630992360413,
+      "learning_rate": 1.2888888888888889e-05,
+      "loss": 0.0002,
       "step": 4210
     },
     {
       "epoch": 14.05,
-      "grad_norm": 0.007980246096849442,
-      "learning_rate": 0.00010635555555555556,
-      "loss": 0.0133,
+      "grad_norm": 0.0008053685887716711,
+      "learning_rate": 1.2666666666666668e-05,
+      "loss": 0.0002,
       "step": 4215
     },
     {
       "epoch": 14.066666666666666,
-      "grad_norm": 0.00991909671574831,
-      "learning_rate": 0.00010624444444444446,
-      "loss": 0.0003,
+      "grad_norm": 0.0009117414592765272,
+      "learning_rate": 1.2444444444444445e-05,
+      "loss": 0.0002,
       "step": 4220
     },
     {
       "epoch": 14.083333333333334,
-      "grad_norm": 0.0012332461774349213,
-      "learning_rate": 0.00010613333333333333,
-      "loss": 0.0003,
+      "grad_norm": 0.0009216479957103729,
+      "learning_rate": 1.2222222222222222e-05,
+      "loss": 0.0002,
       "step": 4225
     },
     {
       "epoch": 14.1,
-      "grad_norm": 0.001116503612138331,
-      "learning_rate": 0.00010602222222222223,
-      "loss": 0.0003,
+      "grad_norm": 0.000862602551933378,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0002,
       "step": 4230
     },
     {
       "epoch": 14.116666666666667,
-      "grad_norm": 0.0018533241236582398,
-      "learning_rate": 0.00010591111111111111,
-      "loss": 0.0003,
+      "grad_norm": 0.0008642959292046726,
+      "learning_rate": 1.1777777777777778e-05,
+      "loss": 0.0002,
       "step": 4235
     },
     {
       "epoch": 14.133333333333333,
-      "grad_norm": 0.02248862199485302,
-      "learning_rate": 0.00010580000000000001,
-      "loss": 0.002,
+      "grad_norm": 0.0008339171181432903,
+      "learning_rate": 1.1555555555555556e-05,
+      "loss": 0.0002,
       "step": 4240
     },
     {
       "epoch": 14.15,
-      "grad_norm": 0.0021937838755548,
-      "learning_rate": 0.00010568888888888891,
-      "loss": 0.0198,
+      "grad_norm": 0.0008227302459999919,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.0002,
       "step": 4245
     },
     {
       "epoch": 14.166666666666666,
-      "grad_norm": 0.02692383900284767,
-      "learning_rate": 0.00010557777777777778,
-      "loss": 0.0003,
+      "grad_norm": 0.0008083852007985115,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0002,
       "step": 4250
     },
     {
       "epoch": 14.183333333333334,
-      "grad_norm": 0.0016530836001038551,
-      "learning_rate": 0.00010546666666666666,
-      "loss": 0.0003,
+      "grad_norm": 0.0008799941861070693,
+      "learning_rate": 1.088888888888889e-05,
+      "loss": 0.0002,
       "step": 4255
     },
     {
       "epoch": 14.2,
-      "grad_norm": 0.0010065624956041574,
-      "learning_rate": 0.00010535555555555556,
-      "loss": 0.0003,
+      "grad_norm": 0.0009040896547958255,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.0002,
       "step": 4260
     },
     {
       "epoch": 14.216666666666667,
-      "grad_norm": 0.0008775026653893292,
-      "learning_rate": 0.00010524444444444446,
-      "loss": 0.0003,
+      "grad_norm": 0.0008140530553646386,
+      "learning_rate": 1.0444444444444445e-05,
+      "loss": 0.0002,
       "step": 4265
     },
     {
       "epoch": 14.233333333333333,
-      "grad_norm": 0.0037237617652863264,
-      "learning_rate": 0.00010513333333333333,
-      "loss": 0.0003,
+      "grad_norm": 0.0008200691663660109,
+      "learning_rate": 1.0222222222222223e-05,
+      "loss": 0.0002,
       "step": 4270
     },
     {
       "epoch": 14.25,
-      "grad_norm": 0.0014274761779233813,
-      "learning_rate": 0.00010502222222222222,
-      "loss": 0.0003,
+      "grad_norm": 0.0008951444760896266,
+      "learning_rate": 1e-05,
+      "loss": 0.0002,
       "step": 4275
     },
     {
       "epoch": 14.266666666666667,
-      "grad_norm": 1.7224279642105103,
-      "learning_rate": 0.00010491111111111111,
-      "loss": 0.027,
+      "grad_norm": 0.0007910403655841947,
+      "learning_rate": 9.777777777777779e-06,
+      "loss": 0.0002,
       "step": 4280
     },
     {
       "epoch": 14.283333333333333,
-      "grad_norm": 0.0012018855195492506,
-      "learning_rate": 0.00010480000000000001,
+      "grad_norm": 0.0008857677457854152,
+      "learning_rate": 9.555555555555556e-06,
       "loss": 0.0002,
       "step": 4285
     },
     {
       "epoch": 14.3,
-      "grad_norm": 0.0008701824699528515,
-      "learning_rate": 0.0001046888888888889,
-      "loss": 0.0003,
+      "grad_norm": 0.0007591810426674783,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0002,
       "step": 4290
     },
     {
       "epoch": 14.316666666666666,
-      "grad_norm": 0.001312366919592023,
-      "learning_rate": 0.00010457777777777777,
-      "loss": 0.0003,
+      "grad_norm": 0.0008071683114394546,
+      "learning_rate": 9.111111111111112e-06,
+      "loss": 0.0002,
       "step": 4295
     },
     {
       "epoch": 14.333333333333334,
-      "grad_norm": 0.0023174004163593054,
-      "learning_rate": 0.00010446666666666667,
+      "grad_norm": 0.0007766253547742963,
+      "learning_rate": 8.88888888888889e-06,
       "loss": 0.0002,
       "step": 4300
     },
     {
       "epoch": 14.333333333333334,
-      "eval_accuracy": 0.84125,
-      "eval_f1": 0.8428409476777438,
-      "eval_loss": 1.016021490097046,
-      "eval_precision": 0.8667078640330398,
-      "eval_recall": 0.84125,
-      "eval_runtime": 16.2742,
-      "eval_samples_per_second": 147.473,
-      "eval_steps_per_second": 18.434,
+      "eval_accuracy": 0.82375,
+      "eval_f1": 0.8246155047936204,
+      "eval_loss": 1.0987612009048462,
+      "eval_precision": 0.842946826937574,
+      "eval_recall": 0.82375,
+      "eval_runtime": 16.1568,
+      "eval_samples_per_second": 148.544,
+      "eval_steps_per_second": 18.568,
       "step": 4300
     },
     {
       "epoch": 14.35,
-      "grad_norm": 0.0010087472619488835,
-      "learning_rate": 0.00010435555555555557,
+      "grad_norm": 0.0008330162963829935,
+      "learning_rate": 8.666666666666668e-06,
       "loss": 0.0002,
       "step": 4305
     },
     {
       "epoch": 14.366666666666667,
-      "grad_norm": 0.0011277376906946301,
-      "learning_rate": 0.00010424444444444445,
-      "loss": 0.0004,
+      "grad_norm": 0.0007689149351790547,
+      "learning_rate": 8.444444444444446e-06,
+      "loss": 0.0002,
       "step": 4310
     },
     {
       "epoch": 14.383333333333333,
-      "grad_norm": 0.002272882964462042,
-      "learning_rate": 0.00010413333333333335,
+      "grad_norm": 0.0007904864032752812,
+      "learning_rate": 8.222222222222223e-06,
       "loss": 0.0002,
       "step": 4315
     },
     {
       "epoch": 14.4,
-      "grad_norm": 0.047611694782972336,
-      "learning_rate": 0.00010402222222222222,
-      "loss": 0.0452,
+      "grad_norm": 0.000990989152342081,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0002,
       "step": 4320
     },
     {
       "epoch": 14.416666666666666,
-      "grad_norm": 0.0013640752295032144,
-      "learning_rate": 0.00010391111111111112,
-      "loss": 0.0003,
+      "grad_norm": 0.0016854832647368312,
+      "learning_rate": 7.777777777777777e-06,
+      "loss": 0.0002,
       "step": 4325
     },
     {
       "epoch": 14.433333333333334,
-      "grad_norm": 0.004039268475025892,
-      "learning_rate": 0.0001038,
-      "loss": 0.0007,
+      "grad_norm": 0.0009478752035647631,
+      "learning_rate": 7.555555555555556e-06,
+      "loss": 0.0002,
       "step": 4330
     },
     {
       "epoch": 14.45,
-      "grad_norm": 0.0016950079007074237,
-      "learning_rate": 0.0001036888888888889,
+      "grad_norm": 0.0008268911624327302,
+      "learning_rate": 7.333333333333334e-06,
       "loss": 0.0002,
       "step": 4335
     },
     {
       "epoch": 14.466666666666667,
-      "grad_norm": 0.1071184054017067,
-      "learning_rate": 0.00010357777777777777,
-      "loss": 0.0005,
+      "grad_norm": 0.0008779529598541558,
+      "learning_rate": 7.111111111111112e-06,
+      "loss": 0.0002,
       "step": 4340
     },
     {
       "epoch": 14.483333333333333,
-      "grad_norm": 0.0009521697065792978,
-      "learning_rate": 0.00010346666666666667,
-      "loss": 0.0186,
+      "grad_norm": 0.0008080208790488541,
+      "learning_rate": 6.888888888888889e-06,
+      "loss": 0.0002,
       "step": 4345
     },
     {
       "epoch": 14.5,
-      "grad_norm": 0.0008732332498766482,
-      "learning_rate": 0.00010335555555555555,
+      "grad_norm": 0.0007768373470753431,
+      "learning_rate": 6.666666666666667e-06,
       "loss": 0.0002,
       "step": 4350
     },
     {
       "epoch": 14.516666666666667,
-      "grad_norm": 0.0011424494441598654,
-      "learning_rate": 0.00010324444444444445,
+      "grad_norm": 0.0008939038380049169,
+      "learning_rate": 6.4444444444444445e-06,
       "loss": 0.0002,
       "step": 4355
     },
     {
       "epoch": 14.533333333333333,
-      "grad_norm": 0.0010931406868621707,
-      "learning_rate": 0.00010313333333333335,
-      "loss": 0.0003,
+      "grad_norm": 0.0008080657571554184,
+      "learning_rate": 6.222222222222222e-06,
+      "loss": 0.0002,
       "step": 4360
     },
     {
       "epoch": 14.55,
-      "grad_norm": 0.0010066473623737693,
-      "learning_rate": 0.00010302222222222222,
-      "loss": 0.0003,
+      "grad_norm": 0.0008180756121873856,
+      "learning_rate": 6e-06,
+      "loss": 0.0002,
       "step": 4365
     },
     {
       "epoch": 14.566666666666666,
-      "grad_norm": 0.0009955632267519832,
-      "learning_rate": 0.00010291111111111112,
-      "loss": 0.0005,
+      "grad_norm": 0.0008022425463423133,
+      "learning_rate": 5.777777777777778e-06,
+      "loss": 0.0002,
       "step": 4370
     },
     {
       "epoch": 14.583333333333334,
-      "grad_norm": 0.18133580684661865,
-      "learning_rate": 0.0001028,
-      "loss": 0.0008,
+      "grad_norm": 0.0008039418025873601,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0002,
       "step": 4375
     },
     {
       "epoch": 14.6,
-      "grad_norm": 0.0009742869879119098,
-      "learning_rate": 0.0001026888888888889,
-      "loss": 0.0003,
+      "grad_norm": 0.0007791415555402637,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.0002,
       "step": 4380
     },
     {
       "epoch": 14.616666666666667,
-      "grad_norm": 0.0014119255356490612,
-      "learning_rate": 0.00010257777777777777,
+      "grad_norm": 0.0008020649547688663,
+      "learning_rate": 5.1111111111111115e-06,
       "loss": 0.0002,
       "step": 4385
     },
     {
       "epoch": 14.633333333333333,
-      "grad_norm": 0.0017910711467266083,
-      "learning_rate": 0.00010246666666666667,
-      "loss": 0.0003,
+      "grad_norm": 0.0008757354808039963,
+      "learning_rate": 4.888888888888889e-06,
+      "loss": 0.0002,
       "step": 4390
     },
     {
       "epoch": 14.65,
-      "grad_norm": 0.0010257975663989782,
-      "learning_rate": 0.00010235555555555556,
-      "loss": 0.0003,
+      "grad_norm": 0.0007990308222360909,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.0002,
       "step": 4395
     },
     {
       "epoch": 14.666666666666666,
-      "grad_norm": 0.0012235648464411497,
-      "learning_rate": 0.00010224444444444446,
+      "grad_norm": 0.0009527826914563775,
+      "learning_rate": 4.444444444444445e-06,
       "loss": 0.0002,
       "step": 4400
     },
     {
       "epoch": 14.666666666666666,
-      "eval_accuracy": 0.8270833333333333,
-      "eval_f1": 0.8282455824121513,
-      "eval_loss": 1.0599236488342285,
-      "eval_precision": 0.8463618364963694,
-      "eval_recall": 0.8270833333333333,
-      "eval_runtime": 16.272,
-      "eval_samples_per_second": 147.493,
-      "eval_steps_per_second": 18.437,
+      "eval_accuracy": 0.82375,
+      "eval_f1": 0.8246155047936204,
+      "eval_loss": 1.0997449159622192,
+      "eval_precision": 0.842946826937574,
+      "eval_recall": 0.82375,
+      "eval_runtime": 16.3048,
+      "eval_samples_per_second": 147.196,
+      "eval_steps_per_second": 18.399,
       "step": 4400
     },
     {
       "epoch": 14.683333333333334,
-      "grad_norm": 0.0010194644564762712,
-      "learning_rate": 0.00010213333333333335,
-      "loss": 0.0003,
+      "grad_norm": 0.0008756504394114017,
+      "learning_rate": 4.222222222222223e-06,
+      "loss": 0.0002,
       "step": 4405
     },
     {
       "epoch": 14.7,
-      "grad_norm": 0.0011165229370817542,
-      "learning_rate": 0.00010202222222222222,
+      "grad_norm": 0.0008490610052831471,
+      "learning_rate": 4.000000000000001e-06,
       "loss": 0.0002,
       "step": 4410
     },
     {
       "epoch": 14.716666666666667,
-      "grad_norm": 0.0009375371737405658,
-      "learning_rate": 0.00010191111111111111,
+      "grad_norm": 0.0008346405229531229,
+      "learning_rate": 3.777777777777778e-06,
       "loss": 0.0002,
       "step": 4415
     },
     {
       "epoch": 14.733333333333333,
-      "grad_norm": 0.0008527434547431767,
-      "learning_rate": 0.00010180000000000001,
+      "grad_norm": 0.0007717997068539262,
+      "learning_rate": 3.555555555555556e-06,
       "loss": 0.0002,
       "step": 4420
     },
     {
       "epoch": 14.75,
-      "grad_norm": 0.0009507935028523207,
-      "learning_rate": 0.0001016888888888889,
+      "grad_norm": 0.0008573240484111011,
+      "learning_rate": 3.3333333333333333e-06,
       "loss": 0.0002,
       "step": 4425
     },
     {
       "epoch": 14.766666666666667,
-      "grad_norm": 0.0009195000748150051,
-      "learning_rate": 0.00010157777777777778,
+      "grad_norm": 0.0008228399092331529,
+      "learning_rate": 3.111111111111111e-06,
       "loss": 0.0002,
       "step": 4430
     },
     {
       "epoch": 14.783333333333333,
-      "grad_norm": 0.0021001717541366816,
-      "learning_rate": 0.00010146666666666666,
-      "loss": 0.0006,
+      "grad_norm": 0.0008542914292775095,
+      "learning_rate": 2.888888888888889e-06,
+      "loss": 0.0002,
       "step": 4435
     },
     {
       "epoch": 14.8,
-      "grad_norm": 0.0009847854962572455,
-      "learning_rate": 0.00010135555555555556,
+      "grad_norm": 0.0008248086087405682,
+      "learning_rate": 2.666666666666667e-06,
       "loss": 0.0002,
       "step": 4440
     },
     {
       "epoch": 14.816666666666666,
-      "grad_norm": 0.0009505741181783378,
-      "learning_rate": 0.00010124444444444446,
+      "grad_norm": 0.0008548648911528289,
+      "learning_rate": 2.4444444444444447e-06,
       "loss": 0.0002,
       "step": 4445
     },
     {
       "epoch": 14.833333333333334,
-      "grad_norm": 0.0008384964894503355,
-      "learning_rate": 0.00010113333333333334,
+      "grad_norm": 0.0007913237786851823,
+      "learning_rate": 2.2222222222222225e-06,
       "loss": 0.0002,
       "step": 4450
     },
     {
       "epoch": 14.85,
-      "grad_norm": 0.0010527517879381776,
-      "learning_rate": 0.00010102222222222221,
-      "loss": 0.0003,
+      "grad_norm": 0.0007958354544825852,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0002,
       "step": 4455
     },
     {
       "epoch": 14.866666666666667,
-      "grad_norm": 0.0008374205208383501,
-      "learning_rate": 0.00010091111111111111,
+      "grad_norm": 0.000948666303884238,
+      "learning_rate": 1.777777777777778e-06,
       "loss": 0.0002,
       "step": 4460
     },
     {
       "epoch": 14.883333333333333,
-      "grad_norm": 0.0008743240614421666,
-      "learning_rate": 0.00010080000000000001,
+      "grad_norm": 0.0007863120408728719,
+      "learning_rate": 1.5555555555555556e-06,
       "loss": 0.0002,
       "step": 4465
     },
     {
       "epoch": 14.9,
-      "grad_norm": 0.0008273265557363629,
-      "learning_rate": 0.0001006888888888889,
+      "grad_norm": 0.0008085044100880623,
+      "learning_rate": 1.3333333333333334e-06,
       "loss": 0.0002,
       "step": 4470
     },
     {
       "epoch": 14.916666666666666,
-      "grad_norm": 0.0009349312167614698,
-      "learning_rate": 0.0001005777777777778,
-      "loss": 0.0007,
+      "grad_norm": 0.0008453883929178119,
+      "learning_rate": 1.1111111111111112e-06,
+      "loss": 0.0002,
       "step": 4475
     },
     {
       "epoch": 14.933333333333334,
-      "grad_norm": 0.0008336436585523188,
-      "learning_rate": 0.00010046666666666666,
+      "grad_norm": 0.000826246221549809,
+      "learning_rate": 8.88888888888889e-07,
       "loss": 0.0002,
       "step": 4480
     },
     {
       "epoch": 14.95,
-      "grad_norm": 0.0008200375596061349,
-      "learning_rate": 0.00010035555555555556,
+      "grad_norm": 0.0008238254231400788,
+      "learning_rate": 6.666666666666667e-07,
       "loss": 0.0002,
       "step": 4485
     },
     {
       "epoch": 14.966666666666667,
-      "grad_norm": 0.0008048871532082558,
-      "learning_rate": 0.00010024444444444445,
+      "grad_norm": 0.0008291376871056855,
+      "learning_rate": 4.444444444444445e-07,
       "loss": 0.0002,
       "step": 4490
     },
     {
       "epoch": 14.983333333333333,
-      "grad_norm": 0.0007993041654117405,
-      "learning_rate": 0.00010013333333333335,
+      "grad_norm": 0.0008140387944877148,
+      "learning_rate": 2.2222222222222224e-07,
       "loss": 0.0002,
       "step": 4495
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.0007473950390703976,
-      "learning_rate": 0.00010002222222222222,
+      "grad_norm": 0.0007869756664149463,
+      "learning_rate": 0.0,
       "loss": 0.0002,
       "step": 4500
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.8358333333333333,
-      "eval_f1": 0.8384510643537236,
-      "eval_loss": 1.0467338562011719,
-      "eval_precision": 0.8644835517916779,
-      "eval_recall": 0.8358333333333333,
-      "eval_runtime": 16.0803,
-      "eval_samples_per_second": 149.251,
-      "eval_steps_per_second": 18.656,
+      "eval_accuracy": 0.82375,
+      "eval_f1": 0.8246155047936204,
+      "eval_loss": 1.0999717712402344,
+      "eval_precision": 0.842946826937574,
+      "eval_recall": 0.82375,
+      "eval_runtime": 16.0952,
+      "eval_samples_per_second": 149.113,
+      "eval_steps_per_second": 18.639,
       "step": 4500
     },
     {
-      "epoch": 15.016666666666667,
-      "grad_norm": 0.0014457724755629897,
-      "learning_rate": 9.991111111111112e-05,
-      "loss": 0.0002,
-      "step": 4505
-    },
-    {
-      "epoch": 15.033333333333333,
-      "grad_norm": 0.0007872033165767789,
-      "learning_rate": 9.98e-05,
-      "loss": 0.0002,
-      "step": 4510
-    },
-    {
-      "epoch": 15.05,
-      "grad_norm": 0.0008291542180813849,
-      "learning_rate": 9.96888888888889e-05,
-      "loss": 0.0002,
-      "step": 4515
-    },
-    {
-      "epoch": 15.066666666666666,
-      "grad_norm": 0.0007275465759448707,
-      "learning_rate": 9.957777777777778e-05,
-      "loss": 0.0355,
-      "step": 4520
-    },
-    {
-      "epoch": 15.083333333333334,
-      "grad_norm": 0.0006953538977541029,
-      "learning_rate": 9.946666666666668e-05,
-      "loss": 0.0002,
-      "step": 4525
-    },
-    {
-      "epoch": 15.1,
-      "grad_norm": 0.0010279490379616618,
-      "learning_rate": 9.935555555555555e-05,
-      "loss": 0.0002,
-      "step": 4530
-    },
-    {
-      "epoch": 15.116666666666667,
-      "grad_norm": 0.000810708908829838,
-      "learning_rate": 9.924444444444445e-05,
-      "loss": 0.0002,
-      "step": 4535
-    },
-    {
-      "epoch": 15.133333333333333,
-      "grad_norm": 0.0008391262381337583,
-      "learning_rate": 9.913333333333334e-05,
-      "loss": 0.0002,
-      "step": 4540
-    },
-    {
-      "epoch": 15.15,
-      "grad_norm": 0.0008437839569523931,
-      "learning_rate": 9.902222222222223e-05,
-      "loss": 0.0002,
-      "step": 4545
-    },
-    {
-      "epoch": 15.166666666666666,
-      "grad_norm": 0.0008778841583989561,
-      "learning_rate": 9.891111111111112e-05,
-      "loss": 0.0005,
-      "step": 4550
-    },
-    {
-      "epoch": 15.183333333333334,
-      "grad_norm": 0.002019158797338605,
-      "learning_rate": 9.88e-05,
-      "loss": 0.0002,
-      "step": 4555
-    },
-    {
-      "epoch": 15.2,
-      "grad_norm": 0.001081191236153245,
-      "learning_rate": 9.86888888888889e-05,
-      "loss": 0.0003,
-      "step": 4560
-    },
-    {
-      "epoch": 15.216666666666667,
-      "grad_norm": 0.001031155465170741,
-      "learning_rate": 9.857777777777779e-05,
-      "loss": 0.0002,
-      "step": 4565
-    },
-    {
-      "epoch": 15.233333333333333,
-      "grad_norm": 0.005237339995801449,
-      "learning_rate": 9.846666666666667e-05,
-      "loss": 0.0002,
-      "step": 4570
-    },
-    {
-      "epoch": 15.25,
-      "grad_norm": 0.000846281589474529,
-      "learning_rate": 9.835555555555556e-05,
-      "loss": 0.0002,
-      "step": 4575
-    },
-    {
-      "epoch": 15.266666666666667,
-      "grad_norm": 0.0023093996569514275,
-      "learning_rate": 9.824444444444445e-05,
-      "loss": 0.0002,
-      "step": 4580
-    },
-    {
-      "epoch": 15.283333333333333,
-      "grad_norm": 0.0010402537882328033,
-      "learning_rate": 9.813333333333334e-05,
-      "loss": 0.0002,
-      "step": 4585
-    },
-    {
-      "epoch": 15.3,
-      "grad_norm": 0.0008053139317780733,
-      "learning_rate": 9.802222222222222e-05,
-      "loss": 0.0002,
-      "step": 4590
-    },
-    {
-      "epoch": 15.316666666666666,
-      "grad_norm": 0.0008600462460890412,
-      "learning_rate": 9.791111111111112e-05,
-      "loss": 0.0002,
-      "step": 4595
-    },
-    {
-      "epoch": 15.333333333333334,
-      "grad_norm": 0.0007194678182713687,
-      "learning_rate": 9.78e-05,
-      "loss": 0.0002,
-      "step": 4600
-    },
-    {
-      "epoch": 15.333333333333334,
-      "eval_accuracy": 0.8420833333333333,
-      "eval_f1": 0.8454028450431317,
-      "eval_loss": 0.9068851470947266,
-      "eval_precision": 0.8616448684691372,
-      "eval_recall": 0.8420833333333333,
-      "eval_runtime": 16.4052,
-      "eval_samples_per_second": 146.295,
-      "eval_steps_per_second": 18.287,
-      "step": 4600
-    },
-    {
-      "epoch": 15.35,
-      "grad_norm": 0.0007157129584811628,
-      "learning_rate": 9.768888888888889e-05,
-      "loss": 0.0002,
-      "step": 4605
-    },
-    {
-      "epoch": 15.366666666666667,
-      "grad_norm": 0.0007897672476246953,
-      "learning_rate": 9.757777777777777e-05,
-      "loss": 0.0002,
-      "step": 4610
-    },
-    {
-      "epoch": 15.383333333333333,
-      "grad_norm": 0.0007469132542610168,
-      "learning_rate": 9.746666666666667e-05,
-      "loss": 0.0002,
-      "step": 4615
-    },
-    {
-      "epoch": 15.4,
-      "grad_norm": 0.011094697751104832,
-      "learning_rate": 9.735555555555556e-05,
-      "loss": 0.0002,
-      "step": 4620
-    },
-    {
-      "epoch": 15.416666666666666,
-      "grad_norm": 0.0007703523151576519,
-      "learning_rate": 9.724444444444444e-05,
-      "loss": 0.0002,
-      "step": 4625
-    },
-    {
-      "epoch": 15.433333333333334,
-      "grad_norm": 0.0007433987921103835,
-      "learning_rate": 9.713333333333334e-05,
-      "loss": 0.0002,
-      "step": 4630
-    },
-    {
-      "epoch": 15.45,
-      "grad_norm": 0.00078797951573506,
-      "learning_rate": 9.702222222222223e-05,
-      "loss": 0.0002,
-      "step": 4635
-    },
-    {
-      "epoch": 15.466666666666667,
-      "grad_norm": 0.0006272565806284547,
-      "learning_rate": 9.691111111111112e-05,
-      "loss": 0.0002,
-      "step": 4640
-    },
-    {
-      "epoch": 15.483333333333333,
-      "grad_norm": 0.000788542500231415,
-      "learning_rate": 9.680000000000001e-05,
-      "loss": 0.0002,
-      "step": 4645
-    },
-    {
-      "epoch": 15.5,
-      "grad_norm": 0.0006700591766275465,
-      "learning_rate": 9.668888888888889e-05,
-      "loss": 0.0002,
-      "step": 4650
-    },
-    {
-      "epoch": 15.516666666666667,
-      "grad_norm": 0.0007578362710773945,
-      "learning_rate": 9.657777777777778e-05,
-      "loss": 0.0002,
-      "step": 4655
-    },
-    {
-      "epoch": 15.533333333333333,
-      "grad_norm": 0.0006467472412623465,
-      "learning_rate": 9.646666666666668e-05,
-      "loss": 0.0002,
-      "step": 4660
-    },
-    {
-      "epoch": 15.55,
-      "grad_norm": 0.0009406217141076922,
-      "learning_rate": 9.635555555555556e-05,
-      "loss": 0.0002,
-      "step": 4665
-    },
-    {
-      "epoch": 15.566666666666666,
-      "grad_norm": 0.0010096579790115356,
-      "learning_rate": 9.624444444444445e-05,
-      "loss": 0.0002,
-      "step": 4670
-    },
-    {
-      "epoch": 15.583333333333334,
-      "grad_norm": 0.0007666666642762721,
-      "learning_rate": 9.613333333333334e-05,
-      "loss": 0.0002,
-      "step": 4675
-    },
-    {
-      "epoch": 15.6,
-      "grad_norm": 0.0008496129885315895,
-      "learning_rate": 9.602222222222223e-05,
-      "loss": 0.0002,
-      "step": 4680
-    },
-    {
-      "epoch": 15.616666666666667,
-      "grad_norm": 0.0007218897808343172,
-      "learning_rate": 9.591111111111111e-05,
-      "loss": 0.0002,
-      "step": 4685
-    },
-    {
-      "epoch": 15.633333333333333,
-      "grad_norm": 0.0006704768165946007,
-      "learning_rate": 9.58e-05,
-      "loss": 0.0002,
-      "step": 4690
-    },
-    {
-      "epoch": 15.65,
-      "grad_norm": 0.000986928935162723,
-      "learning_rate": 9.56888888888889e-05,
-      "loss": 0.0002,
-      "step": 4695
-    },
-    {
-      "epoch": 15.666666666666666,
-      "grad_norm": 0.000747459998819977,
-      "learning_rate": 9.557777777777778e-05,
-      "loss": 0.0002,
-      "step": 4700
-    },
-    {
-      "epoch": 15.666666666666666,
-      "eval_accuracy": 0.845,
-      "eval_f1": 0.8483406533000757,
-      "eval_loss": 0.9158483743667603,
-      "eval_precision": 0.8646225764938502,
-      "eval_recall": 0.845,
-      "eval_runtime": 16.2097,
-      "eval_samples_per_second": 148.059,
-      "eval_steps_per_second": 18.507,
-      "step": 4700
-    },
-    {
-      "epoch": 15.683333333333334,
-      "grad_norm": 0.0009081228636205196,
-      "learning_rate": 9.546666666666667e-05,
-      "loss": 0.0002,
-      "step": 4705
-    },
-    {
-      "epoch": 15.7,
-      "grad_norm": 0.0006908600917086005,
-      "learning_rate": 9.535555555555556e-05,
-      "loss": 0.0002,
-      "step": 4710
-    },
-    {
-      "epoch": 15.716666666666667,
-      "grad_norm": 0.001878284732811153,
-      "learning_rate": 9.524444444444445e-05,
-      "loss": 0.0002,
-      "step": 4715
-    },
-    {
-      "epoch": 15.733333333333333,
-      "grad_norm": 0.0006603689980693161,
-      "learning_rate": 9.513333333333335e-05,
-      "loss": 0.0002,
-      "step": 4720
-    },
-    {
-      "epoch": 15.75,
-      "grad_norm": 0.0007561177480965853,
-      "learning_rate": 9.502222222222222e-05,
-      "loss": 0.0002,
-      "step": 4725
-    },
-    {
-      "epoch": 15.766666666666667,
-      "grad_norm": 0.0007673463551327586,
-      "learning_rate": 9.491111111111112e-05,
-      "loss": 0.0002,
-      "step": 4730
-    },
-    {
-      "epoch": 15.783333333333333,
-      "grad_norm": 0.000582091452088207,
-      "learning_rate": 9.48e-05,
-      "loss": 0.0002,
-      "step": 4735
-    },
-    {
-      "epoch": 15.8,
-      "grad_norm": 0.0005692114355042577,
-      "learning_rate": 9.46888888888889e-05,
-      "loss": 0.0002,
-      "step": 4740
-    },
-    {
-      "epoch": 15.816666666666666,
-      "grad_norm": 0.0007047142134979367,
-      "learning_rate": 9.457777777777778e-05,
-      "loss": 0.0002,
-      "step": 4745
-    },
-    {
-      "epoch": 15.833333333333334,
-      "grad_norm": 0.0007251726347021759,
-      "learning_rate": 9.446666666666667e-05,
-      "loss": 0.0002,
-      "step": 4750
-    },
-    {
-      "epoch": 15.85,
-      "grad_norm": 0.0006690524751320481,
-      "learning_rate": 9.435555555555557e-05,
-      "loss": 0.0002,
-      "step": 4755
-    },
-    {
-      "epoch": 15.866666666666667,
-      "grad_norm": 0.0006965235224924982,
-      "learning_rate": 9.424444444444445e-05,
-      "loss": 0.0002,
-      "step": 4760
-    },
-    {
-      "epoch": 15.883333333333333,
-      "grad_norm": 0.0008274397696368396,
-      "learning_rate": 9.413333333333334e-05,
-      "loss": 0.0002,
-      "step": 4765
-    },
-    {
-      "epoch": 15.9,
-      "grad_norm": 0.0007212147465907037,
-      "learning_rate": 9.402222222222222e-05,
-      "loss": 0.0002,
-      "step": 4770
-    },
-    {
-      "epoch": 15.916666666666666,
-      "grad_norm": 0.0006132972193881869,
-      "learning_rate": 9.391111111111112e-05,
-      "loss": 0.0002,
-      "step": 4775
-    },
-    {
-      "epoch": 15.933333333333334,
-      "grad_norm": 0.0007363010663539171,
-      "learning_rate": 9.38e-05,
-      "loss": 0.0002,
-      "step": 4780
-    },
-    {
-      "epoch": 15.95,
-      "grad_norm": 0.0007070496794767678,
-      "learning_rate": 9.368888888888889e-05,
-      "loss": 0.0002,
-      "step": 4785
-    },
-    {
-      "epoch": 15.966666666666667,
-      "grad_norm": 0.0006082231993786991,
-      "learning_rate": 9.357777777777779e-05,
-      "loss": 0.0002,
-      "step": 4790
-    },
-    {
-      "epoch": 15.983333333333333,
-      "grad_norm": 0.000716627633664757,
-      "learning_rate": 9.346666666666667e-05,
-      "loss": 0.0002,
-      "step": 4795
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 0.0006360949482768774,
-      "learning_rate": 9.335555555555557e-05,
-      "loss": 0.0002,
-      "step": 4800
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8470833333333333,
-      "eval_f1": 0.8504293204567286,
-      "eval_loss": 0.9191440939903259,
-      "eval_precision": 0.8669833103634946,
-      "eval_recall": 0.8470833333333333,
-      "eval_runtime": 16.2435,
-      "eval_samples_per_second": 147.751,
-      "eval_steps_per_second": 18.469,
-      "step": 4800
-    },
-    {
-      "epoch": 16.016666666666666,
-      "grad_norm": 0.0006230503786355257,
-      "learning_rate": 9.324444444444444e-05,
-      "loss": 0.0001,
-      "step": 4805
-    },
-    {
-      "epoch": 16.033333333333335,
-      "grad_norm": 0.0006324824062176049,
-      "learning_rate": 9.313333333333334e-05,
-      "loss": 0.0001,
-      "step": 4810
-    },
-    {
-      "epoch": 16.05,
-      "grad_norm": 0.0006384122534655035,
-      "learning_rate": 9.302222222222222e-05,
-      "loss": 0.0002,
-      "step": 4815
-    },
-    {
-      "epoch": 16.066666666666666,
-      "grad_norm": 0.0008960968698374927,
-      "learning_rate": 9.291111111111112e-05,
-      "loss": 0.0002,
-      "step": 4820
-    },
-    {
-      "epoch": 16.083333333333332,
-      "grad_norm": 0.0006210182327777147,
-      "learning_rate": 9.28e-05,
-      "loss": 0.0001,
-      "step": 4825
-    },
-    {
-      "epoch": 16.1,
-      "grad_norm": 0.0005818836507387459,
-      "learning_rate": 9.268888888888889e-05,
-      "loss": 0.0001,
-      "step": 4830
-    },
-    {
-      "epoch": 16.116666666666667,
-      "grad_norm": 0.000642772763967514,
-      "learning_rate": 9.257777777777779e-05,
-      "loss": 0.0001,
-      "step": 4835
-    },
-    {
-      "epoch": 16.133333333333333,
-      "grad_norm": 0.0008118034456856549,
-      "learning_rate": 9.246666666666667e-05,
-      "loss": 0.0002,
-      "step": 4840
-    },
-    {
-      "epoch": 16.15,
-      "grad_norm": 0.0006220751674845815,
-      "learning_rate": 9.235555555555556e-05,
-      "loss": 0.0001,
-      "step": 4845
-    },
-    {
-      "epoch": 16.166666666666668,
-      "grad_norm": 0.0005800512153655291,
-      "learning_rate": 9.224444444444444e-05,
-      "loss": 0.0001,
-      "step": 4850
-    },
-    {
-      "epoch": 16.183333333333334,
-      "grad_norm": 0.0006678634090349078,
-      "learning_rate": 9.213333333333334e-05,
-      "loss": 0.0001,
-      "step": 4855
-    },
-    {
-      "epoch": 16.2,
-      "grad_norm": 0.0006166800740174949,
-      "learning_rate": 9.202222222222223e-05,
-      "loss": 0.0001,
-      "step": 4860
-    },
-    {
-      "epoch": 16.216666666666665,
-      "grad_norm": 0.0006017700070515275,
-      "learning_rate": 9.191111111111111e-05,
-      "loss": 0.0001,
-      "step": 4865
-    },
-    {
-      "epoch": 16.233333333333334,
-      "grad_norm": 0.0007980185328051448,
-      "learning_rate": 9.180000000000001e-05,
-      "loss": 0.0001,
-      "step": 4870
-    },
-    {
-      "epoch": 16.25,
-      "grad_norm": 0.0006067790673114359,
-      "learning_rate": 9.16888888888889e-05,
-      "loss": 0.0001,
-      "step": 4875
-    },
-    {
-      "epoch": 16.266666666666666,
-      "grad_norm": 0.0005562791484408081,
-      "learning_rate": 9.157777777777778e-05,
-      "loss": 0.0001,
-      "step": 4880
-    },
-    {
-      "epoch": 16.283333333333335,
-      "grad_norm": 0.0005827884306199849,
-      "learning_rate": 9.146666666666666e-05,
-      "loss": 0.0001,
-      "step": 4885
-    },
-    {
-      "epoch": 16.3,
-      "grad_norm": 0.0007149440352804959,
-      "learning_rate": 9.135555555555556e-05,
-      "loss": 0.0002,
-      "step": 4890
-    },
-    {
-      "epoch": 16.316666666666666,
-      "grad_norm": 0.0006632471340708435,
-      "learning_rate": 9.124444444444445e-05,
-      "loss": 0.0001,
-      "step": 4895
-    },
-    {
-      "epoch": 16.333333333333332,
-      "grad_norm": 0.0005937435780651867,
-      "learning_rate": 9.113333333333334e-05,
-      "loss": 0.0001,
-      "step": 4900
-    },
-    {
-      "epoch": 16.333333333333332,
-      "eval_accuracy": 0.845,
-      "eval_f1": 0.8482815682111354,
-      "eval_loss": 0.9290241599082947,
-      "eval_precision": 0.8647488718829582,
-      "eval_recall": 0.845,
-      "eval_runtime": 16.4058,
-      "eval_samples_per_second": 146.29,
-      "eval_steps_per_second": 18.286,
-      "step": 4900
-    },
-    {
-      "epoch": 16.35,
-      "grad_norm": 0.0007545924163423479,
-      "learning_rate": 9.102222222222223e-05,
-      "loss": 0.0001,
-      "step": 4905
-    },
-    {
-      "epoch": 16.366666666666667,
-      "grad_norm": 0.0007352451211772859,
-      "learning_rate": 9.091111111111111e-05,
-      "loss": 0.0001,
-      "step": 4910
-    },
-    {
-      "epoch": 16.383333333333333,
-      "grad_norm": 0.0005104963784106076,
-      "learning_rate": 9.080000000000001e-05,
-      "loss": 0.0001,
-      "step": 4915
-    },
-    {
-      "epoch": 16.4,
-      "grad_norm": 0.0005549977067857981,
-      "learning_rate": 9.06888888888889e-05,
-      "loss": 0.0001,
-      "step": 4920
-    },
-    {
-      "epoch": 16.416666666666668,
-      "grad_norm": 0.0005722798523493111,
-      "learning_rate": 9.057777777777778e-05,
-      "loss": 0.0001,
-      "step": 4925
-    },
-    {
-      "epoch": 16.433333333333334,
-      "grad_norm": 0.0006917107966728508,
-      "learning_rate": 9.046666666666667e-05,
-      "loss": 0.0001,
-      "step": 4930
-    },
-    {
-      "epoch": 16.45,
-      "grad_norm": 0.0005949722835794091,
-      "learning_rate": 9.035555555555556e-05,
-      "loss": 0.0001,
-      "step": 4935
-    },
-    {
-      "epoch": 16.466666666666665,
-      "grad_norm": 0.0005543401348404586,
-      "learning_rate": 9.024444444444445e-05,
-      "loss": 0.0001,
-      "step": 4940
-    },
-    {
-      "epoch": 16.483333333333334,
-      "grad_norm": 0.0006838486297056079,
-      "learning_rate": 9.013333333333333e-05,
-      "loss": 0.0001,
-      "step": 4945
-    },
-    {
-      "epoch": 16.5,
-      "grad_norm": 0.0005776677862741053,
-      "learning_rate": 9.002222222222223e-05,
-      "loss": 0.0001,
-      "step": 4950
-    },
-    {
-      "epoch": 16.516666666666666,
-      "grad_norm": 0.000543220026884228,
-      "learning_rate": 8.991111111111112e-05,
-      "loss": 0.0001,
-      "step": 4955
-    },
-    {
-      "epoch": 16.533333333333335,
-      "grad_norm": 0.0005636735004372895,
-      "learning_rate": 8.98e-05,
-      "loss": 0.0001,
-      "step": 4960
-    },
-    {
-      "epoch": 16.55,
-      "grad_norm": 0.0005218144506216049,
-      "learning_rate": 8.968888888888889e-05,
-      "loss": 0.0001,
-      "step": 4965
-    },
-    {
-      "epoch": 16.566666666666666,
-      "grad_norm": 0.0006111106486059725,
-      "learning_rate": 8.957777777777778e-05,
-      "loss": 0.0001,
-      "step": 4970
-    },
-    {
-      "epoch": 16.583333333333332,
-      "grad_norm": 0.0005927429883740842,
-      "learning_rate": 8.946666666666668e-05,
-      "loss": 0.0001,
-      "step": 4975
-    },
-    {
-      "epoch": 16.6,
-      "grad_norm": 0.000481991795822978,
-      "learning_rate": 8.935555555555555e-05,
-      "loss": 0.0001,
-      "step": 4980
-    },
-    {
-      "epoch": 16.616666666666667,
-      "grad_norm": 0.0005387875717133284,
-      "learning_rate": 8.924444444444445e-05,
-      "loss": 0.0001,
-      "step": 4985
-    },
-    {
-      "epoch": 16.633333333333333,
-      "grad_norm": 0.0005191801465116441,
-      "learning_rate": 8.913333333333334e-05,
-      "loss": 0.0001,
-      "step": 4990
-    },
-    {
-      "epoch": 16.65,
-      "grad_norm": 0.0014066160656511784,
-      "learning_rate": 8.902222222222223e-05,
-      "loss": 0.0001,
-      "step": 4995
-    },
-    {
-      "epoch": 16.666666666666668,
-      "grad_norm": 0.0005484591820277274,
-      "learning_rate": 8.89111111111111e-05,
-      "loss": 0.0001,
-      "step": 5000
-    },
-    {
-      "epoch": 16.666666666666668,
-      "eval_accuracy": 0.8470833333333333,
-      "eval_f1": 0.8502237580995756,
-      "eval_loss": 0.9365918040275574,
-      "eval_precision": 0.8662773528086604,
-      "eval_recall": 0.8470833333333333,
-      "eval_runtime": 16.4194,
-      "eval_samples_per_second": 146.168,
-      "eval_steps_per_second": 18.271,
-      "step": 5000
-    },
-    {
-      "epoch": 16.683333333333334,
-      "grad_norm": 0.0009574631694704294,
-      "learning_rate": 8.88e-05,
-      "loss": 0.0001,
-      "step": 5005
-    },
-    {
-      "epoch": 16.7,
-      "grad_norm": 0.0005553672090172768,
-      "learning_rate": 8.868888888888889e-05,
-      "loss": 0.0001,
-      "step": 5010
-    },
-    {
-      "epoch": 16.716666666666665,
-      "grad_norm": 0.00047579422243870795,
-      "learning_rate": 8.857777777777779e-05,
-      "loss": 0.0001,
-      "step": 5015
-    },
-    {
-      "epoch": 16.733333333333334,
-      "grad_norm": 0.0005458922241814435,
-      "learning_rate": 8.846666666666667e-05,
-      "loss": 0.0001,
-      "step": 5020
-    },
-    {
-      "epoch": 16.75,
-      "grad_norm": 0.0005622290191240609,
-      "learning_rate": 8.835555555555556e-05,
-      "loss": 0.0001,
-      "step": 5025
-    },
-    {
-      "epoch": 16.766666666666666,
-      "grad_norm": 0.0006377232493832707,
-      "learning_rate": 8.824444444444445e-05,
-      "loss": 0.0001,
-      "step": 5030
-    },
-    {
-      "epoch": 16.783333333333335,
-      "grad_norm": 0.0006062481552362442,
-      "learning_rate": 8.813333333333334e-05,
-      "loss": 0.0001,
-      "step": 5035
-    },
-    {
-      "epoch": 16.8,
-      "grad_norm": 0.0005614449037238955,
-      "learning_rate": 8.802222222222222e-05,
-      "loss": 0.0001,
-      "step": 5040
-    },
-    {
-      "epoch": 16.816666666666666,
-      "grad_norm": 0.0005647405632771552,
-      "learning_rate": 8.791111111111111e-05,
-      "loss": 0.0001,
-      "step": 5045
-    },
-    {
-      "epoch": 16.833333333333332,
-      "grad_norm": 0.0005216348799876869,
-      "learning_rate": 8.78e-05,
-      "loss": 0.0001,
-      "step": 5050
-    },
-    {
-      "epoch": 16.85,
-      "grad_norm": 0.0006121605983935297,
-      "learning_rate": 8.76888888888889e-05,
-      "loss": 0.0001,
-      "step": 5055
-    },
-    {
-      "epoch": 16.866666666666667,
-      "grad_norm": 0.0006510195671580732,
-      "learning_rate": 8.757777777777778e-05,
-      "loss": 0.0001,
-      "step": 5060
-    },
-    {
-      "epoch": 16.883333333333333,
-      "grad_norm": 0.0005507472087629139,
-      "learning_rate": 8.746666666666667e-05,
-      "loss": 0.0001,
-      "step": 5065
-    },
-    {
-      "epoch": 16.9,
-      "grad_norm": 0.0005956399836577475,
-      "learning_rate": 8.735555555555556e-05,
-      "loss": 0.0001,
-      "step": 5070
-    },
-    {
-      "epoch": 16.916666666666668,
-      "grad_norm": 0.0005447050207294524,
-      "learning_rate": 8.724444444444446e-05,
-      "loss": 0.0001,
-      "step": 5075
-    },
-    {
-      "epoch": 16.933333333333334,
-      "grad_norm": 0.0005376634071581066,
-      "learning_rate": 8.713333333333333e-05,
-      "loss": 0.0001,
-      "step": 5080
-    },
-    {
-      "epoch": 16.95,
-      "grad_norm": 0.0005058944807387888,
-      "learning_rate": 8.702222222222223e-05,
-      "loss": 0.0001,
-      "step": 5085
-    },
-    {
-      "epoch": 16.966666666666665,
-      "grad_norm": 0.0005405113915912807,
-      "learning_rate": 8.691111111111111e-05,
-      "loss": 0.0001,
-      "step": 5090
-    },
-    {
-      "epoch": 16.983333333333334,
-      "grad_norm": 0.0006421031430363655,
-      "learning_rate": 8.680000000000001e-05,
-      "loss": 0.0001,
-      "step": 5095
-    },
-    {
-      "epoch": 17.0,
-      "grad_norm": 0.0006098221056163311,
-      "learning_rate": 8.66888888888889e-05,
-      "loss": 0.0001,
-      "step": 5100
-    },
-    {
-      "epoch": 17.0,
-      "eval_accuracy": 0.8470833333333333,
-      "eval_f1": 0.8502237580995756,
-      "eval_loss": 0.9468116164207458,
-      "eval_precision": 0.8662773528086604,
-      "eval_recall": 0.8470833333333333,
-      "eval_runtime": 16.7574,
-      "eval_samples_per_second": 143.22,
-      "eval_steps_per_second": 17.903,
-      "step": 5100
-    },
-    {
-      "epoch": 17.016666666666666,
-      "grad_norm": 0.0005108315963298082,
-      "learning_rate": 8.657777777777778e-05,
-      "loss": 0.0001,
-      "step": 5105
-    },
-    {
-      "epoch": 17.033333333333335,
-      "grad_norm": 0.0004777853609994054,
-      "learning_rate": 8.646666666666668e-05,
-      "loss": 0.0001,
-      "step": 5110
-    },
-    {
-      "epoch": 17.05,
-      "grad_norm": 0.0005830395384691656,
-      "learning_rate": 8.635555555555556e-05,
-      "loss": 0.0001,
-      "step": 5115
-    },
-    {
-      "epoch": 17.066666666666666,
-      "grad_norm": 0.0006180200725793839,
-      "learning_rate": 8.624444444444445e-05,
-      "loss": 0.0001,
-      "step": 5120
-    },
-    {
-      "epoch": 17.083333333333332,
-      "grad_norm": 0.0004901050706394017,
-      "learning_rate": 8.613333333333333e-05,
-      "loss": 0.0001,
-      "step": 5125
-    },
-    {
-      "epoch": 17.1,
-      "grad_norm": 0.000444393401267007,
-      "learning_rate": 8.602222222222223e-05,
-      "loss": 0.0001,
-      "step": 5130
-    },
-    {
-      "epoch": 17.116666666666667,
-      "grad_norm": 0.0005082734278403223,
-      "learning_rate": 8.591111111111111e-05,
-      "loss": 0.0001,
-      "step": 5135
-    },
-    {
-      "epoch": 17.133333333333333,
-      "grad_norm": 0.0005430561141110957,
-      "learning_rate": 8.58e-05,
-      "loss": 0.0001,
-      "step": 5140
-    },
-    {
-      "epoch": 17.15,
-      "grad_norm": 0.0006819517584517598,
-      "learning_rate": 8.56888888888889e-05,
-      "loss": 0.0001,
-      "step": 5145
-    },
-    {
-      "epoch": 17.166666666666668,
-      "grad_norm": 0.00047059732605703175,
-      "learning_rate": 8.557777777777778e-05,
-      "loss": 0.0001,
-      "step": 5150
-    },
-    {
-      "epoch": 17.183333333333334,
-      "grad_norm": 0.0005978972767479718,
-      "learning_rate": 8.546666666666667e-05,
-      "loss": 0.0001,
-      "step": 5155
-    },
-    {
-      "epoch": 17.2,
-      "grad_norm": 0.0005610102671198547,
-      "learning_rate": 8.535555555555555e-05,
-      "loss": 0.0001,
-      "step": 5160
-    },
-    {
-      "epoch": 17.216666666666665,
-      "grad_norm": 0.0004539240035228431,
-      "learning_rate": 8.524444444444445e-05,
-      "loss": 0.0001,
-      "step": 5165
-    },
-    {
-      "epoch": 17.233333333333334,
-      "grad_norm": 0.0005264002247713506,
-      "learning_rate": 8.513333333333335e-05,
-      "loss": 0.0001,
-      "step": 5170
-    },
-    {
-      "epoch": 17.25,
-      "grad_norm": 0.0004516485205385834,
-      "learning_rate": 8.502222222222223e-05,
-      "loss": 0.0001,
-      "step": 5175
-    },
-    {
-      "epoch": 17.266666666666666,
-      "grad_norm": 0.0005066717276349664,
-      "learning_rate": 8.491111111111112e-05,
-      "loss": 0.0001,
-      "step": 5180
-    },
-    {
-      "epoch": 17.283333333333335,
-      "grad_norm": 0.000616394157987088,
-      "learning_rate": 8.48e-05,
-      "loss": 0.0001,
-      "step": 5185
-    },
-    {
-      "epoch": 17.3,
-      "grad_norm": 0.000552941404748708,
-      "learning_rate": 8.46888888888889e-05,
-      "loss": 0.0001,
-      "step": 5190
-    },
-    {
-      "epoch": 17.316666666666666,
-      "grad_norm": 0.0004754888650495559,
-      "learning_rate": 8.457777777777778e-05,
-      "loss": 0.0001,
-      "step": 5195
-    },
-    {
-      "epoch": 17.333333333333332,
-      "grad_norm": 0.0005057536764070392,
-      "learning_rate": 8.446666666666667e-05,
-      "loss": 0.0001,
-      "step": 5200
-    },
-    {
-      "epoch": 17.333333333333332,
-      "eval_accuracy": 0.8475,
-      "eval_f1": 0.8505955408407442,
-      "eval_loss": 0.9552567601203918,
-      "eval_precision": 0.8665420645398636,
-      "eval_recall": 0.8475,
-      "eval_runtime": 16.5737,
-      "eval_samples_per_second": 144.808,
-      "eval_steps_per_second": 18.101,
-      "step": 5200
-    },
-    {
-      "epoch": 17.35,
-      "grad_norm": 0.000492580293212086,
-      "learning_rate": 8.435555555555555e-05,
-      "loss": 0.0001,
-      "step": 5205
-    },
-    {
-      "epoch": 17.366666666666667,
-      "grad_norm": 0.0004817103035748005,
-      "learning_rate": 8.424444444444445e-05,
-      "loss": 0.0001,
-      "step": 5210
-    },
-    {
-      "epoch": 17.383333333333333,
-      "grad_norm": 0.000497109373100102,
-      "learning_rate": 8.413333333333334e-05,
-      "loss": 0.0001,
-      "step": 5215
-    },
-    {
-      "epoch": 17.4,
-      "grad_norm": 0.001187227084301412,
-      "learning_rate": 8.402222222222222e-05,
-      "loss": 0.0001,
-      "step": 5220
-    },
-    {
-      "epoch": 17.416666666666668,
-      "grad_norm": 0.00046513794222846627,
-      "learning_rate": 8.391111111111112e-05,
-      "loss": 0.0001,
-      "step": 5225
-    },
-    {
-      "epoch": 17.433333333333334,
-      "grad_norm": 0.000544400536455214,
-      "learning_rate": 8.38e-05,
-      "loss": 0.0001,
-      "step": 5230
-    },
-    {
-      "epoch": 17.45,
-      "grad_norm": 0.0004806882352568209,
-      "learning_rate": 8.368888888888889e-05,
-      "loss": 0.0001,
-      "step": 5235
-    },
-    {
-      "epoch": 17.466666666666665,
-      "grad_norm": 0.0006065104971639812,
-      "learning_rate": 8.357777777777777e-05,
-      "loss": 0.0001,
-      "step": 5240
-    },
-    {
-      "epoch": 17.483333333333334,
-      "grad_norm": 0.0004721056902781129,
-      "learning_rate": 8.346666666666667e-05,
-      "loss": 0.0001,
-      "step": 5245
-    },
-    {
-      "epoch": 17.5,
-      "grad_norm": 0.0004424745275173336,
-      "learning_rate": 8.335555555555557e-05,
-      "loss": 0.0001,
-      "step": 5250
-    },
-    {
-      "epoch": 17.516666666666666,
-      "grad_norm": 0.0005098132533021271,
-      "learning_rate": 8.324444444444444e-05,
-      "loss": 0.0001,
-      "step": 5255
-    },
-    {
-      "epoch": 17.533333333333335,
-      "grad_norm": 0.0004448130785021931,
-      "learning_rate": 8.313333333333334e-05,
-      "loss": 0.0001,
-      "step": 5260
-    },
-    {
-      "epoch": 17.55,
-      "grad_norm": 0.0004924663226120174,
-      "learning_rate": 8.302222222222222e-05,
-      "loss": 0.0001,
-      "step": 5265
-    },
-    {
-      "epoch": 17.566666666666666,
-      "grad_norm": 0.0006738837109878659,
-      "learning_rate": 8.291111111111112e-05,
-      "loss": 0.0001,
-      "step": 5270
-    },
-    {
-      "epoch": 17.583333333333332,
-      "grad_norm": 0.0004773933032993227,
-      "learning_rate": 8.28e-05,
-      "loss": 0.0001,
-      "step": 5275
-    },
-    {
-      "epoch": 17.6,
-      "grad_norm": 0.0005385245312936604,
-      "learning_rate": 8.268888888888889e-05,
-      "loss": 0.0001,
-      "step": 5280
-    },
-    {
-      "epoch": 17.616666666666667,
-      "grad_norm": 0.000527376658283174,
-      "learning_rate": 8.257777777777779e-05,
-      "loss": 0.0001,
-      "step": 5285
-    },
-    {
-      "epoch": 17.633333333333333,
-      "grad_norm": 0.0005253239651210606,
-      "learning_rate": 8.246666666666667e-05,
-      "loss": 0.0001,
-      "step": 5290
-    },
-    {
-      "epoch": 17.65,
-      "grad_norm": 0.0005124951130710542,
-      "learning_rate": 8.235555555555556e-05,
-      "loss": 0.0001,
-      "step": 5295
-    },
-    {
-      "epoch": 17.666666666666668,
-      "grad_norm": 0.0005799499340355396,
-      "learning_rate": 8.224444444444444e-05,
-      "loss": 0.0001,
-      "step": 5300
-    },
-    {
-      "epoch": 17.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.849821654434978,
-      "eval_loss": 0.9640341997146606,
-      "eval_precision": 0.8665953625836232,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.3324,
-      "eval_samples_per_second": 146.947,
-      "eval_steps_per_second": 18.368,
-      "step": 5300
-    },
-    {
-      "epoch": 17.683333333333334,
-      "grad_norm": 0.00046302445116452873,
-      "learning_rate": 8.213333333333334e-05,
-      "loss": 0.0001,
-      "step": 5305
-    },
-    {
-      "epoch": 17.7,
-      "grad_norm": 0.0006577731692232192,
-      "learning_rate": 8.202222222222223e-05,
-      "loss": 0.0001,
-      "step": 5310
-    },
-    {
-      "epoch": 17.716666666666665,
-      "grad_norm": 0.0005274518625810742,
-      "learning_rate": 8.191111111111111e-05,
-      "loss": 0.0001,
-      "step": 5315
-    },
-    {
-      "epoch": 17.733333333333334,
-      "grad_norm": 0.0004950123257003725,
-      "learning_rate": 8.18e-05,
-      "loss": 0.0001,
-      "step": 5320
-    },
-    {
-      "epoch": 17.75,
-      "grad_norm": 0.0005038065719418228,
-      "learning_rate": 8.16888888888889e-05,
-      "loss": 0.0001,
-      "step": 5325
-    },
-    {
-      "epoch": 17.766666666666666,
-      "grad_norm": 0.0004942173836752772,
-      "learning_rate": 8.157777777777779e-05,
-      "loss": 0.0001,
-      "step": 5330
-    },
-    {
-      "epoch": 17.783333333333335,
-      "grad_norm": 0.0005054863286204636,
-      "learning_rate": 8.146666666666666e-05,
-      "loss": 0.0001,
-      "step": 5335
-    },
-    {
-      "epoch": 17.8,
-      "grad_norm": 0.00047163470298983157,
-      "learning_rate": 8.135555555555556e-05,
-      "loss": 0.0001,
-      "step": 5340
-    },
-    {
-      "epoch": 17.816666666666666,
-      "grad_norm": 0.0006497229333035648,
-      "learning_rate": 8.124444444444445e-05,
-      "loss": 0.0001,
-      "step": 5345
-    },
-    {
-      "epoch": 17.833333333333332,
-      "grad_norm": 0.000452403532108292,
-      "learning_rate": 8.113333333333334e-05,
-      "loss": 0.0001,
-      "step": 5350
-    },
-    {
-      "epoch": 17.85,
-      "grad_norm": 0.00045077537652105093,
-      "learning_rate": 8.102222222222222e-05,
-      "loss": 0.0001,
-      "step": 5355
-    },
-    {
-      "epoch": 17.866666666666667,
-      "grad_norm": 0.0005225049681030214,
-      "learning_rate": 8.091111111111111e-05,
-      "loss": 0.0001,
-      "step": 5360
-    },
-    {
-      "epoch": 17.883333333333333,
-      "grad_norm": 0.000473509804578498,
-      "learning_rate": 8.080000000000001e-05,
-      "loss": 0.0001,
-      "step": 5365
-    },
-    {
-      "epoch": 17.9,
-      "grad_norm": 0.00046375440433621407,
-      "learning_rate": 8.06888888888889e-05,
-      "loss": 0.0001,
-      "step": 5370
-    },
-    {
-      "epoch": 17.916666666666668,
-      "grad_norm": 0.0004688831977546215,
-      "learning_rate": 8.057777777777778e-05,
-      "loss": 0.0001,
-      "step": 5375
-    },
-    {
-      "epoch": 17.933333333333334,
-      "grad_norm": 0.0004664724983740598,
-      "learning_rate": 8.046666666666667e-05,
-      "loss": 0.0001,
-      "step": 5380
-    },
-    {
-      "epoch": 17.95,
-      "grad_norm": 0.00043734596692956984,
-      "learning_rate": 8.035555555555556e-05,
-      "loss": 0.0001,
-      "step": 5385
-    },
-    {
-      "epoch": 17.966666666666665,
-      "grad_norm": 0.0005290173576213419,
-      "learning_rate": 8.024444444444445e-05,
-      "loss": 0.0001,
-      "step": 5390
-    },
-    {
-      "epoch": 17.983333333333334,
-      "grad_norm": 0.0004664583539124578,
-      "learning_rate": 8.013333333333333e-05,
-      "loss": 0.0001,
-      "step": 5395
-    },
-    {
-      "epoch": 18.0,
-      "grad_norm": 0.000577576516661793,
-      "learning_rate": 8.002222222222222e-05,
-      "loss": 0.0001,
-      "step": 5400
-    },
-    {
-      "epoch": 18.0,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.8493700189767743,
-      "eval_loss": 0.972210705280304,
-      "eval_precision": 0.8662270391213336,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.3561,
-      "eval_samples_per_second": 146.735,
-      "eval_steps_per_second": 18.342,
-      "step": 5400
-    },
-    {
-      "epoch": 18.016666666666666,
-      "grad_norm": 0.0004290815268177539,
-      "learning_rate": 7.991111111111112e-05,
-      "loss": 0.0001,
-      "step": 5405
-    },
-    {
-      "epoch": 18.033333333333335,
-      "grad_norm": 0.0004076830227859318,
-      "learning_rate": 7.98e-05,
-      "loss": 0.0001,
-      "step": 5410
-    },
-    {
-      "epoch": 18.05,
-      "grad_norm": 0.00046958276652731,
-      "learning_rate": 7.968888888888889e-05,
-      "loss": 0.0001,
-      "step": 5415
-    },
-    {
-      "epoch": 18.066666666666666,
-      "grad_norm": 0.0004198600072413683,
-      "learning_rate": 7.957777777777778e-05,
-      "loss": 0.0001,
-      "step": 5420
-    },
-    {
-      "epoch": 18.083333333333332,
-      "grad_norm": 0.00044598354725167155,
-      "learning_rate": 7.946666666666667e-05,
-      "loss": 0.0001,
-      "step": 5425
-    },
-    {
-      "epoch": 18.1,
-      "grad_norm": 0.0005130433710291982,
-      "learning_rate": 7.935555555555557e-05,
-      "loss": 0.0001,
-      "step": 5430
-    },
-    {
-      "epoch": 18.116666666666667,
-      "grad_norm": 0.00046939015737734735,
-      "learning_rate": 7.924444444444444e-05,
-      "loss": 0.0001,
-      "step": 5435
-    },
-    {
-      "epoch": 18.133333333333333,
-      "grad_norm": 0.0005350983119569719,
-      "learning_rate": 7.913333333333334e-05,
-      "loss": 0.0001,
-      "step": 5440
-    },
-    {
-      "epoch": 18.15,
-      "grad_norm": 0.00044235849054530263,
-      "learning_rate": 7.902222222222224e-05,
-      "loss": 0.0001,
-      "step": 5445
-    },
-    {
-      "epoch": 18.166666666666668,
-      "grad_norm": 0.00047676797839812934,
-      "learning_rate": 7.891111111111112e-05,
-      "loss": 0.0001,
-      "step": 5450
-    },
-    {
-      "epoch": 18.183333333333334,
-      "grad_norm": 0.000542629393748939,
-      "learning_rate": 7.88e-05,
-      "loss": 0.0001,
-      "step": 5455
-    },
-    {
-      "epoch": 18.2,
-      "grad_norm": 0.0004962372477166355,
-      "learning_rate": 7.868888888888889e-05,
-      "loss": 0.0001,
-      "step": 5460
-    },
-    {
-      "epoch": 18.216666666666665,
-      "grad_norm": 0.0004516904300544411,
-      "learning_rate": 7.857777777777779e-05,
-      "loss": 0.0001,
-      "step": 5465
-    },
-    {
-      "epoch": 18.233333333333334,
-      "grad_norm": 0.0003831650537904352,
-      "learning_rate": 7.846666666666667e-05,
-      "loss": 0.0001,
-      "step": 5470
-    },
-    {
-      "epoch": 18.25,
-      "grad_norm": 0.000418821262428537,
-      "learning_rate": 7.835555555555556e-05,
-      "loss": 0.0001,
-      "step": 5475
-    },
-    {
-      "epoch": 18.266666666666666,
-      "grad_norm": 0.0004947162233293056,
-      "learning_rate": 7.824444444444445e-05,
-      "loss": 0.0001,
-      "step": 5480
-    },
-    {
-      "epoch": 18.283333333333335,
-      "grad_norm": 0.0004975447664037347,
-      "learning_rate": 7.813333333333334e-05,
-      "loss": 0.0001,
-      "step": 5485
-    },
-    {
-      "epoch": 18.3,
-      "grad_norm": 0.00042129267239943147,
-      "learning_rate": 7.802222222222222e-05,
-      "loss": 0.0001,
-      "step": 5490
-    },
-    {
-      "epoch": 18.316666666666666,
-      "grad_norm": 0.00042434531496837735,
-      "learning_rate": 7.791111111111111e-05,
-      "loss": 0.0001,
-      "step": 5495
-    },
-    {
-      "epoch": 18.333333333333332,
-      "grad_norm": 0.0005177127895876765,
-      "learning_rate": 7.780000000000001e-05,
-      "loss": 0.0001,
-      "step": 5500
-    },
-    {
-      "epoch": 18.333333333333332,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.8493941579921206,
-      "eval_loss": 0.9798949956893921,
-      "eval_precision": 0.8664228040897209,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.6102,
-      "eval_samples_per_second": 144.489,
-      "eval_steps_per_second": 18.061,
-      "step": 5500
-    },
-    {
-      "epoch": 18.35,
-      "grad_norm": 0.0004833277780562639,
-      "learning_rate": 7.768888888888889e-05,
-      "loss": 0.0001,
-      "step": 5505
-    },
-    {
-      "epoch": 18.366666666666667,
-      "grad_norm": 0.00045644593774341047,
-      "learning_rate": 7.757777777777778e-05,
-      "loss": 0.0001,
-      "step": 5510
-    },
-    {
-      "epoch": 18.383333333333333,
-      "grad_norm": 0.0004358477599453181,
-      "learning_rate": 7.746666666666666e-05,
-      "loss": 0.0001,
-      "step": 5515
-    },
-    {
-      "epoch": 18.4,
-      "grad_norm": 0.0005003006663173437,
-      "learning_rate": 7.735555555555556e-05,
-      "loss": 0.0001,
-      "step": 5520
-    },
-    {
-      "epoch": 18.416666666666668,
-      "grad_norm": 0.0004472880100365728,
-      "learning_rate": 7.724444444444446e-05,
-      "loss": 0.0001,
-      "step": 5525
-    },
-    {
-      "epoch": 18.433333333333334,
-      "grad_norm": 0.0004530094738584012,
-      "learning_rate": 7.713333333333333e-05,
-      "loss": 0.0001,
-      "step": 5530
-    },
-    {
-      "epoch": 18.45,
-      "grad_norm": 0.00043826529872603714,
-      "learning_rate": 7.702222222222223e-05,
-      "loss": 0.0001,
-      "step": 5535
-    },
-    {
-      "epoch": 18.466666666666665,
-      "grad_norm": 0.0003857858246192336,
-      "learning_rate": 7.691111111111111e-05,
-      "loss": 0.0001,
-      "step": 5540
-    },
-    {
-      "epoch": 18.483333333333334,
-      "grad_norm": 0.0004892111173830926,
-      "learning_rate": 7.680000000000001e-05,
-      "loss": 0.0001,
-      "step": 5545
-    },
-    {
-      "epoch": 18.5,
-      "grad_norm": 0.0004311349766794592,
-      "learning_rate": 7.668888888888888e-05,
-      "loss": 0.0001,
-      "step": 5550
-    },
-    {
-      "epoch": 18.516666666666666,
-      "grad_norm": 0.0004185062716715038,
-      "learning_rate": 7.657777777777778e-05,
-      "loss": 0.0001,
-      "step": 5555
-    },
-    {
-      "epoch": 18.533333333333335,
-      "grad_norm": 0.0004578453954309225,
-      "learning_rate": 7.646666666666668e-05,
-      "loss": 0.0001,
-      "step": 5560
-    },
-    {
-      "epoch": 18.55,
-      "grad_norm": 0.0004885430680587888,
-      "learning_rate": 7.635555555555556e-05,
-      "loss": 0.0001,
-      "step": 5565
-    },
-    {
-      "epoch": 18.566666666666666,
-      "grad_norm": 0.0003907489008270204,
-      "learning_rate": 7.624444444444445e-05,
-      "loss": 0.0001,
-      "step": 5570
-    },
-    {
-      "epoch": 18.583333333333332,
-      "grad_norm": 0.0003898806171491742,
-      "learning_rate": 7.613333333333333e-05,
-      "loss": 0.0001,
-      "step": 5575
-    },
-    {
-      "epoch": 18.6,
-      "grad_norm": 0.0004097476485185325,
-      "learning_rate": 7.602222222222223e-05,
-      "loss": 0.0001,
-      "step": 5580
-    },
-    {
-      "epoch": 18.616666666666667,
-      "grad_norm": 0.0006422013975679874,
-      "learning_rate": 7.591111111111111e-05,
-      "loss": 0.0001,
-      "step": 5585
-    },
-    {
-      "epoch": 18.633333333333333,
-      "grad_norm": 0.00044671594514511526,
-      "learning_rate": 7.58e-05,
-      "loss": 0.0001,
-      "step": 5590
-    },
-    {
-      "epoch": 18.65,
-      "grad_norm": 0.00042873076745308936,
-      "learning_rate": 7.56888888888889e-05,
-      "loss": 0.0001,
-      "step": 5595
-    },
-    {
-      "epoch": 18.666666666666668,
-      "grad_norm": 0.0004029326082672924,
-      "learning_rate": 7.557777777777778e-05,
-      "loss": 0.0001,
-      "step": 5600
-    },
-    {
-      "epoch": 18.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8497621622947166,
-      "eval_loss": 0.9872198700904846,
-      "eval_precision": 0.8666769739053867,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.5546,
-      "eval_samples_per_second": 144.975,
-      "eval_steps_per_second": 18.122,
-      "step": 5600
-    },
-    {
-      "epoch": 18.683333333333334,
-      "grad_norm": 0.00039307543192990124,
-      "learning_rate": 7.546666666666668e-05,
-      "loss": 0.0001,
-      "step": 5605
-    },
-    {
-      "epoch": 18.7,
-      "grad_norm": 0.0003930055536329746,
-      "learning_rate": 7.535555555555555e-05,
-      "loss": 0.0001,
-      "step": 5610
-    },
-    {
-      "epoch": 18.716666666666665,
-      "grad_norm": 0.0004848763346672058,
-      "learning_rate": 7.524444444444445e-05,
-      "loss": 0.0001,
-      "step": 5615
-    },
-    {
-      "epoch": 18.733333333333334,
-      "grad_norm": 0.0003810345951933414,
-      "learning_rate": 7.513333333333333e-05,
-      "loss": 0.0001,
-      "step": 5620
-    },
-    {
-      "epoch": 18.75,
-      "grad_norm": 0.000427526596467942,
-      "learning_rate": 7.502222222222223e-05,
-      "loss": 0.0001,
-      "step": 5625
-    },
-    {
-      "epoch": 18.766666666666666,
-      "grad_norm": 0.0004167220613453537,
-      "learning_rate": 7.49111111111111e-05,
-      "loss": 0.0001,
-      "step": 5630
-    },
-    {
-      "epoch": 18.783333333333335,
-      "grad_norm": 0.0004318416758906096,
-      "learning_rate": 7.48e-05,
-      "loss": 0.0001,
-      "step": 5635
-    },
-    {
-      "epoch": 18.8,
-      "grad_norm": 0.00038247316842898726,
-      "learning_rate": 7.46888888888889e-05,
-      "loss": 0.0001,
-      "step": 5640
-    },
-    {
-      "epoch": 18.816666666666666,
-      "grad_norm": 0.0005820749211125076,
-      "learning_rate": 7.457777777777779e-05,
-      "loss": 0.0001,
-      "step": 5645
-    },
-    {
-      "epoch": 18.833333333333332,
-      "grad_norm": 0.0003523474733810872,
-      "learning_rate": 7.446666666666667e-05,
-      "loss": 0.0001,
-      "step": 5650
-    },
-    {
-      "epoch": 18.85,
-      "grad_norm": 0.0004264508606866002,
-      "learning_rate": 7.435555555555555e-05,
-      "loss": 0.0001,
-      "step": 5655
-    },
-    {
-      "epoch": 18.866666666666667,
-      "grad_norm": 0.00039805579581297934,
-      "learning_rate": 7.424444444444445e-05,
-      "loss": 0.0001,
-      "step": 5660
-    },
-    {
-      "epoch": 18.883333333333333,
-      "grad_norm": 0.0004367689834907651,
-      "learning_rate": 7.413333333333334e-05,
-      "loss": 0.0001,
-      "step": 5665
-    },
-    {
-      "epoch": 18.9,
-      "grad_norm": 0.00034829965443350375,
-      "learning_rate": 7.402222222222222e-05,
-      "loss": 0.0001,
-      "step": 5670
-    },
-    {
-      "epoch": 18.916666666666668,
-      "grad_norm": 0.000412922992836684,
-      "learning_rate": 7.391111111111112e-05,
-      "loss": 0.0001,
-      "step": 5675
-    },
-    {
-      "epoch": 18.933333333333334,
-      "grad_norm": 0.0004263285081833601,
-      "learning_rate": 7.38e-05,
-      "loss": 0.0001,
-      "step": 5680
-    },
-    {
-      "epoch": 18.95,
-      "grad_norm": 0.0003809833142440766,
-      "learning_rate": 7.368888888888889e-05,
-      "loss": 0.0001,
-      "step": 5685
-    },
-    {
-      "epoch": 18.966666666666665,
-      "grad_norm": 0.0003525941865518689,
-      "learning_rate": 7.357777777777777e-05,
-      "loss": 0.0001,
-      "step": 5690
-    },
-    {
-      "epoch": 18.983333333333334,
-      "grad_norm": 0.0004200638795737177,
-      "learning_rate": 7.346666666666667e-05,
-      "loss": 0.0001,
-      "step": 5695
-    },
-    {
-      "epoch": 19.0,
-      "grad_norm": 0.00040392804658040404,
-      "learning_rate": 7.335555555555556e-05,
-      "loss": 0.0001,
-      "step": 5700
-    },
-    {
-      "epoch": 19.0,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8497621622947166,
-      "eval_loss": 0.9936496019363403,
-      "eval_precision": 0.8666769739053867,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.3719,
-      "eval_samples_per_second": 146.593,
-      "eval_steps_per_second": 18.324,
-      "step": 5700
-    },
-    {
-      "epoch": 19.016666666666666,
-      "grad_norm": 0.00040534662548452616,
-      "learning_rate": 7.324444444444446e-05,
-      "loss": 0.0001,
-      "step": 5705
-    },
-    {
-      "epoch": 19.033333333333335,
-      "grad_norm": 0.0003693576145451516,
-      "learning_rate": 7.313333333333333e-05,
-      "loss": 0.0001,
-      "step": 5710
-    },
-    {
-      "epoch": 19.05,
-      "grad_norm": 0.00043143925722688437,
-      "learning_rate": 7.302222222222222e-05,
-      "loss": 0.0001,
-      "step": 5715
-    },
-    {
-      "epoch": 19.066666666666666,
-      "grad_norm": 0.0003499985614325851,
-      "learning_rate": 7.291111111111112e-05,
-      "loss": 0.0001,
-      "step": 5720
-    },
-    {
-      "epoch": 19.083333333333332,
-      "grad_norm": 0.00044072166201658547,
-      "learning_rate": 7.280000000000001e-05,
-      "loss": 0.0001,
-      "step": 5725
-    },
-    {
-      "epoch": 19.1,
-      "grad_norm": 0.0004105837142560631,
-      "learning_rate": 7.268888888888889e-05,
-      "loss": 0.0001,
-      "step": 5730
-    },
-    {
-      "epoch": 19.116666666666667,
-      "grad_norm": 0.0003713664482347667,
-      "learning_rate": 7.257777777777778e-05,
-      "loss": 0.0001,
-      "step": 5735
-    },
-    {
-      "epoch": 19.133333333333333,
-      "grad_norm": 0.00042718337499536574,
-      "learning_rate": 7.246666666666668e-05,
-      "loss": 0.0001,
-      "step": 5740
-    },
-    {
-      "epoch": 19.15,
-      "grad_norm": 0.00037446661735884845,
-      "learning_rate": 7.235555555555556e-05,
-      "loss": 0.0001,
-      "step": 5745
-    },
-    {
-      "epoch": 19.166666666666668,
-      "grad_norm": 0.00033181466278620064,
-      "learning_rate": 7.224444444444444e-05,
-      "loss": 0.0001,
-      "step": 5750
-    },
-    {
-      "epoch": 19.183333333333334,
-      "grad_norm": 0.00035667556221596897,
-      "learning_rate": 7.213333333333334e-05,
-      "loss": 0.0001,
-      "step": 5755
-    },
-    {
-      "epoch": 19.2,
-      "grad_norm": 0.00035644398303702474,
-      "learning_rate": 7.202222222222223e-05,
-      "loss": 0.0001,
-      "step": 5760
-    },
-    {
-      "epoch": 19.216666666666665,
-      "grad_norm": 0.0005198923754505813,
-      "learning_rate": 7.191111111111111e-05,
-      "loss": 0.0001,
-      "step": 5765
-    },
-    {
-      "epoch": 19.233333333333334,
-      "grad_norm": 0.00037159238127060235,
-      "learning_rate": 7.18e-05,
-      "loss": 0.0001,
-      "step": 5770
-    },
-    {
-      "epoch": 19.25,
-      "grad_norm": 0.000389581749914214,
-      "learning_rate": 7.16888888888889e-05,
-      "loss": 0.0001,
-      "step": 5775
-    },
-    {
-      "epoch": 19.266666666666666,
-      "grad_norm": 0.0003576250746846199,
-      "learning_rate": 7.157777777777778e-05,
-      "loss": 0.0001,
-      "step": 5780
-    },
-    {
-      "epoch": 19.283333333333335,
-      "grad_norm": 0.0003537594748195261,
-      "learning_rate": 7.146666666666666e-05,
-      "loss": 0.0001,
-      "step": 5785
-    },
-    {
-      "epoch": 19.3,
-      "grad_norm": 0.00040710074244998395,
-      "learning_rate": 7.135555555555556e-05,
-      "loss": 0.0001,
-      "step": 5790
-    },
-    {
-      "epoch": 19.316666666666666,
-      "grad_norm": 0.0003576731833163649,
-      "learning_rate": 7.124444444444445e-05,
-      "loss": 0.0001,
-      "step": 5795
-    },
-    {
-      "epoch": 19.333333333333332,
-      "grad_norm": 0.00039478493272326887,
-      "learning_rate": 7.113333333333335e-05,
-      "loss": 0.0001,
-      "step": 5800
-    },
-    {
-      "epoch": 19.333333333333332,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8497621622947166,
-      "eval_loss": 0.9997326731681824,
-      "eval_precision": 0.8666769739053867,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.2811,
-      "eval_samples_per_second": 147.411,
-      "eval_steps_per_second": 18.426,
-      "step": 5800
-    },
-    {
-      "epoch": 19.35,
-      "grad_norm": 0.0003503870393615216,
-      "learning_rate": 7.102222222222222e-05,
-      "loss": 0.0001,
-      "step": 5805
-    },
-    {
-      "epoch": 19.366666666666667,
-      "grad_norm": 0.00036718958290293813,
-      "learning_rate": 7.091111111111112e-05,
-      "loss": 0.0001,
-      "step": 5810
-    },
-    {
-      "epoch": 19.383333333333333,
-      "grad_norm": 0.00038162319106049836,
-      "learning_rate": 7.08e-05,
-      "loss": 0.0001,
-      "step": 5815
-    },
-    {
-      "epoch": 19.4,
-      "grad_norm": 0.0003364746808074415,
-      "learning_rate": 7.06888888888889e-05,
-      "loss": 0.0001,
-      "step": 5820
-    },
-    {
-      "epoch": 19.416666666666668,
-      "grad_norm": 0.000391030334867537,
-      "learning_rate": 7.057777777777778e-05,
-      "loss": 0.0001,
-      "step": 5825
-    },
-    {
-      "epoch": 19.433333333333334,
-      "grad_norm": 0.0004597076040226966,
-      "learning_rate": 7.046666666666667e-05,
-      "loss": 0.0001,
-      "step": 5830
-    },
-    {
-      "epoch": 19.45,
-      "grad_norm": 0.00040942049236036837,
-      "learning_rate": 7.035555555555557e-05,
-      "loss": 0.0001,
-      "step": 5835
-    },
-    {
-      "epoch": 19.466666666666665,
-      "grad_norm": 0.0003660785441752523,
-      "learning_rate": 7.024444444444445e-05,
-      "loss": 0.0001,
-      "step": 5840
-    },
-    {
-      "epoch": 19.483333333333334,
-      "grad_norm": 0.000387304782634601,
-      "learning_rate": 7.013333333333333e-05,
-      "loss": 0.0001,
-      "step": 5845
-    },
-    {
-      "epoch": 19.5,
-      "grad_norm": 0.0003597075992729515,
-      "learning_rate": 7.002222222222222e-05,
-      "loss": 0.0001,
-      "step": 5850
-    },
-    {
-      "epoch": 19.516666666666666,
-      "grad_norm": 0.0003729045274667442,
-      "learning_rate": 6.991111111111112e-05,
-      "loss": 0.0001,
-      "step": 5855
-    },
-    {
-      "epoch": 19.533333333333335,
-      "grad_norm": 0.0004420547338668257,
-      "learning_rate": 6.98e-05,
-      "loss": 0.0001,
-      "step": 5860
-    },
-    {
-      "epoch": 19.55,
-      "grad_norm": 0.00046014448162168264,
-      "learning_rate": 6.968888888888889e-05,
-      "loss": 0.0001,
-      "step": 5865
-    },
-    {
-      "epoch": 19.566666666666666,
-      "grad_norm": 0.00038809512625448406,
-      "learning_rate": 6.957777777777779e-05,
-      "loss": 0.0001,
-      "step": 5870
-    },
-    {
-      "epoch": 19.583333333333332,
-      "grad_norm": 0.0004520648217294365,
-      "learning_rate": 6.946666666666667e-05,
-      "loss": 0.0001,
-      "step": 5875
-    },
-    {
-      "epoch": 19.6,
-      "grad_norm": 0.00037230452289804816,
-      "learning_rate": 6.935555555555557e-05,
-      "loss": 0.0001,
-      "step": 5880
-    },
-    {
-      "epoch": 19.616666666666667,
-      "grad_norm": 0.00039651020779274404,
-      "learning_rate": 6.924444444444444e-05,
-      "loss": 0.0001,
-      "step": 5885
-    },
-    {
-      "epoch": 19.633333333333333,
-      "grad_norm": 0.00036767395795322955,
-      "learning_rate": 6.913333333333334e-05,
-      "loss": 0.0001,
-      "step": 5890
-    },
-    {
-      "epoch": 19.65,
-      "grad_norm": 0.0004111083399038762,
-      "learning_rate": 6.902222222222222e-05,
-      "loss": 0.0001,
-      "step": 5895
-    },
-    {
-      "epoch": 19.666666666666668,
-      "grad_norm": 0.0003926433564629406,
-      "learning_rate": 6.891111111111112e-05,
-      "loss": 0.0001,
-      "step": 5900
-    },
-    {
-      "epoch": 19.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8497621622947166,
-      "eval_loss": 1.006157636642456,
-      "eval_precision": 0.8666769739053867,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.4169,
-      "eval_samples_per_second": 146.191,
-      "eval_steps_per_second": 18.274,
-      "step": 5900
-    },
-    {
-      "epoch": 19.683333333333334,
-      "grad_norm": 0.000350355840055272,
-      "learning_rate": 6.879999999999999e-05,
-      "loss": 0.0001,
-      "step": 5905
-    },
-    {
-      "epoch": 19.7,
-      "grad_norm": 0.0003407159820199013,
-      "learning_rate": 6.868888888888889e-05,
-      "loss": 0.0001,
-      "step": 5910
-    },
-    {
-      "epoch": 19.716666666666665,
-      "grad_norm": 0.000377983640646562,
-      "learning_rate": 6.857777777777779e-05,
-      "loss": 0.0001,
-      "step": 5915
-    },
-    {
-      "epoch": 19.733333333333334,
-      "grad_norm": 0.00031219483935274184,
-      "learning_rate": 6.846666666666667e-05,
-      "loss": 0.0001,
-      "step": 5920
-    },
-    {
-      "epoch": 19.75,
-      "grad_norm": 0.00037750237970612943,
-      "learning_rate": 6.835555555555556e-05,
-      "loss": 0.0001,
-      "step": 5925
-    },
-    {
-      "epoch": 19.766666666666666,
-      "grad_norm": 0.0003450834774412215,
-      "learning_rate": 6.824444444444444e-05,
-      "loss": 0.0001,
-      "step": 5930
-    },
-    {
-      "epoch": 19.783333333333335,
-      "grad_norm": 0.0003122419584542513,
-      "learning_rate": 6.813333333333334e-05,
-      "loss": 0.0001,
-      "step": 5935
-    },
-    {
-      "epoch": 19.8,
-      "grad_norm": 0.0003602392098400742,
-      "learning_rate": 6.802222222222223e-05,
-      "loss": 0.0001,
-      "step": 5940
-    },
-    {
-      "epoch": 19.816666666666666,
-      "grad_norm": 0.00034306960878893733,
-      "learning_rate": 6.791111111111111e-05,
-      "loss": 0.0001,
-      "step": 5945
-    },
-    {
-      "epoch": 19.833333333333332,
-      "grad_norm": 0.0003752112970687449,
-      "learning_rate": 6.780000000000001e-05,
-      "loss": 0.0001,
-      "step": 5950
-    },
-    {
-      "epoch": 19.85,
-      "grad_norm": 0.0005316081806086004,
-      "learning_rate": 6.768888888888889e-05,
-      "loss": 0.0001,
-      "step": 5955
-    },
-    {
-      "epoch": 19.866666666666667,
-      "grad_norm": 0.0003587728424463421,
-      "learning_rate": 6.757777777777778e-05,
-      "loss": 0.0001,
-      "step": 5960
-    },
-    {
-      "epoch": 19.883333333333333,
-      "grad_norm": 0.00037142648943699896,
-      "learning_rate": 6.746666666666666e-05,
-      "loss": 0.0001,
-      "step": 5965
-    },
-    {
-      "epoch": 19.9,
-      "grad_norm": 0.0003785615845117718,
-      "learning_rate": 6.735555555555556e-05,
-      "loss": 0.0001,
-      "step": 5970
-    },
-    {
-      "epoch": 19.916666666666668,
-      "grad_norm": 0.00034771370701491833,
-      "learning_rate": 6.724444444444445e-05,
-      "loss": 0.0001,
-      "step": 5975
-    },
-    {
-      "epoch": 19.933333333333334,
-      "grad_norm": 0.0004260664281900972,
-      "learning_rate": 6.713333333333334e-05,
-      "loss": 0.0001,
-      "step": 5980
-    },
-    {
-      "epoch": 19.95,
-      "grad_norm": 0.0003171595453750342,
-      "learning_rate": 6.702222222222223e-05,
-      "loss": 0.0001,
-      "step": 5985
-    },
-    {
-      "epoch": 19.966666666666665,
-      "grad_norm": 0.0005709322867915034,
-      "learning_rate": 6.691111111111111e-05,
-      "loss": 0.0001,
-      "step": 5990
-    },
-    {
-      "epoch": 19.983333333333334,
-      "grad_norm": 0.0003708973526954651,
-      "learning_rate": 6.680000000000001e-05,
-      "loss": 0.0001,
-      "step": 5995
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.0004001232737209648,
-      "learning_rate": 6.66888888888889e-05,
-      "loss": 0.0001,
-      "step": 6000
-    },
-    {
-      "epoch": 20.0,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.8493097148077116,
-      "eval_loss": 1.0122462511062622,
-      "eval_precision": 0.8663084509214503,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.3231,
-      "eval_samples_per_second": 147.031,
-      "eval_steps_per_second": 18.379,
-      "step": 6000
-    },
-    {
-      "epoch": 20.016666666666666,
-      "grad_norm": 0.00034280578256584704,
-      "learning_rate": 6.657777777777778e-05,
-      "loss": 0.0001,
-      "step": 6005
-    },
-    {
-      "epoch": 20.033333333333335,
-      "grad_norm": 0.00032948111766017973,
-      "learning_rate": 6.646666666666667e-05,
-      "loss": 0.0001,
-      "step": 6010
-    },
-    {
-      "epoch": 20.05,
-      "grad_norm": 0.0003257366770412773,
-      "learning_rate": 6.635555555555556e-05,
-      "loss": 0.0001,
-      "step": 6015
-    },
-    {
-      "epoch": 20.066666666666666,
-      "grad_norm": 0.00033540272852405906,
-      "learning_rate": 6.624444444444445e-05,
-      "loss": 0.0001,
-      "step": 6020
-    },
-    {
-      "epoch": 20.083333333333332,
-      "grad_norm": 0.0003287060826551169,
-      "learning_rate": 6.613333333333333e-05,
-      "loss": 0.0001,
-      "step": 6025
-    },
-    {
-      "epoch": 20.1,
-      "grad_norm": 0.0003395001986064017,
-      "learning_rate": 6.602222222222223e-05,
-      "loss": 0.0001,
-      "step": 6030
-    },
-    {
-      "epoch": 20.116666666666667,
-      "grad_norm": 0.00034529261756688356,
-      "learning_rate": 6.591111111111112e-05,
-      "loss": 0.0001,
-      "step": 6035
-    },
-    {
-      "epoch": 20.133333333333333,
-      "grad_norm": 0.00040423034806735814,
-      "learning_rate": 6.58e-05,
-      "loss": 0.0001,
-      "step": 6040
-    },
-    {
-      "epoch": 20.15,
-      "grad_norm": 0.00033747314591892064,
-      "learning_rate": 6.568888888888888e-05,
-      "loss": 0.0001,
-      "step": 6045
-    },
-    {
-      "epoch": 20.166666666666668,
-      "grad_norm": 0.000339914666255936,
-      "learning_rate": 6.557777777777778e-05,
-      "loss": 0.0001,
-      "step": 6050
-    },
-    {
-      "epoch": 20.183333333333334,
-      "grad_norm": 0.00034859165316447616,
-      "learning_rate": 6.546666666666667e-05,
-      "loss": 0.0001,
-      "step": 6055
-    },
-    {
-      "epoch": 20.2,
-      "grad_norm": 0.0003318962117191404,
-      "learning_rate": 6.535555555555555e-05,
-      "loss": 0.0001,
-      "step": 6060
-    },
-    {
-      "epoch": 20.216666666666665,
-      "grad_norm": 0.00032194817322306335,
-      "learning_rate": 6.524444444444445e-05,
-      "loss": 0.0001,
-      "step": 6065
-    },
-    {
-      "epoch": 20.233333333333334,
-      "grad_norm": 0.00030672995490022004,
-      "learning_rate": 6.513333333333334e-05,
-      "loss": 0.0001,
-      "step": 6070
-    },
-    {
-      "epoch": 20.25,
-      "grad_norm": 0.00039740875945426524,
-      "learning_rate": 6.502222222222223e-05,
-      "loss": 0.0001,
-      "step": 6075
-    },
-    {
-      "epoch": 20.266666666666666,
-      "grad_norm": 0.00032424196251668036,
-      "learning_rate": 6.49111111111111e-05,
-      "loss": 0.0001,
-      "step": 6080
-    },
-    {
-      "epoch": 20.283333333333335,
-      "grad_norm": 0.0003057415597140789,
-      "learning_rate": 6.48e-05,
-      "loss": 0.0001,
-      "step": 6085
-    },
-    {
-      "epoch": 20.3,
-      "grad_norm": 0.00039261230267584324,
-      "learning_rate": 6.468888888888889e-05,
-      "loss": 0.0001,
-      "step": 6090
-    },
-    {
-      "epoch": 20.316666666666666,
-      "grad_norm": 0.0003307255683466792,
-      "learning_rate": 6.457777777777779e-05,
-      "loss": 0.0001,
-      "step": 6095
-    },
-    {
-      "epoch": 20.333333333333332,
-      "grad_norm": 0.0003373075451236218,
-      "learning_rate": 6.446666666666667e-05,
-      "loss": 0.0001,
-      "step": 6100
-    },
-    {
-      "epoch": 20.333333333333332,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.8493097148077116,
-      "eval_loss": 1.0177372694015503,
-      "eval_precision": 0.8663084509214503,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.3711,
-      "eval_samples_per_second": 146.6,
-      "eval_steps_per_second": 18.325,
-      "step": 6100
-    },
-    {
-      "epoch": 20.35,
-      "grad_norm": 0.00030849737231619656,
-      "learning_rate": 6.435555555555556e-05,
-      "loss": 0.0001,
-      "step": 6105
-    },
-    {
-      "epoch": 20.366666666666667,
-      "grad_norm": 0.0003306195139884949,
-      "learning_rate": 6.424444444444445e-05,
-      "loss": 0.0001,
-      "step": 6110
-    },
-    {
-      "epoch": 20.383333333333333,
-      "grad_norm": 0.00032685333280824125,
-      "learning_rate": 6.413333333333334e-05,
-      "loss": 0.0001,
-      "step": 6115
-    },
-    {
-      "epoch": 20.4,
-      "grad_norm": 0.00036085007013753057,
-      "learning_rate": 6.402222222222222e-05,
-      "loss": 0.0001,
-      "step": 6120
-    },
-    {
-      "epoch": 20.416666666666668,
-      "grad_norm": 0.0002966580796055496,
-      "learning_rate": 6.391111111111111e-05,
-      "loss": 0.0001,
-      "step": 6125
-    },
-    {
-      "epoch": 20.433333333333334,
-      "grad_norm": 0.0003865486942231655,
-      "learning_rate": 6.38e-05,
-      "loss": 0.0001,
-      "step": 6130
-    },
-    {
-      "epoch": 20.45,
-      "grad_norm": 0.0003464166074991226,
-      "learning_rate": 6.368888888888889e-05,
-      "loss": 0.0001,
-      "step": 6135
-    },
-    {
-      "epoch": 20.466666666666665,
-      "grad_norm": 0.0003041450399905443,
-      "learning_rate": 6.357777777777778e-05,
-      "loss": 0.0001,
-      "step": 6140
-    },
-    {
-      "epoch": 20.483333333333334,
-      "grad_norm": 0.0003049239458050579,
-      "learning_rate": 6.346666666666667e-05,
-      "loss": 0.0001,
-      "step": 6145
-    },
-    {
-      "epoch": 20.5,
-      "grad_norm": 0.00030182639602571726,
-      "learning_rate": 6.335555555555556e-05,
-      "loss": 0.0001,
-      "step": 6150
-    },
-    {
-      "epoch": 20.516666666666666,
-      "grad_norm": 0.00031763530569151044,
-      "learning_rate": 6.324444444444446e-05,
-      "loss": 0.0001,
-      "step": 6155
-    },
-    {
-      "epoch": 20.533333333333335,
-      "grad_norm": 0.00030972581589594483,
-      "learning_rate": 6.313333333333333e-05,
-      "loss": 0.0001,
-      "step": 6160
-    },
-    {
-      "epoch": 20.55,
-      "grad_norm": 0.0003973422572016716,
-      "learning_rate": 6.302222222222223e-05,
-      "loss": 0.0001,
-      "step": 6165
-    },
-    {
-      "epoch": 20.566666666666666,
-      "grad_norm": 0.0004407772794365883,
-      "learning_rate": 6.291111111111111e-05,
-      "loss": 0.0001,
-      "step": 6170
-    },
-    {
-      "epoch": 20.583333333333332,
-      "grad_norm": 0.0003735410573426634,
-      "learning_rate": 6.280000000000001e-05,
-      "loss": 0.0001,
-      "step": 6175
-    },
-    {
-      "epoch": 20.6,
-      "grad_norm": 0.00031092920107766986,
-      "learning_rate": 6.26888888888889e-05,
-      "loss": 0.0001,
-      "step": 6180
-    },
-    {
-      "epoch": 20.616666666666667,
-      "grad_norm": 0.0003149132535327226,
-      "learning_rate": 6.257777777777778e-05,
-      "loss": 0.0001,
-      "step": 6185
-    },
-    {
-      "epoch": 20.633333333333333,
-      "grad_norm": 0.0010748879285529256,
-      "learning_rate": 6.246666666666668e-05,
-      "loss": 0.0001,
-      "step": 6190
-    },
-    {
-      "epoch": 20.65,
-      "grad_norm": 0.00032994497450999916,
-      "learning_rate": 6.235555555555556e-05,
-      "loss": 0.0001,
-      "step": 6195
-    },
-    {
-      "epoch": 20.666666666666668,
-      "grad_norm": 0.00036043828004039824,
-      "learning_rate": 6.224444444444445e-05,
-      "loss": 0.0001,
-      "step": 6200
-    },
-    {
-      "epoch": 20.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8497621622947166,
-      "eval_loss": 1.0232497453689575,
-      "eval_precision": 0.8666769739053867,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.6085,
-      "eval_samples_per_second": 144.505,
-      "eval_steps_per_second": 18.063,
-      "step": 6200
-    },
-    {
-      "epoch": 20.683333333333334,
-      "grad_norm": 0.0002916869707405567,
-      "learning_rate": 6.213333333333333e-05,
-      "loss": 0.0001,
-      "step": 6205
-    },
-    {
-      "epoch": 20.7,
-      "grad_norm": 0.00031737706740386784,
-      "learning_rate": 6.202222222222223e-05,
-      "loss": 0.0001,
-      "step": 6210
-    },
-    {
-      "epoch": 20.716666666666665,
-      "grad_norm": 0.0003034040564671159,
-      "learning_rate": 6.191111111111111e-05,
-      "loss": 0.0001,
-      "step": 6215
-    },
-    {
-      "epoch": 20.733333333333334,
-      "grad_norm": 0.0003121573245152831,
-      "learning_rate": 6.18e-05,
-      "loss": 0.0001,
-      "step": 6220
-    },
-    {
-      "epoch": 20.75,
-      "grad_norm": 0.00033068371703848243,
-      "learning_rate": 6.16888888888889e-05,
-      "loss": 0.0001,
-      "step": 6225
-    },
-    {
-      "epoch": 20.766666666666666,
-      "grad_norm": 0.0003286339924670756,
-      "learning_rate": 6.157777777777778e-05,
-      "loss": 0.0001,
-      "step": 6230
-    },
-    {
-      "epoch": 20.783333333333335,
-      "grad_norm": 0.0002851180615834892,
-      "learning_rate": 6.146666666666668e-05,
-      "loss": 0.0001,
-      "step": 6235
-    },
-    {
-      "epoch": 20.8,
-      "grad_norm": 0.0003373599611222744,
-      "learning_rate": 6.135555555555555e-05,
-      "loss": 0.0001,
-      "step": 6240
-    },
-    {
-      "epoch": 20.816666666666666,
-      "grad_norm": 0.0004299819702282548,
-      "learning_rate": 6.124444444444445e-05,
-      "loss": 0.0001,
-      "step": 6245
-    },
-    {
-      "epoch": 20.833333333333332,
-      "grad_norm": 0.0003284139384049922,
-      "learning_rate": 6.113333333333333e-05,
-      "loss": 0.0001,
-      "step": 6250
-    },
-    {
-      "epoch": 20.85,
-      "grad_norm": 0.00032671637018211186,
-      "learning_rate": 6.1022222222222224e-05,
-      "loss": 0.0001,
-      "step": 6255
-    },
-    {
-      "epoch": 20.866666666666667,
-      "grad_norm": 0.00033904638257808983,
-      "learning_rate": 6.0911111111111116e-05,
-      "loss": 0.0001,
-      "step": 6260
-    },
-    {
-      "epoch": 20.883333333333333,
-      "grad_norm": 0.00031264315475709736,
-      "learning_rate": 6.08e-05,
-      "loss": 0.0001,
-      "step": 6265
-    },
-    {
-      "epoch": 20.9,
-      "grad_norm": 0.0002974886156152934,
-      "learning_rate": 6.068888888888889e-05,
-      "loss": 0.0001,
-      "step": 6270
-    },
-    {
-      "epoch": 20.916666666666668,
-      "grad_norm": 0.0003298237279523164,
-      "learning_rate": 6.057777777777778e-05,
-      "loss": 0.0001,
-      "step": 6275
-    },
-    {
-      "epoch": 20.933333333333334,
-      "grad_norm": 0.00035141149419359863,
-      "learning_rate": 6.046666666666667e-05,
-      "loss": 0.0001,
-      "step": 6280
-    },
-    {
-      "epoch": 20.95,
-      "grad_norm": 0.0003448575153015554,
-      "learning_rate": 6.035555555555555e-05,
-      "loss": 0.0001,
-      "step": 6285
-    },
-    {
-      "epoch": 20.966666666666665,
-      "grad_norm": 0.00031725261942483485,
-      "learning_rate": 6.024444444444445e-05,
-      "loss": 0.0001,
-      "step": 6290
-    },
-    {
-      "epoch": 20.983333333333334,
-      "grad_norm": 0.0002921987324953079,
-      "learning_rate": 6.013333333333334e-05,
-      "loss": 0.0001,
-      "step": 6295
-    },
-    {
-      "epoch": 21.0,
-      "grad_norm": 0.00031686213333159685,
-      "learning_rate": 6.002222222222223e-05,
-      "loss": 0.0001,
-      "step": 6300
-    },
-    {
-      "epoch": 21.0,
-      "eval_accuracy": 0.8470833333333333,
-      "eval_f1": 0.8501900577096031,
-      "eval_loss": 1.0290929079055786,
-      "eval_precision": 0.8671893040048311,
-      "eval_recall": 0.8470833333333333,
-      "eval_runtime": 16.6779,
-      "eval_samples_per_second": 143.903,
-      "eval_steps_per_second": 17.988,
-      "step": 6300
-    },
-    {
-      "epoch": 21.016666666666666,
-      "grad_norm": 0.00033305672695860267,
-      "learning_rate": 5.991111111111112e-05,
-      "loss": 0.0001,
-      "step": 6305
-    },
-    {
-      "epoch": 21.033333333333335,
-      "grad_norm": 0.00031256230431608856,
-      "learning_rate": 5.9800000000000003e-05,
-      "loss": 0.0001,
-      "step": 6310
-    },
-    {
-      "epoch": 21.05,
-      "grad_norm": 0.0003145363589283079,
-      "learning_rate": 5.9688888888888895e-05,
-      "loss": 0.0001,
-      "step": 6315
-    },
-    {
-      "epoch": 21.066666666666666,
-      "grad_norm": 0.0002913063217420131,
-      "learning_rate": 5.957777777777778e-05,
-      "loss": 0.0001,
-      "step": 6320
-    },
-    {
-      "epoch": 21.083333333333332,
-      "grad_norm": 0.0002896682417485863,
-      "learning_rate": 5.946666666666667e-05,
-      "loss": 0.0001,
-      "step": 6325
-    },
-    {
-      "epoch": 21.1,
-      "grad_norm": 0.00029178112163208425,
-      "learning_rate": 5.9355555555555556e-05,
-      "loss": 0.0001,
-      "step": 6330
-    },
-    {
-      "epoch": 21.116666666666667,
-      "grad_norm": 0.0002738349139690399,
-      "learning_rate": 5.924444444444445e-05,
-      "loss": 0.0001,
-      "step": 6335
-    },
-    {
-      "epoch": 21.133333333333333,
-      "grad_norm": 0.00027923230663873255,
-      "learning_rate": 5.913333333333334e-05,
-      "loss": 0.0001,
-      "step": 6340
-    },
-    {
-      "epoch": 21.15,
-      "grad_norm": 0.0004966908018104732,
-      "learning_rate": 5.902222222222222e-05,
-      "loss": 0.0001,
-      "step": 6345
-    },
-    {
-      "epoch": 21.166666666666668,
-      "grad_norm": 0.0003280848322901875,
-      "learning_rate": 5.8911111111111115e-05,
-      "loss": 0.0001,
-      "step": 6350
-    },
-    {
-      "epoch": 21.183333333333334,
-      "grad_norm": 0.00033920217538252473,
-      "learning_rate": 5.88e-05,
-      "loss": 0.0001,
-      "step": 6355
-    },
-    {
-      "epoch": 21.2,
-      "grad_norm": 0.0002705386432353407,
-      "learning_rate": 5.868888888888889e-05,
-      "loss": 0.0001,
-      "step": 6360
-    },
-    {
-      "epoch": 21.216666666666665,
-      "grad_norm": 0.0003182501532137394,
-      "learning_rate": 5.8577777777777776e-05,
-      "loss": 0.0001,
-      "step": 6365
-    },
-    {
-      "epoch": 21.233333333333334,
-      "grad_norm": 0.0003865105099976063,
-      "learning_rate": 5.846666666666667e-05,
-      "loss": 0.0001,
-      "step": 6370
-    },
-    {
-      "epoch": 21.25,
-      "grad_norm": 0.00032403963268734515,
-      "learning_rate": 5.8355555555555565e-05,
-      "loss": 0.0001,
-      "step": 6375
-    },
-    {
-      "epoch": 21.266666666666666,
-      "grad_norm": 0.0002682674094103277,
-      "learning_rate": 5.824444444444444e-05,
-      "loss": 0.0001,
-      "step": 6380
-    },
-    {
-      "epoch": 21.283333333333335,
-      "grad_norm": 0.0003021618176717311,
-      "learning_rate": 5.813333333333334e-05,
-      "loss": 0.0001,
-      "step": 6385
-    },
-    {
-      "epoch": 21.3,
-      "grad_norm": 0.0003222002706024796,
-      "learning_rate": 5.802222222222222e-05,
-      "loss": 0.0001,
-      "step": 6390
-    },
-    {
-      "epoch": 21.316666666666666,
-      "grad_norm": 0.0002818392822518945,
-      "learning_rate": 5.791111111111112e-05,
-      "loss": 0.0001,
-      "step": 6395
-    },
-    {
-      "epoch": 21.333333333333332,
-      "grad_norm": 0.0003587092796806246,
-      "learning_rate": 5.7799999999999995e-05,
-      "loss": 0.0001,
-      "step": 6400
-    },
-    {
-      "epoch": 21.333333333333332,
-      "eval_accuracy": 0.8475,
-      "eval_f1": 0.8506050210059499,
-      "eval_loss": 1.0341556072235107,
-      "eval_precision": 0.8677576926285064,
-      "eval_recall": 0.8475,
-      "eval_runtime": 16.3433,
-      "eval_samples_per_second": 146.849,
-      "eval_steps_per_second": 18.356,
-      "step": 6400
-    },
-    {
-      "epoch": 21.35,
-      "grad_norm": 0.00029644614551216364,
-      "learning_rate": 5.7688888888888894e-05,
-      "loss": 0.0001,
-      "step": 6405
-    },
-    {
-      "epoch": 21.366666666666667,
-      "grad_norm": 0.00028812821255996823,
-      "learning_rate": 5.7577777777777785e-05,
-      "loss": 0.0001,
-      "step": 6410
-    },
-    {
-      "epoch": 21.383333333333333,
-      "grad_norm": 0.000336535886162892,
-      "learning_rate": 5.746666666666667e-05,
-      "loss": 0.0001,
-      "step": 6415
-    },
-    {
-      "epoch": 21.4,
-      "grad_norm": 0.00028124358505010605,
-      "learning_rate": 5.735555555555556e-05,
-      "loss": 0.0001,
-      "step": 6420
-    },
-    {
-      "epoch": 21.416666666666668,
-      "grad_norm": 0.00031902911723591387,
-      "learning_rate": 5.7244444444444446e-05,
-      "loss": 0.0001,
-      "step": 6425
-    },
-    {
-      "epoch": 21.433333333333334,
-      "grad_norm": 0.0002813087485264987,
-      "learning_rate": 5.713333333333334e-05,
-      "loss": 0.0001,
-      "step": 6430
-    },
-    {
-      "epoch": 21.45,
-      "grad_norm": 0.000293906923616305,
-      "learning_rate": 5.702222222222222e-05,
-      "loss": 0.0001,
-      "step": 6435
-    },
-    {
-      "epoch": 21.466666666666665,
-      "grad_norm": 0.000262933928752318,
-      "learning_rate": 5.6911111111111114e-05,
-      "loss": 0.0001,
-      "step": 6440
-    },
-    {
-      "epoch": 21.483333333333334,
-      "grad_norm": 0.0002776109613478184,
-      "learning_rate": 5.68e-05,
-      "loss": 0.0001,
-      "step": 6445
-    },
-    {
-      "epoch": 21.5,
-      "grad_norm": 0.0002674645511433482,
-      "learning_rate": 5.668888888888889e-05,
-      "loss": 0.0001,
-      "step": 6450
-    },
-    {
-      "epoch": 21.516666666666666,
-      "grad_norm": 0.0002617900900077075,
-      "learning_rate": 5.657777777777779e-05,
-      "loss": 0.0001,
-      "step": 6455
-    },
-    {
-      "epoch": 21.533333333333335,
-      "grad_norm": 0.0002887643640860915,
-      "learning_rate": 5.6466666666666666e-05,
-      "loss": 0.0001,
-      "step": 6460
-    },
-    {
-      "epoch": 21.55,
-      "grad_norm": 0.0003080472524743527,
-      "learning_rate": 5.6355555555555564e-05,
-      "loss": 0.0001,
-      "step": 6465
-    },
-    {
-      "epoch": 21.566666666666666,
-      "grad_norm": 0.00027633848367258906,
-      "learning_rate": 5.624444444444444e-05,
-      "loss": 0.0001,
-      "step": 6470
-    },
-    {
-      "epoch": 21.583333333333332,
-      "grad_norm": 0.00039363341056741774,
-      "learning_rate": 5.613333333333334e-05,
-      "loss": 0.0001,
-      "step": 6475
-    },
-    {
-      "epoch": 21.6,
-      "grad_norm": 0.000266144925262779,
-      "learning_rate": 5.602222222222222e-05,
-      "loss": 0.0001,
-      "step": 6480
-    },
-    {
-      "epoch": 21.616666666666667,
-      "grad_norm": 0.00030587613582611084,
-      "learning_rate": 5.5911111111111116e-05,
-      "loss": 0.0001,
-      "step": 6485
-    },
-    {
-      "epoch": 21.633333333333333,
-      "grad_norm": 0.0003019751457031816,
-      "learning_rate": 5.580000000000001e-05,
-      "loss": 0.0001,
-      "step": 6490
-    },
-    {
-      "epoch": 21.65,
-      "grad_norm": 0.0003611110441852361,
-      "learning_rate": 5.568888888888889e-05,
-      "loss": 0.0001,
-      "step": 6495
-    },
-    {
-      "epoch": 21.666666666666668,
-      "grad_norm": 0.0008891016477718949,
-      "learning_rate": 5.5577777777777784e-05,
-      "loss": 0.0001,
-      "step": 6500
-    },
-    {
-      "epoch": 21.666666666666668,
-      "eval_accuracy": 0.8470833333333333,
-      "eval_f1": 0.8502167294072417,
-      "eval_loss": 1.039171576499939,
-      "eval_precision": 0.8675294305854705,
-      "eval_recall": 0.8470833333333333,
-      "eval_runtime": 16.2033,
-      "eval_samples_per_second": 148.118,
-      "eval_steps_per_second": 18.515,
-      "step": 6500
-    },
-    {
-      "epoch": 21.683333333333334,
-      "grad_norm": 0.0002741182688623667,
-      "learning_rate": 5.546666666666667e-05,
-      "loss": 0.0001,
-      "step": 6505
-    },
-    {
-      "epoch": 21.7,
-      "grad_norm": 0.00029581328271888196,
-      "learning_rate": 5.535555555555556e-05,
-      "loss": 0.0001,
-      "step": 6510
-    },
-    {
-      "epoch": 21.716666666666665,
-      "grad_norm": 0.00033434867509640753,
-      "learning_rate": 5.5244444444444445e-05,
-      "loss": 0.0001,
-      "step": 6515
-    },
-    {
-      "epoch": 21.733333333333334,
-      "grad_norm": 0.00027740225777961314,
-      "learning_rate": 5.5133333333333336e-05,
-      "loss": 0.0001,
-      "step": 6520
-    },
-    {
-      "epoch": 21.75,
-      "grad_norm": 0.0003304503043182194,
-      "learning_rate": 5.502222222222222e-05,
-      "loss": 0.0001,
-      "step": 6525
-    },
-    {
-      "epoch": 21.766666666666666,
-      "grad_norm": 0.00027159880846738815,
-      "learning_rate": 5.491111111111111e-05,
-      "loss": 0.0001,
-      "step": 6530
-    },
-    {
-      "epoch": 21.783333333333335,
-      "grad_norm": 0.0002866244176402688,
-      "learning_rate": 5.4800000000000004e-05,
-      "loss": 0.0001,
-      "step": 6535
-    },
-    {
-      "epoch": 21.8,
-      "grad_norm": 0.00034540475462563336,
-      "learning_rate": 5.468888888888889e-05,
-      "loss": 0.0001,
-      "step": 6540
-    },
-    {
-      "epoch": 21.816666666666666,
-      "grad_norm": 0.0002874887431971729,
-      "learning_rate": 5.457777777777778e-05,
-      "loss": 0.0001,
-      "step": 6545
-    },
-    {
-      "epoch": 21.833333333333332,
-      "grad_norm": 0.00027328490978106856,
-      "learning_rate": 5.4466666666666665e-05,
-      "loss": 0.0001,
-      "step": 6550
-    },
-    {
-      "epoch": 21.85,
-      "grad_norm": 0.00025862615439109504,
-      "learning_rate": 5.435555555555556e-05,
-      "loss": 0.0001,
-      "step": 6555
-    },
-    {
-      "epoch": 21.866666666666667,
-      "grad_norm": 0.0003107462252955884,
-      "learning_rate": 5.424444444444444e-05,
-      "loss": 0.0001,
-      "step": 6560
-    },
-    {
-      "epoch": 21.883333333333333,
-      "grad_norm": 0.0003054691478610039,
-      "learning_rate": 5.413333333333334e-05,
-      "loss": 0.0001,
-      "step": 6565
-    },
-    {
-      "epoch": 21.9,
-      "grad_norm": 0.0002857912622857839,
-      "learning_rate": 5.402222222222223e-05,
-      "loss": 0.0001,
-      "step": 6570
-    },
-    {
-      "epoch": 21.916666666666668,
-      "grad_norm": 0.00030009387410245836,
-      "learning_rate": 5.3911111111111115e-05,
-      "loss": 0.0001,
-      "step": 6575
-    },
-    {
-      "epoch": 21.933333333333334,
-      "grad_norm": 0.00026914107729680836,
-      "learning_rate": 5.380000000000001e-05,
-      "loss": 0.0001,
-      "step": 6580
-    },
-    {
-      "epoch": 21.95,
-      "grad_norm": 0.00036167920916341245,
-      "learning_rate": 5.368888888888889e-05,
-      "loss": 0.0001,
-      "step": 6585
-    },
-    {
-      "epoch": 21.966666666666665,
-      "grad_norm": 0.00028808589559048414,
-      "learning_rate": 5.357777777777778e-05,
-      "loss": 0.0001,
-      "step": 6590
-    },
-    {
-      "epoch": 21.983333333333334,
-      "grad_norm": 0.00028558794292621315,
-      "learning_rate": 5.346666666666667e-05,
-      "loss": 0.0001,
-      "step": 6595
-    },
-    {
-      "epoch": 22.0,
-      "grad_norm": 0.0002790800353977829,
-      "learning_rate": 5.335555555555556e-05,
-      "loss": 0.0001,
-      "step": 6600
-    },
-    {
-      "epoch": 22.0,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8498638689862323,
-      "eval_loss": 1.0441759824752808,
-      "eval_precision": 0.8673807387397221,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.3057,
-      "eval_samples_per_second": 147.187,
-      "eval_steps_per_second": 18.398,
-      "step": 6600
-    },
-    {
-      "epoch": 22.016666666666666,
-      "grad_norm": 0.00025822740281000733,
-      "learning_rate": 5.324444444444445e-05,
-      "loss": 0.0001,
-      "step": 6605
-    },
-    {
-      "epoch": 22.033333333333335,
-      "grad_norm": 0.0003031076048500836,
-      "learning_rate": 5.3133333333333335e-05,
-      "loss": 0.0001,
-      "step": 6610
-    },
-    {
-      "epoch": 22.05,
-      "grad_norm": 0.0002530587953515351,
-      "learning_rate": 5.3022222222222227e-05,
-      "loss": 0.0001,
-      "step": 6615
-    },
-    {
-      "epoch": 22.066666666666666,
-      "grad_norm": 0.000271415599854663,
-      "learning_rate": 5.291111111111111e-05,
-      "loss": 0.0001,
-      "step": 6620
-    },
-    {
-      "epoch": 22.083333333333332,
-      "grad_norm": 0.0002898757520597428,
-      "learning_rate": 5.28e-05,
-      "loss": 0.0001,
-      "step": 6625
-    },
-    {
-      "epoch": 22.1,
-      "grad_norm": 0.0002742844808381051,
-      "learning_rate": 5.268888888888889e-05,
-      "loss": 0.0001,
-      "step": 6630
-    },
-    {
-      "epoch": 22.116666666666667,
-      "grad_norm": 0.0002672626869753003,
-      "learning_rate": 5.257777777777778e-05,
-      "loss": 0.0001,
-      "step": 6635
-    },
-    {
-      "epoch": 22.133333333333333,
-      "grad_norm": 0.0002779485657811165,
-      "learning_rate": 5.2466666666666664e-05,
-      "loss": 0.0001,
-      "step": 6640
-    },
-    {
-      "epoch": 22.15,
-      "grad_norm": 0.00026427838020026684,
-      "learning_rate": 5.2355555555555555e-05,
-      "loss": 0.0001,
-      "step": 6645
-    },
-    {
-      "epoch": 22.166666666666668,
-      "grad_norm": 0.00033331618760712445,
-      "learning_rate": 5.224444444444445e-05,
-      "loss": 0.0001,
-      "step": 6650
-    },
-    {
-      "epoch": 22.183333333333334,
-      "grad_norm": 0.0002552353253122419,
-      "learning_rate": 5.213333333333333e-05,
-      "loss": 0.0001,
-      "step": 6655
-    },
-    {
-      "epoch": 22.2,
-      "grad_norm": 0.00026255339616909623,
-      "learning_rate": 5.202222222222223e-05,
-      "loss": 0.0001,
-      "step": 6660
-    },
-    {
-      "epoch": 22.216666666666665,
-      "grad_norm": 0.0002807233831845224,
-      "learning_rate": 5.191111111111111e-05,
-      "loss": 0.0001,
-      "step": 6665
-    },
-    {
-      "epoch": 22.233333333333334,
-      "grad_norm": 0.00024707571719773114,
-      "learning_rate": 5.1800000000000005e-05,
-      "loss": 0.0001,
-      "step": 6670
-    },
-    {
-      "epoch": 22.25,
-      "grad_norm": 0.00027865602169185877,
-      "learning_rate": 5.1688888888888883e-05,
-      "loss": 0.0001,
-      "step": 6675
-    },
-    {
-      "epoch": 22.266666666666666,
-      "grad_norm": 0.00025088549591600895,
-      "learning_rate": 5.157777777777778e-05,
-      "loss": 0.0001,
-      "step": 6680
-    },
-    {
-      "epoch": 22.283333333333335,
-      "grad_norm": 0.0002505806623958051,
-      "learning_rate": 5.146666666666667e-05,
-      "loss": 0.0001,
-      "step": 6685
-    },
-    {
-      "epoch": 22.3,
-      "grad_norm": 0.0002433124027447775,
-      "learning_rate": 5.135555555555556e-05,
-      "loss": 0.0001,
-      "step": 6690
-    },
-    {
-      "epoch": 22.316666666666666,
-      "grad_norm": 0.00027106277411803603,
-      "learning_rate": 5.124444444444445e-05,
-      "loss": 0.0001,
-      "step": 6695
-    },
-    {
-      "epoch": 22.333333333333332,
-      "grad_norm": 0.00027145229978486896,
-      "learning_rate": 5.1133333333333334e-05,
-      "loss": 0.0001,
-      "step": 6700
-    },
-    {
-      "epoch": 22.333333333333332,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8498638689862323,
-      "eval_loss": 1.0487054586410522,
-      "eval_precision": 0.8673807387397221,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.4585,
-      "eval_samples_per_second": 145.821,
-      "eval_steps_per_second": 18.228,
-      "step": 6700
-    },
-    {
-      "epoch": 22.35,
-      "grad_norm": 0.0002497430541552603,
-      "learning_rate": 5.1022222222222225e-05,
-      "loss": 0.0001,
-      "step": 6705
-    },
-    {
-      "epoch": 22.366666666666667,
-      "grad_norm": 0.00026989722391590476,
-      "learning_rate": 5.091111111111111e-05,
-      "loss": 0.0001,
-      "step": 6710
-    },
-    {
-      "epoch": 22.383333333333333,
-      "grad_norm": 0.00026505955611355603,
-      "learning_rate": 5.08e-05,
-      "loss": 0.0001,
-      "step": 6715
-    },
-    {
-      "epoch": 22.4,
-      "grad_norm": 0.0002588845381978899,
-      "learning_rate": 5.06888888888889e-05,
-      "loss": 0.0001,
-      "step": 6720
-    },
-    {
-      "epoch": 22.416666666666668,
-      "grad_norm": 0.0002679526514839381,
-      "learning_rate": 5.057777777777778e-05,
-      "loss": 0.0001,
-      "step": 6725
-    },
-    {
-      "epoch": 22.433333333333334,
-      "grad_norm": 0.000276778097031638,
-      "learning_rate": 5.0466666666666676e-05,
-      "loss": 0.0001,
-      "step": 6730
-    },
-    {
-      "epoch": 22.45,
-      "grad_norm": 0.0003003232413902879,
-      "learning_rate": 5.0355555555555554e-05,
-      "loss": 0.0001,
-      "step": 6735
-    },
-    {
-      "epoch": 22.466666666666665,
-      "grad_norm": 0.0002944658335763961,
-      "learning_rate": 5.024444444444445e-05,
-      "loss": 0.0001,
-      "step": 6740
-    },
-    {
-      "epoch": 22.483333333333334,
-      "grad_norm": 0.00023439062351826578,
-      "learning_rate": 5.013333333333333e-05,
-      "loss": 0.0001,
-      "step": 6745
-    },
-    {
-      "epoch": 22.5,
-      "grad_norm": 0.0002848739386536181,
-      "learning_rate": 5.002222222222223e-05,
-      "loss": 0.0001,
-      "step": 6750
-    },
-    {
-      "epoch": 22.516666666666666,
-      "grad_norm": 0.00025978669873438776,
-      "learning_rate": 4.991111111111111e-05,
-      "loss": 0.0001,
-      "step": 6755
-    },
-    {
-      "epoch": 22.533333333333335,
-      "grad_norm": 0.0002645316126290709,
-      "learning_rate": 4.9800000000000004e-05,
-      "loss": 0.0001,
-      "step": 6760
-    },
-    {
-      "epoch": 22.55,
-      "grad_norm": 0.0007880293414928019,
-      "learning_rate": 4.968888888888889e-05,
-      "loss": 0.0001,
-      "step": 6765
-    },
-    {
-      "epoch": 22.566666666666666,
-      "grad_norm": 0.00026913921465165913,
-      "learning_rate": 4.957777777777778e-05,
-      "loss": 0.0001,
-      "step": 6770
-    },
-    {
-      "epoch": 22.583333333333332,
-      "grad_norm": 0.0002828482538461685,
-      "learning_rate": 4.9466666666666665e-05,
-      "loss": 0.0001,
-      "step": 6775
-    },
-    {
-      "epoch": 22.6,
-      "grad_norm": 0.0002534892992116511,
-      "learning_rate": 4.935555555555556e-05,
-      "loss": 0.0001,
-      "step": 6780
-    },
-    {
-      "epoch": 22.616666666666667,
-      "grad_norm": 0.00023514850181527436,
-      "learning_rate": 4.924444444444445e-05,
-      "loss": 0.0001,
-      "step": 6785
-    },
-    {
-      "epoch": 22.633333333333333,
-      "grad_norm": 0.00024663860676810145,
-      "learning_rate": 4.913333333333334e-05,
-      "loss": 0.0001,
-      "step": 6790
-    },
-    {
-      "epoch": 22.65,
-      "grad_norm": 0.00024714486789889634,
-      "learning_rate": 4.9022222222222224e-05,
-      "loss": 0.0001,
-      "step": 6795
-    },
-    {
-      "epoch": 22.666666666666668,
-      "grad_norm": 0.000257825042353943,
-      "learning_rate": 4.8911111111111116e-05,
-      "loss": 0.0001,
-      "step": 6800
-    },
-    {
-      "epoch": 22.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8498638689862323,
-      "eval_loss": 1.0533019304275513,
-      "eval_precision": 0.8673807387397221,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.4578,
-      "eval_samples_per_second": 145.827,
-      "eval_steps_per_second": 18.228,
-      "step": 6800
-    },
-    {
-      "epoch": 22.683333333333334,
-      "grad_norm": 0.0002552613150328398,
-      "learning_rate": 4.88e-05,
-      "loss": 0.0001,
-      "step": 6805
-    },
-    {
-      "epoch": 22.7,
-      "grad_norm": 0.00026841487851925194,
-      "learning_rate": 4.868888888888889e-05,
-      "loss": 0.0001,
-      "step": 6810
-    },
-    {
-      "epoch": 22.716666666666665,
-      "grad_norm": 0.00041342320037074387,
-      "learning_rate": 4.8577777777777776e-05,
-      "loss": 0.0001,
-      "step": 6815
-    },
-    {
-      "epoch": 22.733333333333334,
-      "grad_norm": 0.0002427242579869926,
-      "learning_rate": 4.8466666666666675e-05,
-      "loss": 0.0001,
-      "step": 6820
-    },
-    {
-      "epoch": 22.75,
-      "grad_norm": 0.00029597655520774424,
-      "learning_rate": 4.835555555555556e-05,
-      "loss": 0.0001,
-      "step": 6825
-    },
-    {
-      "epoch": 22.766666666666666,
-      "grad_norm": 0.0002580389555078,
-      "learning_rate": 4.824444444444445e-05,
-      "loss": 0.0001,
-      "step": 6830
-    },
-    {
-      "epoch": 22.783333333333335,
-      "grad_norm": 0.0002505508600734174,
-      "learning_rate": 4.8133333333333336e-05,
-      "loss": 0.0001,
-      "step": 6835
-    },
-    {
-      "epoch": 22.8,
-      "grad_norm": 0.00027505034813657403,
-      "learning_rate": 4.802222222222223e-05,
-      "loss": 0.0001,
-      "step": 6840
-    },
-    {
-      "epoch": 22.816666666666666,
-      "grad_norm": 0.0002738351176958531,
-      "learning_rate": 4.791111111111111e-05,
-      "loss": 0.0001,
-      "step": 6845
-    },
-    {
-      "epoch": 22.833333333333332,
-      "grad_norm": 0.0003023172030225396,
-      "learning_rate": 4.78e-05,
-      "loss": 0.0001,
-      "step": 6850
-    },
-    {
-      "epoch": 22.85,
-      "grad_norm": 0.0002553491503931582,
-      "learning_rate": 4.768888888888889e-05,
-      "loss": 0.0001,
-      "step": 6855
-    },
-    {
-      "epoch": 22.866666666666667,
-      "grad_norm": 0.00025442600599490106,
-      "learning_rate": 4.757777777777778e-05,
-      "loss": 0.0001,
-      "step": 6860
-    },
-    {
-      "epoch": 22.883333333333333,
-      "grad_norm": 0.00027285743271932006,
-      "learning_rate": 4.746666666666667e-05,
-      "loss": 0.0001,
-      "step": 6865
-    },
-    {
-      "epoch": 22.9,
-      "grad_norm": 0.00026554372743703425,
-      "learning_rate": 4.7355555555555555e-05,
-      "loss": 0.0001,
-      "step": 6870
-    },
-    {
-      "epoch": 22.916666666666668,
-      "grad_norm": 0.00024519689031876624,
-      "learning_rate": 4.724444444444445e-05,
-      "loss": 0.0001,
-      "step": 6875
-    },
-    {
-      "epoch": 22.933333333333334,
-      "grad_norm": 0.00026110230828635395,
-      "learning_rate": 4.713333333333333e-05,
-      "loss": 0.0001,
-      "step": 6880
-    },
-    {
-      "epoch": 22.95,
-      "grad_norm": 0.0002928450412582606,
-      "learning_rate": 4.702222222222222e-05,
-      "loss": 0.0001,
-      "step": 6885
-    },
-    {
-      "epoch": 22.966666666666665,
-      "grad_norm": 0.0002398347423877567,
-      "learning_rate": 4.6911111111111114e-05,
-      "loss": 0.0001,
-      "step": 6890
-    },
-    {
-      "epoch": 22.983333333333334,
-      "grad_norm": 0.0002812191960401833,
-      "learning_rate": 4.6800000000000006e-05,
-      "loss": 0.0001,
-      "step": 6895
-    },
-    {
-      "epoch": 23.0,
-      "grad_norm": 0.00023080613755155355,
-      "learning_rate": 4.668888888888889e-05,
-      "loss": 0.0001,
-      "step": 6900
-    },
-    {
-      "epoch": 23.0,
-      "eval_accuracy": 0.8470833333333333,
-      "eval_f1": 0.8503154017305732,
-      "eval_loss": 1.0577846765518188,
-      "eval_precision": 0.8677497121368413,
-      "eval_recall": 0.8470833333333333,
-      "eval_runtime": 16.3502,
-      "eval_samples_per_second": 146.788,
-      "eval_steps_per_second": 18.348,
-      "step": 6900
-    },
-    {
-      "epoch": 23.016666666666666,
-      "grad_norm": 0.00027008246979676187,
-      "learning_rate": 4.657777777777778e-05,
-      "loss": 0.0001,
-      "step": 6905
-    },
-    {
-      "epoch": 23.033333333333335,
-      "grad_norm": 0.00024215831945184618,
-      "learning_rate": 4.646666666666667e-05,
-      "loss": 0.0001,
-      "step": 6910
-    },
-    {
-      "epoch": 23.05,
-      "grad_norm": 0.0002507506578695029,
-      "learning_rate": 4.635555555555556e-05,
-      "loss": 0.0001,
-      "step": 6915
-    },
-    {
-      "epoch": 23.066666666666666,
-      "grad_norm": 0.0002668283705133945,
-      "learning_rate": 4.624444444444444e-05,
-      "loss": 0.0001,
-      "step": 6920
-    },
-    {
-      "epoch": 23.083333333333332,
-      "grad_norm": 0.0002691884874366224,
-      "learning_rate": 4.6133333333333334e-05,
-      "loss": 0.0001,
-      "step": 6925
-    },
-    {
-      "epoch": 23.1,
-      "grad_norm": 0.00021441030548885465,
-      "learning_rate": 4.602222222222222e-05,
-      "loss": 0.0001,
-      "step": 6930
-    },
-    {
-      "epoch": 23.116666666666667,
-      "grad_norm": 0.00023987866006791592,
-      "learning_rate": 4.591111111111112e-05,
-      "loss": 0.0001,
-      "step": 6935
-    },
-    {
-      "epoch": 23.133333333333333,
-      "grad_norm": 0.00025503814686089754,
-      "learning_rate": 4.58e-05,
-      "loss": 0.0001,
-      "step": 6940
-    },
-    {
-      "epoch": 23.15,
-      "grad_norm": 0.0002915800432674587,
-      "learning_rate": 4.5688888888888893e-05,
-      "loss": 0.0001,
-      "step": 6945
-    },
-    {
-      "epoch": 23.166666666666668,
-      "grad_norm": 0.0002407286810921505,
-      "learning_rate": 4.557777777777778e-05,
-      "loss": 0.0001,
-      "step": 6950
-    },
-    {
-      "epoch": 23.183333333333334,
-      "grad_norm": 0.00024404357827734202,
-      "learning_rate": 4.546666666666667e-05,
-      "loss": 0.0001,
-      "step": 6955
-    },
-    {
-      "epoch": 23.2,
-      "grad_norm": 0.00025436741998419166,
-      "learning_rate": 4.5355555555555554e-05,
-      "loss": 0.0001,
-      "step": 6960
-    },
-    {
-      "epoch": 23.216666666666665,
-      "grad_norm": 0.0002589651267044246,
-      "learning_rate": 4.5244444444444446e-05,
-      "loss": 0.0001,
-      "step": 6965
-    },
-    {
-      "epoch": 23.233333333333334,
-      "grad_norm": 0.0002547508047427982,
-      "learning_rate": 4.513333333333333e-05,
-      "loss": 0.0001,
-      "step": 6970
-    },
-    {
-      "epoch": 23.25,
-      "grad_norm": 0.00025012195692397654,
-      "learning_rate": 4.502222222222223e-05,
-      "loss": 0.0001,
-      "step": 6975
-    },
-    {
-      "epoch": 23.266666666666666,
-      "grad_norm": 0.00028508689138107,
-      "learning_rate": 4.491111111111111e-05,
-      "loss": 0.0001,
-      "step": 6980
-    },
-    {
-      "epoch": 23.283333333333335,
-      "grad_norm": 0.0002502746938262135,
-      "learning_rate": 4.4800000000000005e-05,
-      "loss": 0.0001,
-      "step": 6985
-    },
-    {
-      "epoch": 23.3,
-      "grad_norm": 0.00025590244331397116,
-      "learning_rate": 4.468888888888889e-05,
-      "loss": 0.0001,
-      "step": 6990
-    },
-    {
-      "epoch": 23.316666666666666,
-      "grad_norm": 0.00022391493257600814,
-      "learning_rate": 4.457777777777778e-05,
-      "loss": 0.0001,
-      "step": 6995
-    },
-    {
-      "epoch": 23.333333333333332,
-      "grad_norm": 0.00024588851374574006,
-      "learning_rate": 4.4466666666666666e-05,
-      "loss": 0.0001,
-      "step": 7000
-    },
-    {
-      "epoch": 23.333333333333332,
-      "eval_accuracy": 0.8470833333333333,
-      "eval_f1": 0.8503607185162946,
-      "eval_loss": 1.062278389930725,
-      "eval_precision": 0.8681741084066482,
-      "eval_recall": 0.8470833333333333,
-      "eval_runtime": 16.3646,
-      "eval_samples_per_second": 146.658,
-      "eval_steps_per_second": 18.332,
-      "step": 7000
-    },
-    {
-      "epoch": 23.35,
-      "grad_norm": 0.00022720319975633174,
-      "learning_rate": 4.435555555555556e-05,
-      "loss": 0.0001,
-      "step": 7005
-    },
-    {
-      "epoch": 23.366666666666667,
-      "grad_norm": 0.00021795403154101223,
-      "learning_rate": 4.424444444444444e-05,
-      "loss": 0.0001,
-      "step": 7010
-    },
-    {
-      "epoch": 23.383333333333333,
-      "grad_norm": 0.0002912510826718062,
-      "learning_rate": 4.413333333333334e-05,
-      "loss": 0.0001,
-      "step": 7015
-    },
-    {
-      "epoch": 23.4,
-      "grad_norm": 0.00030096503905951977,
-      "learning_rate": 4.4022222222222225e-05,
-      "loss": 0.0001,
-      "step": 7020
-    },
-    {
-      "epoch": 23.416666666666668,
-      "grad_norm": 0.00024182813649531454,
-      "learning_rate": 4.3911111111111116e-05,
-      "loss": 0.0001,
-      "step": 7025
-    },
-    {
-      "epoch": 23.433333333333334,
-      "grad_norm": 0.0002608186041470617,
-      "learning_rate": 4.38e-05,
-      "loss": 0.0001,
-      "step": 7030
-    },
-    {
-      "epoch": 23.45,
-      "grad_norm": 0.00022268433531280607,
-      "learning_rate": 4.368888888888889e-05,
-      "loss": 0.0001,
-      "step": 7035
-    },
-    {
-      "epoch": 23.466666666666665,
-      "grad_norm": 0.0002846709103323519,
-      "learning_rate": 4.357777777777778e-05,
-      "loss": 0.0001,
-      "step": 7040
-    },
-    {
-      "epoch": 23.483333333333334,
-      "grad_norm": 0.0002541876456234604,
-      "learning_rate": 4.346666666666667e-05,
-      "loss": 0.0001,
-      "step": 7045
-    },
-    {
-      "epoch": 23.5,
-      "grad_norm": 0.00035566792939789593,
-      "learning_rate": 4.335555555555556e-05,
-      "loss": 0.0001,
-      "step": 7050
-    },
-    {
-      "epoch": 23.516666666666666,
-      "grad_norm": 0.00022540731879416853,
-      "learning_rate": 4.324444444444445e-05,
-      "loss": 0.0001,
-      "step": 7055
-    },
-    {
-      "epoch": 23.533333333333335,
-      "grad_norm": 0.0002509643672965467,
-      "learning_rate": 4.3133333333333336e-05,
-      "loss": 0.0001,
-      "step": 7060
-    },
-    {
-      "epoch": 23.55,
-      "grad_norm": 0.00025344715686514974,
-      "learning_rate": 4.302222222222223e-05,
-      "loss": 0.0001,
-      "step": 7065
-    },
-    {
-      "epoch": 23.566666666666666,
-      "grad_norm": 0.00022203628032002598,
-      "learning_rate": 4.291111111111111e-05,
-      "loss": 0.0001,
-      "step": 7070
-    },
-    {
-      "epoch": 23.583333333333332,
-      "grad_norm": 0.0002737989416345954,
-      "learning_rate": 4.2800000000000004e-05,
-      "loss": 0.0001,
-      "step": 7075
-    },
-    {
-      "epoch": 23.6,
-      "grad_norm": 0.00021242840739432722,
-      "learning_rate": 4.268888888888889e-05,
-      "loss": 0.0001,
-      "step": 7080
-    },
-    {
-      "epoch": 23.616666666666667,
-      "grad_norm": 0.00022146181436255574,
-      "learning_rate": 4.257777777777778e-05,
-      "loss": 0.0001,
-      "step": 7085
-    },
-    {
-      "epoch": 23.633333333333333,
-      "grad_norm": 0.0002117734547937289,
-      "learning_rate": 4.246666666666667e-05,
-      "loss": 0.0001,
-      "step": 7090
-    },
-    {
-      "epoch": 23.65,
-      "grad_norm": 0.00028244065470062196,
-      "learning_rate": 4.235555555555556e-05,
-      "loss": 0.0001,
-      "step": 7095
-    },
-    {
-      "epoch": 23.666666666666668,
-      "grad_norm": 0.0002063852734863758,
-      "learning_rate": 4.224444444444445e-05,
-      "loss": 0.0001,
-      "step": 7100
-    },
-    {
-      "epoch": 23.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499721494513881,
-      "eval_loss": 1.066104769706726,
-      "eval_precision": 0.8679501033390433,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.3167,
-      "eval_samples_per_second": 147.088,
-      "eval_steps_per_second": 18.386,
-      "step": 7100
-    },
-    {
-      "epoch": 23.683333333333334,
-      "grad_norm": 0.00025979135534726083,
-      "learning_rate": 4.213333333333334e-05,
-      "loss": 0.0001,
-      "step": 7105
-    },
-    {
-      "epoch": 23.7,
-      "grad_norm": 0.0002719918265938759,
-      "learning_rate": 4.2022222222222223e-05,
-      "loss": 0.0001,
-      "step": 7110
-    },
-    {
-      "epoch": 23.716666666666665,
-      "grad_norm": 0.00023371844145003706,
-      "learning_rate": 4.1911111111111115e-05,
-      "loss": 0.0001,
-      "step": 7115
-    },
-    {
-      "epoch": 23.733333333333334,
-      "grad_norm": 0.00023070574388839304,
-      "learning_rate": 4.18e-05,
-      "loss": 0.0001,
-      "step": 7120
-    },
-    {
-      "epoch": 23.75,
-      "grad_norm": 0.0002945567248389125,
-      "learning_rate": 4.168888888888889e-05,
-      "loss": 0.0001,
-      "step": 7125
-    },
-    {
-      "epoch": 23.766666666666666,
-      "grad_norm": 0.00023751425032969564,
-      "learning_rate": 4.157777777777778e-05,
-      "loss": 0.0001,
-      "step": 7130
-    },
-    {
-      "epoch": 23.783333333333335,
-      "grad_norm": 0.00019871763652190566,
-      "learning_rate": 4.146666666666667e-05,
-      "loss": 0.0001,
-      "step": 7135
-    },
-    {
-      "epoch": 23.8,
-      "grad_norm": 0.0002435280184727162,
-      "learning_rate": 4.135555555555556e-05,
-      "loss": 0.0001,
-      "step": 7140
-    },
-    {
-      "epoch": 23.816666666666666,
-      "grad_norm": 0.00024425185984000564,
-      "learning_rate": 4.124444444444444e-05,
-      "loss": 0.0001,
-      "step": 7145
-    },
-    {
-      "epoch": 23.833333333333332,
-      "grad_norm": 0.00025624592672102153,
-      "learning_rate": 4.1133333333333335e-05,
-      "loss": 0.0001,
-      "step": 7150
-    },
-    {
-      "epoch": 23.85,
-      "grad_norm": 0.00025414410629309714,
-      "learning_rate": 4.1022222222222226e-05,
-      "loss": 0.0001,
-      "step": 7155
-    },
-    {
-      "epoch": 23.866666666666667,
-      "grad_norm": 0.00032832284341566265,
-      "learning_rate": 4.091111111111111e-05,
-      "loss": 0.0001,
-      "step": 7160
-    },
-    {
-      "epoch": 23.883333333333333,
-      "grad_norm": 0.00020365184172987938,
-      "learning_rate": 4.08e-05,
-      "loss": 0.0001,
-      "step": 7165
-    },
-    {
-      "epoch": 23.9,
-      "grad_norm": 0.0001982737157959491,
-      "learning_rate": 4.0688888888888894e-05,
-      "loss": 0.0001,
-      "step": 7170
-    },
-    {
-      "epoch": 23.916666666666668,
-      "grad_norm": 0.0002705341612454504,
-      "learning_rate": 4.057777777777778e-05,
-      "loss": 0.0001,
-      "step": 7175
-    },
-    {
-      "epoch": 23.933333333333334,
-      "grad_norm": 0.0002258357999380678,
-      "learning_rate": 4.046666666666667e-05,
-      "loss": 0.0001,
-      "step": 7180
-    },
-    {
-      "epoch": 23.95,
-      "grad_norm": 0.00023500589304603636,
-      "learning_rate": 4.0355555555555555e-05,
-      "loss": 0.0001,
-      "step": 7185
-    },
-    {
-      "epoch": 23.966666666666665,
-      "grad_norm": 0.0002185053308494389,
-      "learning_rate": 4.0244444444444446e-05,
-      "loss": 0.0,
-      "step": 7190
-    },
-    {
-      "epoch": 23.983333333333334,
-      "grad_norm": 0.00022217672085389495,
-      "learning_rate": 4.013333333333333e-05,
-      "loss": 0.0001,
-      "step": 7195
-    },
-    {
-      "epoch": 24.0,
-      "grad_norm": 0.00026679434813559055,
-      "learning_rate": 4.002222222222222e-05,
-      "loss": 0.0001,
-      "step": 7200
-    },
-    {
-      "epoch": 24.0,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499721494513881,
-      "eval_loss": 1.0701332092285156,
-      "eval_precision": 0.8679501033390433,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.5079,
-      "eval_samples_per_second": 145.385,
-      "eval_steps_per_second": 18.173,
-      "step": 7200
-    },
-    {
-      "epoch": 24.016666666666666,
-      "grad_norm": 0.00023007298295851797,
-      "learning_rate": 3.9911111111111114e-05,
-      "loss": 0.0001,
-      "step": 7205
-    },
-    {
-      "epoch": 24.033333333333335,
-      "grad_norm": 0.00024916077381931245,
-      "learning_rate": 3.9800000000000005e-05,
-      "loss": 0.0001,
-      "step": 7210
-    },
-    {
-      "epoch": 24.05,
-      "grad_norm": 0.0002330896386411041,
-      "learning_rate": 3.968888888888889e-05,
-      "loss": 0.0001,
-      "step": 7215
-    },
-    {
-      "epoch": 24.066666666666666,
-      "grad_norm": 0.00019785709446296096,
-      "learning_rate": 3.957777777777778e-05,
-      "loss": 0.0001,
-      "step": 7220
-    },
-    {
-      "epoch": 24.083333333333332,
-      "grad_norm": 0.00024400559777859598,
-      "learning_rate": 3.9466666666666666e-05,
-      "loss": 0.0001,
-      "step": 7225
-    },
-    {
-      "epoch": 24.1,
-      "grad_norm": 0.00019491119019221514,
-      "learning_rate": 3.935555555555556e-05,
-      "loss": 0.0001,
-      "step": 7230
-    },
-    {
-      "epoch": 24.116666666666667,
-      "grad_norm": 0.00022698343673255295,
-      "learning_rate": 3.924444444444444e-05,
-      "loss": 0.0001,
-      "step": 7235
-    },
-    {
-      "epoch": 24.133333333333333,
-      "grad_norm": 0.00020692427642643452,
-      "learning_rate": 3.9133333333333334e-05,
-      "loss": 0.0001,
-      "step": 7240
-    },
-    {
-      "epoch": 24.15,
-      "grad_norm": 0.0002654833369888365,
-      "learning_rate": 3.9022222222222225e-05,
-      "loss": 0.0,
-      "step": 7245
-    },
-    {
-      "epoch": 24.166666666666668,
-      "grad_norm": 0.00021475953690242022,
-      "learning_rate": 3.8911111111111117e-05,
-      "loss": 0.0001,
-      "step": 7250
-    },
-    {
-      "epoch": 24.183333333333334,
-      "grad_norm": 0.000244792434386909,
-      "learning_rate": 3.88e-05,
-      "loss": 0.0001,
-      "step": 7255
-    },
-    {
-      "epoch": 24.2,
-      "grad_norm": 0.00024232249415945262,
-      "learning_rate": 3.868888888888889e-05,
-      "loss": 0.0001,
-      "step": 7260
-    },
-    {
-      "epoch": 24.216666666666665,
-      "grad_norm": 0.0002223096671514213,
-      "learning_rate": 3.857777777777778e-05,
-      "loss": 0.0001,
-      "step": 7265
-    },
-    {
-      "epoch": 24.233333333333334,
-      "grad_norm": 0.00021424208534881473,
-      "learning_rate": 3.846666666666667e-05,
-      "loss": 0.0,
-      "step": 7270
-    },
-    {
-      "epoch": 24.25,
-      "grad_norm": 0.00022613734472543,
-      "learning_rate": 3.8355555555555553e-05,
-      "loss": 0.0,
-      "step": 7275
-    },
-    {
-      "epoch": 24.266666666666666,
-      "grad_norm": 0.0002507210010662675,
-      "learning_rate": 3.8244444444444445e-05,
-      "loss": 0.0,
-      "step": 7280
-    },
-    {
-      "epoch": 24.283333333333335,
-      "grad_norm": 0.00023624557070434093,
-      "learning_rate": 3.8133333333333336e-05,
-      "loss": 0.0001,
-      "step": 7285
-    },
-    {
-      "epoch": 24.3,
-      "grad_norm": 0.00020894999033771455,
-      "learning_rate": 3.802222222222223e-05,
-      "loss": 0.0,
-      "step": 7290
-    },
-    {
-      "epoch": 24.316666666666666,
-      "grad_norm": 0.00029011312290094793,
-      "learning_rate": 3.791111111111111e-05,
-      "loss": 0.0001,
-      "step": 7295
-    },
-    {
-      "epoch": 24.333333333333332,
-      "grad_norm": 0.00023960950784385204,
-      "learning_rate": 3.7800000000000004e-05,
-      "loss": 0.0001,
-      "step": 7300
-    },
-    {
-      "epoch": 24.333333333333332,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499721494513881,
-      "eval_loss": 1.0739996433258057,
-      "eval_precision": 0.8679501033390433,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.5494,
-      "eval_samples_per_second": 145.02,
-      "eval_steps_per_second": 18.128,
-      "step": 7300
-    },
-    {
-      "epoch": 24.35,
-      "grad_norm": 0.00025138468481600285,
-      "learning_rate": 3.768888888888889e-05,
-      "loss": 0.0001,
-      "step": 7305
-    },
-    {
-      "epoch": 24.366666666666667,
-      "grad_norm": 0.0002635279961396009,
-      "learning_rate": 3.757777777777778e-05,
-      "loss": 0.0001,
-      "step": 7310
-    },
-    {
-      "epoch": 24.383333333333333,
-      "grad_norm": 0.00020803543156944215,
-      "learning_rate": 3.7466666666666665e-05,
-      "loss": 0.0,
-      "step": 7315
-    },
-    {
-      "epoch": 24.4,
-      "grad_norm": 0.00024618511088192463,
-      "learning_rate": 3.7355555555555556e-05,
-      "loss": 0.0,
-      "step": 7320
-    },
-    {
-      "epoch": 24.416666666666668,
-      "grad_norm": 0.00024533452233299613,
-      "learning_rate": 3.724444444444445e-05,
-      "loss": 0.0001,
-      "step": 7325
-    },
-    {
-      "epoch": 24.433333333333334,
-      "grad_norm": 0.0002544392482377589,
-      "learning_rate": 3.713333333333334e-05,
-      "loss": 0.0001,
-      "step": 7330
-    },
-    {
-      "epoch": 24.45,
-      "grad_norm": 0.000218000597669743,
-      "learning_rate": 3.7022222222222224e-05,
-      "loss": 0.0,
-      "step": 7335
-    },
-    {
-      "epoch": 24.466666666666665,
-      "grad_norm": 0.00020193013187963516,
-      "learning_rate": 3.6911111111111115e-05,
-      "loss": 0.0001,
-      "step": 7340
-    },
-    {
-      "epoch": 24.483333333333334,
-      "grad_norm": 0.00019956985488533974,
-      "learning_rate": 3.68e-05,
-      "loss": 0.0,
-      "step": 7345
-    },
-    {
-      "epoch": 24.5,
-      "grad_norm": 0.00021688919514417648,
-      "learning_rate": 3.668888888888889e-05,
-      "loss": 0.0001,
-      "step": 7350
-    },
-    {
-      "epoch": 24.516666666666666,
-      "grad_norm": 0.0002168742212234065,
-      "learning_rate": 3.6577777777777776e-05,
-      "loss": 0.0,
-      "step": 7355
-    },
-    {
-      "epoch": 24.533333333333335,
-      "grad_norm": 0.0002345129760215059,
-      "learning_rate": 3.646666666666667e-05,
-      "loss": 0.0,
-      "step": 7360
-    },
-    {
-      "epoch": 24.55,
-      "grad_norm": 0.00020760986080858856,
-      "learning_rate": 3.635555555555556e-05,
-      "loss": 0.0,
-      "step": 7365
-    },
-    {
-      "epoch": 24.566666666666666,
-      "grad_norm": 0.00021269793796818703,
-      "learning_rate": 3.624444444444445e-05,
-      "loss": 0.0,
-      "step": 7370
-    },
-    {
-      "epoch": 24.583333333333332,
-      "grad_norm": 0.00019547852571122348,
-      "learning_rate": 3.6133333333333335e-05,
-      "loss": 0.0,
-      "step": 7375
-    },
-    {
-      "epoch": 24.6,
-      "grad_norm": 0.0005748062394559383,
-      "learning_rate": 3.602222222222223e-05,
-      "loss": 0.0,
-      "step": 7380
-    },
-    {
-      "epoch": 24.616666666666667,
-      "grad_norm": 0.00022998711210675538,
-      "learning_rate": 3.591111111111111e-05,
-      "loss": 0.0,
-      "step": 7385
-    },
-    {
-      "epoch": 24.633333333333333,
-      "grad_norm": 0.0002267269737785682,
-      "learning_rate": 3.58e-05,
-      "loss": 0.0,
-      "step": 7390
-    },
-    {
-      "epoch": 24.65,
-      "grad_norm": 0.00021420586563181132,
-      "learning_rate": 3.568888888888889e-05,
-      "loss": 0.0,
-      "step": 7395
-    },
-    {
-      "epoch": 24.666666666666668,
-      "grad_norm": 0.00018942895985674113,
-      "learning_rate": 3.557777777777778e-05,
-      "loss": 0.0,
-      "step": 7400
-    },
-    {
-      "epoch": 24.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499264906281832,
-      "eval_loss": 1.0775179862976074,
-      "eval_precision": 0.8677928500647916,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.3066,
-      "eval_samples_per_second": 147.18,
-      "eval_steps_per_second": 18.398,
-      "step": 7400
-    },
-    {
-      "epoch": 24.683333333333334,
-      "grad_norm": 0.00019541027722880244,
-      "learning_rate": 3.546666666666667e-05,
-      "loss": 0.0,
-      "step": 7405
-    },
-    {
-      "epoch": 24.7,
-      "grad_norm": 0.0001958674256457016,
-      "learning_rate": 3.5355555555555555e-05,
-      "loss": 0.0,
-      "step": 7410
-    },
-    {
-      "epoch": 24.716666666666665,
-      "grad_norm": 0.00025535369059070945,
-      "learning_rate": 3.5244444444444447e-05,
-      "loss": 0.0,
-      "step": 7415
-    },
-    {
-      "epoch": 24.733333333333334,
-      "grad_norm": 0.00020717385632451624,
-      "learning_rate": 3.513333333333334e-05,
-      "loss": 0.0,
-      "step": 7420
-    },
-    {
-      "epoch": 24.75,
-      "grad_norm": 0.00020789729023817927,
-      "learning_rate": 3.502222222222222e-05,
-      "loss": 0.0,
-      "step": 7425
-    },
-    {
-      "epoch": 24.766666666666666,
-      "grad_norm": 0.00021993034170009196,
-      "learning_rate": 3.4911111111111114e-05,
-      "loss": 0.0,
-      "step": 7430
-    },
-    {
-      "epoch": 24.783333333333335,
-      "grad_norm": 0.00022189272567629814,
-      "learning_rate": 3.48e-05,
-      "loss": 0.0,
-      "step": 7435
-    },
-    {
-      "epoch": 24.8,
-      "grad_norm": 0.00019417607109062374,
-      "learning_rate": 3.468888888888889e-05,
-      "loss": 0.0,
-      "step": 7440
-    },
-    {
-      "epoch": 24.816666666666666,
-      "grad_norm": 0.00020818953635171056,
-      "learning_rate": 3.457777777777778e-05,
-      "loss": 0.0,
-      "step": 7445
-    },
-    {
-      "epoch": 24.833333333333332,
-      "grad_norm": 0.0002538960543461144,
-      "learning_rate": 3.4466666666666666e-05,
-      "loss": 0.0,
-      "step": 7450
-    },
-    {
-      "epoch": 24.85,
-      "grad_norm": 0.00021343961998354644,
-      "learning_rate": 3.435555555555556e-05,
-      "loss": 0.0,
-      "step": 7455
-    },
-    {
-      "epoch": 24.866666666666667,
-      "grad_norm": 0.00018908872152678668,
-      "learning_rate": 3.424444444444444e-05,
-      "loss": 0.0,
-      "step": 7460
-    },
-    {
-      "epoch": 24.883333333333333,
-      "grad_norm": 0.00021040150022599846,
-      "learning_rate": 3.4133333333333334e-05,
-      "loss": 0.0,
-      "step": 7465
-    },
-    {
-      "epoch": 24.9,
-      "grad_norm": 0.00027383456472307444,
-      "learning_rate": 3.402222222222222e-05,
-      "loss": 0.0,
-      "step": 7470
-    },
-    {
-      "epoch": 24.916666666666668,
-      "grad_norm": 0.00022720858396496624,
-      "learning_rate": 3.391111111111111e-05,
-      "loss": 0.0,
-      "step": 7475
-    },
-    {
-      "epoch": 24.933333333333334,
-      "grad_norm": 0.00021273862512316555,
-      "learning_rate": 3.38e-05,
-      "loss": 0.0,
-      "step": 7480
-    },
-    {
-      "epoch": 24.95,
-      "grad_norm": 0.00021126140200067312,
-      "learning_rate": 3.368888888888889e-05,
-      "loss": 0.0,
-      "step": 7485
-    },
-    {
-      "epoch": 24.966666666666665,
-      "grad_norm": 0.00020431703887879848,
-      "learning_rate": 3.357777777777778e-05,
-      "loss": 0.0,
-      "step": 7490
-    },
-    {
-      "epoch": 24.983333333333334,
-      "grad_norm": 0.00018321519019082189,
-      "learning_rate": 3.346666666666667e-05,
-      "loss": 0.0,
-      "step": 7495
-    },
-    {
-      "epoch": 25.0,
-      "grad_norm": 0.000184557749889791,
-      "learning_rate": 3.3355555555555554e-05,
-      "loss": 0.0,
-      "step": 7500
-    },
-    {
-      "epoch": 25.0,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499264906281832,
-      "eval_loss": 1.0810489654541016,
-      "eval_precision": 0.8677928500647916,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.4118,
-      "eval_samples_per_second": 146.236,
-      "eval_steps_per_second": 18.28,
-      "step": 7500
-    },
-    {
-      "epoch": 25.016666666666666,
-      "grad_norm": 0.0001942561793839559,
-      "learning_rate": 3.3244444444444445e-05,
-      "loss": 0.0,
-      "step": 7505
-    },
-    {
-      "epoch": 25.033333333333335,
-      "grad_norm": 0.00021330978779587895,
-      "learning_rate": 3.313333333333333e-05,
-      "loss": 0.0,
-      "step": 7510
-    },
-    {
-      "epoch": 25.05,
-      "grad_norm": 0.0002240202302346006,
-      "learning_rate": 3.302222222222222e-05,
-      "loss": 0.0,
-      "step": 7515
-    },
-    {
-      "epoch": 25.066666666666666,
-      "grad_norm": 0.00021186558296903968,
-      "learning_rate": 3.291111111111111e-05,
-      "loss": 0.0,
-      "step": 7520
-    },
-    {
-      "epoch": 25.083333333333332,
-      "grad_norm": 0.00021995275164954364,
-      "learning_rate": 3.2800000000000004e-05,
-      "loss": 0.0,
-      "step": 7525
-    },
-    {
-      "epoch": 25.1,
-      "grad_norm": 0.00023080063692759722,
-      "learning_rate": 3.268888888888889e-05,
-      "loss": 0.0,
-      "step": 7530
-    },
-    {
-      "epoch": 25.116666666666667,
-      "grad_norm": 0.0001885340898297727,
-      "learning_rate": 3.257777777777778e-05,
-      "loss": 0.0,
-      "step": 7535
-    },
-    {
-      "epoch": 25.133333333333333,
-      "grad_norm": 0.0001947401906363666,
-      "learning_rate": 3.2466666666666665e-05,
-      "loss": 0.0,
-      "step": 7540
-    },
-    {
-      "epoch": 25.15,
-      "grad_norm": 0.00020716458675451577,
-      "learning_rate": 3.235555555555556e-05,
-      "loss": 0.0,
-      "step": 7545
-    },
-    {
-      "epoch": 25.166666666666668,
-      "grad_norm": 0.00019093073206022382,
-      "learning_rate": 3.224444444444444e-05,
-      "loss": 0.0,
-      "step": 7550
-    },
-    {
-      "epoch": 25.183333333333334,
-      "grad_norm": 0.00019267198513261974,
-      "learning_rate": 3.213333333333334e-05,
-      "loss": 0.0,
-      "step": 7555
-    },
-    {
-      "epoch": 25.2,
-      "grad_norm": 0.00018603692296892405,
-      "learning_rate": 3.2022222222222224e-05,
-      "loss": 0.0,
-      "step": 7560
-    },
-    {
-      "epoch": 25.216666666666665,
-      "grad_norm": 0.00020505531574599445,
-      "learning_rate": 3.1911111111111116e-05,
-      "loss": 0.0,
-      "step": 7565
-    },
-    {
-      "epoch": 25.233333333333334,
-      "grad_norm": 0.0002223146439064294,
-      "learning_rate": 3.18e-05,
-      "loss": 0.0,
-      "step": 7570
-    },
-    {
-      "epoch": 25.25,
-      "grad_norm": 0.00024383985146414489,
-      "learning_rate": 3.168888888888889e-05,
-      "loss": 0.0,
-      "step": 7575
-    },
-    {
-      "epoch": 25.266666666666666,
-      "grad_norm": 0.0002256166480947286,
-      "learning_rate": 3.1577777777777777e-05,
-      "loss": 0.0,
-      "step": 7580
-    },
-    {
-      "epoch": 25.283333333333335,
-      "grad_norm": 0.00018404734146315604,
-      "learning_rate": 3.146666666666667e-05,
-      "loss": 0.0,
-      "step": 7585
-    },
-    {
-      "epoch": 25.3,
-      "grad_norm": 0.00019268118194304407,
-      "learning_rate": 3.135555555555555e-05,
-      "loss": 0.0,
-      "step": 7590
-    },
-    {
-      "epoch": 25.316666666666666,
-      "grad_norm": 0.00021935034601483494,
-      "learning_rate": 3.124444444444445e-05,
-      "loss": 0.0,
-      "step": 7595
-    },
-    {
-      "epoch": 25.333333333333332,
-      "grad_norm": 0.00019639387028291821,
-      "learning_rate": 3.1133333333333336e-05,
-      "loss": 0.0,
-      "step": 7600
-    },
-    {
-      "epoch": 25.333333333333332,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499014115061261,
-      "eval_loss": 1.0840508937835693,
-      "eval_precision": 0.8676045631592612,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.4075,
-      "eval_samples_per_second": 146.274,
-      "eval_steps_per_second": 18.284,
-      "step": 7600
-    },
-    {
-      "epoch": 25.35,
-      "grad_norm": 0.0002353778836550191,
-      "learning_rate": 3.102222222222223e-05,
-      "loss": 0.0,
-      "step": 7605
-    },
-    {
-      "epoch": 25.366666666666667,
-      "grad_norm": 0.00019983290985692292,
-      "learning_rate": 3.091111111111111e-05,
-      "loss": 0.0,
-      "step": 7610
-    },
-    {
-      "epoch": 25.383333333333333,
-      "grad_norm": 0.00018285961414221674,
-      "learning_rate": 3.08e-05,
-      "loss": 0.0,
-      "step": 7615
-    },
-    {
-      "epoch": 25.4,
-      "grad_norm": 0.00020621360454242676,
-      "learning_rate": 3.068888888888889e-05,
-      "loss": 0.0,
-      "step": 7620
-    },
-    {
-      "epoch": 25.416666666666668,
-      "grad_norm": 0.00019097162294201553,
-      "learning_rate": 3.057777777777778e-05,
-      "loss": 0.0,
-      "step": 7625
-    },
-    {
-      "epoch": 25.433333333333334,
-      "grad_norm": 0.00022017410083208233,
-      "learning_rate": 3.0466666666666664e-05,
-      "loss": 0.0,
-      "step": 7630
-    },
-    {
-      "epoch": 25.45,
-      "grad_norm": 0.0002120487333741039,
-      "learning_rate": 3.035555555555556e-05,
-      "loss": 0.0,
-      "step": 7635
-    },
-    {
-      "epoch": 25.466666666666665,
-      "grad_norm": 0.00021357435616664588,
-      "learning_rate": 3.0244444444444447e-05,
-      "loss": 0.0,
-      "step": 7640
-    },
-    {
-      "epoch": 25.483333333333334,
-      "grad_norm": 0.00020658467838075012,
-      "learning_rate": 3.0133333333333335e-05,
-      "loss": 0.0,
-      "step": 7645
-    },
-    {
-      "epoch": 25.5,
-      "grad_norm": 0.00020484771812334657,
-      "learning_rate": 3.0022222222222223e-05,
-      "loss": 0.0,
-      "step": 7650
-    },
-    {
-      "epoch": 25.516666666666666,
-      "grad_norm": 0.0002239009627373889,
-      "learning_rate": 2.991111111111111e-05,
-      "loss": 0.0,
-      "step": 7655
-    },
-    {
-      "epoch": 25.533333333333335,
-      "grad_norm": 0.00024362772819586098,
-      "learning_rate": 2.98e-05,
-      "loss": 0.0,
-      "step": 7660
-    },
-    {
-      "epoch": 25.55,
-      "grad_norm": 0.00021080090664327145,
-      "learning_rate": 2.9688888888888887e-05,
-      "loss": 0.0,
-      "step": 7665
-    },
-    {
-      "epoch": 25.566666666666666,
-      "grad_norm": 0.00023055904603097588,
-      "learning_rate": 2.9577777777777775e-05,
-      "loss": 0.0,
-      "step": 7670
-    },
-    {
-      "epoch": 25.583333333333332,
-      "grad_norm": 0.0002009794261539355,
-      "learning_rate": 2.946666666666667e-05,
-      "loss": 0.0,
-      "step": 7675
-    },
-    {
-      "epoch": 25.6,
-      "grad_norm": 0.00021613991702906787,
-      "learning_rate": 2.935555555555556e-05,
-      "loss": 0.0,
-      "step": 7680
-    },
-    {
-      "epoch": 25.616666666666667,
-      "grad_norm": 0.0002275805309182033,
-      "learning_rate": 2.9244444444444446e-05,
-      "loss": 0.0,
-      "step": 7685
-    },
-    {
-      "epoch": 25.633333333333333,
-      "grad_norm": 0.00018441583961248398,
-      "learning_rate": 2.9133333333333334e-05,
-      "loss": 0.0,
-      "step": 7690
-    },
-    {
-      "epoch": 25.65,
-      "grad_norm": 0.0002087910834234208,
-      "learning_rate": 2.9022222222222223e-05,
-      "loss": 0.0,
-      "step": 7695
-    },
-    {
-      "epoch": 25.666666666666668,
-      "grad_norm": 0.00018186251691076905,
-      "learning_rate": 2.891111111111111e-05,
-      "loss": 0.0,
-      "step": 7700
-    },
-    {
-      "epoch": 25.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499474917195383,
-      "eval_loss": 1.0872223377227783,
-      "eval_precision": 0.8677635211806071,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.2359,
-      "eval_samples_per_second": 147.82,
-      "eval_steps_per_second": 18.478,
-      "step": 7700
-    },
-    {
-      "epoch": 25.683333333333334,
-      "grad_norm": 0.00021249383280519396,
-      "learning_rate": 2.88e-05,
-      "loss": 0.0,
-      "step": 7705
-    },
-    {
-      "epoch": 25.7,
-      "grad_norm": 0.00018269018619321287,
-      "learning_rate": 2.8688888888888894e-05,
-      "loss": 0.0,
-      "step": 7710
-    },
-    {
-      "epoch": 25.716666666666665,
-      "grad_norm": 0.00017630854563321918,
-      "learning_rate": 2.857777777777778e-05,
-      "loss": 0.0,
-      "step": 7715
-    },
-    {
-      "epoch": 25.733333333333334,
-      "grad_norm": 0.0001989843149203807,
-      "learning_rate": 2.846666666666667e-05,
-      "loss": 0.0,
-      "step": 7720
-    },
-    {
-      "epoch": 25.75,
-      "grad_norm": 0.00018381849804427475,
-      "learning_rate": 2.8355555555555558e-05,
-      "loss": 0.0,
-      "step": 7725
-    },
-    {
-      "epoch": 25.766666666666666,
-      "grad_norm": 0.00019013731798622757,
-      "learning_rate": 2.8244444444444446e-05,
-      "loss": 0.0,
-      "step": 7730
-    },
-    {
-      "epoch": 25.783333333333335,
-      "grad_norm": 0.00019070070993620902,
-      "learning_rate": 2.8133333333333334e-05,
-      "loss": 0.0,
-      "step": 7735
-    },
-    {
-      "epoch": 25.8,
-      "grad_norm": 0.00017564291192684323,
-      "learning_rate": 2.8022222222222222e-05,
-      "loss": 0.0,
-      "step": 7740
-    },
-    {
-      "epoch": 25.816666666666666,
-      "grad_norm": 0.00018047138291876763,
-      "learning_rate": 2.791111111111111e-05,
-      "loss": 0.0,
-      "step": 7745
-    },
-    {
-      "epoch": 25.833333333333332,
-      "grad_norm": 0.00019582344975788146,
-      "learning_rate": 2.7800000000000005e-05,
-      "loss": 0.0,
-      "step": 7750
-    },
-    {
-      "epoch": 25.85,
-      "grad_norm": 0.00021627818932756782,
-      "learning_rate": 2.7688888888888893e-05,
-      "loss": 0.0,
-      "step": 7755
-    },
-    {
-      "epoch": 25.866666666666667,
-      "grad_norm": 0.0001836529845604673,
-      "learning_rate": 2.757777777777778e-05,
-      "loss": 0.0,
-      "step": 7760
-    },
-    {
-      "epoch": 25.883333333333333,
-      "grad_norm": 0.00019720483396667987,
-      "learning_rate": 2.746666666666667e-05,
-      "loss": 0.0,
-      "step": 7765
-    },
-    {
-      "epoch": 25.9,
-      "grad_norm": 0.00020090618636459112,
-      "learning_rate": 2.7355555555555557e-05,
-      "loss": 0.0,
-      "step": 7770
-    },
-    {
-      "epoch": 25.916666666666668,
-      "grad_norm": 0.0002368639106862247,
-      "learning_rate": 2.7244444444444445e-05,
-      "loss": 0.0,
-      "step": 7775
-    },
-    {
-      "epoch": 25.933333333333334,
-      "grad_norm": 0.00020512170158326626,
-      "learning_rate": 2.7133333333333333e-05,
-      "loss": 0.0,
-      "step": 7780
-    },
-    {
-      "epoch": 25.95,
-      "grad_norm": 0.00017749317339621484,
-      "learning_rate": 2.702222222222222e-05,
-      "loss": 0.0,
-      "step": 7785
-    },
-    {
-      "epoch": 25.966666666666665,
-      "grad_norm": 0.0002012405457207933,
-      "learning_rate": 2.6911111111111116e-05,
-      "loss": 0.0,
-      "step": 7790
-    },
-    {
-      "epoch": 25.983333333333334,
-      "grad_norm": 0.0002458032395225018,
-      "learning_rate": 2.6800000000000004e-05,
-      "loss": 0.0,
-      "step": 7795
-    },
-    {
-      "epoch": 26.0,
-      "grad_norm": 0.0002021904510911554,
-      "learning_rate": 2.6688888888888892e-05,
-      "loss": 0.0,
-      "step": 7800
-    },
-    {
-      "epoch": 26.0,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499474917195383,
-      "eval_loss": 1.0904492139816284,
-      "eval_precision": 0.8677635211806071,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.2425,
-      "eval_samples_per_second": 147.761,
-      "eval_steps_per_second": 18.47,
-      "step": 7800
-    },
-    {
-      "epoch": 26.016666666666666,
-      "grad_norm": 0.00021319121879059821,
-      "learning_rate": 2.657777777777778e-05,
-      "loss": 0.0,
-      "step": 7805
-    },
-    {
-      "epoch": 26.033333333333335,
-      "grad_norm": 0.00019385428458917886,
-      "learning_rate": 2.646666666666667e-05,
-      "loss": 0.0,
-      "step": 7810
-    },
-    {
-      "epoch": 26.05,
-      "grad_norm": 0.00017327713430859149,
-      "learning_rate": 2.6355555555555557e-05,
-      "loss": 0.0,
-      "step": 7815
-    },
-    {
-      "epoch": 26.066666666666666,
-      "grad_norm": 0.00022667534358333796,
-      "learning_rate": 2.6244444444444445e-05,
-      "loss": 0.0,
-      "step": 7820
-    },
-    {
-      "epoch": 26.083333333333332,
-      "grad_norm": 0.00016665886505506933,
-      "learning_rate": 2.6133333333333333e-05,
-      "loss": 0.0,
-      "step": 7825
-    },
-    {
-      "epoch": 26.1,
-      "grad_norm": 0.00019432436965871602,
-      "learning_rate": 2.6022222222222224e-05,
-      "loss": 0.0,
-      "step": 7830
-    },
-    {
-      "epoch": 26.116666666666667,
-      "grad_norm": 0.00023906159913167357,
-      "learning_rate": 2.5911111111111112e-05,
-      "loss": 0.0,
-      "step": 7835
-    },
-    {
-      "epoch": 26.133333333333333,
-      "grad_norm": 0.00018499120778869838,
-      "learning_rate": 2.58e-05,
-      "loss": 0.0,
-      "step": 7840
-    },
-    {
-      "epoch": 26.15,
-      "grad_norm": 0.00018793478375300765,
-      "learning_rate": 2.5688888888888892e-05,
-      "loss": 0.0,
-      "step": 7845
-    },
-    {
-      "epoch": 26.166666666666668,
-      "grad_norm": 0.0001871521380962804,
-      "learning_rate": 2.557777777777778e-05,
-      "loss": 0.0,
-      "step": 7850
-    },
-    {
-      "epoch": 26.183333333333334,
-      "grad_norm": 0.00021178783208597451,
-      "learning_rate": 2.5466666666666668e-05,
-      "loss": 0.0,
-      "step": 7855
-    },
-    {
-      "epoch": 26.2,
-      "grad_norm": 0.0002078906400129199,
-      "learning_rate": 2.5355555555555556e-05,
-      "loss": 0.0,
-      "step": 7860
-    },
-    {
-      "epoch": 26.216666666666665,
-      "grad_norm": 0.00017986215243581682,
-      "learning_rate": 2.5244444444444447e-05,
-      "loss": 0.0,
-      "step": 7865
-    },
-    {
-      "epoch": 26.233333333333334,
-      "grad_norm": 0.00022249021276365966,
-      "learning_rate": 2.5133333333333336e-05,
-      "loss": 0.0,
-      "step": 7870
-    },
-    {
-      "epoch": 26.25,
-      "grad_norm": 0.00016730620700400323,
-      "learning_rate": 2.5022222222222224e-05,
-      "loss": 0.0,
-      "step": 7875
-    },
-    {
-      "epoch": 26.266666666666666,
-      "grad_norm": 0.00017138385737780482,
-      "learning_rate": 2.491111111111111e-05,
-      "loss": 0.0,
-      "step": 7880
-    },
-    {
-      "epoch": 26.283333333333335,
-      "grad_norm": 0.00021147914230823517,
-      "learning_rate": 2.48e-05,
-      "loss": 0.0,
-      "step": 7885
-    },
-    {
-      "epoch": 26.3,
-      "grad_norm": 0.00022281291603576392,
-      "learning_rate": 2.4688888888888888e-05,
-      "loss": 0.0,
-      "step": 7890
-    },
-    {
-      "epoch": 26.316666666666666,
-      "grad_norm": 0.00019178856746293604,
-      "learning_rate": 2.457777777777778e-05,
-      "loss": 0.0,
-      "step": 7895
-    },
-    {
-      "epoch": 26.333333333333332,
-      "grad_norm": 0.00020019823568873107,
-      "learning_rate": 2.4466666666666667e-05,
-      "loss": 0.0,
-      "step": 7900
-    },
-    {
-      "epoch": 26.333333333333332,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499474917195383,
-      "eval_loss": 1.0936561822891235,
-      "eval_precision": 0.8677635211806071,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 17.6921,
-      "eval_samples_per_second": 135.654,
-      "eval_steps_per_second": 16.957,
-      "step": 7900
-    },
-    {
-      "epoch": 26.35,
-      "grad_norm": 0.00019177117792423815,
-      "learning_rate": 2.4355555555555555e-05,
-      "loss": 0.0,
-      "step": 7905
-    },
-    {
-      "epoch": 26.366666666666667,
-      "grad_norm": 0.00018008038750849664,
-      "learning_rate": 2.4244444444444443e-05,
-      "loss": 0.0,
-      "step": 7910
-    },
-    {
-      "epoch": 26.383333333333333,
-      "grad_norm": 0.00019468706159386784,
-      "learning_rate": 2.4133333333333335e-05,
-      "loss": 0.0,
-      "step": 7915
-    },
-    {
-      "epoch": 26.4,
-      "grad_norm": 0.0001985773560591042,
-      "learning_rate": 2.4022222222222223e-05,
-      "loss": 0.0,
-      "step": 7920
-    },
-    {
-      "epoch": 26.416666666666668,
-      "grad_norm": 0.00016919510380830616,
-      "learning_rate": 2.391111111111111e-05,
-      "loss": 0.0,
-      "step": 7925
-    },
-    {
-      "epoch": 26.433333333333334,
-      "grad_norm": 0.00018142555200029165,
-      "learning_rate": 2.38e-05,
-      "loss": 0.0,
-      "step": 7930
-    },
-    {
-      "epoch": 26.45,
-      "grad_norm": 0.00016612290346529335,
-      "learning_rate": 2.368888888888889e-05,
-      "loss": 0.0,
-      "step": 7935
-    },
-    {
-      "epoch": 26.466666666666665,
-      "grad_norm": 0.0001912230218295008,
-      "learning_rate": 2.357777777777778e-05,
-      "loss": 0.0,
-      "step": 7940
-    },
-    {
-      "epoch": 26.483333333333334,
-      "grad_norm": 0.00018317271315027028,
-      "learning_rate": 2.3466666666666667e-05,
-      "loss": 0.0,
-      "step": 7945
-    },
-    {
-      "epoch": 26.5,
-      "grad_norm": 0.0001673145598033443,
-      "learning_rate": 2.3355555555555555e-05,
-      "loss": 0.0,
-      "step": 7950
-    },
-    {
-      "epoch": 26.516666666666666,
-      "grad_norm": 0.00016565914847888052,
-      "learning_rate": 2.3244444444444446e-05,
-      "loss": 0.0,
-      "step": 7955
-    },
-    {
-      "epoch": 26.533333333333335,
-      "grad_norm": 0.00017703264893498272,
-      "learning_rate": 2.3133333333333334e-05,
-      "loss": 0.0,
-      "step": 7960
-    },
-    {
-      "epoch": 26.55,
-      "grad_norm": 0.0001903561787912622,
-      "learning_rate": 2.3022222222222222e-05,
-      "loss": 0.0,
-      "step": 7965
-    },
-    {
-      "epoch": 26.566666666666666,
-      "grad_norm": 0.000183477284736,
-      "learning_rate": 2.291111111111111e-05,
-      "loss": 0.0,
-      "step": 7970
-    },
-    {
-      "epoch": 26.583333333333332,
-      "grad_norm": 0.0001745238114381209,
-      "learning_rate": 2.2800000000000002e-05,
-      "loss": 0.0,
-      "step": 7975
-    },
-    {
-      "epoch": 26.6,
-      "grad_norm": 0.00021769698651041836,
-      "learning_rate": 2.268888888888889e-05,
-      "loss": 0.0,
-      "step": 7980
-    },
-    {
-      "epoch": 26.616666666666667,
-      "grad_norm": 0.00020078175293747336,
-      "learning_rate": 2.2577777777777778e-05,
-      "loss": 0.0,
-      "step": 7985
-    },
-    {
-      "epoch": 26.633333333333333,
-      "grad_norm": 0.0001702758891042322,
-      "learning_rate": 2.2466666666666666e-05,
-      "loss": 0.0,
-      "step": 7990
-    },
-    {
-      "epoch": 26.65,
-      "grad_norm": 0.00020762017811648548,
-      "learning_rate": 2.2355555555555558e-05,
-      "loss": 0.0,
-      "step": 7995
-    },
-    {
-      "epoch": 26.666666666666668,
-      "grad_norm": 0.00020021077943965793,
-      "learning_rate": 2.2244444444444446e-05,
-      "loss": 0.0,
-      "step": 8000
-    },
-    {
-      "epoch": 26.666666666666668,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499474917195383,
-      "eval_loss": 1.0963623523712158,
-      "eval_precision": 0.8677635211806071,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.3674,
-      "eval_samples_per_second": 146.633,
-      "eval_steps_per_second": 18.329,
-      "step": 8000
-    },
-    {
-      "epoch": 26.683333333333334,
-      "grad_norm": 0.0002053326606983319,
-      "learning_rate": 2.2133333333333334e-05,
-      "loss": 0.0,
-      "step": 8005
-    },
-    {
-      "epoch": 26.7,
-      "grad_norm": 0.00017432811728212982,
-      "learning_rate": 2.2022222222222225e-05,
-      "loss": 0.0,
-      "step": 8010
-    },
-    {
-      "epoch": 26.716666666666665,
-      "grad_norm": 0.00020104054419789463,
-      "learning_rate": 2.1911111111111113e-05,
-      "loss": 0.0,
-      "step": 8015
-    },
-    {
-      "epoch": 26.733333333333334,
-      "grad_norm": 0.0002166717022191733,
-      "learning_rate": 2.18e-05,
-      "loss": 0.0,
-      "step": 8020
-    },
-    {
-      "epoch": 26.75,
-      "grad_norm": 0.0002083426807075739,
-      "learning_rate": 2.168888888888889e-05,
-      "loss": 0.0,
-      "step": 8025
-    },
-    {
-      "epoch": 26.766666666666666,
-      "grad_norm": 0.0001904317323351279,
-      "learning_rate": 2.157777777777778e-05,
-      "loss": 0.0,
-      "step": 8030
-    },
-    {
-      "epoch": 26.783333333333335,
-      "grad_norm": 0.00018196935707237571,
-      "learning_rate": 2.146666666666667e-05,
-      "loss": 0.0,
-      "step": 8035
-    },
-    {
-      "epoch": 26.8,
-      "grad_norm": 0.00021629329421557486,
-      "learning_rate": 2.1355555555555557e-05,
-      "loss": 0.0,
-      "step": 8040
-    },
-    {
-      "epoch": 26.816666666666666,
-      "grad_norm": 0.00022526076645590365,
-      "learning_rate": 2.1244444444444445e-05,
-      "loss": 0.0,
-      "step": 8045
-    },
-    {
-      "epoch": 26.833333333333332,
-      "grad_norm": 0.00018505295156501234,
-      "learning_rate": 2.1133333333333337e-05,
-      "loss": 0.0,
-      "step": 8050
-    },
-    {
-      "epoch": 26.85,
-      "grad_norm": 0.00017473427578806877,
-      "learning_rate": 2.1022222222222225e-05,
-      "loss": 0.0,
-      "step": 8055
-    },
-    {
-      "epoch": 26.866666666666667,
-      "grad_norm": 0.00020845029212068766,
-      "learning_rate": 2.0911111111111113e-05,
-      "loss": 0.0,
-      "step": 8060
-    },
-    {
-      "epoch": 26.883333333333333,
-      "grad_norm": 0.00018717366037890315,
-      "learning_rate": 2.08e-05,
-      "loss": 0.0,
-      "step": 8065
-    },
-    {
-      "epoch": 26.9,
-      "grad_norm": 0.0002003957488341257,
-      "learning_rate": 2.0688888888888892e-05,
-      "loss": 0.0,
-      "step": 8070
-    },
-    {
-      "epoch": 26.916666666666668,
-      "grad_norm": 0.00017774409207049757,
-      "learning_rate": 2.057777777777778e-05,
-      "loss": 0.0,
-      "step": 8075
-    },
-    {
-      "epoch": 26.933333333333334,
-      "grad_norm": 0.0001691968645900488,
-      "learning_rate": 2.046666666666667e-05,
-      "loss": 0.0,
-      "step": 8080
-    },
-    {
-      "epoch": 26.95,
-      "grad_norm": 0.0001912099396577105,
-      "learning_rate": 2.0355555555555556e-05,
-      "loss": 0.0,
-      "step": 8085
-    },
-    {
-      "epoch": 26.966666666666665,
-      "grad_norm": 0.00018918189743999392,
-      "learning_rate": 2.0244444444444448e-05,
-      "loss": 0.0,
-      "step": 8090
-    },
-    {
-      "epoch": 26.983333333333334,
-      "grad_norm": 0.00017669342923909426,
-      "learning_rate": 2.0133333333333336e-05,
-      "loss": 0.0,
-      "step": 8095
-    },
-    {
-      "epoch": 27.0,
-      "grad_norm": 0.00017295689031016082,
-      "learning_rate": 2.0022222222222224e-05,
-      "loss": 0.0,
-      "step": 8100
-    },
-    {
-      "epoch": 27.0,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.8499474917195383,
-      "eval_loss": 1.0985764265060425,
-      "eval_precision": 0.8677635211806071,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 16.3352,
-      "eval_samples_per_second": 146.922,
-      "eval_steps_per_second": 18.365,
-      "step": 8100
-    },
-    {
-      "epoch": 27.016666666666666,
-      "grad_norm": 0.0001852269342634827,
-      "learning_rate": 1.9911111111111112e-05,
-      "loss": 0.0,
-      "step": 8105
-    },
-    {
-      "epoch": 27.033333333333335,
-      "grad_norm": 0.00019555952167138457,
-      "learning_rate": 1.9800000000000004e-05,
-      "loss": 0.0,
-      "step": 8110
-    },
-    {
-      "epoch": 27.05,
-      "grad_norm": 0.00019072165014222264,
-      "learning_rate": 1.968888888888889e-05,
-      "loss": 0.0,
-      "step": 8115
-    },
-    {
-      "epoch": 27.066666666666666,
-      "grad_norm": 0.0001717251434456557,
-      "learning_rate": 1.957777777777778e-05,
-      "loss": 0.0,
-      "step": 8120
-    },
-    {
-      "epoch": 27.083333333333332,
-      "grad_norm": 0.00016229409084189683,
-      "learning_rate": 1.9466666666666668e-05,
-      "loss": 0.0,
-      "step": 8125
-    },
-    {
-      "epoch": 27.1,
-      "grad_norm": 0.00018122178153134882,
-      "learning_rate": 1.9355555555555556e-05,
-      "loss": 0.0,
-      "step": 8130
-    },
-    {
-      "epoch": 27.116666666666667,
-      "grad_norm": 0.00017955582006834447,
-      "learning_rate": 1.9244444444444444e-05,
-      "loss": 0.0,
-      "step": 8135
-    },
-    {
-      "epoch": 27.133333333333333,
-      "grad_norm": 0.0001904004893731326,
-      "learning_rate": 1.9133333333333332e-05,
-      "loss": 0.0,
-      "step": 8140
-    },
-    {
-      "epoch": 27.15,
-      "grad_norm": 0.00016956734179984778,
-      "learning_rate": 1.9022222222222223e-05,
-      "loss": 0.0,
-      "step": 8145
-    },
-    {
-      "epoch": 27.166666666666668,
-      "grad_norm": 0.00017182479496113956,
-      "learning_rate": 1.891111111111111e-05,
-      "loss": 0.0,
-      "step": 8150
-    },
-    {
-      "epoch": 27.183333333333334,
-      "grad_norm": 0.0002006021823035553,
-      "learning_rate": 1.88e-05,
-      "loss": 0.0,
-      "step": 8155
-    },
-    {
-      "epoch": 27.2,
-      "grad_norm": 0.00019395053095649928,
-      "learning_rate": 1.8688888888888888e-05,
-      "loss": 0.0,
-      "step": 8160
-    },
-    {
-      "epoch": 27.216666666666665,
-      "grad_norm": 0.00017097392992582172,
-      "learning_rate": 1.8577777777777776e-05,
-      "loss": 0.0,
-      "step": 8165
-    },
-    {
-      "epoch": 27.233333333333334,
-      "grad_norm": 0.00017220221343450248,
-      "learning_rate": 1.8466666666666667e-05,
-      "loss": 0.0,
-      "step": 8170
-    },
-    {
-      "epoch": 27.25,
-      "grad_norm": 0.00017543449939694256,
-      "learning_rate": 1.8355555555555555e-05,
-      "loss": 0.0,
-      "step": 8175
-    },
-    {
-      "epoch": 27.266666666666666,
-      "grad_norm": 0.0001910717401187867,
-      "learning_rate": 1.8244444444444443e-05,
-      "loss": 0.0,
-      "step": 8180
-    },
-    {
-      "epoch": 27.283333333333335,
-      "grad_norm": 0.00017201453738380224,
-      "learning_rate": 1.8133333333333335e-05,
-      "loss": 0.0,
-      "step": 8185
-    },
-    {
-      "epoch": 27.3,
-      "grad_norm": 0.00018203712534159422,
-      "learning_rate": 1.8022222222222223e-05,
-      "loss": 0.0,
-      "step": 8190
-    },
-    {
-      "epoch": 27.316666666666666,
-      "grad_norm": 0.00018277041090186685,
-      "learning_rate": 1.791111111111111e-05,
-      "loss": 0.0,
-      "step": 8195
-    },
-    {
-      "epoch": 27.333333333333332,
-      "grad_norm": 0.00021968872169964015,
-      "learning_rate": 1.78e-05,
-      "loss": 0.0,
-      "step": 8200
-    },
-    {
-      "epoch": 27.333333333333332,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1007932424545288,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.2427,
-      "eval_samples_per_second": 147.759,
-      "eval_steps_per_second": 18.47,
-      "step": 8200
-    },
-    {
-      "epoch": 27.35,
-      "grad_norm": 0.00016245701408479363,
-      "learning_rate": 1.768888888888889e-05,
-      "loss": 0.0,
-      "step": 8205
-    },
-    {
-      "epoch": 27.366666666666667,
-      "grad_norm": 0.0002053354837698862,
-      "learning_rate": 1.757777777777778e-05,
-      "loss": 0.0,
-      "step": 8210
-    },
-    {
-      "epoch": 27.383333333333333,
-      "grad_norm": 0.0001704642054392025,
-      "learning_rate": 1.7466666666666667e-05,
-      "loss": 0.0,
-      "step": 8215
-    },
-    {
-      "epoch": 27.4,
-      "grad_norm": 0.00017936206131707877,
-      "learning_rate": 1.7355555555555555e-05,
-      "loss": 0.0,
-      "step": 8220
-    },
-    {
-      "epoch": 27.416666666666668,
-      "grad_norm": 0.00016624863201286644,
-      "learning_rate": 1.7244444444444446e-05,
-      "loss": 0.0,
-      "step": 8225
-    },
-    {
-      "epoch": 27.433333333333334,
-      "grad_norm": 0.00015973504923749715,
-      "learning_rate": 1.7133333333333334e-05,
-      "loss": 0.0,
-      "step": 8230
-    },
-    {
-      "epoch": 27.45,
-      "grad_norm": 0.00023378623882308602,
-      "learning_rate": 1.7022222222222222e-05,
-      "loss": 0.0,
-      "step": 8235
-    },
-    {
-      "epoch": 27.466666666666665,
-      "grad_norm": 0.00017143995501101017,
-      "learning_rate": 1.691111111111111e-05,
-      "loss": 0.0,
-      "step": 8240
-    },
-    {
-      "epoch": 27.483333333333334,
-      "grad_norm": 0.00018446045578457415,
-      "learning_rate": 1.6800000000000002e-05,
-      "loss": 0.0,
-      "step": 8245
-    },
-    {
-      "epoch": 27.5,
-      "grad_norm": 0.00018205182277597487,
-      "learning_rate": 1.668888888888889e-05,
-      "loss": 0.0,
-      "step": 8250
-    },
-    {
-      "epoch": 27.516666666666666,
-      "grad_norm": 0.0001672839280217886,
-      "learning_rate": 1.6577777777777778e-05,
-      "loss": 0.0,
-      "step": 8255
-    },
-    {
-      "epoch": 27.533333333333335,
-      "grad_norm": 0.0001828784152166918,
-      "learning_rate": 1.6466666666666666e-05,
-      "loss": 0.0,
-      "step": 8260
-    },
-    {
-      "epoch": 27.55,
-      "grad_norm": 0.0001756389538059011,
-      "learning_rate": 1.6355555555555557e-05,
-      "loss": 0.0,
-      "step": 8265
-    },
-    {
-      "epoch": 27.566666666666666,
-      "grad_norm": 0.0001946628326550126,
-      "learning_rate": 1.6244444444444446e-05,
-      "loss": 0.0,
-      "step": 8270
-    },
-    {
-      "epoch": 27.583333333333332,
-      "grad_norm": 0.0001776106801116839,
-      "learning_rate": 1.6133333333333334e-05,
-      "loss": 0.0,
-      "step": 8275
-    },
-    {
-      "epoch": 27.6,
-      "grad_norm": 0.00021020403073634952,
-      "learning_rate": 1.602222222222222e-05,
-      "loss": 0.0,
-      "step": 8280
-    },
-    {
-      "epoch": 27.616666666666667,
-      "grad_norm": 0.00020445423433557153,
-      "learning_rate": 1.5911111111111113e-05,
-      "loss": 0.0,
-      "step": 8285
-    },
-    {
-      "epoch": 27.633333333333333,
-      "grad_norm": 0.00015854407683946192,
-      "learning_rate": 1.58e-05,
-      "loss": 0.0,
-      "step": 8290
-    },
-    {
-      "epoch": 27.65,
-      "grad_norm": 0.00020362314535304904,
-      "learning_rate": 1.568888888888889e-05,
-      "loss": 0.0,
-      "step": 8295
-    },
-    {
-      "epoch": 27.666666666666668,
-      "grad_norm": 0.00018289081344846636,
-      "learning_rate": 1.5577777777777777e-05,
-      "loss": 0.0,
-      "step": 8300
-    },
-    {
-      "epoch": 27.666666666666668,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1030311584472656,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.4663,
-      "eval_samples_per_second": 145.752,
-      "eval_steps_per_second": 18.219,
-      "step": 8300
-    },
-    {
-      "epoch": 27.683333333333334,
-      "grad_norm": 0.00015787893789820373,
-      "learning_rate": 1.546666666666667e-05,
-      "loss": 0.0,
-      "step": 8305
-    },
-    {
-      "epoch": 27.7,
-      "grad_norm": 0.00016540224896743894,
-      "learning_rate": 1.5355555555555557e-05,
-      "loss": 0.0,
-      "step": 8310
-    },
-    {
-      "epoch": 27.716666666666665,
-      "grad_norm": 0.00016849763051141053,
-      "learning_rate": 1.5244444444444445e-05,
-      "loss": 0.0,
-      "step": 8315
-    },
-    {
-      "epoch": 27.733333333333334,
-      "grad_norm": 0.0001871218701126054,
-      "learning_rate": 1.5133333333333333e-05,
-      "loss": 0.0,
-      "step": 8320
-    },
-    {
-      "epoch": 27.75,
-      "grad_norm": 0.00016975770995486528,
-      "learning_rate": 1.5022222222222224e-05,
-      "loss": 0.0,
-      "step": 8325
-    },
-    {
-      "epoch": 27.766666666666666,
-      "grad_norm": 0.00019094315939582884,
-      "learning_rate": 1.4911111111111113e-05,
-      "loss": 0.0,
-      "step": 8330
-    },
-    {
-      "epoch": 27.783333333333335,
-      "grad_norm": 0.00015734016778878868,
-      "learning_rate": 1.48e-05,
-      "loss": 0.0,
-      "step": 8335
-    },
-    {
-      "epoch": 27.8,
-      "grad_norm": 0.00020348557154648006,
-      "learning_rate": 1.468888888888889e-05,
-      "loss": 0.0,
-      "step": 8340
-    },
-    {
-      "epoch": 27.816666666666666,
-      "grad_norm": 0.00015738116053398699,
-      "learning_rate": 1.4577777777777778e-05,
-      "loss": 0.0,
-      "step": 8345
-    },
-    {
-      "epoch": 27.833333333333332,
-      "grad_norm": 0.00016995728947222233,
-      "learning_rate": 1.4466666666666667e-05,
-      "loss": 0.0,
-      "step": 8350
-    },
-    {
-      "epoch": 27.85,
-      "grad_norm": 0.0001540068187750876,
-      "learning_rate": 1.4355555555555556e-05,
-      "loss": 0.0,
-      "step": 8355
-    },
-    {
-      "epoch": 27.866666666666667,
-      "grad_norm": 0.0001582684344612062,
-      "learning_rate": 1.4244444444444446e-05,
-      "loss": 0.0,
-      "step": 8360
-    },
-    {
-      "epoch": 27.883333333333333,
-      "grad_norm": 0.00017334743461105973,
-      "learning_rate": 1.4133333333333334e-05,
-      "loss": 0.0,
-      "step": 8365
-    },
-    {
-      "epoch": 27.9,
-      "grad_norm": 0.00019678374519571662,
-      "learning_rate": 1.4022222222222222e-05,
-      "loss": 0.0,
-      "step": 8370
-    },
-    {
-      "epoch": 27.916666666666668,
-      "grad_norm": 0.00020504732674453408,
-      "learning_rate": 1.391111111111111e-05,
-      "loss": 0.0,
-      "step": 8375
-    },
-    {
-      "epoch": 27.933333333333334,
-      "grad_norm": 0.00016598978254478425,
-      "learning_rate": 1.3800000000000002e-05,
-      "loss": 0.0,
-      "step": 8380
-    },
-    {
-      "epoch": 27.95,
-      "grad_norm": 0.00018112520046997815,
-      "learning_rate": 1.368888888888889e-05,
-      "loss": 0.0,
-      "step": 8385
-    },
-    {
-      "epoch": 27.966666666666665,
-      "grad_norm": 0.00020130231860093772,
-      "learning_rate": 1.3577777777777778e-05,
-      "loss": 0.0,
-      "step": 8390
-    },
-    {
-      "epoch": 27.983333333333334,
-      "grad_norm": 0.00018439270206727087,
-      "learning_rate": 1.3466666666666666e-05,
-      "loss": 0.0,
-      "step": 8395
-    },
-    {
-      "epoch": 28.0,
-      "grad_norm": 0.00016649501048959792,
-      "learning_rate": 1.3355555555555557e-05,
-      "loss": 0.0,
-      "step": 8400
-    },
-    {
-      "epoch": 28.0,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1048692464828491,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.4281,
-      "eval_samples_per_second": 146.091,
-      "eval_steps_per_second": 18.261,
-      "step": 8400
-    },
-    {
-      "epoch": 28.016666666666666,
-      "grad_norm": 0.00017881397798191756,
-      "learning_rate": 1.3244444444444445e-05,
-      "loss": 0.0,
-      "step": 8405
-    },
-    {
-      "epoch": 28.033333333333335,
-      "grad_norm": 0.000168416605447419,
-      "learning_rate": 1.3133333333333334e-05,
-      "loss": 0.0,
-      "step": 8410
-    },
-    {
-      "epoch": 28.05,
-      "grad_norm": 0.00019224282004870474,
-      "learning_rate": 1.3022222222222222e-05,
-      "loss": 0.0,
-      "step": 8415
-    },
-    {
-      "epoch": 28.066666666666666,
-      "grad_norm": 0.0001912825246108696,
-      "learning_rate": 1.2911111111111113e-05,
-      "loss": 0.0,
-      "step": 8420
-    },
-    {
-      "epoch": 28.083333333333332,
-      "grad_norm": 0.00016749367932789028,
-      "learning_rate": 1.2800000000000001e-05,
-      "loss": 0.0,
-      "step": 8425
-    },
-    {
-      "epoch": 28.1,
-      "grad_norm": 0.00017143777222372591,
-      "learning_rate": 1.268888888888889e-05,
-      "loss": 0.0,
-      "step": 8430
-    },
-    {
-      "epoch": 28.116666666666667,
-      "grad_norm": 0.00018661450303625315,
-      "learning_rate": 1.2577777777777777e-05,
-      "loss": 0.0,
-      "step": 8435
-    },
-    {
-      "epoch": 28.133333333333333,
-      "grad_norm": 0.00016591892926953733,
-      "learning_rate": 1.2466666666666667e-05,
-      "loss": 0.0,
-      "step": 8440
-    },
-    {
-      "epoch": 28.15,
-      "grad_norm": 0.00017483366536907852,
-      "learning_rate": 1.2355555555555557e-05,
-      "loss": 0.0,
-      "step": 8445
-    },
-    {
-      "epoch": 28.166666666666668,
-      "grad_norm": 0.0001687474432401359,
-      "learning_rate": 1.2244444444444445e-05,
-      "loss": 0.0,
-      "step": 8450
-    },
-    {
-      "epoch": 28.183333333333334,
-      "grad_norm": 0.0001668264449108392,
-      "learning_rate": 1.2133333333333335e-05,
-      "loss": 0.0,
-      "step": 8455
-    },
-    {
-      "epoch": 28.2,
-      "grad_norm": 0.00015712040476500988,
-      "learning_rate": 1.2022222222222223e-05,
-      "loss": 0.0,
-      "step": 8460
-    },
-    {
-      "epoch": 28.216666666666665,
-      "grad_norm": 0.00017141320859082043,
-      "learning_rate": 1.1911111111111112e-05,
-      "loss": 0.0,
-      "step": 8465
-    },
-    {
-      "epoch": 28.233333333333334,
-      "grad_norm": 0.00016309547936543822,
-      "learning_rate": 1.18e-05,
-      "loss": 0.0,
-      "step": 8470
-    },
-    {
-      "epoch": 28.25,
-      "grad_norm": 0.00017021626990754157,
-      "learning_rate": 1.168888888888889e-05,
-      "loss": 0.0,
-      "step": 8475
-    },
-    {
-      "epoch": 28.266666666666666,
-      "grad_norm": 0.00017951532208826393,
-      "learning_rate": 1.1577777777777778e-05,
-      "loss": 0.0,
-      "step": 8480
-    },
-    {
-      "epoch": 28.283333333333335,
-      "grad_norm": 0.00016830900858622044,
-      "learning_rate": 1.1466666666666666e-05,
-      "loss": 0.0,
-      "step": 8485
-    },
-    {
-      "epoch": 28.3,
-      "grad_norm": 0.00017970771295949817,
-      "learning_rate": 1.1355555555555556e-05,
-      "loss": 0.0,
-      "step": 8490
-    },
-    {
-      "epoch": 28.316666666666666,
-      "grad_norm": 0.00017130903142970055,
-      "learning_rate": 1.1244444444444444e-05,
-      "loss": 0.0,
-      "step": 8495
-    },
-    {
-      "epoch": 28.333333333333332,
-      "grad_norm": 0.0001591273321537301,
-      "learning_rate": 1.1133333333333334e-05,
-      "loss": 0.0,
-      "step": 8500
-    },
-    {
-      "epoch": 28.333333333333332,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1065855026245117,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.4395,
-      "eval_samples_per_second": 145.99,
-      "eval_steps_per_second": 18.249,
-      "step": 8500
-    },
-    {
-      "epoch": 28.35,
-      "grad_norm": 0.00016571929154451936,
-      "learning_rate": 1.1022222222222222e-05,
-      "loss": 0.0,
-      "step": 8505
-    },
-    {
-      "epoch": 28.366666666666667,
-      "grad_norm": 0.00017218029825016856,
-      "learning_rate": 1.0911111111111112e-05,
-      "loss": 0.0,
-      "step": 8510
-    },
-    {
-      "epoch": 28.383333333333333,
-      "grad_norm": 0.00016587144637014717,
-      "learning_rate": 1.08e-05,
-      "loss": 0.0,
-      "step": 8515
-    },
-    {
-      "epoch": 28.4,
-      "grad_norm": 0.00015197490574792027,
-      "learning_rate": 1.068888888888889e-05,
-      "loss": 0.0,
-      "step": 8520
-    },
-    {
-      "epoch": 28.416666666666668,
-      "grad_norm": 0.00018224057566840202,
-      "learning_rate": 1.0577777777777778e-05,
-      "loss": 0.0,
-      "step": 8525
-    },
-    {
-      "epoch": 28.433333333333334,
-      "grad_norm": 0.00016749734641052783,
-      "learning_rate": 1.0466666666666668e-05,
-      "loss": 0.0,
-      "step": 8530
-    },
-    {
-      "epoch": 28.45,
-      "grad_norm": 0.00016360016888938844,
-      "learning_rate": 1.0355555555555556e-05,
-      "loss": 0.0,
-      "step": 8535
-    },
-    {
-      "epoch": 28.466666666666665,
-      "grad_norm": 0.00017934229981619865,
-      "learning_rate": 1.0244444444444445e-05,
-      "loss": 0.0,
-      "step": 8540
-    },
-    {
-      "epoch": 28.483333333333334,
-      "grad_norm": 0.00017481864779256284,
-      "learning_rate": 1.0133333333333333e-05,
-      "loss": 0.0,
-      "step": 8545
-    },
-    {
-      "epoch": 28.5,
-      "grad_norm": 0.000178522925125435,
-      "learning_rate": 1.0022222222222223e-05,
-      "loss": 0.0,
-      "step": 8550
-    },
-    {
-      "epoch": 28.516666666666666,
-      "grad_norm": 0.00016635807696729898,
-      "learning_rate": 9.911111111111111e-06,
-      "loss": 0.0,
-      "step": 8555
-    },
-    {
-      "epoch": 28.533333333333335,
-      "grad_norm": 0.00017827223928179592,
-      "learning_rate": 9.800000000000001e-06,
-      "loss": 0.0,
-      "step": 8560
-    },
-    {
-      "epoch": 28.55,
-      "grad_norm": 0.00016184420383069664,
-      "learning_rate": 9.688888888888889e-06,
-      "loss": 0.0,
-      "step": 8565
-    },
-    {
-      "epoch": 28.566666666666666,
-      "grad_norm": 0.00016978861822281033,
-      "learning_rate": 9.577777777777779e-06,
-      "loss": 0.0,
-      "step": 8570
-    },
-    {
-      "epoch": 28.583333333333332,
-      "grad_norm": 0.00020492664771154523,
-      "learning_rate": 9.466666666666667e-06,
-      "loss": 0.0,
-      "step": 8575
-    },
-    {
-      "epoch": 28.6,
-      "grad_norm": 0.000167500096722506,
-      "learning_rate": 9.355555555555557e-06,
-      "loss": 0.0,
-      "step": 8580
-    },
-    {
-      "epoch": 28.616666666666667,
-      "grad_norm": 0.00020092942577321082,
-      "learning_rate": 9.244444444444445e-06,
-      "loss": 0.0,
-      "step": 8585
-    },
-    {
-      "epoch": 28.633333333333333,
-      "grad_norm": 0.0001842565106926486,
-      "learning_rate": 9.133333333333335e-06,
-      "loss": 0.0,
-      "step": 8590
-    },
-    {
-      "epoch": 28.65,
-      "grad_norm": 0.00017080429825000465,
-      "learning_rate": 9.022222222222223e-06,
-      "loss": 0.0,
-      "step": 8595
-    },
-    {
-      "epoch": 28.666666666666668,
-      "grad_norm": 0.00019182806136086583,
-      "learning_rate": 8.911111111111112e-06,
-      "loss": 0.0,
-      "step": 8600
-    },
-    {
-      "epoch": 28.666666666666668,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1078474521636963,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.5248,
-      "eval_samples_per_second": 145.237,
-      "eval_steps_per_second": 18.155,
-      "step": 8600
-    },
-    {
-      "epoch": 28.683333333333334,
-      "grad_norm": 0.00016121655062306672,
-      "learning_rate": 8.8e-06,
-      "loss": 0.0,
-      "step": 8605
-    },
-    {
-      "epoch": 28.7,
-      "grad_norm": 0.00016742308798711747,
-      "learning_rate": 8.68888888888889e-06,
-      "loss": 0.0,
-      "step": 8610
-    },
-    {
-      "epoch": 28.716666666666665,
-      "grad_norm": 0.00017876374477054924,
-      "learning_rate": 8.577777777777778e-06,
-      "loss": 0.0,
-      "step": 8615
-    },
-    {
-      "epoch": 28.733333333333334,
-      "grad_norm": 0.00018229636771138757,
-      "learning_rate": 8.466666666666666e-06,
-      "loss": 0.0,
-      "step": 8620
-    },
-    {
-      "epoch": 28.75,
-      "grad_norm": 0.00018342919065617025,
-      "learning_rate": 8.355555555555556e-06,
-      "loss": 0.0,
-      "step": 8625
-    },
-    {
-      "epoch": 28.766666666666666,
-      "grad_norm": 0.00017044585547409952,
-      "learning_rate": 8.244444444444444e-06,
-      "loss": 0.0,
-      "step": 8630
-    },
-    {
-      "epoch": 28.783333333333335,
-      "grad_norm": 0.00022093832376413047,
-      "learning_rate": 8.133333333333332e-06,
-      "loss": 0.0,
-      "step": 8635
-    },
-    {
-      "epoch": 28.8,
-      "grad_norm": 0.00020136944658588618,
-      "learning_rate": 8.022222222222222e-06,
-      "loss": 0.0,
-      "step": 8640
-    },
-    {
-      "epoch": 28.816666666666666,
-      "grad_norm": 0.00015968627121765167,
-      "learning_rate": 7.91111111111111e-06,
-      "loss": 0.0,
-      "step": 8645
-    },
-    {
-      "epoch": 28.833333333333332,
-      "grad_norm": 0.00016780797159299254,
-      "learning_rate": 7.8e-06,
-      "loss": 0.0,
-      "step": 8650
-    },
-    {
-      "epoch": 28.85,
-      "grad_norm": 0.00017459876835346222,
-      "learning_rate": 7.68888888888889e-06,
-      "loss": 0.0,
-      "step": 8655
-    },
-    {
-      "epoch": 28.866666666666667,
-      "grad_norm": 0.0001598584931343794,
-      "learning_rate": 7.577777777777778e-06,
-      "loss": 0.0,
-      "step": 8660
-    },
-    {
-      "epoch": 28.883333333333333,
-      "grad_norm": 0.00016589650476817042,
-      "learning_rate": 7.4666666666666675e-06,
-      "loss": 0.0,
-      "step": 8665
-    },
-    {
-      "epoch": 28.9,
-      "grad_norm": 0.000205647898837924,
-      "learning_rate": 7.3555555555555555e-06,
-      "loss": 0.0,
-      "step": 8670
-    },
-    {
-      "epoch": 28.916666666666668,
-      "grad_norm": 0.00016796989075373858,
-      "learning_rate": 7.244444444444445e-06,
-      "loss": 0.0,
-      "step": 8675
-    },
-    {
-      "epoch": 28.933333333333334,
-      "grad_norm": 0.00017198962450493127,
-      "learning_rate": 7.133333333333333e-06,
-      "loss": 0.0,
-      "step": 8680
-    },
-    {
-      "epoch": 28.95,
-      "grad_norm": 0.0001774434495018795,
-      "learning_rate": 7.022222222222223e-06,
-      "loss": 0.0,
-      "step": 8685
-    },
-    {
-      "epoch": 28.966666666666665,
-      "grad_norm": 0.0001781430619303137,
-      "learning_rate": 6.911111111111111e-06,
-      "loss": 0.0,
-      "step": 8690
-    },
-    {
-      "epoch": 28.983333333333334,
-      "grad_norm": 0.0001898373884614557,
-      "learning_rate": 6.800000000000001e-06,
-      "loss": 0.0,
-      "step": 8695
-    },
-    {
-      "epoch": 29.0,
-      "grad_norm": 0.00017583163571543992,
-      "learning_rate": 6.688888888888889e-06,
-      "loss": 0.0,
-      "step": 8700
-    },
-    {
-      "epoch": 29.0,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1089760065078735,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.3497,
-      "eval_samples_per_second": 146.792,
-      "eval_steps_per_second": 18.349,
-      "step": 8700
-    },
-    {
-      "epoch": 29.016666666666666,
-      "grad_norm": 0.0001977140491362661,
-      "learning_rate": 6.577777777777779e-06,
-      "loss": 0.0,
-      "step": 8705
-    },
-    {
-      "epoch": 29.033333333333335,
-      "grad_norm": 0.00017144493176601827,
-      "learning_rate": 6.466666666666667e-06,
-      "loss": 0.0,
-      "step": 8710
-    },
-    {
-      "epoch": 29.05,
-      "grad_norm": 0.00018119969172403216,
-      "learning_rate": 6.355555555555557e-06,
-      "loss": 0.0,
-      "step": 8715
-    },
-    {
-      "epoch": 29.066666666666666,
-      "grad_norm": 0.00016114844765979797,
-      "learning_rate": 6.244444444444445e-06,
-      "loss": 0.0,
-      "step": 8720
-    },
-    {
-      "epoch": 29.083333333333332,
-      "grad_norm": 0.00015752238687127829,
-      "learning_rate": 6.133333333333334e-06,
-      "loss": 0.0,
-      "step": 8725
-    },
-    {
-      "epoch": 29.1,
-      "grad_norm": 0.00016545462131034583,
-      "learning_rate": 6.0222222222222225e-06,
-      "loss": 0.0,
-      "step": 8730
-    },
-    {
-      "epoch": 29.116666666666667,
-      "grad_norm": 0.0001483046216890216,
-      "learning_rate": 5.9111111111111115e-06,
-      "loss": 0.0,
-      "step": 8735
-    },
-    {
-      "epoch": 29.133333333333333,
-      "grad_norm": 0.00019300926942378283,
-      "learning_rate": 5.8e-06,
-      "loss": 0.0,
-      "step": 8740
-    },
-    {
-      "epoch": 29.15,
-      "grad_norm": 0.0001875618618214503,
-      "learning_rate": 5.688888888888889e-06,
-      "loss": 0.0,
-      "step": 8745
-    },
-    {
-      "epoch": 29.166666666666668,
-      "grad_norm": 0.00017213233513757586,
-      "learning_rate": 5.577777777777778e-06,
-      "loss": 0.0,
-      "step": 8750
-    },
-    {
-      "epoch": 29.183333333333334,
-      "grad_norm": 0.00017057311197277158,
-      "learning_rate": 5.466666666666667e-06,
-      "loss": 0.0,
-      "step": 8755
-    },
-    {
-      "epoch": 29.2,
-      "grad_norm": 0.00017462090181652457,
-      "learning_rate": 5.355555555555556e-06,
-      "loss": 0.0,
-      "step": 8760
-    },
-    {
-      "epoch": 29.216666666666665,
-      "grad_norm": 0.00017630109505262226,
-      "learning_rate": 5.244444444444445e-06,
-      "loss": 0.0,
-      "step": 8765
-    },
-    {
-      "epoch": 29.233333333333334,
-      "grad_norm": 0.00016224596765823662,
-      "learning_rate": 5.133333333333334e-06,
-      "loss": 0.0,
-      "step": 8770
-    },
-    {
-      "epoch": 29.25,
-      "grad_norm": 0.00017654811381362379,
-      "learning_rate": 5.022222222222223e-06,
-      "loss": 0.0,
-      "step": 8775
-    },
-    {
-      "epoch": 29.266666666666666,
-      "grad_norm": 0.0001577281509526074,
-      "learning_rate": 4.911111111111112e-06,
-      "loss": 0.0,
-      "step": 8780
-    },
-    {
-      "epoch": 29.283333333333335,
-      "grad_norm": 0.0001754974655341357,
-      "learning_rate": 4.800000000000001e-06,
-      "loss": 0.0,
-      "step": 8785
-    },
-    {
-      "epoch": 29.3,
-      "grad_norm": 0.0001797271252144128,
-      "learning_rate": 4.6888888888888895e-06,
-      "loss": 0.0,
-      "step": 8790
-    },
-    {
-      "epoch": 29.316666666666666,
-      "grad_norm": 0.0001631300983717665,
-      "learning_rate": 4.5777777777777785e-06,
-      "loss": 0.0,
-      "step": 8795
-    },
-    {
-      "epoch": 29.333333333333332,
-      "grad_norm": 0.00016975663311313838,
-      "learning_rate": 4.4666666666666665e-06,
-      "loss": 0.0,
-      "step": 8800
-    },
-    {
-      "epoch": 29.333333333333332,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1098453998565674,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.5118,
-      "eval_samples_per_second": 145.351,
-      "eval_steps_per_second": 18.169,
-      "step": 8800
-    },
-    {
-      "epoch": 29.35,
-      "grad_norm": 0.0002114356611855328,
-      "learning_rate": 4.3555555555555555e-06,
-      "loss": 0.0,
-      "step": 8805
-    },
-    {
-      "epoch": 29.366666666666667,
-      "grad_norm": 0.00014829794235993177,
-      "learning_rate": 4.244444444444444e-06,
-      "loss": 0.0,
-      "step": 8810
-    },
-    {
-      "epoch": 29.383333333333333,
-      "grad_norm": 0.0001676200918154791,
-      "learning_rate": 4.133333333333333e-06,
-      "loss": 0.0,
-      "step": 8815
-    },
-    {
-      "epoch": 29.4,
-      "grad_norm": 0.00015456533583346754,
-      "learning_rate": 4.022222222222222e-06,
-      "loss": 0.0,
-      "step": 8820
-    },
-    {
-      "epoch": 29.416666666666668,
-      "grad_norm": 0.00016858227900229394,
-      "learning_rate": 3.911111111111111e-06,
-      "loss": 0.0,
-      "step": 8825
-    },
-    {
-      "epoch": 29.433333333333334,
-      "grad_norm": 0.000170400453498587,
-      "learning_rate": 3.8e-06,
-      "loss": 0.0,
-      "step": 8830
-    },
-    {
-      "epoch": 29.45,
-      "grad_norm": 0.00017278172890655696,
-      "learning_rate": 3.688888888888889e-06,
-      "loss": 0.0,
-      "step": 8835
-    },
-    {
-      "epoch": 29.466666666666665,
-      "grad_norm": 0.00017529461183585227,
-      "learning_rate": 3.577777777777778e-06,
-      "loss": 0.0,
-      "step": 8840
-    },
-    {
-      "epoch": 29.483333333333334,
-      "grad_norm": 0.00019419223826844245,
-      "learning_rate": 3.466666666666667e-06,
-      "loss": 0.0,
-      "step": 8845
-    },
-    {
-      "epoch": 29.5,
-      "grad_norm": 0.0001898568298202008,
-      "learning_rate": 3.3555555555555557e-06,
-      "loss": 0.0,
-      "step": 8850
-    },
-    {
-      "epoch": 29.516666666666666,
-      "grad_norm": 0.00015639983757864684,
-      "learning_rate": 3.244444444444444e-06,
-      "loss": 0.0,
-      "step": 8855
-    },
-    {
-      "epoch": 29.533333333333335,
-      "grad_norm": 0.00016882758063729852,
-      "learning_rate": 3.133333333333333e-06,
-      "loss": 0.0,
-      "step": 8860
-    },
-    {
-      "epoch": 29.55,
-      "grad_norm": 0.00014896517677698284,
-      "learning_rate": 3.0222222222222225e-06,
-      "loss": 0.0,
-      "step": 8865
-    },
-    {
-      "epoch": 29.566666666666666,
-      "grad_norm": 0.00017078824748750776,
-      "learning_rate": 2.9111111111111114e-06,
-      "loss": 0.0,
-      "step": 8870
-    },
-    {
-      "epoch": 29.583333333333332,
-      "grad_norm": 0.00014907495642546564,
-      "learning_rate": 2.8000000000000003e-06,
-      "loss": 0.0,
-      "step": 8875
-    },
-    {
-      "epoch": 29.6,
-      "grad_norm": 0.00015837243699934334,
-      "learning_rate": 2.6888888888888892e-06,
-      "loss": 0.0,
-      "step": 8880
-    },
-    {
-      "epoch": 29.616666666666667,
-      "grad_norm": 0.00017680721066426486,
-      "learning_rate": 2.5777777777777777e-06,
-      "loss": 0.0,
-      "step": 8885
-    },
-    {
-      "epoch": 29.633333333333333,
-      "grad_norm": 0.00015973683912307024,
-      "learning_rate": 2.4666666666666666e-06,
-      "loss": 0.0,
-      "step": 8890
-    },
-    {
-      "epoch": 29.65,
-      "grad_norm": 0.0001540584344184026,
-      "learning_rate": 2.3555555555555555e-06,
-      "loss": 0.0,
-      "step": 8895
-    },
-    {
-      "epoch": 29.666666666666668,
-      "grad_norm": 0.00018709010328166187,
-      "learning_rate": 2.2444444444444445e-06,
-      "loss": 0.0,
-      "step": 8900
-    },
-    {
-      "epoch": 29.666666666666668,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1103477478027344,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.3012,
-      "eval_samples_per_second": 147.228,
-      "eval_steps_per_second": 18.404,
-      "step": 8900
-    },
-    {
-      "epoch": 29.683333333333334,
-      "grad_norm": 0.00017235144332516938,
-      "learning_rate": 2.1333333333333334e-06,
-      "loss": 0.0,
-      "step": 8905
-    },
-    {
-      "epoch": 29.7,
-      "grad_norm": 0.00015731393068563193,
-      "learning_rate": 2.0222222222222223e-06,
-      "loss": 0.0,
-      "step": 8910
-    },
-    {
-      "epoch": 29.716666666666665,
-      "grad_norm": 0.0001876844180515036,
-      "learning_rate": 1.9111111111111112e-06,
-      "loss": 0.0,
-      "step": 8915
-    },
-    {
-      "epoch": 29.733333333333334,
-      "grad_norm": 0.00018167035887017846,
-      "learning_rate": 1.8e-06,
-      "loss": 0.0,
-      "step": 8920
-    },
-    {
-      "epoch": 29.75,
-      "grad_norm": 0.00017092183406930417,
-      "learning_rate": 1.6888888888888888e-06,
-      "loss": 0.0,
-      "step": 8925
-    },
-    {
-      "epoch": 29.766666666666666,
-      "grad_norm": 0.00015764001000206918,
-      "learning_rate": 1.577777777777778e-06,
-      "loss": 0.0,
-      "step": 8930
-    },
-    {
-      "epoch": 29.783333333333335,
-      "grad_norm": 0.00019886271911673248,
-      "learning_rate": 1.4666666666666667e-06,
-      "loss": 0.0,
-      "step": 8935
-    },
-    {
-      "epoch": 29.8,
-      "grad_norm": 0.00015052667004056275,
-      "learning_rate": 1.3555555555555556e-06,
-      "loss": 0.0,
-      "step": 8940
-    },
-    {
-      "epoch": 29.816666666666666,
-      "grad_norm": 0.00017825148825068027,
-      "learning_rate": 1.2444444444444445e-06,
-      "loss": 0.0,
-      "step": 8945
-    },
-    {
-      "epoch": 29.833333333333332,
-      "grad_norm": 0.00015176774468272924,
-      "learning_rate": 1.1333333333333334e-06,
-      "loss": 0.0,
-      "step": 8950
-    },
-    {
-      "epoch": 29.85,
-      "grad_norm": 0.00018614469445310533,
-      "learning_rate": 1.0222222222222223e-06,
-      "loss": 0.0,
-      "step": 8955
-    },
-    {
-      "epoch": 29.866666666666667,
-      "grad_norm": 0.00018009902851190418,
-      "learning_rate": 9.111111111111112e-07,
-      "loss": 0.0,
-      "step": 8960
-    },
-    {
-      "epoch": 29.883333333333333,
-      "grad_norm": 0.00015436091052833945,
-      "learning_rate": 8.000000000000001e-07,
-      "loss": 0.0,
-      "step": 8965
-    },
-    {
-      "epoch": 29.9,
-      "grad_norm": 0.00016159001097548753,
-      "learning_rate": 6.888888888888889e-07,
-      "loss": 0.0,
-      "step": 8970
-    },
-    {
-      "epoch": 29.916666666666668,
-      "grad_norm": 0.00016791277448646724,
-      "learning_rate": 5.777777777777778e-07,
-      "loss": 0.0,
-      "step": 8975
-    },
-    {
-      "epoch": 29.933333333333334,
-      "grad_norm": 0.0001509374415036291,
-      "learning_rate": 4.666666666666667e-07,
-      "loss": 0.0,
-      "step": 8980
-    },
-    {
-      "epoch": 29.95,
-      "grad_norm": 0.00016922541544772685,
-      "learning_rate": 3.555555555555556e-07,
-      "loss": 0.0,
-      "step": 8985
-    },
-    {
-      "epoch": 29.966666666666665,
-      "grad_norm": 0.00017953866336029023,
-      "learning_rate": 2.4444444444444445e-07,
-      "loss": 0.0,
-      "step": 8990
-    },
-    {
-      "epoch": 29.983333333333334,
-      "grad_norm": 0.00016647855227347463,
-      "learning_rate": 1.3333333333333334e-07,
-      "loss": 0.0,
-      "step": 8995
-    },
-    {
-      "epoch": 30.0,
-      "grad_norm": 0.00017032191681209952,
-      "learning_rate": 2.2222222222222224e-08,
-      "loss": 0.0,
-      "step": 9000
-    },
-    {
-      "epoch": 30.0,
-      "eval_accuracy": 0.84625,
-      "eval_f1": 0.849574962512591,
-      "eval_loss": 1.1104629039764404,
-      "eval_precision": 0.8675029021569344,
-      "eval_recall": 0.84625,
-      "eval_runtime": 16.4754,
-      "eval_samples_per_second": 145.672,
-      "eval_steps_per_second": 18.209,
-      "step": 9000
-    },
-    {
-      "epoch": 30.0,
-      "step": 9000,
-      "total_flos": 2.231849311469568e+19,
-      "train_loss": 0.02316958835389879,
-      "train_runtime": 4210.125,
-      "train_samples_per_second": 68.407,
-      "train_steps_per_second": 2.138
+      "epoch": 15.0,
+      "step": 4500,
+      "total_flos": 1.115924655734784e+19,
+      "train_loss": 0.036104821799529924,
+      "train_runtime": 1974.1364,
+      "train_samples_per_second": 72.943,
+      "train_steps_per_second": 2.279
     }
   ],
   "logging_steps": 5,
-  "max_steps": 9000,
+  "max_steps": 4500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
+  "num_train_epochs": 15,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -13715,7 +6875,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.231849311469568e+19,
+  "total_flos": 1.115924655734784e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null