End of training

Browse files

Files changed (7) hide show

README.md +28 -7
all_results.json +22 -22
eval_results.json +9 -9
predict_results.json +8 -8
predictions.txt +0 -0
train_results.json +6 -6
trainer_state.json +394 -1709

README.md CHANGED Viewed

@@ -4,6 +4,8 @@ license: apache-2.0
 base_model: bert-base-uncased
 tags:
 - generated_from_trainer
 metrics:
 - precision
 - recall
@@ -11,7 +13,26 @@ metrics:
 - accuracy
 model-index:
 - name: bert-base-medmentions
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -19,13 +40,13 @@ should probably proofread and complete it, then remove this comment. -->
 # bert-base-medmentions
-This model is a fine-tuned version of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.6247
-- Precision: 0.6473
-- Recall: 0.6735
-- F1: 0.6601
-- Accuracy: 0.8847
 ## Model description

 base_model: bert-base-uncased
 tags:
 - generated_from_trainer
+datasets:
+- Ben10x/MedMentions-NER
 metrics:
 - precision
 - recall
 - accuracy
 model-index:
 - name: bert-base-medmentions
+  results:
+  - task:
+      name: Token Classification
+      type: token-classification
+    dataset:
+      name: Ben10x/MedMentions-NER
+      type: Ben10x/MedMentions-NER
+    metrics:
+    - name: Precision
+      type: precision
+      value: 0.5820728291316527
+    - name: Recall
+      type: recall
+      value: 0.6344207955338451
+    - name: F1
+      type: f1
+      value: 0.6071204975165909
+    - name: Accuracy
+      type: accuracy
+      value: 0.8688595400463357
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert-base-medmentions
+This model is a fine-tuned version of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on the Ben10x/MedMentions-NER dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.5156
+- Precision: 0.5821
+- Recall: 0.6344
+- F1: 0.6071
+- Accuracy: 0.8689
 ## Model description

all_results.json CHANGED Viewed

@@ -1,26 +1,26 @@
 {
-    "epoch": 40.0,
-    "eval_accuracy": 0.865718137671959,
-    "eval_f1": 0.6036826135749616,
-    "eval_loss": 1.9494872093200684,
-    "eval_precision": 0.5765780071456927,
-    "eval_recall": 0.6334612700628053,
-    "eval_runtime": 4.5356,
     "eval_samples": 2910,
-    "eval_samples_per_second": 641.59,
-    "eval_steps_per_second": 80.254,
-    "predict_accuracy": 0.8719908892175985,
-    "predict_f1": 0.6101030325783173,
-    "predict_loss": 1.9410734176635742,
-    "predict_precision": 0.5870594846271173,
-    "predict_recall": 0.6350295241403265,
-    "predict_runtime": 4.1755,
-    "predict_samples_per_second": 697.404,
-    "predict_steps_per_second": 87.175,
-    "total_flos": 3.172672952125471e+16,
-    "train_loss": 1.7340915796560996,
-    "train_runtime": 6267.5858,
     "train_samples": 23285,
-    "train_samples_per_second": 148.606,
-    "train_steps_per_second": 18.578
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.8688595400463357,
+    "eval_f1": 0.6071204975165909,
+    "eval_loss": 1.5156257152557373,
+    "eval_precision": 0.5820728291316527,
+    "eval_recall": 0.6344207955338451,
+    "eval_runtime": 4.3275,
     "eval_samples": 2910,
+    "eval_samples_per_second": 672.436,
+    "eval_steps_per_second": 84.112,
+    "predict_accuracy": 0.8737973374523844,
+    "predict_f1": 0.6134236041457707,
+    "predict_loss": 1.508852243423462,
+    "predict_precision": 0.5912826297131808,
+    "predict_recall": 0.6372872525182355,
+    "predict_runtime": 4.1494,
+    "predict_samples_per_second": 701.789,
+    "predict_steps_per_second": 87.724,
+    "total_flos": 1.1901430945516224e+16,
+    "train_loss": 1.311661433704009,
+    "train_runtime": 2299.911,
     "train_samples": 23285,
+    "train_samples_per_second": 151.865,
+    "train_steps_per_second": 18.986
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 40.0,
-    "eval_accuracy": 0.865718137671959,
-    "eval_f1": 0.6036826135749616,
-    "eval_loss": 1.9494872093200684,
-    "eval_precision": 0.5765780071456927,
-    "eval_recall": 0.6334612700628053,
-    "eval_runtime": 4.5356,
     "eval_samples": 2910,
-    "eval_samples_per_second": 641.59,
-    "eval_steps_per_second": 80.254
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.8688595400463357,
+    "eval_f1": 0.6071204975165909,
+    "eval_loss": 1.5156257152557373,
+    "eval_precision": 0.5820728291316527,
+    "eval_recall": 0.6344207955338451,
+    "eval_runtime": 4.3275,
     "eval_samples": 2910,
+    "eval_samples_per_second": 672.436,
+    "eval_steps_per_second": 84.112
 }

predict_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "predict_accuracy": 0.8719908892175985,
-    "predict_f1": 0.6101030325783173,
-    "predict_loss": 1.9410734176635742,
-    "predict_precision": 0.5870594846271173,
-    "predict_recall": 0.6350295241403265,
-    "predict_runtime": 4.1755,
-    "predict_samples_per_second": 697.404,
-    "predict_steps_per_second": 87.175
 }

 {
+    "predict_accuracy": 0.8737973374523844,
+    "predict_f1": 0.6134236041457707,
+    "predict_loss": 1.508852243423462,
+    "predict_precision": 0.5912826297131808,
+    "predict_recall": 0.6372872525182355,
+    "predict_runtime": 4.1494,
+    "predict_samples_per_second": 701.789,
+    "predict_steps_per_second": 87.724
 }

predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 40.0,
-    "total_flos": 3.172672952125471e+16,
-    "train_loss": 1.7340915796560996,
-    "train_runtime": 6267.5858,
     "train_samples": 23285,
-    "train_samples_per_second": 148.606,
-    "train_steps_per_second": 18.578
 }

 {
+    "epoch": 15.0,
+    "total_flos": 1.1901430945516224e+16,
+    "train_loss": 1.311661433704009,
+    "train_runtime": 2299.911,
     "train_samples": 23285,
+    "train_samples_per_second": 151.865,
+    "train_steps_per_second": 18.986
 }

trainer_state.json CHANGED Viewed

@@ -1,2132 +1,817 @@
 {
   "best_global_step": 5822,
-  "best_metric": 1.9494872093200684,
   "best_model_checkpoint": "./output/bert-base-medmentions/checkpoint-5822",
-  "epoch": 40.0,
   "eval_steps": 500,
-  "global_step": 116440,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1717622810030917,
-      "grad_norm": 1.5916364192962646,
-      "learning_rate": 4.978529714874613e-05,
-      "loss": 2.1139,
       "step": 500
     },
     {
       "epoch": 0.3435245620061834,
-      "grad_norm": 1.203733205795288,
-      "learning_rate": 4.9570594297492275e-05,
-      "loss": 2.0281,
       "step": 1000
     },
     {
       "epoch": 0.5152868430092752,
-      "grad_norm": 1.7044838666915894,
-      "learning_rate": 4.9355891446238405e-05,
-      "loss": 2.008,
       "step": 1500
     },
     {
       "epoch": 0.6870491240123668,
-      "grad_norm": 1.8281738758087158,
-      "learning_rate": 4.914118859498454e-05,
-      "loss": 1.9914,
       "step": 2000
     },
     {
       "epoch": 0.8588114050154586,
-      "grad_norm": 1.2349461317062378,
-      "learning_rate": 4.892648574373068e-05,
-      "loss": 1.9885,
       "step": 2500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8572232620845822,
-      "eval_f1": 0.5660144689246958,
-      "eval_loss": 1.9655100107192993,
-      "eval_precision": 0.535214552238806,
-      "eval_recall": 0.6005757152826239,
-      "eval_runtime": 4.686,
-      "eval_samples_per_second": 620.994,
-      "eval_steps_per_second": 77.678,
       "step": 2911
     },
     {
       "epoch": 1.0305736860185504,
-      "grad_norm": 1.0518437623977661,
-      "learning_rate": 4.8711782892476815e-05,
-      "loss": 1.9721,
       "step": 3000
     },
     {
       "epoch": 1.202335967021642,
-      "grad_norm": 0.796907901763916,
-      "learning_rate": 4.8497080041222944e-05,
-      "loss": 1.918,
       "step": 3500
     },
     {
       "epoch": 1.3740982480247337,
-      "grad_norm": 1.3571090698242188,
-      "learning_rate": 4.828237718996909e-05,
-      "loss": 1.9244,
       "step": 4000
     },
     {
       "epoch": 1.5458605290278253,
-      "grad_norm": 2.4624578952789307,
-      "learning_rate": 4.806767433871522e-05,
-      "loss": 1.9224,
       "step": 4500
     },
     {
       "epoch": 1.7176228100309172,
-      "grad_norm": 1.8667396306991577,
-      "learning_rate": 4.7852971487461354e-05,
-      "loss": 1.9167,
       "step": 5000
     },
     {
       "epoch": 1.889385091034009,
-      "grad_norm": 2.3962111473083496,
-      "learning_rate": 4.763826863620749e-05,
-      "loss": 1.9172,
       "step": 5500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.865718137671959,
-      "eval_f1": 0.6036826135749616,
-      "eval_loss": 1.9494872093200684,
-      "eval_precision": 0.5765780071456927,
-      "eval_recall": 0.6334612700628053,
-      "eval_runtime": 4.6866,
-      "eval_samples_per_second": 620.919,
-      "eval_steps_per_second": 77.668,
       "step": 5822
     },
     {
       "epoch": 2.0611473720371007,
-      "grad_norm": 4.303598880767822,
-      "learning_rate": 4.742356578495363e-05,
-      "loss": 1.9,
       "step": 6000
     },
     {
       "epoch": 2.2329096530401924,
-      "grad_norm": 1.4852184057235718,
-      "learning_rate": 4.720886293369976e-05,
-      "loss": 1.8561,
       "step": 6500
     },
     {
       "epoch": 2.404671934043284,
-      "grad_norm": 2.375478506088257,
-      "learning_rate": 4.69941600824459e-05,
-      "loss": 1.8591,
       "step": 7000
     },
     {
       "epoch": 2.5764342150463757,
-      "grad_norm": 2.7883598804473877,
-      "learning_rate": 4.677945723119203e-05,
-      "loss": 1.8607,
       "step": 7500
     },
     {
       "epoch": 2.7481964960494674,
-      "grad_norm": 1.723681092262268,
-      "learning_rate": 4.6564754379938166e-05,
-      "loss": 1.8603,
       "step": 8000
     },
     {
       "epoch": 2.9199587770525595,
-      "grad_norm": 2.383392572402954,
-      "learning_rate": 4.63500515286843e-05,
-      "loss": 1.8613,
       "step": 8500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8701422793492062,
-      "eval_f1": 0.616918280275681,
-      "eval_loss": 1.9503422975540161,
-      "eval_precision": 0.5823265179677819,
-      "eval_recall": 0.6558792742498255,
-      "eval_runtime": 4.6746,
-      "eval_samples_per_second": 622.517,
-      "eval_steps_per_second": 77.868,
       "step": 8733
     },
     {
       "epoch": 3.091721058055651,
-      "grad_norm": 1.104688286781311,
-      "learning_rate": 4.613534867743044e-05,
-      "loss": 1.8344,
       "step": 9000
     },
     {
       "epoch": 3.2634833390587428,
-      "grad_norm": 1.6872458457946777,
-      "learning_rate": 4.5920645826176575e-05,
-      "loss": 1.814,
       "step": 9500
     },
     {
       "epoch": 3.4352456200618344,
-      "grad_norm": 2.0609402656555176,
-      "learning_rate": 4.570594297492271e-05,
-      "loss": 1.8143,
       "step": 10000
     },
     {
       "epoch": 3.607007901064926,
-      "grad_norm": 2.683795690536499,
-      "learning_rate": 4.549124012366884e-05,
-      "loss": 1.8154,
       "step": 10500
     },
     {
       "epoch": 3.7787701820680177,
-      "grad_norm": 2.599900484085083,
-      "learning_rate": 4.5276537272414985e-05,
-      "loss": 1.8159,
       "step": 11000
     },
     {
       "epoch": 3.9505324630711094,
-      "grad_norm": 1.868220567703247,
-      "learning_rate": 4.5061834421161115e-05,
-      "loss": 1.8187,
       "step": 11500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.875679001034045,
-      "eval_f1": 0.6262617585155276,
-      "eval_loss": 1.9548965692520142,
-      "eval_precision": 0.6169078446306169,
-      "eval_recall": 0.6359036985345429,
-      "eval_runtime": 4.7153,
-      "eval_samples_per_second": 617.136,
-      "eval_steps_per_second": 77.195,
       "step": 11644
     },
     {
       "epoch": 4.1222947440742015,
-      "grad_norm": 1.7461206912994385,
-      "learning_rate": 4.484713156990725e-05,
-      "loss": 1.7947,
       "step": 12000
     },
     {
       "epoch": 4.294057025077293,
-      "grad_norm": 1.3571993112564087,
-      "learning_rate": 4.463242871865339e-05,
-      "loss": 1.7845,
       "step": 12500
     },
     {
       "epoch": 4.465819306080385,
-      "grad_norm": 2.8684659004211426,
-      "learning_rate": 4.4417725867399524e-05,
-      "loss": 1.7824,
       "step": 13000
     },
     {
       "epoch": 4.637581587083476,
-      "grad_norm": 1.0582610368728638,
-      "learning_rate": 4.4203023016145654e-05,
-      "loss": 1.7877,
       "step": 13500
     },
     {
       "epoch": 4.809343868086568,
-      "grad_norm": 1.4852385520935059,
-      "learning_rate": 4.39883201648918e-05,
-      "loss": 1.789,
       "step": 14000
     },
     {
       "epoch": 4.98110614908966,
-      "grad_norm": 1.4194121360778809,
-      "learning_rate": 4.377361731363793e-05,
-      "loss": 1.7887,
       "step": 14500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8771318996321942,
-      "eval_f1": 0.6332744734915371,
-      "eval_loss": 1.9618757963180542,
-      "eval_precision": 0.625435984687367,
-      "eval_recall": 0.6413119330076762,
-      "eval_runtime": 4.2673,
-      "eval_samples_per_second": 681.923,
-      "eval_steps_per_second": 85.299,
       "step": 14555
     },
     {
       "epoch": 5.152868430092751,
-      "grad_norm": 0.8063040375709534,
-      "learning_rate": 4.355891446238406e-05,
-      "loss": 1.7641,
       "step": 15000
     },
     {
       "epoch": 5.3246307110958435,
-      "grad_norm": 1.3164275884628296,
-      "learning_rate": 4.33442116111302e-05,
-      "loss": 1.765,
       "step": 15500
     },
     {
       "epoch": 5.496392992098935,
-      "grad_norm": 1.073299527168274,
-      "learning_rate": 4.3129508759876336e-05,
-      "loss": 1.7674,
       "step": 16000
     },
     {
       "epoch": 5.668155273102027,
-      "grad_norm": 3.724982976913452,
-      "learning_rate": 4.2914805908622466e-05,
-      "loss": 1.7675,
       "step": 16500
     },
     {
       "epoch": 5.839917554105119,
-      "grad_norm": 3.8052899837493896,
-      "learning_rate": 4.27001030573686e-05,
-      "loss": 1.7659,
       "step": 17000
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8766214217463579,
-      "eval_f1": 0.6387774916627971,
-      "eval_loss": 1.9771723747253418,
-      "eval_precision": 0.6188957055214724,
-      "eval_recall": 0.6599790648988136,
-      "eval_runtime": 4.894,
-      "eval_samples_per_second": 594.61,
-      "eval_steps_per_second": 74.377,
       "step": 17466
     },
     {
       "epoch": 6.01167983510821,
-      "grad_norm": 1.649048924446106,
-      "learning_rate": 4.248540020611474e-05,
-      "loss": 1.7678,
       "step": 17500
     },
     {
       "epoch": 6.183442116111302,
-      "grad_norm": 2.6169393062591553,
-      "learning_rate": 4.227069735486087e-05,
-      "loss": 1.7486,
       "step": 18000
     },
     {
       "epoch": 6.3552043971143934,
-      "grad_norm": 2.297182321548462,
-      "learning_rate": 4.205599450360701e-05,
-      "loss": 1.7505,
       "step": 18500
     },
     {
       "epoch": 6.5269666781174855,
-      "grad_norm": 4.391541481018066,
-      "learning_rate": 4.184129165235314e-05,
-      "loss": 1.7534,
       "step": 19000
     },
     {
       "epoch": 6.698728959120577,
-      "grad_norm": 4.291359901428223,
-      "learning_rate": 4.162658880109928e-05,
-      "loss": 1.7531,
       "step": 19500
     },
     {
       "epoch": 6.870491240123669,
-      "grad_norm": 3.1789159774780273,
-      "learning_rate": 4.1411885949845415e-05,
-      "loss": 1.7536,
       "step": 20000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8789643843505806,
-      "eval_f1": 0.6413145539906103,
-      "eval_loss": 1.986953854560852,
-      "eval_precision": 0.6278622764499415,
-      "eval_recall": 0.6553558967201675,
-      "eval_runtime": 4.3455,
-      "eval_samples_per_second": 669.66,
-      "eval_steps_per_second": 83.765,
       "step": 20377
     },
     {
       "epoch": 7.042253521126761,
-      "grad_norm": 2.1500258445739746,
-      "learning_rate": 4.119718309859155e-05,
-      "loss": 1.7523,
       "step": 20500
     },
     {
       "epoch": 7.214015802129852,
-      "grad_norm": 2.0542051792144775,
-      "learning_rate": 4.098248024733769e-05,
-      "loss": 1.7398,
       "step": 21000
     },
     {
       "epoch": 7.385778083132944,
-      "grad_norm": 1.6763787269592285,
-      "learning_rate": 4.0767777396083824e-05,
-      "loss": 1.7412,
       "step": 21500
     },
     {
       "epoch": 7.5575403641360355,
-      "grad_norm": 2.3270750045776367,
-      "learning_rate": 4.0553074544829954e-05,
-      "loss": 1.7436,
       "step": 22000
     },
     {
       "epoch": 7.729302645139128,
-      "grad_norm": 4.410123825073242,
-      "learning_rate": 4.033837169357609e-05,
-      "loss": 1.7422,
       "step": 22500
     },
     {
       "epoch": 7.901064926142219,
-      "grad_norm": 3.391580581665039,
-      "learning_rate": 4.012366884232223e-05,
-      "loss": 1.7473,
       "step": 23000
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8807314231861674,
-      "eval_f1": 0.6478665800303227,
-      "eval_loss": 1.9853944778442383,
-      "eval_precision": 0.64349023319852,
-      "eval_recall": 0.6523028611304955,
-      "eval_runtime": 4.2788,
-      "eval_samples_per_second": 680.101,
-      "eval_steps_per_second": 85.071,
       "step": 23288
     },
     {
       "epoch": 8.07282720714531,
-      "grad_norm": 2.603978395462036,
-      "learning_rate": 3.9908965991068363e-05,
-      "loss": 1.7421,
       "step": 23500
     },
     {
       "epoch": 8.244589488148403,
-      "grad_norm": 1.5481454133987427,
-      "learning_rate": 3.96942631398145e-05,
-      "loss": 1.7339,
       "step": 24000
     },
     {
       "epoch": 8.416351769151495,
-      "grad_norm": 1.4789228439331055,
-      "learning_rate": 3.9479560288560636e-05,
-      "loss": 1.737,
       "step": 24500
     },
     {
       "epoch": 8.588114050154585,
-      "grad_norm": 1.512890100479126,
-      "learning_rate": 3.9264857437306766e-05,
-      "loss": 1.7348,
       "step": 25000
     },
     {
       "epoch": 8.759876331157677,
-      "grad_norm": 4.724124908447266,
-      "learning_rate": 3.905015458605291e-05,
-      "loss": 1.7352,
       "step": 25500
     },
     {
       "epoch": 8.93163861216077,
-      "grad_norm": 1.5042279958724976,
-      "learning_rate": 3.883545173479904e-05,
-      "loss": 1.7393,
       "step": 26000
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.8795795756488959,
-      "eval_f1": 0.6482206780374815,
-      "eval_loss": 1.9974679946899414,
-      "eval_precision": 0.6266590668512336,
-      "eval_recall": 0.6713189113747383,
-      "eval_runtime": 4.2794,
-      "eval_samples_per_second": 680.003,
-      "eval_steps_per_second": 85.059,
       "step": 26199
     },
     {
       "epoch": 9.103400893163862,
-      "grad_norm": 2.2786951065063477,
-      "learning_rate": 3.8620748883545176e-05,
-      "loss": 1.7312,
       "step": 26500
     },
     {
       "epoch": 9.275163174166954,
-      "grad_norm": 0.895926296710968,
-      "learning_rate": 3.840604603229131e-05,
-      "loss": 1.7294,
       "step": 27000
     },
     {
       "epoch": 9.446925455170044,
-      "grad_norm": 1.9498018026351929,
-      "learning_rate": 3.819134318103745e-05,
-      "loss": 1.7296,
       "step": 27500
     },
     {
       "epoch": 9.618687736173136,
-      "grad_norm": 1.1043105125427246,
-      "learning_rate": 3.797664032978358e-05,
-      "loss": 1.7319,
       "step": 28000
     },
     {
       "epoch": 9.790450017176228,
-      "grad_norm": 2.098552703857422,
-      "learning_rate": 3.776193747852972e-05,
-      "loss": 1.7317,
       "step": 28500
     },
     {
       "epoch": 9.96221229817932,
-      "grad_norm": 0.8599863648414612,
-      "learning_rate": 3.754723462727585e-05,
-      "loss": 1.7315,
       "step": 29000
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.8807968690689669,
-      "eval_f1": 0.647167461237813,
-      "eval_loss": 2.002537965774536,
-      "eval_precision": 0.6374481766646924,
-      "eval_recall": 0.6571877180739707,
-      "eval_runtime": 4.6846,
-      "eval_samples_per_second": 621.184,
-      "eval_steps_per_second": 77.701,
       "step": 29110
     },
     {
       "epoch": 10.13397457918241,
-      "grad_norm": 4.416456699371338,
-      "learning_rate": 3.733253177602199e-05,
-      "loss": 1.7251,
       "step": 29500
     },
     {
       "epoch": 10.305736860185503,
-      "grad_norm": 0.6309936046600342,
-      "learning_rate": 3.7117828924768124e-05,
-      "loss": 1.724,
       "step": 30000
     },
     {
       "epoch": 10.477499141188595,
-      "grad_norm": 22.35858154296875,
-      "learning_rate": 3.690312607351426e-05,
-      "loss": 1.7271,
       "step": 30500
     },
     {
       "epoch": 10.649261422191687,
-      "grad_norm": 9.670055389404297,
-      "learning_rate": 3.668842322226039e-05,
-      "loss": 1.7277,
       "step": 31000
     },
     {
       "epoch": 10.82102370319478,
-      "grad_norm": 0.8170812129974365,
-      "learning_rate": 3.6473720371006534e-05,
-      "loss": 1.7271,
       "step": 31500
     },
     {
       "epoch": 10.99278598419787,
-      "grad_norm": 0.1065647155046463,
-      "learning_rate": 3.6259017519752663e-05,
-      "loss": 1.7277,
       "step": 32000
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.88172620060472,
-      "eval_f1": 0.652366302836192,
-      "eval_loss": 2.00553560256958,
-      "eval_precision": 0.6310640032613127,
-      "eval_recall": 0.6751570132588974,
-      "eval_runtime": 4.3275,
-      "eval_samples_per_second": 672.442,
-      "eval_steps_per_second": 84.113,
       "step": 32021
     },
     {
       "epoch": 11.164548265200962,
-      "grad_norm": 0.7106145620346069,
-      "learning_rate": 3.60443146684988e-05,
-      "loss": 1.7222,
       "step": 32500
     },
     {
       "epoch": 11.336310546204054,
-      "grad_norm": 3.1519761085510254,
-      "learning_rate": 3.5829611817244936e-05,
-      "loss": 1.721,
       "step": 33000
     },
     {
       "epoch": 11.508072827207146,
-      "grad_norm": 2.842960834503174,
-      "learning_rate": 3.5614908965991066e-05,
-      "loss": 1.7213,
       "step": 33500
     },
     {
       "epoch": 11.679835108210238,
-      "grad_norm": 2.1760663986206055,
-      "learning_rate": 3.54002061147372e-05,
-      "loss": 1.7222,
       "step": 34000
     },
     {
       "epoch": 11.851597389213328,
-      "grad_norm": 1.5963988304138184,
-      "learning_rate": 3.518550326348334e-05,
-      "loss": 1.7231,
       "step": 34500
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8824853728451943,
-      "eval_f1": 0.6555833837118922,
-      "eval_loss": 2.0041558742523193,
-      "eval_precision": 0.6491363092184026,
-      "eval_recall": 0.6621598046057222,
-      "eval_runtime": 4.5128,
-      "eval_samples_per_second": 644.839,
-      "eval_steps_per_second": 80.66,
       "step": 34932
     },
     {
       "epoch": 12.02335967021642,
-      "grad_norm": 0.8488190770149231,
-      "learning_rate": 3.4970800412229476e-05,
-      "loss": 1.7234,
       "step": 35000
     },
     {
       "epoch": 12.195121951219512,
-      "grad_norm": 0.992290198802948,
-      "learning_rate": 3.475609756097561e-05,
-      "loss": 1.7179,
       "step": 35500
     },
     {
       "epoch": 12.366884232222604,
-      "grad_norm": 2.4747726917266846,
-      "learning_rate": 3.454139470972175e-05,
-      "loss": 1.7192,
       "step": 36000
     },
     {
       "epoch": 12.538646513225697,
-      "grad_norm": 2.668823480606079,
-      "learning_rate": 3.432669185846788e-05,
-      "loss": 1.7197,
       "step": 36500
     },
     {
       "epoch": 12.710408794228787,
-      "grad_norm": 1.2698637247085571,
-      "learning_rate": 3.4111989007214015e-05,
-      "loss": 1.7183,
       "step": 37000
     },
     {
       "epoch": 12.882171075231879,
-      "grad_norm": 2.6843957901000977,
-      "learning_rate": 3.389728615596015e-05,
-      "loss": 1.7225,
       "step": 37500
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.88171311142816,
-      "eval_f1": 0.6531850353892821,
-      "eval_loss": 2.009732484817505,
-      "eval_precision": 0.6316818774445893,
-      "eval_recall": 0.6762037683182135,
-      "eval_runtime": 4.3542,
-      "eval_samples_per_second": 668.323,
-      "eval_steps_per_second": 83.598,
       "step": 37843
     },
     {
       "epoch": 13.053933356234971,
-      "grad_norm": 1.9299542903900146,
-      "learning_rate": 3.368258330470629e-05,
-      "loss": 1.7195,
       "step": 38000
     },
     {
       "epoch": 13.225695637238063,
-      "grad_norm": 2.0054049491882324,
-      "learning_rate": 3.3467880453452424e-05,
-      "loss": 1.7168,
       "step": 38500
     },
     {
       "epoch": 13.397457918241154,
-      "grad_norm": 0.18206368386745453,
-      "learning_rate": 3.325317760219856e-05,
-      "loss": 1.7169,
       "step": 39000
     },
     {
       "epoch": 13.569220199244246,
-      "grad_norm": 0.6871322989463806,
-      "learning_rate": 3.303847475094469e-05,
-      "loss": 1.7173,
       "step": 39500
     },
     {
       "epoch": 13.740982480247338,
-      "grad_norm": 0.820996105670929,
-      "learning_rate": 3.2823771899690834e-05,
-      "loss": 1.7174,
       "step": 40000
     },
     {
       "epoch": 13.91274476125043,
-      "grad_norm": 0.4690723121166229,
-      "learning_rate": 3.2609069048436964e-05,
-      "loss": 1.717,
       "step": 40500
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.8813858820141625,
-      "eval_f1": 0.6556485716751532,
-      "eval_loss": 2.0131328105926514,
-      "eval_precision": 0.6487617421007685,
-      "eval_recall": 0.6626831821353804,
-      "eval_runtime": 4.3528,
-      "eval_samples_per_second": 668.531,
-      "eval_steps_per_second": 83.624,
       "step": 40754
     },
     {
       "epoch": 14.084507042253522,
-      "grad_norm": 0.9285472631454468,
-      "learning_rate": 3.23943661971831e-05,
-      "loss": 1.7171,
       "step": 41000
     },
     {
       "epoch": 14.256269323256612,
-      "grad_norm": 0.7423045635223389,
-      "learning_rate": 3.2179663345929237e-05,
-      "loss": 1.7146,
       "step": 41500
     },
     {
       "epoch": 14.428031604259704,
-      "grad_norm": 0.6432718634605408,
-      "learning_rate": 3.196496049467537e-05,
-      "loss": 1.7151,
       "step": 42000
     },
     {
       "epoch": 14.599793885262796,
-      "grad_norm": 0.06601449102163315,
-      "learning_rate": 3.17502576434215e-05,
-      "loss": 1.716,
       "step": 42500
     },
     {
       "epoch": 14.771556166265889,
-      "grad_norm": 1.611905813217163,
-      "learning_rate": 3.1535554792167646e-05,
-      "loss": 1.7158,
       "step": 43000
     },
     {
       "epoch": 14.943318447268979,
-      "grad_norm": 0.8380423188209534,
-      "learning_rate": 3.1320851940913776e-05,
-      "loss": 1.7152,
       "step": 43500
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.8814775062500818,
-      "eval_f1": 0.6542948934731146,
-      "eval_loss": 2.0191421508789062,
-      "eval_precision": 0.634760498687664,
-      "eval_recall": 0.6750697836706211,
-      "eval_runtime": 4.3582,
-      "eval_samples_per_second": 667.713,
-      "eval_steps_per_second": 83.521,
       "step": 43665
     },
     {
-      "epoch": 15.115080728272071,
-      "grad_norm": 3.277487277984619,
-      "learning_rate": 3.110614908965991e-05,
-      "loss": 1.7139,
-      "step": 44000
-    },
-    {
-      "epoch": 15.286843009275163,
-      "grad_norm": 3.0774002075195312,
-      "learning_rate": 3.089144623840605e-05,
-      "loss": 1.7126,
-      "step": 44500
-    },
-    {
-      "epoch": 15.458605290278255,
-      "grad_norm": 0.6177487373352051,
-      "learning_rate": 3.0676743387152185e-05,
-      "loss": 1.7136,
-      "step": 45000
-    },
-    {
-      "epoch": 15.630367571281347,
-      "grad_norm": 1.545906901359558,
-      "learning_rate": 3.046204053589832e-05,
-      "loss": 1.7144,
-      "step": 45500
-    },
-    {
-      "epoch": 15.802129852284438,
-      "grad_norm": 0.31795910000801086,
-      "learning_rate": 3.0247337684644455e-05,
-      "loss": 1.7142,
-      "step": 46000
-    },
-    {
-      "epoch": 15.97389213328753,
-      "grad_norm": 0.0434710867702961,
-      "learning_rate": 3.0032634833390588e-05,
-      "loss": 1.7154,
-      "step": 46500
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8817523789578398,
-      "eval_f1": 0.6559375134114416,
-      "eval_loss": 2.02302885055542,
-      "eval_precision": 0.6456027709723747,
-      "eval_recall": 0.6666085136078158,
-      "eval_runtime": 4.3521,
-      "eval_samples_per_second": 668.643,
-      "eval_steps_per_second": 83.638,
-      "step": 46576
-    },
-    {
-      "epoch": 16.14565441429062,
-      "grad_norm": 0.30855801701545715,
-      "learning_rate": 2.9817931982136728e-05,
-      "loss": 1.7105,
-      "step": 47000
-    },
-    {
-      "epoch": 16.317416695293712,
-      "grad_norm": 0.8510277271270752,
-      "learning_rate": 2.9603229130882858e-05,
-      "loss": 1.7127,
-      "step": 47500
-    },
-    {
-      "epoch": 16.489178976296806,
-      "grad_norm": 1.7923400402069092,
-      "learning_rate": 2.9388526279628997e-05,
-      "loss": 1.7119,
-      "step": 48000
-    },
-    {
-      "epoch": 16.660941257299896,
-      "grad_norm": 4.354673862457275,
-      "learning_rate": 2.917382342837513e-05,
-      "loss": 1.7133,
-      "step": 48500
-    },
-    {
-      "epoch": 16.83270353830299,
-      "grad_norm": 0.20724855363368988,
-      "learning_rate": 2.8959120577121267e-05,
-      "loss": 1.7121,
-      "step": 49000
-    },
-    {
-      "epoch": 17.0,
-      "eval_accuracy": 0.8831136533200696,
-      "eval_f1": 0.6562859946248026,
-      "eval_loss": 2.0242502689361572,
-      "eval_precision": 0.6422309426400601,
-      "eval_recall": 0.670969993021633,
-      "eval_runtime": 4.3469,
-      "eval_samples_per_second": 669.449,
-      "eval_steps_per_second": 83.739,
-      "step": 49487
-    },
-    {
-      "epoch": 17.00446581930608,
-      "grad_norm": 5.177857398986816,
-      "learning_rate": 2.87444177258674e-05,
-      "loss": 1.7127,
-      "step": 49500
-    },
-    {
-      "epoch": 17.17622810030917,
-      "grad_norm": 3.216094732284546,
-      "learning_rate": 2.852971487461354e-05,
-      "loss": 1.7098,
-      "step": 50000
-    },
-    {
-      "epoch": 17.347990381312265,
-      "grad_norm": 2.916612148284912,
-      "learning_rate": 2.8315012023359673e-05,
-      "loss": 1.71,
-      "step": 50500
-    },
-    {
-      "epoch": 17.519752662315355,
-      "grad_norm": 0.03734961524605751,
-      "learning_rate": 2.8100309172105803e-05,
-      "loss": 1.7106,
-      "step": 51000
-    },
-    {
-      "epoch": 17.69151494331845,
-      "grad_norm": 1.543533444404602,
-      "learning_rate": 2.7885606320851943e-05,
-      "loss": 1.7104,
-      "step": 51500
-    },
-    {
-      "epoch": 17.86327722432154,
-      "grad_norm": 0.31598055362701416,
-      "learning_rate": 2.7670903469598076e-05,
-      "loss": 1.7114,
-      "step": 52000
-    },
-    {
-      "epoch": 18.0,
-      "eval_accuracy": 0.8838466472074242,
-      "eval_f1": 0.6567732444944403,
-      "eval_loss": 2.019536018371582,
-      "eval_precision": 0.6515580736543909,
-      "eval_recall": 0.6620725750174459,
-      "eval_runtime": 4.3524,
-      "eval_samples_per_second": 668.593,
-      "eval_steps_per_second": 83.632,
-      "step": 52398
-    },
-    {
-      "epoch": 18.03503950532463,
-      "grad_norm": 0.3598534166812897,
-      "learning_rate": 2.7456200618344212e-05,
-      "loss": 1.7117,
-      "step": 52500
-    },
-    {
-      "epoch": 18.206801786327723,
-      "grad_norm": 0.020997876301407814,
-      "learning_rate": 2.7241497767090345e-05,
-      "loss": 1.7089,
-      "step": 53000
-    },
-    {
-      "epoch": 18.378564067330814,
-      "grad_norm": 1.392232894897461,
-      "learning_rate": 2.7026794915836485e-05,
-      "loss": 1.7088,
-      "step": 53500
-    },
-    {
-      "epoch": 18.550326348333908,
-      "grad_norm": 0.47013697028160095,
-      "learning_rate": 2.681209206458262e-05,
-      "loss": 1.7095,
-      "step": 54000
-    },
-    {
-      "epoch": 18.722088629336998,
-      "grad_norm": 1.5354187488555908,
-      "learning_rate": 2.6597389213328755e-05,
-      "loss": 1.7097,
-      "step": 54500
-    },
-    {
-      "epoch": 18.89385091034009,
-      "grad_norm": 0.10534074902534485,
-      "learning_rate": 2.6382686362074888e-05,
-      "loss": 1.7105,
-      "step": 55000
-    },
-    {
-      "epoch": 19.0,
-      "eval_accuracy": 0.8828387806123117,
-      "eval_f1": 0.6574315789473685,
-      "eval_loss": 2.025520086288452,
-      "eval_precision": 0.6354387107276575,
-      "eval_recall": 0.6810013956734124,
-      "eval_runtime": 4.3482,
-      "eval_samples_per_second": 669.243,
-      "eval_steps_per_second": 83.713,
-      "step": 55309
-    },
-    {
-      "epoch": 19.065613191343182,
-      "grad_norm": 0.2419898957014084,
-      "learning_rate": 2.6167983510821024e-05,
-      "loss": 1.7098,
-      "step": 55500
-    },
-    {
-      "epoch": 19.237375472346272,
-      "grad_norm": 0.1751754730939865,
-      "learning_rate": 2.5953280659567158e-05,
-      "loss": 1.7086,
-      "step": 56000
-    },
-    {
-      "epoch": 19.409137753349363,
-      "grad_norm": 4.463948726654053,
-      "learning_rate": 2.5738577808313297e-05,
-      "loss": 1.7073,
-      "step": 56500
-    },
-    {
-      "epoch": 19.580900034352457,
-      "grad_norm": 3.6637113094329834,
-      "learning_rate": 2.552387495705943e-05,
-      "loss": 1.7085,
-      "step": 57000
-    },
-    {
-      "epoch": 19.752662315355547,
-      "grad_norm": 2.393986940383911,
-      "learning_rate": 2.5309172105805567e-05,
-      "loss": 1.7084,
-      "step": 57500
-    },
-    {
-      "epoch": 19.92442459635864,
-      "grad_norm": 2.718120574951172,
-      "learning_rate": 2.50944692545517e-05,
-      "loss": 1.7086,
-      "step": 58000
-    },
-    {
-      "epoch": 20.0,
-      "eval_accuracy": 0.8840691632089426,
-      "eval_f1": 0.6621772325641245,
-      "eval_loss": 2.0267066955566406,
-      "eval_precision": 0.6513924050632911,
-      "eval_recall": 0.6733251919050942,
-      "eval_runtime": 4.3383,
-      "eval_samples_per_second": 670.771,
-      "eval_steps_per_second": 83.904,
-      "step": 58220
-    },
-    {
-      "epoch": 20.09618687736173,
-      "grad_norm": 0.07868649810552597,
-      "learning_rate": 2.4879766403297837e-05,
-      "loss": 1.7079,
-      "step": 58500
-    },
-    {
-      "epoch": 20.26794915836482,
-      "grad_norm": 1.5867220163345337,
-      "learning_rate": 2.466506355204397e-05,
-      "loss": 1.708,
-      "step": 59000
-    },
-    {
-      "epoch": 20.439711439367915,
-      "grad_norm": 2.7590816020965576,
-      "learning_rate": 2.4450360700790106e-05,
-      "loss": 1.7076,
-      "step": 59500
-    },
-    {
-      "epoch": 20.611473720371006,
-      "grad_norm": 0.02333156019449234,
-      "learning_rate": 2.4235657849536243e-05,
-      "loss": 1.708,
-      "step": 60000
-    },
-    {
-      "epoch": 20.7832360013741,
-      "grad_norm": 1.262069821357727,
-      "learning_rate": 2.4020954998282376e-05,
-      "loss": 1.7083,
-      "step": 60500
-    },
-    {
-      "epoch": 20.95499828237719,
-      "grad_norm": 1.6238000392913818,
-      "learning_rate": 2.3806252147028512e-05,
-      "loss": 1.7077,
-      "step": 61000
-    },
-    {
-      "epoch": 21.0,
-      "eval_accuracy": 0.8828387806123117,
-      "eval_f1": 0.6590735879414006,
-      "eval_loss": 2.0343477725982666,
-      "eval_precision": 0.6403653118314958,
-      "eval_recall": 0.6789078855547802,
-      "eval_runtime": 4.3449,
-      "eval_samples_per_second": 669.757,
-      "eval_steps_per_second": 83.777,
-      "step": 61131
-    },
-    {
-      "epoch": 21.12676056338028,
-      "grad_norm": 0.6878411173820496,
-      "learning_rate": 2.359154929577465e-05,
-      "loss": 1.7075,
-      "step": 61500
-    },
-    {
-      "epoch": 21.298522844383374,
-      "grad_norm": 0.2594795227050781,
-      "learning_rate": 2.3376846444520782e-05,
-      "loss": 1.7066,
-      "step": 62000
-    },
-    {
-      "epoch": 21.470285125386464,
-      "grad_norm": 0.14187024533748627,
-      "learning_rate": 2.316214359326692e-05,
-      "loss": 1.7067,
-      "step": 62500
-    },
-    {
-      "epoch": 21.64204740638956,
-      "grad_norm": 1.2114301919937134,
-      "learning_rate": 2.2947440742013055e-05,
-      "loss": 1.7066,
-      "step": 63000
-    },
-    {
-      "epoch": 21.81380968739265,
-      "grad_norm": 0.41020047664642334,
-      "learning_rate": 2.273273789075919e-05,
-      "loss": 1.7069,
-      "step": 63500
-    },
-    {
-      "epoch": 21.98557196839574,
-      "grad_norm": 1.944765567779541,
-      "learning_rate": 2.2518035039505325e-05,
-      "loss": 1.7075,
-      "step": 64000
-    },
-    {
-      "epoch": 22.0,
-      "eval_accuracy": 0.886019450516368,
-      "eval_f1": 0.6647068995331143,
-      "eval_loss": 2.025860548019409,
-      "eval_precision": 0.6588961261570107,
-      "eval_recall": 0.6706210746685276,
-      "eval_runtime": 4.3463,
-      "eval_samples_per_second": 669.53,
-      "eval_steps_per_second": 83.749,
-      "step": 64042
-    },
-    {
-      "epoch": 22.157334249398833,
-      "grad_norm": 0.3925967216491699,
-      "learning_rate": 2.230333218825146e-05,
-      "loss": 1.7058,
-      "step": 64500
-    },
-    {
-      "epoch": 22.329096530401923,
-      "grad_norm": 2.5894014835357666,
-      "learning_rate": 2.2088629336997598e-05,
-      "loss": 1.707,
-      "step": 65000
-    },
-    {
-      "epoch": 22.500858811405017,
-      "grad_norm": 2.7716064453125,
-      "learning_rate": 2.187392648574373e-05,
-      "loss": 1.7063,
-      "step": 65500
-    },
-    {
-      "epoch": 22.672621092408107,
-      "grad_norm": 0.03647352755069733,
-      "learning_rate": 2.1659223634489867e-05,
-      "loss": 1.7067,
-      "step": 66000
-    },
-    {
-      "epoch": 22.844383373411198,
-      "grad_norm": 0.1577221304178238,
-      "learning_rate": 2.1444520783236004e-05,
-      "loss": 1.706,
-      "step": 66500
-    },
-    {
-      "epoch": 23.0,
-      "eval_accuracy": 0.8844618385057396,
-      "eval_f1": 0.662218230035502,
-      "eval_loss": 2.02994441986084,
-      "eval_precision": 0.6496852706672261,
-      "eval_recall": 0.6752442428471738,
-      "eval_runtime": 4.5456,
-      "eval_samples_per_second": 640.185,
-      "eval_steps_per_second": 80.078,
-      "step": 66953
-    },
-    {
-      "epoch": 23.01614565441429,
-      "grad_norm": 2.8254947662353516,
-      "learning_rate": 2.1229817931982137e-05,
-      "loss": 1.7066,
-      "step": 67000
-    },
-    {
-      "epoch": 23.187907935417382,
-      "grad_norm": 0.07582961767911911,
-      "learning_rate": 2.1015115080728273e-05,
-      "loss": 1.7055,
-      "step": 67500
-    },
-    {
-      "epoch": 23.359670216420476,
-      "grad_norm": 0.11683762818574905,
-      "learning_rate": 2.080041222947441e-05,
-      "loss": 1.7052,
-      "step": 68000
-    },
-    {
-      "epoch": 23.531432497423566,
-      "grad_norm": 0.6018902063369751,
-      "learning_rate": 2.0585709378220543e-05,
-      "loss": 1.7053,
-      "step": 68500
-    },
-    {
-      "epoch": 23.703194778426656,
-      "grad_norm": 0.0493299625813961,
-      "learning_rate": 2.037100652696668e-05,
-      "loss": 1.7052,
-      "step": 69000
-    },
-    {
-      "epoch": 23.87495705942975,
-      "grad_norm": 0.7263774275779724,
-      "learning_rate": 2.0156303675712816e-05,
-      "loss": 1.7062,
-      "step": 69500
-    },
-    {
-      "epoch": 24.0,
-      "eval_accuracy": 0.8855613293367715,
-      "eval_f1": 0.6654007164127573,
-      "eval_loss": 2.0291478633880615,
-      "eval_precision": 0.6584949175706842,
-      "eval_recall": 0.6724528960223308,
-      "eval_runtime": 4.425,
-      "eval_samples_per_second": 657.631,
-      "eval_steps_per_second": 82.26,
-      "step": 69864
-    },
-    {
-      "epoch": 24.04671934043284,
-      "grad_norm": 0.22631505131721497,
-      "learning_rate": 1.994160082445895e-05,
-      "loss": 1.7058,
-      "step": 70000
-    },
-    {
-      "epoch": 24.218481621435934,
-      "grad_norm": 0.08843923360109329,
-      "learning_rate": 1.9726897973205085e-05,
-      "loss": 1.7051,
-      "step": 70500
-    },
-    {
-      "epoch": 24.390243902439025,
-      "grad_norm": 0.615134060382843,
-      "learning_rate": 1.9512195121951222e-05,
-      "loss": 1.7052,
-      "step": 71000
-    },
-    {
-      "epoch": 24.562006183442115,
-      "grad_norm": 0.013932738453149796,
-      "learning_rate": 1.9297492270697355e-05,
-      "loss": 1.7051,
-      "step": 71500
-    },
-    {
-      "epoch": 24.73376846444521,
-      "grad_norm": 3.4743807315826416,
-      "learning_rate": 1.908278941944349e-05,
-      "loss": 1.7058,
-      "step": 72000
-    },
-    {
-      "epoch": 24.9055307454483,
-      "grad_norm": 0.03590023145079613,
-      "learning_rate": 1.8868086568189628e-05,
-      "loss": 1.7051,
-      "step": 72500
-    },
-    {
-      "epoch": 25.0,
-      "eval_accuracy": 0.8849592272150159,
-      "eval_f1": 0.6664947124064998,
-      "eval_loss": 2.032705783843994,
-      "eval_precision": 0.6570605187319885,
-      "eval_recall": 0.6762037683182135,
-      "eval_runtime": 4.3381,
-      "eval_samples_per_second": 670.805,
-      "eval_steps_per_second": 83.908,
-      "step": 72775
-    },
-    {
-      "epoch": 25.07729302645139,
-      "grad_norm": 2.080662250518799,
-      "learning_rate": 1.865338371693576e-05,
-      "loss": 1.7049,
-      "step": 73000
-    },
-    {
-      "epoch": 25.249055307454483,
-      "grad_norm": 0.029195208102464676,
-      "learning_rate": 1.8438680865681898e-05,
-      "loss": 1.7053,
-      "step": 73500
-    },
-    {
-      "epoch": 25.420817588457574,
-      "grad_norm": 0.31326115131378174,
-      "learning_rate": 1.8223978014428034e-05,
-      "loss": 1.7049,
-      "step": 74000
-    },
-    {
-      "epoch": 25.592579869460668,
-      "grad_norm": 0.01428903266787529,
-      "learning_rate": 1.800927516317417e-05,
-      "loss": 1.7047,
-      "step": 74500
-    },
-    {
-      "epoch": 25.764342150463758,
-      "grad_norm": 1.265703797340393,
-      "learning_rate": 1.7794572311920304e-05,
-      "loss": 1.7049,
-      "step": 75000
-    },
-    {
-      "epoch": 25.93610443146685,
-      "grad_norm": 0.12370016425848007,
-      "learning_rate": 1.7579869460666437e-05,
-      "loss": 1.7044,
-      "step": 75500
-    },
-    {
-      "epoch": 26.0,
-      "eval_accuracy": 0.8851293865102946,
-      "eval_f1": 0.6667517223781576,
-      "eval_loss": 2.034836530685425,
-      "eval_precision": 0.650539419087137,
-      "eval_recall": 0.6837927424982554,
-      "eval_runtime": 4.3502,
-      "eval_samples_per_second": 668.933,
-      "eval_steps_per_second": 83.674,
-      "step": 75686
-    },
-    {
-      "epoch": 26.107866712469942,
-      "grad_norm": 0.7563213109970093,
-      "learning_rate": 1.7365166609412573e-05,
-      "loss": 1.7049,
-      "step": 76000
-    },
-    {
-      "epoch": 26.279628993473032,
-      "grad_norm": 0.0820002630352974,
-      "learning_rate": 1.7150463758158706e-05,
-      "loss": 1.7043,
-      "step": 76500
-    },
-    {
-      "epoch": 26.451391274476126,
-      "grad_norm": 0.0947314128279686,
-      "learning_rate": 1.6935760906904843e-05,
-      "loss": 1.7039,
-      "step": 77000
-    },
-    {
-      "epoch": 26.623153555479217,
-      "grad_norm": 0.03729939088225365,
-      "learning_rate": 1.672105805565098e-05,
-      "loss": 1.7045,
-      "step": 77500
-    },
-    {
-      "epoch": 26.794915836482307,
-      "grad_norm": 0.022032542154192924,
-      "learning_rate": 1.6506355204397116e-05,
-      "loss": 1.7046,
-      "step": 78000
-    },
-    {
-      "epoch": 26.9666781174854,
-      "grad_norm": 0.01787804253399372,
-      "learning_rate": 1.629165235314325e-05,
-      "loss": 1.704,
-      "step": 78500
-    },
-    {
-      "epoch": 27.0,
-      "eval_accuracy": 0.885482794277412,
-      "eval_f1": 0.6641411967283685,
-      "eval_loss": 2.0346953868865967,
-      "eval_precision": 0.6556178820329763,
-      "eval_recall": 0.6728890439637125,
-      "eval_runtime": 4.3364,
-      "eval_samples_per_second": 671.067,
-      "eval_steps_per_second": 83.941,
-      "step": 78597
-    },
-    {
-      "epoch": 27.13844039848849,
-      "grad_norm": 0.04579576849937439,
-      "learning_rate": 1.6076949501889386e-05,
-      "loss": 1.7036,
-      "step": 79000
-    },
-    {
-      "epoch": 27.310202679491585,
-      "grad_norm": 0.01315494254231453,
-      "learning_rate": 1.5862246650635522e-05,
-      "loss": 1.704,
-      "step": 79500
-    },
-    {
-      "epoch": 27.481964960494675,
-      "grad_norm": 0.014564316719770432,
-      "learning_rate": 1.5647543799381655e-05,
-      "loss": 1.7038,
-      "step": 80000
-    },
-    {
-      "epoch": 27.653727241497766,
-      "grad_norm": 0.027286505326628685,
-      "learning_rate": 1.543284094812779e-05,
-      "loss": 1.7042,
-      "step": 80500
-    },
-    {
-      "epoch": 27.82548952250086,
-      "grad_norm": 0.012170245870947838,
-      "learning_rate": 1.5218138096873926e-05,
-      "loss": 1.7041,
-      "step": 81000
-    },
-    {
-      "epoch": 27.99725180350395,
-      "grad_norm": 0.10445314645767212,
-      "learning_rate": 1.5003435245620063e-05,
-      "loss": 1.7041,
-      "step": 81500
-    },
-    {
-      "epoch": 28.0,
-      "eval_accuracy": 0.8848414246259768,
-      "eval_f1": 0.665781243305771,
-      "eval_loss": 2.039051055908203,
-      "eval_precision": 0.6542056074766355,
-      "eval_recall": 0.6777739009071877,
-      "eval_runtime": 4.3543,
-      "eval_samples_per_second": 668.309,
-      "eval_steps_per_second": 83.596,
-      "step": 81508
-    },
-    {
-      "epoch": 28.169014084507044,
-      "grad_norm": 0.03070581518113613,
-      "learning_rate": 1.4788732394366198e-05,
-      "loss": 1.7034,
-      "step": 82000
-    },
-    {
-      "epoch": 28.340776365510134,
-      "grad_norm": 0.028482601046562195,
-      "learning_rate": 1.4574029543112333e-05,
-      "loss": 1.7034,
-      "step": 82500
-    },
-    {
-      "epoch": 28.512538646513224,
-      "grad_norm": 0.020483843982219696,
-      "learning_rate": 1.4359326691858469e-05,
-      "loss": 1.7037,
-      "step": 83000
-    },
-    {
-      "epoch": 28.68430092751632,
-      "grad_norm": 0.04633668065071106,
-      "learning_rate": 1.4144623840604604e-05,
-      "loss": 1.7038,
-      "step": 83500
-    },
-    {
-      "epoch": 28.85606320851941,
-      "grad_norm": 0.013343285769224167,
-      "learning_rate": 1.3929920989350739e-05,
-      "loss": 1.7044,
-      "step": 84000
-    },
-    {
-      "epoch": 29.0,
-      "eval_accuracy": 0.8849592272150159,
-      "eval_f1": 0.6683048801517503,
-      "eval_loss": 2.0383501052856445,
-      "eval_precision": 0.6606716672349131,
-      "eval_recall": 0.6761165387299372,
-      "eval_runtime": 4.5322,
-      "eval_samples_per_second": 642.076,
-      "eval_steps_per_second": 80.315,
-      "step": 84419
-    },
-    {
-      "epoch": 29.027825489522503,
-      "grad_norm": 0.012182236649096012,
-      "learning_rate": 1.3715218138096875e-05,
-      "loss": 1.7031,
-      "step": 84500
-    },
-    {
-      "epoch": 29.199587770525593,
-      "grad_norm": 0.022931888699531555,
-      "learning_rate": 1.350051528684301e-05,
-      "loss": 1.7034,
-      "step": 85000
-    },
-    {
-      "epoch": 29.371350051528683,
-      "grad_norm": 0.03491847962141037,
-      "learning_rate": 1.3285812435589146e-05,
-      "loss": 1.7031,
-      "step": 85500
-    },
-    {
-      "epoch": 29.543112332531777,
-      "grad_norm": 0.7195144295692444,
-      "learning_rate": 1.3071109584335281e-05,
-      "loss": 1.703,
-      "step": 86000
-    },
-    {
-      "epoch": 29.714874613534867,
-      "grad_norm": 0.06322001665830612,
-      "learning_rate": 1.2856406733081416e-05,
-      "loss": 1.7038,
-      "step": 86500
-    },
-    {
-      "epoch": 29.886636894537958,
-      "grad_norm": 2.88450288772583,
-      "learning_rate": 1.2641703881827552e-05,
-      "loss": 1.7038,
-      "step": 87000
-    },
-    {
-      "epoch": 30.0,
-      "eval_accuracy": 0.8862157881647665,
-      "eval_f1": 0.6689958592132506,
-      "eval_loss": 2.036111354827881,
-      "eval_precision": 0.6616894197952219,
-      "eval_recall": 0.6764654570830426,
-      "eval_runtime": 4.3577,
-      "eval_samples_per_second": 667.782,
-      "eval_steps_per_second": 83.53,
-      "step": 87330
-    },
-    {
-      "epoch": 30.05839917554105,
-      "grad_norm": 0.045289408415555954,
-      "learning_rate": 1.2427001030573687e-05,
-      "loss": 1.7034,
-      "step": 87500
-    },
-    {
-      "epoch": 30.230161456544142,
-      "grad_norm": 0.08461955934762955,
-      "learning_rate": 1.2212298179319822e-05,
-      "loss": 1.703,
-      "step": 88000
-    },
-    {
-      "epoch": 30.401923737547236,
-      "grad_norm": 0.019219454377889633,
-      "learning_rate": 1.1997595328065957e-05,
-      "loss": 1.7028,
-      "step": 88500
-    },
-    {
-      "epoch": 30.573686018550326,
-      "grad_norm": 0.08018019050359726,
-      "learning_rate": 1.1782892476812092e-05,
-      "loss": 1.7035,
-      "step": 89000
-    },
-    {
-      "epoch": 30.745448299553416,
-      "grad_norm": 0.022569868713617325,
-      "learning_rate": 1.1568189625558228e-05,
-      "loss": 1.7029,
-      "step": 89500
-    },
-    {
-      "epoch": 30.91721058055651,
-      "grad_norm": 0.01143190823495388,
-      "learning_rate": 1.1353486774304363e-05,
-      "loss": 1.7043,
-      "step": 90000
-    },
-    {
-      "epoch": 31.0,
-      "eval_accuracy": 0.8862157881647665,
-      "eval_f1": 0.6686131386861313,
-      "eval_loss": 2.036999225616455,
-      "eval_precision": 0.6583798410282429,
-      "eval_recall": 0.6791695743196092,
-      "eval_runtime": 4.3764,
-      "eval_samples_per_second": 664.936,
-      "eval_steps_per_second": 83.174,
-      "step": 90241
-    },
-    {
-      "epoch": 31.0889728615596,
-      "grad_norm": 0.020288735628128052,
-      "learning_rate": 1.1138783923050498e-05,
-      "loss": 1.7027,
-      "step": 90500
-    },
-    {
-      "epoch": 31.260735142562694,
-      "grad_norm": 1.4007924795150757,
-      "learning_rate": 1.0924081071796634e-05,
-      "loss": 1.7031,
-      "step": 91000
-    },
-    {
-      "epoch": 31.432497423565785,
-      "grad_norm": 0.026297271251678467,
-      "learning_rate": 1.0709378220542769e-05,
-      "loss": 1.7033,
-      "step": 91500
-    },
-    {
-      "epoch": 31.604259704568875,
-      "grad_norm": 0.01724054105579853,
-      "learning_rate": 1.0494675369288904e-05,
-      "loss": 1.7033,
-      "step": 92000
-    },
-    {
-      "epoch": 31.77602198557197,
-      "grad_norm": 0.022584540769457817,
-      "learning_rate": 1.027997251803504e-05,
-      "loss": 1.7029,
-      "step": 92500
-    },
-    {
-      "epoch": 31.94778426657506,
-      "grad_norm": 0.020957598462700844,
-      "learning_rate": 1.0065269666781175e-05,
-      "loss": 1.7027,
-      "step": 93000
-    },
-    {
-      "epoch": 32.0,
-      "eval_accuracy": 0.887498527467637,
-      "eval_f1": 0.6720918279938325,
-      "eval_loss": 2.0346181392669678,
-      "eval_precision": 0.6602154156849546,
-      "eval_recall": 0.6844033496161898,
-      "eval_runtime": 4.3442,
-      "eval_samples_per_second": 669.861,
-      "eval_steps_per_second": 83.79,
-      "step": 93152
-    },
-    {
-      "epoch": 32.11954654757815,
-      "grad_norm": 0.034752070903778076,
-      "learning_rate": 9.850566815527312e-06,
-      "loss": 1.7029,
-      "step": 93500
-    },
-    {
-      "epoch": 32.29130882858124,
-      "grad_norm": 0.029328178614377975,
-      "learning_rate": 9.635863964273446e-06,
-      "loss": 1.7028,
-      "step": 94000
-    },
-    {
-      "epoch": 32.463071109584334,
-      "grad_norm": 0.012389196082949638,
-      "learning_rate": 9.421161113019581e-06,
-      "loss": 1.7029,
-      "step": 94500
-    },
-    {
-      "epoch": 32.634833390587424,
-      "grad_norm": 0.3913457989692688,
-      "learning_rate": 9.206458261765718e-06,
-      "loss": 1.703,
-      "step": 95000
-    },
-    {
-      "epoch": 32.80659567159052,
-      "grad_norm": 0.018091492354869843,
-      "learning_rate": 8.991755410511853e-06,
-      "loss": 1.703,
-      "step": 95500
-    },
-    {
-      "epoch": 32.97835795259361,
-      "grad_norm": 0.0414559505879879,
-      "learning_rate": 8.777052559257987e-06,
-      "loss": 1.7026,
-      "step": 96000
-    },
-    {
-      "epoch": 33.0,
-      "eval_accuracy": 0.8870796738177201,
-      "eval_f1": 0.6719724671972467,
-      "eval_loss": 2.0373663902282715,
-      "eval_precision": 0.6629318394024276,
-      "eval_recall": 0.6812630844382415,
-      "eval_runtime": 4.3395,
-      "eval_samples_per_second": 670.591,
-      "eval_steps_per_second": 83.881,
-      "step": 96063
-    },
-    {
-      "epoch": 33.1501202335967,
-      "grad_norm": 1.3967928886413574,
-      "learning_rate": 8.562349708004122e-06,
-      "loss": 1.7026,
-      "step": 96500
-    },
-    {
-      "epoch": 33.32188251459979,
-      "grad_norm": 0.0278925858438015,
-      "learning_rate": 8.347646856750257e-06,
-      "loss": 1.7029,
-      "step": 97000
-    },
-    {
-      "epoch": 33.49364479560288,
-      "grad_norm": 0.0145077770575881,
-      "learning_rate": 8.132944005496393e-06,
-      "loss": 1.7026,
-      "step": 97500
-    },
-    {
-      "epoch": 33.66540707660598,
-      "grad_norm": 0.025042984634637833,
-      "learning_rate": 7.918241154242528e-06,
-      "loss": 1.7027,
-      "step": 98000
-    },
-    {
-      "epoch": 33.83716935760907,
-      "grad_norm": 0.01291943620890379,
-      "learning_rate": 7.703538302988663e-06,
-      "loss": 1.7025,
-      "step": 98500
-    },
-    {
-      "epoch": 34.0,
-      "eval_accuracy": 0.8862026989882067,
-      "eval_f1": 0.6707671279685631,
-      "eval_loss": 2.038774251937866,
-      "eval_precision": 0.6571811181787747,
-      "eval_recall": 0.6849267271458479,
-      "eval_runtime": 4.3422,
-      "eval_samples_per_second": 670.172,
-      "eval_steps_per_second": 83.829,
-      "step": 98974
-    },
-    {
-      "epoch": 34.00893163861216,
-      "grad_norm": 0.014937439002096653,
-      "learning_rate": 7.4888354517347995e-06,
-      "loss": 1.7027,
-      "step": 99000
-    },
-    {
-      "epoch": 34.18069391961525,
-      "grad_norm": 0.05787663906812668,
-      "learning_rate": 7.274132600480934e-06,
-      "loss": 1.7029,
-      "step": 99500
-    },
-    {
-      "epoch": 34.35245620061834,
-      "grad_norm": 0.12616612017154694,
-      "learning_rate": 7.05942974922707e-06,
-      "loss": 1.7025,
-      "step": 100000
-    },
-    {
-      "epoch": 34.52421848162144,
-      "grad_norm": 1.7043280601501465,
-      "learning_rate": 6.844726897973206e-06,
-      "loss": 1.7026,
-      "step": 100500
-    },
-    {
-      "epoch": 34.69598076262453,
-      "grad_norm": 0.2174743413925171,
-      "learning_rate": 6.6300240467193404e-06,
-      "loss": 1.7026,
-      "step": 101000
-    },
-    {
-      "epoch": 34.86774304362762,
-      "grad_norm": 0.018968598917126656,
-      "learning_rate": 6.415321195465476e-06,
-      "loss": 1.7024,
-      "step": 101500
-    },
-    {
-      "epoch": 35.0,
-      "eval_accuracy": 0.8873152789957984,
-      "eval_f1": 0.6722725312634755,
-      "eval_loss": 2.0370359420776367,
-      "eval_precision": 0.6647620672010915,
-      "eval_recall": 0.6799546406140963,
-      "eval_runtime": 4.5075,
-      "eval_samples_per_second": 645.593,
-      "eval_steps_per_second": 80.755,
-      "step": 101885
-    },
-    {
-      "epoch": 35.03950532463071,
-      "grad_norm": 0.031130915507674217,
-      "learning_rate": 6.200618344211612e-06,
-      "loss": 1.7028,
-      "step": 102000
-    },
-    {
-      "epoch": 35.2112676056338,
-      "grad_norm": 0.015709536150097847,
-      "learning_rate": 5.9859154929577465e-06,
-      "loss": 1.7026,
-      "step": 102500
-    },
-    {
-      "epoch": 35.3830298866369,
-      "grad_norm": 0.013832608237862587,
-      "learning_rate": 5.771212641703882e-06,
-      "loss": 1.7023,
-      "step": 103000
-    },
-    {
-      "epoch": 35.55479216763999,
-      "grad_norm": 0.033963147550821304,
-      "learning_rate": 5.556509790450017e-06,
-      "loss": 1.7025,
-      "step": 103500
-    },
-    {
-      "epoch": 35.72655444864308,
-      "grad_norm": 0.010256431065499783,
-      "learning_rate": 5.341806939196153e-06,
-      "loss": 1.7025,
-      "step": 104000
-    },
-    {
-      "epoch": 35.89831672964617,
-      "grad_norm": 0.01719123311340809,
-      "learning_rate": 5.127104087942288e-06,
-      "loss": 1.703,
-      "step": 104500
-    },
-    {
-      "epoch": 36.0,
-      "eval_accuracy": 0.8867524444037226,
-      "eval_f1": 0.6718547341115435,
-      "eval_loss": 2.0409553050994873,
-      "eval_precision": 0.6660380593176753,
-      "eval_recall": 0.6777739009071877,
-      "eval_runtime": 4.3391,
-      "eval_samples_per_second": 670.65,
-      "eval_steps_per_second": 83.889,
-      "step": 104796
-    },
-    {
-      "epoch": 36.07007901064926,
-      "grad_norm": 0.010260261595249176,
-      "learning_rate": 4.912401236688424e-06,
-      "loss": 1.7023,
-      "step": 105000
-    },
-    {
-      "epoch": 36.24184129165236,
-      "grad_norm": 0.016782447695732117,
-      "learning_rate": 4.697698385434559e-06,
-      "loss": 1.7022,
-      "step": 105500
-    },
-    {
-      "epoch": 36.41360357265545,
-      "grad_norm": 0.017756333574652672,
-      "learning_rate": 4.482995534180694e-06,
-      "loss": 1.7027,
-      "step": 106000
-    },
-    {
-      "epoch": 36.58536585365854,
-      "grad_norm": 0.02108193188905716,
-      "learning_rate": 4.26829268292683e-06,
-      "loss": 1.7027,
-      "step": 106500
-    },
-    {
-      "epoch": 36.75712813466163,
-      "grad_norm": 0.023750385269522667,
-      "learning_rate": 4.053589831672965e-06,
-      "loss": 1.7027,
-      "step": 107000
-    },
-    {
-      "epoch": 36.92889041566472,
-      "grad_norm": 0.01755833625793457,
-      "learning_rate": 3.8388869804191e-06,
-      "loss": 1.7023,
-      "step": 107500
-    },
-    {
-      "epoch": 37.0,
-      "eval_accuracy": 0.8871058521708399,
-      "eval_f1": 0.6730462519936204,
-      "eval_loss": 2.039201498031616,
-      "eval_precision": 0.6652748189177674,
-      "eval_recall": 0.6810013956734124,
-      "eval_runtime": 4.3606,
-      "eval_samples_per_second": 667.332,
-      "eval_steps_per_second": 83.474,
-      "step": 107707
-    },
-    {
-      "epoch": 37.100652696667815,
-      "grad_norm": 0.00990867055952549,
-      "learning_rate": 3.6241841291652353e-06,
-      "loss": 1.7024,
-      "step": 108000
-    },
-    {
-      "epoch": 37.272414977670906,
-      "grad_norm": 0.011056340299546719,
-      "learning_rate": 3.409481277911371e-06,
-      "loss": 1.7023,
-      "step": 108500
-    },
-    {
-      "epoch": 37.444177258673996,
-      "grad_norm": 0.011399239301681519,
-      "learning_rate": 3.194778426657506e-06,
-      "loss": 1.7025,
-      "step": 109000
-    },
-    {
-      "epoch": 37.615939539677086,
-      "grad_norm": 0.11473862081766129,
-      "learning_rate": 2.9800755754036418e-06,
-      "loss": 1.7024,
-      "step": 109500
-    },
-    {
-      "epoch": 37.78770182068018,
-      "grad_norm": 0.013430794700980186,
-      "learning_rate": 2.7653727241497766e-06,
-      "loss": 1.7026,
-      "step": 110000
-    },
-    {
-      "epoch": 37.95946410168327,
-      "grad_norm": 0.6538777351379395,
-      "learning_rate": 2.5506698728959122e-06,
-      "loss": 1.7022,
-      "step": 110500
-    },
-    {
-      "epoch": 38.0,
-      "eval_accuracy": 0.8873545465254781,
-      "eval_f1": 0.6726804123711341,
-      "eval_loss": 2.0390825271606445,
-      "eval_precision": 0.6626607989167231,
-      "eval_recall": 0.6830076762037683,
-      "eval_runtime": 4.3713,
-      "eval_samples_per_second": 665.706,
-      "eval_steps_per_second": 83.27,
-      "step": 110618
-    },
-    {
-      "epoch": 38.131226382686364,
-      "grad_norm": 0.022718122228980064,
-      "learning_rate": 2.3359670216420474e-06,
-      "loss": 1.7021,
-      "step": 111000
-    },
-    {
-      "epoch": 38.302988663689455,
-      "grad_norm": 0.00782406609505415,
-      "learning_rate": 2.121264170388183e-06,
-      "loss": 1.7024,
-      "step": 111500
-    },
-    {
-      "epoch": 38.474750944692545,
-      "grad_norm": 0.06520986557006836,
-      "learning_rate": 1.906561319134318e-06,
-      "loss": 1.7025,
-      "step": 112000
-    },
-    {
-      "epoch": 38.646513225695635,
-      "grad_norm": 0.011009753681719303,
-      "learning_rate": 1.6918584678804535e-06,
-      "loss": 1.7024,
-      "step": 112500
-    },
-    {
-      "epoch": 38.818275506698726,
-      "grad_norm": 0.01437163446098566,
-      "learning_rate": 1.477155616626589e-06,
-      "loss": 1.7024,
-      "step": 113000
-    },
-    {
-      "epoch": 38.99003778770182,
-      "grad_norm": 0.020153211429715157,
-      "learning_rate": 1.2624527653727242e-06,
-      "loss": 1.7022,
-      "step": 113500
-    },
-    {
-      "epoch": 39.0,
-      "eval_accuracy": 0.8869356928755612,
-      "eval_f1": 0.6716757545833154,
-      "eval_loss": 2.039407968521118,
-      "eval_precision": 0.6613680561427243,
-      "eval_recall": 0.6823098394975575,
-      "eval_runtime": 4.3449,
-      "eval_samples_per_second": 669.757,
-      "eval_steps_per_second": 83.777,
-      "step": 113529
-    },
-    {
-      "epoch": 39.16180006870491,
-      "grad_norm": 0.020474748685956,
-      "learning_rate": 1.0477499141188596e-06,
-      "loss": 1.7027,
-      "step": 114000
-    },
-    {
-      "epoch": 39.333562349708004,
-      "grad_norm": 0.010198526084423065,
-      "learning_rate": 8.330470628649948e-07,
-      "loss": 1.7023,
-      "step": 114500
-    },
-    {
-      "epoch": 39.505324630711094,
-      "grad_norm": 0.02069229632616043,
-      "learning_rate": 6.183442116111302e-07,
-      "loss": 1.7022,
-      "step": 115000
-    },
-    {
-      "epoch": 39.677086911714184,
-      "grad_norm": 0.04512259364128113,
-      "learning_rate": 4.0364136035726557e-07,
-      "loss": 1.7024,
-      "step": 115500
-    },
-    {
-      "epoch": 39.84884919271728,
-      "grad_norm": 0.02132527157664299,
-      "learning_rate": 1.889385091034009e-07,
-      "loss": 1.7023,
-      "step": 116000
-    },
-    {
-      "epoch": 40.0,
-      "eval_accuracy": 0.8874069032317177,
-      "eval_f1": 0.6728642134710566,
-      "eval_loss": 2.0384275913238525,
-      "eval_precision": 0.6640897120040778,
-      "eval_recall": 0.6818736915561758,
-      "eval_runtime": 4.3494,
-      "eval_samples_per_second": 669.052,
-      "eval_steps_per_second": 83.689,
-      "step": 116440
-    },
-    {
-      "epoch": 40.0,
-      "step": 116440,
-      "total_flos": 3.172672952125471e+16,
-      "train_loss": 1.7340915796560996,
-      "train_runtime": 6267.5858,
-      "train_samples_per_second": 148.606,
-      "train_steps_per_second": 18.578
     }
   ],
   "logging_steps": 500,
-  "max_steps": 116440,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 40,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -2140,7 +825,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.172672952125471e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 5822,
+  "best_metric": 1.5156257152557373,
   "best_model_checkpoint": "./output/bert-base-medmentions/checkpoint-5822",
+  "epoch": 15.0,
   "eval_steps": 500,
+  "global_step": 43665,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1717622810030917,
+      "grad_norm": 1.9404675960540771,
+      "learning_rate": 4.9427459063323026e-05,
+      "loss": 1.7239,
       "step": 500
     },
     {
       "epoch": 0.3435245620061834,
+      "grad_norm": 1.6719824075698853,
+      "learning_rate": 4.885491812664606e-05,
+      "loss": 1.6163,
       "step": 1000
     },
     {
       "epoch": 0.5152868430092752,
+      "grad_norm": 1.837388515472412,
+      "learning_rate": 4.828237718996909e-05,
+      "loss": 1.5924,
       "step": 1500
     },
     {
       "epoch": 0.6870491240123668,
+      "grad_norm": 2.1180434226989746,
+      "learning_rate": 4.770983625329211e-05,
+      "loss": 1.5717,
       "step": 2000
     },
     {
       "epoch": 0.8588114050154586,
+      "grad_norm": 1.800995945930481,
+      "learning_rate": 4.7137295316615135e-05,
+      "loss": 1.5686,
       "step": 2500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8549719237162791,
+      "eval_f1": 0.5650458863307036,
+      "eval_loss": 1.5439889430999756,
+      "eval_precision": 0.5245889387144993,
+      "eval_recall": 0.6122644801116539,
+      "eval_runtime": 4.1137,
+      "eval_samples_per_second": 707.39,
+      "eval_steps_per_second": 88.485,
       "step": 2911
     },
     {
       "epoch": 1.0305736860185504,
+      "grad_norm": 1.0917384624481201,
+      "learning_rate": 4.6564754379938166e-05,
+      "loss": 1.5484,
       "step": 3000
     },
     {
       "epoch": 1.202335967021642,
+      "grad_norm": 1.0721220970153809,
+      "learning_rate": 4.59922134432612e-05,
+      "loss": 1.4824,
       "step": 3500
     },
     {
       "epoch": 1.3740982480247337,
+      "grad_norm": 1.5045437812805176,
+      "learning_rate": 4.541967250658422e-05,
+      "loss": 1.4894,
       "step": 4000
     },
     {
       "epoch": 1.5458605290278253,
+      "grad_norm": 3.3368799686431885,
+      "learning_rate": 4.484713156990725e-05,
+      "loss": 1.4863,
       "step": 4500
     },
     {
       "epoch": 1.7176228100309172,
+      "grad_norm": 2.191357374191284,
+      "learning_rate": 4.427459063323028e-05,
+      "loss": 1.4806,
       "step": 5000
     },
     {
       "epoch": 1.889385091034009,
+      "grad_norm": 2.575375556945801,
+      "learning_rate": 4.3702049696553306e-05,
+      "loss": 1.4792,
       "step": 5500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8688595400463357,
+      "eval_f1": 0.6071204975165909,
+      "eval_loss": 1.5156257152557373,
+      "eval_precision": 0.5820728291316527,
+      "eval_recall": 0.6344207955338451,
+      "eval_runtime": 4.3513,
+      "eval_samples_per_second": 668.77,
+      "eval_steps_per_second": 83.654,
       "step": 5822
     },
     {
       "epoch": 2.0611473720371007,
+      "grad_norm": 4.3115081787109375,
+      "learning_rate": 4.3129508759876336e-05,
+      "loss": 1.4566,
       "step": 6000
     },
     {
       "epoch": 2.2329096530401924,
+      "grad_norm": 1.5031124353408813,
+      "learning_rate": 4.255696782319936e-05,
+      "loss": 1.4053,
       "step": 6500
     },
     {
       "epoch": 2.404671934043284,
+      "grad_norm": 2.4502875804901123,
+      "learning_rate": 4.198442688652239e-05,
+      "loss": 1.4111,
       "step": 7000
     },
     {
       "epoch": 2.5764342150463757,
+      "grad_norm": 1.5572278499603271,
+      "learning_rate": 4.1411885949845415e-05,
+      "loss": 1.4096,
       "step": 7500
     },
     {
       "epoch": 2.7481964960494674,
+      "grad_norm": 1.3663930892944336,
+      "learning_rate": 4.0839345013168445e-05,
+      "loss": 1.4097,
       "step": 8000
     },
     {
       "epoch": 2.9199587770525595,
+      "grad_norm": 3.3840882778167725,
+      "learning_rate": 4.026680407649147e-05,
+      "loss": 1.4111,
       "step": 8500
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8713595727692771,
+      "eval_f1": 0.6163334575106585,
+      "eval_loss": 1.519059419631958,
+      "eval_precision": 0.5864513588026782,
+      "eval_recall": 0.6494242847173761,
+      "eval_runtime": 4.33,
+      "eval_samples_per_second": 672.06,
+      "eval_steps_per_second": 84.065,
       "step": 8733
     },
     {
       "epoch": 3.091721058055651,
+      "grad_norm": 1.4997501373291016,
+      "learning_rate": 3.96942631398145e-05,
+      "loss": 1.3798,
       "step": 9000
     },
     {
       "epoch": 3.2634833390587428,
+      "grad_norm": 1.4717656373977661,
+      "learning_rate": 3.912172220313753e-05,
+      "loss": 1.3517,
       "step": 9500
     },
     {
       "epoch": 3.4352456200618344,
+      "grad_norm": 2.0151214599609375,
+      "learning_rate": 3.8549181266460554e-05,
+      "loss": 1.3532,
       "step": 10000
     },
     {
       "epoch": 3.607007901064926,
+      "grad_norm": 2.7060940265655518,
+      "learning_rate": 3.797664032978358e-05,
+      "loss": 1.3546,
       "step": 10500
     },
     {
       "epoch": 3.7787701820680177,
+      "grad_norm": 3.2001101970672607,
+      "learning_rate": 3.740409939310661e-05,
+      "loss": 1.355,
       "step": 11000
     },
     {
       "epoch": 3.9505324630711094,
+      "grad_norm": 2.374141216278076,
+      "learning_rate": 3.683155845642964e-05,
+      "loss": 1.356,
       "step": 11500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8777209125773897,
+      "eval_f1": 0.6318054658919734,
+      "eval_loss": 1.5293220281600952,
+      "eval_precision": 0.6235663919802905,
+      "eval_recall": 0.6402651779483601,
+      "eval_runtime": 4.3262,
+      "eval_samples_per_second": 672.648,
+      "eval_steps_per_second": 84.139,
       "step": 11644
     },
     {
       "epoch": 4.1222947440742015,
+      "grad_norm": 2.5122597217559814,
+      "learning_rate": 3.6259017519752663e-05,
+      "loss": 1.3298,
       "step": 12000
     },
     {
       "epoch": 4.294057025077293,
+      "grad_norm": 1.870731234550476,
+      "learning_rate": 3.568647658307569e-05,
+      "loss": 1.3148,
       "step": 12500
     },
     {
       "epoch": 4.465819306080385,
+      "grad_norm": 2.1130025386810303,
+      "learning_rate": 3.511393564639872e-05,
+      "loss": 1.3147,
       "step": 13000
     },
     {
       "epoch": 4.637581587083476,
+      "grad_norm": 1.9891668558120728,
+      "learning_rate": 3.454139470972175e-05,
+      "loss": 1.3176,
       "step": 13500
     },
     {
       "epoch": 4.809343868086568,
+      "grad_norm": 2.144550085067749,
+      "learning_rate": 3.396885377304477e-05,
+      "loss": 1.3207,
       "step": 14000
     },
     {
       "epoch": 4.98110614908966,
+      "grad_norm": 1.166013240814209,
+      "learning_rate": 3.33963128363678e-05,
+      "loss": 1.3182,
       "step": 14500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8789120276443408,
+      "eval_f1": 0.6353600689952565,
+      "eval_loss": 1.543265461921692,
+      "eval_precision": 0.6282619819205185,
+      "eval_recall": 0.6426203768318214,
+      "eval_runtime": 4.3312,
+      "eval_samples_per_second": 671.862,
+      "eval_steps_per_second": 84.041,
       "step": 14555
     },
     {
       "epoch": 5.152868430092751,
+      "grad_norm": 1.4789066314697266,
+      "learning_rate": 3.2823771899690834e-05,
+      "loss": 1.2897,
       "step": 15000
     },
     {
       "epoch": 5.3246307110958435,
+      "grad_norm": 2.067422866821289,
+      "learning_rate": 3.225123096301386e-05,
+      "loss": 1.2908,
       "step": 15500
     },
     {
       "epoch": 5.496392992098935,
+      "grad_norm": 1.4258556365966797,
+      "learning_rate": 3.167869002633688e-05,
+      "loss": 1.2946,
       "step": 16000
     },
     {
       "epoch": 5.668155273102027,
+      "grad_norm": 1.9385099411010742,
+      "learning_rate": 3.110614908965991e-05,
+      "loss": 1.2914,
       "step": 16500
     },
     {
       "epoch": 5.839917554105119,
+      "grad_norm": 2.5622832775115967,
+      "learning_rate": 3.053360815298294e-05,
+      "loss": 1.2919,
       "step": 17000
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8793701488239375,
+      "eval_f1": 0.6428903837204383,
+      "eval_loss": 1.5671014785766602,
+      "eval_precision": 0.6241682411895177,
+      "eval_recall": 0.6627704117236567,
+      "eval_runtime": 4.523,
+      "eval_samples_per_second": 643.376,
+      "eval_steps_per_second": 80.477,
       "step": 17466
     },
     {
       "epoch": 6.01167983510821,
+      "grad_norm": 1.9045183658599854,
+      "learning_rate": 2.9961067216305967e-05,
+      "loss": 1.2899,
       "step": 17500
     },
     {
       "epoch": 6.183442116111302,
+      "grad_norm": 5.356103420257568,
+      "learning_rate": 2.9388526279628997e-05,
+      "loss": 1.2716,
       "step": 18000
     },
     {
       "epoch": 6.3552043971143934,
+      "grad_norm": 1.4505314826965332,
+      "learning_rate": 2.8815985342952025e-05,
+      "loss": 1.2736,
       "step": 18500
     },
     {
       "epoch": 6.5269666781174855,
+      "grad_norm": 2.0673441886901855,
+      "learning_rate": 2.824344440627505e-05,
+      "loss": 1.2755,
       "step": 19000
     },
     {
       "epoch": 6.698728959120577,
+      "grad_norm": 7.07130765914917,
+      "learning_rate": 2.7670903469598076e-05,
+      "loss": 1.2739,
       "step": 19500
     },
     {
       "epoch": 6.870491240123669,
+      "grad_norm": 2.692305326461792,
+      "learning_rate": 2.7098362532921106e-05,
+      "loss": 1.2743,
       "step": 20000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8809277608345659,
+      "eval_f1": 0.6462844646455984,
+      "eval_loss": 1.5696512460708618,
+      "eval_precision": 0.6355739225773804,
+      "eval_recall": 0.6573621772505234,
+      "eval_runtime": 4.3283,
+      "eval_samples_per_second": 672.312,
+      "eval_steps_per_second": 84.097,
       "step": 20377
     },
     {
       "epoch": 7.042253521126761,
+      "grad_norm": 0.9224966764450073,
+      "learning_rate": 2.6525821596244134e-05,
+      "loss": 1.2716,
       "step": 20500
     },
     {
       "epoch": 7.214015802129852,
+      "grad_norm": 2.72609543800354,
+      "learning_rate": 2.5953280659567158e-05,
+      "loss": 1.2578,
       "step": 21000
     },
     {
       "epoch": 7.385778083132944,
+      "grad_norm": 1.7019892930984497,
+      "learning_rate": 2.538073972289019e-05,
+      "loss": 1.2612,
       "step": 21500
     },
     {
       "epoch": 7.5575403641360355,
+      "grad_norm": 4.017130374908447,
+      "learning_rate": 2.4808198786213216e-05,
+      "loss": 1.2622,
       "step": 22000
     },
     {
       "epoch": 7.729302645139128,
+      "grad_norm": 6.522401332855225,
+      "learning_rate": 2.4235657849536243e-05,
+      "loss": 1.2611,
       "step": 22500
     },
     {
       "epoch": 7.901064926142219,
+      "grad_norm": 3.355700731277466,
+      "learning_rate": 2.366311691285927e-05,
+      "loss": 1.2633,
       "step": 23000
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8812811686016833,
+      "eval_f1": 0.6527559389741191,
+      "eval_loss": 1.5806214809417725,
+      "eval_precision": 0.636446507002569,
+      "eval_recall": 0.6699232379623168,
+      "eval_runtime": 4.329,
+      "eval_samples_per_second": 672.206,
+      "eval_steps_per_second": 84.084,
       "step": 23288
     },
     {
       "epoch": 8.07282720714531,
+      "grad_norm": 0.5228517651557922,
+      "learning_rate": 2.30905759761823e-05,
+      "loss": 1.2579,
       "step": 23500
     },
     {
       "epoch": 8.244589488148403,
+      "grad_norm": 0.2985314726829529,
+      "learning_rate": 2.2518035039505325e-05,
+      "loss": 1.2527,
       "step": 24000
     },
     {
       "epoch": 8.416351769151495,
+      "grad_norm": 1.963086724281311,
+      "learning_rate": 2.1945494102828355e-05,
+      "loss": 1.2542,
       "step": 24500
     },
     {
       "epoch": 8.588114050154585,
+      "grad_norm": 0.8812742233276367,
+      "learning_rate": 2.137295316615138e-05,
+      "loss": 1.251,
       "step": 25000
     },
     {
       "epoch": 8.759876331157677,
+      "grad_norm": 0.7020455002784729,
+      "learning_rate": 2.080041222947441e-05,
+      "loss": 1.2516,
       "step": 25500
     },
     {
       "epoch": 8.93163861216077,
+      "grad_norm": 2.0791664123535156,
+      "learning_rate": 2.0227871292797437e-05,
+      "loss": 1.2542,
       "step": 26000
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.880783779892407,
+      "eval_f1": 0.6498043011657758,
+      "eval_loss": 1.594204068183899,
+      "eval_precision": 0.6277953972513621,
+      "eval_recall": 0.6734124214933705,
+      "eval_runtime": 4.3509,
+      "eval_samples_per_second": 668.824,
+      "eval_steps_per_second": 83.66,
       "step": 26199
     },
     {
       "epoch": 9.103400893163862,
+      "grad_norm": 2.5551717281341553,
+      "learning_rate": 1.9655330356120464e-05,
+      "loss": 1.2496,
       "step": 26500
     },
     {
       "epoch": 9.275163174166954,
+      "grad_norm": 3.963749647140503,
+      "learning_rate": 1.908278941944349e-05,
+      "loss": 1.2453,
       "step": 27000
     },
     {
       "epoch": 9.446925455170044,
+      "grad_norm": 0.5859785676002502,
+      "learning_rate": 1.851024848276652e-05,
+      "loss": 1.2463,
       "step": 27500
     },
     {
       "epoch": 9.618687736173136,
+      "grad_norm": 0.3447531759738922,
+      "learning_rate": 1.7937707546089546e-05,
+      "loss": 1.2477,
       "step": 28000
     },
     {
       "epoch": 9.790450017176228,
+      "grad_norm": 0.3794388175010681,
+      "learning_rate": 1.7365166609412573e-05,
+      "loss": 1.2468,
       "step": 28500
     },
     {
       "epoch": 9.96221229817932,
+      "grad_norm": 1.6076109409332275,
+      "learning_rate": 1.67926256727356e-05,
+      "loss": 1.2457,
       "step": 29000
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.8814251495438422,
+      "eval_f1": 0.6500277789649131,
+      "eval_loss": 1.607577919960022,
+      "eval_precision": 0.6372015081692501,
+      "eval_recall": 0.6633810188415911,
+      "eval_runtime": 4.3517,
+      "eval_samples_per_second": 668.699,
+      "eval_steps_per_second": 83.645,
       "step": 29110
     },
     {
       "epoch": 10.13397457918241,
+      "grad_norm": 1.843865990638733,
+      "learning_rate": 1.622008473605863e-05,
+      "loss": 1.2411,
       "step": 29500
     },
     {
       "epoch": 10.305736860185503,
+      "grad_norm": 2.924731731414795,
+      "learning_rate": 1.5647543799381655e-05,
+      "loss": 1.2402,
       "step": 30000
     },
     {
       "epoch": 10.477499141188595,
+      "grad_norm": 0.40096113085746765,
+      "learning_rate": 1.5075002862704684e-05,
+      "loss": 1.2416,
       "step": 30500
     },
     {
       "epoch": 10.649261422191687,
+      "grad_norm": 1.3067082166671753,
+      "learning_rate": 1.4502461926027711e-05,
+      "loss": 1.2422,
       "step": 31000
     },
     {
       "epoch": 10.82102370319478,
+      "grad_norm": 1.1540168523788452,
+      "learning_rate": 1.3929920989350739e-05,
+      "loss": 1.2406,
       "step": 31500
     },
     {
       "epoch": 10.99278598419787,
+      "grad_norm": 2.354355812072754,
+      "learning_rate": 1.3357380052673768e-05,
+      "loss": 1.2398,
       "step": 32000
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.8834932394403068,
+      "eval_f1": 0.6551724137931034,
+      "eval_loss": 1.6077239513397217,
+      "eval_precision": 0.6413770053475936,
+      "eval_recall": 0.6695743196092114,
+      "eval_runtime": 4.5309,
+      "eval_samples_per_second": 642.254,
+      "eval_steps_per_second": 80.337,
       "step": 32021
     },
     {
       "epoch": 11.164548265200962,
+      "grad_norm": 2.941948413848877,
+      "learning_rate": 1.2784839115996793e-05,
+      "loss": 1.2384,
       "step": 32500
     },
     {
       "epoch": 11.336310546204054,
+      "grad_norm": 0.06978488713502884,
+      "learning_rate": 1.2212298179319822e-05,
+      "loss": 1.238,
       "step": 33000
     },
     {
       "epoch": 11.508072827207146,
+      "grad_norm": 1.1202852725982666,
+      "learning_rate": 1.163975724264285e-05,
+      "loss": 1.2375,
       "step": 33500
     },
     {
       "epoch": 11.679835108210238,
+      "grad_norm": 3.7290749549865723,
+      "learning_rate": 1.1067216305965877e-05,
+      "loss": 1.2373,
       "step": 34000
     },
     {
       "epoch": 11.851597389213328,
+      "grad_norm": 0.5790780782699585,
+      "learning_rate": 1.0494675369288904e-05,
+      "loss": 1.2377,
       "step": 34500
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8846974436838179,
+      "eval_f1": 0.6615437158469945,
+      "eval_loss": 1.6134886741638184,
+      "eval_precision": 0.6478260869565218,
+      "eval_recall": 0.6758548499651081,
+      "eval_runtime": 4.3276,
+      "eval_samples_per_second": 672.43,
+      "eval_steps_per_second": 84.112,
       "step": 34932
     },
     {
       "epoch": 12.02335967021642,
+      "grad_norm": 0.04744827747344971,
+      "learning_rate": 9.922134432611933e-06,
+      "loss": 1.2362,
       "step": 35000
     },
     {
       "epoch": 12.195121951219512,
+      "grad_norm": 0.07846707850694656,
+      "learning_rate": 9.34959349593496e-06,
+      "loss": 1.235,
       "step": 35500
     },
     {
       "epoch": 12.366884232222604,
+      "grad_norm": 3.9505062103271484,
+      "learning_rate": 8.777052559257987e-06,
+      "loss": 1.2345,
       "step": 36000
     },
     {
       "epoch": 12.538646513225697,
+      "grad_norm": 0.13419800996780396,
+      "learning_rate": 8.204511622581015e-06,
+      "loss": 1.2362,
       "step": 36500
     },
     {
       "epoch": 12.710408794228787,
+      "grad_norm": 0.205936998128891,
+      "learning_rate": 7.631970685904042e-06,
+      "loss": 1.2341,
       "step": 37000
     },
     {
       "epoch": 12.882171075231879,
+      "grad_norm": 1.917006254196167,
+      "learning_rate": 7.05942974922707e-06,
+      "loss": 1.2349,
       "step": 37500
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.883872825560544,
+      "eval_f1": 0.6590367597004765,
+      "eval_loss": 1.619519829750061,
+      "eval_precision": 0.6432724252491694,
+      "eval_recall": 0.6755931612002791,
+      "eval_runtime": 4.3511,
+      "eval_samples_per_second": 668.801,
+      "eval_steps_per_second": 83.658,
       "step": 37843
     },
     {
       "epoch": 13.053933356234971,
+      "grad_norm": 0.5815674662590027,
+      "learning_rate": 6.486888812550097e-06,
+      "loss": 1.2342,
       "step": 38000
     },
     {
       "epoch": 13.225695637238063,
+      "grad_norm": 0.48151713609695435,
+      "learning_rate": 5.914347875873125e-06,
+      "loss": 1.2335,
       "step": 38500
     },
     {
       "epoch": 13.397457918241154,
+      "grad_norm": 4.141974925994873,
+      "learning_rate": 5.341806939196153e-06,
+      "loss": 1.2335,
       "step": 39000
     },
     {
       "epoch": 13.569220199244246,
+      "grad_norm": 0.24046790599822998,
+      "learning_rate": 4.76926600251918e-06,
+      "loss": 1.2331,
       "step": 39500
     },
     {
       "epoch": 13.740982480247338,
+      "grad_norm": 0.08363146334886551,
+      "learning_rate": 4.196725065842208e-06,
+      "loss": 1.233,
       "step": 40000
     },
     {
       "epoch": 13.91274476125043,
+      "grad_norm": 0.5658828616142273,
+      "learning_rate": 3.6241841291652353e-06,
+      "loss": 1.2328,
       "step": 40500
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8845272843885391,
+      "eval_f1": 0.6591725081210464,
+      "eval_loss": 1.6228290796279907,
+      "eval_precision": 0.6462453905464298,
+      "eval_recall": 0.6726273551988835,
+      "eval_runtime": 4.3411,
+      "eval_samples_per_second": 670.343,
+      "eval_steps_per_second": 83.85,
       "step": 40754
     },
     {
       "epoch": 14.084507042253522,
+      "grad_norm": 1.4916341304779053,
+      "learning_rate": 3.051643192488263e-06,
+      "loss": 1.2318,
       "step": 41000
     },
     {
       "epoch": 14.256269323256612,
+      "grad_norm": 0.1434667557477951,
+      "learning_rate": 2.4791022558112906e-06,
+      "loss": 1.2305,
       "step": 41500
     },
     {
       "epoch": 14.428031604259704,
+      "grad_norm": 0.10652283579111099,
+      "learning_rate": 1.906561319134318e-06,
+      "loss": 1.232,
       "step": 42000
     },
     {
       "epoch": 14.599793885262796,
+      "grad_norm": 0.8040905594825745,
+      "learning_rate": 1.3340203824573458e-06,
+      "loss": 1.2321,
       "step": 42500
     },
     {
       "epoch": 14.771556166265889,
+      "grad_norm": 0.040788378566503525,
+      "learning_rate": 7.614794457803733e-07,
+      "loss": 1.2319,
       "step": 43000
     },
     {
       "epoch": 14.943318447268979,
+      "grad_norm": 0.5179036259651184,
+      "learning_rate": 1.889385091034009e-07,
+      "loss": 1.231,
       "step": 43500
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.8847236220369377,
+      "eval_f1": 0.660140218878249,
+      "eval_loss": 1.6247130632400513,
+      "eval_precision": 0.6473004694835681,
+      "eval_recall": 0.6734996510816469,
+      "eval_runtime": 4.3445,
+      "eval_samples_per_second": 669.806,
+      "eval_steps_per_second": 83.783,
       "step": 43665
     },
     {
+      "epoch": 15.0,
+      "step": 43665,
+      "total_flos": 1.1901430945516224e+16,
+      "train_loss": 1.311661433704009,
+      "train_runtime": 2299.911,
+      "train_samples_per_second": 151.865,
+      "train_steps_per_second": 18.986
     }
   ],
   "logging_steps": 500,
+  "max_steps": 43665,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1901430945516224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null