End of training

Browse files

Files changed (6) hide show

README.md +9 -9
all_results.json +16 -0
eval_results.json +11 -0
runs/Jul26_00-15-08_fa9f47f2515c/events.out.tfevents.1721954620.fa9f47f2515c.437.2 +3 -0
train_results.json +8 -0
trainer_state.json +1443 -0

README.md CHANGED Viewed

@@ -25,16 +25,16 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.972
     - name: F1
       type: f1
-      value: 0.93007769145394
     - name: Precision
       type: precision
-      value: 0.9352678571428571
     - name: Recall
       type: recall
-      value: 0.9249448123620309
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -44,11 +44,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-384](https://huggingface.co/google/vit-base-patch16-384) on the webdataset dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0948
-- Accuracy: 0.972
-- F1: 0.9301
-- Precision: 0.9353
-- Recall: 0.9249
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.9746666666666667
     - name: F1
       type: f1
+      value: 0.9372937293729373
     - name: Precision
       type: precision
+      value: 0.9342105263157895
     - name: Recall
       type: recall
+      value: 0.9403973509933775
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [google/vit-base-patch16-384](https://huggingface.co/google/vit-base-patch16-384) on the webdataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0795
+- Accuracy: 0.9747
+- F1: 0.9373
+- Precision: 0.9342
+- Recall: 0.9404
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 30.0,
+    "eval_accuracy": 0.9746666666666667,
+    "eval_f1": 0.9372937293729373,
+    "eval_loss": 0.07946290820837021,
+    "eval_precision": 0.9342105263157895,
+    "eval_recall": 0.9403973509933775,
+    "eval_runtime": 3.4614,
+    "eval_samples_per_second": 65.003,
+    "eval_steps_per_second": 8.378,
+    "total_flos": 6.170107339800576e+18,
+    "train_loss": 0.032361031031748005,
+    "train_runtime": 1047.1267,
+    "train_samples_per_second": 25.785,
+    "train_steps_per_second": 1.633
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 30.0,
+    "eval_accuracy": 0.9746666666666667,
+    "eval_f1": 0.9372937293729373,
+    "eval_loss": 0.07946290820837021,
+    "eval_precision": 0.9342105263157895,
+    "eval_recall": 0.9403973509933775,
+    "eval_runtime": 3.4614,
+    "eval_samples_per_second": 65.003,
+    "eval_steps_per_second": 8.378
+}

runs/Jul26_00-15-08_fa9f47f2515c/events.out.tfevents.1721954620.fa9f47f2515c.437.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c97ed4313031c2cde976057b6e0f56ecce94366c3bacf7e8e7574d800f2fed3
+size 560

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 30.0,
+    "total_flos": 6.170107339800576e+18,
+    "train_loss": 0.032361031031748005,
+    "train_runtime": 1047.1267,
+    "train_samples_per_second": 25.785,
+    "train_steps_per_second": 1.633
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1443 @@

+{
+  "best_metric": 0.07946290820837021,
+  "best_model_checkpoint": "vit-base-patch16-384-finetuned_v2024-7-25-frost/checkpoint-500",
+  "epoch": 30.0,
+  "eval_steps": 100,
+  "global_step": 1710,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.17543859649122806,
+      "grad_norm": 0.33591213822364807,
+      "learning_rate": 1.1695906432748537e-05,
+      "loss": 0.0492,
+      "step": 10
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 0.31977248191833496,
+      "learning_rate": 2.3391812865497074e-05,
+      "loss": 0.0587,
+      "step": 20
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.3621572256088257,
+      "learning_rate": 3.508771929824561e-05,
+      "loss": 0.0383,
+      "step": 30
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 0.23749703168869019,
+      "learning_rate": 4.678362573099415e-05,
+      "loss": 0.034,
+      "step": 40
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 0.6749160289764404,
+      "learning_rate": 5.847953216374269e-05,
+      "loss": 0.0534,
+      "step": 50
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 0.5174930691719055,
+      "learning_rate": 7.017543859649122e-05,
+      "loss": 0.0703,
+      "step": 60
+    },
+    {
+      "epoch": 1.2280701754385965,
+      "grad_norm": 0.645950436592102,
+      "learning_rate": 8.187134502923976e-05,
+      "loss": 0.0445,
+      "step": 70
+    },
+    {
+      "epoch": 1.4035087719298245,
+      "grad_norm": 0.12476111948490143,
+      "learning_rate": 9.35672514619883e-05,
+      "loss": 0.0488,
+      "step": 80
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 0.13328130543231964,
+      "learning_rate": 0.00010526315789473685,
+      "loss": 0.028,
+      "step": 90
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 0.7791523933410645,
+      "learning_rate": 0.00011695906432748539,
+      "loss": 0.0624,
+      "step": 100
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "eval_accuracy": 0.9866666666666667,
+      "eval_f1": 0.9665178571428571,
+      "eval_loss": 0.045776307582855225,
+      "eval_precision": 0.9774266365688488,
+      "eval_recall": 0.9558498896247241,
+      "eval_runtime": 3.3187,
+      "eval_samples_per_second": 67.797,
+      "eval_steps_per_second": 8.738,
+      "step": 100
+    },
+    {
+      "epoch": 1.9298245614035088,
+      "grad_norm": 1.0299451351165771,
+      "learning_rate": 0.0001286549707602339,
+      "loss": 0.0689,
+      "step": 110
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 0.5722321271896362,
+      "learning_rate": 0.00014035087719298245,
+      "loss": 0.0509,
+      "step": 120
+    },
+    {
+      "epoch": 2.280701754385965,
+      "grad_norm": 0.4698758125305176,
+      "learning_rate": 0.00015204678362573098,
+      "loss": 0.0377,
+      "step": 130
+    },
+    {
+      "epoch": 2.456140350877193,
+      "grad_norm": 0.47861894965171814,
+      "learning_rate": 0.00016374269005847952,
+      "loss": 0.0608,
+      "step": 140
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 0.847069263458252,
+      "learning_rate": 0.00017543859649122806,
+      "loss": 0.0545,
+      "step": 150
+    },
+    {
+      "epoch": 2.807017543859649,
+      "grad_norm": 0.5486211180686951,
+      "learning_rate": 0.0001871345029239766,
+      "loss": 0.053,
+      "step": 160
+    },
+    {
+      "epoch": 2.982456140350877,
+      "grad_norm": 0.8176277875900269,
+      "learning_rate": 0.00019883040935672513,
+      "loss": 0.0632,
+      "step": 170
+    },
+    {
+      "epoch": 3.1578947368421053,
+      "grad_norm": 0.20802472531795502,
+      "learning_rate": 0.00019883040935672513,
+      "loss": 0.0808,
+      "step": 180
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.915105402469635,
+      "learning_rate": 0.00019753086419753085,
+      "loss": 0.0839,
+      "step": 190
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "grad_norm": 1.2987483739852905,
+      "learning_rate": 0.00019623131903833657,
+      "loss": 0.0729,
+      "step": 200
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "eval_accuracy": 0.9688888888888889,
+      "eval_f1": 0.9220489977728286,
+      "eval_loss": 0.09421814233064651,
+      "eval_precision": 0.9303370786516854,
+      "eval_recall": 0.9139072847682119,
+      "eval_runtime": 4.053,
+      "eval_samples_per_second": 55.514,
+      "eval_steps_per_second": 7.155,
+      "step": 200
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "grad_norm": 0.4004723131656647,
+      "learning_rate": 0.0001949317738791423,
+      "loss": 0.0778,
+      "step": 210
+    },
+    {
+      "epoch": 3.8596491228070176,
+      "grad_norm": 0.8877297043800354,
+      "learning_rate": 0.00019363222871994802,
+      "loss": 0.059,
+      "step": 220
+    },
+    {
+      "epoch": 4.035087719298246,
+      "grad_norm": 0.39221012592315674,
+      "learning_rate": 0.00019233268356075374,
+      "loss": 0.0813,
+      "step": 230
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "grad_norm": 0.5537380576133728,
+      "learning_rate": 0.00019103313840155946,
+      "loss": 0.075,
+      "step": 240
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 0.7138140201568604,
+      "learning_rate": 0.00018973359324236518,
+      "loss": 0.0534,
+      "step": 250
+    },
+    {
+      "epoch": 4.56140350877193,
+      "grad_norm": 0.724746584892273,
+      "learning_rate": 0.0001884340480831709,
+      "loss": 0.0854,
+      "step": 260
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "grad_norm": 0.7256239652633667,
+      "learning_rate": 0.0001871345029239766,
+      "loss": 0.0689,
+      "step": 270
+    },
+    {
+      "epoch": 4.912280701754386,
+      "grad_norm": 0.4805387854576111,
+      "learning_rate": 0.00018583495776478232,
+      "loss": 0.0508,
+      "step": 280
+    },
+    {
+      "epoch": 5.087719298245614,
+      "grad_norm": 1.4754490852355957,
+      "learning_rate": 0.00018453541260558804,
+      "loss": 0.0549,
+      "step": 290
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "grad_norm": 0.6193797588348389,
+      "learning_rate": 0.00018323586744639376,
+      "loss": 0.0566,
+      "step": 300
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "eval_accuracy": 0.972,
+      "eval_f1": 0.9311475409836065,
+      "eval_loss": 0.08017320185899734,
+      "eval_precision": 0.922077922077922,
+      "eval_recall": 0.9403973509933775,
+      "eval_runtime": 4.0432,
+      "eval_samples_per_second": 55.649,
+      "eval_steps_per_second": 7.173,
+      "step": 300
+    },
+    {
+      "epoch": 5.43859649122807,
+      "grad_norm": 0.4263758957386017,
+      "learning_rate": 0.00018193632228719948,
+      "loss": 0.0529,
+      "step": 310
+    },
+    {
+      "epoch": 5.614035087719298,
+      "grad_norm": 0.6219185590744019,
+      "learning_rate": 0.0001806367771280052,
+      "loss": 0.0534,
+      "step": 320
+    },
+    {
+      "epoch": 5.7894736842105265,
+      "grad_norm": 1.2227765321731567,
+      "learning_rate": 0.00017933723196881092,
+      "loss": 0.0784,
+      "step": 330
+    },
+    {
+      "epoch": 5.964912280701754,
+      "grad_norm": 0.7235316038131714,
+      "learning_rate": 0.00017803768680961664,
+      "loss": 0.0576,
+      "step": 340
+    },
+    {
+      "epoch": 6.140350877192983,
+      "grad_norm": 0.3069102466106415,
+      "learning_rate": 0.00017673814165042236,
+      "loss": 0.0666,
+      "step": 350
+    },
+    {
+      "epoch": 6.315789473684211,
+      "grad_norm": 0.48301374912261963,
+      "learning_rate": 0.00017543859649122806,
+      "loss": 0.0599,
+      "step": 360
+    },
+    {
+      "epoch": 6.491228070175438,
+      "grad_norm": 0.3786466419696808,
+      "learning_rate": 0.00017413905133203378,
+      "loss": 0.0687,
+      "step": 370
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.7827033400535583,
+      "learning_rate": 0.0001728395061728395,
+      "loss": 0.0654,
+      "step": 380
+    },
+    {
+      "epoch": 6.842105263157895,
+      "grad_norm": 0.3216448128223419,
+      "learning_rate": 0.00017153996101364522,
+      "loss": 0.0457,
+      "step": 390
+    },
+    {
+      "epoch": 7.017543859649122,
+      "grad_norm": 0.41389861702919006,
+      "learning_rate": 0.00017024041585445094,
+      "loss": 0.051,
+      "step": 400
+    },
+    {
+      "epoch": 7.017543859649122,
+      "eval_accuracy": 0.9631111111111111,
+      "eval_f1": 0.906636670416198,
+      "eval_loss": 0.09651228040456772,
+      "eval_precision": 0.9243119266055045,
+      "eval_recall": 0.8896247240618101,
+      "eval_runtime": 3.9145,
+      "eval_samples_per_second": 57.479,
+      "eval_steps_per_second": 7.408,
+      "step": 400
+    },
+    {
+      "epoch": 7.192982456140351,
+      "grad_norm": 0.3265860080718994,
+      "learning_rate": 0.00016894087069525666,
+      "loss": 0.046,
+      "step": 410
+    },
+    {
+      "epoch": 7.368421052631579,
+      "grad_norm": 0.34316837787628174,
+      "learning_rate": 0.00016764132553606238,
+      "loss": 0.0492,
+      "step": 420
+    },
+    {
+      "epoch": 7.543859649122807,
+      "grad_norm": 0.6148121953010559,
+      "learning_rate": 0.0001663417803768681,
+      "loss": 0.0414,
+      "step": 430
+    },
+    {
+      "epoch": 7.719298245614035,
+      "grad_norm": 0.17521312832832336,
+      "learning_rate": 0.00016504223521767383,
+      "loss": 0.0408,
+      "step": 440
+    },
+    {
+      "epoch": 7.894736842105263,
+      "grad_norm": 0.7820538878440857,
+      "learning_rate": 0.00016374269005847952,
+      "loss": 0.059,
+      "step": 450
+    },
+    {
+      "epoch": 8.070175438596491,
+      "grad_norm": 0.3714459538459778,
+      "learning_rate": 0.00016244314489928524,
+      "loss": 0.0316,
+      "step": 460
+    },
+    {
+      "epoch": 8.24561403508772,
+      "grad_norm": 0.1257082223892212,
+      "learning_rate": 0.00016114359974009096,
+      "loss": 0.0366,
+      "step": 470
+    },
+    {
+      "epoch": 8.421052631578947,
+      "grad_norm": 0.20228251814842224,
+      "learning_rate": 0.00015984405458089668,
+      "loss": 0.0379,
+      "step": 480
+    },
+    {
+      "epoch": 8.596491228070175,
+      "grad_norm": 0.9517484307289124,
+      "learning_rate": 0.0001585445094217024,
+      "loss": 0.0569,
+      "step": 490
+    },
+    {
+      "epoch": 8.771929824561404,
+      "grad_norm": 0.47640401124954224,
+      "learning_rate": 0.00015724496426250813,
+      "loss": 0.0686,
+      "step": 500
+    },
+    {
+      "epoch": 8.771929824561404,
+      "eval_accuracy": 0.9746666666666667,
+      "eval_f1": 0.9372937293729373,
+      "eval_loss": 0.07946290820837021,
+      "eval_precision": 0.9342105263157895,
+      "eval_recall": 0.9403973509933775,
+      "eval_runtime": 3.9023,
+      "eval_samples_per_second": 57.659,
+      "eval_steps_per_second": 7.432,
+      "step": 500
+    },
+    {
+      "epoch": 8.947368421052632,
+      "grad_norm": 0.4718121588230133,
+      "learning_rate": 0.00015594541910331385,
+      "loss": 0.0396,
+      "step": 510
+    },
+    {
+      "epoch": 9.12280701754386,
+      "grad_norm": 0.4709373116493225,
+      "learning_rate": 0.00015464587394411957,
+      "loss": 0.0464,
+      "step": 520
+    },
+    {
+      "epoch": 9.298245614035087,
+      "grad_norm": 0.5387071371078491,
+      "learning_rate": 0.00015334632878492526,
+      "loss": 0.045,
+      "step": 530
+    },
+    {
+      "epoch": 9.473684210526315,
+      "grad_norm": 0.541229784488678,
+      "learning_rate": 0.00015204678362573098,
+      "loss": 0.06,
+      "step": 540
+    },
+    {
+      "epoch": 9.649122807017545,
+      "grad_norm": 0.4231584370136261,
+      "learning_rate": 0.0001507472384665367,
+      "loss": 0.0579,
+      "step": 550
+    },
+    {
+      "epoch": 9.824561403508772,
+      "grad_norm": 0.37044307589530945,
+      "learning_rate": 0.00014944769330734243,
+      "loss": 0.041,
+      "step": 560
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.9554832577705383,
+      "learning_rate": 0.00014814814814814815,
+      "loss": 0.0405,
+      "step": 570
+    },
+    {
+      "epoch": 10.175438596491228,
+      "grad_norm": 0.3497917354106903,
+      "learning_rate": 0.00014684860298895387,
+      "loss": 0.0308,
+      "step": 580
+    },
+    {
+      "epoch": 10.350877192982455,
+      "grad_norm": 0.725246250629425,
+      "learning_rate": 0.0001455490578297596,
+      "loss": 0.0471,
+      "step": 590
+    },
+    {
+      "epoch": 10.526315789473685,
+      "grad_norm": 0.14522100985050201,
+      "learning_rate": 0.0001442495126705653,
+      "loss": 0.0271,
+      "step": 600
+    },
+    {
+      "epoch": 10.526315789473685,
+      "eval_accuracy": 0.9693333333333334,
+      "eval_f1": 0.9239250275633959,
+      "eval_loss": 0.09354085475206375,
+      "eval_precision": 0.9229074889867841,
+      "eval_recall": 0.9249448123620309,
+      "eval_runtime": 3.4058,
+      "eval_samples_per_second": 66.064,
+      "eval_steps_per_second": 8.515,
+      "step": 600
+    },
+    {
+      "epoch": 10.701754385964913,
+      "grad_norm": 0.11523815244436264,
+      "learning_rate": 0.00014294996751137103,
+      "loss": 0.0226,
+      "step": 610
+    },
+    {
+      "epoch": 10.87719298245614,
+      "grad_norm": 0.06203211098909378,
+      "learning_rate": 0.00014165042235217672,
+      "loss": 0.0452,
+      "step": 620
+    },
+    {
+      "epoch": 11.052631578947368,
+      "grad_norm": 0.2138066440820694,
+      "learning_rate": 0.00014035087719298245,
+      "loss": 0.0389,
+      "step": 630
+    },
+    {
+      "epoch": 11.228070175438596,
+      "grad_norm": 0.4954126179218292,
+      "learning_rate": 0.00013905133203378817,
+      "loss": 0.0315,
+      "step": 640
+    },
+    {
+      "epoch": 11.403508771929825,
+      "grad_norm": 0.24581827223300934,
+      "learning_rate": 0.0001377517868745939,
+      "loss": 0.0404,
+      "step": 650
+    },
+    {
+      "epoch": 11.578947368421053,
+      "grad_norm": 0.35176780819892883,
+      "learning_rate": 0.0001364522417153996,
+      "loss": 0.0206,
+      "step": 660
+    },
+    {
+      "epoch": 11.75438596491228,
+      "grad_norm": 0.20645667612552643,
+      "learning_rate": 0.00013515269655620533,
+      "loss": 0.0348,
+      "step": 670
+    },
+    {
+      "epoch": 11.929824561403509,
+      "grad_norm": 0.27070721983909607,
+      "learning_rate": 0.00013385315139701105,
+      "loss": 0.0256,
+      "step": 680
+    },
+    {
+      "epoch": 12.105263157894736,
+      "grad_norm": 0.353639155626297,
+      "learning_rate": 0.00013255360623781677,
+      "loss": 0.0377,
+      "step": 690
+    },
+    {
+      "epoch": 12.280701754385966,
+      "grad_norm": 0.3672114312648773,
+      "learning_rate": 0.0001312540610786225,
+      "loss": 0.0273,
+      "step": 700
+    },
+    {
+      "epoch": 12.280701754385966,
+      "eval_accuracy": 0.9715555555555555,
+      "eval_f1": 0.9299781181619255,
+      "eval_loss": 0.0975123792886734,
+      "eval_precision": 0.9219088937093276,
+      "eval_recall": 0.9381898454746137,
+      "eval_runtime": 3.2728,
+      "eval_samples_per_second": 68.749,
+      "eval_steps_per_second": 8.861,
+      "step": 700
+    },
+    {
+      "epoch": 12.456140350877194,
+      "grad_norm": 0.8677971363067627,
+      "learning_rate": 0.0001299545159194282,
+      "loss": 0.0307,
+      "step": 710
+    },
+    {
+      "epoch": 12.631578947368421,
+      "grad_norm": 0.5751360654830933,
+      "learning_rate": 0.0001286549707602339,
+      "loss": 0.0246,
+      "step": 720
+    },
+    {
+      "epoch": 12.807017543859649,
+      "grad_norm": 0.4053627848625183,
+      "learning_rate": 0.00012735542560103963,
+      "loss": 0.0448,
+      "step": 730
+    },
+    {
+      "epoch": 12.982456140350877,
+      "grad_norm": 0.21051475405693054,
+      "learning_rate": 0.00012605588044184535,
+      "loss": 0.0339,
+      "step": 740
+    },
+    {
+      "epoch": 13.157894736842104,
+      "grad_norm": 0.3146640360355377,
+      "learning_rate": 0.00012475633528265107,
+      "loss": 0.0321,
+      "step": 750
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 0.3593007028102875,
+      "learning_rate": 0.0001234567901234568,
+      "loss": 0.03,
+      "step": 760
+    },
+    {
+      "epoch": 13.508771929824562,
+      "grad_norm": 0.4649389982223511,
+      "learning_rate": 0.00012215724496426251,
+      "loss": 0.0499,
+      "step": 770
+    },
+    {
+      "epoch": 13.68421052631579,
+      "grad_norm": 0.3773185908794403,
+      "learning_rate": 0.00012085769980506822,
+      "loss": 0.0384,
+      "step": 780
+    },
+    {
+      "epoch": 13.859649122807017,
+      "grad_norm": 0.1289927214384079,
+      "learning_rate": 0.00011955815464587394,
+      "loss": 0.0258,
+      "step": 790
+    },
+    {
+      "epoch": 14.035087719298245,
+      "grad_norm": 0.8369467854499817,
+      "learning_rate": 0.00011825860948667966,
+      "loss": 0.0445,
+      "step": 800
+    },
+    {
+      "epoch": 14.035087719298245,
+      "eval_accuracy": 0.9697777777777777,
+      "eval_f1": 0.9247787610619469,
+      "eval_loss": 0.09097114205360413,
+      "eval_precision": 0.926829268292683,
+      "eval_recall": 0.9227373068432672,
+      "eval_runtime": 3.3935,
+      "eval_samples_per_second": 66.303,
+      "eval_steps_per_second": 8.546,
+      "step": 800
+    },
+    {
+      "epoch": 14.210526315789474,
+      "grad_norm": 0.19551879167556763,
+      "learning_rate": 0.00011695906432748539,
+      "loss": 0.0199,
+      "step": 810
+    },
+    {
+      "epoch": 14.385964912280702,
+      "grad_norm": 0.2516753673553467,
+      "learning_rate": 0.00011565951916829109,
+      "loss": 0.0267,
+      "step": 820
+    },
+    {
+      "epoch": 14.56140350877193,
+      "grad_norm": 0.21096718311309814,
+      "learning_rate": 0.00011435997400909681,
+      "loss": 0.0158,
+      "step": 830
+    },
+    {
+      "epoch": 14.736842105263158,
+      "grad_norm": 0.15884388983249664,
+      "learning_rate": 0.00011306042884990253,
+      "loss": 0.0286,
+      "step": 840
+    },
+    {
+      "epoch": 14.912280701754385,
+      "grad_norm": 0.063226118683815,
+      "learning_rate": 0.00011176088369070826,
+      "loss": 0.021,
+      "step": 850
+    },
+    {
+      "epoch": 15.087719298245615,
+      "grad_norm": 0.3069198429584503,
+      "learning_rate": 0.00011046133853151396,
+      "loss": 0.0266,
+      "step": 860
+    },
+    {
+      "epoch": 15.263157894736842,
+      "grad_norm": 0.17305561900138855,
+      "learning_rate": 0.00010916179337231968,
+      "loss": 0.039,
+      "step": 870
+    },
+    {
+      "epoch": 15.43859649122807,
+      "grad_norm": 0.3221393823623657,
+      "learning_rate": 0.0001078622482131254,
+      "loss": 0.0274,
+      "step": 880
+    },
+    {
+      "epoch": 15.614035087719298,
+      "grad_norm": 0.4601212739944458,
+      "learning_rate": 0.00010656270305393113,
+      "loss": 0.0272,
+      "step": 890
+    },
+    {
+      "epoch": 15.789473684210526,
+      "grad_norm": 0.4427635073661804,
+      "learning_rate": 0.00010526315789473685,
+      "loss": 0.0217,
+      "step": 900
+    },
+    {
+      "epoch": 15.789473684210526,
+      "eval_accuracy": 0.9697777777777777,
+      "eval_f1": 0.9242761692650334,
+      "eval_loss": 0.09419577568769455,
+      "eval_precision": 0.9325842696629213,
+      "eval_recall": 0.9161147902869757,
+      "eval_runtime": 3.4224,
+      "eval_samples_per_second": 65.743,
+      "eval_steps_per_second": 8.473,
+      "step": 900
+    },
+    {
+      "epoch": 15.964912280701755,
+      "grad_norm": 0.04713751748204231,
+      "learning_rate": 0.00010396361273554256,
+      "loss": 0.0109,
+      "step": 910
+    },
+    {
+      "epoch": 16.140350877192983,
+      "grad_norm": 0.4792565703392029,
+      "learning_rate": 0.00010266406757634828,
+      "loss": 0.0218,
+      "step": 920
+    },
+    {
+      "epoch": 16.31578947368421,
+      "grad_norm": 0.46472465991973877,
+      "learning_rate": 0.000101364522417154,
+      "loss": 0.034,
+      "step": 930
+    },
+    {
+      "epoch": 16.49122807017544,
+      "grad_norm": 0.45568612217903137,
+      "learning_rate": 0.00010006497725795972,
+      "loss": 0.0293,
+      "step": 940
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 0.23771442472934723,
+      "learning_rate": 9.876543209876543e-05,
+      "loss": 0.0287,
+      "step": 950
+    },
+    {
+      "epoch": 16.842105263157894,
+      "grad_norm": 0.42116573452949524,
+      "learning_rate": 9.746588693957115e-05,
+      "loss": 0.019,
+      "step": 960
+    },
+    {
+      "epoch": 17.017543859649123,
+      "grad_norm": 0.15334849059581757,
+      "learning_rate": 9.616634178037687e-05,
+      "loss": 0.0307,
+      "step": 970
+    },
+    {
+      "epoch": 17.19298245614035,
+      "grad_norm": 0.26137152314186096,
+      "learning_rate": 9.486679662118259e-05,
+      "loss": 0.0265,
+      "step": 980
+    },
+    {
+      "epoch": 17.36842105263158,
+      "grad_norm": 0.38436606526374817,
+      "learning_rate": 9.35672514619883e-05,
+      "loss": 0.0205,
+      "step": 990
+    },
+    {
+      "epoch": 17.54385964912281,
+      "grad_norm": 0.23191127181053162,
+      "learning_rate": 9.226770630279402e-05,
+      "loss": 0.0257,
+      "step": 1000
+    },
+    {
+      "epoch": 17.54385964912281,
+      "eval_accuracy": 0.9684444444444444,
+      "eval_f1": 0.921023359288098,
+      "eval_loss": 0.09062980860471725,
+      "eval_precision": 0.9282511210762332,
+      "eval_recall": 0.9139072847682119,
+      "eval_runtime": 4.7001,
+      "eval_samples_per_second": 47.872,
+      "eval_steps_per_second": 6.17,
+      "step": 1000
+    },
+    {
+      "epoch": 17.719298245614034,
+      "grad_norm": 0.46758100390434265,
+      "learning_rate": 9.096816114359974e-05,
+      "loss": 0.0332,
+      "step": 1010
+    },
+    {
+      "epoch": 17.894736842105264,
+      "grad_norm": 0.2081506997346878,
+      "learning_rate": 8.966861598440546e-05,
+      "loss": 0.0189,
+      "step": 1020
+    },
+    {
+      "epoch": 18.07017543859649,
+      "grad_norm": 0.15531718730926514,
+      "learning_rate": 8.836907082521118e-05,
+      "loss": 0.0326,
+      "step": 1030
+    },
+    {
+      "epoch": 18.24561403508772,
+      "grad_norm": 0.3089030683040619,
+      "learning_rate": 8.706952566601689e-05,
+      "loss": 0.0134,
+      "step": 1040
+    },
+    {
+      "epoch": 18.42105263157895,
+      "grad_norm": 0.23171091079711914,
+      "learning_rate": 8.576998050682261e-05,
+      "loss": 0.0368,
+      "step": 1050
+    },
+    {
+      "epoch": 18.596491228070175,
+      "grad_norm": 0.20561914145946503,
+      "learning_rate": 8.447043534762833e-05,
+      "loss": 0.027,
+      "step": 1060
+    },
+    {
+      "epoch": 18.771929824561404,
+      "grad_norm": 0.268462598323822,
+      "learning_rate": 8.317089018843405e-05,
+      "loss": 0.0261,
+      "step": 1070
+    },
+    {
+      "epoch": 18.94736842105263,
+      "grad_norm": 0.6412032246589661,
+      "learning_rate": 8.187134502923976e-05,
+      "loss": 0.0203,
+      "step": 1080
+    },
+    {
+      "epoch": 19.12280701754386,
+      "grad_norm": 0.28043922781944275,
+      "learning_rate": 8.057179987004548e-05,
+      "loss": 0.0276,
+      "step": 1090
+    },
+    {
+      "epoch": 19.29824561403509,
+      "grad_norm": 0.23408719897270203,
+      "learning_rate": 7.92722547108512e-05,
+      "loss": 0.0188,
+      "step": 1100
+    },
+    {
+      "epoch": 19.29824561403509,
+      "eval_accuracy": 0.9675555555555555,
+      "eval_f1": 0.9180695847362513,
+      "eval_loss": 0.10280066728591919,
+      "eval_precision": 0.9337899543378996,
+      "eval_recall": 0.9028697571743929,
+      "eval_runtime": 3.5953,
+      "eval_samples_per_second": 62.582,
+      "eval_steps_per_second": 8.066,
+      "step": 1100
+    },
+    {
+      "epoch": 19.473684210526315,
+      "grad_norm": 0.30617180466651917,
+      "learning_rate": 7.797270955165692e-05,
+      "loss": 0.0244,
+      "step": 1110
+    },
+    {
+      "epoch": 19.649122807017545,
+      "grad_norm": 0.15706390142440796,
+      "learning_rate": 7.667316439246263e-05,
+      "loss": 0.0112,
+      "step": 1120
+    },
+    {
+      "epoch": 19.82456140350877,
+      "grad_norm": 0.19885846972465515,
+      "learning_rate": 7.537361923326835e-05,
+      "loss": 0.0242,
+      "step": 1130
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.05422697588801384,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 0.0148,
+      "step": 1140
+    },
+    {
+      "epoch": 20.17543859649123,
+      "grad_norm": 0.024661371484398842,
+      "learning_rate": 7.27745289148798e-05,
+      "loss": 0.0113,
+      "step": 1150
+    },
+    {
+      "epoch": 20.350877192982455,
+      "grad_norm": 0.24859677255153656,
+      "learning_rate": 7.147498375568552e-05,
+      "loss": 0.0149,
+      "step": 1160
+    },
+    {
+      "epoch": 20.526315789473685,
+      "grad_norm": 0.041024014353752136,
+      "learning_rate": 7.017543859649122e-05,
+      "loss": 0.0212,
+      "step": 1170
+    },
+    {
+      "epoch": 20.70175438596491,
+      "grad_norm": 0.04569957032799721,
+      "learning_rate": 6.887589343729694e-05,
+      "loss": 0.0175,
+      "step": 1180
+    },
+    {
+      "epoch": 20.87719298245614,
+      "grad_norm": 0.074521504342556,
+      "learning_rate": 6.757634827810267e-05,
+      "loss": 0.0216,
+      "step": 1190
+    },
+    {
+      "epoch": 21.05263157894737,
+      "grad_norm": 0.24125021696090698,
+      "learning_rate": 6.627680311890839e-05,
+      "loss": 0.0196,
+      "step": 1200
+    },
+    {
+      "epoch": 21.05263157894737,
+      "eval_accuracy": 0.9697777777777777,
+      "eval_f1": 0.9244444444444444,
+      "eval_loss": 0.10203476250171661,
+      "eval_precision": 0.930648769574944,
+      "eval_recall": 0.9183222958057395,
+      "eval_runtime": 3.9346,
+      "eval_samples_per_second": 57.185,
+      "eval_steps_per_second": 7.37,
+      "step": 1200
+    },
+    {
+      "epoch": 21.228070175438596,
+      "grad_norm": 0.25364601612091064,
+      "learning_rate": 6.49772579597141e-05,
+      "loss": 0.0123,
+      "step": 1210
+    },
+    {
+      "epoch": 21.403508771929825,
+      "grad_norm": 0.652316153049469,
+      "learning_rate": 6.367771280051981e-05,
+      "loss": 0.0186,
+      "step": 1220
+    },
+    {
+      "epoch": 21.57894736842105,
+      "grad_norm": 0.27665695548057556,
+      "learning_rate": 6.237816764132554e-05,
+      "loss": 0.0161,
+      "step": 1230
+    },
+    {
+      "epoch": 21.75438596491228,
+      "grad_norm": 0.6138045787811279,
+      "learning_rate": 6.107862248213126e-05,
+      "loss": 0.0227,
+      "step": 1240
+    },
+    {
+      "epoch": 21.92982456140351,
+      "grad_norm": 0.07879935950040817,
+      "learning_rate": 5.977907732293697e-05,
+      "loss": 0.0195,
+      "step": 1250
+    },
+    {
+      "epoch": 22.105263157894736,
+      "grad_norm": 0.08955523371696472,
+      "learning_rate": 5.847953216374269e-05,
+      "loss": 0.0311,
+      "step": 1260
+    },
+    {
+      "epoch": 22.280701754385966,
+      "grad_norm": 0.2407924085855484,
+      "learning_rate": 5.717998700454841e-05,
+      "loss": 0.0129,
+      "step": 1270
+    },
+    {
+      "epoch": 22.45614035087719,
+      "grad_norm": 0.06635931879281998,
+      "learning_rate": 5.588044184535413e-05,
+      "loss": 0.0151,
+      "step": 1280
+    },
+    {
+      "epoch": 22.63157894736842,
+      "grad_norm": 0.33943337202072144,
+      "learning_rate": 5.458089668615984e-05,
+      "loss": 0.0111,
+      "step": 1290
+    },
+    {
+      "epoch": 22.80701754385965,
+      "grad_norm": 0.1347126066684723,
+      "learning_rate": 5.328135152696556e-05,
+      "loss": 0.025,
+      "step": 1300
+    },
+    {
+      "epoch": 22.80701754385965,
+      "eval_accuracy": 0.9702222222222222,
+      "eval_f1": 0.9258028792912514,
+      "eval_loss": 0.10051768273115158,
+      "eval_precision": 0.9288888888888889,
+      "eval_recall": 0.9227373068432672,
+      "eval_runtime": 3.7925,
+      "eval_samples_per_second": 59.328,
+      "eval_steps_per_second": 7.647,
+      "step": 1300
+    },
+    {
+      "epoch": 22.982456140350877,
+      "grad_norm": 0.636250913143158,
+      "learning_rate": 5.198180636777128e-05,
+      "loss": 0.0192,
+      "step": 1310
+    },
+    {
+      "epoch": 23.157894736842106,
+      "grad_norm": 0.04535467177629471,
+      "learning_rate": 5.0682261208577e-05,
+      "loss": 0.0056,
+      "step": 1320
+    },
+    {
+      "epoch": 23.333333333333332,
+      "grad_norm": 0.5852391123771667,
+      "learning_rate": 4.938271604938271e-05,
+      "loss": 0.0134,
+      "step": 1330
+    },
+    {
+      "epoch": 23.50877192982456,
+      "grad_norm": 0.187445729970932,
+      "learning_rate": 4.8083170890188434e-05,
+      "loss": 0.011,
+      "step": 1340
+    },
+    {
+      "epoch": 23.68421052631579,
+      "grad_norm": 0.06503254175186157,
+      "learning_rate": 4.678362573099415e-05,
+      "loss": 0.0071,
+      "step": 1350
+    },
+    {
+      "epoch": 23.859649122807017,
+      "grad_norm": 0.1949852555990219,
+      "learning_rate": 4.548408057179987e-05,
+      "loss": 0.0159,
+      "step": 1360
+    },
+    {
+      "epoch": 24.035087719298247,
+      "grad_norm": 0.39588192105293274,
+      "learning_rate": 4.418453541260559e-05,
+      "loss": 0.021,
+      "step": 1370
+    },
+    {
+      "epoch": 24.210526315789473,
+      "grad_norm": 0.39399102330207825,
+      "learning_rate": 4.2884990253411305e-05,
+      "loss": 0.0062,
+      "step": 1380
+    },
+    {
+      "epoch": 24.385964912280702,
+      "grad_norm": 0.07124770432710648,
+      "learning_rate": 4.1585445094217026e-05,
+      "loss": 0.0103,
+      "step": 1390
+    },
+    {
+      "epoch": 24.56140350877193,
+      "grad_norm": 0.03512560948729515,
+      "learning_rate": 4.028589993502274e-05,
+      "loss": 0.009,
+      "step": 1400
+    },
+    {
+      "epoch": 24.56140350877193,
+      "eval_accuracy": 0.9728888888888889,
+      "eval_f1": 0.9324473975636766,
+      "eval_loss": 0.0976104736328125,
+      "eval_precision": 0.9355555555555556,
+      "eval_recall": 0.9293598233995585,
+      "eval_runtime": 4.2464,
+      "eval_samples_per_second": 52.986,
+      "eval_steps_per_second": 6.829,
+      "step": 1400
+    },
+    {
+      "epoch": 24.736842105263158,
+      "grad_norm": 0.1529558002948761,
+      "learning_rate": 3.898635477582846e-05,
+      "loss": 0.0163,
+      "step": 1410
+    },
+    {
+      "epoch": 24.912280701754387,
+      "grad_norm": 0.01818114146590233,
+      "learning_rate": 3.7686809616634176e-05,
+      "loss": 0.007,
+      "step": 1420
+    },
+    {
+      "epoch": 25.087719298245613,
+      "grad_norm": 0.028448551893234253,
+      "learning_rate": 3.63872644574399e-05,
+      "loss": 0.0102,
+      "step": 1430
+    },
+    {
+      "epoch": 25.263157894736842,
+      "grad_norm": 0.46592578291893005,
+      "learning_rate": 3.508771929824561e-05,
+      "loss": 0.0117,
+      "step": 1440
+    },
+    {
+      "epoch": 25.43859649122807,
+      "grad_norm": 0.28624555468559265,
+      "learning_rate": 3.378817413905133e-05,
+      "loss": 0.0098,
+      "step": 1450
+    },
+    {
+      "epoch": 25.614035087719298,
+      "grad_norm": 0.29074254631996155,
+      "learning_rate": 3.248862897985705e-05,
+      "loss": 0.014,
+      "step": 1460
+    },
+    {
+      "epoch": 25.789473684210527,
+      "grad_norm": 0.10731395334005356,
+      "learning_rate": 3.118908382066277e-05,
+      "loss": 0.0135,
+      "step": 1470
+    },
+    {
+      "epoch": 25.964912280701753,
+      "grad_norm": 0.348628431558609,
+      "learning_rate": 2.9889538661468486e-05,
+      "loss": 0.0146,
+      "step": 1480
+    },
+    {
+      "epoch": 26.140350877192983,
+      "grad_norm": 0.1509704291820526,
+      "learning_rate": 2.8589993502274203e-05,
+      "loss": 0.0122,
+      "step": 1490
+    },
+    {
+      "epoch": 26.31578947368421,
+      "grad_norm": 0.18676963448524475,
+      "learning_rate": 2.729044834307992e-05,
+      "loss": 0.0184,
+      "step": 1500
+    },
+    {
+      "epoch": 26.31578947368421,
+      "eval_accuracy": 0.9715555555555555,
+      "eval_f1": 0.9290465631929047,
+      "eval_loss": 0.09868455678224564,
+      "eval_precision": 0.933184855233853,
+      "eval_recall": 0.9249448123620309,
+      "eval_runtime": 4.3646,
+      "eval_samples_per_second": 51.551,
+      "eval_steps_per_second": 6.644,
+      "step": 1500
+    },
+    {
+      "epoch": 26.49122807017544,
+      "grad_norm": 0.08011528104543686,
+      "learning_rate": 2.599090318388564e-05,
+      "loss": 0.0114,
+      "step": 1510
+    },
+    {
+      "epoch": 26.666666666666668,
+      "grad_norm": 0.02512381784617901,
+      "learning_rate": 2.4691358024691357e-05,
+      "loss": 0.0061,
+      "step": 1520
+    },
+    {
+      "epoch": 26.842105263157894,
+      "grad_norm": 0.014133486896753311,
+      "learning_rate": 2.3391812865497074e-05,
+      "loss": 0.0085,
+      "step": 1530
+    },
+    {
+      "epoch": 27.017543859649123,
+      "grad_norm": 0.1167803630232811,
+      "learning_rate": 2.2092267706302795e-05,
+      "loss": 0.0136,
+      "step": 1540
+    },
+    {
+      "epoch": 27.19298245614035,
+      "grad_norm": 0.1177089735865593,
+      "learning_rate": 2.0792722547108513e-05,
+      "loss": 0.0108,
+      "step": 1550
+    },
+    {
+      "epoch": 27.36842105263158,
+      "grad_norm": 0.049749329686164856,
+      "learning_rate": 1.949317738791423e-05,
+      "loss": 0.0082,
+      "step": 1560
+    },
+    {
+      "epoch": 27.54385964912281,
+      "grad_norm": 0.027572443708777428,
+      "learning_rate": 1.819363222871995e-05,
+      "loss": 0.0109,
+      "step": 1570
+    },
+    {
+      "epoch": 27.719298245614034,
+      "grad_norm": 0.05256260186433792,
+      "learning_rate": 1.6894087069525666e-05,
+      "loss": 0.0085,
+      "step": 1580
+    },
+    {
+      "epoch": 27.894736842105264,
+      "grad_norm": 0.2057517021894455,
+      "learning_rate": 1.5594541910331384e-05,
+      "loss": 0.0129,
+      "step": 1590
+    },
+    {
+      "epoch": 28.07017543859649,
+      "grad_norm": 0.014588022604584694,
+      "learning_rate": 1.4294996751137102e-05,
+      "loss": 0.0048,
+      "step": 1600
+    },
+    {
+      "epoch": 28.07017543859649,
+      "eval_accuracy": 0.972,
+      "eval_f1": 0.93007769145394,
+      "eval_loss": 0.09578772634267807,
+      "eval_precision": 0.9352678571428571,
+      "eval_recall": 0.9249448123620309,
+      "eval_runtime": 3.2602,
+      "eval_samples_per_second": 69.014,
+      "eval_steps_per_second": 8.895,
+      "step": 1600
+    },
+    {
+      "epoch": 28.24561403508772,
+      "grad_norm": 0.01958753541111946,
+      "learning_rate": 1.299545159194282e-05,
+      "loss": 0.0187,
+      "step": 1610
+    },
+    {
+      "epoch": 28.42105263157895,
+      "grad_norm": 0.24536529183387756,
+      "learning_rate": 1.1695906432748537e-05,
+      "loss": 0.0063,
+      "step": 1620
+    },
+    {
+      "epoch": 28.596491228070175,
+      "grad_norm": 0.1079196035861969,
+      "learning_rate": 1.0396361273554257e-05,
+      "loss": 0.0095,
+      "step": 1630
+    },
+    {
+      "epoch": 28.771929824561404,
+      "grad_norm": 0.3536442518234253,
+      "learning_rate": 9.096816114359974e-06,
+      "loss": 0.0065,
+      "step": 1640
+    },
+    {
+      "epoch": 28.94736842105263,
+      "grad_norm": 0.034931574016809464,
+      "learning_rate": 7.797270955165692e-06,
+      "loss": 0.0116,
+      "step": 1650
+    },
+    {
+      "epoch": 29.12280701754386,
+      "grad_norm": 0.21458140015602112,
+      "learning_rate": 6.49772579597141e-06,
+      "loss": 0.0092,
+      "step": 1660
+    },
+    {
+      "epoch": 29.29824561403509,
+      "grad_norm": 0.2249114066362381,
+      "learning_rate": 5.198180636777128e-06,
+      "loss": 0.0119,
+      "step": 1670
+    },
+    {
+      "epoch": 29.473684210526315,
+      "grad_norm": 0.14802134037017822,
+      "learning_rate": 3.898635477582846e-06,
+      "loss": 0.0078,
+      "step": 1680
+    },
+    {
+      "epoch": 29.649122807017545,
+      "grad_norm": 0.35757485032081604,
+      "learning_rate": 2.599090318388564e-06,
+      "loss": 0.0173,
+      "step": 1690
+    },
+    {
+      "epoch": 29.82456140350877,
+      "grad_norm": 0.05533298850059509,
+      "learning_rate": 1.299545159194282e-06,
+      "loss": 0.0072,
+      "step": 1700
+    },
+    {
+      "epoch": 29.82456140350877,
+      "eval_accuracy": 0.972,
+      "eval_f1": 0.93007769145394,
+      "eval_loss": 0.09479136019945145,
+      "eval_precision": 0.9352678571428571,
+      "eval_recall": 0.9249448123620309,
+      "eval_runtime": 3.2997,
+      "eval_samples_per_second": 68.189,
+      "eval_steps_per_second": 8.789,
+      "step": 1700
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.050033435225486755,
+      "learning_rate": 0.0,
+      "loss": 0.0053,
+      "step": 1710
+    },
+    {
+      "epoch": 30.0,
+      "step": 1710,
+      "total_flos": 6.170107339800576e+18,
+      "train_loss": 0.032361031031748005,
+      "train_runtime": 1047.1267,
+      "train_samples_per_second": 25.785,
+      "train_steps_per_second": 1.633
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1710,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.170107339800576e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}