🍻 cheers

Browse files

Files changed (5) hide show

README.md +4 -3
all_results.json +13 -0
eval_results.json +8 -0
train_results.json +8 -0
trainer_state.json +1111 -0

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -16,10 +17,10 @@ should probably proofread and complete it, then remove this comment. -->
 # finetuned-for-YogaPosesv6
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0565
-- Accuracy: 0.9907
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # finetuned-for-YogaPosesv6
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the yoga_pose_images dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0562
+- Accuracy: 0.9938
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 12.0,
+    "eval_accuracy": 0.9937694704049844,
+    "eval_loss": 0.056239403784275055,
+    "eval_runtime": 41.4407,
+    "eval_samples_per_second": 7.746,
+    "eval_steps_per_second": 0.989,
+    "total_flos": 1.685961057043243e+18,
+    "train_loss": 0.2119520413090219,
+    "train_runtime": 3626.0393,
+    "train_samples_per_second": 6.0,
+    "train_steps_per_second": 0.377
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 12.0,
+    "eval_accuracy": 0.9937694704049844,
+    "eval_loss": 0.056239403784275055,
+    "eval_runtime": 41.4407,
+    "eval_samples_per_second": 7.746,
+    "eval_steps_per_second": 0.989
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 12.0,
+    "total_flos": 1.685961057043243e+18,
+    "train_loss": 0.2119520413090219,
+    "train_runtime": 3626.0393,
+    "train_samples_per_second": 6.0,
+    "train_steps_per_second": 0.377
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1111 @@

+{
+  "best_metric": 0.9937694704049844,
+  "best_model_checkpoint": "finetuned-for-YogaPosesv6/checkpoint-500",
+  "epoch": 12.0,
+  "eval_steps": 100,
+  "global_step": 1368,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08771929824561403,
+      "grad_norm": 2.090021848678589,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.6154,
+      "step": 10
+    },
+    {
+      "epoch": 0.17543859649122806,
+      "grad_norm": 2.025031566619873,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.6031,
+      "step": 20
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 2.1090877056121826,
+      "learning_rate": 1.2e-05,
+      "loss": 1.586,
+      "step": 30
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 1.609834909439087,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.5428,
+      "step": 40
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 1.9895145893096924,
+      "learning_rate": 2e-05,
+      "loss": 1.5282,
+      "step": 50
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 1.7699527740478516,
+      "learning_rate": 2.4e-05,
+      "loss": 1.4324,
+      "step": 60
+    },
+    {
+      "epoch": 0.6140350877192983,
+      "grad_norm": 2.6045162677764893,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 1.396,
+      "step": 70
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 1.8732093572616577,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.2536,
+      "step": 80
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 2.3578813076019287,
+      "learning_rate": 3.6e-05,
+      "loss": 1.1474,
+      "step": 90
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 2.081122398376465,
+      "learning_rate": 4e-05,
+      "loss": 0.9954,
+      "step": 100
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "eval_accuracy": 0.8504672897196262,
+      "eval_loss": 0.8301465511322021,
+      "eval_runtime": 38.1968,
+      "eval_samples_per_second": 8.404,
+      "eval_steps_per_second": 1.073,
+      "step": 100
+    },
+    {
+      "epoch": 0.9649122807017544,
+      "grad_norm": 1.9166618585586548,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.8917,
+      "step": 110
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 1.809336543083191,
+      "learning_rate": 4.8e-05,
+      "loss": 0.7516,
+      "step": 120
+    },
+    {
+      "epoch": 1.1403508771929824,
+      "grad_norm": 1.7712376117706299,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.642,
+      "step": 130
+    },
+    {
+      "epoch": 1.2280701754385965,
+      "grad_norm": 4.339776515960693,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.5462,
+      "step": 140
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 2.4626612663269043,
+      "learning_rate": 6e-05,
+      "loss": 0.5157,
+      "step": 150
+    },
+    {
+      "epoch": 1.4035087719298245,
+      "grad_norm": 2.7743422985076904,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.3905,
+      "step": 160
+    },
+    {
+      "epoch": 1.4912280701754386,
+      "grad_norm": 2.0569958686828613,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.3771,
+      "step": 170
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 2.521798849105835,
+      "learning_rate": 7.2e-05,
+      "loss": 0.3431,
+      "step": 180
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 3.117582082748413,
+      "learning_rate": 7.6e-05,
+      "loss": 0.3504,
+      "step": 190
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 4.949905872344971,
+      "learning_rate": 8e-05,
+      "loss": 0.3505,
+      "step": 200
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_loss": 0.18809494376182556,
+      "eval_runtime": 38.0933,
+      "eval_samples_per_second": 8.427,
+      "eval_steps_per_second": 1.076,
+      "step": 200
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 1.649777889251709,
+      "learning_rate": 8.4e-05,
+      "loss": 0.3895,
+      "step": 210
+    },
+    {
+      "epoch": 1.9298245614035088,
+      "grad_norm": 0.8415156006813049,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 0.3629,
+      "step": 220
+    },
+    {
+      "epoch": 2.017543859649123,
+      "grad_norm": 1.7786431312561035,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 0.3253,
+      "step": 230
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 0.7860630750656128,
+      "learning_rate": 9.6e-05,
+      "loss": 0.1751,
+      "step": 240
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 2.1054885387420654,
+      "learning_rate": 0.0001,
+      "loss": 0.1661,
+      "step": 250
+    },
+    {
+      "epoch": 2.280701754385965,
+      "grad_norm": 2.020228147506714,
+      "learning_rate": 0.00010400000000000001,
+      "loss": 0.1355,
+      "step": 260
+    },
+    {
+      "epoch": 2.3684210526315788,
+      "grad_norm": 3.9270179271698,
+      "learning_rate": 0.00010800000000000001,
+      "loss": 0.1704,
+      "step": 270
+    },
+    {
+      "epoch": 2.456140350877193,
+      "grad_norm": 1.8998662233352661,
+      "learning_rate": 0.00011200000000000001,
+      "loss": 0.1457,
+      "step": 280
+    },
+    {
+      "epoch": 2.543859649122807,
+      "grad_norm": 2.661921739578247,
+      "learning_rate": 0.000116,
+      "loss": 0.2794,
+      "step": 290
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 1.873253583908081,
+      "learning_rate": 0.00012,
+      "loss": 0.1524,
+      "step": 300
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "eval_accuracy": 0.9844236760124611,
+      "eval_loss": 0.09005746990442276,
+      "eval_runtime": 39.2232,
+      "eval_samples_per_second": 8.184,
+      "eval_steps_per_second": 1.045,
+      "step": 300
+    },
+    {
+      "epoch": 2.719298245614035,
+      "grad_norm": 10.5459623336792,
+      "learning_rate": 0.000124,
+      "loss": 0.1412,
+      "step": 310
+    },
+    {
+      "epoch": 2.807017543859649,
+      "grad_norm": 0.6081735491752625,
+      "learning_rate": 0.00012800000000000002,
+      "loss": 0.1265,
+      "step": 320
+    },
+    {
+      "epoch": 2.8947368421052633,
+      "grad_norm": 1.7558995485305786,
+      "learning_rate": 0.000132,
+      "loss": 0.1596,
+      "step": 330
+    },
+    {
+      "epoch": 2.982456140350877,
+      "grad_norm": 5.482118606567383,
+      "learning_rate": 0.00013600000000000003,
+      "loss": 0.2267,
+      "step": 340
+    },
+    {
+      "epoch": 3.0701754385964914,
+      "grad_norm": 1.7561366558074951,
+      "learning_rate": 0.00014,
+      "loss": 0.1492,
+      "step": 350
+    },
+    {
+      "epoch": 3.1578947368421053,
+      "grad_norm": 0.3525730073451996,
+      "learning_rate": 0.000144,
+      "loss": 0.1223,
+      "step": 360
+    },
+    {
+      "epoch": 3.245614035087719,
+      "grad_norm": 7.222944736480713,
+      "learning_rate": 0.000148,
+      "loss": 0.0743,
+      "step": 370
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 1.606289029121399,
+      "learning_rate": 0.000152,
+      "loss": 0.1583,
+      "step": 380
+    },
+    {
+      "epoch": 3.4210526315789473,
+      "grad_norm": 11.55585765838623,
+      "learning_rate": 0.00015600000000000002,
+      "loss": 0.097,
+      "step": 390
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "grad_norm": 3.5140738487243652,
+      "learning_rate": 0.00016,
+      "loss": 0.152,
+      "step": 400
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "eval_accuracy": 0.9688473520249221,
+      "eval_loss": 0.12413410097360611,
+      "eval_runtime": 38.7507,
+      "eval_samples_per_second": 8.284,
+      "eval_steps_per_second": 1.058,
+      "step": 400
+    },
+    {
+      "epoch": 3.5964912280701755,
+      "grad_norm": 0.612152099609375,
+      "learning_rate": 0.000164,
+      "loss": 0.1208,
+      "step": 410
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "grad_norm": 0.37832212448120117,
+      "learning_rate": 0.000168,
+      "loss": 0.1313,
+      "step": 420
+    },
+    {
+      "epoch": 3.7719298245614032,
+      "grad_norm": 0.11094561964273453,
+      "learning_rate": 0.000172,
+      "loss": 0.0856,
+      "step": 430
+    },
+    {
+      "epoch": 3.8596491228070176,
+      "grad_norm": 9.22513198852539,
+      "learning_rate": 0.00017600000000000002,
+      "loss": 0.1476,
+      "step": 440
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 0.1537676453590393,
+      "learning_rate": 0.00018,
+      "loss": 0.1476,
+      "step": 450
+    },
+    {
+      "epoch": 4.035087719298246,
+      "grad_norm": 4.031546115875244,
+      "learning_rate": 0.00018400000000000003,
+      "loss": 0.1862,
+      "step": 460
+    },
+    {
+      "epoch": 4.12280701754386,
+      "grad_norm": 14.8175048828125,
+      "learning_rate": 0.000188,
+      "loss": 0.1613,
+      "step": 470
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "grad_norm": 0.43281251192092896,
+      "learning_rate": 0.000192,
+      "loss": 0.0559,
+      "step": 480
+    },
+    {
+      "epoch": 4.298245614035087,
+      "grad_norm": 0.35636988282203674,
+      "learning_rate": 0.000196,
+      "loss": 0.1195,
+      "step": 490
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 3.4196271896362305,
+      "learning_rate": 0.0002,
+      "loss": 0.1314,
+      "step": 500
+    },
+    {
+      "epoch": 4.385964912280702,
+      "eval_accuracy": 0.9937694704049844,
+      "eval_loss": 0.056239403784275055,
+      "eval_runtime": 39.3712,
+      "eval_samples_per_second": 8.153,
+      "eval_steps_per_second": 1.041,
+      "step": 500
+    },
+    {
+      "epoch": 4.473684210526316,
+      "grad_norm": 0.06787338107824326,
+      "learning_rate": 0.00019769585253456222,
+      "loss": 0.1154,
+      "step": 510
+    },
+    {
+      "epoch": 4.56140350877193,
+      "grad_norm": 0.06572376191616058,
+      "learning_rate": 0.00019539170506912442,
+      "loss": 0.2378,
+      "step": 520
+    },
+    {
+      "epoch": 4.649122807017544,
+      "grad_norm": 3.424962043762207,
+      "learning_rate": 0.00019308755760368663,
+      "loss": 0.1343,
+      "step": 530
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "grad_norm": 11.719569206237793,
+      "learning_rate": 0.00019078341013824886,
+      "loss": 0.2701,
+      "step": 540
+    },
+    {
+      "epoch": 4.824561403508772,
+      "grad_norm": 1.354104995727539,
+      "learning_rate": 0.00018847926267281107,
+      "loss": 0.1904,
+      "step": 550
+    },
+    {
+      "epoch": 4.912280701754386,
+      "grad_norm": 2.770707368850708,
+      "learning_rate": 0.00018617511520737328,
+      "loss": 0.0849,
+      "step": 560
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.06964010000228882,
+      "learning_rate": 0.00018387096774193548,
+      "loss": 0.1304,
+      "step": 570
+    },
+    {
+      "epoch": 5.087719298245614,
+      "grad_norm": 9.902205467224121,
+      "learning_rate": 0.0001815668202764977,
+      "loss": 0.1392,
+      "step": 580
+    },
+    {
+      "epoch": 5.175438596491228,
+      "grad_norm": 1.8981528282165527,
+      "learning_rate": 0.0001792626728110599,
+      "loss": 0.1597,
+      "step": 590
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "grad_norm": 4.697043418884277,
+      "learning_rate": 0.00017695852534562213,
+      "loss": 0.1187,
+      "step": 600
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "eval_accuracy": 0.9719626168224299,
+      "eval_loss": 0.12315332889556885,
+      "eval_runtime": 38.2715,
+      "eval_samples_per_second": 8.387,
+      "eval_steps_per_second": 1.071,
+      "step": 600
+    },
+    {
+      "epoch": 5.350877192982456,
+      "grad_norm": 6.32802152633667,
+      "learning_rate": 0.00017465437788018436,
+      "loss": 0.139,
+      "step": 610
+    },
+    {
+      "epoch": 5.43859649122807,
+      "grad_norm": 3.682849168777466,
+      "learning_rate": 0.00017235023041474657,
+      "loss": 0.1221,
+      "step": 620
+    },
+    {
+      "epoch": 5.526315789473684,
+      "grad_norm": 11.54771900177002,
+      "learning_rate": 0.00017004608294930878,
+      "loss": 0.1072,
+      "step": 630
+    },
+    {
+      "epoch": 5.614035087719298,
+      "grad_norm": 1.0544228553771973,
+      "learning_rate": 0.00016774193548387098,
+      "loss": 0.1002,
+      "step": 640
+    },
+    {
+      "epoch": 5.701754385964913,
+      "grad_norm": 2.5705864429473877,
+      "learning_rate": 0.0001654377880184332,
+      "loss": 0.1671,
+      "step": 650
+    },
+    {
+      "epoch": 5.7894736842105265,
+      "grad_norm": 0.06625229120254517,
+      "learning_rate": 0.0001631336405529954,
+      "loss": 0.0669,
+      "step": 660
+    },
+    {
+      "epoch": 5.87719298245614,
+      "grad_norm": 3.46781063079834,
+      "learning_rate": 0.0001608294930875576,
+      "loss": 0.0824,
+      "step": 670
+    },
+    {
+      "epoch": 5.964912280701754,
+      "grad_norm": 12.013016700744629,
+      "learning_rate": 0.00015852534562211984,
+      "loss": 0.2384,
+      "step": 680
+    },
+    {
+      "epoch": 6.052631578947368,
+      "grad_norm": 0.614715039730072,
+      "learning_rate": 0.00015622119815668204,
+      "loss": 0.1842,
+      "step": 690
+    },
+    {
+      "epoch": 6.140350877192983,
+      "grad_norm": 0.10228435695171356,
+      "learning_rate": 0.00015391705069124425,
+      "loss": 0.0936,
+      "step": 700
+    },
+    {
+      "epoch": 6.140350877192983,
+      "eval_accuracy": 0.9688473520249221,
+      "eval_loss": 0.08928032964468002,
+      "eval_runtime": 39.4265,
+      "eval_samples_per_second": 8.142,
+      "eval_steps_per_second": 1.04,
+      "step": 700
+    },
+    {
+      "epoch": 6.228070175438597,
+      "grad_norm": 0.7606862783432007,
+      "learning_rate": 0.00015161290322580646,
+      "loss": 0.0945,
+      "step": 710
+    },
+    {
+      "epoch": 6.315789473684211,
+      "grad_norm": 9.120923042297363,
+      "learning_rate": 0.00014930875576036866,
+      "loss": 0.0374,
+      "step": 720
+    },
+    {
+      "epoch": 6.4035087719298245,
+      "grad_norm": 0.06050215661525726,
+      "learning_rate": 0.00014700460829493087,
+      "loss": 0.0661,
+      "step": 730
+    },
+    {
+      "epoch": 6.491228070175438,
+      "grad_norm": 0.038630977272987366,
+      "learning_rate": 0.0001447004608294931,
+      "loss": 0.0551,
+      "step": 740
+    },
+    {
+      "epoch": 6.578947368421053,
+      "grad_norm": 0.04750620573759079,
+      "learning_rate": 0.0001423963133640553,
+      "loss": 0.1109,
+      "step": 750
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.04734950140118599,
+      "learning_rate": 0.00014009216589861752,
+      "loss": 0.0636,
+      "step": 760
+    },
+    {
+      "epoch": 6.754385964912281,
+      "grad_norm": 0.06434810161590576,
+      "learning_rate": 0.00013778801843317972,
+      "loss": 0.041,
+      "step": 770
+    },
+    {
+      "epoch": 6.842105263157895,
+      "grad_norm": 0.03571373596787453,
+      "learning_rate": 0.00013548387096774193,
+      "loss": 0.0907,
+      "step": 780
+    },
+    {
+      "epoch": 6.9298245614035086,
+      "grad_norm": 0.17006845772266388,
+      "learning_rate": 0.00013317972350230414,
+      "loss": 0.0656,
+      "step": 790
+    },
+    {
+      "epoch": 7.017543859649122,
+      "grad_norm": 0.12371964007616043,
+      "learning_rate": 0.00013087557603686637,
+      "loss": 0.0753,
+      "step": 800
+    },
+    {
+      "epoch": 7.017543859649122,
+      "eval_accuracy": 0.9626168224299065,
+      "eval_loss": 0.15095877647399902,
+      "eval_runtime": 38.9699,
+      "eval_samples_per_second": 8.237,
+      "eval_steps_per_second": 1.052,
+      "step": 800
+    },
+    {
+      "epoch": 7.105263157894737,
+      "grad_norm": 0.0659150779247284,
+      "learning_rate": 0.00012857142857142858,
+      "loss": 0.1629,
+      "step": 810
+    },
+    {
+      "epoch": 7.192982456140351,
+      "grad_norm": 0.04445948824286461,
+      "learning_rate": 0.0001262672811059908,
+      "loss": 0.0752,
+      "step": 820
+    },
+    {
+      "epoch": 7.280701754385965,
+      "grad_norm": 0.03627951070666313,
+      "learning_rate": 0.00012396313364055302,
+      "loss": 0.0597,
+      "step": 830
+    },
+    {
+      "epoch": 7.368421052631579,
+      "grad_norm": 0.02649592235684395,
+      "learning_rate": 0.00012165898617511522,
+      "loss": 0.0116,
+      "step": 840
+    },
+    {
+      "epoch": 7.456140350877193,
+      "grad_norm": 0.024187836796045303,
+      "learning_rate": 0.00011935483870967743,
+      "loss": 0.0523,
+      "step": 850
+    },
+    {
+      "epoch": 7.543859649122807,
+      "grad_norm": 0.21681664884090424,
+      "learning_rate": 0.00011705069124423964,
+      "loss": 0.0242,
+      "step": 860
+    },
+    {
+      "epoch": 7.631578947368421,
+      "grad_norm": 0.22589242458343506,
+      "learning_rate": 0.00011474654377880186,
+      "loss": 0.0306,
+      "step": 870
+    },
+    {
+      "epoch": 7.719298245614035,
+      "grad_norm": 0.04859558865427971,
+      "learning_rate": 0.00011244239631336406,
+      "loss": 0.0543,
+      "step": 880
+    },
+    {
+      "epoch": 7.807017543859649,
+      "grad_norm": 0.09744669497013092,
+      "learning_rate": 0.00011013824884792627,
+      "loss": 0.0189,
+      "step": 890
+    },
+    {
+      "epoch": 7.894736842105263,
+      "grad_norm": 0.021868959069252014,
+      "learning_rate": 0.00010783410138248849,
+      "loss": 0.0155,
+      "step": 900
+    },
+    {
+      "epoch": 7.894736842105263,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_loss": 0.0535568930208683,
+      "eval_runtime": 38.9736,
+      "eval_samples_per_second": 8.236,
+      "eval_steps_per_second": 1.052,
+      "step": 900
+    },
+    {
+      "epoch": 7.982456140350877,
+      "grad_norm": 1.0035172700881958,
+      "learning_rate": 0.0001055299539170507,
+      "loss": 0.0246,
+      "step": 910
+    },
+    {
+      "epoch": 8.070175438596491,
+      "grad_norm": 0.02440941147506237,
+      "learning_rate": 0.0001032258064516129,
+      "loss": 0.0056,
+      "step": 920
+    },
+    {
+      "epoch": 8.157894736842104,
+      "grad_norm": 4.793999671936035,
+      "learning_rate": 0.00010092165898617512,
+      "loss": 0.0445,
+      "step": 930
+    },
+    {
+      "epoch": 8.24561403508772,
+      "grad_norm": 0.1290515512228012,
+      "learning_rate": 9.861751152073733e-05,
+      "loss": 0.0375,
+      "step": 940
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.02080746926367283,
+      "learning_rate": 9.631336405529955e-05,
+      "loss": 0.0468,
+      "step": 950
+    },
+    {
+      "epoch": 8.421052631578947,
+      "grad_norm": 0.02122361958026886,
+      "learning_rate": 9.400921658986176e-05,
+      "loss": 0.0163,
+      "step": 960
+    },
+    {
+      "epoch": 8.508771929824562,
+      "grad_norm": 0.017971761524677277,
+      "learning_rate": 9.170506912442398e-05,
+      "loss": 0.0273,
+      "step": 970
+    },
+    {
+      "epoch": 8.596491228070175,
+      "grad_norm": 0.017901716753840446,
+      "learning_rate": 8.940092165898618e-05,
+      "loss": 0.0146,
+      "step": 980
+    },
+    {
+      "epoch": 8.68421052631579,
+      "grad_norm": 0.017680177465081215,
+      "learning_rate": 8.709677419354839e-05,
+      "loss": 0.0141,
+      "step": 990
+    },
+    {
+      "epoch": 8.771929824561404,
+      "grad_norm": 0.01786506175994873,
+      "learning_rate": 8.479262672811061e-05,
+      "loss": 0.0181,
+      "step": 1000
+    },
+    {
+      "epoch": 8.771929824561404,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_loss": 0.05145588517189026,
+      "eval_runtime": 39.4613,
+      "eval_samples_per_second": 8.135,
+      "eval_steps_per_second": 1.039,
+      "step": 1000
+    },
+    {
+      "epoch": 8.859649122807017,
+      "grad_norm": 0.22676168382167816,
+      "learning_rate": 8.248847926267282e-05,
+      "loss": 0.0208,
+      "step": 1010
+    },
+    {
+      "epoch": 8.947368421052632,
+      "grad_norm": 0.018166787922382355,
+      "learning_rate": 8.018433179723502e-05,
+      "loss": 0.0043,
+      "step": 1020
+    },
+    {
+      "epoch": 9.035087719298245,
+      "grad_norm": 0.019866198301315308,
+      "learning_rate": 7.788018433179723e-05,
+      "loss": 0.0041,
+      "step": 1030
+    },
+    {
+      "epoch": 9.12280701754386,
+      "grad_norm": 0.016503507271409035,
+      "learning_rate": 7.557603686635945e-05,
+      "loss": 0.0128,
+      "step": 1040
+    },
+    {
+      "epoch": 9.210526315789474,
+      "grad_norm": 0.015296258963644505,
+      "learning_rate": 7.327188940092167e-05,
+      "loss": 0.004,
+      "step": 1050
+    },
+    {
+      "epoch": 9.298245614035087,
+      "grad_norm": 0.01723010092973709,
+      "learning_rate": 7.096774193548388e-05,
+      "loss": 0.0062,
+      "step": 1060
+    },
+    {
+      "epoch": 9.385964912280702,
+      "grad_norm": 0.035506654530763626,
+      "learning_rate": 6.86635944700461e-05,
+      "loss": 0.0057,
+      "step": 1070
+    },
+    {
+      "epoch": 9.473684210526315,
+      "grad_norm": 0.01574404165148735,
+      "learning_rate": 6.63594470046083e-05,
+      "loss": 0.0193,
+      "step": 1080
+    },
+    {
+      "epoch": 9.56140350877193,
+      "grad_norm": 0.014666405506432056,
+      "learning_rate": 6.405529953917051e-05,
+      "loss": 0.031,
+      "step": 1090
+    },
+    {
+      "epoch": 9.649122807017545,
+      "grad_norm": 0.01612703874707222,
+      "learning_rate": 6.175115207373272e-05,
+      "loss": 0.0037,
+      "step": 1100
+    },
+    {
+      "epoch": 9.649122807017545,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_loss": 0.057048946619033813,
+      "eval_runtime": 39.5053,
+      "eval_samples_per_second": 8.125,
+      "eval_steps_per_second": 1.038,
+      "step": 1100
+    },
+    {
+      "epoch": 9.736842105263158,
+      "grad_norm": 0.019121702760457993,
+      "learning_rate": 5.944700460829493e-05,
+      "loss": 0.0304,
+      "step": 1110
+    },
+    {
+      "epoch": 9.824561403508772,
+      "grad_norm": 0.01632341369986534,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.0161,
+      "step": 1120
+    },
+    {
+      "epoch": 9.912280701754385,
+      "grad_norm": 0.01443589385598898,
+      "learning_rate": 5.4838709677419355e-05,
+      "loss": 0.0036,
+      "step": 1130
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.015345915220677853,
+      "learning_rate": 5.253456221198156e-05,
+      "loss": 0.0035,
+      "step": 1140
+    },
+    {
+      "epoch": 10.087719298245615,
+      "grad_norm": 0.015197597444057465,
+      "learning_rate": 5.023041474654379e-05,
+      "loss": 0.0035,
+      "step": 1150
+    },
+    {
+      "epoch": 10.175438596491228,
+      "grad_norm": 0.014183932915329933,
+      "learning_rate": 4.792626728110599e-05,
+      "loss": 0.0143,
+      "step": 1160
+    },
+    {
+      "epoch": 10.263157894736842,
+      "grad_norm": 0.014778058975934982,
+      "learning_rate": 4.562211981566821e-05,
+      "loss": 0.0209,
+      "step": 1170
+    },
+    {
+      "epoch": 10.350877192982455,
+      "grad_norm": 0.012953384779393673,
+      "learning_rate": 4.3317972350230415e-05,
+      "loss": 0.0037,
+      "step": 1180
+    },
+    {
+      "epoch": 10.43859649122807,
+      "grad_norm": 0.013696621172130108,
+      "learning_rate": 4.101382488479263e-05,
+      "loss": 0.0033,
+      "step": 1190
+    },
+    {
+      "epoch": 10.526315789473685,
+      "grad_norm": 0.014558497816324234,
+      "learning_rate": 3.870967741935484e-05,
+      "loss": 0.0121,
+      "step": 1200
+    },
+    {
+      "epoch": 10.526315789473685,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_loss": 0.05703161284327507,
+      "eval_runtime": 39.2742,
+      "eval_samples_per_second": 8.173,
+      "eval_steps_per_second": 1.044,
+      "step": 1200
+    },
+    {
+      "epoch": 10.614035087719298,
+      "grad_norm": 0.012670050375163555,
+      "learning_rate": 3.640552995391705e-05,
+      "loss": 0.0154,
+      "step": 1210
+    },
+    {
+      "epoch": 10.701754385964913,
+      "grad_norm": 0.01565767079591751,
+      "learning_rate": 3.410138248847927e-05,
+      "loss": 0.0157,
+      "step": 1220
+    },
+    {
+      "epoch": 10.789473684210526,
+      "grad_norm": 0.013182566501200199,
+      "learning_rate": 3.1797235023041475e-05,
+      "loss": 0.0033,
+      "step": 1230
+    },
+    {
+      "epoch": 10.87719298245614,
+      "grad_norm": 0.013745326548814774,
+      "learning_rate": 2.9493087557603688e-05,
+      "loss": 0.0285,
+      "step": 1240
+    },
+    {
+      "epoch": 10.964912280701755,
+      "grad_norm": 0.014731339178979397,
+      "learning_rate": 2.7188940092165898e-05,
+      "loss": 0.0032,
+      "step": 1250
+    },
+    {
+      "epoch": 11.052631578947368,
+      "grad_norm": 0.01686001382768154,
+      "learning_rate": 2.488479262672811e-05,
+      "loss": 0.0033,
+      "step": 1260
+    },
+    {
+      "epoch": 11.140350877192983,
+      "grad_norm": 0.014196813106536865,
+      "learning_rate": 2.258064516129032e-05,
+      "loss": 0.0233,
+      "step": 1270
+    },
+    {
+      "epoch": 11.228070175438596,
+      "grad_norm": 0.012524433434009552,
+      "learning_rate": 2.0276497695852538e-05,
+      "loss": 0.0131,
+      "step": 1280
+    },
+    {
+      "epoch": 11.31578947368421,
+      "grad_norm": 0.260022908449173,
+      "learning_rate": 1.7972350230414748e-05,
+      "loss": 0.0262,
+      "step": 1290
+    },
+    {
+      "epoch": 11.403508771929825,
+      "grad_norm": 0.0144431721419096,
+      "learning_rate": 1.5668202764976958e-05,
+      "loss": 0.0065,
+      "step": 1300
+    },
+    {
+      "epoch": 11.403508771929825,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_loss": 0.0564887560904026,
+      "eval_runtime": 40.1326,
+      "eval_samples_per_second": 7.998,
+      "eval_steps_per_second": 1.022,
+      "step": 1300
+    },
+    {
+      "epoch": 11.491228070175438,
+      "grad_norm": 0.012515190057456493,
+      "learning_rate": 1.3364055299539171e-05,
+      "loss": 0.0031,
+      "step": 1310
+    },
+    {
+      "epoch": 11.578947368421053,
+      "grad_norm": 0.01271726656705141,
+      "learning_rate": 1.1059907834101383e-05,
+      "loss": 0.0031,
+      "step": 1320
+    },
+    {
+      "epoch": 11.666666666666666,
+      "grad_norm": 0.014306453987956047,
+      "learning_rate": 8.755760368663595e-06,
+      "loss": 0.003,
+      "step": 1330
+    },
+    {
+      "epoch": 11.75438596491228,
+      "grad_norm": 0.013644354417920113,
+      "learning_rate": 6.451612903225806e-06,
+      "loss": 0.0126,
+      "step": 1340
+    },
+    {
+      "epoch": 11.842105263157894,
+      "grad_norm": 0.012905462644994259,
+      "learning_rate": 4.147465437788019e-06,
+      "loss": 0.0032,
+      "step": 1350
+    },
+    {
+      "epoch": 11.929824561403509,
+      "grad_norm": 0.013774859718978405,
+      "learning_rate": 1.8433179723502305e-06,
+      "loss": 0.0033,
+      "step": 1360
+    },
+    {
+      "epoch": 12.0,
+      "step": 1368,
+      "total_flos": 1.685961057043243e+18,
+      "train_loss": 0.2119520413090219,
+      "train_runtime": 3626.0393,
+      "train_samples_per_second": 6.0,
+      "train_steps_per_second": 0.377
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1368,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 12,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.685961057043243e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}