Training in progress, epoch 29, checkpoint

Browse files

Files changed (14) hide show

checkpoint-7250/adapter_config.json +1 -1
checkpoint-7250/adapter_model.bin +3 -0
checkpoint-7250/added_tokens.json +3 -3
checkpoint-7250/optimizer.pt +2 -2
checkpoint-7250/rng_state_0.pth +1 -1
checkpoint-7250/rng_state_1.pth +1 -1
checkpoint-7250/rng_state_2.pth +1 -1
checkpoint-7250/rng_state_3.pth +1 -1
checkpoint-7250/special_tokens_map.json +4 -12
checkpoint-7250/tokenizer.json +0 -0
checkpoint-7250/tokenizer.model +3 -0
checkpoint-7250/tokenizer_config.json +17 -20
checkpoint-7250/trainer_state.json +276 -362
checkpoint-7250/training_args.bin +2 -2

checkpoint-7250/adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "Qwen/Qwen1.5-4B",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,

checkpoint-7250/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a1e61ff2d62c77b152190bf0e5fb2fabc1d424562732ef45b2eafecb554cf84
+size 143269386

checkpoint-7250/added_tokens.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "<|endoftext|>": 151643,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644
 }

 {
+  "</s>": 2,
+  "<s>": 1,
+  "<unk>": 0
 }

checkpoint-7250/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3077a69bab38c6470347040279bb1687bb9c93b4d865930cf4ca10890120561f
-size 224537202

 version https://git-lfs.github.com/spec/v1
+oid sha256:f62d5ec1d815b6645372db98b34529218fffe914004d24e74c071a0e4a2fbbbd
+size 286585234

checkpoint-7250/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c594d06f8a0a353d5fbe1abaaeb7b5341bd75efd66c283e4069e1948f22de778
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2035d0fd2a3a789bca9e397905b5ab2bc6ebf96ee4b4e768f8ee393b07ff6e7d
 size 15024

checkpoint-7250/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7dfbd0a104095ee0dd22934787c7647f231a7fc40b9aca4ef89a9bc92f0b5f0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a5d21ef4cdbabf45fde431c2abb54d674520c38c4dc1f1e8ccf34be7f9a2166
 size 15024

checkpoint-7250/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd12e245c73329e92149af29b1f23026e05357e643c8183ef036d8ba87c3e7d2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d01a3d04f53120c83562b9c6edfdf214925f5327524e942d6fe86b71caa8fa95
 size 15024

checkpoint-7250/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e565cc71620596d4a912b8cf7d2697ba841250134b4e70b7e5f0083688fd2da
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:87c10e538f0dbae2a64fb66096a9254b581d1228b8f781d419402bc2ffaaa614
 size 15024

checkpoint-7250/special_tokens_map.json CHANGED Viewed

@@ -1,14 +1,6 @@
 {
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>"
-  ],
-  "eos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "<|endoftext|>"
 }

 {
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "</s>",
+  "unk_token": "<unk>"
 }

checkpoint-7250/tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-7250/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-7250/tokenizer_config.json CHANGED Viewed

@@ -1,24 +1,23 @@
 {
-  "add_prefix_space": false,
   "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "151644": {
-      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "151645": {
-      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -26,18 +25,16 @@
       "special": true
     }
   },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>"
-  ],
-  "bos_token": null,
-  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
   "clean_up_tokenization_spaces": false,
-  "eos_token": "<|endoftext|>",
-  "errors": "replace",
-  "model_max_length": 32768,
-  "pad_token": "<|endoftext|>",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
 }

 {
   "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "1": {
+      "content": "<s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "2": {
+      "content": "</s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     }
   },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
 }

checkpoint-7250/trainer_state.json CHANGED Viewed

@@ -10,963 +10,877 @@
   "log_history": [
     {
       "epoch": 0.4,
-      "grad_norm": 0.6831097602844238,
       "learning_rate": 3e-05,
-      "loss": 2.487,
       "step": 100
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.7073227763175964,
       "learning_rate": 3e-05,
-      "loss": 2.276,
       "step": 200
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5134285714285715,
-      "eval_loss": 2.3502681255340576,
-      "eval_runtime": 5.2185,
-      "eval_samples_per_second": 95.812,
-      "eval_steps_per_second": 12.072,
       "step": 250
     },
     {
       "epoch": 1.0,
-      "eval_exact_match": 17.0,
-      "eval_f1": 24.54219480519481,
       "step": 250
     },
     {
       "epoch": 1.2,
-      "grad_norm": 0.820932149887085,
       "learning_rate": 3e-05,
-      "loss": 2.2479,
       "step": 300
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.9243379831314087,
       "learning_rate": 3e-05,
-      "loss": 2.2237,
       "step": 400
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.8742844462394714,
       "learning_rate": 3e-05,
-      "loss": 2.1973,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5151746031746032,
-      "eval_loss": 2.330955743789673,
-      "eval_runtime": 5.5478,
-      "eval_samples_per_second": 90.125,
-      "eval_steps_per_second": 11.356,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_exact_match": 16.2,
-      "eval_f1": 24.397655122655127,
       "step": 500
     },
     {
       "epoch": 2.4,
-      "grad_norm": 1.034700632095337,
       "learning_rate": 3e-05,
-      "loss": 2.1295,
       "step": 600
     },
     {
       "epoch": 2.8,
-      "grad_norm": 1.130967617034912,
       "learning_rate": 3e-05,
-      "loss": 2.1128,
       "step": 700
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.516095238095238,
-      "eval_loss": 2.3357651233673096,
-      "eval_runtime": 5.8761,
-      "eval_samples_per_second": 85.091,
-      "eval_steps_per_second": 10.721,
       "step": 750
     },
     {
       "epoch": 3.0,
-      "eval_exact_match": 19.0,
-      "eval_f1": 26.202922077922086,
       "step": 750
     },
     {
       "epoch": 3.2,
-      "grad_norm": 1.4410409927368164,
       "learning_rate": 3e-05,
-      "loss": 2.0768,
       "step": 800
     },
     {
       "epoch": 3.6,
-      "grad_norm": 1.5838419198989868,
       "learning_rate": 3e-05,
-      "loss": 2.0139,
       "step": 900
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.824843406677246,
       "learning_rate": 3e-05,
-      "loss": 2.0165,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5151746031746032,
-      "eval_loss": 2.355579376220703,
-      "eval_runtime": 5.1124,
-      "eval_samples_per_second": 97.801,
-      "eval_steps_per_second": 12.323,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_exact_match": 19.0,
-      "eval_f1": 26.60538961038962,
       "step": 1000
     },
     {
       "epoch": 4.4,
-      "grad_norm": 1.988659381866455,
       "learning_rate": 3e-05,
-      "loss": 1.8919,
       "step": 1100
     },
     {
       "epoch": 4.8,
-      "grad_norm": 2.1034774780273438,
       "learning_rate": 3e-05,
-      "loss": 1.9024,
       "step": 1200
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5138730158730159,
-      "eval_loss": 2.4047114849090576,
-      "eval_runtime": 5.507,
-      "eval_samples_per_second": 90.794,
-      "eval_steps_per_second": 11.44,
       "step": 1250
     },
     {
       "epoch": 5.0,
-      "eval_exact_match": 19.2,
-      "eval_f1": 27.08811688311689,
       "step": 1250
     },
     {
       "epoch": 5.2,
-      "grad_norm": 2.2108240127563477,
       "learning_rate": 3e-05,
-      "loss": 1.852,
       "step": 1300
     },
     {
       "epoch": 5.6,
-      "grad_norm": 2.507085084915161,
       "learning_rate": 3e-05,
-      "loss": 1.7877,
       "step": 1400
     },
     {
       "epoch": 6.0,
-      "grad_norm": 2.3765366077423096,
       "learning_rate": 3e-05,
-      "loss": 1.7989,
       "step": 1500
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5111111111111111,
-      "eval_loss": 2.4534740447998047,
-      "eval_runtime": 5.199,
-      "eval_samples_per_second": 96.172,
-      "eval_steps_per_second": 12.118,
       "step": 1500
     },
     {
       "epoch": 6.0,
-      "eval_exact_match": 18.2,
-      "eval_f1": 26.325503531556176,
       "step": 1500
     },
     {
       "epoch": 6.4,
-      "grad_norm": 2.944777727127075,
       "learning_rate": 3e-05,
-      "loss": 1.6784,
       "step": 1600
     },
     {
       "epoch": 6.8,
-      "grad_norm": 2.8724122047424316,
       "learning_rate": 3e-05,
-      "loss": 1.692,
       "step": 1700
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5085714285714286,
-      "eval_loss": 2.527308464050293,
-      "eval_runtime": 5.9179,
-      "eval_samples_per_second": 84.489,
-      "eval_steps_per_second": 10.646,
       "step": 1750
     },
     {
       "epoch": 7.0,
-      "eval_exact_match": 17.4,
-      "eval_f1": 25.36568542568543,
       "step": 1750
     },
     {
       "epoch": 7.2,
-      "grad_norm": 3.7004809379577637,
       "learning_rate": 3e-05,
-      "loss": 1.6336,
       "step": 1800
     },
     {
       "epoch": 7.6,
-      "grad_norm": 3.611534595489502,
       "learning_rate": 3e-05,
-      "loss": 1.5772,
       "step": 1900
     },
     {
       "epoch": 8.0,
-      "grad_norm": 3.311814546585083,
       "learning_rate": 3e-05,
-      "loss": 1.5963,
       "step": 2000
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.5057142857142857,
-      "eval_loss": 2.6106724739074707,
-      "eval_runtime": 5.9096,
-      "eval_samples_per_second": 84.608,
-      "eval_steps_per_second": 10.661,
       "step": 2000
     },
     {
       "epoch": 8.0,
-      "eval_exact_match": 16.4,
-      "eval_f1": 24.649942279942284,
       "step": 2000
     },
     {
       "epoch": 8.4,
-      "grad_norm": 4.057112693786621,
       "learning_rate": 3e-05,
-      "loss": 1.4604,
       "step": 2100
     },
     {
       "epoch": 8.8,
-      "grad_norm": 3.5819571018218994,
       "learning_rate": 3e-05,
-      "loss": 1.482,
       "step": 2200
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.5044761904761905,
-      "eval_loss": 2.6719970703125,
-      "eval_runtime": 5.8123,
-      "eval_samples_per_second": 86.024,
-      "eval_steps_per_second": 10.839,
       "step": 2250
     },
     {
       "epoch": 9.0,
-      "eval_exact_match": 16.0,
-      "eval_f1": 24.24823953823954,
       "step": 2250
     },
     {
       "epoch": 9.2,
-      "grad_norm": 4.373803615570068,
       "learning_rate": 3e-05,
-      "loss": 1.4256,
       "step": 2300
     },
     {
       "epoch": 9.6,
-      "grad_norm": 4.550878047943115,
       "learning_rate": 3e-05,
-      "loss": 1.3686,
       "step": 2400
     },
     {
       "epoch": 10.0,
-      "grad_norm": 4.786899566650391,
       "learning_rate": 3e-05,
-      "loss": 1.4113,
       "step": 2500
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.502,
-      "eval_loss": 2.7534008026123047,
-      "eval_runtime": 5.7013,
-      "eval_samples_per_second": 87.699,
-      "eval_steps_per_second": 11.05,
       "step": 2500
     },
     {
       "epoch": 10.0,
-      "eval_exact_match": 15.4,
-      "eval_f1": 23.549242424242422,
       "step": 2500
     },
     {
       "epoch": 10.4,
-      "grad_norm": 4.900534152984619,
       "learning_rate": 3e-05,
-      "loss": 1.2413,
       "step": 2600
     },
     {
       "epoch": 10.8,
-      "grad_norm": 4.867775917053223,
       "learning_rate": 3e-05,
-      "loss": 1.2975,
       "step": 2700
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.49768253968253967,
-      "eval_loss": 2.879622459411621,
-      "eval_runtime": 5.1716,
-      "eval_samples_per_second": 96.682,
-      "eval_steps_per_second": 12.182,
       "step": 2750
     },
     {
       "epoch": 11.0,
-      "eval_exact_match": 14.4,
-      "eval_f1": 22.511400984636275,
       "step": 2750
     },
     {
       "epoch": 11.2,
-      "grad_norm": 5.5839762687683105,
       "learning_rate": 3e-05,
-      "loss": 1.2278,
       "step": 2800
     },
     {
       "epoch": 11.6,
-      "grad_norm": 5.194231033325195,
       "learning_rate": 3e-05,
-      "loss": 1.1735,
       "step": 2900
     },
     {
       "epoch": 12.0,
-      "grad_norm": 5.112034320831299,
       "learning_rate": 3e-05,
-      "loss": 1.2252,
       "step": 3000
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.49726984126984125,
-      "eval_loss": 2.9103872776031494,
-      "eval_runtime": 5.5732,
-      "eval_samples_per_second": 89.715,
-      "eval_steps_per_second": 11.304,
       "step": 3000
     },
     {
       "epoch": 12.0,
-      "eval_exact_match": 15.2,
-      "eval_f1": 23.043532578532574,
       "step": 3000
     },
     {
       "epoch": 12.4,
-      "grad_norm": 5.978336811065674,
       "learning_rate": 3e-05,
-      "loss": 1.0547,
       "step": 3100
     },
     {
       "epoch": 12.8,
-      "grad_norm": 6.005147457122803,
       "learning_rate": 3e-05,
-      "loss": 1.1115,
       "step": 3200
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.4933968253968254,
-      "eval_loss": 3.0717053413391113,
-      "eval_runtime": 5.9334,
-      "eval_samples_per_second": 84.268,
-      "eval_steps_per_second": 10.618,
       "step": 3250
     },
     {
       "epoch": 13.0,
-      "eval_exact_match": 14.6,
-      "eval_f1": 22.054864188099476,
       "step": 3250
     },
     {
       "epoch": 13.2,
-      "grad_norm": 5.244001865386963,
       "learning_rate": 3e-05,
-      "loss": 1.0529,
       "step": 3300
     },
     {
       "epoch": 13.6,
-      "grad_norm": 5.950862407684326,
       "learning_rate": 3e-05,
-      "loss": 0.9932,
       "step": 3400
     },
     {
       "epoch": 14.0,
-      "grad_norm": 6.013063430786133,
       "learning_rate": 3e-05,
-      "loss": 1.0383,
       "step": 3500
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.49266666666666664,
-      "eval_loss": 3.125173807144165,
-      "eval_runtime": 5.6035,
-      "eval_samples_per_second": 89.231,
-      "eval_steps_per_second": 11.243,
       "step": 3500
     },
     {
       "epoch": 14.0,
-      "eval_exact_match": 15.0,
-      "eval_f1": 21.879737484737486,
       "step": 3500
     },
     {
       "epoch": 14.4,
-      "grad_norm": 5.269447326660156,
       "learning_rate": 3e-05,
-      "loss": 0.8977,
       "step": 3600
     },
     {
       "epoch": 14.8,
-      "grad_norm": 6.836198806762695,
       "learning_rate": 3e-05,
-      "loss": 0.9499,
       "step": 3700
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.4914603174603175,
-      "eval_loss": 3.2221622467041016,
-      "eval_runtime": 5.3505,
-      "eval_samples_per_second": 93.45,
-      "eval_steps_per_second": 11.775,
       "step": 3750
     },
     {
       "epoch": 15.0,
-      "eval_exact_match": 13.4,
-      "eval_f1": 20.79952508276038,
       "step": 3750
     },
     {
       "epoch": 15.2,
-      "grad_norm": 6.335363864898682,
       "learning_rate": 3e-05,
-      "loss": 0.8826,
       "step": 3800
     },
     {
       "epoch": 15.6,
-      "grad_norm": 5.659422874450684,
       "learning_rate": 3e-05,
-      "loss": 0.856,
       "step": 3900
     },
     {
       "epoch": 16.0,
-      "grad_norm": 6.786794662475586,
       "learning_rate": 3e-05,
-      "loss": 0.8822,
       "step": 4000
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.4902222222222222,
-      "eval_loss": 3.3250105381011963,
-      "eval_runtime": 5.1577,
-      "eval_samples_per_second": 96.942,
-      "eval_steps_per_second": 12.215,
       "step": 4000
     },
     {
       "epoch": 16.0,
-      "eval_exact_match": 14.2,
-      "eval_f1": 21.066072261072264,
       "step": 4000
     },
     {
       "epoch": 16.4,
-      "grad_norm": 5.888409614562988,
       "learning_rate": 3e-05,
-      "loss": 0.7622,
       "step": 4100
     },
     {
       "epoch": 16.8,
-      "grad_norm": 7.211881637573242,
       "learning_rate": 3e-05,
-      "loss": 0.8066,
       "step": 4200
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.48803174603174604,
-      "eval_loss": 3.4266793727874756,
-      "eval_runtime": 5.4926,
-      "eval_samples_per_second": 91.032,
-      "eval_steps_per_second": 11.47,
       "step": 4250
     },
     {
       "epoch": 17.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.07007936507936,
       "step": 4250
     },
     {
       "epoch": 17.2,
-      "grad_norm": 6.758857727050781,
       "learning_rate": 3e-05,
-      "loss": 0.7589,
       "step": 4300
     },
     {
       "epoch": 17.6,
-      "grad_norm": 7.02708625793457,
       "learning_rate": 3e-05,
-      "loss": 0.7328,
       "step": 4400
     },
     {
       "epoch": 18.0,
-      "grad_norm": 7.599416732788086,
       "learning_rate": 3e-05,
-      "loss": 0.7585,
       "step": 4500
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.48698412698412696,
-      "eval_loss": 3.494581460952759,
-      "eval_runtime": 5.1805,
-      "eval_samples_per_second": 96.517,
-      "eval_steps_per_second": 12.161,
       "step": 4500
     },
     {
       "epoch": 18.0,
-      "eval_exact_match": 13.0,
-      "eval_f1": 20.018020313020315,
       "step": 4500
     },
     {
       "epoch": 18.4,
-      "grad_norm": 6.632185935974121,
       "learning_rate": 3e-05,
-      "loss": 0.6582,
       "step": 4600
     },
     {
       "epoch": 18.8,
-      "grad_norm": 5.955983638763428,
       "learning_rate": 3e-05,
-      "loss": 0.6964,
       "step": 4700
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.48695238095238097,
-      "eval_loss": 3.539303779602051,
-      "eval_runtime": 5.9008,
-      "eval_samples_per_second": 84.734,
-      "eval_steps_per_second": 10.676,
       "step": 4750
     },
     {
       "epoch": 19.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.46184426684427,
       "step": 4750
     },
     {
       "epoch": 19.2,
-      "grad_norm": 5.696877479553223,
       "learning_rate": 3e-05,
-      "loss": 0.6615,
       "step": 4800
     },
     {
       "epoch": 19.6,
-      "grad_norm": 7.173152446746826,
       "learning_rate": 3e-05,
-      "loss": 0.6289,
       "step": 4900
     },
     {
       "epoch": 20.0,
-      "grad_norm": 6.438709259033203,
       "learning_rate": 3e-05,
-      "loss": 0.6691,
       "step": 5000
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.4853968253968254,
-      "eval_loss": 3.6216397285461426,
-      "eval_runtime": 5.1221,
-      "eval_samples_per_second": 97.616,
-      "eval_steps_per_second": 12.3,
       "step": 5000
     },
     {
       "epoch": 20.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.78559607059607,
       "step": 5000
     },
     {
       "epoch": 20.4,
-      "grad_norm": 6.839606761932373,
       "learning_rate": 3e-05,
-      "loss": 0.5758,
       "step": 5100
     },
     {
       "epoch": 20.8,
-      "grad_norm": 6.10357666015625,
       "learning_rate": 3e-05,
-      "loss": 0.6149,
       "step": 5200
     },
     {
       "epoch": 21.0,
-      "eval_accuracy": 0.483968253968254,
-      "eval_loss": 3.7136757373809814,
-      "eval_runtime": 5.1433,
-      "eval_samples_per_second": 97.214,
-      "eval_steps_per_second": 12.249,
       "step": 5250
     },
     {
       "epoch": 21.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.9559423909424,
       "step": 5250
     },
     {
       "epoch": 21.2,
-      "grad_norm": 5.318624973297119,
       "learning_rate": 3e-05,
-      "loss": 0.5813,
       "step": 5300
     },
     {
       "epoch": 21.6,
-      "grad_norm": 6.141844749450684,
       "learning_rate": 3e-05,
-      "loss": 0.5679,
       "step": 5400
     },
     {
       "epoch": 22.0,
-      "grad_norm": 6.578658580780029,
       "learning_rate": 3e-05,
-      "loss": 0.5868,
       "step": 5500
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.48473015873015873,
-      "eval_loss": 3.7464139461517334,
-      "eval_runtime": 5.1846,
-      "eval_samples_per_second": 96.439,
-      "eval_steps_per_second": 12.151,
       "step": 5500
     },
     {
       "epoch": 22.0,
-      "eval_exact_match": 13.2,
-      "eval_f1": 19.690881504116803,
       "step": 5500
     },
     {
       "epoch": 22.4,
-      "grad_norm": 5.74013614654541,
       "learning_rate": 3e-05,
-      "loss": 0.5198,
       "step": 5600
     },
     {
       "epoch": 22.8,
-      "grad_norm": 5.257986068725586,
       "learning_rate": 3e-05,
-      "loss": 0.5482,
       "step": 5700
     },
     {
       "epoch": 23.0,
-      "eval_accuracy": 0.4843174603174603,
-      "eval_loss": 3.8386082649230957,
-      "eval_runtime": 5.2897,
-      "eval_samples_per_second": 94.524,
-      "eval_steps_per_second": 11.91,
       "step": 5750
     },
     {
       "epoch": 23.0,
-      "eval_exact_match": 12.4,
-      "eval_f1": 18.668079698079698,
       "step": 5750
     },
     {
       "epoch": 23.2,
-      "grad_norm": 5.609368324279785,
       "learning_rate": 3e-05,
-      "loss": 0.5263,
       "step": 5800
     },
     {
       "epoch": 23.6,
-      "grad_norm": 4.999100208282471,
       "learning_rate": 3e-05,
-      "loss": 0.5088,
       "step": 5900
     },
     {
       "epoch": 24.0,
-      "grad_norm": 5.820481777191162,
       "learning_rate": 3e-05,
-      "loss": 0.5378,
       "step": 6000
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.483968253968254,
-      "eval_loss": 3.8912558555603027,
-      "eval_runtime": 5.3394,
-      "eval_samples_per_second": 93.643,
-      "eval_steps_per_second": 11.799,
       "step": 6000
     },
     {
       "epoch": 24.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.066715669950973,
       "step": 6000
     },
     {
       "epoch": 24.4,
-      "grad_norm": 6.189323425292969,
       "learning_rate": 3e-05,
-      "loss": 0.4814,
       "step": 6100
     },
     {
       "epoch": 24.8,
-      "grad_norm": 5.2845377922058105,
       "learning_rate": 3e-05,
-      "loss": 0.4999,
       "step": 6200
     },
     {
       "epoch": 25.0,
-      "eval_accuracy": 0.4838730158730159,
-      "eval_loss": 3.8836069107055664,
-      "eval_runtime": 5.4771,
-      "eval_samples_per_second": 91.289,
-      "eval_steps_per_second": 11.502,
       "step": 6250
     },
     {
       "epoch": 25.0,
-      "eval_exact_match": 13.6,
-      "eval_f1": 20.643636526871827,
       "step": 6250
     },
     {
       "epoch": 25.2,
-      "grad_norm": 4.954625606536865,
       "learning_rate": 3e-05,
-      "loss": 0.4858,
       "step": 6300
     },
     {
       "epoch": 25.6,
-      "grad_norm": 6.256702899932861,
       "learning_rate": 3e-05,
-      "loss": 0.4767,
       "step": 6400
     },
     {
       "epoch": 26.0,
-      "grad_norm": 4.940384387969971,
       "learning_rate": 3e-05,
-      "loss": 0.4916,
       "step": 6500
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.4831111111111111,
-      "eval_loss": 3.9729866981506348,
-      "eval_runtime": 5.8996,
-      "eval_samples_per_second": 84.752,
-      "eval_steps_per_second": 10.679,
       "step": 6500
     },
     {
       "epoch": 26.0,
-      "eval_exact_match": 12.6,
-      "eval_f1": 19.084161540214172,
       "step": 6500
     },
     {
       "epoch": 26.4,
-      "grad_norm": 4.9096879959106445,
       "learning_rate": 3e-05,
-      "loss": 0.4407,
       "step": 6600
     },
     {
       "epoch": 26.8,
-      "grad_norm": 5.645080089569092,
       "learning_rate": 3e-05,
-      "loss": 0.4695,
       "step": 6700
     },
     {
       "epoch": 27.0,
-      "eval_accuracy": 0.4840952380952381,
-      "eval_loss": 4.012541770935059,
-      "eval_runtime": 5.3441,
-      "eval_samples_per_second": 93.561,
-      "eval_steps_per_second": 11.789,
       "step": 6750
     },
     {
       "epoch": 27.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.277558552558556,
       "step": 6750
     },
     {
       "epoch": 27.2,
-      "grad_norm": 4.098562717437744,
       "learning_rate": 3e-05,
-      "loss": 0.4508,
       "step": 6800
     },
     {
       "epoch": 27.6,
-      "grad_norm": 4.553615570068359,
       "learning_rate": 3e-05,
-      "loss": 0.4507,
       "step": 6900
     },
     {
       "epoch": 28.0,
-      "grad_norm": 4.436415195465088,
       "learning_rate": 3e-05,
-      "loss": 0.4596,
       "step": 7000
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.48355555555555557,
-      "eval_loss": 3.973613977432251,
-      "eval_runtime": 5.9099,
-      "eval_samples_per_second": 84.604,
-      "eval_steps_per_second": 10.66,
       "step": 7000
     },
     {
       "epoch": 28.0,
-      "eval_exact_match": 12.6,
-      "eval_f1": 19.08292374292374,
       "step": 7000
     },
     {
       "epoch": 28.4,
-      "grad_norm": 5.251562118530273,
       "learning_rate": 3e-05,
-      "loss": 0.425,
       "step": 7100
     },
     {
       "epoch": 28.8,
-      "grad_norm": 4.088305950164795,
       "learning_rate": 3e-05,
-      "loss": 0.4385,
       "step": 7200
     },
     {
       "epoch": 29.0,
-      "eval_accuracy": 0.4831111111111111,
-      "eval_loss": 4.002015590667725,
-      "eval_runtime": 5.1468,
-      "eval_samples_per_second": 97.149,
-      "eval_steps_per_second": 12.241,
       "step": 7250
     },
     {
       "epoch": 29.0,
-      "eval_exact_match": 10.4,
-      "eval_f1": 17.186490731490732,
       "step": 7250
     }
   ],
   "logging_steps": 100,
   "max_steps": 12500,
-  "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
   "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 2.2183020484100096e+17,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 0.4,
       "learning_rate": 3e-05,
+      "loss": 2.3698,
       "step": 100
     },
     {
       "epoch": 0.8,
       "learning_rate": 3e-05,
+      "loss": 1.8255,
       "step": 200
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6054430379746836,
+      "eval_loss": 1.83919358253479,
+      "eval_runtime": 4.687,
+      "eval_samples_per_second": 106.679,
+      "eval_steps_per_second": 13.442,
       "step": 250
     },
     {
       "epoch": 1.0,
+      "eval_exact_match": 25.2,
+      "eval_f1": 34.656485532011864,
       "step": 250
     },
     {
       "epoch": 1.2,
       "learning_rate": 3e-05,
+      "loss": 1.7843,
       "step": 300
     },
     {
       "epoch": 1.6,
       "learning_rate": 3e-05,
+      "loss": 1.7546,
       "step": 400
     },
     {
       "epoch": 2.0,
       "learning_rate": 3e-05,
+      "loss": 1.7368,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6078227848101266,
+      "eval_loss": 1.81111478805542,
+      "eval_runtime": 4.6445,
+      "eval_samples_per_second": 107.654,
+      "eval_steps_per_second": 13.564,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_exact_match": 26.0,
+      "eval_f1": 35.86535000087634,
       "step": 500
     },
     {
       "epoch": 2.4,
       "learning_rate": 3e-05,
+      "loss": 1.6749,
       "step": 600
     },
     {
       "epoch": 2.8,
       "learning_rate": 3e-05,
+      "loss": 1.6689,
       "step": 700
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.607493670886076,
+      "eval_loss": 1.8103100061416626,
+      "eval_runtime": 4.7447,
+      "eval_samples_per_second": 105.381,
+      "eval_steps_per_second": 13.278,
       "step": 750
     },
     {
       "epoch": 3.0,
+      "eval_exact_match": 23.6,
+      "eval_f1": 33.977337662337675,
       "step": 750
     },
     {
       "epoch": 3.2,
       "learning_rate": 3e-05,
+      "loss": 1.6205,
       "step": 800
     },
     {
       "epoch": 3.6,
       "learning_rate": 3e-05,
+      "loss": 1.556,
       "step": 900
     },
     {
       "epoch": 4.0,
       "learning_rate": 3e-05,
+      "loss": 1.5555,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6067341772151899,
+      "eval_loss": 1.8414338827133179,
+      "eval_runtime": 5.1526,
+      "eval_samples_per_second": 97.039,
+      "eval_steps_per_second": 12.227,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_exact_match": 24.6,
+      "eval_f1": 35.02336940836942,
       "step": 1000
     },
     {
       "epoch": 4.4,
       "learning_rate": 3e-05,
+      "loss": 1.4289,
       "step": 1100
     },
     {
       "epoch": 4.8,
       "learning_rate": 3e-05,
+      "loss": 1.4559,
       "step": 1200
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.6037721518987341,
+      "eval_loss": 1.8992472887039185,
+      "eval_runtime": 5.1672,
+      "eval_samples_per_second": 96.764,
+      "eval_steps_per_second": 12.192,
       "step": 1250
     },
     {
       "epoch": 5.0,
+      "eval_exact_match": 23.0,
+      "eval_f1": 33.18553391053392,
       "step": 1250
     },
     {
       "epoch": 5.2,
       "learning_rate": 3e-05,
+      "loss": 1.3828,
       "step": 1300
     },
     {
       "epoch": 5.6,
       "learning_rate": 3e-05,
+      "loss": 1.3271,
       "step": 1400
     },
     {
       "epoch": 6.0,
       "learning_rate": 3e-05,
+      "loss": 1.3514,
       "step": 1500
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.6018227848101266,
+      "eval_loss": 1.9584064483642578,
+      "eval_runtime": 5.1648,
+      "eval_samples_per_second": 96.81,
+      "eval_steps_per_second": 12.198,
       "step": 1500
     },
     {
       "epoch": 6.0,
+      "eval_exact_match": 22.2,
+      "eval_f1": 31.058798230754768,
       "step": 1500
     },
     {
       "epoch": 6.4,
       "learning_rate": 3e-05,
+      "loss": 1.2239,
       "step": 1600
     },
     {
       "epoch": 6.8,
       "learning_rate": 3e-05,
+      "loss": 1.2491,
       "step": 1700
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.5999746835443038,
+      "eval_loss": 2.030003070831299,
+      "eval_runtime": 4.4411,
+      "eval_samples_per_second": 112.586,
+      "eval_steps_per_second": 14.186,
       "step": 1750
     },
     {
       "epoch": 7.0,
+      "eval_exact_match": 21.4,
+      "eval_f1": 29.993917748917756,
       "step": 1750
     },
     {
       "epoch": 7.2,
       "learning_rate": 3e-05,
+      "loss": 1.1873,
       "step": 1800
     },
     {
       "epoch": 7.6,
       "learning_rate": 3e-05,
+      "loss": 1.1455,
       "step": 1900
     },
     {
       "epoch": 8.0,
       "learning_rate": 3e-05,
+      "loss": 1.1749,
       "step": 2000
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.5981518987341772,
+      "eval_loss": 2.1050591468811035,
+      "eval_runtime": 4.433,
+      "eval_samples_per_second": 112.79,
+      "eval_steps_per_second": 14.211,
       "step": 2000
     },
     {
       "epoch": 8.0,
+      "eval_exact_match": 22.0,
+      "eval_f1": 30.363661145617677,
       "step": 2000
     },
     {
       "epoch": 8.4,
       "learning_rate": 3e-05,
+      "loss": 1.0398,
       "step": 2100
     },
     {
       "epoch": 8.8,
       "learning_rate": 3e-05,
+      "loss": 1.0769,
       "step": 2200
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.5953924050632912,
+      "eval_loss": 2.194838762283325,
+      "eval_runtime": 4.593,
+      "eval_samples_per_second": 108.861,
+      "eval_steps_per_second": 13.716,
       "step": 2250
     },
     {
       "epoch": 9.0,
+      "eval_exact_match": 20.8,
+      "eval_f1": 29.184876573497927,
       "step": 2250
     },
     {
       "epoch": 9.2,
       "learning_rate": 3e-05,
+      "loss": 1.0208,
       "step": 2300
     },
     {
       "epoch": 9.6,
       "learning_rate": 3e-05,
+      "loss": 0.9809,
       "step": 2400
     },
     {
       "epoch": 10.0,
       "learning_rate": 3e-05,
+      "loss": 1.0134,
       "step": 2500
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.594253164556962,
+      "eval_loss": 2.2515170574188232,
+      "eval_runtime": 5.1544,
+      "eval_samples_per_second": 97.004,
+      "eval_steps_per_second": 12.223,
       "step": 2500
     },
     {
       "epoch": 10.0,
+      "eval_exact_match": 20.8,
+      "eval_f1": 28.809766314958125,
       "step": 2500
     },
     {
       "epoch": 10.4,
       "learning_rate": 3e-05,
+      "loss": 0.8808,
       "step": 2600
     },
     {
       "epoch": 10.8,
       "learning_rate": 3e-05,
+      "loss": 0.9209,
       "step": 2700
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.592126582278481,
+      "eval_loss": 2.3421294689178467,
+      "eval_runtime": 5.1459,
+      "eval_samples_per_second": 97.164,
+      "eval_steps_per_second": 12.243,
       "step": 2750
     },
     {
       "epoch": 11.0,
+      "eval_exact_match": 20.8,
+      "eval_f1": 29.063373818565633,
       "step": 2750
     },
     {
       "epoch": 11.2,
       "learning_rate": 3e-05,
+      "loss": 0.881,
       "step": 2800
     },
     {
       "epoch": 11.6,
       "learning_rate": 3e-05,
+      "loss": 0.8321,
       "step": 2900
     },
     {
       "epoch": 12.0,
       "learning_rate": 3e-05,
+      "loss": 0.8636,
       "step": 3000
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.5905063291139241,
+      "eval_loss": 2.4442591667175293,
+      "eval_runtime": 4.5233,
+      "eval_samples_per_second": 110.538,
+      "eval_steps_per_second": 13.928,
       "step": 3000
     },
     {
       "epoch": 12.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 27.344633307868605,
       "step": 3000
     },
     {
       "epoch": 12.4,
       "learning_rate": 3e-05,
+      "loss": 0.7437,
       "step": 3100
     },
     {
       "epoch": 12.8,
       "learning_rate": 3e-05,
+      "loss": 0.7866,
       "step": 3200
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.588,
+      "eval_loss": 2.557358741760254,
+      "eval_runtime": 4.7922,
+      "eval_samples_per_second": 104.336,
+      "eval_steps_per_second": 13.146,
       "step": 3250
     },
     {
       "epoch": 13.0,
+      "eval_exact_match": 20.8,
+      "eval_f1": 28.885005713240997,
       "step": 3250
     },
     {
       "epoch": 13.2,
       "learning_rate": 3e-05,
+      "loss": 0.7408,
       "step": 3300
     },
     {
       "epoch": 13.6,
       "learning_rate": 3e-05,
+      "loss": 0.7067,
       "step": 3400
     },
     {
       "epoch": 14.0,
       "learning_rate": 3e-05,
+      "loss": 0.7448,
       "step": 3500
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.5866835443037974,
+      "eval_loss": 2.579989194869995,
+      "eval_runtime": 5.1679,
+      "eval_samples_per_second": 96.752,
+      "eval_steps_per_second": 12.191,
       "step": 3500
     },
     {
       "epoch": 14.0,
+      "eval_exact_match": 20.4,
+      "eval_f1": 27.161796603510165,
       "step": 3500
     },
     {
       "epoch": 14.4,
       "learning_rate": 3e-05,
+      "loss": 0.637,
       "step": 3600
     },
     {
       "epoch": 14.8,
       "learning_rate": 3e-05,
+      "loss": 0.6709,
       "step": 3700
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.5845569620253165,
+      "eval_loss": 2.6911704540252686,
+      "eval_runtime": 5.1488,
+      "eval_samples_per_second": 97.111,
+      "eval_steps_per_second": 12.236,
       "step": 3750
     },
     {
       "epoch": 15.0,
+      "eval_exact_match": 20.6,
+      "eval_f1": 27.5548714031067,
       "step": 3750
     },
     {
       "epoch": 15.2,
       "learning_rate": 3e-05,
+      "loss": 0.6375,
       "step": 3800
     },
     {
       "epoch": 15.6,
       "learning_rate": 3e-05,
+      "loss": 0.6088,
       "step": 3900
     },
     {
       "epoch": 16.0,
       "learning_rate": 3e-05,
+      "loss": 0.6439,
       "step": 4000
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.5853164556962025,
+      "eval_loss": 2.7545602321624756,
+      "eval_runtime": 4.9217,
+      "eval_samples_per_second": 101.591,
+      "eval_steps_per_second": 12.8,
       "step": 4000
     },
     {
       "epoch": 16.0,
+      "eval_exact_match": 19.2,
+      "eval_f1": 26.665030133265436,
       "step": 4000
     },
     {
       "epoch": 16.4,
       "learning_rate": 3e-05,
+      "loss": 0.5552,
       "step": 4100
     },
     {
       "epoch": 16.8,
       "learning_rate": 3e-05,
+      "loss": 0.5869,
       "step": 4200
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.5831139240506329,
+      "eval_loss": 2.799652338027954,
+      "eval_runtime": 5.1403,
+      "eval_samples_per_second": 97.271,
+      "eval_steps_per_second": 12.256,
       "step": 4250
     },
     {
       "epoch": 17.0,
+      "eval_exact_match": 19.8,
+      "eval_f1": 26.345481903717197,
       "step": 4250
     },
     {
       "epoch": 17.2,
       "learning_rate": 3e-05,
+      "loss": 0.5547,
       "step": 4300
     },
     {
       "epoch": 17.6,
       "learning_rate": 3e-05,
+      "loss": 0.5336,
       "step": 4400
     },
     {
       "epoch": 18.0,
       "learning_rate": 3e-05,
+      "loss": 0.5596,
       "step": 4500
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.5832911392405064,
+      "eval_loss": 2.843494176864624,
+      "eval_runtime": 5.1507,
+      "eval_samples_per_second": 97.074,
+      "eval_steps_per_second": 12.231,
       "step": 4500
     },
     {
       "epoch": 18.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 27.017439945675243,
       "step": 4500
     },
     {
       "epoch": 18.4,
       "learning_rate": 3e-05,
+      "loss": 0.4871,
       "step": 4600
     },
     {
       "epoch": 18.8,
       "learning_rate": 3e-05,
+      "loss": 0.5205,
       "step": 4700
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.5832911392405064,
+      "eval_loss": 2.9509618282318115,
+      "eval_runtime": 4.4345,
+      "eval_samples_per_second": 112.751,
+      "eval_steps_per_second": 14.207,
       "step": 4750
     },
     {
       "epoch": 19.0,
+      "eval_exact_match": 20.0,
+      "eval_f1": 27.173774722010016,
       "step": 4750
     },
     {
       "epoch": 19.2,
       "learning_rate": 3e-05,
+      "loss": 0.4924,
       "step": 4800
     },
     {
       "epoch": 19.6,
       "learning_rate": 3e-05,
+      "loss": 0.4789,
       "step": 4900
     },
     {
       "epoch": 20.0,
       "learning_rate": 3e-05,
+      "loss": 0.5045,
       "step": 5000
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.5824050632911393,
+      "eval_loss": 2.9796953201293945,
+      "eval_runtime": 5.149,
+      "eval_samples_per_second": 97.106,
+      "eval_steps_per_second": 12.235,
       "step": 5000
     },
     {
       "epoch": 20.0,
+      "eval_exact_match": 19.6,
+      "eval_f1": 27.330243808479107,
       "step": 5000
     },
     {
       "epoch": 20.4,
       "learning_rate": 3e-05,
+      "loss": 0.438,
       "step": 5100
     },
     {
       "epoch": 20.8,
       "learning_rate": 3e-05,
+      "loss": 0.47,
       "step": 5200
     },
     {
       "epoch": 21.0,
+      "eval_accuracy": 0.583240506329114,
+      "eval_loss": 3.052990674972534,
+      "eval_runtime": 4.7357,
+      "eval_samples_per_second": 105.582,
+      "eval_steps_per_second": 13.303,
       "step": 5250
     },
     {
       "epoch": 21.0,
+      "eval_exact_match": 19.2,
+      "eval_f1": 27.186805025040325,
       "step": 5250
     },
     {
       "epoch": 21.2,
       "learning_rate": 3e-05,
+      "loss": 0.4527,
       "step": 5300
     },
     {
       "epoch": 21.6,
       "learning_rate": 3e-05,
+      "loss": 0.4373,
       "step": 5400
     },
     {
       "epoch": 22.0,
       "learning_rate": 3e-05,
+      "loss": 0.455,
       "step": 5500
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.5820506329113924,
+      "eval_loss": 3.0803613662719727,
+      "eval_runtime": 4.7375,
+      "eval_samples_per_second": 105.541,
+      "eval_steps_per_second": 13.298,
       "step": 5500
     },
     {
       "epoch": 22.0,
+      "eval_exact_match": 19.6,
+      "eval_f1": 27.31246603070133,
       "step": 5500
     },
     {
       "epoch": 22.4,
       "learning_rate": 3e-05,
+      "loss": 0.4045,
       "step": 5600
     },
     {
       "epoch": 22.8,
       "learning_rate": 3e-05,
+      "loss": 0.4332,
       "step": 5700
     },
     {
       "epoch": 23.0,
+      "eval_accuracy": 0.5813164556962025,
+      "eval_loss": 3.193831443786621,
+      "eval_runtime": 4.7397,
+      "eval_samples_per_second": 105.491,
+      "eval_steps_per_second": 13.292,
       "step": 5750
     },
     {
       "epoch": 23.0,
+      "eval_exact_match": 20.2,
+      "eval_f1": 27.400903149138443,
       "step": 5750
     },
     {
       "epoch": 23.2,
       "learning_rate": 3e-05,
+      "loss": 0.411,
       "step": 5800
     },
     {
       "epoch": 23.6,
       "learning_rate": 3e-05,
+      "loss": 0.4073,
       "step": 5900
     },
     {
       "epoch": 24.0,
       "learning_rate": 3e-05,
+      "loss": 0.4171,
       "step": 6000
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.5815949367088608,
+      "eval_loss": 3.1835598945617676,
+      "eval_runtime": 4.9019,
+      "eval_samples_per_second": 102.002,
+      "eval_steps_per_second": 12.852,
       "step": 6000
     },
     {
       "epoch": 24.0,
+      "eval_exact_match": 20.6,
+      "eval_f1": 28.71725235548766,
       "step": 6000
     },
     {
       "epoch": 24.4,
       "learning_rate": 3e-05,
+      "loss": 0.3791,
       "step": 6100
     },
     {
       "epoch": 24.8,
       "learning_rate": 3e-05,
+      "loss": 0.4049,
       "step": 6200
     },
     {
       "epoch": 25.0,
+      "eval_accuracy": 0.5816962025316456,
+      "eval_loss": 3.1950440406799316,
+      "eval_runtime": 4.7387,
+      "eval_samples_per_second": 105.514,
+      "eval_steps_per_second": 13.295,
       "step": 6250
     },
     {
       "epoch": 25.0,
+      "eval_exact_match": 18.8,
+      "eval_f1": 26.63930065806228,
       "step": 6250
     },
     {
       "epoch": 25.2,
       "learning_rate": 3e-05,
+      "loss": 0.3826,
       "step": 6300
     },
     {
       "epoch": 25.6,
       "learning_rate": 3e-05,
+      "loss": 0.3797,
       "step": 6400
     },
     {
       "epoch": 26.0,
       "learning_rate": 3e-05,
+      "loss": 0.3975,
       "step": 6500
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.580126582278481,
+      "eval_loss": 3.274887800216675,
+      "eval_runtime": 4.5904,
+      "eval_samples_per_second": 108.924,
+      "eval_steps_per_second": 13.724,
       "step": 6500
     },
     {
       "epoch": 26.0,
+      "eval_exact_match": 20.0,
+      "eval_f1": 26.999288015046535,
       "step": 6500
     },
     {
       "epoch": 26.4,
       "learning_rate": 3e-05,
+      "loss": 0.3626,
       "step": 6600
     },
     {
       "epoch": 26.8,
       "learning_rate": 3e-05,
+      "loss": 0.3798,
       "step": 6700
     },
     {
       "epoch": 27.0,
+      "eval_accuracy": 0.5808354430379746,
+      "eval_loss": 3.3140978813171387,
+      "eval_runtime": 5.1662,
+      "eval_samples_per_second": 96.782,
+      "eval_steps_per_second": 12.195,
       "step": 6750
     },
     {
       "epoch": 27.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 25.92723665223666,
       "step": 6750
     },
     {
       "epoch": 27.2,
       "learning_rate": 3e-05,
+      "loss": 0.3657,
       "step": 6800
     },
     {
       "epoch": 27.6,
       "learning_rate": 3e-05,
+      "loss": 0.3622,
       "step": 6900
     },
     {
       "epoch": 28.0,
       "learning_rate": 3e-05,
+      "loss": 0.3774,
       "step": 7000
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.5814683544303797,
+      "eval_loss": 3.3085429668426514,
+      "eval_runtime": 5.1573,
+      "eval_samples_per_second": 96.95,
+      "eval_steps_per_second": 12.216,
       "step": 7000
     },
     {
       "epoch": 28.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 25.918943833943853,
       "step": 7000
     },
     {
       "epoch": 28.4,
       "learning_rate": 3e-05,
+      "loss": 0.3415,
       "step": 7100
     },
     {
       "epoch": 28.8,
       "learning_rate": 3e-05,
+      "loss": 0.3636,
       "step": 7200
     },
     {
       "epoch": 29.0,
+      "eval_accuracy": 0.5812911392405063,
+      "eval_loss": 3.3524577617645264,
+      "eval_runtime": 4.6472,
+      "eval_samples_per_second": 107.592,
+      "eval_steps_per_second": 13.557,
       "step": 7250
     },
     {
       "epoch": 29.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 26.2599927849928,
       "step": 7250
     }
   ],
   "logging_steps": 100,
   "max_steps": 12500,
   "num_train_epochs": 50,
   "save_steps": 500,
+  "total_flos": 4.6349676418852454e+17,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-7250/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76141cb7041782161f7695865881a4df3a03be3731ae75640f405be3a5a6f23d
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:b708b99b821bdf687ebed6196095d1415f662e1088452054a7df6a8e9ebd3c3f
+size 4728