Training in progress, epoch 49, checkpoint

Browse files

Files changed (14) hide show

checkpoint-12250/adapter_config.json +1 -1
checkpoint-12250/adapter_model.bin +3 -0
checkpoint-12250/added_tokens.json +3 -3
checkpoint-12250/optimizer.pt +2 -2
checkpoint-12250/rng_state_0.pth +1 -1
checkpoint-12250/rng_state_1.pth +1 -1
checkpoint-12250/rng_state_2.pth +1 -1
checkpoint-12250/rng_state_3.pth +1 -1
checkpoint-12250/special_tokens_map.json +4 -12
checkpoint-12250/tokenizer.json +0 -0
checkpoint-12250/tokenizer.model +3 -0
checkpoint-12250/tokenizer_config.json +17 -20
checkpoint-12250/trainer_state.json +466 -602
checkpoint-12250/training_args.bin +2 -2

checkpoint-12250/adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "Qwen/Qwen1.5-4B",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,

checkpoint-12250/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6ff5924186e1241a412d80b87aa9916cf02ec38c9afe46df638a7a059f3c829
+size 143269386

checkpoint-12250/added_tokens.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "<|endoftext|>": 151643,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644
 }

 {
+  "</s>": 2,
+  "<s>": 1,
+  "<unk>": 0
 }

checkpoint-12250/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b19f3703ec7b9a66e18252edc4263c4e2a60d676b406b53fb0d248964570f466
-size 224537202

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7f9467dff93a57173acac140f41d42b0c96b081b3c96627918bfcdae47f766e
+size 286585234

checkpoint-12250/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae8edd1cb7d7487c4c15afa7a86087e3f41ec35056d5d82648350689b9b74058
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b56e9b472cc774b936e5fcc0c05d786dc177869d1b883a5ef1588b8c437aa4a9
 size 15024

checkpoint-12250/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9763042ccd0b5d4f1717f5ef69c0b0032b631d9181414780b27ccd645a17b0f6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a850dfd8dbfe99f770d5bee8bb918e4889d80b66204ec1c050b5a6d499bb14fd
 size 15024

checkpoint-12250/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83923c802469e9d94ba6ff7da5745e56bc9ddc85c53a4c3c98a7abfcd1363b35
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:52325be71305f1318057362a8ec43fe5c39105496e017c29fa0f69b45c49d13d
 size 15024

checkpoint-12250/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:404646782709f63bd98c2ff5f18056c03c28715ec6a51a91d63a7f1a67727705
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ee381fc8466c48de4bcc00d0149160ab3c52d2992cdf990e2bec7c59be09f50
 size 15024

checkpoint-12250/special_tokens_map.json CHANGED Viewed

@@ -1,14 +1,6 @@
 {
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>"
-  ],
-  "eos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "<|endoftext|>"
 }

 {
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "</s>",
+  "unk_token": "<unk>"
 }

checkpoint-12250/tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-12250/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-12250/tokenizer_config.json CHANGED Viewed

@@ -1,24 +1,23 @@
 {
-  "add_prefix_space": false,
   "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "151644": {
-      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "151645": {
-      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -26,18 +25,16 @@
       "special": true
     }
   },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>"
-  ],
-  "bos_token": null,
-  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
   "clean_up_tokenization_spaces": false,
-  "eos_token": "<|endoftext|>",
-  "errors": "replace",
-  "model_max_length": 32768,
-  "pad_token": "<|endoftext|>",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
 }

 {
   "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "1": {
+      "content": "<s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "2": {
+      "content": "</s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     }
   },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
 }

checkpoint-12250/trainer_state.json CHANGED Viewed

@@ -10,1613 +10,1477 @@
   "log_history": [
     {
       "epoch": 0.4,
-      "grad_norm": 0.6831097602844238,
       "learning_rate": 3e-05,
-      "loss": 2.487,
       "step": 100
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.7073227763175964,
       "learning_rate": 3e-05,
-      "loss": 2.276,
       "step": 200
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5134285714285715,
-      "eval_loss": 2.3502681255340576,
-      "eval_runtime": 5.2185,
-      "eval_samples_per_second": 95.812,
-      "eval_steps_per_second": 12.072,
       "step": 250
     },
     {
       "epoch": 1.0,
-      "eval_exact_match": 17.0,
-      "eval_f1": 24.54219480519481,
       "step": 250
     },
     {
       "epoch": 1.2,
-      "grad_norm": 0.820932149887085,
       "learning_rate": 3e-05,
-      "loss": 2.2479,
       "step": 300
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.9243379831314087,
       "learning_rate": 3e-05,
-      "loss": 2.2237,
       "step": 400
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.8742844462394714,
       "learning_rate": 3e-05,
-      "loss": 2.1973,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5151746031746032,
-      "eval_loss": 2.330955743789673,
-      "eval_runtime": 5.5478,
-      "eval_samples_per_second": 90.125,
-      "eval_steps_per_second": 11.356,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_exact_match": 16.2,
-      "eval_f1": 24.397655122655127,
       "step": 500
     },
     {
       "epoch": 2.4,
-      "grad_norm": 1.034700632095337,
       "learning_rate": 3e-05,
-      "loss": 2.1295,
       "step": 600
     },
     {
       "epoch": 2.8,
-      "grad_norm": 1.130967617034912,
       "learning_rate": 3e-05,
-      "loss": 2.1128,
       "step": 700
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.516095238095238,
-      "eval_loss": 2.3357651233673096,
-      "eval_runtime": 5.8761,
-      "eval_samples_per_second": 85.091,
-      "eval_steps_per_second": 10.721,
       "step": 750
     },
     {
       "epoch": 3.0,
-      "eval_exact_match": 19.0,
-      "eval_f1": 26.202922077922086,
       "step": 750
     },
     {
       "epoch": 3.2,
-      "grad_norm": 1.4410409927368164,
       "learning_rate": 3e-05,
-      "loss": 2.0768,
       "step": 800
     },
     {
       "epoch": 3.6,
-      "grad_norm": 1.5838419198989868,
       "learning_rate": 3e-05,
-      "loss": 2.0139,
       "step": 900
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.824843406677246,
       "learning_rate": 3e-05,
-      "loss": 2.0165,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5151746031746032,
-      "eval_loss": 2.355579376220703,
-      "eval_runtime": 5.1124,
-      "eval_samples_per_second": 97.801,
-      "eval_steps_per_second": 12.323,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_exact_match": 19.0,
-      "eval_f1": 26.60538961038962,
       "step": 1000
     },
     {
       "epoch": 4.4,
-      "grad_norm": 1.988659381866455,
       "learning_rate": 3e-05,
-      "loss": 1.8919,
       "step": 1100
     },
     {
       "epoch": 4.8,
-      "grad_norm": 2.1034774780273438,
       "learning_rate": 3e-05,
-      "loss": 1.9024,
       "step": 1200
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5138730158730159,
-      "eval_loss": 2.4047114849090576,
-      "eval_runtime": 5.507,
-      "eval_samples_per_second": 90.794,
-      "eval_steps_per_second": 11.44,
       "step": 1250
     },
     {
       "epoch": 5.0,
-      "eval_exact_match": 19.2,
-      "eval_f1": 27.08811688311689,
       "step": 1250
     },
     {
       "epoch": 5.2,
-      "grad_norm": 2.2108240127563477,
       "learning_rate": 3e-05,
-      "loss": 1.852,
       "step": 1300
     },
     {
       "epoch": 5.6,
-      "grad_norm": 2.507085084915161,
       "learning_rate": 3e-05,
-      "loss": 1.7877,
       "step": 1400
     },
     {
       "epoch": 6.0,
-      "grad_norm": 2.3765366077423096,
       "learning_rate": 3e-05,
-      "loss": 1.7989,
       "step": 1500
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5111111111111111,
-      "eval_loss": 2.4534740447998047,
-      "eval_runtime": 5.199,
-      "eval_samples_per_second": 96.172,
-      "eval_steps_per_second": 12.118,
       "step": 1500
     },
     {
       "epoch": 6.0,
-      "eval_exact_match": 18.2,
-      "eval_f1": 26.325503531556176,
       "step": 1500
     },
     {
       "epoch": 6.4,
-      "grad_norm": 2.944777727127075,
       "learning_rate": 3e-05,
-      "loss": 1.6784,
       "step": 1600
     },
     {
       "epoch": 6.8,
-      "grad_norm": 2.8724122047424316,
       "learning_rate": 3e-05,
-      "loss": 1.692,
       "step": 1700
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5085714285714286,
-      "eval_loss": 2.527308464050293,
-      "eval_runtime": 5.9179,
-      "eval_samples_per_second": 84.489,
-      "eval_steps_per_second": 10.646,
       "step": 1750
     },
     {
       "epoch": 7.0,
-      "eval_exact_match": 17.4,
-      "eval_f1": 25.36568542568543,
       "step": 1750
     },
     {
       "epoch": 7.2,
-      "grad_norm": 3.7004809379577637,
       "learning_rate": 3e-05,
-      "loss": 1.6336,
       "step": 1800
     },
     {
       "epoch": 7.6,
-      "grad_norm": 3.611534595489502,
       "learning_rate": 3e-05,
-      "loss": 1.5772,
       "step": 1900
     },
     {
       "epoch": 8.0,
-      "grad_norm": 3.311814546585083,
       "learning_rate": 3e-05,
-      "loss": 1.5963,
       "step": 2000
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.5057142857142857,
-      "eval_loss": 2.6106724739074707,
-      "eval_runtime": 5.9096,
-      "eval_samples_per_second": 84.608,
-      "eval_steps_per_second": 10.661,
       "step": 2000
     },
     {
       "epoch": 8.0,
-      "eval_exact_match": 16.4,
-      "eval_f1": 24.649942279942284,
       "step": 2000
     },
     {
       "epoch": 8.4,
-      "grad_norm": 4.057112693786621,
       "learning_rate": 3e-05,
-      "loss": 1.4604,
       "step": 2100
     },
     {
       "epoch": 8.8,
-      "grad_norm": 3.5819571018218994,
       "learning_rate": 3e-05,
-      "loss": 1.482,
       "step": 2200
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.5044761904761905,
-      "eval_loss": 2.6719970703125,
-      "eval_runtime": 5.8123,
-      "eval_samples_per_second": 86.024,
-      "eval_steps_per_second": 10.839,
       "step": 2250
     },
     {
       "epoch": 9.0,
-      "eval_exact_match": 16.0,
-      "eval_f1": 24.24823953823954,
       "step": 2250
     },
     {
       "epoch": 9.2,
-      "grad_norm": 4.373803615570068,
       "learning_rate": 3e-05,
-      "loss": 1.4256,
       "step": 2300
     },
     {
       "epoch": 9.6,
-      "grad_norm": 4.550878047943115,
       "learning_rate": 3e-05,
-      "loss": 1.3686,
       "step": 2400
     },
     {
       "epoch": 10.0,
-      "grad_norm": 4.786899566650391,
       "learning_rate": 3e-05,
-      "loss": 1.4113,
       "step": 2500
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.502,
-      "eval_loss": 2.7534008026123047,
-      "eval_runtime": 5.7013,
-      "eval_samples_per_second": 87.699,
-      "eval_steps_per_second": 11.05,
       "step": 2500
     },
     {
       "epoch": 10.0,
-      "eval_exact_match": 15.4,
-      "eval_f1": 23.549242424242422,
       "step": 2500
     },
     {
       "epoch": 10.4,
-      "grad_norm": 4.900534152984619,
       "learning_rate": 3e-05,
-      "loss": 1.2413,
       "step": 2600
     },
     {
       "epoch": 10.8,
-      "grad_norm": 4.867775917053223,
       "learning_rate": 3e-05,
-      "loss": 1.2975,
       "step": 2700
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.49768253968253967,
-      "eval_loss": 2.879622459411621,
-      "eval_runtime": 5.1716,
-      "eval_samples_per_second": 96.682,
-      "eval_steps_per_second": 12.182,
       "step": 2750
     },
     {
       "epoch": 11.0,
-      "eval_exact_match": 14.4,
-      "eval_f1": 22.511400984636275,
       "step": 2750
     },
     {
       "epoch": 11.2,
-      "grad_norm": 5.5839762687683105,
       "learning_rate": 3e-05,
-      "loss": 1.2278,
       "step": 2800
     },
     {
       "epoch": 11.6,
-      "grad_norm": 5.194231033325195,
       "learning_rate": 3e-05,
-      "loss": 1.1735,
       "step": 2900
     },
     {
       "epoch": 12.0,
-      "grad_norm": 5.112034320831299,
       "learning_rate": 3e-05,
-      "loss": 1.2252,
       "step": 3000
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.49726984126984125,
-      "eval_loss": 2.9103872776031494,
-      "eval_runtime": 5.5732,
-      "eval_samples_per_second": 89.715,
-      "eval_steps_per_second": 11.304,
       "step": 3000
     },
     {
       "epoch": 12.0,
-      "eval_exact_match": 15.2,
-      "eval_f1": 23.043532578532574,
       "step": 3000
     },
     {
       "epoch": 12.4,
-      "grad_norm": 5.978336811065674,
       "learning_rate": 3e-05,
-      "loss": 1.0547,
       "step": 3100
     },
     {
       "epoch": 12.8,
-      "grad_norm": 6.005147457122803,
       "learning_rate": 3e-05,
-      "loss": 1.1115,
       "step": 3200
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.4933968253968254,
-      "eval_loss": 3.0717053413391113,
-      "eval_runtime": 5.9334,
-      "eval_samples_per_second": 84.268,
-      "eval_steps_per_second": 10.618,
       "step": 3250
     },
     {
       "epoch": 13.0,
-      "eval_exact_match": 14.6,
-      "eval_f1": 22.054864188099476,
       "step": 3250
     },
     {
       "epoch": 13.2,
-      "grad_norm": 5.244001865386963,
       "learning_rate": 3e-05,
-      "loss": 1.0529,
       "step": 3300
     },
     {
       "epoch": 13.6,
-      "grad_norm": 5.950862407684326,
       "learning_rate": 3e-05,
-      "loss": 0.9932,
       "step": 3400
     },
     {
       "epoch": 14.0,
-      "grad_norm": 6.013063430786133,
       "learning_rate": 3e-05,
-      "loss": 1.0383,
       "step": 3500
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.49266666666666664,
-      "eval_loss": 3.125173807144165,
-      "eval_runtime": 5.6035,
-      "eval_samples_per_second": 89.231,
-      "eval_steps_per_second": 11.243,
       "step": 3500
     },
     {
       "epoch": 14.0,
-      "eval_exact_match": 15.0,
-      "eval_f1": 21.879737484737486,
       "step": 3500
     },
     {
       "epoch": 14.4,
-      "grad_norm": 5.269447326660156,
       "learning_rate": 3e-05,
-      "loss": 0.8977,
       "step": 3600
     },
     {
       "epoch": 14.8,
-      "grad_norm": 6.836198806762695,
       "learning_rate": 3e-05,
-      "loss": 0.9499,
       "step": 3700
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.4914603174603175,
-      "eval_loss": 3.2221622467041016,
-      "eval_runtime": 5.3505,
-      "eval_samples_per_second": 93.45,
-      "eval_steps_per_second": 11.775,
       "step": 3750
     },
     {
       "epoch": 15.0,
-      "eval_exact_match": 13.4,
-      "eval_f1": 20.79952508276038,
       "step": 3750
     },
     {
       "epoch": 15.2,
-      "grad_norm": 6.335363864898682,
       "learning_rate": 3e-05,
-      "loss": 0.8826,
       "step": 3800
     },
     {
       "epoch": 15.6,
-      "grad_norm": 5.659422874450684,
       "learning_rate": 3e-05,
-      "loss": 0.856,
       "step": 3900
     },
     {
       "epoch": 16.0,
-      "grad_norm": 6.786794662475586,
       "learning_rate": 3e-05,
-      "loss": 0.8822,
       "step": 4000
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.4902222222222222,
-      "eval_loss": 3.3250105381011963,
-      "eval_runtime": 5.1577,
-      "eval_samples_per_second": 96.942,
-      "eval_steps_per_second": 12.215,
       "step": 4000
     },
     {
       "epoch": 16.0,
-      "eval_exact_match": 14.2,
-      "eval_f1": 21.066072261072264,
       "step": 4000
     },
     {
       "epoch": 16.4,
-      "grad_norm": 5.888409614562988,
       "learning_rate": 3e-05,
-      "loss": 0.7622,
       "step": 4100
     },
     {
       "epoch": 16.8,
-      "grad_norm": 7.211881637573242,
       "learning_rate": 3e-05,
-      "loss": 0.8066,
       "step": 4200
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.48803174603174604,
-      "eval_loss": 3.4266793727874756,
-      "eval_runtime": 5.4926,
-      "eval_samples_per_second": 91.032,
-      "eval_steps_per_second": 11.47,
       "step": 4250
     },
     {
       "epoch": 17.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.07007936507936,
       "step": 4250
     },
     {
       "epoch": 17.2,
-      "grad_norm": 6.758857727050781,
       "learning_rate": 3e-05,
-      "loss": 0.7589,
       "step": 4300
     },
     {
       "epoch": 17.6,
-      "grad_norm": 7.02708625793457,
       "learning_rate": 3e-05,
-      "loss": 0.7328,
       "step": 4400
     },
     {
       "epoch": 18.0,
-      "grad_norm": 7.599416732788086,
       "learning_rate": 3e-05,
-      "loss": 0.7585,
       "step": 4500
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.48698412698412696,
-      "eval_loss": 3.494581460952759,
-      "eval_runtime": 5.1805,
-      "eval_samples_per_second": 96.517,
-      "eval_steps_per_second": 12.161,
       "step": 4500
     },
     {
       "epoch": 18.0,
-      "eval_exact_match": 13.0,
-      "eval_f1": 20.018020313020315,
       "step": 4500
     },
     {
       "epoch": 18.4,
-      "grad_norm": 6.632185935974121,
       "learning_rate": 3e-05,
-      "loss": 0.6582,
       "step": 4600
     },
     {
       "epoch": 18.8,
-      "grad_norm": 5.955983638763428,
       "learning_rate": 3e-05,
-      "loss": 0.6964,
       "step": 4700
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.48695238095238097,
-      "eval_loss": 3.539303779602051,
-      "eval_runtime": 5.9008,
-      "eval_samples_per_second": 84.734,
-      "eval_steps_per_second": 10.676,
       "step": 4750
     },
     {
       "epoch": 19.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.46184426684427,
       "step": 4750
     },
     {
       "epoch": 19.2,
-      "grad_norm": 5.696877479553223,
       "learning_rate": 3e-05,
-      "loss": 0.6615,
       "step": 4800
     },
     {
       "epoch": 19.6,
-      "grad_norm": 7.173152446746826,
       "learning_rate": 3e-05,
-      "loss": 0.6289,
       "step": 4900
     },
     {
       "epoch": 20.0,
-      "grad_norm": 6.438709259033203,
       "learning_rate": 3e-05,
-      "loss": 0.6691,
       "step": 5000
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.4853968253968254,
-      "eval_loss": 3.6216397285461426,
-      "eval_runtime": 5.1221,
-      "eval_samples_per_second": 97.616,
-      "eval_steps_per_second": 12.3,
       "step": 5000
     },
     {
       "epoch": 20.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.78559607059607,
       "step": 5000
     },
     {
       "epoch": 20.4,
-      "grad_norm": 6.839606761932373,
       "learning_rate": 3e-05,
-      "loss": 0.5758,
       "step": 5100
     },
     {
       "epoch": 20.8,
-      "grad_norm": 6.10357666015625,
       "learning_rate": 3e-05,
-      "loss": 0.6149,
       "step": 5200
     },
     {
       "epoch": 21.0,
-      "eval_accuracy": 0.483968253968254,
-      "eval_loss": 3.7136757373809814,
-      "eval_runtime": 5.1433,
-      "eval_samples_per_second": 97.214,
-      "eval_steps_per_second": 12.249,
       "step": 5250
     },
     {
       "epoch": 21.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.9559423909424,
       "step": 5250
     },
     {
       "epoch": 21.2,
-      "grad_norm": 5.318624973297119,
       "learning_rate": 3e-05,
-      "loss": 0.5813,
       "step": 5300
     },
     {
       "epoch": 21.6,
-      "grad_norm": 6.141844749450684,
       "learning_rate": 3e-05,
-      "loss": 0.5679,
       "step": 5400
     },
     {
       "epoch": 22.0,
-      "grad_norm": 6.578658580780029,
       "learning_rate": 3e-05,
-      "loss": 0.5868,
       "step": 5500
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.48473015873015873,
-      "eval_loss": 3.7464139461517334,
-      "eval_runtime": 5.1846,
-      "eval_samples_per_second": 96.439,
-      "eval_steps_per_second": 12.151,
       "step": 5500
     },
     {
       "epoch": 22.0,
-      "eval_exact_match": 13.2,
-      "eval_f1": 19.690881504116803,
       "step": 5500
     },
     {
       "epoch": 22.4,
-      "grad_norm": 5.74013614654541,
       "learning_rate": 3e-05,
-      "loss": 0.5198,
       "step": 5600
     },
     {
       "epoch": 22.8,
-      "grad_norm": 5.257986068725586,
       "learning_rate": 3e-05,
-      "loss": 0.5482,
       "step": 5700
     },
     {
       "epoch": 23.0,
-      "eval_accuracy": 0.4843174603174603,
-      "eval_loss": 3.8386082649230957,
-      "eval_runtime": 5.2897,
-      "eval_samples_per_second": 94.524,
-      "eval_steps_per_second": 11.91,
       "step": 5750
     },
     {
       "epoch": 23.0,
-      "eval_exact_match": 12.4,
-      "eval_f1": 18.668079698079698,
       "step": 5750
     },
     {
       "epoch": 23.2,
-      "grad_norm": 5.609368324279785,
       "learning_rate": 3e-05,
-      "loss": 0.5263,
       "step": 5800
     },
     {
       "epoch": 23.6,
-      "grad_norm": 4.999100208282471,
       "learning_rate": 3e-05,
-      "loss": 0.5088,
       "step": 5900
     },
     {
       "epoch": 24.0,
-      "grad_norm": 5.820481777191162,
       "learning_rate": 3e-05,
-      "loss": 0.5378,
       "step": 6000
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.483968253968254,
-      "eval_loss": 3.8912558555603027,
-      "eval_runtime": 5.3394,
-      "eval_samples_per_second": 93.643,
-      "eval_steps_per_second": 11.799,
       "step": 6000
     },
     {
       "epoch": 24.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.066715669950973,
       "step": 6000
     },
     {
       "epoch": 24.4,
-      "grad_norm": 6.189323425292969,
       "learning_rate": 3e-05,
-      "loss": 0.4814,
       "step": 6100
     },
     {
       "epoch": 24.8,
-      "grad_norm": 5.2845377922058105,
       "learning_rate": 3e-05,
-      "loss": 0.4999,
       "step": 6200
     },
     {
       "epoch": 25.0,
-      "eval_accuracy": 0.4838730158730159,
-      "eval_loss": 3.8836069107055664,
-      "eval_runtime": 5.4771,
-      "eval_samples_per_second": 91.289,
-      "eval_steps_per_second": 11.502,
       "step": 6250
     },
     {
       "epoch": 25.0,
-      "eval_exact_match": 13.6,
-      "eval_f1": 20.643636526871827,
       "step": 6250
     },
     {
       "epoch": 25.2,
-      "grad_norm": 4.954625606536865,
       "learning_rate": 3e-05,
-      "loss": 0.4858,
       "step": 6300
     },
     {
       "epoch": 25.6,
-      "grad_norm": 6.256702899932861,
       "learning_rate": 3e-05,
-      "loss": 0.4767,
       "step": 6400
     },
     {
       "epoch": 26.0,
-      "grad_norm": 4.940384387969971,
       "learning_rate": 3e-05,
-      "loss": 0.4916,
       "step": 6500
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.4831111111111111,
-      "eval_loss": 3.9729866981506348,
-      "eval_runtime": 5.8996,
-      "eval_samples_per_second": 84.752,
-      "eval_steps_per_second": 10.679,
       "step": 6500
     },
     {
       "epoch": 26.0,
-      "eval_exact_match": 12.6,
-      "eval_f1": 19.084161540214172,
       "step": 6500
     },
     {
       "epoch": 26.4,
-      "grad_norm": 4.9096879959106445,
       "learning_rate": 3e-05,
-      "loss": 0.4407,
       "step": 6600
     },
     {
       "epoch": 26.8,
-      "grad_norm": 5.645080089569092,
       "learning_rate": 3e-05,
-      "loss": 0.4695,
       "step": 6700
     },
     {
       "epoch": 27.0,
-      "eval_accuracy": 0.4840952380952381,
-      "eval_loss": 4.012541770935059,
-      "eval_runtime": 5.3441,
-      "eval_samples_per_second": 93.561,
-      "eval_steps_per_second": 11.789,
       "step": 6750
     },
     {
       "epoch": 27.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 19.277558552558556,
       "step": 6750
     },
     {
       "epoch": 27.2,
-      "grad_norm": 4.098562717437744,
       "learning_rate": 3e-05,
-      "loss": 0.4508,
       "step": 6800
     },
     {
       "epoch": 27.6,
-      "grad_norm": 4.553615570068359,
       "learning_rate": 3e-05,
-      "loss": 0.4507,
       "step": 6900
     },
     {
       "epoch": 28.0,
-      "grad_norm": 4.436415195465088,
       "learning_rate": 3e-05,
-      "loss": 0.4596,
       "step": 7000
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.48355555555555557,
-      "eval_loss": 3.973613977432251,
-      "eval_runtime": 5.9099,
-      "eval_samples_per_second": 84.604,
-      "eval_steps_per_second": 10.66,
       "step": 7000
     },
     {
       "epoch": 28.0,
-      "eval_exact_match": 12.6,
-      "eval_f1": 19.08292374292374,
       "step": 7000
     },
     {
       "epoch": 28.4,
-      "grad_norm": 5.251562118530273,
       "learning_rate": 3e-05,
-      "loss": 0.425,
       "step": 7100
     },
     {
       "epoch": 28.8,
-      "grad_norm": 4.088305950164795,
       "learning_rate": 3e-05,
-      "loss": 0.4385,
       "step": 7200
     },
     {
       "epoch": 29.0,
-      "eval_accuracy": 0.4831111111111111,
-      "eval_loss": 4.002015590667725,
-      "eval_runtime": 5.1468,
-      "eval_samples_per_second": 97.149,
-      "eval_steps_per_second": 12.241,
       "step": 7250
     },
     {
       "epoch": 29.0,
-      "eval_exact_match": 10.4,
-      "eval_f1": 17.186490731490732,
       "step": 7250
     },
     {
       "epoch": 29.2,
-      "grad_norm": 4.576737880706787,
       "learning_rate": 3e-05,
-      "loss": 0.4254,
       "step": 7300
     },
     {
       "epoch": 29.6,
-      "grad_norm": 4.678070545196533,
       "learning_rate": 3e-05,
-      "loss": 0.4256,
       "step": 7400
     },
     {
       "epoch": 30.0,
-      "grad_norm": 3.458078384399414,
       "learning_rate": 3e-05,
-      "loss": 0.4373,
       "step": 7500
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.4826984126984127,
-      "eval_loss": 4.131596565246582,
-      "eval_runtime": 5.3083,
-      "eval_samples_per_second": 94.193,
-      "eval_steps_per_second": 11.868,
       "step": 7500
     },
     {
       "epoch": 30.0,
-      "eval_exact_match": 12.0,
-      "eval_f1": 18.844373567608866,
       "step": 7500
     },
     {
       "epoch": 30.4,
-      "grad_norm": 3.631209373474121,
       "learning_rate": 3e-05,
-      "loss": 0.4004,
       "step": 7600
     },
     {
       "epoch": 30.8,
-      "grad_norm": 4.336301803588867,
       "learning_rate": 3e-05,
-      "loss": 0.42,
       "step": 7700
     },
     {
       "epoch": 31.0,
-      "eval_accuracy": 0.4821269841269841,
-      "eval_loss": 4.145514011383057,
-      "eval_runtime": 5.2872,
-      "eval_samples_per_second": 94.567,
-      "eval_steps_per_second": 11.915,
       "step": 7750
     },
     {
       "epoch": 31.0,
-      "eval_exact_match": 11.4,
-      "eval_f1": 18.586880341880345,
       "step": 7750
     },
     {
       "epoch": 31.2,
-      "grad_norm": 6.021107196807861,
       "learning_rate": 3e-05,
-      "loss": 0.41,
       "step": 7800
     },
     {
       "epoch": 31.6,
-      "grad_norm": 4.326528549194336,
       "learning_rate": 3e-05,
-      "loss": 0.4062,
       "step": 7900
     },
     {
       "epoch": 32.0,
-      "grad_norm": 4.471799850463867,
       "learning_rate": 3e-05,
-      "loss": 0.4181,
       "step": 8000
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.4832063492063492,
-      "eval_loss": 4.190051555633545,
-      "eval_runtime": 5.1726,
-      "eval_samples_per_second": 96.663,
-      "eval_steps_per_second": 12.179,
       "step": 8000
     },
     {
       "epoch": 32.0,
-      "eval_exact_match": 12.8,
-      "eval_f1": 18.973066378066374,
       "step": 8000
     },
     {
       "epoch": 32.4,
-      "grad_norm": 2.764112949371338,
       "learning_rate": 3e-05,
-      "loss": 0.3877,
       "step": 8100
     },
     {
       "epoch": 32.8,
-      "grad_norm": 3.0358901023864746,
       "learning_rate": 3e-05,
-      "loss": 0.408,
       "step": 8200
     },
     {
       "epoch": 33.0,
-      "eval_accuracy": 0.4824761904761905,
-      "eval_loss": 4.1645917892456055,
-      "eval_runtime": 8.3467,
-      "eval_samples_per_second": 59.904,
-      "eval_steps_per_second": 7.548,
       "step": 8250
     },
     {
       "epoch": 33.0,
-      "eval_exact_match": 12.2,
-      "eval_f1": 18.597334887334878,
       "step": 8250
     },
     {
       "epoch": 33.2,
-      "grad_norm": 4.575717926025391,
       "learning_rate": 3e-05,
-      "loss": 0.3948,
       "step": 8300
     },
     {
       "epoch": 33.6,
-      "grad_norm": 3.336059331893921,
       "learning_rate": 3e-05,
-      "loss": 0.392,
       "step": 8400
     },
     {
       "epoch": 34.0,
-      "grad_norm": 4.098897933959961,
       "learning_rate": 3e-05,
-      "loss": 0.407,
       "step": 8500
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.48225396825396827,
-      "eval_loss": 4.259836196899414,
-      "eval_runtime": 5.1565,
-      "eval_samples_per_second": 96.964,
-      "eval_steps_per_second": 12.217,
       "step": 8500
     },
     {
       "epoch": 34.0,
-      "eval_exact_match": 11.8,
-      "eval_f1": 17.92277590830222,
       "step": 8500
     },
     {
       "epoch": 34.4,
-      "grad_norm": 3.956512212753296,
       "learning_rate": 3e-05,
-      "loss": 0.3791,
       "step": 8600
     },
     {
       "epoch": 34.8,
-      "grad_norm": 8.134405136108398,
       "learning_rate": 3e-05,
-      "loss": 0.3964,
       "step": 8700
     },
     {
       "epoch": 35.0,
-      "eval_accuracy": 0.4823174603174603,
-      "eval_loss": 4.241950035095215,
-      "eval_runtime": 5.8427,
-      "eval_samples_per_second": 85.577,
-      "eval_steps_per_second": 10.783,
       "step": 8750
     },
     {
       "epoch": 35.0,
-      "eval_exact_match": 10.6,
-      "eval_f1": 16.829891774891774,
       "step": 8750
     },
     {
       "epoch": 35.2,
-      "grad_norm": 6.219916820526123,
       "learning_rate": 3e-05,
-      "loss": 0.3828,
       "step": 8800
     },
     {
       "epoch": 35.6,
-      "grad_norm": 2.9664266109466553,
       "learning_rate": 3e-05,
-      "loss": 0.3837,
       "step": 8900
     },
     {
       "epoch": 36.0,
-      "grad_norm": 6.401096343994141,
       "learning_rate": 3e-05,
-      "loss": 0.3955,
       "step": 9000
     },
     {
       "epoch": 36.0,
-      "eval_accuracy": 0.4831111111111111,
-      "eval_loss": 4.261737823486328,
-      "eval_runtime": 5.1671,
-      "eval_samples_per_second": 96.766,
-      "eval_steps_per_second": 12.192,
       "step": 9000
     },
     {
       "epoch": 36.0,
-      "eval_exact_match": 11.8,
-      "eval_f1": 17.449040404040403,
       "step": 9000
     },
     {
       "epoch": 36.4,
-      "grad_norm": 4.2326436042785645,
       "learning_rate": 3e-05,
-      "loss": 0.3678,
       "step": 9100
     },
     {
       "epoch": 36.8,
-      "grad_norm": 3.980539321899414,
       "learning_rate": 3e-05,
-      "loss": 0.3863,
       "step": 9200
     },
     {
       "epoch": 37.0,
-      "eval_accuracy": 0.48263492063492064,
-      "eval_loss": 4.216386318206787,
-      "eval_runtime": 5.1783,
-      "eval_samples_per_second": 96.557,
-      "eval_steps_per_second": 12.166,
       "step": 9250
     },
     {
       "epoch": 37.0,
-      "eval_exact_match": 11.4,
-      "eval_f1": 18.010262286732875,
       "step": 9250
     },
     {
       "epoch": 37.2,
-      "grad_norm": 4.116250514984131,
       "learning_rate": 3e-05,
-      "loss": 0.3749,
       "step": 9300
     },
     {
       "epoch": 37.6,
-      "grad_norm": 4.159953594207764,
       "learning_rate": 3e-05,
-      "loss": 0.3754,
       "step": 9400
     },
     {
       "epoch": 38.0,
-      "grad_norm": 4.223153591156006,
       "learning_rate": 3e-05,
-      "loss": 0.3872,
       "step": 9500
     },
     {
       "epoch": 38.0,
-      "eval_accuracy": 0.4832698412698413,
-      "eval_loss": 4.234501838684082,
-      "eval_runtime": 5.4857,
-      "eval_samples_per_second": 91.146,
-      "eval_steps_per_second": 11.484,
       "step": 9500
     },
     {
       "epoch": 38.0,
-      "eval_exact_match": 12.2,
-      "eval_f1": 18.225209235209235,
       "step": 9500
     },
     {
       "epoch": 38.4,
-      "grad_norm": 4.053731918334961,
       "learning_rate": 3e-05,
-      "loss": 0.363,
       "step": 9600
     },
     {
       "epoch": 38.8,
-      "grad_norm": 2.763763189315796,
       "learning_rate": 3e-05,
-      "loss": 0.3772,
       "step": 9700
     },
     {
       "epoch": 39.0,
-      "eval_accuracy": 0.484,
-      "eval_loss": 4.306982517242432,
-      "eval_runtime": 5.2962,
-      "eval_samples_per_second": 94.408,
-      "eval_steps_per_second": 11.895,
       "step": 9750
     },
     {
       "epoch": 39.0,
-      "eval_exact_match": 12.0,
-      "eval_f1": 18.3022582972583,
       "step": 9750
     },
     {
       "epoch": 39.2,
-      "grad_norm": 1.900417447090149,
       "learning_rate": 3e-05,
-      "loss": 0.3713,
       "step": 9800
     },
     {
       "epoch": 39.6,
-      "grad_norm": 3.697948932647705,
       "learning_rate": 3e-05,
-      "loss": 0.365,
       "step": 9900
     },
     {
       "epoch": 40.0,
-      "grad_norm": 3.428057909011841,
       "learning_rate": 3e-05,
-      "loss": 0.3776,
       "step": 10000
     },
     {
       "epoch": 40.0,
-      "eval_accuracy": 0.484,
-      "eval_loss": 4.309150218963623,
-      "eval_runtime": 5.1226,
-      "eval_samples_per_second": 97.607,
-      "eval_steps_per_second": 12.298,
       "step": 10000
     },
     {
       "epoch": 40.0,
-      "eval_exact_match": 12.2,
-      "eval_f1": 17.885966810966814,
       "step": 10000
     },
     {
       "epoch": 40.4,
-      "grad_norm": 4.865767955780029,
       "learning_rate": 3e-05,
-      "loss": 0.3578,
       "step": 10100
     },
     {
       "epoch": 40.8,
-      "grad_norm": 3.1257121562957764,
       "learning_rate": 3e-05,
-      "loss": 0.371,
       "step": 10200
     },
     {
       "epoch": 41.0,
-      "eval_accuracy": 0.484,
-      "eval_loss": 4.317361831665039,
-      "eval_runtime": 5.8769,
-      "eval_samples_per_second": 85.079,
-      "eval_steps_per_second": 10.72,
       "step": 10250
     },
     {
       "epoch": 41.0,
-      "eval_exact_match": 12.2,
-      "eval_f1": 18.863903318903322,
       "step": 10250
     },
     {
       "epoch": 41.2,
-      "grad_norm": 3.8052432537078857,
       "learning_rate": 3e-05,
-      "loss": 0.3603,
       "step": 10300
     },
     {
       "epoch": 41.6,
-      "grad_norm": 2.9517312049865723,
       "learning_rate": 3e-05,
-      "loss": 0.3642,
       "step": 10400
     },
     {
       "epoch": 42.0,
-      "grad_norm": 3.1078877449035645,
       "learning_rate": 3e-05,
-      "loss": 0.3713,
       "step": 10500
     },
     {
       "epoch": 42.0,
-      "eval_accuracy": 0.48253968253968255,
-      "eval_loss": 4.32707405090332,
-      "eval_runtime": 5.1452,
-      "eval_samples_per_second": 97.179,
-      "eval_steps_per_second": 12.245,
       "step": 10500
     },
     {
       "epoch": 42.0,
-      "eval_exact_match": 12.2,
-      "eval_f1": 18.312861582861586,
       "step": 10500
     },
     {
       "epoch": 42.4,
-      "grad_norm": 2.896658420562744,
       "learning_rate": 3e-05,
-      "loss": 0.3507,
       "step": 10600
     },
     {
       "epoch": 42.8,
-      "grad_norm": 4.642370700836182,
       "learning_rate": 3e-05,
-      "loss": 0.3637,
       "step": 10700
     },
     {
       "epoch": 43.0,
-      "eval_accuracy": 0.4831746031746032,
-      "eval_loss": 4.31342887878418,
-      "eval_runtime": 5.3289,
-      "eval_samples_per_second": 93.828,
-      "eval_steps_per_second": 11.822,
       "step": 10750
     },
     {
       "epoch": 43.0,
-      "eval_exact_match": 12.4,
-      "eval_f1": 18.46612554112554,
       "step": 10750
     },
     {
       "epoch": 43.2,
-      "grad_norm": 2.53061842918396,
       "learning_rate": 3e-05,
-      "loss": 0.3594,
       "step": 10800
     },
     {
       "epoch": 43.6,
-      "grad_norm": 3.4248464107513428,
       "learning_rate": 3e-05,
-      "loss": 0.3566,
       "step": 10900
     },
     {
       "epoch": 44.0,
-      "grad_norm": 4.101605415344238,
       "learning_rate": 3e-05,
-      "loss": 0.3669,
       "step": 11000
     },
     {
       "epoch": 44.0,
-      "eval_accuracy": 0.48425396825396827,
-      "eval_loss": 4.343206882476807,
-      "eval_runtime": 5.8446,
-      "eval_samples_per_second": 85.55,
-      "eval_steps_per_second": 10.779,
       "step": 11000
     },
     {
       "epoch": 44.0,
-      "eval_exact_match": 12.4,
-      "eval_f1": 18.18954434454435,
       "step": 11000
     },
     {
       "epoch": 44.4,
-      "grad_norm": 2.787489175796509,
       "learning_rate": 3e-05,
-      "loss": 0.3474,
       "step": 11100
     },
     {
       "epoch": 44.8,
-      "grad_norm": 2.9205799102783203,
       "learning_rate": 3e-05,
-      "loss": 0.3641,
       "step": 11200
     },
     {
       "epoch": 45.0,
-      "eval_accuracy": 0.48333333333333334,
-      "eval_loss": 4.3401641845703125,
-      "eval_runtime": 5.327,
-      "eval_samples_per_second": 93.862,
-      "eval_steps_per_second": 11.827,
       "step": 11250
     },
     {
       "epoch": 45.0,
-      "eval_exact_match": 11.8,
-      "eval_f1": 18.21716564877734,
       "step": 11250
     },
     {
       "epoch": 45.2,
-      "grad_norm": 3.2288622856140137,
       "learning_rate": 3e-05,
-      "loss": 0.3508,
       "step": 11300
     },
     {
       "epoch": 45.6,
-      "grad_norm": 2.1666228771209717,
       "learning_rate": 3e-05,
-      "loss": 0.3542,
       "step": 11400
     },
     {
       "epoch": 46.0,
-      "grad_norm": 2.8615407943725586,
       "learning_rate": 3e-05,
-      "loss": 0.3601,
       "step": 11500
     },
     {
       "epoch": 46.0,
-      "eval_accuracy": 0.4828571428571429,
-      "eval_loss": 4.273568630218506,
-      "eval_runtime": 5.3134,
-      "eval_samples_per_second": 94.102,
-      "eval_steps_per_second": 11.857,
       "step": 11500
     },
     {
       "epoch": 46.0,
-      "eval_exact_match": 12.4,
-      "eval_f1": 18.886608946608945,
       "step": 11500
     },
     {
       "epoch": 46.4,
-      "grad_norm": 3.4432475566864014,
       "learning_rate": 3e-05,
-      "loss": 0.346,
       "step": 11600
     },
     {
       "epoch": 46.8,
-      "grad_norm": 2.3266401290893555,
       "learning_rate": 3e-05,
-      "loss": 0.3549,
       "step": 11700
     },
     {
       "epoch": 47.0,
-      "eval_accuracy": 0.484,
-      "eval_loss": 4.404895305633545,
-      "eval_runtime": 6.1406,
-      "eval_samples_per_second": 81.425,
-      "eval_steps_per_second": 10.26,
       "step": 11750
     },
     {
       "epoch": 47.0,
-      "eval_exact_match": 12.6,
-      "eval_f1": 18.899343434343436,
       "step": 11750
     },
     {
       "epoch": 47.2,
-      "grad_norm": 2.2204642295837402,
       "learning_rate": 3e-05,
-      "loss": 0.3487,
       "step": 11800
     },
     {
       "epoch": 47.6,
-      "grad_norm": 1.7986669540405273,
       "learning_rate": 3e-05,
-      "loss": 0.3496,
       "step": 11900
     },
     {
       "epoch": 48.0,
-      "grad_norm": 2.7153778076171875,
       "learning_rate": 3e-05,
-      "loss": 0.3551,
       "step": 12000
     },
     {
       "epoch": 48.0,
-      "eval_accuracy": 0.4831111111111111,
-      "eval_loss": 4.366610527038574,
-      "eval_runtime": 5.1161,
-      "eval_samples_per_second": 97.73,
-      "eval_steps_per_second": 12.314,
       "step": 12000
     },
     {
       "epoch": 48.0,
-      "eval_exact_match": 12.2,
-      "eval_f1": 18.688535353535357,
       "step": 12000
     },
     {
       "epoch": 48.4,
-      "grad_norm": 2.1514780521392822,
       "learning_rate": 3e-05,
-      "loss": 0.3398,
       "step": 12100
     },
     {
       "epoch": 48.8,
-      "grad_norm": 2.468597412109375,
       "learning_rate": 3e-05,
-      "loss": 0.354,
       "step": 12200
     },
     {
       "epoch": 49.0,
-      "eval_accuracy": 0.4836190476190476,
-      "eval_loss": 4.405726432800293,
-      "eval_runtime": 5.3426,
-      "eval_samples_per_second": 93.587,
-      "eval_steps_per_second": 11.792,
       "step": 12250
     },
     {
       "epoch": 49.0,
-      "eval_exact_match": 11.8,
-      "eval_f1": 18.683297258297255,
       "step": 12250
     }
   ],
   "logging_steps": 100,
   "max_steps": 12500,
-  "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
   "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 3.747137234046812e+17,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 0.4,
       "learning_rate": 3e-05,
+      "loss": 2.3698,
       "step": 100
     },
     {
       "epoch": 0.8,
       "learning_rate": 3e-05,
+      "loss": 1.8255,
       "step": 200
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6054430379746836,
+      "eval_loss": 1.83919358253479,
+      "eval_runtime": 4.687,
+      "eval_samples_per_second": 106.679,
+      "eval_steps_per_second": 13.442,
       "step": 250
     },
     {
       "epoch": 1.0,
+      "eval_exact_match": 25.2,
+      "eval_f1": 34.656485532011864,
       "step": 250
     },
     {
       "epoch": 1.2,
       "learning_rate": 3e-05,
+      "loss": 1.7843,
       "step": 300
     },
     {
       "epoch": 1.6,
       "learning_rate": 3e-05,
+      "loss": 1.7546,
       "step": 400
     },
     {
       "epoch": 2.0,
       "learning_rate": 3e-05,
+      "loss": 1.7368,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6078227848101266,
+      "eval_loss": 1.81111478805542,
+      "eval_runtime": 4.6445,
+      "eval_samples_per_second": 107.654,
+      "eval_steps_per_second": 13.564,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_exact_match": 26.0,
+      "eval_f1": 35.86535000087634,
       "step": 500
     },
     {
       "epoch": 2.4,
       "learning_rate": 3e-05,
+      "loss": 1.6749,
       "step": 600
     },
     {
       "epoch": 2.8,
       "learning_rate": 3e-05,
+      "loss": 1.6689,
       "step": 700
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.607493670886076,
+      "eval_loss": 1.8103100061416626,
+      "eval_runtime": 4.7447,
+      "eval_samples_per_second": 105.381,
+      "eval_steps_per_second": 13.278,
       "step": 750
     },
     {
       "epoch": 3.0,
+      "eval_exact_match": 23.6,
+      "eval_f1": 33.977337662337675,
       "step": 750
     },
     {
       "epoch": 3.2,
       "learning_rate": 3e-05,
+      "loss": 1.6205,
       "step": 800
     },
     {
       "epoch": 3.6,
       "learning_rate": 3e-05,
+      "loss": 1.556,
       "step": 900
     },
     {
       "epoch": 4.0,
       "learning_rate": 3e-05,
+      "loss": 1.5555,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6067341772151899,
+      "eval_loss": 1.8414338827133179,
+      "eval_runtime": 5.1526,
+      "eval_samples_per_second": 97.039,
+      "eval_steps_per_second": 12.227,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_exact_match": 24.6,
+      "eval_f1": 35.02336940836942,
       "step": 1000
     },
     {
       "epoch": 4.4,
       "learning_rate": 3e-05,
+      "loss": 1.4289,
       "step": 1100
     },
     {
       "epoch": 4.8,
       "learning_rate": 3e-05,
+      "loss": 1.4559,
       "step": 1200
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.6037721518987341,
+      "eval_loss": 1.8992472887039185,
+      "eval_runtime": 5.1672,
+      "eval_samples_per_second": 96.764,
+      "eval_steps_per_second": 12.192,
       "step": 1250
     },
     {
       "epoch": 5.0,
+      "eval_exact_match": 23.0,
+      "eval_f1": 33.18553391053392,
       "step": 1250
     },
     {
       "epoch": 5.2,
       "learning_rate": 3e-05,
+      "loss": 1.3828,
       "step": 1300
     },
     {
       "epoch": 5.6,
       "learning_rate": 3e-05,
+      "loss": 1.3271,
       "step": 1400
     },
     {
       "epoch": 6.0,
       "learning_rate": 3e-05,
+      "loss": 1.3514,
       "step": 1500
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.6018227848101266,
+      "eval_loss": 1.9584064483642578,
+      "eval_runtime": 5.1648,
+      "eval_samples_per_second": 96.81,
+      "eval_steps_per_second": 12.198,
       "step": 1500
     },
     {
       "epoch": 6.0,
+      "eval_exact_match": 22.2,
+      "eval_f1": 31.058798230754768,
       "step": 1500
     },
     {
       "epoch": 6.4,
       "learning_rate": 3e-05,
+      "loss": 1.2239,
       "step": 1600
     },
     {
       "epoch": 6.8,
       "learning_rate": 3e-05,
+      "loss": 1.2491,
       "step": 1700
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.5999746835443038,
+      "eval_loss": 2.030003070831299,
+      "eval_runtime": 4.4411,
+      "eval_samples_per_second": 112.586,
+      "eval_steps_per_second": 14.186,
       "step": 1750
     },
     {
       "epoch": 7.0,
+      "eval_exact_match": 21.4,
+      "eval_f1": 29.993917748917756,
       "step": 1750
     },
     {
       "epoch": 7.2,
       "learning_rate": 3e-05,
+      "loss": 1.1873,
       "step": 1800
     },
     {
       "epoch": 7.6,
       "learning_rate": 3e-05,
+      "loss": 1.1455,
       "step": 1900
     },
     {
       "epoch": 8.0,
       "learning_rate": 3e-05,
+      "loss": 1.1749,
       "step": 2000
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.5981518987341772,
+      "eval_loss": 2.1050591468811035,
+      "eval_runtime": 4.433,
+      "eval_samples_per_second": 112.79,
+      "eval_steps_per_second": 14.211,
       "step": 2000
     },
     {
       "epoch": 8.0,
+      "eval_exact_match": 22.0,
+      "eval_f1": 30.363661145617677,
       "step": 2000
     },
     {
       "epoch": 8.4,
       "learning_rate": 3e-05,
+      "loss": 1.0398,
       "step": 2100
     },
     {
       "epoch": 8.8,
       "learning_rate": 3e-05,
+      "loss": 1.0769,
       "step": 2200
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.5953924050632912,
+      "eval_loss": 2.194838762283325,
+      "eval_runtime": 4.593,
+      "eval_samples_per_second": 108.861,
+      "eval_steps_per_second": 13.716,
       "step": 2250
     },
     {
       "epoch": 9.0,
+      "eval_exact_match": 20.8,
+      "eval_f1": 29.184876573497927,
       "step": 2250
     },
     {
       "epoch": 9.2,
       "learning_rate": 3e-05,
+      "loss": 1.0208,
       "step": 2300
     },
     {
       "epoch": 9.6,
       "learning_rate": 3e-05,
+      "loss": 0.9809,
       "step": 2400
     },
     {
       "epoch": 10.0,
       "learning_rate": 3e-05,
+      "loss": 1.0134,
       "step": 2500
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.594253164556962,
+      "eval_loss": 2.2515170574188232,
+      "eval_runtime": 5.1544,
+      "eval_samples_per_second": 97.004,
+      "eval_steps_per_second": 12.223,
       "step": 2500
     },
     {
       "epoch": 10.0,
+      "eval_exact_match": 20.8,
+      "eval_f1": 28.809766314958125,
       "step": 2500
     },
     {
       "epoch": 10.4,
       "learning_rate": 3e-05,
+      "loss": 0.8808,
       "step": 2600
     },
     {
       "epoch": 10.8,
       "learning_rate": 3e-05,
+      "loss": 0.9209,
       "step": 2700
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.592126582278481,
+      "eval_loss": 2.3421294689178467,
+      "eval_runtime": 5.1459,
+      "eval_samples_per_second": 97.164,
+      "eval_steps_per_second": 12.243,
       "step": 2750
     },
     {
       "epoch": 11.0,
+      "eval_exact_match": 20.8,
+      "eval_f1": 29.063373818565633,
       "step": 2750
     },
     {
       "epoch": 11.2,
       "learning_rate": 3e-05,
+      "loss": 0.881,
       "step": 2800
     },
     {
       "epoch": 11.6,
       "learning_rate": 3e-05,
+      "loss": 0.8321,
       "step": 2900
     },
     {
       "epoch": 12.0,
       "learning_rate": 3e-05,
+      "loss": 0.8636,
       "step": 3000
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.5905063291139241,
+      "eval_loss": 2.4442591667175293,
+      "eval_runtime": 4.5233,
+      "eval_samples_per_second": 110.538,
+      "eval_steps_per_second": 13.928,
       "step": 3000
     },
     {
       "epoch": 12.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 27.344633307868605,
       "step": 3000
     },
     {
       "epoch": 12.4,
       "learning_rate": 3e-05,
+      "loss": 0.7437,
       "step": 3100
     },
     {
       "epoch": 12.8,
       "learning_rate": 3e-05,
+      "loss": 0.7866,
       "step": 3200
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.588,
+      "eval_loss": 2.557358741760254,
+      "eval_runtime": 4.7922,
+      "eval_samples_per_second": 104.336,
+      "eval_steps_per_second": 13.146,
       "step": 3250
     },
     {
       "epoch": 13.0,
+      "eval_exact_match": 20.8,
+      "eval_f1": 28.885005713240997,
       "step": 3250
     },
     {
       "epoch": 13.2,
       "learning_rate": 3e-05,
+      "loss": 0.7408,
       "step": 3300
     },
     {
       "epoch": 13.6,
       "learning_rate": 3e-05,
+      "loss": 0.7067,
       "step": 3400
     },
     {
       "epoch": 14.0,
       "learning_rate": 3e-05,
+      "loss": 0.7448,
       "step": 3500
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.5866835443037974,
+      "eval_loss": 2.579989194869995,
+      "eval_runtime": 5.1679,
+      "eval_samples_per_second": 96.752,
+      "eval_steps_per_second": 12.191,
       "step": 3500
     },
     {
       "epoch": 14.0,
+      "eval_exact_match": 20.4,
+      "eval_f1": 27.161796603510165,
       "step": 3500
     },
     {
       "epoch": 14.4,
       "learning_rate": 3e-05,
+      "loss": 0.637,
       "step": 3600
     },
     {
       "epoch": 14.8,
       "learning_rate": 3e-05,
+      "loss": 0.6709,
       "step": 3700
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.5845569620253165,
+      "eval_loss": 2.6911704540252686,
+      "eval_runtime": 5.1488,
+      "eval_samples_per_second": 97.111,
+      "eval_steps_per_second": 12.236,
       "step": 3750
     },
     {
       "epoch": 15.0,
+      "eval_exact_match": 20.6,
+      "eval_f1": 27.5548714031067,
       "step": 3750
     },
     {
       "epoch": 15.2,
       "learning_rate": 3e-05,
+      "loss": 0.6375,
       "step": 3800
     },
     {
       "epoch": 15.6,
       "learning_rate": 3e-05,
+      "loss": 0.6088,
       "step": 3900
     },
     {
       "epoch": 16.0,
       "learning_rate": 3e-05,
+      "loss": 0.6439,
       "step": 4000
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.5853164556962025,
+      "eval_loss": 2.7545602321624756,
+      "eval_runtime": 4.9217,
+      "eval_samples_per_second": 101.591,
+      "eval_steps_per_second": 12.8,
       "step": 4000
     },
     {
       "epoch": 16.0,
+      "eval_exact_match": 19.2,
+      "eval_f1": 26.665030133265436,
       "step": 4000
     },
     {
       "epoch": 16.4,
       "learning_rate": 3e-05,
+      "loss": 0.5552,
       "step": 4100
     },
     {
       "epoch": 16.8,
       "learning_rate": 3e-05,
+      "loss": 0.5869,
       "step": 4200
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.5831139240506329,
+      "eval_loss": 2.799652338027954,
+      "eval_runtime": 5.1403,
+      "eval_samples_per_second": 97.271,
+      "eval_steps_per_second": 12.256,
       "step": 4250
     },
     {
       "epoch": 17.0,
+      "eval_exact_match": 19.8,
+      "eval_f1": 26.345481903717197,
       "step": 4250
     },
     {
       "epoch": 17.2,
       "learning_rate": 3e-05,
+      "loss": 0.5547,
       "step": 4300
     },
     {
       "epoch": 17.6,
       "learning_rate": 3e-05,
+      "loss": 0.5336,
       "step": 4400
     },
     {
       "epoch": 18.0,
       "learning_rate": 3e-05,
+      "loss": 0.5596,
       "step": 4500
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.5832911392405064,
+      "eval_loss": 2.843494176864624,
+      "eval_runtime": 5.1507,
+      "eval_samples_per_second": 97.074,
+      "eval_steps_per_second": 12.231,
       "step": 4500
     },
     {
       "epoch": 18.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 27.017439945675243,
       "step": 4500
     },
     {
       "epoch": 18.4,
       "learning_rate": 3e-05,
+      "loss": 0.4871,
       "step": 4600
     },
     {
       "epoch": 18.8,
       "learning_rate": 3e-05,
+      "loss": 0.5205,
       "step": 4700
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.5832911392405064,
+      "eval_loss": 2.9509618282318115,
+      "eval_runtime": 4.4345,
+      "eval_samples_per_second": 112.751,
+      "eval_steps_per_second": 14.207,
       "step": 4750
     },
     {
       "epoch": 19.0,
+      "eval_exact_match": 20.0,
+      "eval_f1": 27.173774722010016,
       "step": 4750
     },
     {
       "epoch": 19.2,
       "learning_rate": 3e-05,
+      "loss": 0.4924,
       "step": 4800
     },
     {
       "epoch": 19.6,
       "learning_rate": 3e-05,
+      "loss": 0.4789,
       "step": 4900
     },
     {
       "epoch": 20.0,
       "learning_rate": 3e-05,
+      "loss": 0.5045,
       "step": 5000
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.5824050632911393,
+      "eval_loss": 2.9796953201293945,
+      "eval_runtime": 5.149,
+      "eval_samples_per_second": 97.106,
+      "eval_steps_per_second": 12.235,
       "step": 5000
     },
     {
       "epoch": 20.0,
+      "eval_exact_match": 19.6,
+      "eval_f1": 27.330243808479107,
       "step": 5000
     },
     {
       "epoch": 20.4,
       "learning_rate": 3e-05,
+      "loss": 0.438,
       "step": 5100
     },
     {
       "epoch": 20.8,
       "learning_rate": 3e-05,
+      "loss": 0.47,
       "step": 5200
     },
     {
       "epoch": 21.0,
+      "eval_accuracy": 0.583240506329114,
+      "eval_loss": 3.052990674972534,
+      "eval_runtime": 4.7357,
+      "eval_samples_per_second": 105.582,
+      "eval_steps_per_second": 13.303,
       "step": 5250
     },
     {
       "epoch": 21.0,
+      "eval_exact_match": 19.2,
+      "eval_f1": 27.186805025040325,
       "step": 5250
     },
     {
       "epoch": 21.2,
       "learning_rate": 3e-05,
+      "loss": 0.4527,
       "step": 5300
     },
     {
       "epoch": 21.6,
       "learning_rate": 3e-05,
+      "loss": 0.4373,
       "step": 5400
     },
     {
       "epoch": 22.0,
       "learning_rate": 3e-05,
+      "loss": 0.455,
       "step": 5500
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.5820506329113924,
+      "eval_loss": 3.0803613662719727,
+      "eval_runtime": 4.7375,
+      "eval_samples_per_second": 105.541,
+      "eval_steps_per_second": 13.298,
       "step": 5500
     },
     {
       "epoch": 22.0,
+      "eval_exact_match": 19.6,
+      "eval_f1": 27.31246603070133,
       "step": 5500
     },
     {
       "epoch": 22.4,
       "learning_rate": 3e-05,
+      "loss": 0.4045,
       "step": 5600
     },
     {
       "epoch": 22.8,
       "learning_rate": 3e-05,
+      "loss": 0.4332,
       "step": 5700
     },
     {
       "epoch": 23.0,
+      "eval_accuracy": 0.5813164556962025,
+      "eval_loss": 3.193831443786621,
+      "eval_runtime": 4.7397,
+      "eval_samples_per_second": 105.491,
+      "eval_steps_per_second": 13.292,
       "step": 5750
     },
     {
       "epoch": 23.0,
+      "eval_exact_match": 20.2,
+      "eval_f1": 27.400903149138443,
       "step": 5750
     },
     {
       "epoch": 23.2,
       "learning_rate": 3e-05,
+      "loss": 0.411,
       "step": 5800
     },
     {
       "epoch": 23.6,
       "learning_rate": 3e-05,
+      "loss": 0.4073,
       "step": 5900
     },
     {
       "epoch": 24.0,
       "learning_rate": 3e-05,
+      "loss": 0.4171,
       "step": 6000
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.5815949367088608,
+      "eval_loss": 3.1835598945617676,
+      "eval_runtime": 4.9019,
+      "eval_samples_per_second": 102.002,
+      "eval_steps_per_second": 12.852,
       "step": 6000
     },
     {
       "epoch": 24.0,
+      "eval_exact_match": 20.6,
+      "eval_f1": 28.71725235548766,
       "step": 6000
     },
     {
       "epoch": 24.4,
       "learning_rate": 3e-05,
+      "loss": 0.3791,
       "step": 6100
     },
     {
       "epoch": 24.8,
       "learning_rate": 3e-05,
+      "loss": 0.4049,
       "step": 6200
     },
     {
       "epoch": 25.0,
+      "eval_accuracy": 0.5816962025316456,
+      "eval_loss": 3.1950440406799316,
+      "eval_runtime": 4.7387,
+      "eval_samples_per_second": 105.514,
+      "eval_steps_per_second": 13.295,
       "step": 6250
     },
     {
       "epoch": 25.0,
+      "eval_exact_match": 18.8,
+      "eval_f1": 26.63930065806228,
       "step": 6250
     },
     {
       "epoch": 25.2,
       "learning_rate": 3e-05,
+      "loss": 0.3826,
       "step": 6300
     },
     {
       "epoch": 25.6,
       "learning_rate": 3e-05,
+      "loss": 0.3797,
       "step": 6400
     },
     {
       "epoch": 26.0,
       "learning_rate": 3e-05,
+      "loss": 0.3975,
       "step": 6500
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.580126582278481,
+      "eval_loss": 3.274887800216675,
+      "eval_runtime": 4.5904,
+      "eval_samples_per_second": 108.924,
+      "eval_steps_per_second": 13.724,
       "step": 6500
     },
     {
       "epoch": 26.0,
+      "eval_exact_match": 20.0,
+      "eval_f1": 26.999288015046535,
       "step": 6500
     },
     {
       "epoch": 26.4,
       "learning_rate": 3e-05,
+      "loss": 0.3626,
       "step": 6600
     },
     {
       "epoch": 26.8,
       "learning_rate": 3e-05,
+      "loss": 0.3798,
       "step": 6700
     },
     {
       "epoch": 27.0,
+      "eval_accuracy": 0.5808354430379746,
+      "eval_loss": 3.3140978813171387,
+      "eval_runtime": 5.1662,
+      "eval_samples_per_second": 96.782,
+      "eval_steps_per_second": 12.195,
       "step": 6750
     },
     {
       "epoch": 27.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 25.92723665223666,
       "step": 6750
     },
     {
       "epoch": 27.2,
       "learning_rate": 3e-05,
+      "loss": 0.3657,
       "step": 6800
     },
     {
       "epoch": 27.6,
       "learning_rate": 3e-05,
+      "loss": 0.3622,
       "step": 6900
     },
     {
       "epoch": 28.0,
       "learning_rate": 3e-05,
+      "loss": 0.3774,
       "step": 7000
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.5814683544303797,
+      "eval_loss": 3.3085429668426514,
+      "eval_runtime": 5.1573,
+      "eval_samples_per_second": 96.95,
+      "eval_steps_per_second": 12.216,
       "step": 7000
     },
     {
       "epoch": 28.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 25.918943833943853,
       "step": 7000
     },
     {
       "epoch": 28.4,
       "learning_rate": 3e-05,
+      "loss": 0.3415,
       "step": 7100
     },
     {
       "epoch": 28.8,
       "learning_rate": 3e-05,
+      "loss": 0.3636,
       "step": 7200
     },
     {
       "epoch": 29.0,
+      "eval_accuracy": 0.5812911392405063,
+      "eval_loss": 3.3524577617645264,
+      "eval_runtime": 4.6472,
+      "eval_samples_per_second": 107.592,
+      "eval_steps_per_second": 13.557,
       "step": 7250
     },
     {
       "epoch": 29.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 26.2599927849928,
       "step": 7250
     },
     {
       "epoch": 29.2,
       "learning_rate": 3e-05,
+      "loss": 0.3515,
       "step": 7300
     },
     {
       "epoch": 29.6,
       "learning_rate": 3e-05,
+      "loss": 0.3489,
       "step": 7400
     },
     {
       "epoch": 30.0,
       "learning_rate": 3e-05,
+      "loss": 0.362,
       "step": 7500
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.5809367088607595,
+      "eval_loss": 3.433043956756592,
+      "eval_runtime": 5.1421,
+      "eval_samples_per_second": 97.236,
+      "eval_steps_per_second": 12.252,
       "step": 7500
     },
     {
       "epoch": 30.0,
+      "eval_exact_match": 19.8,
+      "eval_f1": 27.059814074814078,
       "step": 7500
     },
     {
       "epoch": 30.4,
       "learning_rate": 3e-05,
+      "loss": 0.3319,
       "step": 7600
     },
     {
       "epoch": 30.8,
       "learning_rate": 3e-05,
+      "loss": 0.3486,
       "step": 7700
     },
     {
       "epoch": 31.0,
+      "eval_accuracy": 0.5805316455696202,
+      "eval_loss": 3.4239931106567383,
+      "eval_runtime": 5.1576,
+      "eval_samples_per_second": 96.945,
+      "eval_steps_per_second": 12.215,
       "step": 7750
     },
     {
       "epoch": 31.0,
+      "eval_exact_match": 19.2,
+      "eval_f1": 27.011455929691227,
       "step": 7750
     },
     {
       "epoch": 31.2,
       "learning_rate": 3e-05,
+      "loss": 0.3377,
       "step": 7800
     },
     {
       "epoch": 31.6,
       "learning_rate": 3e-05,
+      "loss": 0.3362,
       "step": 7900
     },
     {
       "epoch": 32.0,
       "learning_rate": 3e-05,
+      "loss": 0.3471,
       "step": 8000
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.5806075949367089,
+      "eval_loss": 3.47367525100708,
+      "eval_runtime": 4.9013,
+      "eval_samples_per_second": 102.014,
+      "eval_steps_per_second": 12.854,
       "step": 8000
     },
     {
       "epoch": 32.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 26.729130664656992,
       "step": 8000
     },
     {
       "epoch": 32.4,
       "learning_rate": 3e-05,
+      "loss": 0.3231,
       "step": 8100
     },
     {
       "epoch": 32.8,
       "learning_rate": 3e-05,
+      "loss": 0.335,
       "step": 8200
     },
     {
       "epoch": 33.0,
+      "eval_accuracy": 0.5825063291139241,
+      "eval_loss": 3.470642566680908,
+      "eval_runtime": 5.1625,
+      "eval_samples_per_second": 96.853,
+      "eval_steps_per_second": 12.203,
       "step": 8250
     },
     {
       "epoch": 33.0,
+      "eval_exact_match": 18.8,
+      "eval_f1": 26.210141279429212,
       "step": 8250
     },
     {
       "epoch": 33.2,
       "learning_rate": 3e-05,
+      "loss": 0.3294,
       "step": 8300
     },
     {
       "epoch": 33.6,
       "learning_rate": 3e-05,
+      "loss": 0.3274,
       "step": 8400
     },
     {
       "epoch": 34.0,
       "learning_rate": 3e-05,
+      "loss": 0.3367,
       "step": 8500
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.5829367088607595,
+      "eval_loss": 3.464012384414673,
+      "eval_runtime": 4.5856,
+      "eval_samples_per_second": 109.037,
+      "eval_steps_per_second": 13.739,
       "step": 8500
     },
     {
       "epoch": 34.0,
+      "eval_exact_match": 20.2,
+      "eval_f1": 27.659015984015987,
       "step": 8500
     },
     {
       "epoch": 34.4,
       "learning_rate": 3e-05,
+      "loss": 0.3161,
       "step": 8600
     },
     {
       "epoch": 34.8,
       "learning_rate": 3e-05,
+      "loss": 0.3276,
       "step": 8700
     },
     {
       "epoch": 35.0,
+      "eval_accuracy": 0.580632911392405,
+      "eval_loss": 3.5442304611206055,
+      "eval_runtime": 4.7345,
+      "eval_samples_per_second": 105.608,
+      "eval_steps_per_second": 13.307,
       "step": 8750
     },
     {
       "epoch": 35.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 25.8372567954921,
       "step": 8750
     },
     {
       "epoch": 35.2,
       "learning_rate": 3e-05,
+      "loss": 0.3209,
       "step": 8800
     },
     {
       "epoch": 35.6,
       "learning_rate": 3e-05,
+      "loss": 0.319,
       "step": 8900
     },
     {
       "epoch": 36.0,
       "learning_rate": 3e-05,
+      "loss": 0.3298,
       "step": 9000
     },
     {
       "epoch": 36.0,
+      "eval_accuracy": 0.58,
+      "eval_loss": 3.608022451400757,
+      "eval_runtime": 5.165,
+      "eval_samples_per_second": 96.805,
+      "eval_steps_per_second": 12.197,
       "step": 9000
     },
     {
       "epoch": 36.0,
+      "eval_exact_match": 17.4,
+      "eval_f1": 25.138033983560312,
       "step": 9000
     },
     {
       "epoch": 36.4,
       "learning_rate": 3e-05,
+      "loss": 0.3052,
       "step": 9100
     },
     {
       "epoch": 36.8,
       "learning_rate": 3e-05,
+      "loss": 0.3226,
       "step": 9200
     },
     {
       "epoch": 37.0,
+      "eval_accuracy": 0.5818227848101266,
+      "eval_loss": 3.5853421688079834,
+      "eval_runtime": 5.3383,
+      "eval_samples_per_second": 93.663,
+      "eval_steps_per_second": 11.802,
       "step": 9250
     },
     {
       "epoch": 37.0,
+      "eval_exact_match": 19.6,
+      "eval_f1": 26.716317571317582,
       "step": 9250
     },
     {
       "epoch": 37.2,
       "learning_rate": 3e-05,
+      "loss": 0.3165,
       "step": 9300
     },
     {
       "epoch": 37.6,
       "learning_rate": 3e-05,
+      "loss": 0.313,
       "step": 9400
     },
     {
       "epoch": 38.0,
       "learning_rate": 3e-05,
+      "loss": 0.3229,
       "step": 9500
     },
     {
       "epoch": 38.0,
+      "eval_accuracy": 0.5825822784810126,
+      "eval_loss": 3.551334857940674,
+      "eval_runtime": 4.4411,
+      "eval_samples_per_second": 112.584,
+      "eval_steps_per_second": 14.186,
       "step": 9500
     },
     {
       "epoch": 38.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 25.66884576208107,
       "step": 9500
     },
     {
       "epoch": 38.4,
       "learning_rate": 3e-05,
+      "loss": 0.3029,
       "step": 9600
     },
     {
       "epoch": 38.8,
       "learning_rate": 3e-05,
+      "loss": 0.3163,
       "step": 9700
     },
     {
       "epoch": 39.0,
+      "eval_accuracy": 0.5812151898734177,
+      "eval_loss": 3.5632896423339844,
+      "eval_runtime": 5.1663,
+      "eval_samples_per_second": 96.781,
+      "eval_steps_per_second": 12.194,
       "step": 9750
     },
     {
       "epoch": 39.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 26.747887276122583,
       "step": 9750
     },
     {
       "epoch": 39.2,
       "learning_rate": 3e-05,
+      "loss": 0.3071,
       "step": 9800
     },
     {
       "epoch": 39.6,
       "learning_rate": 3e-05,
+      "loss": 0.3081,
       "step": 9900
     },
     {
       "epoch": 40.0,
       "learning_rate": 3e-05,
+      "loss": 0.3181,
       "step": 10000
     },
     {
       "epoch": 40.0,
+      "eval_accuracy": 0.5815949367088608,
+      "eval_loss": 3.6170175075531006,
+      "eval_runtime": 4.7393,
+      "eval_samples_per_second": 105.501,
+      "eval_steps_per_second": 13.293,
       "step": 10000
     },
     {
       "epoch": 40.0,
+      "eval_exact_match": 20.0,
+      "eval_f1": 28.00026140526141,
       "step": 10000
     },
     {
       "epoch": 40.4,
       "learning_rate": 3e-05,
+      "loss": 0.2999,
       "step": 10100
     },
     {
       "epoch": 40.8,
       "learning_rate": 3e-05,
+      "loss": 0.3105,
       "step": 10200
     },
     {
       "epoch": 41.0,
+      "eval_accuracy": 0.5820506329113924,
+      "eval_loss": 3.5725815296173096,
+      "eval_runtime": 5.1515,
+      "eval_samples_per_second": 97.059,
+      "eval_steps_per_second": 12.229,
       "step": 10250
     },
     {
       "epoch": 41.0,
+      "eval_exact_match": 19.6,
+      "eval_f1": 26.656341991341996,
       "step": 10250
     },
     {
       "epoch": 41.2,
       "learning_rate": 3e-05,
+      "loss": 0.3014,
       "step": 10300
     },
     {
       "epoch": 41.6,
       "learning_rate": 3e-05,
+      "loss": 0.3035,
       "step": 10400
     },
     {
       "epoch": 42.0,
       "learning_rate": 3e-05,
+      "loss": 0.3113,
       "step": 10500
     },
     {
       "epoch": 42.0,
+      "eval_accuracy": 0.5810632911392405,
+      "eval_loss": 3.657097578048706,
+      "eval_runtime": 5.1509,
+      "eval_samples_per_second": 97.07,
+      "eval_steps_per_second": 12.231,
       "step": 10500
     },
     {
       "epoch": 42.0,
+      "eval_exact_match": 18.2,
+      "eval_f1": 25.81848131400764,
       "step": 10500
     },
     {
       "epoch": 42.4,
       "learning_rate": 3e-05,
+      "loss": 0.2931,
       "step": 10600
     },
     {
       "epoch": 42.8,
       "learning_rate": 3e-05,
+      "loss": 0.3083,
       "step": 10700
     },
     {
       "epoch": 43.0,
+      "eval_accuracy": 0.5824303797468354,
+      "eval_loss": 3.606555461883545,
+      "eval_runtime": 4.435,
+      "eval_samples_per_second": 112.739,
+      "eval_steps_per_second": 14.205,
       "step": 10750
     },
     {
       "epoch": 43.0,
+      "eval_exact_match": 18.8,
+      "eval_f1": 26.59978001530634,
       "step": 10750
     },
     {
       "epoch": 43.2,
       "learning_rate": 3e-05,
+      "loss": 0.2987,
       "step": 10800
     },
     {
       "epoch": 43.6,
       "learning_rate": 3e-05,
+      "loss": 0.3011,
       "step": 10900
     },
     {
       "epoch": 44.0,
       "learning_rate": 3e-05,
+      "loss": 0.3082,
       "step": 11000
     },
     {
       "epoch": 44.0,
+      "eval_accuracy": 0.582,
+      "eval_loss": 3.6072442531585693,
+      "eval_runtime": 5.1469,
+      "eval_samples_per_second": 97.146,
+      "eval_steps_per_second": 12.24,
       "step": 11000
     },
     {
       "epoch": 44.0,
+      "eval_exact_match": 19.8,
+      "eval_f1": 27.154656600709234,
       "step": 11000
     },
     {
       "epoch": 44.4,
       "learning_rate": 3e-05,
+      "loss": 0.2901,
       "step": 11100
     },
     {
       "epoch": 44.8,
       "learning_rate": 3e-05,
+      "loss": 0.3032,
       "step": 11200
     },
     {
       "epoch": 45.0,
+      "eval_accuracy": 0.5821518987341772,
+      "eval_loss": 3.675809621810913,
+      "eval_runtime": 5.1583,
+      "eval_samples_per_second": 96.931,
+      "eval_steps_per_second": 12.213,
       "step": 11250
     },
     {
       "epoch": 45.0,
+      "eval_exact_match": 19.6,
+      "eval_f1": 27.314992784992786,
       "step": 11250
     },
     {
       "epoch": 45.2,
       "learning_rate": 3e-05,
+      "loss": 0.297,
       "step": 11300
     },
     {
       "epoch": 45.6,
       "learning_rate": 3e-05,
+      "loss": 0.2978,
       "step": 11400
     },
     {
       "epoch": 46.0,
       "learning_rate": 3e-05,
+      "loss": 0.3041,
       "step": 11500
     },
     {
       "epoch": 46.0,
+      "eval_accuracy": 0.5826835443037974,
+      "eval_loss": 3.7282891273498535,
+      "eval_runtime": 4.4281,
+      "eval_samples_per_second": 112.916,
+      "eval_steps_per_second": 14.227,
       "step": 11500
     },
     {
       "epoch": 46.0,
+      "eval_exact_match": 18.8,
+      "eval_f1": 26.54052536352537,
       "step": 11500
     },
     {
       "epoch": 46.4,
       "learning_rate": 3e-05,
+      "loss": 0.2865,
       "step": 11600
     },
     {
       "epoch": 46.8,
       "learning_rate": 3e-05,
+      "loss": 0.3016,
       "step": 11700
     },
     {
       "epoch": 47.0,
+      "eval_accuracy": 0.5813417721518988,
+      "eval_loss": 3.7187116146087646,
+      "eval_runtime": 5.2227,
+      "eval_samples_per_second": 95.736,
+      "eval_steps_per_second": 12.063,
       "step": 11750
     },
     {
       "epoch": 47.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 27.806332001332006,
       "step": 11750
     },
     {
       "epoch": 47.2,
       "learning_rate": 3e-05,
+      "loss": 0.293,
       "step": 11800
     },
     {
       "epoch": 47.6,
       "learning_rate": 3e-05,
+      "loss": 0.2959,
       "step": 11900
     },
     {
       "epoch": 48.0,
       "learning_rate": 3e-05,
+      "loss": 0.3017,
       "step": 12000
     },
     {
       "epoch": 48.0,
+      "eval_accuracy": 0.5802784810126582,
+      "eval_loss": 3.6693203449249268,
+      "eval_runtime": 5.1615,
+      "eval_samples_per_second": 96.871,
+      "eval_steps_per_second": 12.206,
       "step": 12000
     },
     {
       "epoch": 48.0,
+      "eval_exact_match": 17.8,
+      "eval_f1": 26.064744699744715,
       "step": 12000
     },
     {
       "epoch": 48.4,
       "learning_rate": 3e-05,
+      "loss": 0.2904,
       "step": 12100
     },
     {
       "epoch": 48.8,
       "learning_rate": 3e-05,
+      "loss": 0.294,
       "step": 12200
     },
     {
       "epoch": 49.0,
+      "eval_accuracy": 0.581240506329114,
+      "eval_loss": 3.750061511993408,
+      "eval_runtime": 4.5928,
+      "eval_samples_per_second": 108.866,
+      "eval_steps_per_second": 13.717,
       "step": 12250
     },
     {
       "epoch": 49.0,
+      "eval_exact_match": 18.4,
+      "eval_f1": 25.74442723942725,
       "step": 12250
     }
   ],
   "logging_steps": 100,
   "max_steps": 12500,
   "num_train_epochs": 50,
   "save_steps": 500,
+  "total_flos": 7.833355537969316e+17,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-12250/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76141cb7041782161f7695865881a4df3a03be3731ae75640f405be3a5a6f23d
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:b708b99b821bdf687ebed6196095d1415f662e1088452054a7df6a8e9ebd3c3f
+size 4728