Upload 13 files

Browse files

Files changed (7) hide show

all_results.json +6 -6
config.json +1 -1
model.safetensors +1 -1
tokenizer.json +16 -2
train_results.json +6 -6
trainer_state.json +113 -254
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "train_loss": 0.19717555102511977,
-    "train_runtime": 3239.6632,
-    "train_samples": 1519,
-    "train_samples_per_second": 4.689,
-    "train_steps_per_second": 0.522
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.005102622340929632,
+    "train_runtime": 880.3838,
+    "train_samples": 11608,
+    "train_samples_per_second": 13.185,
+    "train_steps_per_second": 1.648
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "CreitinGameplays/elisa-chan-gpt2-medium",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "CreitinGameplays/elisa-chan-gpt2-medium-v2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9040b992a0cbaf8bf990ea4f82cb8ff641087e9d95a28dd2c28e8729b0ef170e
 size 1419343360

 version https://git-lfs.github.com/spec/v1
+oid sha256:6604bdf2888448ccee1b8bb082e57f4d988fe372e944c2821db86dd804eceb04
 size 1419343360

tokenizer.json CHANGED Viewed

@@ -1,7 +1,21 @@
 {
   "version": "1.0",
-  "truncation": null,
-  "padding": null,
   "added_tokens": [
     {
       "id": 50256,

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 341,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
+  "padding": {
+    "strategy": {
+      "Fixed": 341
+    },
+    "direction": "Right",
+    "pad_to_multiple_of": null,
+    "pad_id": 50257,
+    "pad_type_id": 0,
+    "pad_token": "[PAD]"
+  },
   "added_tokens": [
     {
       "id": 50256,

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "train_loss": 0.19717555102511977,
-    "train_runtime": 3239.6632,
-    "train_samples": 1519,
-    "train_samples_per_second": 4.689,
-    "train_steps_per_second": 0.522
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.005102622340929632,
+    "train_runtime": 880.3838,
+    "train_samples": 11608,
+    "train_samples_per_second": 13.185,
+    "train_steps_per_second": 1.648
 }

trainer_state.json CHANGED Viewed

@@ -1,358 +1,217 @@
 {
-  "best_metric": 6.297296047210693,
-  "best_model_checkpoint": "./output_dir/checkpoint-169",
-  "epoch": 10.0,
   "eval_steps": 50.0,
-  "global_step": 1690,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.3,
-      "learning_rate": 9.70414201183432e-05,
-      "loss": 1.5791,
       "step": 50
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 9.408284023668639e-05,
-      "loss": 0.6789,
       "step": 100
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 9.112426035502959e-05,
-      "loss": 0.5388,
       "step": 150
     },
     {
-      "epoch": 1.0,
-      "eval_bleu-1": 20.7834,
-      "eval_bleu-2": 4.6208,
-      "eval_bleu-3": 2.9929,
-      "eval_bleu-4": 2.6572,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 6.297296047210693,
-      "eval_runtime": 43.3624,
-      "eval_samples_per_second": 0.277,
-      "eval_steps_per_second": 0.277,
-      "step": 169
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 8.816568047337278e-05,
-      "loss": 0.3897,
       "step": 200
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 8.520710059171599e-05,
-      "loss": 0.3148,
       "step": 250
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 8.224852071005918e-05,
-      "loss": 0.2681,
       "step": 300
     },
     {
-      "epoch": 2.0,
-      "eval_bleu-1": 21.2042,
-      "eval_bleu-2": 4.6329,
-      "eval_bleu-3": 2.8663,
-      "eval_bleu-4": 2.5449,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 7.237356662750244,
-      "eval_runtime": 42.1638,
-      "eval_samples_per_second": 0.285,
-      "eval_steps_per_second": 0.285,
-      "step": 338
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 7.928994082840237e-05,
-      "loss": 0.2515,
       "step": 350
     },
     {
-      "epoch": 2.37,
-      "learning_rate": 7.633136094674557e-05,
-      "loss": 0.17,
       "step": 400
     },
     {
-      "epoch": 2.66,
-      "learning_rate": 7.337278106508876e-05,
-      "loss": 0.1873,
       "step": 450
     },
     {
-      "epoch": 2.96,
-      "learning_rate": 7.041420118343195e-05,
-      "loss": 0.1854,
       "step": 500
     },
     {
-      "epoch": 3.0,
-      "eval_bleu-1": 20.1899,
-      "eval_bleu-2": 4.4735,
-      "eval_bleu-3": 2.9681,
-      "eval_bleu-4": 2.5725,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 7.7388596534729,
-      "eval_runtime": 43.0592,
-      "eval_samples_per_second": 0.279,
-      "eval_steps_per_second": 0.279,
-      "step": 507
-    },
-    {
-      "epoch": 3.25,
-      "learning_rate": 6.745562130177515e-05,
-      "loss": 0.1395,
       "step": 550
     },
     {
-      "epoch": 3.55,
-      "learning_rate": 6.449704142011834e-05,
-      "loss": 0.1228,
       "step": 600
     },
     {
-      "epoch": 3.85,
-      "learning_rate": 6.153846153846155e-05,
-      "loss": 0.1209,
       "step": 650
     },
     {
-      "epoch": 4.0,
-      "eval_bleu-1": 22.4915,
-      "eval_bleu-2": 5.2106,
-      "eval_bleu-3": 3.0103,
-      "eval_bleu-4": 2.4905,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 8.396303176879883,
-      "eval_runtime": 42.158,
-      "eval_samples_per_second": 0.285,
-      "eval_steps_per_second": 0.285,
-      "step": 676
-    },
-    {
-      "epoch": 4.14,
-      "learning_rate": 5.863905325443787e-05,
-      "loss": 0.1079,
       "step": 700
     },
     {
-      "epoch": 4.44,
-      "learning_rate": 5.568047337278107e-05,
-      "loss": 0.1073,
       "step": 750
     },
     {
-      "epoch": 4.73,
-      "learning_rate": 5.272189349112427e-05,
-      "loss": 0.0988,
       "step": 800
     },
     {
-      "epoch": 5.0,
-      "eval_bleu-1": 20.999,
-      "eval_bleu-2": 5.0478,
-      "eval_bleu-3": 3.0062,
-      "eval_bleu-4": 2.5449,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 8.886907577514648,
-      "eval_runtime": 43.2859,
-      "eval_samples_per_second": 0.277,
-      "eval_steps_per_second": 0.277,
-      "step": 845
-    },
-    {
-      "epoch": 5.03,
-      "learning_rate": 4.976331360946746e-05,
-      "loss": 0.0991,
       "step": 850
     },
     {
-      "epoch": 5.33,
-      "learning_rate": 4.6804733727810654e-05,
-      "loss": 0.0864,
       "step": 900
     },
     {
-      "epoch": 5.62,
-      "learning_rate": 4.384615384615385e-05,
-      "loss": 0.0882,
       "step": 950
     },
     {
-      "epoch": 5.92,
-      "learning_rate": 4.088757396449705e-05,
-      "loss": 0.0883,
       "step": 1000
     },
     {
-      "epoch": 6.0,
-      "eval_bleu-1": 22.8262,
-      "eval_bleu-2": 4.6692,
-      "eval_bleu-3": 2.9419,
-      "eval_bleu-4": 2.4905,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 9.158414840698242,
-      "eval_runtime": 42.9666,
-      "eval_samples_per_second": 0.279,
-      "eval_steps_per_second": 0.279,
-      "step": 1014
-    },
-    {
-      "epoch": 6.21,
-      "learning_rate": 3.792899408284024e-05,
-      "loss": 0.0856,
       "step": 1050
     },
     {
-      "epoch": 6.51,
-      "learning_rate": 3.4970414201183435e-05,
-      "loss": 0.0786,
       "step": 1100
     },
     {
-      "epoch": 6.8,
-      "learning_rate": 3.201183431952663e-05,
-      "loss": 0.0806,
       "step": 1150
     },
     {
-      "epoch": 7.0,
-      "eval_bleu-1": 22.2906,
-      "eval_bleu-2": 4.6692,
-      "eval_bleu-3": 2.9419,
-      "eval_bleu-4": 2.4905,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 9.391822814941406,
-      "eval_runtime": 42.3982,
-      "eval_samples_per_second": 0.283,
-      "eval_steps_per_second": 0.283,
-      "step": 1183
-    },
-    {
-      "epoch": 7.1,
-      "learning_rate": 2.9053254437869826e-05,
-      "loss": 0.0786,
       "step": 1200
     },
     {
-      "epoch": 7.4,
-      "learning_rate": 2.6094674556213016e-05,
-      "loss": 0.0765,
       "step": 1250
     },
     {
-      "epoch": 7.69,
-      "learning_rate": 2.3136094674556213e-05,
-      "loss": 0.0747,
       "step": 1300
     },
     {
-      "epoch": 7.99,
-      "learning_rate": 2.017751479289941e-05,
-      "loss": 0.0787,
       "step": 1350
     },
     {
-      "epoch": 8.0,
-      "eval_bleu-1": 23.8184,
-      "eval_bleu-2": 5.1303,
-      "eval_bleu-3": 2.9739,
-      "eval_bleu-4": 2.6574,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 9.662525177001953,
-      "eval_runtime": 42.8982,
-      "eval_samples_per_second": 0.28,
-      "eval_steps_per_second": 0.28,
-      "step": 1352
-    },
-    {
-      "epoch": 8.28,
-      "learning_rate": 1.7218934911242603e-05,
-      "loss": 0.0734,
       "step": 1400
     },
     {
-      "epoch": 8.58,
-      "learning_rate": 1.42603550295858e-05,
-      "loss": 0.0744,
       "step": 1450
     },
     {
-      "epoch": 8.88,
-      "learning_rate": 1.1301775147928994e-05,
-      "loss": 0.0714,
-      "step": 1500
-    },
-    {
-      "epoch": 9.0,
-      "eval_bleu-1": 23.7162,
-      "eval_bleu-2": 5.522,
-      "eval_bleu-3": 3.0388,
-      "eval_bleu-4": 2.7154,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 9.930649757385254,
-      "eval_runtime": 45.1011,
-      "eval_samples_per_second": 0.266,
-      "eval_steps_per_second": 0.266,
-      "step": 1521
-    },
-    {
-      "epoch": 9.17,
-      "learning_rate": 8.34319526627219e-06,
-      "loss": 0.0724,
-      "step": 1550
-    },
-    {
-      "epoch": 9.47,
-      "learning_rate": 5.3846153846153855e-06,
-      "loss": 0.0704,
-      "step": 1600
-    },
-    {
-      "epoch": 9.76,
-      "learning_rate": 2.42603550295858e-06,
-      "loss": 0.0706,
-      "step": 1650
-    },
-    {
-      "epoch": 10.0,
-      "eval_bleu-1": 24.1567,
-      "eval_bleu-2": 5.3356,
-      "eval_bleu-3": 2.9739,
-      "eval_bleu-4": 2.6574,
-      "eval_gen_len": 178.3333,
-      "eval_loss": 9.996184349060059,
-      "eval_runtime": 44.2153,
-      "eval_samples_per_second": 0.271,
-      "eval_steps_per_second": 0.271,
-      "step": 1690
     },
     {
-      "epoch": 10.0,
-      "step": 1690,
-      "total_flos": 7053481774940160.0,
-      "train_loss": 0.19717555102511977,
-      "train_runtime": 3239.6632,
-      "train_samples_per_second": 4.689,
-      "train_steps_per_second": 0.522
     }
   ],
   "logging_steps": 50,
-  "max_steps": 1690,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 7053481774940160.0,
-  "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 9.541932106018066,
+  "best_model_checkpoint": "./output_dir/checkpoint-1451",
+  "epoch": 1.0,
   "eval_steps": 50.0,
+  "global_step": 1451,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
+      "learning_rate": 9.662301860785666e-05,
+      "loss": 0.1431,
       "step": 50
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 9.317711922811855e-05,
+      "loss": 0.0002,
       "step": 100
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 8.973121984838044e-05,
+      "loss": 0.0,
       "step": 150
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 8.628532046864232e-05,
+      "loss": 0.0,
       "step": 200
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 8.283942108890421e-05,
+      "loss": 0.0,
       "step": 250
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 7.939352170916609e-05,
+      "loss": 0.0,
       "step": 300
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 7.594762232942798e-05,
+      "loss": 0.0,
       "step": 350
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 7.250172294968988e-05,
+      "loss": 0.0,
       "step": 400
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 6.905582356995176e-05,
+      "loss": 0.0,
       "step": 450
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 6.560992419021364e-05,
+      "loss": 0.0002,
       "step": 500
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 6.216402481047554e-05,
+      "loss": 0.0,
       "step": 550
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 5.871812543073743e-05,
+      "loss": 0.0,
       "step": 600
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 5.527222605099931e-05,
+      "loss": 0.0,
       "step": 650
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 5.18263266712612e-05,
+      "loss": 0.0038,
       "step": 700
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 4.838042729152309e-05,
+      "loss": 0.0001,
       "step": 750
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 4.493452791178498e-05,
+      "loss": 0.0,
       "step": 800
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 4.1488628532046864e-05,
+      "loss": 0.0,
       "step": 850
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 3.8042729152308755e-05,
+      "loss": 0.0002,
       "step": 900
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 3.459682977257065e-05,
+      "loss": 0.0001,
       "step": 950
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 3.115093039283253e-05,
+      "loss": 0.0,
       "step": 1000
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 2.770503101309442e-05,
+      "loss": 0.0,
       "step": 1050
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 2.4259131633356307e-05,
+      "loss": 0.0,
       "step": 1100
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 2.0813232253618195e-05,
+      "loss": 0.0,
       "step": 1150
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 1.7367332873880083e-05,
+      "loss": 0.0,
       "step": 1200
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 1.3921433494141973e-05,
+      "loss": 0.0,
       "step": 1250
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 1.047553411440386e-05,
+      "loss": 0.0,
       "step": 1300
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 7.029634734665748e-06,
+      "loss": 0.0,
       "step": 1350
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 3.5837353549276364e-06,
+      "loss": 0.0,
       "step": 1400
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 1.3783597518952448e-07,
+      "loss": 0.0001,
       "step": 1450
     },
     {
+      "epoch": 1.0,
+      "eval_bleu-1": 9.8455,
+      "eval_bleu-2": 1.8537,
+      "eval_bleu-3": 1.0957,
+      "eval_bleu-4": 1.0496,
+      "eval_gen_len": 264.3333,
+      "eval_loss": 9.541932106018066,
+      "eval_runtime": 46.9425,
+      "eval_samples_per_second": 0.256,
+      "eval_steps_per_second": 0.256,
+      "step": 1451
     },
     {
+      "epoch": 1.0,
+      "step": 1451,
+      "total_flos": 7179886646034432.0,
+      "train_loss": 0.005102622340929632,
+      "train_runtime": 880.3838,
+      "train_samples_per_second": 13.185,
+      "train_steps_per_second": 1.648
     }
   ],
   "logging_steps": 50,
+  "max_steps": 1451,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 7179886646034432.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7754cb059b5c0c296af00e860e5d33b1f3ed3fb3b768dd9ef00fbe2ddf76d9e6
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:83ca1eca1f0c5f9a14cb769aab447d8465e825b45d54f5d3743d297d7ea46659
 size 5048