Upload 14 files

Browse files

Files changed (6) hide show

optimizer.pt +3 -0
pytorch_model-00001-of-00002.bin +1 -1
pytorch_model-00002-of-00002.bin +1 -1
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +3 -171

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb6d305492a4ee15bb1a84c2f6eeb8c3b759479f1bc8791a729e8d4570609cd2
+size 10772000

pytorch_model-00001-of-00002.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70991c5a25b8553ad840c404001cb30a7b808da8b7e2b0f193f5b1d543763ad4
 size 9970100058

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb972f49b7a271fa93df113ab42d1c21f4af82125d844e1cf380bcd176755157
 size 9970100058

pytorch_model-00002-of-00002.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9de6c7babff251bade48a27ea9835217f92feceb551d1d85e009d06d8a17e073
 size 1429345899

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4044cb349ca9dd629cac1d35b7a3628509b06fa292942c7e0b4d31496e88460
 size 1429345899

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b704c66cdb4c1be4f6c6cb2ea25762c33cb73b9c5eace3867362c6c0d0a1643
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8767f9d2bdc2a07a5a1f17637f8c37b2de2e1cba9fc0256a7e1f3de857a47dd
+size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 3.1917154788970947,
   "best_model_checkpoint": "/exports/eddie/scratch/s1970716/models/summarization/longt5_xl_summ_screen_20/checkpoint-28",
-  "epoch": 9.73913043478261,
   "eval_steps": 500,
-  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -398,181 +398,13 @@
       "eval_samples_per_second": 0.225,
       "eval_steps_per_second": 0.112,
       "step": 100
-    },
-    {
-      "epoch": 7.1,
-      "learning_rate": 0.001,
-      "loss": 0.0724,
-      "step": 102
-    },
-    {
-      "epoch": 7.23,
-      "learning_rate": 0.001,
-      "loss": 0.0638,
-      "step": 104
-    },
-    {
-      "epoch": 7.37,
-      "learning_rate": 0.001,
-      "loss": 0.0649,
-      "step": 106
-    },
-    {
-      "epoch": 7.51,
-      "learning_rate": 0.001,
-      "loss": 0.0743,
-      "step": 108
-    },
-    {
-      "epoch": 7.65,
-      "learning_rate": 0.001,
-      "loss": 0.0754,
-      "step": 110
-    },
-    {
-      "epoch": 7.79,
-      "learning_rate": 0.001,
-      "loss": 0.0865,
-      "step": 112
-    },
-    {
-      "epoch": 7.93,
-      "learning_rate": 0.001,
-      "loss": 0.1572,
-      "step": 114
-    },
-    {
-      "epoch": 8.0,
-      "eval_gen_len": 121.01775147928994,
-      "eval_loss": 4.938564300537109,
-      "eval_rouge1": 31.4658,
-      "eval_rouge2": 7.2592,
-      "eval_rougeL": 18.4796,
-      "eval_rougeLsum": 27.6047,
-      "eval_runtime": 1185.8984,
-      "eval_samples_per_second": 0.285,
-      "eval_steps_per_second": 0.143,
-      "step": 115
-    },
-    {
-      "epoch": 8.07,
-      "learning_rate": 0.001,
-      "loss": 0.0862,
-      "step": 116
-    },
-    {
-      "epoch": 8.21,
-      "learning_rate": 0.001,
-      "loss": 0.0607,
-      "step": 118
-    },
-    {
-      "epoch": 8.35,
-      "learning_rate": 0.001,
-      "loss": 0.0692,
-      "step": 120
-    },
-    {
-      "epoch": 8.49,
-      "learning_rate": 0.001,
-      "loss": 0.0916,
-      "step": 122
-    },
-    {
-      "epoch": 8.63,
-      "learning_rate": 0.001,
-      "loss": 0.0847,
-      "step": 124
-    },
-    {
-      "epoch": 8.77,
-      "learning_rate": 0.001,
-      "loss": 0.089,
-      "step": 126
-    },
-    {
-      "epoch": 8.9,
-      "learning_rate": 0.001,
-      "loss": 0.0867,
-      "step": 128
-    },
-    {
-      "epoch": 8.97,
-      "eval_gen_len": 160.4792899408284,
-      "eval_loss": 4.556480884552002,
-      "eval_rouge1": 32.0531,
-      "eval_rouge2": 7.0692,
-      "eval_rougeL": 18.5551,
-      "eval_rougeLsum": 27.3373,
-      "eval_runtime": 1462.551,
-      "eval_samples_per_second": 0.231,
-      "eval_steps_per_second": 0.116,
-      "step": 129
-    },
-    {
-      "epoch": 9.04,
-      "learning_rate": 0.001,
-      "loss": 0.1022,
-      "step": 130
-    },
-    {
-      "epoch": 9.18,
-      "learning_rate": 0.001,
-      "loss": 0.067,
-      "step": 132
-    },
-    {
-      "epoch": 9.32,
-      "learning_rate": 0.001,
-      "loss": 0.0746,
-      "step": 134
-    },
-    {
-      "epoch": 9.46,
-      "learning_rate": 0.001,
-      "loss": 0.0888,
-      "step": 136
-    },
-    {
-      "epoch": 9.6,
-      "learning_rate": 0.001,
-      "loss": 0.1111,
-      "step": 138
-    },
-    {
-      "epoch": 9.74,
-      "learning_rate": 0.001,
-      "loss": 0.0748,
-      "step": 140
-    },
-    {
-      "epoch": 9.74,
-      "eval_gen_len": 124.18934911242603,
-      "eval_loss": 5.086633682250977,
-      "eval_rouge1": 32.2717,
-      "eval_rouge2": 7.7004,
-      "eval_rougeL": 18.9107,
-      "eval_rougeLsum": 28.3874,
-      "eval_runtime": 1232.2532,
-      "eval_samples_per_second": 0.274,
-      "eval_steps_per_second": 0.137,
-      "step": 140
-    },
-    {
-      "epoch": 9.74,
-      "step": 140,
-      "total_flos": 2.447850236380324e+18,
-      "train_loss": 0.18376290196818965,
-      "train_runtime": 47972.5065,
-      "train_samples_per_second": 0.766,
-      "train_steps_per_second": 0.003
     }
   ],
   "logging_steps": 2,
   "max_steps": 140,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2.447850236380324e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 3.1917154788970947,
   "best_model_checkpoint": "/exports/eddie/scratch/s1970716/models/summarization/longt5_xl_summ_screen_20/checkpoint-28",
+  "epoch": 6.956521739130435,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.225,
       "eval_steps_per_second": 0.112,
       "step": 100
     }
   ],
   "logging_steps": 2,
   "max_steps": 140,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.7591398064550052e+18,
   "trial_name": null,
   "trial_params": null
 }