Training in progress, step 1000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model-00001-of-00002.bin +1 -1
last-checkpoint/pytorch_model-00002-of-00002.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +56 -5

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67fb82930389b24ba0208a7a08b33f2abbd2323860716962cf881cf5a16bc6ed
 size 2751040864

 version https://git-lfs.github.com/spec/v1
+oid sha256:278f1aabb225e122816504b6177d798795987ef785fda4b587f55348cd0585b1
 size 2751040864

last-checkpoint/pytorch_model-00001-of-00002.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c84f8cc0dcd4bb5980ea5c4e462292f7fdcfa76bf833ecfba7b6e2fcdd96d3c0
 size 5000078781

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f4cd96a02ce728c1249d05ee4257b8306ce70a2dd639029fee17d2ca97a5452
 size 5000078781

last-checkpoint/pytorch_model-00002-of-00002.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13a55fd318dc6a5d1963163df52119c23c1dac0f939b79c076170d494afe47c8
 size 482838574

 version https://git-lfs.github.com/spec/v1
+oid sha256:34c922012b1355f1888ad44f340cff5338ed2ab1713e9b7b3a98a455edd97f20
 size 482838574

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac1b10d6f7dd9cdf9b5b89778eacbed4b4a8f31412820b85b64a56b3a491d825
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc8bc7f2726d784a753dc16c23097bea5a23a3d9dc3b5525b04524652050e82f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a573157b5af49c7fd752beb625308fa4d3184af6323528856e81787deb4e252b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dc00eb221243876f0f4b45e5adada06467f6b2d30df94cdcaa6d342f8e32768
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8545865416526794,
-  "best_model_checkpoint": "../KevinKibe/nllb-200-distilled-1.3B-finetuned-finetuned/checkpoint-700",
-  "epoch": 700.0,
   "eval_steps": 100,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -126,6 +126,57 @@
       "eval_samples_per_second": 1.215,
       "eval_steps_per_second": 0.608,
       "step": 700
     }
   ],
   "logging_steps": 100,
@@ -133,7 +184,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1000,
   "save_steps": 100,
-  "total_flos": 1750201132646400.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7109387516975403,
+  "best_model_checkpoint": "../KevinKibe/nllb-200-distilled-1.3B-finetuned-finetuned/checkpoint-800",
+  "epoch": 1000.0,
   "eval_steps": 100,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.215,
       "eval_steps_per_second": 0.608,
       "step": 700
+    },
+    {
+      "epoch": 800.0,
+      "grad_norm": 1.7595362663269043,
+      "learning_rate": 4.060000000000001e-06,
+      "loss": 0.1361,
+      "step": 800
+    },
+    {
+      "epoch": 800.0,
+      "eval_gen_len": 59.5,
+      "eval_loss": 0.7109387516975403,
+      "eval_rouge": 0.3649,
+      "eval_runtime": 10.8248,
+      "eval_samples_per_second": 0.185,
+      "eval_steps_per_second": 0.092,
+      "step": 800
+    },
+    {
+      "epoch": 900.0,
+      "grad_norm": 1.1663947105407715,
+      "learning_rate": 2.06e-06,
+      "loss": 0.0764,
+      "step": 900
+    },
+    {
+      "epoch": 900.0,
+      "eval_gen_len": 54.0,
+      "eval_loss": 0.7293275594711304,
+      "eval_rouge": 0.4568,
+      "eval_runtime": 9.9208,
+      "eval_samples_per_second": 0.202,
+      "eval_steps_per_second": 0.101,
+      "step": 900
+    },
+    {
+      "epoch": 1000.0,
+      "grad_norm": 0.9859239459037781,
+      "learning_rate": 6.000000000000001e-08,
+      "loss": 0.0559,
+      "step": 1000
+    },
+    {
+      "epoch": 1000.0,
+      "eval_gen_len": 49.0,
+      "eval_loss": 0.7133963704109192,
+      "eval_rouge": 0.467,
+      "eval_runtime": 9.5903,
+      "eval_samples_per_second": 0.209,
+      "eval_steps_per_second": 0.104,
+      "step": 1000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1000,
   "save_steps": 100,
+  "total_flos": 2500287332352000.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null