Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +155 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac4962b8b8afe0d36f41b787869fbebbfd594ea53b45bbca7618c65ce68156bf
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e277a4f4a7cb3582830e2d23c77db492c8e24ba3a899fc3a666129a2a2689c3
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1af3b1cf9e36066912abae789cdee6acff65d835a8cecd1904888da843a13677
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:b91d01bfba26061e5726be9c0364da8b10817efe206f2acc64d9ee9d1e5d46d4
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efc19516f0bb6ebbb441d01c76bfbe40ffc86ac7def6317731979041e8f3b7ba
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1e95b55e61f2a72e5e5389523fde8c9fb1a2902741a578a17a342a5d7a4df5d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c57fd35b966308a3b0826e505a4ead95eaee451ffe4c405784a98aead25ab3e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1717d9346c92bb9117ed254820c219b1728f8d3d4762e26811e93dd311443eca
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 180.03448936577888,
-  "best_model_checkpoint": "./whisper-small-ha-v3/checkpoint-500",
-  "epoch": 3.1847133757961785,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,6 +157,156 @@
       "eval_wer": 180.03448936577888,
       "eval_wer_ortho": 183.0078125,
       "step": 500
     }
   ],
   "logging_steps": 25,
@@ -176,7 +326,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.30522017775616e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 96.39777735198314,
+  "best_model_checkpoint": "./whisper-small-ha-v3/checkpoint-1000",
+  "epoch": 6.369426751592357,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_wer": 180.03448936577888,
       "eval_wer_ortho": 183.0078125,
       "step": 500
+    },
+    {
+      "epoch": 3.343949044585987,
+      "grad_norm": 7.396618843078613,
+      "learning_rate": 0.0005,
+      "loss": 1.6942,
+      "step": 525
+    },
+    {
+      "epoch": 3.5031847133757963,
+      "grad_norm": 7.276708602905273,
+      "learning_rate": 0.0005,
+      "loss": 1.7758,
+      "step": 550
+    },
+    {
+      "epoch": 3.662420382165605,
+      "grad_norm": 8.082304000854492,
+      "learning_rate": 0.0005,
+      "loss": 1.8561,
+      "step": 575
+    },
+    {
+      "epoch": 3.821656050955414,
+      "grad_norm": 7.295908451080322,
+      "learning_rate": 0.0005,
+      "loss": 1.9064,
+      "step": 600
+    },
+    {
+      "epoch": 3.980891719745223,
+      "grad_norm": 7.9326491355896,
+      "learning_rate": 0.0005,
+      "loss": 1.9251,
+      "step": 625
+    },
+    {
+      "epoch": 4.140127388535032,
+      "grad_norm": 7.216257095336914,
+      "learning_rate": 0.0005,
+      "loss": 1.3606,
+      "step": 650
+    },
+    {
+      "epoch": 4.2993630573248405,
+      "grad_norm": 6.987307548522949,
+      "learning_rate": 0.0005,
+      "loss": 1.382,
+      "step": 675
+    },
+    {
+      "epoch": 4.45859872611465,
+      "grad_norm": 8.181788444519043,
+      "learning_rate": 0.0005,
+      "loss": 1.4235,
+      "step": 700
+    },
+    {
+      "epoch": 4.617834394904459,
+      "grad_norm": 7.226937294006348,
+      "learning_rate": 0.0005,
+      "loss": 1.5352,
+      "step": 725
+    },
+    {
+      "epoch": 4.777070063694268,
+      "grad_norm": 7.664785385131836,
+      "learning_rate": 0.0005,
+      "loss": 1.5803,
+      "step": 750
+    },
+    {
+      "epoch": 4.936305732484076,
+      "grad_norm": 8.353466987609863,
+      "learning_rate": 0.0005,
+      "loss": 1.6793,
+      "step": 775
+    },
+    {
+      "epoch": 5.095541401273885,
+      "grad_norm": 7.170167922973633,
+      "learning_rate": 0.0005,
+      "loss": 1.3162,
+      "step": 800
+    },
+    {
+      "epoch": 5.254777070063694,
+      "grad_norm": 7.019118309020996,
+      "learning_rate": 0.0005,
+      "loss": 1.1988,
+      "step": 825
+    },
+    {
+      "epoch": 5.414012738853503,
+      "grad_norm": 6.39375638961792,
+      "learning_rate": 0.0005,
+      "loss": 1.2476,
+      "step": 850
+    },
+    {
+      "epoch": 5.573248407643312,
+      "grad_norm": 7.22137451171875,
+      "learning_rate": 0.0005,
+      "loss": 1.325,
+      "step": 875
+    },
+    {
+      "epoch": 5.732484076433121,
+      "grad_norm": 6.7961883544921875,
+      "learning_rate": 0.0005,
+      "loss": 1.3379,
+      "step": 900
+    },
+    {
+      "epoch": 5.89171974522293,
+      "grad_norm": 7.7992377281188965,
+      "learning_rate": 0.0005,
+      "loss": 1.3845,
+      "step": 925
+    },
+    {
+      "epoch": 6.050955414012739,
+      "grad_norm": 6.209515571594238,
+      "learning_rate": 0.0005,
+      "loss": 1.2692,
+      "step": 950
+    },
+    {
+      "epoch": 6.210191082802548,
+      "grad_norm": 6.86682653427124,
+      "learning_rate": 0.0005,
+      "loss": 1.1113,
+      "step": 975
+    },
+    {
+      "epoch": 6.369426751592357,
+      "grad_norm": 6.647078037261963,
+      "learning_rate": 0.0005,
+      "loss": 1.1378,
+      "step": 1000
+    },
+    {
+      "epoch": 6.369426751592357,
+      "eval_loss": 4.400506019592285,
+      "eval_runtime": 280.0441,
+      "eval_samples_per_second": 2.357,
+      "eval_steps_per_second": 0.15,
+      "eval_wer": 96.39777735198314,
+      "eval_wer_ortho": 96.640625,
+      "step": 1000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 4.61044035551232e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null