Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e277a4f4a7cb3582830e2d23c77db492c8e24ba3a899fc3a666129a2a2689c3
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:93d63750fbfa5cd8f3d3d09d202f1a9092b56ec6d7bba4992f11110b44c05e85
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b91d01bfba26061e5726be9c0364da8b10817efe206f2acc64d9ee9d1e5d46d4
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:e72343fb815a2302ed4364b31ab5cf8b9f2c4258a461e9416b5ab8eee21abb27
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1e95b55e61f2a72e5e5389523fde8c9fb1a2902741a578a17a342a5d7a4df5d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9f96556c91f78b167a3a23f1c3f779be5f90901a0a97f9cd4811d2ba7a3f74c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1717d9346c92bb9117ed254820c219b1728f8d3d4762e26811e93dd311443eca
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:eac4afd95bb0ddfe3c09279bb130184beaca309f98a20634196f6c6a08c2e05d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 96.39777735198314,
   "best_model_checkpoint": "./whisper-small-ha-v3/checkpoint-1000",
-  "epoch": 6.369426751592357,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,156 @@
       "eval_wer": 96.39777735198314,
       "eval_wer_ortho": 96.640625,
       "step": 1000
     }
   ],
   "logging_steps": 25,
@@ -326,7 +476,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.61044035551232e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 96.39777735198314,
   "best_model_checkpoint": "./whisper-small-ha-v3/checkpoint-1000",
+  "epoch": 9.554140127388536,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_wer": 96.39777735198314,
       "eval_wer_ortho": 96.640625,
       "step": 1000
+    },
+    {
+      "epoch": 6.528662420382165,
+      "grad_norm": 7.238087177276611,
+      "learning_rate": 0.0005,
+      "loss": 1.2028,
+      "step": 1025
+    },
+    {
+      "epoch": 6.687898089171974,
+      "grad_norm": 6.603641033172607,
+      "learning_rate": 0.0005,
+      "loss": 1.2026,
+      "step": 1050
+    },
+    {
+      "epoch": 6.8471337579617835,
+      "grad_norm": 6.680185794830322,
+      "learning_rate": 0.0005,
+      "loss": 1.2335,
+      "step": 1075
+    },
+    {
+      "epoch": 7.006369426751593,
+      "grad_norm": 5.673605442047119,
+      "learning_rate": 0.0005,
+      "loss": 1.2663,
+      "step": 1100
+    },
+    {
+      "epoch": 7.165605095541402,
+      "grad_norm": 6.584240913391113,
+      "learning_rate": 0.0005,
+      "loss": 0.9781,
+      "step": 1125
+    },
+    {
+      "epoch": 7.32484076433121,
+      "grad_norm": 6.363912582397461,
+      "learning_rate": 0.0005,
+      "loss": 1.04,
+      "step": 1150
+    },
+    {
+      "epoch": 7.484076433121019,
+      "grad_norm": 5.395627021789551,
+      "learning_rate": 0.0005,
+      "loss": 1.1184,
+      "step": 1175
+    },
+    {
+      "epoch": 7.643312101910828,
+      "grad_norm": 6.268621921539307,
+      "learning_rate": 0.0005,
+      "loss": 1.1184,
+      "step": 1200
+    },
+    {
+      "epoch": 7.802547770700637,
+      "grad_norm": 6.605058193206787,
+      "learning_rate": 0.0005,
+      "loss": 1.1101,
+      "step": 1225
+    },
+    {
+      "epoch": 7.961783439490446,
+      "grad_norm": 6.293459892272949,
+      "learning_rate": 0.0005,
+      "loss": 1.1396,
+      "step": 1250
+    },
+    {
+      "epoch": 8.121019108280255,
+      "grad_norm": 6.258079528808594,
+      "learning_rate": 0.0005,
+      "loss": 0.9623,
+      "step": 1275
+    },
+    {
+      "epoch": 8.280254777070065,
+      "grad_norm": 5.724878787994385,
+      "learning_rate": 0.0005,
+      "loss": 0.9693,
+      "step": 1300
+    },
+    {
+      "epoch": 8.439490445859873,
+      "grad_norm": 5.03961181640625,
+      "learning_rate": 0.0005,
+      "loss": 0.9993,
+      "step": 1325
+    },
+    {
+      "epoch": 8.598726114649681,
+      "grad_norm": 6.147229194641113,
+      "learning_rate": 0.0005,
+      "loss": 1.0598,
+      "step": 1350
+    },
+    {
+      "epoch": 8.757961783439491,
+      "grad_norm": 7.066701889038086,
+      "learning_rate": 0.0005,
+      "loss": 1.0835,
+      "step": 1375
+    },
+    {
+      "epoch": 8.9171974522293,
+      "grad_norm": 5.424177646636963,
+      "learning_rate": 0.0005,
+      "loss": 1.1042,
+      "step": 1400
+    },
+    {
+      "epoch": 9.07643312101911,
+      "grad_norm": 5.849576473236084,
+      "learning_rate": 0.0005,
+      "loss": 0.9797,
+      "step": 1425
+    },
+    {
+      "epoch": 9.235668789808917,
+      "grad_norm": 4.9155120849609375,
+      "learning_rate": 0.0005,
+      "loss": 0.8813,
+      "step": 1450
+    },
+    {
+      "epoch": 9.394904458598726,
+      "grad_norm": 6.510490417480469,
+      "learning_rate": 0.0005,
+      "loss": 0.9536,
+      "step": 1475
+    },
+    {
+      "epoch": 9.554140127388536,
+      "grad_norm": 5.549797058105469,
+      "learning_rate": 0.0005,
+      "loss": 0.9735,
+      "step": 1500
+    },
+    {
+      "epoch": 9.554140127388536,
+      "eval_loss": 4.821861267089844,
+      "eval_runtime": 286.5747,
+      "eval_samples_per_second": 2.303,
+      "eval_steps_per_second": 0.147,
+      "eval_wer": 103.04656064380148,
+      "eval_wer_ortho": 104.1015625,
+      "step": 1500
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 6.91566053326848e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null