End of training

Browse files

Files changed (6) hide show

README.md +5 -2
adapter.bem.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
train_results.json +9 -0
trainer_state.json +531 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-bemgen-male-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.3056
-- Wer: 0.4404
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- bemgen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-bemgen-male-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the BEMGEN - BEM dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.3056
+- Wer: 0.4399
 ## Model description

adapter.bem.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:515beea7f632c6767fb96e98f2af2791ece900ae37036f540a6a933ad61183db
+size 8798532

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 3.1023784901758016,
+    "eval_loss": 0.30557817220687866,
+    "eval_runtime": 31.0257,
+    "eval_samples": 491,
+    "eval_samples_per_second": 15.826,
+    "eval_steps_per_second": 3.964,
+    "eval_wer": 0.4399312271652697,
+    "total_flos": 7.152937185600249e+18,
+    "train_loss": 0.6818474756876628,
+    "train_runtime": 2982.3235,
+    "train_samples": 3866,
+    "train_samples_per_second": 38.889,
+    "train_steps_per_second": 9.727
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.1023784901758016,
+    "eval_loss": 0.30557817220687866,
+    "eval_runtime": 31.0257,
+    "eval_samples": 491,
+    "eval_samples_per_second": 15.826,
+    "eval_steps_per_second": 3.964,
+    "eval_wer": 0.4399312271652697
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.1023784901758016,
+    "total_flos": 7.152937185600249e+18,
+    "train_loss": 0.6818474756876628,
+    "train_runtime": 2982.3235,
+    "train_samples": 3866,
+    "train_samples_per_second": 38.889,
+    "train_steps_per_second": 9.727
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,531 @@

+{
+  "best_metric": 0.2995806932449341,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-bemgen-male-model/checkpoint-2700",
+  "epoch": 3.1023784901758016,
+  "eval_steps": 100,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.10341261633919338,
+      "grad_norm": 3.187527894973755,
+      "learning_rate": 0.000285,
+      "loss": 7.0611,
+      "step": 100
+    },
+    {
+      "epoch": 0.10341261633919338,
+      "eval_loss": 1.4202574491500854,
+      "eval_runtime": 30.7709,
+      "eval_samples_per_second": 15.957,
+      "eval_steps_per_second": 3.997,
+      "eval_wer": 0.9989254244573393,
+      "step": 100
+    },
+    {
+      "epoch": 0.20682523267838676,
+      "grad_norm": 2.534780263900757,
+      "learning_rate": 0.000299014181943964,
+      "loss": 0.7562,
+      "step": 200
+    },
+    {
+      "epoch": 0.20682523267838676,
+      "eval_loss": 0.42598676681518555,
+      "eval_runtime": 30.7262,
+      "eval_samples_per_second": 15.98,
+      "eval_steps_per_second": 4.003,
+      "eval_wer": 0.5807006232538148,
+      "step": 200
+    },
+    {
+      "epoch": 0.31023784901758017,
+      "grad_norm": 1.9200867414474487,
+      "learning_rate": 0.000297976478727084,
+      "loss": 0.5464,
+      "step": 300
+    },
+    {
+      "epoch": 0.31023784901758017,
+      "eval_loss": 0.38771751523017883,
+      "eval_runtime": 30.4983,
+      "eval_samples_per_second": 16.099,
+      "eval_steps_per_second": 4.033,
+      "eval_wer": 0.5409413281753708,
+      "step": 300
+    },
+    {
+      "epoch": 0.4136504653567735,
+      "grad_norm": 3.3704230785369873,
+      "learning_rate": 0.0002969387755102041,
+      "loss": 0.5399,
+      "step": 400
+    },
+    {
+      "epoch": 0.4136504653567735,
+      "eval_loss": 0.3693784475326538,
+      "eval_runtime": 30.624,
+      "eval_samples_per_second": 16.033,
+      "eval_steps_per_second": 4.016,
+      "eval_wer": 0.539651837524178,
+      "step": 400
+    },
+    {
+      "epoch": 0.5170630816959669,
+      "grad_norm": 4.073702335357666,
+      "learning_rate": 0.0002959010722933241,
+      "loss": 0.5276,
+      "step": 500
+    },
+    {
+      "epoch": 0.5170630816959669,
+      "eval_loss": 0.3597019612789154,
+      "eval_runtime": 30.927,
+      "eval_samples_per_second": 15.876,
+      "eval_steps_per_second": 3.977,
+      "eval_wer": 0.514936600042983,
+      "step": 500
+    },
+    {
+      "epoch": 0.6204756980351603,
+      "grad_norm": 1.7590080499649048,
+      "learning_rate": 0.0002948633690764441,
+      "loss": 0.4763,
+      "step": 600
+    },
+    {
+      "epoch": 0.6204756980351603,
+      "eval_loss": 0.3516247868537903,
+      "eval_runtime": 30.7985,
+      "eval_samples_per_second": 15.942,
+      "eval_steps_per_second": 3.994,
+      "eval_wer": 0.49258542875564154,
+      "step": 600
+    },
+    {
+      "epoch": 0.7238883143743536,
+      "grad_norm": 2.278167486190796,
+      "learning_rate": 0.00029382566585956415,
+      "loss": 0.4902,
+      "step": 700
+    },
+    {
+      "epoch": 0.7238883143743536,
+      "eval_loss": 0.3478095233440399,
+      "eval_runtime": 30.6978,
+      "eval_samples_per_second": 15.995,
+      "eval_steps_per_second": 4.007,
+      "eval_wer": 0.5121427036320654,
+      "step": 700
+    },
+    {
+      "epoch": 0.827300930713547,
+      "grad_norm": 2.4464170932769775,
+      "learning_rate": 0.0002927879626426842,
+      "loss": 0.4797,
+      "step": 800
+    },
+    {
+      "epoch": 0.827300930713547,
+      "eval_loss": 0.3448158800601959,
+      "eval_runtime": 30.6966,
+      "eval_samples_per_second": 15.995,
+      "eval_steps_per_second": 4.007,
+      "eval_wer": 0.4794756071351816,
+      "step": 800
+    },
+    {
+      "epoch": 0.9307135470527405,
+      "grad_norm": 2.2667806148529053,
+      "learning_rate": 0.0002917502594258042,
+      "loss": 0.4667,
+      "step": 900
+    },
+    {
+      "epoch": 0.9307135470527405,
+      "eval_loss": 0.3473311960697174,
+      "eval_runtime": 30.9122,
+      "eval_samples_per_second": 15.884,
+      "eval_steps_per_second": 3.979,
+      "eval_wer": 0.491725768321513,
+      "step": 900
+    },
+    {
+      "epoch": 1.0341261633919339,
+      "grad_norm": 4.21267032623291,
+      "learning_rate": 0.00029071255620892423,
+      "loss": 0.4426,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0341261633919339,
+      "eval_loss": 0.33737972378730774,
+      "eval_runtime": 30.8508,
+      "eval_samples_per_second": 15.915,
+      "eval_steps_per_second": 3.987,
+      "eval_wer": 0.47539222007307114,
+      "step": 1000
+    },
+    {
+      "epoch": 1.1375387797311272,
+      "grad_norm": 1.35986328125,
+      "learning_rate": 0.00028967485299204426,
+      "loss": 0.4491,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1375387797311272,
+      "eval_loss": 0.33271169662475586,
+      "eval_runtime": 30.6479,
+      "eval_samples_per_second": 16.021,
+      "eval_steps_per_second": 4.013,
+      "eval_wer": 0.48269933376316354,
+      "step": 1100
+    },
+    {
+      "epoch": 1.2409513960703205,
+      "grad_norm": 0.8853399753570557,
+      "learning_rate": 0.0002886371497751643,
+      "loss": 0.4447,
+      "step": 1200
+    },
+    {
+      "epoch": 1.2409513960703205,
+      "eval_loss": 0.33263838291168213,
+      "eval_runtime": 30.6698,
+      "eval_samples_per_second": 16.009,
+      "eval_steps_per_second": 4.01,
+      "eval_wer": 0.4915108532129809,
+      "step": 1200
+    },
+    {
+      "epoch": 1.344364012409514,
+      "grad_norm": 1.4764142036437988,
+      "learning_rate": 0.0002875994465582843,
+      "loss": 0.4573,
+      "step": 1300
+    },
+    {
+      "epoch": 1.344364012409514,
+      "eval_loss": 0.32816657423973083,
+      "eval_runtime": 30.9107,
+      "eval_samples_per_second": 15.884,
+      "eval_steps_per_second": 3.979,
+      "eval_wer": 0.46378680421233615,
+      "step": 1300
+    },
+    {
+      "epoch": 1.4477766287487073,
+      "grad_norm": 1.5062446594238281,
+      "learning_rate": 0.00028656174334140434,
+      "loss": 0.4724,
+      "step": 1400
+    },
+    {
+      "epoch": 1.4477766287487073,
+      "eval_loss": 0.32294726371765137,
+      "eval_runtime": 30.9781,
+      "eval_samples_per_second": 15.85,
+      "eval_steps_per_second": 3.971,
+      "eval_wer": 0.4584139264990329,
+      "step": 1400
+    },
+    {
+      "epoch": 1.5511892450879006,
+      "grad_norm": 13.068098068237305,
+      "learning_rate": 0.00028552404012452436,
+      "loss": 0.4502,
+      "step": 1500
+    },
+    {
+      "epoch": 1.5511892450879006,
+      "eval_loss": 0.320773184299469,
+      "eval_runtime": 30.6511,
+      "eval_samples_per_second": 16.019,
+      "eval_steps_per_second": 4.013,
+      "eval_wer": 0.4558349451966473,
+      "step": 1500
+    },
+    {
+      "epoch": 1.654601861427094,
+      "grad_norm": 1.0407159328460693,
+      "learning_rate": 0.0002844863369076444,
+      "loss": 0.4448,
+      "step": 1600
+    },
+    {
+      "epoch": 1.654601861427094,
+      "eval_loss": 0.31659701466560364,
+      "eval_runtime": 30.8376,
+      "eval_samples_per_second": 15.922,
+      "eval_steps_per_second": 3.989,
+      "eval_wer": 0.4558349451966473,
+      "step": 1600
+    },
+    {
+      "epoch": 1.7580144777662876,
+      "grad_norm": 1.3918695449829102,
+      "learning_rate": 0.0002834486336907644,
+      "loss": 0.4549,
+      "step": 1700
+    },
+    {
+      "epoch": 1.7580144777662876,
+      "eval_loss": 0.32059985399246216,
+      "eval_runtime": 30.9591,
+      "eval_samples_per_second": 15.86,
+      "eval_steps_per_second": 3.973,
+      "eval_wer": 0.4513217279174726,
+      "step": 1700
+    },
+    {
+      "epoch": 1.861427094105481,
+      "grad_norm": 1.0892579555511475,
+      "learning_rate": 0.00028241093047388444,
+      "loss": 0.4544,
+      "step": 1800
+    },
+    {
+      "epoch": 1.861427094105481,
+      "eval_loss": 0.31517136096954346,
+      "eval_runtime": 30.9782,
+      "eval_samples_per_second": 15.85,
+      "eval_steps_per_second": 3.971,
+      "eval_wer": 0.4485278315065549,
+      "step": 1800
+    },
+    {
+      "epoch": 1.9648397104446742,
+      "grad_norm": 1.5489096641540527,
+      "learning_rate": 0.00028137322725700447,
+      "loss": 0.4233,
+      "step": 1900
+    },
+    {
+      "epoch": 1.9648397104446742,
+      "eval_loss": 0.3146161437034607,
+      "eval_runtime": 30.6737,
+      "eval_samples_per_second": 16.007,
+      "eval_steps_per_second": 4.01,
+      "eval_wer": 0.43950139694820545,
+      "step": 1900
+    },
+    {
+      "epoch": 2.0682523267838677,
+      "grad_norm": 0.7643145322799683,
+      "learning_rate": 0.0002803355240401245,
+      "loss": 0.4452,
+      "step": 2000
+    },
+    {
+      "epoch": 2.0682523267838677,
+      "eval_loss": 0.3116036057472229,
+      "eval_runtime": 30.6446,
+      "eval_samples_per_second": 16.022,
+      "eval_steps_per_second": 4.014,
+      "eval_wer": 0.46335697399527187,
+      "step": 2000
+    },
+    {
+      "epoch": 2.1716649431230612,
+      "grad_norm": 2.4722142219543457,
+      "learning_rate": 0.0002792978208232445,
+      "loss": 0.4171,
+      "step": 2100
+    },
+    {
+      "epoch": 2.1716649431230612,
+      "eval_loss": 0.31308668851852417,
+      "eval_runtime": 30.6916,
+      "eval_samples_per_second": 15.998,
+      "eval_steps_per_second": 4.008,
+      "eval_wer": 0.465291209972061,
+      "step": 2100
+    },
+    {
+      "epoch": 2.2750775594622543,
+      "grad_norm": 1.3434455394744873,
+      "learning_rate": 0.00027826011760636454,
+      "loss": 0.4161,
+      "step": 2200
+    },
+    {
+      "epoch": 2.2750775594622543,
+      "eval_loss": 0.3058585226535797,
+      "eval_runtime": 30.8818,
+      "eval_samples_per_second": 15.899,
+      "eval_steps_per_second": 3.983,
+      "eval_wer": 0.4455190199871051,
+      "step": 2200
+    },
+    {
+      "epoch": 2.378490175801448,
+      "grad_norm": 1.7992069721221924,
+      "learning_rate": 0.00027722241438948457,
+      "loss": 0.4126,
+      "step": 2300
+    },
+    {
+      "epoch": 2.378490175801448,
+      "eval_loss": 0.304585337638855,
+      "eval_runtime": 31.0224,
+      "eval_samples_per_second": 15.827,
+      "eval_steps_per_second": 3.965,
+      "eval_wer": 0.437137330754352,
+      "step": 2300
+    },
+    {
+      "epoch": 2.481902792140641,
+      "grad_norm": 0.9206439852714539,
+      "learning_rate": 0.0002761847111726046,
+      "loss": 0.4337,
+      "step": 2400
+    },
+    {
+      "epoch": 2.481902792140641,
+      "eval_loss": 0.3068229854106903,
+      "eval_runtime": 30.6081,
+      "eval_samples_per_second": 16.041,
+      "eval_steps_per_second": 4.019,
+      "eval_wer": 0.43434343434343436,
+      "step": 2400
+    },
+    {
+      "epoch": 2.5853154084798344,
+      "grad_norm": 0.7960453629493713,
+      "learning_rate": 0.0002751470079557246,
+      "loss": 0.4175,
+      "step": 2500
+    },
+    {
+      "epoch": 2.5853154084798344,
+      "eval_loss": 0.3018108904361725,
+      "eval_runtime": 31.0479,
+      "eval_samples_per_second": 15.814,
+      "eval_steps_per_second": 3.962,
+      "eval_wer": 0.43606275521169136,
+      "step": 2500
+    },
+    {
+      "epoch": 2.688728024819028,
+      "grad_norm": 0.8274104595184326,
+      "learning_rate": 0.0002741093047388447,
+      "loss": 0.4097,
+      "step": 2600
+    },
+    {
+      "epoch": 2.688728024819028,
+      "eval_loss": 0.3014011085033417,
+      "eval_runtime": 30.9733,
+      "eval_samples_per_second": 15.852,
+      "eval_steps_per_second": 3.971,
+      "eval_wer": 0.4410058027079304,
+      "step": 2600
+    },
+    {
+      "epoch": 2.7921406411582215,
+      "grad_norm": 0.6941657066345215,
+      "learning_rate": 0.00027307160152196467,
+      "loss": 0.4137,
+      "step": 2700
+    },
+    {
+      "epoch": 2.7921406411582215,
+      "eval_loss": 0.2995806932449341,
+      "eval_runtime": 30.8058,
+      "eval_samples_per_second": 15.939,
+      "eval_steps_per_second": 3.993,
+      "eval_wer": 0.43541800988609497,
+      "step": 2700
+    },
+    {
+      "epoch": 2.8955532574974145,
+      "grad_norm": 1.414363145828247,
+      "learning_rate": 0.0002720442753372535,
+      "loss": 0.4167,
+      "step": 2800
+    },
+    {
+      "epoch": 2.8955532574974145,
+      "eval_loss": 0.2997954189777374,
+      "eval_runtime": 30.7397,
+      "eval_samples_per_second": 15.973,
+      "eval_steps_per_second": 4.001,
+      "eval_wer": 0.4399312271652697,
+      "step": 2800
+    },
+    {
+      "epoch": 2.998965873836608,
+      "grad_norm": 8.619386672973633,
+      "learning_rate": 0.00027100657212037355,
+      "loss": 0.427,
+      "step": 2900
+    },
+    {
+      "epoch": 2.998965873836608,
+      "eval_loss": 0.30078718066215515,
+      "eval_runtime": 31.0317,
+      "eval_samples_per_second": 15.823,
+      "eval_steps_per_second": 3.964,
+      "eval_wer": 0.4435847840103159,
+      "step": 2900
+    },
+    {
+      "epoch": 3.1023784901758016,
+      "grad_norm": 35.736480712890625,
+      "learning_rate": 0.0002699688689034936,
+      "loss": 0.4082,
+      "step": 3000
+    },
+    {
+      "epoch": 3.1023784901758016,
+      "eval_loss": 0.3055952489376068,
+      "eval_runtime": 30.9565,
+      "eval_samples_per_second": 15.861,
+      "eval_steps_per_second": 3.973,
+      "eval_wer": 0.440361057382334,
+      "step": 3000
+    },
+    {
+      "epoch": 3.1023784901758016,
+      "step": 3000,
+      "total_flos": 7.152937185600249e+18,
+      "train_loss": 0.6818474756876628,
+      "train_runtime": 2982.3235,
+      "train_samples_per_second": 38.889,
+      "train_steps_per_second": 9.727
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 29010,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.152937185600249e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}