End of training

Browse files

Files changed (5) hide show

README.md +8 -4
all_results.json +16 -0
eval_results.json +10 -0
train_results.json +9 -0
trainer_state.json +1212 -0

README.md CHANGED Viewed

@@ -1,8 +1,12 @@
 ---
 library_name: transformers
 license: apache-2.0
 base_model: rinna/japanese-hubert-base
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,11 +20,11 @@ should probably proofread and complete it, then remove this comment. -->
 # Hubert-common_voice_JSUT-ja-demo-japanese
-This model is a fine-tuned version of [rinna/japanese-hubert-base](https://huggingface.co/rinna/japanese-hubert-base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.1762
-- Wer: 1.9914
-- Cer: 0.6413
 ## Model description

 ---
 library_name: transformers
+language:
+- ja
 license: apache-2.0
 base_model: rinna/japanese-hubert-base
 tags:
+- automatic-speech-recognition
+- mozilla-foundation/common_voice_13_0
 - generated_from_trainer
 metrics:
 - wer
 # Hubert-common_voice_JSUT-ja-demo-japanese
+This model is a fine-tuned version of [rinna/japanese-hubert-base](https://huggingface.co/rinna/japanese-hubert-base) on the MOZILLA-FOUNDATION/COMMON_VOICE_13_0 - JA dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.1568
+- Wer: 1.9920
+- Cer: 0.6415
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 20.0,
+    "eval_cer": 0.6415434821104824,
+    "eval_loss": 2.1568174362182617,
+    "eval_runtime": 247.3136,
+    "eval_samples": 5461,
+    "eval_samples_per_second": 22.081,
+    "eval_steps_per_second": 2.762,
+    "eval_wer": 1.9919502378338823,
+    "total_flos": 1.4857862206321902e+19,
+    "train_loss": 15.407913101757057,
+    "train_runtime": 65838.1292,
+    "train_samples": 16532,
+    "train_samples_per_second": 5.022,
+    "train_steps_per_second": 0.157
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 20.0,
+    "eval_cer": 0.6415434821104824,
+    "eval_loss": 2.1568174362182617,
+    "eval_runtime": 247.3136,
+    "eval_samples": 5461,
+    "eval_samples_per_second": 22.081,
+    "eval_steps_per_second": 2.762,
+    "eval_wer": 1.9919502378338823
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 20.0,
+    "total_flos": 1.4857862206321902e+19,
+    "train_loss": 15.407913101757057,
+    "train_runtime": 65838.1292,
+    "train_samples": 16532,
+    "train_samples_per_second": 5.022,
+    "train_steps_per_second": 0.157
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1212 @@

+{
+  "best_metric": 2.176206588745117,
+  "best_model_checkpoint": "./Hubert-common_voice_JSUT-ja-demo-japanese/checkpoint-10300",
+  "epoch": 20.0,
+  "eval_steps": 100,
+  "global_step": 10340,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.19342359767891681,
+      "eval_cer": 8.48504498730911,
+      "eval_loss": 84.69584655761719,
+      "eval_runtime": 236.8633,
+      "eval_samples_per_second": 23.055,
+      "eval_steps_per_second": 2.884,
+      "eval_wer": 1.0115257958287596,
+      "step": 100
+    },
+    {
+      "epoch": 0.38684719535783363,
+      "eval_cer": 8.344315240030694,
+      "eval_loss": 83.78863525390625,
+      "eval_runtime": 232.6848,
+      "eval_samples_per_second": 23.47,
+      "eval_steps_per_second": 2.935,
+      "eval_wer": 1.008964507866813,
+      "step": 200
+    },
+    {
+      "epoch": 0.5802707930367504,
+      "eval_cer": 4.815741763569977,
+      "eval_loss": 81.74565124511719,
+      "eval_runtime": 231.6247,
+      "eval_samples_per_second": 23.577,
+      "eval_steps_per_second": 2.949,
+      "eval_wer": 1.000365898280278,
+      "step": 300
+    },
+    {
+      "epoch": 0.7736943907156673,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 75.43038940429688,
+      "eval_runtime": 227.0361,
+      "eval_samples_per_second": 24.053,
+      "eval_steps_per_second": 3.008,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.9671179883945842,
+      "grad_norm": 140.793212890625,
+      "learning_rate": 1.188e-06,
+      "loss": 66.0277,
+      "step": 500
+    },
+    {
+      "epoch": 0.9671179883945842,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 63.1251106262207,
+      "eval_runtime": 226.7903,
+      "eval_samples_per_second": 24.08,
+      "eval_steps_per_second": 3.012,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 1.1605415860735009,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 57.10499572753906,
+      "eval_runtime": 255.6303,
+      "eval_samples_per_second": 21.363,
+      "eval_steps_per_second": 2.672,
+      "eval_wer": 1.0,
+      "step": 600
+    },
+    {
+      "epoch": 1.3539651837524178,
+      "eval_cer": 0.9907917260454173,
+      "eval_loss": 55.67994689941406,
+      "eval_runtime": 269.8181,
+      "eval_samples_per_second": 20.24,
+      "eval_steps_per_second": 2.531,
+      "eval_wer": 1.0,
+      "step": 700
+    },
+    {
+      "epoch": 1.5473887814313345,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 55.04756546020508,
+      "eval_runtime": 241.9741,
+      "eval_samples_per_second": 22.569,
+      "eval_steps_per_second": 2.823,
+      "eval_wer": 1.0,
+      "step": 800
+    },
+    {
+      "epoch": 1.7408123791102514,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 54.408546447753906,
+      "eval_runtime": 256.9455,
+      "eval_samples_per_second": 21.254,
+      "eval_steps_per_second": 2.658,
+      "eval_wer": 1.0,
+      "step": 900
+    },
+    {
+      "epoch": 1.9342359767891684,
+      "grad_norm": 141.13522338867188,
+      "learning_rate": 2.3855999999999997e-06,
+      "loss": 46.3141,
+      "step": 1000
+    },
+    {
+      "epoch": 1.9342359767891684,
+      "eval_cer": 0.9907917260454173,
+      "eval_loss": 53.68925857543945,
+      "eval_runtime": 260.4063,
+      "eval_samples_per_second": 20.971,
+      "eval_steps_per_second": 2.623,
+      "eval_wer": 1.0,
+      "step": 1000
+    },
+    {
+      "epoch": 2.127659574468085,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 52.97110366821289,
+      "eval_runtime": 254.697,
+      "eval_samples_per_second": 21.441,
+      "eval_steps_per_second": 2.682,
+      "eval_wer": 1.0,
+      "step": 1100
+    },
+    {
+      "epoch": 2.3210831721470018,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 52.13261032104492,
+      "eval_runtime": 246.5799,
+      "eval_samples_per_second": 22.147,
+      "eval_steps_per_second": 2.77,
+      "eval_wer": 1.0,
+      "step": 1200
+    },
+    {
+      "epoch": 2.514506769825919,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 51.254920959472656,
+      "eval_runtime": 260.2756,
+      "eval_samples_per_second": 20.982,
+      "eval_steps_per_second": 2.624,
+      "eval_wer": 1.0,
+      "step": 1300
+    },
+    {
+      "epoch": 2.7079303675048356,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 50.26494598388672,
+      "eval_runtime": 261.2096,
+      "eval_samples_per_second": 20.907,
+      "eval_steps_per_second": 2.615,
+      "eval_wer": 1.0,
+      "step": 1400
+    },
+    {
+      "epoch": 2.9013539651837523,
+      "grad_norm": 120.8663101196289,
+      "learning_rate": 3.5856e-06,
+      "loss": 42.8642,
+      "step": 1500
+    },
+    {
+      "epoch": 2.9013539651837523,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 49.20811080932617,
+      "eval_runtime": 258.4268,
+      "eval_samples_per_second": 21.132,
+      "eval_steps_per_second": 2.643,
+      "eval_wer": 1.0,
+      "step": 1500
+    },
+    {
+      "epoch": 3.094777562862669,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 48.105064392089844,
+      "eval_runtime": 247.347,
+      "eval_samples_per_second": 22.078,
+      "eval_steps_per_second": 2.761,
+      "eval_wer": 1.0,
+      "step": 1600
+    },
+    {
+      "epoch": 3.288201160541586,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 46.87884521484375,
+      "eval_runtime": 262.3223,
+      "eval_samples_per_second": 20.818,
+      "eval_steps_per_second": 2.604,
+      "eval_wer": 1.0,
+      "step": 1700
+    },
+    {
+      "epoch": 3.481624758220503,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 45.54108810424805,
+      "eval_runtime": 228.7269,
+      "eval_samples_per_second": 23.876,
+      "eval_steps_per_second": 2.986,
+      "eval_wer": 1.0,
+      "step": 1800
+    },
+    {
+      "epoch": 3.6750483558994196,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 44.151554107666016,
+      "eval_runtime": 228.7844,
+      "eval_samples_per_second": 23.87,
+      "eval_steps_per_second": 2.985,
+      "eval_wer": 1.0,
+      "step": 1900
+    },
+    {
+      "epoch": 3.8684719535783367,
+      "grad_norm": 172.9249725341797,
+      "learning_rate": 4.7856e-06,
+      "loss": 38.3378,
+      "step": 2000
+    },
+    {
+      "epoch": 3.8684719535783367,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 42.60865783691406,
+      "eval_runtime": 227.6693,
+      "eval_samples_per_second": 23.987,
+      "eval_steps_per_second": 3.0,
+      "eval_wer": 1.0,
+      "step": 2000
+    },
+    {
+      "epoch": 4.061895551257253,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 40.9814567565918,
+      "eval_runtime": 230.7363,
+      "eval_samples_per_second": 23.668,
+      "eval_steps_per_second": 2.96,
+      "eval_wer": 1.0,
+      "step": 2100
+    },
+    {
+      "epoch": 4.25531914893617,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 39.240055084228516,
+      "eval_runtime": 230.4939,
+      "eval_samples_per_second": 23.693,
+      "eval_steps_per_second": 2.963,
+      "eval_wer": 1.0,
+      "step": 2200
+    },
+    {
+      "epoch": 4.448742746615087,
+      "eval_cer": 0.9907917260454173,
+      "eval_loss": 37.40217590332031,
+      "eval_runtime": 228.8585,
+      "eval_samples_per_second": 23.862,
+      "eval_steps_per_second": 2.984,
+      "eval_wer": 1.0,
+      "step": 2300
+    },
+    {
+      "epoch": 4.6421663442940035,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 35.430931091308594,
+      "eval_runtime": 229.2781,
+      "eval_samples_per_second": 23.818,
+      "eval_steps_per_second": 2.979,
+      "eval_wer": 1.0,
+      "step": 2400
+    },
+    {
+      "epoch": 4.835589941972921,
+      "grad_norm": 113.81422424316406,
+      "learning_rate": 5.9856e-06,
+      "loss": 31.9192,
+      "step": 2500
+    },
+    {
+      "epoch": 4.835589941972921,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 33.417510986328125,
+      "eval_runtime": 233.5128,
+      "eval_samples_per_second": 23.386,
+      "eval_steps_per_second": 2.925,
+      "eval_wer": 1.0,
+      "step": 2500
+    },
+    {
+      "epoch": 5.029013539651838,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 31.266008377075195,
+      "eval_runtime": 235.6664,
+      "eval_samples_per_second": 23.173,
+      "eval_steps_per_second": 2.898,
+      "eval_wer": 1.0,
+      "step": 2600
+    },
+    {
+      "epoch": 5.222437137330754,
+      "eval_cer": 0.9907917260454173,
+      "eval_loss": 29.01472282409668,
+      "eval_runtime": 238.0062,
+      "eval_samples_per_second": 22.945,
+      "eval_steps_per_second": 2.87,
+      "eval_wer": 1.0,
+      "step": 2700
+    },
+    {
+      "epoch": 5.415860735009671,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 26.68852996826172,
+      "eval_runtime": 267.9224,
+      "eval_samples_per_second": 20.383,
+      "eval_steps_per_second": 2.549,
+      "eval_wer": 1.0,
+      "step": 2800
+    },
+    {
+      "epoch": 5.609284332688588,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 24.301000595092773,
+      "eval_runtime": 235.2693,
+      "eval_samples_per_second": 23.212,
+      "eval_steps_per_second": 2.903,
+      "eval_wer": 1.0,
+      "step": 2900
+    },
+    {
+      "epoch": 5.802707930367505,
+      "grad_norm": 106.30471801757812,
+      "learning_rate": 7.1856e-06,
+      "loss": 23.4284,
+      "step": 3000
+    },
+    {
+      "epoch": 5.802707930367505,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 21.88077735900879,
+      "eval_runtime": 232.75,
+      "eval_samples_per_second": 23.463,
+      "eval_steps_per_second": 2.934,
+      "eval_wer": 1.0,
+      "step": 3000
+    },
+    {
+      "epoch": 5.996131528046422,
+      "eval_cer": 0.9907917260454173,
+      "eval_loss": 19.473451614379883,
+      "eval_runtime": 233.7728,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 2.922,
+      "eval_wer": 1.0,
+      "step": 3100
+    },
+    {
+      "epoch": 6.189555125725338,
+      "eval_cer": 0.9908760508984813,
+      "eval_loss": 17.129289627075195,
+      "eval_runtime": 240.7161,
+      "eval_samples_per_second": 22.686,
+      "eval_steps_per_second": 2.837,
+      "eval_wer": 1.0,
+      "step": 3200
+    },
+    {
+      "epoch": 6.382978723404255,
+      "eval_cer": 0.9907917260454173,
+      "eval_loss": 14.863801002502441,
+      "eval_runtime": 233.6375,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 2.923,
+      "eval_wer": 1.0,
+      "step": 3300
+    },
+    {
+      "epoch": 6.576402321083172,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 12.806206703186035,
+      "eval_runtime": 251.782,
+      "eval_samples_per_second": 21.689,
+      "eval_steps_per_second": 2.713,
+      "eval_wer": 1.0,
+      "step": 3400
+    },
+    {
+      "epoch": 6.769825918762089,
+      "grad_norm": 82.23467254638672,
+      "learning_rate": 8.3856e-06,
+      "loss": 13.9431,
+      "step": 3500
+    },
+    {
+      "epoch": 6.769825918762089,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 10.964253425598145,
+      "eval_runtime": 233.2904,
+      "eval_samples_per_second": 23.409,
+      "eval_steps_per_second": 2.928,
+      "eval_wer": 1.0,
+      "step": 3500
+    },
+    {
+      "epoch": 6.963249516441006,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 9.411906242370605,
+      "eval_runtime": 235.0547,
+      "eval_samples_per_second": 23.233,
+      "eval_steps_per_second": 2.906,
+      "eval_wer": 1.0,
+      "step": 3600
+    },
+    {
+      "epoch": 7.156673114119923,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 8.164007186889648,
+      "eval_runtime": 287.0729,
+      "eval_samples_per_second": 19.023,
+      "eval_steps_per_second": 2.379,
+      "eval_wer": 1.0,
+      "step": 3700
+    },
+    {
+      "epoch": 7.350096711798839,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 7.22973108291626,
+      "eval_runtime": 237.3392,
+      "eval_samples_per_second": 23.009,
+      "eval_steps_per_second": 2.878,
+      "eval_wer": 1.0,
+      "step": 3800
+    },
+    {
+      "epoch": 7.543520309477756,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 6.571568489074707,
+      "eval_runtime": 232.6033,
+      "eval_samples_per_second": 23.478,
+      "eval_steps_per_second": 2.936,
+      "eval_wer": 1.0,
+      "step": 3900
+    },
+    {
+      "epoch": 7.7369439071566735,
+      "grad_norm": 4.932778358459473,
+      "learning_rate": 9.585600000000002e-06,
+      "loss": 7.4585,
+      "step": 4000
+    },
+    {
+      "epoch": 7.7369439071566735,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 6.141250133514404,
+      "eval_runtime": 234.2968,
+      "eval_samples_per_second": 23.308,
+      "eval_steps_per_second": 2.915,
+      "eval_wer": 1.0,
+      "step": 4000
+    },
+    {
+      "epoch": 7.93036750483559,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 5.885389804840088,
+      "eval_runtime": 236.1436,
+      "eval_samples_per_second": 23.126,
+      "eval_steps_per_second": 2.892,
+      "eval_wer": 1.0,
+      "step": 4100
+    },
+    {
+      "epoch": 8.123791102514506,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 5.770660877227783,
+      "eval_runtime": 234.5762,
+      "eval_samples_per_second": 23.28,
+      "eval_steps_per_second": 2.912,
+      "eval_wer": 1.0,
+      "step": 4200
+    },
+    {
+      "epoch": 8.317214700193423,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 5.680200576782227,
+      "eval_runtime": 231.827,
+      "eval_samples_per_second": 23.556,
+      "eval_steps_per_second": 2.946,
+      "eval_wer": 1.0,
+      "step": 4300
+    },
+    {
+      "epoch": 8.51063829787234,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 5.597055435180664,
+      "eval_runtime": 232.7784,
+      "eval_samples_per_second": 23.46,
+      "eval_steps_per_second": 2.934,
+      "eval_wer": 1.0,
+      "step": 4400
+    },
+    {
+      "epoch": 8.704061895551257,
+      "grad_norm": 1.6451424360275269,
+      "learning_rate": 1.07856e-05,
+      "loss": 5.7398,
+      "step": 4500
+    },
+    {
+      "epoch": 8.704061895551257,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 5.533324241638184,
+      "eval_runtime": 232.5892,
+      "eval_samples_per_second": 23.479,
+      "eval_steps_per_second": 2.937,
+      "eval_wer": 1.0,
+      "step": 4500
+    },
+    {
+      "epoch": 8.897485493230175,
+      "eval_cer": 0.9907074011923535,
+      "eval_loss": 5.475062370300293,
+      "eval_runtime": 233.1057,
+      "eval_samples_per_second": 23.427,
+      "eval_steps_per_second": 2.93,
+      "eval_wer": 1.0,
+      "step": 4600
+    },
+    {
+      "epoch": 9.090909090909092,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 5.425434589385986,
+      "eval_runtime": 232.7779,
+      "eval_samples_per_second": 23.46,
+      "eval_steps_per_second": 2.934,
+      "eval_wer": 1.0,
+      "step": 4700
+    },
+    {
+      "epoch": 9.284332688588007,
+      "eval_cer": 0.9908423209572558,
+      "eval_loss": 5.377471923828125,
+      "eval_runtime": 234.4379,
+      "eval_samples_per_second": 23.294,
+      "eval_steps_per_second": 2.913,
+      "eval_wer": 1.1319063300402488,
+      "step": 4800
+    },
+    {
+      "epoch": 9.477756286266924,
+      "eval_cer": 0.9907495636188854,
+      "eval_loss": 5.343258380889893,
+      "eval_runtime": 239.0036,
+      "eval_samples_per_second": 22.849,
+      "eval_steps_per_second": 2.858,
+      "eval_wer": 1.33205268935236,
+      "step": 4900
+    },
+    {
+      "epoch": 9.671179883945841,
+      "grad_norm": 2.292585611343384,
+      "learning_rate": 1.19856e-05,
+      "loss": 5.4159,
+      "step": 5000
+    },
+    {
+      "epoch": 9.671179883945841,
+      "eval_cer": 0.9906146438539831,
+      "eval_loss": 5.311874866485596,
+      "eval_runtime": 235.3723,
+      "eval_samples_per_second": 23.202,
+      "eval_steps_per_second": 2.902,
+      "eval_wer": 1.686242224661544,
+      "step": 5000
+    },
+    {
+      "epoch": 9.864603481624759,
+      "eval_cer": 0.9909688082368516,
+      "eval_loss": 5.269064426422119,
+      "eval_runtime": 234.5017,
+      "eval_samples_per_second": 23.288,
+      "eval_steps_per_second": 2.913,
+      "eval_wer": 1.4255396999634102,
+      "step": 5100
+    },
+    {
+      "epoch": 10.058027079303676,
+      "eval_cer": 0.9909182133250133,
+      "eval_loss": 5.236879825592041,
+      "eval_runtime": 235.3148,
+      "eval_samples_per_second": 23.207,
+      "eval_steps_per_second": 2.902,
+      "eval_wer": 1.4043175997072814,
+      "step": 5200
+    },
+    {
+      "epoch": 10.251450676982591,
+      "eval_cer": 0.9909603757515453,
+      "eval_loss": 5.194947719573975,
+      "eval_runtime": 232.4545,
+      "eval_samples_per_second": 23.493,
+      "eval_steps_per_second": 2.938,
+      "eval_wer": 1.5686059275521405,
+      "step": 5300
+    },
+    {
+      "epoch": 10.444874274661508,
+      "eval_cer": 0.9908170235013366,
+      "eval_loss": 5.151918888092041,
+      "eval_runtime": 231.5581,
+      "eval_samples_per_second": 23.584,
+      "eval_steps_per_second": 2.95,
+      "eval_wer": 1.5166483717526527,
+      "step": 5400
+    },
+    {
+      "epoch": 10.638297872340425,
+      "grad_norm": 2.0632503032684326,
+      "learning_rate": 1.3185600000000001e-05,
+      "loss": 5.2163,
+      "step": 5500
+    },
+    {
+      "epoch": 10.638297872340425,
+      "eval_cer": 0.9909603757515453,
+      "eval_loss": 5.108114242553711,
+      "eval_runtime": 232.6627,
+      "eval_samples_per_second": 23.472,
+      "eval_steps_per_second": 2.936,
+      "eval_wer": 1.247713135748262,
+      "step": 5500
+    },
+    {
+      "epoch": 10.831721470019342,
+      "eval_cer": 0.9907664285894981,
+      "eval_loss": 5.055335998535156,
+      "eval_runtime": 231.9668,
+      "eval_samples_per_second": 23.542,
+      "eval_steps_per_second": 2.944,
+      "eval_wer": 1.5124405415294548,
+      "step": 5600
+    },
+    {
+      "epoch": 11.02514506769826,
+      "eval_cer": 0.9908760508984813,
+      "eval_loss": 5.012271881103516,
+      "eval_runtime": 231.643,
+      "eval_samples_per_second": 23.575,
+      "eval_steps_per_second": 2.949,
+      "eval_wer": 1.5495792169776803,
+      "step": 5700
+    },
+    {
+      "epoch": 11.218568665377177,
+      "eval_cer": 0.9885824148951421,
+      "eval_loss": 4.942389965057373,
+      "eval_runtime": 232.3058,
+      "eval_samples_per_second": 23.508,
+      "eval_steps_per_second": 2.94,
+      "eval_wer": 1.7621661178192463,
+      "step": 5800
+    },
+    {
+      "epoch": 11.411992263056092,
+      "eval_cer": 0.9830675695047602,
+      "eval_loss": 4.8753485679626465,
+      "eval_runtime": 233.7911,
+      "eval_samples_per_second": 23.358,
+      "eval_steps_per_second": 2.921,
+      "eval_wer": 1.5404317599707282,
+      "step": 5900
+    },
+    {
+      "epoch": 11.60541586073501,
+      "grad_norm": 1.9146788120269775,
+      "learning_rate": 1.43856e-05,
+      "loss": 4.9465,
+      "step": 6000
+    },
+    {
+      "epoch": 11.60541586073501,
+      "eval_cer": 0.9749808160959279,
+      "eval_loss": 4.77677059173584,
+      "eval_runtime": 232.0203,
+      "eval_samples_per_second": 23.537,
+      "eval_steps_per_second": 2.944,
+      "eval_wer": 1.853457738748628,
+      "step": 6000
+    },
+    {
+      "epoch": 11.798839458413926,
+      "eval_cer": 0.9713126849876464,
+      "eval_loss": 4.6841044425964355,
+      "eval_runtime": 231.7273,
+      "eval_samples_per_second": 23.566,
+      "eval_steps_per_second": 2.947,
+      "eval_wer": 1.8395536040980607,
+      "step": 6100
+    },
+    {
+      "epoch": 11.992263056092844,
+      "eval_cer": 0.9697020802941251,
+      "eval_loss": 4.582820892333984,
+      "eval_runtime": 232.9124,
+      "eval_samples_per_second": 23.447,
+      "eval_steps_per_second": 2.932,
+      "eval_wer": 1.7444200512257593,
+      "step": 6200
+    },
+    {
+      "epoch": 12.18568665377176,
+      "eval_cer": 0.968909426675324,
+      "eval_loss": 4.485307693481445,
+      "eval_runtime": 232.9842,
+      "eval_samples_per_second": 23.439,
+      "eval_steps_per_second": 2.932,
+      "eval_wer": 1.801317233809001,
+      "step": 6300
+    },
+    {
+      "epoch": 12.379110251450676,
+      "eval_cer": 0.9556029648618337,
+      "eval_loss": 4.395504951477051,
+      "eval_runtime": 233.0172,
+      "eval_samples_per_second": 23.436,
+      "eval_steps_per_second": 2.931,
+      "eval_wer": 1.827844859129162,
+      "step": 6400
+    },
+    {
+      "epoch": 12.572533849129593,
+      "grad_norm": 4.459765434265137,
+      "learning_rate": 1.55856e-05,
+      "loss": 4.5094,
+      "step": 6500
+    },
+    {
+      "epoch": 12.572533849129593,
+      "eval_cer": 0.9123021528134987,
+      "eval_loss": 4.284241676330566,
+      "eval_runtime": 230.5488,
+      "eval_samples_per_second": 23.687,
+      "eval_steps_per_second": 2.962,
+      "eval_wer": 1.8728503476033662,
+      "step": 6500
+    },
+    {
+      "epoch": 12.76595744680851,
+      "eval_cer": 0.8650380726711584,
+      "eval_loss": 4.181938171386719,
+      "eval_runtime": 232.0403,
+      "eval_samples_per_second": 23.535,
+      "eval_steps_per_second": 2.943,
+      "eval_wer": 1.9094401756311745,
+      "step": 6600
+    },
+    {
+      "epoch": 12.959381044487428,
+      "eval_cer": 0.848628456264915,
+      "eval_loss": 4.074057579040527,
+      "eval_runtime": 231.4468,
+      "eval_samples_per_second": 23.595,
+      "eval_steps_per_second": 2.951,
+      "eval_wer": 1.9134650567142335,
+      "step": 6700
+    },
+    {
+      "epoch": 13.152804642166345,
+      "eval_cer": 0.8385937987503057,
+      "eval_loss": 3.9648523330688477,
+      "eval_runtime": 231.3067,
+      "eval_samples_per_second": 23.609,
+      "eval_steps_per_second": 2.953,
+      "eval_wer": 1.9191364800585438,
+      "step": 6800
+    },
+    {
+      "epoch": 13.346228239845262,
+      "eval_cer": 0.8189292430157941,
+      "eval_loss": 3.8640658855438232,
+      "eval_runtime": 237.0711,
+      "eval_samples_per_second": 23.035,
+      "eval_steps_per_second": 2.881,
+      "eval_wer": 1.9195023783388219,
+      "step": 6900
+    },
+    {
+      "epoch": 13.539651837524177,
+      "grad_norm": 4.586193084716797,
+      "learning_rate": 1.67856e-05,
+      "loss": 4.0097,
+      "step": 7000
+    },
+    {
+      "epoch": 13.539651837524177,
+      "eval_cer": 0.8014487009756386,
+      "eval_loss": 3.7686750888824463,
+      "eval_runtime": 244.328,
+      "eval_samples_per_second": 22.351,
+      "eval_steps_per_second": 2.795,
+      "eval_wer": 1.9275521405049396,
+      "step": 7000
+    },
+    {
+      "epoch": 13.733075435203094,
+      "eval_cer": 0.7963301823946571,
+      "eval_loss": 3.680776596069336,
+      "eval_runtime": 230.3109,
+      "eval_samples_per_second": 23.711,
+      "eval_steps_per_second": 2.966,
+      "eval_wer": 1.9259055982436883,
+      "step": 7100
+    },
+    {
+      "epoch": 13.926499032882012,
+      "eval_cer": 0.779220669707983,
+      "eval_loss": 3.60208797454834,
+      "eval_runtime": 229.5487,
+      "eval_samples_per_second": 23.79,
+      "eval_steps_per_second": 2.975,
+      "eval_wer": 1.9275521405049396,
+      "step": 7200
+    },
+    {
+      "epoch": 14.119922630560929,
+      "eval_cer": 0.777466712764253,
+      "eval_loss": 3.55332088470459,
+      "eval_runtime": 231.4776,
+      "eval_samples_per_second": 23.592,
+      "eval_steps_per_second": 2.951,
+      "eval_wer": 1.9366995975118917,
+      "step": 7300
+    },
+    {
+      "epoch": 14.313346228239846,
+      "eval_cer": 0.775071886937237,
+      "eval_loss": 3.476841449737549,
+      "eval_runtime": 240.5885,
+      "eval_samples_per_second": 22.699,
+      "eval_steps_per_second": 2.839,
+      "eval_wer": 1.9321258690084158,
+      "step": 7400
+    },
+    {
+      "epoch": 14.506769825918763,
+      "grad_norm": 4.310749053955078,
+      "learning_rate": 1.7985600000000003e-05,
+      "loss": 3.5619,
+      "step": 7500
+    },
+    {
+      "epoch": 14.506769825918763,
+      "eval_cer": 0.7672043781463711,
+      "eval_loss": 3.4284844398498535,
+      "eval_runtime": 240.9512,
+      "eval_samples_per_second": 22.664,
+      "eval_steps_per_second": 2.835,
+      "eval_wer": 1.938529088913282,
+      "step": 7500
+    },
+    {
+      "epoch": 14.700193423597678,
+      "eval_cer": 0.7659816677769439,
+      "eval_loss": 3.362793445587158,
+      "eval_runtime": 230.1401,
+      "eval_samples_per_second": 23.729,
+      "eval_steps_per_second": 2.968,
+      "eval_wer": 1.9361507500914745,
+      "step": 7600
+    },
+    {
+      "epoch": 14.893617021276595,
+      "eval_cer": 0.7618919124033426,
+      "eval_loss": 3.2909657955169678,
+      "eval_runtime": 233.6336,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 2.923,
+      "eval_wer": 1.9313940724478595,
+      "step": 7700
+    },
+    {
+      "epoch": 15.087040618955513,
+      "eval_cer": 0.7486360455016907,
+      "eval_loss": 3.2242627143859863,
+      "eval_runtime": 241.9894,
+      "eval_samples_per_second": 22.567,
+      "eval_steps_per_second": 2.822,
+      "eval_wer": 1.928832784485913,
+      "step": 7800
+    },
+    {
+      "epoch": 15.28046421663443,
+      "eval_cer": 0.7431802275084536,
+      "eval_loss": 3.164518117904663,
+      "eval_runtime": 232.2322,
+      "eval_samples_per_second": 23.515,
+      "eval_steps_per_second": 2.941,
+      "eval_wer": 1.9308452250274424,
+      "step": 7900
+    },
+    {
+      "epoch": 15.473887814313347,
+      "grad_norm": 5.67767333984375,
+      "learning_rate": 1.91856e-05,
+      "loss": 3.2379,
+      "step": 8000
+    },
+    {
+      "epoch": 15.473887814313347,
+      "eval_cer": 0.7382556560895193,
+      "eval_loss": 3.1185944080352783,
+      "eval_runtime": 235.8886,
+      "eval_samples_per_second": 23.151,
+      "eval_steps_per_second": 2.895,
+      "eval_wer": 1.9332235638492499,
+      "step": 8000
+    },
+    {
+      "epoch": 15.667311411992262,
+      "eval_cer": 0.7374714349560246,
+      "eval_loss": 3.078275203704834,
+      "eval_runtime": 234.7574,
+      "eval_samples_per_second": 23.262,
+      "eval_steps_per_second": 2.909,
+      "eval_wer": 1.9348701061105014,
+      "step": 8100
+    },
+    {
+      "epoch": 15.86073500967118,
+      "eval_cer": 0.727942726559799,
+      "eval_loss": 3.0145950317382812,
+      "eval_runtime": 231.4339,
+      "eval_samples_per_second": 23.596,
+      "eval_steps_per_second": 2.951,
+      "eval_wer": 1.9321258690084158,
+      "step": 8200
+    },
+    {
+      "epoch": 16.054158607350097,
+      "eval_cer": 0.7300086854598656,
+      "eval_loss": 2.9523487091064453,
+      "eval_runtime": 235.1315,
+      "eval_samples_per_second": 23.225,
+      "eval_steps_per_second": 2.905,
+      "eval_wer": 1.9308452250274424,
+      "step": 8300
+    },
+    {
+      "epoch": 16.247582205029012,
+      "eval_cer": 0.7254467109091063,
+      "eval_loss": 2.918687105178833,
+      "eval_runtime": 238.3374,
+      "eval_samples_per_second": 22.913,
+      "eval_steps_per_second": 2.866,
+      "eval_wer": 1.9273691913648006,
+      "step": 8400
+    },
+    {
+      "epoch": 16.44100580270793,
+      "grad_norm": 8.755329132080078,
+      "learning_rate": 2.03856e-05,
+      "loss": 2.9448,
+      "step": 8500
+    },
+    {
+      "epoch": 16.44100580270793,
+      "eval_cer": 0.7177394193390618,
+      "eval_loss": 2.8671371936798096,
+      "eval_runtime": 229.0989,
+      "eval_samples_per_second": 23.837,
+      "eval_steps_per_second": 2.981,
+      "eval_wer": 1.929015733626052,
+      "step": 8500
+    },
+    {
+      "epoch": 16.634429400386846,
+      "eval_cer": 0.7115752725800876,
+      "eval_loss": 2.8188540935516357,
+      "eval_runtime": 230.6192,
+      "eval_samples_per_second": 23.68,
+      "eval_steps_per_second": 2.962,
+      "eval_wer": 1.9348701061105014,
+      "step": 8600
+    },
+    {
+      "epoch": 16.827852998065765,
+      "eval_cer": 0.70778065419221,
+      "eval_loss": 2.76908802986145,
+      "eval_runtime": 239.0894,
+      "eval_samples_per_second": 22.841,
+      "eval_steps_per_second": 2.857,
+      "eval_wer": 1.9365166483717526,
+      "step": 8700
+    },
+    {
+      "epoch": 17.02127659574468,
+      "eval_cer": 0.7069205406909579,
+      "eval_loss": 2.731661081314087,
+      "eval_runtime": 231.1522,
+      "eval_samples_per_second": 23.625,
+      "eval_steps_per_second": 2.955,
+      "eval_wer": 1.9420051225759238,
+      "step": 8800
+    },
+    {
+      "epoch": 17.214700193423596,
+      "eval_cer": 0.7056388029243859,
+      "eval_loss": 2.683185577392578,
+      "eval_runtime": 229.2327,
+      "eval_samples_per_second": 23.823,
+      "eval_steps_per_second": 2.98,
+      "eval_wer": 1.9489571899012075,
+      "step": 8900
+    },
+    {
+      "epoch": 17.408123791102515,
+      "grad_norm": 4.358935832977295,
+      "learning_rate": 2.1585600000000002e-05,
+      "loss": 2.6749,
+      "step": 9000
+    },
+    {
+      "epoch": 17.408123791102515,
+      "eval_cer": 0.7020128342426364,
+      "eval_loss": 2.6420364379882812,
+      "eval_runtime": 229.374,
+      "eval_samples_per_second": 23.808,
+      "eval_steps_per_second": 2.978,
+      "eval_wer": 1.978412001463593,
+      "step": 9000
+    },
+    {
+      "epoch": 17.60154738878143,
+      "eval_cer": 0.6991204917825431,
+      "eval_loss": 2.601982831954956,
+      "eval_runtime": 229.7146,
+      "eval_samples_per_second": 23.773,
+      "eval_steps_per_second": 2.973,
+      "eval_wer": 1.9414562751555067,
+      "step": 9100
+    },
+    {
+      "epoch": 17.79497098646035,
+      "eval_cer": 0.6994577911947989,
+      "eval_loss": 2.5666821002960205,
+      "eval_runtime": 234.5424,
+      "eval_samples_per_second": 23.284,
+      "eval_steps_per_second": 2.912,
+      "eval_wer": 1.9762166117819246,
+      "step": 9200
+    },
+    {
+      "epoch": 17.988394584139265,
+      "eval_cer": 0.6771285701034666,
+      "eval_loss": 2.517096757888794,
+      "eval_runtime": 247.5848,
+      "eval_samples_per_second": 22.057,
+      "eval_steps_per_second": 2.759,
+      "eval_wer": 1.9857299670691548,
+      "step": 9300
+    },
+    {
+      "epoch": 18.181818181818183,
+      "eval_cer": 0.6774658695157224,
+      "eval_loss": 2.492238759994507,
+      "eval_runtime": 229.5938,
+      "eval_samples_per_second": 23.785,
+      "eval_steps_per_second": 2.975,
+      "eval_wer": 1.9890230515916576,
+      "step": 9400
+    },
+    {
+      "epoch": 18.3752417794971,
+      "grad_norm": 6.681089878082275,
+      "learning_rate": 2.27856e-05,
+      "loss": 2.4473,
+      "step": 9500
+    },
+    {
+      "epoch": 18.3752417794971,
+      "eval_cer": 0.6682575955611397,
+      "eval_loss": 2.445500373840332,
+      "eval_runtime": 229.8314,
+      "eval_samples_per_second": 23.761,
+      "eval_steps_per_second": 2.972,
+      "eval_wer": 1.9882912550311014,
+      "step": 9500
+    },
+    {
+      "epoch": 18.568665377176014,
+      "eval_cer": 0.6620681513462463,
+      "eval_loss": 2.4191782474517822,
+      "eval_runtime": 230.0128,
+      "eval_samples_per_second": 23.742,
+      "eval_steps_per_second": 2.969,
+      "eval_wer": 1.9815221368459568,
+      "step": 9600
+    },
+    {
+      "epoch": 18.762088974854933,
+      "eval_cer": 0.6523454957879736,
+      "eval_loss": 2.386597156524658,
+      "eval_runtime": 240.9084,
+      "eval_samples_per_second": 22.668,
+      "eval_steps_per_second": 2.835,
+      "eval_wer": 1.9904866447127698,
+      "step": 9700
+    },
+    {
+      "epoch": 18.95551257253385,
+      "eval_cer": 0.6539392355108822,
+      "eval_loss": 2.335400342941284,
+      "eval_runtime": 233.6249,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 2.923,
+      "eval_wer": 1.991401390413465,
+      "step": 9800
+    },
+    {
+      "epoch": 19.148936170212767,
+      "eval_cer": 0.6515612746544789,
+      "eval_loss": 2.3113534450531006,
+      "eval_runtime": 252.8489,
+      "eval_samples_per_second": 21.598,
+      "eval_steps_per_second": 2.701,
+      "eval_wer": 1.9924990852542992,
+      "step": 9900
+    },
+    {
+      "epoch": 19.342359767891683,
+      "grad_norm": 8.786458015441895,
+      "learning_rate": 2.39856e-05,
+      "loss": 2.2307,
+      "step": 10000
+    },
+    {
+      "epoch": 19.342359767891683,
+      "eval_cer": 0.645447722807343,
+      "eval_loss": 2.269487142562866,
+      "eval_runtime": 236.1588,
+      "eval_samples_per_second": 23.124,
+      "eval_steps_per_second": 2.892,
+      "eval_wer": 1.9903036955726308,
+      "step": 10000
+    },
+    {
+      "epoch": 19.535783365570598,
+      "eval_cer": 0.6464258911028847,
+      "eval_loss": 2.246647834777832,
+      "eval_runtime": 241.6204,
+      "eval_samples_per_second": 22.602,
+      "eval_steps_per_second": 2.827,
+      "eval_wer": 1.9924990852542992,
+      "step": 10100
+    },
+    {
+      "epoch": 19.729206963249517,
+      "eval_cer": 0.6422939733027515,
+      "eval_loss": 2.2167210578918457,
+      "eval_runtime": 230.6902,
+      "eval_samples_per_second": 23.672,
+      "eval_steps_per_second": 2.961,
+      "eval_wer": 1.9928649835345773,
+      "step": 10200
+    },
+    {
+      "epoch": 19.922630560928432,
+      "eval_cer": 0.641256777610065,
+      "eval_loss": 2.176206588745117,
+      "eval_runtime": 236.5184,
+      "eval_samples_per_second": 23.089,
+      "eval_steps_per_second": 2.888,
+      "eval_wer": 1.991401390413465,
+      "step": 10300
+    },
+    {
+      "epoch": 20.0,
+      "step": 10340,
+      "total_flos": 1.4857862206321902e+19,
+      "train_loss": 15.407913101757057,
+      "train_runtime": 65838.1292,
+      "train_samples_per_second": 5.022,
+      "train_steps_per_second": 0.157
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 10340,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.4857862206321902e+19,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}