mskhattori
/

hubert-rinnna-jp-jdrtsp-fw07sp-13

+---
+license: apache-2.0
+base_model: rinna/japanese-hubert-base
+tags:
+- generated_from_trainer
+metrics:
+- wer
+model-index:
+- name: hubert-rinnna-jp-jdrtsp-fw07sp-13
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# hubert-rinnna-jp-jdrtsp-fw07sp-13
+This model is a fine-tuned version of [rinna/japanese-hubert-base](https://huggingface.co/rinna/japanese-hubert-base) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.1606
+- Wer: 0.3004
+- Cer: 0.1786
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0005
+- train_batch_size: 32
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 1000
+- num_epochs: 20
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Wer    | Cer    |
+|:-------------:|:-----:|:----:|:---------------:|:------:|:------:|
+| 1.352         | 1.0   | 404  | 0.9913          | 0.6021 | 0.4479 |
+| 0.9044        | 2.0   | 808  | 0.5053          | 0.4261 | 0.2774 |
+| 0.9001        | 3.0   | 1212 | 0.8458          | 0.4848 | 0.3267 |
+| 0.8425        | 4.0   | 1616 | 0.5311          | 0.4577 | 0.3053 |
+| 0.8408        | 5.0   | 2020 | 0.4328          | 0.4075 | 0.2776 |
+| 0.7759        | 6.0   | 2424 | 0.4736          | 0.4394 | 0.3363 |
+| 0.7228        | 7.0   | 2828 | 0.4667          | 0.4173 | 0.2862 |
+| 0.6755        | 8.0   | 3232 | 0.4190          | 0.4114 | 0.2611 |
+| 0.634         | 9.0   | 3636 | 0.4252          | 0.3993 | 0.2612 |
+| 0.6267        | 10.0  | 4040 | 0.3275          | 0.3734 | 0.2362 |
+| 0.6199        | 11.0  | 4444 | 0.2786          | 0.3543 | 0.2222 |
+| 0.5396        | 12.0  | 4848 | 0.2851          | 0.3501 | 0.2146 |
+| 0.5343        | 13.0  | 5252 | 0.2527          | 0.3448 | 0.2106 |
+| 0.5488        | 14.0  | 5656 | 0.2725          | 0.3431 | 0.2100 |
+| 0.4606        | 15.0  | 6060 | 0.2293          | 0.3259 | 0.1962 |
+| 0.4229        | 16.0  | 6464 | 0.2043          | 0.3172 | 0.1914 |
+| 0.4078        | 17.0  | 6868 | 0.1891          | 0.3128 | 0.1862 |
+| 0.4017        | 18.0  | 7272 | 0.1785          | 0.3075 | 0.1833 |
+| 0.3618        | 19.0  | 7676 | 0.1673          | 0.3035 | 0.1803 |
+| 0.3739        | 20.0  | 8080 | 0.1606          | 0.3004 | 0.1786 |
+### Framework versions
+- Transformers 4.34.0.dev0
+- Pytorch 2.0.1+cu118
+- Datasets 2.14.5
+- Tokenizers 0.13.3

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1194 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 8080,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.5e-05,
+      "loss": 9.1111,
+      "step": 50
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 5e-05,
+      "loss": 4.3213,
+      "step": 100
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 7.5e-05,
+      "loss": 3.2869,
+      "step": 150
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0001,
+      "loss": 2.7342,
+      "step": 200
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.000125,
+      "loss": 2.5924,
+      "step": 250
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00015,
+      "loss": 2.3303,
+      "step": 300
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.000175,
+      "loss": 1.75,
+      "step": 350
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002,
+      "loss": 1.352,
+      "step": 400
+    },
+    {
+      "epoch": 1.0,
+      "eval_cer": 0.4478702548565318,
+      "eval_loss": 0.9912864565849304,
+      "eval_runtime": 37.3851,
+      "eval_samples_per_second": 172.903,
+      "eval_steps_per_second": 10.806,
+      "eval_wer": 0.6020902919943971,
+      "step": 404
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 1.2041,
+      "step": 450
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00025,
+      "loss": 1.0738,
+      "step": 500
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.000275,
+      "loss": 1.0552,
+      "step": 550
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0003,
+      "loss": 0.9818,
+      "step": 600
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 1.0827,
+      "step": 650
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00035,
+      "loss": 0.944,
+      "step": 700
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.000375,
+      "loss": 0.9694,
+      "step": 750
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0004,
+      "loss": 0.9044,
+      "step": 800
+    },
+    {
+      "epoch": 2.0,
+      "eval_cer": 0.2773916315174558,
+      "eval_loss": 0.5053090453147888,
+      "eval_runtime": 36.8215,
+      "eval_samples_per_second": 175.55,
+      "eval_steps_per_second": 10.972,
+      "eval_wer": 0.42606759329095284,
+      "step": 808
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.000425,
+      "loss": 0.9818,
+      "step": 850
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00045000000000000004,
+      "loss": 0.9531,
+      "step": 900
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.000475,
+      "loss": 0.919,
+      "step": 950
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0005,
+      "loss": 0.9661,
+      "step": 1000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.0004964689265536723,
+      "loss": 0.993,
+      "step": 1050
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.0004929378531073446,
+      "loss": 0.9892,
+      "step": 1100
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0004894067796610169,
+      "loss": 0.9471,
+      "step": 1150
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.0004858757062146893,
+      "loss": 0.9001,
+      "step": 1200
+    },
+    {
+      "epoch": 3.0,
+      "eval_cer": 0.32669953860472484,
+      "eval_loss": 0.845825731754303,
+      "eval_runtime": 36.8369,
+      "eval_samples_per_second": 175.476,
+      "eval_steps_per_second": 10.967,
+      "eval_wer": 0.4847537980821032,
+      "step": 1212
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 0.0004823446327683616,
+      "loss": 0.8903,
+      "step": 1250
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.0004788135593220339,
+      "loss": 0.9181,
+      "step": 1300
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.0004752824858757062,
+      "loss": 0.858,
+      "step": 1350
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 0.00047175141242937854,
+      "loss": 0.917,
+      "step": 1400
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 0.0004682203389830508,
+      "loss": 0.915,
+      "step": 1450
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 0.0004646892655367232,
+      "loss": 0.8631,
+      "step": 1500
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 0.0004611581920903955,
+      "loss": 0.8267,
+      "step": 1550
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 0.0004576271186440678,
+      "loss": 0.8425,
+      "step": 1600
+    },
+    {
+      "epoch": 4.0,
+      "eval_cer": 0.30525356937761144,
+      "eval_loss": 0.5311021208763123,
+      "eval_runtime": 36.7576,
+      "eval_samples_per_second": 175.855,
+      "eval_steps_per_second": 10.991,
+      "eval_wer": 0.45774521423697156,
+      "step": 1616
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.0004540960451977401,
+      "loss": 0.8399,
+      "step": 1650
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 0.00045056497175141244,
+      "loss": 0.8166,
+      "step": 1700
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 0.0004470338983050847,
+      "loss": 0.8089,
+      "step": 1750
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 0.0004435028248587571,
+      "loss": 0.8094,
+      "step": 1800
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 0.0004399717514124294,
+      "loss": 0.8622,
+      "step": 1850
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 0.00043644067796610173,
+      "loss": 0.8161,
+      "step": 1900
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 0.000432909604519774,
+      "loss": 0.8011,
+      "step": 1950
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 0.0004293785310734463,
+      "loss": 0.8408,
+      "step": 2000
+    },
+    {
+      "epoch": 5.0,
+      "eval_cer": 0.27762925998534627,
+      "eval_loss": 0.43282997608184814,
+      "eval_runtime": 36.8381,
+      "eval_samples_per_second": 175.47,
+      "eval_steps_per_second": 10.967,
+      "eval_wer": 0.40753510756743166,
+      "step": 2020
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 0.00042584745762711863,
+      "loss": 0.8286,
+      "step": 2050
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 0.00042231638418079097,
+      "loss": 0.8636,
+      "step": 2100
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.0004187853107344633,
+      "loss": 0.8357,
+      "step": 2150
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 0.0004152542372881356,
+      "loss": 0.7934,
+      "step": 2200
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 0.0004117231638418079,
+      "loss": 0.8625,
+      "step": 2250
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 0.0004081920903954802,
+      "loss": 0.7641,
+      "step": 2300
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 0.00040466101694915254,
+      "loss": 0.7718,
+      "step": 2350
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.0004011299435028249,
+      "loss": 0.7759,
+      "step": 2400
+    },
+    {
+      "epoch": 6.0,
+      "eval_cer": 0.3363432939266124,
+      "eval_loss": 0.4735947549343109,
+      "eval_runtime": 37.0464,
+      "eval_samples_per_second": 174.484,
+      "eval_steps_per_second": 10.905,
+      "eval_wer": 0.4393563911934777,
+      "step": 2424
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 0.0003975988700564972,
+      "loss": 0.7466,
+      "step": 2450
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 0.0003940677966101695,
+      "loss": 0.8045,
+      "step": 2500
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 0.00039053672316384183,
+      "loss": 0.7949,
+      "step": 2550
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 0.0003870056497175141,
+      "loss": 0.7749,
+      "step": 2600
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 0.00038347457627118644,
+      "loss": 0.7226,
+      "step": 2650
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 0.0003799435028248588,
+      "loss": 0.7424,
+      "step": 2700
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 0.0003764124293785311,
+      "loss": 0.7302,
+      "step": 2750
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 0.0003728813559322034,
+      "loss": 0.7228,
+      "step": 2800
+    },
+    {
+      "epoch": 7.0,
+      "eval_cer": 0.28624329194637516,
+      "eval_loss": 0.466670960187912,
+      "eval_runtime": 37.148,
+      "eval_samples_per_second": 174.007,
+      "eval_steps_per_second": 10.875,
+      "eval_wer": 0.417268254139281,
+      "step": 2828
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 0.00036935028248587573,
+      "loss": 0.7437,
+      "step": 2850
+    },
+    {
+      "epoch": 7.18,
+      "learning_rate": 0.000365819209039548,
+      "loss": 0.7815,
+      "step": 2900
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 0.0003622881355932203,
+      "loss": 0.7218,
+      "step": 2950
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 0.0003587570621468927,
+      "loss": 0.7347,
+      "step": 3000
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 0.00035522598870056497,
+      "loss": 0.7033,
+      "step": 3050
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 0.0003516949152542373,
+      "loss": 0.6966,
+      "step": 3100
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.0003481638418079096,
+      "loss": 0.6914,
+      "step": 3150
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 0.0003446327683615819,
+      "loss": 0.6755,
+      "step": 3200
+    },
+    {
+      "epoch": 8.0,
+      "eval_cer": 0.26113388383928393,
+      "eval_loss": 0.4190239906311035,
+      "eval_runtime": 37.0113,
+      "eval_samples_per_second": 174.649,
+      "eval_steps_per_second": 10.916,
+      "eval_wer": 0.4114499155981755,
+      "step": 3232
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 0.0003411016949152542,
+      "loss": 0.7279,
+      "step": 3250
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 0.0003375706214689266,
+      "loss": 0.6756,
+      "step": 3300
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 0.0003340395480225989,
+      "loss": 0.6758,
+      "step": 3350
+    },
+    {
+      "epoch": 8.42,
+      "learning_rate": 0.0003305084745762712,
+      "loss": 0.7251,
+      "step": 3400
+    },
+    {
+      "epoch": 8.54,
+      "learning_rate": 0.0003269774011299435,
+      "loss": 0.6824,
+      "step": 3450
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 0.00032344632768361583,
+      "loss": 0.7119,
+      "step": 3500
+    },
+    {
+      "epoch": 8.79,
+      "learning_rate": 0.0003199152542372881,
+      "loss": 0.7501,
+      "step": 3550
+    },
+    {
+      "epoch": 8.91,
+      "learning_rate": 0.0003163841807909605,
+      "loss": 0.634,
+      "step": 3600
+    },
+    {
+      "epoch": 9.0,
+      "eval_cer": 0.26115368621160817,
+      "eval_loss": 0.4252440333366394,
+      "eval_runtime": 37.3698,
+      "eval_samples_per_second": 172.974,
+      "eval_steps_per_second": 10.811,
+      "eval_wer": 0.39927450346586213,
+      "step": 3636
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 0.0003128531073446328,
+      "loss": 0.6416,
+      "step": 3650
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 0.0003093220338983051,
+      "loss": 0.6355,
+      "step": 3700
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 0.0003057909604519774,
+      "loss": 0.6204,
+      "step": 3750
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 0.00030225988700564974,
+      "loss": 0.6604,
+      "step": 3800
+    },
+    {
+      "epoch": 9.53,
+      "learning_rate": 0.000298728813559322,
+      "loss": 0.6411,
+      "step": 3850
+    },
+    {
+      "epoch": 9.65,
+      "learning_rate": 0.0002951977401129944,
+      "loss": 0.6156,
+      "step": 3900
+    },
+    {
+      "epoch": 9.78,
+      "learning_rate": 0.0002916666666666667,
+      "loss": 0.6293,
+      "step": 3950
+    },
+    {
+      "epoch": 9.9,
+      "learning_rate": 0.00028813559322033897,
+      "loss": 0.6267,
+      "step": 4000
+    },
+    {
+      "epoch": 10.0,
+      "eval_cer": 0.23618289471078635,
+      "eval_loss": 0.3275207579135895,
+      "eval_runtime": 37.2788,
+      "eval_samples_per_second": 173.396,
+      "eval_steps_per_second": 10.837,
+      "eval_wer": 0.37337930539094205,
+      "step": 4040
+    },
+    {
+      "epoch": 10.02,
+      "learning_rate": 0.0002846045197740113,
+      "loss": 0.6276,
+      "step": 4050
+    },
+    {
+      "epoch": 10.15,
+      "learning_rate": 0.0002810734463276836,
+      "loss": 0.6043,
+      "step": 4100
+    },
+    {
+      "epoch": 10.27,
+      "learning_rate": 0.0002775423728813559,
+      "loss": 0.6354,
+      "step": 4150
+    },
+    {
+      "epoch": 10.4,
+      "learning_rate": 0.0002740112994350282,
+      "loss": 0.6651,
+      "step": 4200
+    },
+    {
+      "epoch": 10.52,
+      "learning_rate": 0.0002704802259887006,
+      "loss": 0.6667,
+      "step": 4250
+    },
+    {
+      "epoch": 10.64,
+      "learning_rate": 0.0002669491525423729,
+      "loss": 0.6108,
+      "step": 4300
+    },
+    {
+      "epoch": 10.77,
+      "learning_rate": 0.0002634180790960452,
+      "loss": 0.6034,
+      "step": 4350
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 0.0002598870056497175,
+      "loss": 0.6199,
+      "step": 4400
+    },
+    {
+      "epoch": 11.0,
+      "eval_cer": 0.22224202459454642,
+      "eval_loss": 0.2785743474960327,
+      "eval_runtime": 37.3388,
+      "eval_samples_per_second": 173.117,
+      "eval_steps_per_second": 10.82,
+      "eval_wer": 0.3543440002873254,
+      "step": 4444
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 0.00025635593220338983,
+      "loss": 0.5854,
+      "step": 4450
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 0.0002528248587570621,
+      "loss": 0.5605,
+      "step": 4500
+    },
+    {
+      "epoch": 11.26,
+      "learning_rate": 0.00024929378531073445,
+      "loss": 0.5665,
+      "step": 4550
+    },
+    {
+      "epoch": 11.39,
+      "learning_rate": 0.0002457627118644068,
+      "loss": 0.6504,
+      "step": 4600
+    },
+    {
+      "epoch": 11.51,
+      "learning_rate": 0.0002422316384180791,
+      "loss": 0.5566,
+      "step": 4650
+    },
+    {
+      "epoch": 11.63,
+      "learning_rate": 0.0002387005649717514,
+      "loss": 0.5574,
+      "step": 4700
+    },
+    {
+      "epoch": 11.76,
+      "learning_rate": 0.00023516949152542374,
+      "loss": 0.5524,
+      "step": 4750
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 0.00023163841807909605,
+      "loss": 0.5396,
+      "step": 4800
+    },
+    {
+      "epoch": 12.0,
+      "eval_cer": 0.2145587041327551,
+      "eval_loss": 0.2851468026638031,
+      "eval_runtime": 37.0849,
+      "eval_samples_per_second": 174.303,
+      "eval_steps_per_second": 10.894,
+      "eval_wer": 0.3500700355565133,
+      "step": 4848
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.00022810734463276836,
+      "loss": 0.5405,
+      "step": 4850
+    },
+    {
+      "epoch": 12.13,
+      "learning_rate": 0.0002245762711864407,
+      "loss": 0.5451,
+      "step": 4900
+    },
+    {
+      "epoch": 12.25,
+      "learning_rate": 0.000221045197740113,
+      "loss": 0.5538,
+      "step": 4950
+    },
+    {
+      "epoch": 12.38,
+      "learning_rate": 0.0002175141242937853,
+      "loss": 0.5403,
+      "step": 5000
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 0.00021398305084745765,
+      "loss": 0.5506,
+      "step": 5050
+    },
+    {
+      "epoch": 12.62,
+      "learning_rate": 0.00021045197740112996,
+      "loss": 0.54,
+      "step": 5100
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 0.00020692090395480226,
+      "loss": 0.4959,
+      "step": 5150
+    },
+    {
+      "epoch": 12.87,
+      "learning_rate": 0.0002033898305084746,
+      "loss": 0.5268,
+      "step": 5200
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 0.0001998587570621469,
+      "loss": 0.5343,
+      "step": 5250
+    },
+    {
+      "epoch": 13.0,
+      "eval_cer": 0.2105586249232658,
+      "eval_loss": 0.25269845128059387,
+      "eval_runtime": 37.2453,
+      "eval_samples_per_second": 173.552,
+      "eval_steps_per_second": 10.847,
+      "eval_wer": 0.344826347735517,
+      "step": 5252
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 0.00019632768361581922,
+      "loss": 0.4924,
+      "step": 5300
+    },
+    {
+      "epoch": 13.24,
+      "learning_rate": 0.00019279661016949155,
+      "loss": 0.5308,
+      "step": 5350
+    },
+    {
+      "epoch": 13.37,
+      "learning_rate": 0.00018926553672316386,
+      "loss": 0.5263,
+      "step": 5400
+    },
+    {
+      "epoch": 13.49,
+      "learning_rate": 0.00018573446327683614,
+      "loss": 0.498,
+      "step": 5450
+    },
+    {
+      "epoch": 13.61,
+      "learning_rate": 0.00018220338983050845,
+      "loss": 0.5096,
+      "step": 5500
+    },
+    {
+      "epoch": 13.74,
+      "learning_rate": 0.0001786723163841808,
+      "loss": 0.5077,
+      "step": 5550
+    },
+    {
+      "epoch": 13.86,
+      "learning_rate": 0.0001751412429378531,
+      "loss": 0.5295,
+      "step": 5600
+    },
+    {
+      "epoch": 13.99,
+      "learning_rate": 0.0001716101694915254,
+      "loss": 0.5488,
+      "step": 5650
+    },
+    {
+      "epoch": 14.0,
+      "eval_cer": 0.20998435612586389,
+      "eval_loss": 0.2725040316581726,
+      "eval_runtime": 36.9929,
+      "eval_samples_per_second": 174.736,
+      "eval_steps_per_second": 10.921,
+      "eval_wer": 0.3431383112451963,
+      "step": 5656
+    },
+    {
+      "epoch": 14.11,
+      "learning_rate": 0.00016807909604519774,
+      "loss": 0.4966,
+      "step": 5700
+    },
+    {
+      "epoch": 14.23,
+      "learning_rate": 0.00016454802259887005,
+      "loss": 0.5045,
+      "step": 5750
+    },
+    {
+      "epoch": 14.36,
+      "learning_rate": 0.00016101694915254236,
+      "loss": 0.4877,
+      "step": 5800
+    },
+    {
+      "epoch": 14.48,
+      "learning_rate": 0.0001574858757062147,
+      "loss": 0.4886,
+      "step": 5850
+    },
+    {
+      "epoch": 14.6,
+      "learning_rate": 0.000153954802259887,
+      "loss": 0.5026,
+      "step": 5900
+    },
+    {
+      "epoch": 14.73,
+      "learning_rate": 0.00015042372881355931,
+      "loss": 0.4759,
+      "step": 5950
+    },
+    {
+      "epoch": 14.85,
+      "learning_rate": 0.00014689265536723165,
+      "loss": 0.475,
+      "step": 6000
+    },
+    {
+      "epoch": 14.98,
+      "learning_rate": 0.00014336158192090396,
+      "loss": 0.4606,
+      "step": 6050
+    },
+    {
+      "epoch": 15.0,
+      "eval_cer": 0.1962019049882176,
+      "eval_loss": 0.22929197549819946,
+      "eval_runtime": 37.0601,
+      "eval_samples_per_second": 174.419,
+      "eval_steps_per_second": 10.901,
+      "eval_wer": 0.32589878964192076,
+      "step": 6060
+    },
+    {
+      "epoch": 15.1,
+      "learning_rate": 0.00013983050847457627,
+      "loss": 0.4564,
+      "step": 6100
+    },
+    {
+      "epoch": 15.22,
+      "learning_rate": 0.0001362994350282486,
+      "loss": 0.4658,
+      "step": 6150
+    },
+    {
+      "epoch": 15.35,
+      "learning_rate": 0.0001327683615819209,
+      "loss": 0.4465,
+      "step": 6200
+    },
+    {
+      "epoch": 15.47,
+      "learning_rate": 0.00012923728813559322,
+      "loss": 0.4867,
+      "step": 6250
+    },
+    {
+      "epoch": 15.59,
+      "learning_rate": 0.00012570621468926556,
+      "loss": 0.4349,
+      "step": 6300
+    },
+    {
+      "epoch": 15.72,
+      "learning_rate": 0.00012217514124293787,
+      "loss": 0.475,
+      "step": 6350
+    },
+    {
+      "epoch": 15.84,
+      "learning_rate": 0.00011864406779661017,
+      "loss": 0.4241,
+      "step": 6400
+    },
+    {
+      "epoch": 15.97,
+      "learning_rate": 0.00011511299435028248,
+      "loss": 0.4229,
+      "step": 6450
+    },
+    {
+      "epoch": 16.0,
+      "eval_cer": 0.19142953325808432,
+      "eval_loss": 0.20434732735157013,
+      "eval_runtime": 36.9841,
+      "eval_samples_per_second": 174.778,
+      "eval_steps_per_second": 10.924,
+      "eval_wer": 0.3172071975002694,
+      "step": 6464
+    },
+    {
+      "epoch": 16.09,
+      "learning_rate": 0.0001115819209039548,
+      "loss": 0.429,
+      "step": 6500
+    },
+    {
+      "epoch": 16.21,
+      "learning_rate": 0.00010805084745762713,
+      "loss": 0.409,
+      "step": 6550
+    },
+    {
+      "epoch": 16.34,
+      "learning_rate": 0.00010451977401129944,
+      "loss": 0.3961,
+      "step": 6600
+    },
+    {
+      "epoch": 16.46,
+      "learning_rate": 0.00010098870056497176,
+      "loss": 0.4047,
+      "step": 6650
+    },
+    {
+      "epoch": 16.58,
+      "learning_rate": 9.745762711864407e-05,
+      "loss": 0.4344,
+      "step": 6700
+    },
+    {
+      "epoch": 16.71,
+      "learning_rate": 9.392655367231638e-05,
+      "loss": 0.4268,
+      "step": 6750
+    },
+    {
+      "epoch": 16.83,
+      "learning_rate": 9.03954802259887e-05,
+      "loss": 0.3991,
+      "step": 6800
+    },
+    {
+      "epoch": 16.96,
+      "learning_rate": 8.686440677966102e-05,
+      "loss": 0.4078,
+      "step": 6850
+    },
+    {
+      "epoch": 17.0,
+      "eval_cer": 0.18618190459217016,
+      "eval_loss": 0.1891370713710785,
+      "eval_runtime": 37.0446,
+      "eval_samples_per_second": 174.492,
+      "eval_steps_per_second": 10.906,
+      "eval_wer": 0.3127536544194232,
+      "step": 6868
+    },
+    {
+      "epoch": 17.08,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 0.3941,
+      "step": 6900
+    },
+    {
+      "epoch": 17.2,
+      "learning_rate": 7.980225988700565e-05,
+      "loss": 0.382,
+      "step": 6950
+    },
+    {
+      "epoch": 17.33,
+      "learning_rate": 7.627118644067798e-05,
+      "loss": 0.3898,
+      "step": 7000
+    },
+    {
+      "epoch": 17.45,
+      "learning_rate": 7.274011299435028e-05,
+      "loss": 0.3941,
+      "step": 7050
+    },
+    {
+      "epoch": 17.57,
+      "learning_rate": 6.92090395480226e-05,
+      "loss": 0.3804,
+      "step": 7100
+    },
+    {
+      "epoch": 17.7,
+      "learning_rate": 6.567796610169493e-05,
+      "loss": 0.3924,
+      "step": 7150
+    },
+    {
+      "epoch": 17.82,
+      "learning_rate": 6.214689265536724e-05,
+      "loss": 0.3849,
+      "step": 7200
+    },
+    {
+      "epoch": 17.95,
+      "learning_rate": 5.861581920903955e-05,
+      "loss": 0.4017,
+      "step": 7250
+    },
+    {
+      "epoch": 18.0,
+      "eval_cer": 0.1833105606051605,
+      "eval_loss": 0.17852339148521423,
+      "eval_runtime": 37.3017,
+      "eval_samples_per_second": 173.29,
+      "eval_steps_per_second": 10.831,
+      "eval_wer": 0.3075458822684337,
+      "step": 7272
+    },
+    {
+      "epoch": 18.07,
+      "learning_rate": 5.508474576271186e-05,
+      "loss": 0.4008,
+      "step": 7300
+    },
+    {
+      "epoch": 18.19,
+      "learning_rate": 5.155367231638418e-05,
+      "loss": 0.3744,
+      "step": 7350
+    },
+    {
+      "epoch": 18.32,
+      "learning_rate": 4.80225988700565e-05,
+      "loss": 0.3699,
+      "step": 7400
+    },
+    {
+      "epoch": 18.44,
+      "learning_rate": 4.4491525423728816e-05,
+      "loss": 0.3922,
+      "step": 7450
+    },
+    {
+      "epoch": 18.56,
+      "learning_rate": 4.096045197740113e-05,
+      "loss": 0.3734,
+      "step": 7500
+    },
+    {
+      "epoch": 18.69,
+      "learning_rate": 3.742937853107345e-05,
+      "loss": 0.3822,
+      "step": 7550
+    },
+    {
+      "epoch": 18.81,
+      "learning_rate": 3.389830508474576e-05,
+      "loss": 0.3707,
+      "step": 7600
+    },
+    {
+      "epoch": 18.94,
+      "learning_rate": 3.036723163841808e-05,
+      "loss": 0.3618,
+      "step": 7650
+    },
+    {
+      "epoch": 19.0,
+      "eval_cer": 0.18034020475652984,
+      "eval_loss": 0.16725142300128937,
+      "eval_runtime": 36.9107,
+      "eval_samples_per_second": 175.125,
+      "eval_steps_per_second": 10.945,
+      "eval_wer": 0.3034514958876558,
+      "step": 7676
+    },
+    {
+      "epoch": 19.06,
+      "learning_rate": 2.6836158192090393e-05,
+      "loss": 0.3507,
+      "step": 7700
+    },
+    {
+      "epoch": 19.18,
+      "learning_rate": 2.3305084745762712e-05,
+      "loss": 0.3638,
+      "step": 7750
+    },
+    {
+      "epoch": 19.31,
+      "learning_rate": 1.977401129943503e-05,
+      "loss": 0.3819,
+      "step": 7800
+    },
+    {
+      "epoch": 19.43,
+      "learning_rate": 1.6242937853107344e-05,
+      "loss": 0.3713,
+      "step": 7850
+    },
+    {
+      "epoch": 19.55,
+      "learning_rate": 1.2711864406779663e-05,
+      "loss": 0.3702,
+      "step": 7900
+    },
+    {
+      "epoch": 19.68,
+      "learning_rate": 9.180790960451978e-06,
+      "loss": 0.3559,
+      "step": 7950
+    },
+    {
+      "epoch": 19.8,
+      "learning_rate": 5.649717514124294e-06,
+      "loss": 0.3567,
+      "step": 8000
+    },
+    {
+      "epoch": 19.93,
+      "learning_rate": 2.11864406779661e-06,
+      "loss": 0.3739,
+      "step": 8050
+    },
+    {
+      "epoch": 20.0,
+      "eval_cer": 0.17857779361967563,
+      "eval_loss": 0.16060513257980347,
+      "eval_runtime": 37.2075,
+      "eval_samples_per_second": 173.728,
+      "eval_steps_per_second": 10.858,
+      "eval_wer": 0.30036274826706894,
+      "step": 8080
+    },
+    {
+      "epoch": 20.0,
+      "step": 8080,
+      "total_flos": 4.3127988037094564e+18,
+      "train_loss": 0.7708885439551703,
+      "train_runtime": 17348.5062,
+      "train_samples_per_second": 29.808,
+      "train_steps_per_second": 0.466
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 8080,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 4.3127988037094564e+18,
+  "trial_name": null,
+  "trial_params": null
+}