Fix character whitelist

Files changed (2) hide show

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ model-index:
     metrics:
        - name: Test WER
          type: wer
-         value: 17.47
 ---
 # Wav2Vec2-Large-XLSR-53-Dutch
@@ -87,7 +87,7 @@ processor = Wav2Vec2Processor.from_pretrained("wietsedv/wav2vec2-large-xlsr-53-f
 model = Wav2Vec2ForCTC.from_pretrained("wietsedv/wav2vec2-large-xlsr-53-frisian")
 model.to("cuda")
-chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\”]'
 resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
@@ -117,7 +117,7 @@ result = test_dataset.map(evaluate, batched=True, batch_size=8)
 print("WER: {:.2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
 ```
-**Test Result**: 17.47 %
 ## Training

     metrics:
        - name: Test WER
          type: wer
+         value: 16.25
 ---
 # Wav2Vec2-Large-XLSR-53-Dutch
 model = Wav2Vec2ForCTC.from_pretrained("wietsedv/wav2vec2-large-xlsr-53-frisian")
 model.to("cuda")
+chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\'\“\%\‘\”]'
 resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
 print("WER: {:.2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
 ```
+**Test Result**: 16.25 %
 ## Training

tokenizer_config.json CHANGED Viewed

	@@ -1 +1,8 @@
1	- {~~"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "\|"}~~

+{
+    "unk_token": "<unk>",
+    "bos_token": "<s>",
+    "eos_token": "</s>",
+    "pad_token": "<pad>",
+    "do_lower_case": true,
+    "word_delimiter_token": "|"
+}