ivangtorre
/

wav2vec2-xlsr-300m-quechua

Automatic Speech Recognition

xlsr-fine-tuning

Inference Endpoints

Model card Files Files and versions Community

ivangtorre commited on May 13

Commit

dd9561c

•

1 Parent(s): 5787097

Update README.md

Files changed (1) hide show

README.md +28 -3

README.md CHANGED Viewed

@@ -1,3 +1,28 @@
----
-license: cc-by-4.0
----

+---
+license: cc-by-4.0
+---
+## Usage
+The model can be used directly (without a language model) as follows:
+```python
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+import torch
+import torchaudio
+# load model and processor
+processor = Wav2Vec2Processor.from_pretrained("ivangtorre/wav2vec2-xls-r-300m-quechua")
+model = Wav2Vec2ForCTC.from_pretrained("ivangtorre/wav2vec2-xls-r-300m-quechua")
+# load dummy dataset and read soundfiles
+file = torchaudio.load("quechua000573.wav")
+# retrieve logits
+logits = model(file[0]).logits
+# take argmax and decode
+predicted_ids = torch.argmax(logits, dim=-1)
+transcription = processor.batch_decode(predicted_ids)
+print("HF prediction: ", transcription)
+```