iiBLACKii
/

Gujarati_VDB_Fine_Tune

Automatic Speech Recognition

Inference Endpoints

Model card Files Files and versions Community

iiBLACKii commited on Nov 26

Commit

50976d6

•

1 Parent(s): 67119f9

Update README.md

Files changed (1) hide show

README.md +36 -1

README.md CHANGED Viewed

@@ -39,8 +39,43 @@ This is the model card of a 🤗 transformers model that has been pushed on the
 ### Direct Use
-<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
 [More Information Needed]
 ### Downstream Use [optional]

 ### Direct Use
+```python
+import torch
+import librosa
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+processor = AutoProcessor.from_pretrained("iiBLACKii/Gujarati_VDB_Fine_Tune")
+model = AutoModelForSpeechSeq2Seq.from_pretrained("iiBLACKii/Gujarati_VDB_Fine_Tune")
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+def preprocess_audio(file_path, sampling_rate=16000):
+    audio_array, sr = librosa.load(file_path, sr=None)
+    if sr != sampling_rate:
+        audio_array = librosa.resample(audio_array, orig_sr=sr, target_sr=sampling_rate)
+    return audio_array
+def transcribe_and_translate_audio(audio_path):
+    audio_array = preprocess_audio(audio_path)
+    input_features = processor(audio_array, return_tensors="pt", sampling_rate=16000).input_features
+    input_features = input_features.to(device)
+    with torch.no_grad():
+        predicted_ids = model.generate(input_features, max_length=400, num_beams=5)
+    transcription_or_translation = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription_or_translation[0]
+if __name__ == "__main__":
+    audio_file_path = ""   # .wav file path
+    print("Transcribing and Translating audio...")
+    result = transcribe_and_translate_audio(audio_file_path)
+    print(f"Result: {result}")
+```
 [More Information Needed]
 ### Downstream Use [optional]