iiBLACKii
/

Gujarati_VDB_Fine_Tune

Automatic Speech Recognition

Inference Endpoints

Model card Files Files and versions Community

iiBLACKii commited on Nov 26, 2024

Commit

81c6beb

·

verified ·

1 Parent(s): 50976d6

Update README.md

Files changed (1) hide show

README.md +52 -0

README.md CHANGED Viewed

@@ -78,6 +78,58 @@ if __name__ == "__main__":
 ```
 [More Information Needed]
 ### Downstream Use [optional]
 <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->

 ```
 [More Information Needed]
+### Using Base Model (OpenAI)
+```python
+import torch
+import librosa
+from transformers import WhisperProcessor, WhisperForConditionalGeneration, AutoConfig
+repo_name = "iiBLACKii/Gujarati_VDB_Fine_Tune"
+processor = WhisperProcessor.from_pretrained(repo_name)
+config = AutoConfig.from_pretrained(repo_name)
+model = WhisperForConditionalGeneration.from_pretrained(repo_name, config=config)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+def preprocess_audio(file_path, sampling_rate=16000):
+    audio_array, sr = librosa.load(file_path, sr=None)
+    if sr != sampling_rate:
+        audio_array = librosa.resample(audio_array, orig_sr=sr, target_sr=sampling_rate)
+    return audio_array
+def transcribe_audio(audio_path):
+    audio_array = preprocess_audio(audio_path)
+    input_features = processor.feature_extractor(
+        audio_array, sampling_rate=16000, return_tensors="pt"
+    ).input_features
+    input_features = input_features.to(device)
+    with torch.no_grad():
+        predicted_ids = model.generate(
+            input_features,
+            max_new_tokens=400,
+            num_beams=5,
+        )
+    transcription = processor.tokenizer.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription[0]
+if __name__ == "__main__":
+    audio_file_path = "" #.wav file path
+    print("Transcribing audio...")
+    transcription = transcribe_audio(audio_file_path)
+    print(f"Transcription: {transcription}")
+```
 ### Downstream Use [optional]
 <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->