Duplicate from siddh4rth/audio_to_text

Browse files

Co-authored-by: Siddharth Singh <[email protected]>

Files changed (10) hide show

.gitattributes +34 -0
README.md +13 -0
app.py +46 -0
example.flac +0 -0
model_save/wav2vec_osr_version_1.pt +3 -0
model_save/wav2vec_osr_version_1_vocab/preprocessor_config.json +10 -0
model_save/wav2vec_osr_version_1_vocab/special_tokens_map.json +6 -0
model_save/wav2vec_osr_version_1_vocab/tokenizer_config.json +11 -0
model_save/wav2vec_osr_version_1_vocab/vocab.json +34 -0
requirements.txt +4 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Audio To Text
+emoji: 💩
+colorFrom: purple
+colorTo: indigo
+sdk: gradio
+sdk_version: 3.9
+app_file: app.py
+pinned: false
+duplicated_from: siddh4rth/audio_to_text
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,46 @@

+import os
+import gradio as gr
+import whisper
+import librosa
+import torch
+from transformers import Wav2Vec2Processor, Wav2Vec2Tokenizer
+device = "cuda" if torch.cuda.is_available() else "cpu"
+def audio_to_text(audio):
+    model = whisper.load_model("base")
+    audio = whisper.load_audio(audio)
+    result = model.transcribe(audio)
+    return result["text"]
+    # tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
+    # logits = preprocess(audio)
+    # predicted_ids = torch.argmax(logits, dim=-1)
+    # transcriptions = tokenizer.decode(predicted_ids[0])
+    # return transcriptions
+def preprocess(audio):
+    model_save_path = "model_save"
+    model_name = "wav2vec2_osr_version_1"
+    speech, rate = librosa.load(audio, sr=16000)
+    model_path = os.path.join(model_save_path, model_name+".pt")
+    pipeline_path = os.path.join(model_save_path, model_name+"_vocab")
+    access_token = "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"
+    processor = Wav2Vec2Processor.from_pretrained(pipeline_path, use_auth_token=access_token)
+    model = torch.load(model_path)
+    model.eval()
+    input_values = processor(speech, sampling_rate=rate, return_tensors="pt").input_values.to(device)
+    logits = model(input_values).logits
+    return logits
+demo = gr.Interface(
+    fn=audio_to_text,
+    inputs=gr.Audio(source="upload", type="filepath"),
+    examples=[["example.flac"]],
+    outputs="text"
+)
+demo.launch()

example.flac ADDED Viewed

Binary file (225 kB). View file

model_save/wav2vec_osr_version_1.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3dcad94c5ecb2d1f11a354f705c662eeb6c4799a6c75df4a5a6f03b4d423453e
+size 396563925

model_save/wav2vec_osr_version_1_vocab/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2Processor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

model_save/wav2vec_osr_version_1_vocab/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

model_save/wav2vec_osr_version_1_vocab/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "bos_token": "<s>",
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "processor_class": "Wav2Vec2Processor",
+  "replace_word_delimiter_char": " ",
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "unk_token": "<unk>",
+  "word_delimiter_token": "|"
+}

model_save/wav2vec_osr_version_1_vocab/vocab.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "'": 27,
+  "</s>": 2,
+  "<pad>": 0,
+  "<s>": 1,
+  "<unk>": 3,
+  "A": 7,
+  "B": 24,
+  "C": 19,
+  "D": 14,
+  "E": 5,
+  "F": 20,
+  "G": 21,
+  "H": 11,
+  "I": 10,
+  "J": 29,
+  "K": 26,
+  "L": 15,
+  "M": 17,
+  "N": 9,
+  "O": 8,
+  "P": 23,
+  "Q": 30,
+  "R": 13,
+  "S": 12,
+  "T": 6,
+  "U": 16,
+  "V": 25,
+  "W": 18,
+  "X": 28,
+  "Y": 22,
+  "Z": 31,
+  "|": 4
+}

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+torch
+librosa
+transformers
+git+https://github.com/openai/whisper.git