Spaces:

kotoba-speech
/

kotoba-whisper-demo

Running on Zero

asahi417 commited on Apr 21, 2024

Commit

e328088

verified ·

1 Parent(s): 9f1456e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -38,10 +38,10 @@ def transcribe(inputs, prompt):
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     generate_kwargs = {"language": "japanese", "task": "transcribe"}
-    if prompt:
-        generate_kwargs['prompt_ids'] = pipe.tokenizer.get_prompt_ids(prompt, return_tensors='pt').to(device)
-    return pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs=generate_kwargs)["text"]
 def _return_yt_html_embed(yt_url):
     video_id = yt_url.split("?v=")[-1]
@@ -83,10 +83,10 @@ def yt_transcribe(yt_url, prompt, max_filesize=75.0):
     inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
     inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
     generate_kwargs = {"language": "japanese", "task": "transcribe"}
-    if prompt:
-        generate_kwargs['prompt_ids'] = pipe.tokenizer.get_prompt_ids(prompt, return_tensors='pt').to(device)
-    text = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs=generate_kwargs)["text"]
-    return html_embed_str, text
 demo = gr.Blocks()

     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     generate_kwargs = {"language": "japanese", "task": "transcribe"}
+    prompt = "。" if not prompt else prompt
+    generate_kwargs['prompt_ids'] = pipe.tokenizer.get_prompt_ids(prompt, return_tensors='pt').to(device)
+    result = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs=generate_kwargs)["text"]
+    return result['text'][1 + len(prompt) + 1:]
 def _return_yt_html_embed(yt_url):
     video_id = yt_url.split("?v=")[-1]
     inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
     inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
     generate_kwargs = {"language": "japanese", "task": "transcribe"}
+    prompt = "。" if not prompt else prompt
+    generate_kwargs['prompt_ids'] = pipe.tokenizer.get_prompt_ids(prompt, return_tensors='pt').to(device)
+    result = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs=generate_kwargs)["text"]
+    return html_embed_str, result['text'][1 + len(prompt) + 1:]
 demo = gr.Blocks()