Spaces:

ddiddi
/

bhasha.dev

Runtime error

App Files Files Community

Dhruv Diddi commited on Oct 13, 2022

Commit

e1d4069

1 Parent(s): a8c30fe

any text to stable diffusion

Browse files

Files changed (1) hide show

app.py +16 -191

app.py CHANGED Viewed

@@ -1,117 +1,19 @@
 import gradio as gr
-#import torch
-import whisper
 from datetime import datetime
 from PIL import Image
 import flag
 import os
-#MY_SECRET_TOKEN=os.environ.get('HF_TOKEN_SD')
-#from diffusers import StableDiffusionPipeline
 stable_diffusion = gr.Blocks.load(name="spaces/stabilityai/stable-diffusion")
 ### ————————————————————————————————————————
-title="Whisper to Stable Diffusion"
-### ————————————————————————————————————————
-whisper_model = whisper.load_model("small")
-#device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
-#pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", use_auth_token=MY_SECRET_TOKEN)
-#pipe.to(device)
-### ————————————————————————————————————————
 def get_images(prompt):
     gallery_dir = stable_diffusion(prompt, fn_index=2)
     return [os.path.join(gallery_dir, img) for img in os.listdir(gallery_dir)]
-def magic_whisper_to_sd(audio, guidance_scale, nb_iterations, seed):
-    whisper_results = translate(audio)
-    prompt = whisper_results[2]
-    images = get_images(prompt)
-    return whisper_results[0], whisper_results[1], whisper_results[2], images
-#def diffuse(prompt, guidance_scale, nb_iterations, seed):
-#
-#    generator = torch.Generator(device=device).manual_seed(int(seed))
-#
-#    print("""
-#    —
-#    Sending prompt to Stable Diffusion ...
-#    —
-#    """)
-#    print("prompt: " + prompt)
-#    print("guidance scale: " + str(guidance_scale))
-#    print("inference steps: " + str(nb_iterations))
-#    print("seed: " + str(seed))
-#
-#    images_list = pipe(
-#            [prompt] * 2,
-#            guidance_scale=guidance_scale,
-#            num_inference_steps=nb_iterations,
-#            generator=generator
-#        )
-#
-#    images = []
-#
-#    safe_image = Image.open(r"unsafe.png")
-#
-#    for i, image in enumerate(images_list["sample"]):
-#        if(images_list["nsfw_content_detected"][i]):
-#            images.append(safe_image)
-#        else:
-#            images.append(image)
-#
-#
-#    print("Stable Diffusion has finished")
-#    print("———————————————————————————————————————————")
-#
-#    return images
-def translate(audio):
-    print("""
-    —
-    Sending audio to Whisper ...
-    —
-    """)
-    # current dateTime
-    now = datetime.now()
-    # convert to string
-    date_time_str = now.strftime("%Y-%m-%d %H:%M:%S")
-    print('DateTime String:', date_time_str)
-    audio = whisper.load_audio(audio)
-    audio = whisper.pad_or_trim(audio)
-    mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
-    _, probs = whisper_model.detect_language(mel)
-    transcript_options = whisper.DecodingOptions(task="transcribe", fp16 = False)
-    translate_options = whisper.DecodingOptions(task="translate", fp16 = False)
-    transcription = whisper.decode(whisper_model, mel, transcript_options)
-    translation = whisper.decode(whisper_model, mel, translate_options)
-    print("language spoken: " + transcription.language)
-    print("transcript: " + transcription.text)
-    print("———————————————————————————————————————————")
-    print("translated: " + translation.text)
-    if transcription.language == "en":
-        tr_flag = flag.flag('GB')
-    else:
-        tr_flag = flag.flag(transcription.language)
-    return tr_flag, transcription.text, translation.text
-### ————————————————————————————————————————
 css = """
         .container {
             max-width: 880px;
@@ -274,15 +176,14 @@ with gr.Blocks(css=css) as demo:
     with gr.Column():
         gr.HTML('''
             <h1>
-                Whisper to Stable Diffusion
             </h1>
             <p style='text-align: center;'>
-                Ask stable diffusion for images by speaking (or singing 🤗) in your native language ! Try it in French 😉
             </p>
             <p style='text-align: center;'>
-                This demo is wired to the official SD Space • Offered by Sylvain <a href='https://twitter.com/fffiloni' target='_blank'>@fffiloni</a> • <img id='visitor-badge' alt='visitor badge' src='https://visitor-badge.glitch.me/badge?page_id=gradio-blocks.whisper-to-stable-diffusion' style='display: inline-block' /><br />
-                —
             </p>
         ''')
@@ -291,35 +192,12 @@ with gr.Blocks(css=css) as demo:
         gr.Markdown(
             """
-            ## 1. Record audio or Upload an audio file:
             """
         )
-        with gr.Tab(label="Record audio input", elem_id="record_tab"):
-            with gr.Column():
-                record_input = gr.Audio(
-                                    source="microphone",
-                                    type="filepath",
-                                    show_label=False,
-                                    elem_id="record_btn"
-                                )
-                with gr.Row():
-                    audio_r_translate = gr.Button("Check Whisper first ? 👍", elem_id="check_btn_1")
-                    audio_r_direct_sd = gr.Button("Magic Whisper › SD right now!", elem_id="magic_btn_1")
-        with gr.Tab(label="Upload audio input", elem_id="upload_tab"):
-            with gr.Column():
-                upload_input = gr.Audio(
-                                    source="upload",
-                                    type="filepath",
-                                    show_label=False,
-                                    elem_id="upload_area"
-                                )
-                with gr.Row():
-                    audio_u_translate = gr.Button("Check Whisper first ? 👍", elem_id="check_btn_2")
-                    audio_u_direct_sd = gr.Button("Magic Whisper › SD right now!", elem_id="magic_btn_2")
         with gr.Accordion(label="Stable Diffusion Settings", elem_id="sd_settings", visible=False):
             with gr.Row():
                 guidance_scale = gr.Slider(2, 15, value = 7, label = 'Guidance Scale')
@@ -328,28 +206,27 @@ with gr.Blocks(css=css) as demo:
         gr.Markdown(
             """
-            ## 2. Check Whisper output, correct it if necessary:
             """
         )
         with gr.Row():
             transcripted_output = gr.Textbox(
-                                    label="Transcription in your detected spoken language",
                                     lines=3,
-                                    elem_id="transcripted"
                                 )
-            language_detected_output = gr.Textbox(label="Native language", elem_id="spoken_lang",lines=3)
         with gr.Column():
             translated_output = gr.Textbox(
-                                    label="Transcript translated in English by Whisper",
                                     lines=4,
                                     elem_id="translated"
                                 )
             with gr.Row():
                 clear_btn = gr.Button(value="Clear")
-                diffuse_btn = gr.Button(value="OK, Diffuse this prompt !", elem_id="diffuse_btn")
                 clear_btn.click(fn=lambda value: gr.update(value=""), inputs=clear_btn, outputs=translated_output)
@@ -362,8 +239,8 @@ with gr.Blocks(css=css) as demo:
         gr.Markdown("""
-            ## 3. Wait for Stable Diffusion Results ☕️
-            Inference time is about ~20-30 seconds, when it's your turn 😬
             """
             )
@@ -371,11 +248,8 @@ with gr.Blocks(css=css) as demo:
         gr.Markdown("""
-            ### 📌 About the models
-            <p style='font-size: 1em;line-height: 1.5em;'>
-            <strong>Whisper</strong> is a general-purpose speech recognition model.<br /><br />
-            It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification. <br />
-            —
             </p>
             <p style='font-size: 1em;line-height: 1.5em;'>
             <strong>Stable Diffusion</strong> is a state of the art text-to-image model that generates images from text.
@@ -406,49 +280,6 @@ with gr.Blocks(css=css) as demo:
         """, elem_id="about")
-        audio_r_translate.click(translate,
-                                inputs = record_input,
-                                outputs = [
-                                    language_detected_output,
-                                    transcripted_output,
-                                    translated_output
-                                ])
-        audio_u_translate.click(translate,
-                                inputs = upload_input,
-                                outputs = [
-                                    language_detected_output,
-                                    transcripted_output,
-                                    translated_output
-                                ])
-        audio_r_direct_sd.click(magic_whisper_to_sd,
-                                inputs = [
-                                    record_input,
-                                    guidance_scale,
-                                    nb_iterations,
-                                    seed
-                                ],
-                                outputs = [
-                                    language_detected_output,
-                                    transcripted_output,
-                                    translated_output,
-                                    sd_output
-                                ])
-        audio_u_direct_sd.click(magic_whisper_to_sd,
-                                inputs = [
-                                    upload_input,
-                                    guidance_scale,
-                                    nb_iterations,
-                                    seed
-                                ],
-                                outputs = [
-                                    language_detected_output,
-                                    transcripted_output,
-                                    translated_output,
-                                    sd_output
-                                ])
         diffuse_btn.click(get_images,
                               inputs = [
@@ -456,12 +287,6 @@ with gr.Blocks(css=css) as demo:
                                   ],
                               outputs = sd_output
                           )
-        gr.HTML('''
-                <div class="footer">
-                    <p>Whisper by <a href="https://github.com/openai/whisper" target="_blank">OpenAI</a> - Stable Diffusion by <a href="https://huggingface.co/CompVis" target="_blank">CompVis</a> and <a href="https://huggingface.co/stabilityai"  target="_blank">Stability AI</a>
-                    </p>
-                </div>
-                ''')
 if __name__ == "__main__":

 import gradio as gr
 from datetime import datetime
 from PIL import Image
 import flag
 import os
 stable_diffusion = gr.Blocks.load(name="spaces/stabilityai/stable-diffusion")
 ### ————————————————————————————————————————
+title="Any Text to Stable Diffusion"
 def get_images(prompt):
     gallery_dir = stable_diffusion(prompt, fn_index=2)
     return [os.path.join(gallery_dir, img) for img in os.listdir(gallery_dir)]
 css = """
         .container {
             max-width: 880px;
     with gr.Column():
         gr.HTML('''
             <h1>
+                Any Text to Stable Diffusion
             </h1>
             <p style='text-align: center;'>
+                Ask stable diffusion in any language !
             </p>
             <p style='text-align: center;'>
+                This demo is connected to StableDiffusion Space • Offered by ddiddi <br />
             </p>
         ''')
         gr.Markdown(
             """
+            ## 1. Stable Diffusion Config
             """
         )
         with gr.Accordion(label="Stable Diffusion Settings", elem_id="sd_settings", visible=False):
             with gr.Row():
                 guidance_scale = gr.Slider(2, 15, value = 7, label = 'Guidance Scale')
         gr.Markdown(
             """
+            ## 2. Enter prompt
             """
         )
         with gr.Row():
             transcripted_output = gr.Textbox(
+                                    label="Enter prompt",
                                     lines=3,
+                                    elem_id="transcript"
                                 )
         with gr.Column():
             translated_output = gr.Textbox(
+                                    label="in English",
                                     lines=4,
                                     elem_id="translated"
                                 )
             with gr.Row():
                 clear_btn = gr.Button(value="Clear")
+                diffuse_btn = gr.Button(value="YES", elem_id="diffuse_btn")
                 clear_btn.click(fn=lambda value: gr.update(value=""), inputs=clear_btn, outputs=translated_output)
         gr.Markdown("""
+            ## 3. Stable Diffusion Results
+            Inference time is about ~30-40 seconds
             """
             )
         gr.Markdown("""
+            ### 📌 Resources
             </p>
             <p style='font-size: 1em;line-height: 1.5em;'>
             <strong>Stable Diffusion</strong> is a state of the art text-to-image model that generates images from text.
         """, elem_id="about")
         diffuse_btn.click(get_images,
                               inputs = [
                                   ],
                               outputs = sd_output
                           )
 if __name__ == "__main__":