Spaces:

sawac
/

llama_chat_test

Runtime error

App Files Files Community

sawac commited on Oct 12, 2024

Commit

84e2d22

verified ·

1 Parent(s): a7cb98d

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -21

app.py CHANGED Viewed

@@ -5,21 +5,20 @@ import os
 import threading
 import time
-repo_id = "mmnga/ELYZA-japanese-Llama-2-7b-instruct-gguf"
-filename = "ELYZA-japanese-Llama-2-7b-instruct-q4_K_M.gguf"
 CONTEXT_SIZE = 2048
 N_THREADS = min(os.cpu_count(), 4)
 llm = None
 model_loaded = False
-loading_progress = 0
-def load_model():
-    global llm, model_loaded, loading_progress
-    loading_progress = 0
     model_path = hf_hub_download(repo_id=repo_id, filename=filename)
-    loading_progress = 50
     llm = Llama(
         model_path=model_path,
         n_threads=N_THREADS,
@@ -27,12 +26,9 @@ def load_model():
         verbose=False,
         n_ctx=CONTEXT_SIZE,
     )
-    loading_progress = 100
     model_loaded = True
-def get_loading_status():
-    global loading_progress
-    return loading_progress, f"モデル読み込み進捗: {loading_progress}%"
 def get_llama_response(prompt):
     global llm, model_loaded
@@ -57,13 +53,12 @@ def greet(prompt, intensity):
     return full_response + "！" * int(intensity)
-# モデルを非同期で読み込む
-threading.Thread(target=load_model, daemon=True).start()
 with gr.Blocks() as demo:
     gr.Markdown("# Llama.cpp-python-sample (Streaming)")
     gr.Markdown(f"MODEL: {filename} from {repo_id}")
     with gr.Row():
         input_text = gr.Textbox(label="Enter your prompt")
         intensity = gr.Slider(minimum=0, maximum=10, step=1, label="Intensity")
@@ -71,12 +66,8 @@ with gr.Blocks() as demo:
     output_text = gr.Textbox(label="Generated Response")
     submit_button = gr.Button("Submit")
-    loading_progress = gr.Progress()
-    loading_status = gr.Textbox(label="Loading Status")
     submit_button.click(fn=greet, inputs=[input_text, intensity], outputs=output_text)
-    demo.load(fn=get_loading_status, outputs=[loading_progress, loading_status], every=1)
 demo.queue()
-if __name__ == "__main__":
-    demo.launch()

 import threading
 import time
+repo_id = "ineair/llm-jp-3-3.7b-instruct-EZO-Humanities-gguf"
+filename = "llm-jp-3-3.7b-instruct-EZO-Humanities-f16.gguf"
 CONTEXT_SIZE = 2048
 N_THREADS = min(os.cpu_count(), 4)
 llm = None
 model_loaded = False
+def load_model(progress=gr.Progress()):
+    global llm, model_loaded
+    progress(0, desc="モデルのダウンロードを開始")
     model_path = hf_hub_download(repo_id=repo_id, filename=filename)
+    progress(0.5, desc="モデルをメモリに読み込み中")
     llm = Llama(
         model_path=model_path,
         n_threads=N_THREADS,
         verbose=False,
         n_ctx=CONTEXT_SIZE,
     )
+    progress(1, desc="モデルの読み込み完了")
     model_loaded = True
+    return "モデルの読み込みが完了しました。"
 def get_llama_response(prompt):
     global llm, model_loaded
     return full_response + "！" * int(intensity)
 with gr.Blocks() as demo:
     gr.Markdown("# Llama.cpp-python-sample (Streaming)")
     gr.Markdown(f"MODEL: {filename} from {repo_id}")
+    loading_status = gr.Textbox(label="Loading Status")
     with gr.Row():
         input_text = gr.Textbox(label="Enter your prompt")
         intensity = gr.Slider(minimum=0, maximum=10, step=1, label="Intensity")
     output_text = gr.Textbox(label="Generated Response")
     submit_button = gr.Button("Submit")
     submit_button.click(fn=greet, inputs=[input_text, intensity], outputs=output_text)
+    demo.load(fn=load_model, outputs=loading_status)
 demo.queue()
+demo.launch()