Flux.1-Fill-dev

Running on Zero

vilarin commited on Jul 9, 2024

Commit

d2fff9f

verified ·

1 Parent(s): 29890fc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -92,15 +92,14 @@ def ollama_func(command):
     else:
         return "No supported command."
 def launch():
     global OLLAMA_SERVICE_THREAD
     OLLAMA_SERVICE_THREAD = threading.Thread(target=ollama_service_thread)
     OLLAMA_SERVICE_THREAD.start()
     print("Giving ollama serve a moment")
     time.sleep(10)
-@spaces.GPU()
 def stream_chat(message: str, history: list, model: str, temperature: float, max_new_tokens: int, top_p: float, top_k: int, penalty: float):
     print(f"message: {message}")
     conversation = []
@@ -116,6 +115,8 @@ def stream_chat(message: str, history: list, model: str, temperature: float, max
         response = client.chat(
             model=model,
             messages=conversation,
             options={
                 'num_predict': max_new_tokens,
                 'temperature': temperature,
@@ -123,11 +124,13 @@ def stream_chat(message: str, history: list, model: str, temperature: float, max
                 'top_k': top_k,
                 'repeat_penalty': penalty,
                 'low_vram': True,
-                "keep_alive": "60s",
             },
         )
         print(response)
-        return response['message']['content']
@@ -152,8 +155,11 @@ def main(message: str, history: list, model: str, temperature: float, max_new_to
                 top_k,
                 penalty
             )
-            print(response)
-            yield response

     else:
         return "No supported command."
+@spaces.GPU()
 def launch():
     global OLLAMA_SERVICE_THREAD
     OLLAMA_SERVICE_THREAD = threading.Thread(target=ollama_service_thread)
     OLLAMA_SERVICE_THREAD.start()
     print("Giving ollama serve a moment")
     time.sleep(10)
 def stream_chat(message: str, history: list, model: str, temperature: float, max_new_tokens: int, top_p: float, top_k: int, penalty: float):
     print(f"message: {message}")
     conversation = []
         response = client.chat(
             model=model,
             messages=conversation,
+            keep_alive="60s",
+            stream=True,
             options={
                 'num_predict': max_new_tokens,
                 'temperature': temperature,
                 'top_k': top_k,
                 'repeat_penalty': penalty,
                 'low_vram': True,
             },
         )
+        terminate()
         print(response)
+        yield response['message']['content']
                 top_k,
                 penalty
             )
+            buffer = ""
+            for chunk in response:
+                buffer += chunk
+                yield buffer