stablelm-2-1_6b-zephyr

Running

App Files Files Community

multimodalart HF staff commited on Apr 20, 2023

Commit

015885c

•

1 Parent(s): 7fdd6d6

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -51

app.py CHANGED Viewed

@@ -1,11 +1,12 @@
 import gradio as gr
 import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, StoppingCriteria, StoppingCriteriaList
 import time
 import numpy as np
 from torch.nn import functional as F
 import os
-# auth_key = os.environ["HF_ACCESS_TOKEN"]
 print(f"Starting to load the model to memory")
 m = AutoModelForCausalLM.from_pretrained(
  "stabilityai/stablelm-tuned-alpha-7b", torch_dtype=torch.float16).cuda()
@@ -28,62 +29,40 @@ class StopOnTokens(StoppingCriteria):
  return True
  return False
-def contrastive_generate(text, bad_text):
- with torch.no_grad():
- tokens = tok(text, return_tensors="pt")[
- 'input_ids'].cuda()[:, :4096-1024]
- bad_tokens = tok(bad_text, return_tensors="pt")[
- 'input_ids'].cuda()[:, :4096-1024]
- history = None
- bad_history = None
- curr_output = list()
- for i in range(1024):
- out = m(tokens, past_key_values=history, use_cache=True)
- logits = out.logits
- history = out.past_key_values
- bad_out = m(bad_tokens, past_key_values=bad_history,
- use_cache=True)
- bad_logits = bad_out.logits
- bad_history = bad_out.past_key_values
- probs = F.softmax(logits.float(), dim=-1)[0][-1].cpu()
- bad_probs = F.softmax(bad_logits.float(), dim=-1)[0][-1].cpu()
- logits = torch.log(probs)
- bad_logits = torch.log(bad_probs)
- logits[probs > 0.1] = logits[probs > 0.1] - bad_logits[probs > 0.1]
- probs = F.softmax(logits)
- out = int(torch.multinomial(probs, 1))
- if out in [50278, 50279, 50277, 1, 0]:
- break
- else:
- curr_output.append(out)
- out = np.array([out])
- tokens = torch.from_numpy(np.array([out])).to(
- tokens.device)
- bad_tokens = torch.from_numpy(np.array([out])).to(
- tokens.device)
- return tok.decode(curr_output)
-def generate(text, bad_text=None):
- stop = StopOnTokens()
- result = generator(text, max_new_tokens=1024, num_return_sequences=1, num_beams=1, do_sample=True,
- temperature=1.0, top_p=0.95, top_k=1000, stopping_criteria=StoppingCriteriaList([stop]))
- return result[0]["generated_text"].replace(text, "")
 def user(user_message, history):
  history = history + [[user_message, ""]]
  return "", history, history
 def bot(history, curr_system_message):
  messages = curr_system_message + \
  "".join(["".join(["<|USER|>"+item[0], "<|ASSISTANT|>"+item[1]])
  for item in history])
- output = generate(messages)
- history[-1][1] = output
- time.sleep(1)
  return history, history
@@ -107,5 +86,5 @@ with gr.Blocks() as demo:
  submit.click(fn=user, inputs=[msg, history], outputs=[msg, chatbot, history], queue=False).then(
  fn=bot, inputs=[chatbot, system_msg], outputs=[chatbot, history], queue=True)
  clear.click(lambda: [None, []], None, [chatbot, history], queue=False)
-demo.queue(concurrency_count=5)
-demo.launch()

 import gradio as gr
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, StoppingCriteria, StoppingCriteriaList, TextIteratorStreamer
 import time
 import numpy as np
 from torch.nn import functional as F
 import os
+from threading import Thread
 print(f"Starting to load the model to memory")
 m = AutoModelForCausalLM.from_pretrained(
  "stabilityai/stablelm-tuned-alpha-7b", torch_dtype=torch.float16).cuda()
  return True
  return False
 def user(user_message, history):
  history = history + [[user_message, ""]]
  return "", history, history
 def bot(history, curr_system_message):
+ stop = StopOnTokens()
  messages = curr_system_message + \
  "".join(["".join(["<|USER|>"+item[0], "<|ASSISTANT|>"+item[1]])
  for item in history])
+ #model_inputs = tok([messages], return_tensors="pt")['input_ids'].cuda()[:, :4096-1024]
+ model_inputs = tok([messages], return_tensors="pt").to("cuda")
+ streamer = TextIteratorStreamer(tok, timeout=10., skip_prompt=True, skip_special_tokens=True)
+ generate_kwargs = dict(
+ model_inputs,
+ streamer=streamer,
+ max_new_tokens=1024,
+ do_sample=True,
+ top_p=0.95,
+ top_k=1000,
+ temperature=1.0,
+ num_beams=1,
+ stopping_criteria=StoppingCriteriaList([stop])
+ )
+ t = Thread(target=m.generate, kwargs=generate_kwargs)
+ t.start()
+ print(history)
+ for new_text in streamer:
+ print(new_text)
+ history[-1][1] += new_text
+ yield history, history
  return history, history
  submit.click(fn=user, inputs=[msg, history], outputs=[msg, chatbot, history], queue=False).then(
  fn=bot, inputs=[chatbot, system_msg], outputs=[chatbot, history], queue=True)
  clear.click(lambda: [None, []], None, [chatbot, history], queue=False)
+demo.queue(concurrency_count=2)
+demo.launch()