Spaces:

mncai
/

chat-doctor-kr

Runtime error

App Files Files Community

ttagu99 commited on Apr 1, 2023

Commit

0788398

•

1 Parent(s): 3e95aa0

add gitignore

Browse files

Files changed (2) hide show

.gitignore +1 -0
app.py +32 -8

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ cache/

app.py CHANGED Viewed

@@ -10,16 +10,14 @@ import os
 import gradio as gr
 import requests
 import random
-# from dotenv import load_dotenv
 import googletrans
 translator = googletrans.Translator()
-# load_dotenv()
 model = None
 tokenizer = None
 generator = None
-os.environ["CUDA_VISIBLE_DEVICES"]="0"
 def load_model(model_name, eight_bit=0, device_map="auto"):
  global model, tokenizer, generator
@@ -32,20 +30,29 @@ def load_model(model_name, eight_bit=0, device_map="auto"):
  gpu_count = torch.cuda.device_count()
  print('gpu_count', gpu_count)
  print(model_name)
  tokenizer = transformers.LLaMATokenizer.from_pretrained(model_name)
  model = transformers.LLaMAForCausalLM.from_pretrained(
  model_name,
  #device_map=device_map,
  #device_map="auto",
- torch_dtype=torch.float16,
  #max_memory = {0: "14GB", 1: "14GB", 2: "14GB", 3: "14GB",4: "14GB",5: "14GB",6: "14GB",7: "14GB"},
  #load_in_8bit=eight_bit,
  #from_tf=True,
  low_cpu_mem_usage=True,
  load_in_8bit=False,
  cache_dir="cache"
- ).cuda()
  generator = model.generate
 # chat doctor
@@ -68,7 +75,11 @@ def chatdoctor(input, state):
  print('fulltext: ',fulltext)
  generated_text = ""
- gen_in = tokenizer(fulltext, return_tensors="pt").input_ids.cuda()
  in_tokens = len(gen_in)
  print('len token',in_tokens)
  with torch.no_grad():
@@ -97,9 +108,22 @@ def chatdoctor(input, state):
 def predict(input, chatbot, state):
  print('predict state: ', state)
- en_input = translator.translate(input, src='ko', dest='en').text
  response = chatdoctor(en_input, state)
- ko_response = translator.translate(response, src='en', dest='ko').text
  state.append(response)
  chatbot.append((input, ko_response))
  return chatbot, state

 import gradio as gr
 import requests
 import random
 import googletrans
 translator = googletrans.Translator()
 model = None
 tokenizer = None
 generator = None
+os.environ["CUDA_VISIBLE_DEVICES"]=""
 def load_model(model_name, eight_bit=0, device_map="auto"):
  global model, tokenizer, generator
  gpu_count = torch.cuda.device_count()
  print('gpu_count', gpu_count)
+ if torch.cuda.is_available():
+ torch_dtype = torch.float16
+ else:
+ torch_dtype = torch.float32
  print(model_name)
  tokenizer = transformers.LLaMATokenizer.from_pretrained(model_name)
  model = transformers.LLaMAForCausalLM.from_pretrained(
  model_name,
  #device_map=device_map,
  #device_map="auto",
+ torch_dtype=torch_dtype,
  #max_memory = {0: "14GB", 1: "14GB", 2: "14GB", 3: "14GB",4: "14GB",5: "14GB",6: "14GB",7: "14GB"},
  #load_in_8bit=eight_bit,
  #from_tf=True,
  low_cpu_mem_usage=True,
  load_in_8bit=False,
  cache_dir="cache"
+ )
+ if torch.cuda.is_available():
+ model = model.cuda()
+ else:
+ model = model.cpu()
  generator = model.generate
 # chat doctor
  print('fulltext: ',fulltext)
  generated_text = ""
+ gen_in = tokenizer(fulltext, return_tensors="pt").input_ids
+ if torch.cuda.is_available():
+ gen_in = gen_in.cuda()
+ else:
+ gen_in = gen_in.cpu()
  in_tokens = len(gen_in)
  print('len token',in_tokens)
  with torch.no_grad():
 def predict(input, chatbot, state):
  print('predict state: ', state)
+ # input에 한국어가 detect 되면 영어로 변경, 아니면 그대로
+ is_kor = True
+ if googletrans.Translator().detect(input).lang == 'ko':
+ en_input = translator.translate(input, src='ko', dest='en').text
+ else:
+ en_input = input
+ is_kor = False
  response = chatdoctor(en_input, state)
+ if is_kor:
+ ko_response = translator.translate(response, src='en', dest='ko').text
+ else:
+ ko_response = response
  state.append(response)
  chatbot.append((input, ko_response))
  return chatbot, state