Spaces:

sagar007
/

phi2_finetune

Running

App Files Files Community

sagar007 commited on 6 days ago

Commit

ffe537c

verified ·

1 Parent(s): 0bfd470

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -41

app.py CHANGED Viewed

@@ -2,46 +2,49 @@ import torch
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel, PeftConfig
-import spaces
-# Check if CUDA is available and set the device
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-print(f"Using device: {device}")
-# Load model and tokenizer#
 MODEL_PATH = "sagar007/phi2_25k"
-tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
-tokenizer.pad_token = tokenizer.eos_token
-base_model = AutoModelForCausalLM.from_pretrained(
-    "microsoft/phi-2",
-    torch_dtype=torch.float16 if device.type == "cuda" else torch.float32,
-    device_map="auto",
-    trust_remote_code=True
-)
-peft_config = PeftConfig.from_pretrained(MODEL_PATH)
-model = PeftModel.from_pretrained(base_model, MODEL_PATH)
-model.to(device)
-model.eval()
-@spaces.GPU(duration=60)
 def generate_response(instruction, max_length=512):
-    prompt = f"Instruction: {instruction}\nResponse:"
-    inputs = tokenizer(prompt, return_tensors="pt").to(device)
-    with torch.no_grad():
-        outputs = model.generate(
-            **inputs,
-            max_length=max_length,
-            num_return_sequences=1,
-            temperature=0.7,
-            top_p=0.9,
-            do_sample=True
-        )
-    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return response.split("Response:")[1].strip()
 def chatbot(message, history):
     response = generate_response(message)
@@ -49,15 +52,14 @@ def chatbot(message, history):
 demo = gr.ChatInterface(
     chatbot,
-    title="Fine-tuned Phi-2 Chatbot",
-    description="This is a chatbot using a fine-tuned version of the Phi-2 model.",
-    theme="default",
     examples=[
-        "Explain the concept of machine learning.",
-        "Write a short story about a robot learning to paint.",
-        "What are some effective ways to reduce stress?",
     ],
-    cache_examples=True,
 )
 if __name__ == "__main__":

 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel, PeftConfig
+from huggingface_hub import InferenceClient
+# Load configuration
 MODEL_PATH = "sagar007/phi2_25k"
+peft_config = PeftConfig.from_pretrained(MODEL_PATH)
+# Initialize client for Zero-GPU environment
+client = InferenceClient()
+def load_model():
+    # Load base model
+    base_model = AutoModelForCausalLM.from_pretrained(
+        "microsoft/phi-2",
+        torch_dtype=torch.float16,
+        device_map="auto",
+        trust_remote_code=True
+    )
+    # Load PEFT model
+    model = PeftModel.from_pretrained(base_model, MODEL_PATH)
+    return model, AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
+@client.gpu(timeout=120)
 def generate_response(instruction, max_length=512):
+    try:
+        model, tokenizer = load_model()
+        prompt = f"Instruction: {instruction}\nResponse:"
+        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+        with torch.no_grad():
+            outputs = model.generate(
+                **inputs,
+                max_length=max_length,
+                temperature=0.7,
+                top_p=0.9,
+                do_sample=True
+            )
+        return tokenizer.decode(outputs[0], skip_special_tokens=True).split("Response:")[-1].strip()
+    except Exception as e:
+        print(f"Error: {str(e)}")
+        return "Sorry, I encountered an error. Please try again."
 def chatbot(message, history):
     response = generate_response(message)
 demo = gr.ChatInterface(
     chatbot,
+    title="Phi-2 Zero-GPU Chat",
+    description="Fine-tuned Phi-2 model running on Hugging Face Zero-GPU Spaces",
     examples=[
+        ["Explain quantum computing in simple terms"],
+        ["Write a poem about artificial intelligence"],
+        ["How do I make a perfect omelette?"]
     ],
+    cache_examples=False
 )
 if __name__ == "__main__":