pdf-chatbot

Sleeping

Pavan178 commited on Jul 27, 2024

Commit

7ea4acb

verified ·

1 Parent(s): 1d96682

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -60,11 +60,26 @@ def create_db(splits, collection_name):
 def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, progress=gr.Progress()):
     progress(0.1, desc="Initializing HF tokenizer...")
-    tokenizer = AutoTokenizer.from_pretrained(llm_model)
     progress(0.3, desc="Loading model...")
     try:
-        model = AutoModelForCausalLM.from_pretrained(llm_model, torch_dtype=torch.float16, device_map="auto")
     except RuntimeError as e:
         if "CUDA out of memory" in str(e):
             raise gr.Error("GPU memory exceeded. Try a smaller model or reduce batch size.")
@@ -85,6 +100,8 @@ def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, pr
         eos_token_id=tokenizer.eos_token_id
     )
     llm = HuggingFacePipeline(pipeline=pipeline, model_kwargs={'temperature': temperature})
     progress(0.75, desc="Defining buffer memory...")
     memory = ConversationBufferMemory(

 def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, progress=gr.Progress()):
     progress(0.1, desc="Initializing HF tokenizer...")
+    # Retrieve the Hugging Face token from environment variables
+    hf_token = os.environ.get("HF_TOKEN")
+    if not hf_token:
+        raise ValueError("Hugging Face token not found. Please set the HF_TOKEN environment variable.")
+    # Log in to Hugging Face
+    login(token=hf_token)
+    # Initialize tokenizer and model with the token
+    tokenizer = AutoTokenizer.from_pretrained(llm_model, use_auth_token=hf_token)
     progress(0.3, desc="Loading model...")
     try:
+        model = AutoModelForCausalLM.from_pretrained(
+            llm_model,
+            use_auth_token=hf_token,
+            torch_dtype=torch.float16,
+            device_map="auto"
+        )
     except RuntimeError as e:
         if "CUDA out of memory" in str(e):
             raise gr.Error("GPU memory exceeded. Try a smaller model or reduce batch size.")
         eos_token_id=tokenizer.eos_token_id
     )
     llm = HuggingFacePipeline(pipeline=pipeline, model_kwargs={'temperature': temperature})
     progress(0.75, desc="Defining buffer memory...")
     memory = ConversationBufferMemory(