BERT-for-Patents_Semantic-Patent-Finder-v2

Sleeping

bhlewis commited on Jul 29, 2024

Commit

071fbb4

verified ·

1 Parent(s): 3f5f400

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -53,17 +53,11 @@ def load_data():
 embeddings, patent_numbers, metadata, texts = load_data()
 # Load BERT model for encoding search queries
-try:
-    tokenizer = AutoTokenizer.from_pretrained('anferico/bert-for-patents')
-    bert_model = AutoModel.from_pretrained('anferico/bert-for-patents')
-except Exception as e:
-    print(f"Error loading anferico/bert-for-patents: {e}")
-    print("Falling back to a general-purpose model.")
-    tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
-    bert_model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
-def encode_texts(texts):
-    inputs = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
     with torch.no_grad():
         outputs = bert_model(**inputs)
     embeddings = outputs.last_hidden_state.mean(dim=1)
@@ -174,7 +168,7 @@ iface = gr.Interface(
     fn=hybrid_search,
     inputs=[
         gr.Textbox(lines=2, placeholder="Enter your patent query here..."),
-        gr.Slider(minimum=1, maximum=20, step=1, default=5, label="Top K Results"),
     ],
     outputs=gr.Textbox(lines=10, label="Search Results"),
     title="Patent Similarity Search",

 embeddings, patent_numbers, metadata, texts = load_data()
 # Load BERT model for encoding search queries
+tokenizer = AutoTokenizer.from_pretrained('anferico/bert-for-patents')
+bert_model = AutoModel.from_pretrained('anferico/bert-for-patents')
+def encode_texts(texts, max_length=512):
+    inputs = tokenizer(texts, padding=True, truncation=True, max_length=max_length, return_tensors='pt')
     with torch.no_grad():
         outputs = bert_model(**inputs)
     embeddings = outputs.last_hidden_state.mean(dim=1)
     fn=hybrid_search,
     inputs=[
         gr.Textbox(lines=2, placeholder="Enter your patent query here..."),
+        gr.Slider(minimum=1, maximum=20, step=1, value=5, label="Top K Results"),
     ],
     outputs=gr.Textbox(lines=10, label="Search Results"),
     title="Patent Similarity Search",