BERT-for-Patents_Semantic-Patent-Finder-v2

Running

App Files Files Community

bhlewis commited on Jul 29, 2024

Commit

e503f85

verified ·

1 Parent(s): 60465e3

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -7

app.py CHANGED Viewed

@@ -10,6 +10,11 @@ import re
 from collections import Counter
 import spacy
 import torch
 # Load Spacy model for advanced NLP
 try:
@@ -96,20 +101,33 @@ def compare_features(query_features, patent_features):
     similarity_score = len(common_features) / max(len(query_features), len(patent_features))
     return common_features, similarity_score
 def hybrid_search(query, top_k=5):
     print(f"Original query: {query}")
-    query_features = extract_key_features(query)
     # Encode the query using the transformer model
-    query_embedding = encode_texts([query])[0]
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     # Perform semantic similarity search
     semantic_distances, semantic_indices = index.search(np.array([query_embedding]).astype('float32'), top_k * 2)
     # Perform TF-IDF based search
-    query_tfidf = tfidf_vectorizer.transform([query])
     tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
     tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
@@ -121,7 +139,7 @@ def hybrid_search(query, top_k=5):
         patent_features = extract_key_features(text)
         common_features, feature_similarity = compare_features(query_features, patent_features)
         combined_results[patent_number] = {
-            'score': semantic_distances[0][i] * 1.5 + feature_similarity,
             'common_features': common_features,
             'text': text
         }
@@ -133,7 +151,7 @@ def hybrid_search(query, top_k=5):
             patent_features = extract_key_features(text)
             common_features, feature_similarity = compare_features(query_features, patent_features)
             combined_results[patent_number] = {
-                'score': tfidf_similarities[idx] + feature_similarity,
                 'common_features': common_features,
                 'text': text
             }
@@ -151,10 +169,13 @@ def hybrid_search(query, top_k=5):
     return "\n".join(results)
-# Create Gradio interface
 iface = gr.Interface(
     fn=hybrid_search,
-    inputs=gr.Textbox(lines=2, placeholder="Enter your patent query here..."),
     outputs=gr.Textbox(lines=10, label="Search Results"),
     title="Patent Similarity Search",
     description="Enter a patent description to find similar patents based on key features."

 from collections import Counter
 import spacy
 import torch
+from nltk.corpus import wordnet
+import nltk
+# Download WordNet data
+nltk.download('wordnet')
 # Load Spacy model for advanced NLP
 try:
     similarity_score = len(common_features) / max(len(query_features), len(patent_features))
     return common_features, similarity_score
+def expand_query(query):
+    expanded_query = query
+    for word in query.split():
+        synonyms = wordnet.synsets(word)
+        for syn in synonyms:
+            for lemma in syn.lemmas():
+                expanded_query += " " + lemma.name()
+    return expanded_query
 def hybrid_search(query, top_k=5):
     print(f"Original query: {query}")
+    # Expand the query
+    expanded_query = expand_query(query)
+    print(f"Expanded query: {expanded_query}")
+    query_features = extract_key_features(expanded_query)
     # Encode the query using the transformer model
+    query_embedding = encode_texts([expanded_query])[0]
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     # Perform semantic similarity search
     semantic_distances, semantic_indices = index.search(np.array([query_embedding]).astype('float32'), top_k * 2)
     # Perform TF-IDF based search
+    query_tfidf = tfidf_vectorizer.transform([expanded_query])
     tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
     tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
         patent_features = extract_key_features(text)
         common_features, feature_similarity = compare_features(query_features, patent_features)
         combined_results[patent_number] = {
+            'score': semantic_distances[0][i] * 1.0 + tfidf_similarities[idx] * 0.5 + feature_similarity,
             'common_features': common_features,
             'text': text
         }
             patent_features = extract_key_features(text)
             common_features, feature_similarity = compare_features(query_features, patent_features)
             combined_results[patent_number] = {
+                'score': tfidf_similarities[idx] * 1.0 + feature_similarity,
                 'common_features': common_features,
                 'text': text
             }
     return "\n".join(results)
+# Create Gradio interface with additional input fields
 iface = gr.Interface(
     fn=hybrid_search,
+    inputs=[
+        gr.Textbox(lines=2, placeholder="Enter your patent query here..."),
+        gr.Slider(minimum=1, maximum=20, step=1, default=5, label="Top K Results"),
+    ],
     outputs=gr.Textbox(lines=10, label="Search Results"),
     title="Patent Similarity Search",
     description="Enter a patent description to find similar patents based on key features."