BERT-for-Patents_Semantic-Patent-Finder-v2

Running

App Files Files Community

bhlewis commited on Jul 29, 2024

Commit

f8a4328

verified ·

1 Parent(s): 3961929

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -1

app.py CHANGED Viewed

@@ -88,4 +88,72 @@ def extract_key_features(text):
 def compare_features(query_features, patent_features):
     common_features = set(query_features) & set(patent_features)
-    similarity_score = len(common_features) / max(len(query_features), len

 def compare_features(query_features, patent_features):
     common_features = set(query_features) & set(patent_features)
+    similarity_score = len(common_features) / max(len(query_features), len(patent_features))
+    return common_features, similarity_score
+def hybrid_search(query, top_k=5):
+    print(f"Original query: {query}")
+    query_features = extract_key_features(query)
+    # Encode the query using the transformer model
+    query_embedding = model.encode([query])[0]
+    query_embedding = query_embedding / np.linalg.norm(query_embedding)
+    # Perform semantic similarity search
+    semantic_distances, semantic_indices = index.search(np.array([query_embedding]).astype('float32'), top_k * 2)
+    # Perform TF-IDF based search
+    query_tfidf = tfidf_vectorizer.transform([query])
+    tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
+    tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
+    # Combine and rank results
+    combined_results = {}
+    for i, idx in enumerate(semantic_indices[0]):
+        patent_number = patent_numbers[idx].decode('utf-8')
+        text = metadata[patent_number]['text']
+        patent_features = extract_key_features(text)
+        common_features, feature_similarity = compare_features(query_features, patent_features)
+        combined_results[patent_number] = {
+            'score': semantic_distances[0][i] * 1.5 + feature_similarity,
+            'common_features': common_features,
+            'text': text
+        }
+    for idx in tfidf_indices:
+        patent_number = patent_numbers[idx].decode('utf-8')
+        if patent_number not in combined_results:
+            text = metadata[patent_number]['text']
+            patent_features = extract_key_features(text)
+            common_features, feature_similarity = compare_features(query_features, patent_features)
+            combined_results[patent_number] = {
+                'score': tfidf_similarities[idx] + feature_similarity,
+                'common_features': common_features,
+                'text': text
+            }
+    # Sort and get top results
+    top_results = sorted(combined_results.items(), key=lambda x: x[1]['score'], reverse=True)[:top_k]
+    results = []
+    for patent_number, data in top_results:
+        result = f"Patent Number: {patent_number}\n"
+        result += f"Text: {data['text'][:200]}...\n"
+        result += f"Combined Score: {data['score']:.4f}\n"
+        result += f"Common Key Features: {', '.join(data['common_features'])}\n\n"
+        results.append(result)
+    return "\n".join(results)
+# Create Gradio interface
+iface = gr.Interface(
+    fn=hybrid_search,
+    inputs=gr.Textbox(lines=2, placeholder="Enter your patent query here..."),
+    outputs=gr.Textbox(lines=10, label="Search Results"),
+    title="Patent Similarity Search",
+    description="Enter a patent description to find similar patents based on key features."
+)
+if __name__ == "__main__":
+    iface.launch()