Spaces:

valeriedaash
/

find_my_book

Sleeping

App Files Files Community

valeriedaash commited on Mar 15, 2024

Commit

99c7207

1 Parent(s): edf802b

filtering added

Browse files

Files changed (3) hide show

README.md +14 -0
app.py +213 -19
pages/main.py +0 -19

README.md CHANGED Viewed

@@ -10,3 +10,17 @@ pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+## Умный поиск книг
+## 🦸‍♂️Команда
+1. [Валерия Дашиева](https://github.com/valeriedaash)
+2. [Марина Кочетова](https://github.com/neonanet)
+## 🎯 Задача
+Разработать систему поиска книги по пользовательскому запросу. Сервис должен принимать на вход описание книги от пользователя и возвращать заданное количество подходящих вариантов.
+## Как пользоваться
+для локального запуска:
+1) скопируйте репозиторий на свой компьютер
+2) установите необходимые библеотеки из requirements.txt
+3) запустите app.py

app.py CHANGED Viewed

@@ -1,9 +1,179 @@
 import streamlit as st
 import pandas as pd
 import numpy as np
 import torch
 from transformers import AutoTokenizer, AutoModel
-from sklearn.metrics.pairwise import pairwise_distances, cosine_similarity
 import faiss
 tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
@@ -12,6 +182,12 @@ model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
 df = pd.read_csv('data_final.csv')
 MAX_LEN = 300
 def embed_bert_cls(text, model, tokenizer):
     t = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=MAX_LEN)
@@ -21,13 +197,28 @@ def embed_bert_cls(text, model, tokenizer):
     embeddings = torch.nn.functional.normalize(embeddings)
     return embeddings[0].cpu().numpy()
-books_embs = np.loadtxt('vectors.txt')
-index = faiss.IndexFlatIP(books_embs.shape[1])
-index.add(books_embs)
 st.title('Приложение для рекомендации книг')
 text = st.text_input('Введите запрос:')
 top_n = st.number_input('Введите количество рекомендаций:', min_value=1, max_value=50, value=1)
@@ -35,19 +226,22 @@ recommend_button = st.button('Найти')
 if text and recommend_button:
     query_emb = embed_bert_cls(text, model, tokenizer)
-    D, I = index.search(query_emb.reshape(1, -1), top_n)
-    st.subheader('Топ рекомендуемых книг:')
-    for i, j in zip(I[0], D[0]):
-        col_1, col_2 = st.columns([1, 3])
-        with col_1:
-            st.image(df['image_url'][i], use_column_width=True)
-            st.write(round(j* 100, 2))
-        with col_2:
-            st.write(f'Название книги: **{df["title"][i]}**')
-            st.write(f'Автор: {df["author"][i]}')
-            st.write(f'Ссылка: {df["page_url"][i]}')
-            st.write(f'Аннотация: {df["annotation"][i]}')

+# БЕЗ ФИЛЬТРА КАТЕГОРИЙ
+# import streamlit as st
+# import pandas as pd
+# import numpy as np
+# import torch
+# from transformers import AutoTokenizer, AutoModel
+# from sklearn.metrics.pairwise import pairwise_distances, cosine_similarity
+# import faiss
+# tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+# model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+# df = pd.read_csv('data_final.csv')
+# MAX_LEN = 300
+# def embed_bert_cls(text, model, tokenizer):
+#     t = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=MAX_LEN)
+#     with torch.no_grad():
+#         model_output = model(**{k: v.to(model.device) for k, v in t.items()})
+#     embeddings = model_output.last_hidden_state[:, 0, :]
+#     embeddings = torch.nn.functional.normalize(embeddings)
+#     return embeddings[0].cpu().numpy()
+# books_embs = np.loadtxt('vectors.txt')
+# index = faiss.IndexFlatIP(books_embs.shape[1])
+# index.add(books_embs)
+# st.title('Приложение для рекомендации книг')
+# text = st.text_input('Введите запрос:')
+# top_n = st.number_input('Введите количество рекомендаций:', min_value=1, max_value=50, value=1)
+# recommend_button = st.button('Найти')
+# if text and recommend_button:
+#     query_emb = embed_bert_cls(text, model, tokenizer)
+#     D, I = index.search(query_emb.reshape(1, -1), top_n)
+#     st.subheader('Топ рекомендуемых книг:')
+#     for i, j in zip(I[0], D[0]):
+#         col_1, col_2 = st.columns([1, 3])
+#         with col_1:
+#             st.image(df['image_url'][i], use_column_width=True)
+#             st.write(round(j* 100, 2))
+#         with col_2:
+#             st.write(f'Название книги: **{df["title"][i]}**')
+#             st.write(f'Автор: {df["author"][i]}')
+#             st.write(f'Ссылка: {df["page_url"][i]}')
+#             st.write(f'Аннотация: {df["annotation"][i]}')
+# БЕЗ КЭШИРОВАНИЯ
+# import streamlit as st
+# import pandas as pd
+# import numpy as np
+# import torch
+# from transformers import AutoTokenizer, AutoModel
+# from sklearn.metrics.pairwise import pairwise_distances, cosine_similarity
+# import faiss
+# tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+# model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+# df = pd.read_csv('data_final.csv')
+# MAX_LEN = 300
+# def embed_bert_cls(text, model, tokenizer):
+#     t = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=MAX_LEN)
+#     with torch.no_grad():
+#         model_output = model(**{k: v.to(model.device) for k, v in t.items()})
+#     embeddings = model_output.last_hidden_state[:, 0, :]
+#     embeddings = torch.nn.functional.normalize(embeddings)
+#     return embeddings[0].cpu().numpy()
+# books_embs = np.loadtxt('vectors.txt')
+# index = faiss.IndexFlatIP(books_embs.shape[1])
+# index.add(books_embs)
+# st.title('Приложение для рекомендации книг')
+# # Добавляем опциональный фильтр для выбора категории книги
+# category_filter = st.selectbox('Выберите категорию книги (необязательно)', ['Все'] + list(df['category'].unique()))
+# text = st.text_input('Введите запрос:')
+# top_n = st.number_input('Введите количество рекомендаций:', min_value=1, max_value=50, value=1)
+# recommend_button = st.button('Найти')
+# if text and recommend_button:
+#     query_emb = embed_bert_cls(text, model, tokenizer)
+#     D, I = index.search(query_emb.reshape(1, -1), top_n)
+#     st.subheader('Топ рекомендуемых книг:')
+#     for i, j in zip(I[0], D[0]):
+#         # Добавляем фильтрацию по выбранной категории книги, если выбрана конкретная категория
+#         if category_filter == 'Все' or df['category'][i] == category_filter:
+#             col_1, col_2 = st.columns([1, 3])
+#             with col_1:
+#                 st.image(df['image_url'][i], use_column_width=True)
+#                 st.write(round(j* 100, 2))
+#             with col_2:
+#                 st.write(f'Название книги: **{df["title"][i]}**')
+#                 st.write(f'Автор: {df["author"][i]}')
+#                 st.write(f'Ссылка: {df["page_url"][i]}')
+#                 st.write(f'Аннотация: {df["annotation"][i]}')
+# import streamlit as st
+# import pandas as pd
+# import numpy as np
+# import torch
+# from transformers import AutoTokenizer, AutoModel
+# from sklearn.metrics.pairwise import pairwise_distances, cosine_similarity
+# import faiss
+# tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+# model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+# df = pd.read_csv('data_final.csv')
+# MAX_LEN = 300
+# # @st.cache(hash_funcs={tokenizers.Tokenizer: my_hash_func})
+# def embed_bert_cls(text, model, tokenizer):
+#     t = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=MAX_LEN)
+#     with torch.no_grad():
+#         model_output = model(**{k: v.to(model.device) for k, v in t.items()})
+#     embeddings = model_output.last_hidden_state[:, 0, :]
+#     embeddings = torch.nn.functional.normalize(embeddings)
+#     return embeddings[0].cpu().numpy()
+# @st.cache_data
+# def load_faiss_index():
+#     books_embs = np.loadtxt('vectors.txt')
+#     index = faiss.IndexFlatIP(books_embs.shape[1])
+#     index.add(books_embs)
+#     return index
+# st.title('Приложение для рекомендации книг')
+# category_filter = st.selectbox('Выберите категорию книги (необязательно)', ['Все'] + list(df['category'].unique()))
+# text = st.text_input('Введите запрос:')
+# top_n = st.number_input('Введите количество рекомендаций:', min_value=1, max_value=50, value=1)
+# recommend_button = st.button('Найти')
+# if text and recommend_button:
+#     query_emb = embed_bert_cls(text, model, tokenizer)
+#     index = load_faiss_index()
+#     D, I = index.search(query_emb.reshape(1, -1), top_n)
+#     st.subheader('Топ рекомендуемых книг:')
+#     for i, j in zip(I[0], D[0]):
+#         if category_filter == 'Все' or df['category'][i] == category_filter:
+#             col_1, col_2 = st.columns([1, 3])
+#             with col_1:
+#                 st.image(df['image_url'][i], use_column_width=True)
+#                 st.write(round(j, 2))
+#             with col_2:
+#                 st.write(f'Название книги: **{df["title"][i]}**')
+#                 st.write(f'Автор: {df["author"][i]}')
+#                 st.write(f'Ссылка: {df["page_url"][i]}')
+#                 st.write(f'Аннотация: {df["annotation"][i]}')
 import streamlit as st
 import pandas as pd
 import numpy as np
 import torch
 from transformers import AutoTokenizer, AutoModel
 import faiss
 tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
 df = pd.read_csv('data_final.csv')
 MAX_LEN = 300
+@st.cache_data
+def load_faiss_index():
+    books_embs = np.loadtxt('vectors.txt')
+    index = faiss.IndexFlatIP(books_embs.shape[1])
+    index.add(books_embs)
+    return index
 def embed_bert_cls(text, model, tokenizer):
     t = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=MAX_LEN)
     embeddings = torch.nn.functional.normalize(embeddings)
     return embeddings[0].cpu().numpy()
+@st.cache_data()
+def get_recommendations(query_emb, top_n):
+    index = load_faiss_index()
+    D, I = index.search(query_emb.reshape(1, -1), top_n)
+    recommendations = []
+    for i, j in zip(I[0], D[0]):
+        recommendation = {
+            'image_url': df['image_url'][i],
+            'title': df['title'][i],
+            'author': df['author'][i],
+            'page_url': df['page_url'][i],
+            'annotation': df['annotation'][i],
+            'category': df['category'][i],
+            'similarity_score': round(j, 2)
+        }
+        recommendations.append(recommendation)
+    return recommendations
 st.title('Приложение для рекомендации книг')
+category_filter = st.selectbox('Выберите категорию книги (необязательно)', ['Все'] + list(df['category'].unique()))
 text = st.text_input('Введите запрос:')
 top_n = st.number_input('Введите количество рекомендаций:', min_value=1, max_value=50, value=1)
 if text and recommend_button:
     query_emb = embed_bert_cls(text, model, tokenizer)
+    recommendations = get_recommendations(query_emb, top_n)
+    if not recommendations:  # Если рекомендации не найдены
+        st.write('По вашему запросу ничего не найдено.')
+    else:
+        st.subheader('Топ рекомендуемых книг:')
+        for recommendation in recommendations:
+            if category_filter == 'Все' or recommendation['category'] == category_filter:
+                col_1, col_2 = st.columns([1, 3])
+                with col_1:
+                    st.image(recommendation['image_url'], use_column_width=True)
+                    st.write(recommendation['similarity_score'])
+                with col_2:
+                    st.write(f'Название книги: **{recommendation["title"]}**')
+                    st.write(f'Автор: {recommendation["author"]}')
+                    st.write(f'Ссылка: {recommendation["page_url"]}')
+                    st.write(f'Аннотация: {recommendation["annotation"]}')
+                    st.write(f'Категория: {recommendation["category"]}')

pages/main.py DELETED Viewed

@@ -1,19 +0,0 @@
-import streamlit as st
-import pandas as pd
-import random
-# Load your dataset
-# Replace 'your_dataset.csv' with the actual filename or path
-df = pd.read_csv('data.csv')
-# Function to display 10 random rows on button click
-def show_random_rows():
-    random_rows = df.sample(10)[['author', 'title']]
-    st.table(random_rows)
-# Streamlit app
-st.title('Book recommender app')
-# Button to trigger displaying random rows
-if st.button('Show some books'):
-    show_random_rows()