Spaces:

lefuuu
/

series_rec

Sleeping

App Files Files Community

lefuuu commited on Feb 28

Commit

e6857a5

verified ·

1 Parent(s): 3736896

Upload 20 files

Browse files

Files changed (21) hide show

.gitattributes +6 -0
app.py +15 -0
data/cleaned_df.csv +3 -0
data/final_with_emb.csv +3 -0
data/to_translate_df.csv +3 -0
for_models/embeddings.npy +3 -0
for_models/faiss_index_hnsw.bin +3 -0
for_models/faiss_index_ip.bin +3 -0
for_models/faiss_index_l2.bin +3 -0
images/logo_0.jpeg +3 -0
images/logo_1.jpeg +3 -0
images/screenshot.png +3 -0
models/dashas/distilbert_index.pkl +3 -0
models/dashas/labse_index.pkl +3 -0
models/dashas/tiny2_index.pkl +3 -0
models/description_vectors_MiniLM-L12-v2.pt +3 -0
pages/page_02.py +53 -0
pages/page_03.py +228 -0
pages/page_04.py +64 -0
pages/random_10.py +17 -0
requirements.txt +7 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,9 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+data/cleaned_df.csv filter=lfs diff=lfs merge=lfs -text
+data/final_with_emb.csv filter=lfs diff=lfs merge=lfs -text
+data/to_translate_df.csv filter=lfs diff=lfs merge=lfs -text
+images/logo_0.jpeg filter=lfs diff=lfs merge=lfs -text
+images/logo_1.jpeg filter=lfs diff=lfs merge=lfs -text
+images/screenshot.png filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,15 @@

+import streamlit as st
+from PIL import Image
+st.title("Умный поиск сериалов")
+logo = Image.open('images/logo_0.jpeg')
+st.image(logo, width=800)
+st.write("### Оглавление")
+st.write("Для улучшения поиска на стриминговом сервисе мы создали систему семантического поиска, которая учитывает описание сериалов.")
+st.write("### Команда проекта:")
+st.write("[Илья](https://github.com/lefuuu)")
+st.write("[Алина](https://github.com/RenaTheDv)")
+st.write("[Даша](https://github.com/DashonokOk)")

data/cleaned_df.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:937cfb75767b97a1c0d8769f5f7d19acff29f50494f49554c9a77458bdf8ba26
+size 18382297

data/final_with_emb.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac79c9b1169792207187145289bb12712ece61ce0577450bc94a42371d08d825
+size 358228433

data/to_translate_df.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:107478c345f28d11daa257792baa4a193cfa27bf6691dbe29d9b17cfb0559619
+size 16177462

for_models/embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:504ed433a6d9507a551425974a69a30be1eb597c34cfe81153e42279d96990fe
+size 121442432

for_models/faiss_index_hnsw.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89702507a9e9e459774f877208596641562151b70c63cb6edafc17835fd94e7b
+size 66100074

for_models/faiss_index_ip.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a41346a31ef936b4739da33bd1c64d464cf158669f6216c477cc7dc9b2eea74f
+size 60721197

for_models/faiss_index_l2.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b408cae8ce3dc64de21db17d0eea2e0e13fb7cd8f837a168ecc65abb048d925
+size 60721197

images/logo_0.jpeg ADDED Viewed

Git LFS Details

SHA256: f65b2ba26a8b360d414f070517aafae4e4c48a68c30eb2a86203a95b541b3534
Pointer size: 131 Bytes
Size of remote file: 997 kB

images/logo_1.jpeg ADDED Viewed

Git LFS Details

SHA256: 342ebe327c775fef4523baebb104e87c23083a5b354742bb327f9aac4ad16967
Pointer size: 131 Bytes
Size of remote file: 932 kB

images/screenshot.png ADDED Viewed

Git LFS Details

SHA256: 66fd8e95a57cdb8397e968d66170169dc80abfa8c44fea54ccd6409a42977c2e
Pointer size: 131 Bytes
Size of remote file: 101 kB

models/dashas/distilbert_index.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55f517adbb228363e26b42f582362817dcddb5d901ebc951f7f2c029890d276f
+size 60721279

models/dashas/labse_index.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a088ce654496357664a98d61caff34c16d7a04dc2c725b2840795dd9d053214
+size 60721279

models/dashas/tiny2_index.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aefe24fb67cb8bc404a03beaf0789596d880951e762523dd485bbe76f6cde89
+size 24668095

models/description_vectors_MiniLM-L12-v2.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3dc29187c076888ec1688092ddea8be357892ae67250f7d7f2545a48c9819338
+size 25912158

pages/page_02.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import streamlit as st
+import torch
+import pandas as pd
+from sentence_transformers import SentenceTransformer
+from sklearn.metrics.pairwise import cosine_similarity
+@st.cache_resource
+def load_data():
+    return pd.read_csv('data/to_translate_df.csv', index_col='Unnamed: 0')
+@st.cache_resource
+def load_model():
+    return SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
+@st.cache_data
+def load_vectors():
+    return torch.load("models/description_vectors_MiniLM-L12-v2.pt")
+def search_series(query, top_k=5):
+    query_vector = model.encode([query], convert_to_tensor=True)
+    similarities = cosine_similarity(query_vector.cpu(), description_vectors.cpu())[0]
+    top_indices = similarities.argsort()[-top_k:][::-1]
+    results = df.iloc[top_indices][["title", "description", "image_url", "genres"]].copy()
+    results["similarity (%)"] = (similarities[top_indices] * 100).round(2)
+    return results
+# UI
+st.title('Умный (не самый) поиск сериалов')
+st.write('Использовалась модель MiniLM-L12-v2')
+st.divider()
+user_input = st.text_input("Чего желаешь посмотреть")
+col2, col1, col3 = st.columns([2, 5,1])
+with col3:
+    click = st.button("Найти")
+with col2:
+    n = st.number_input('Топ', 0, 50, value=10 , step=5)
+if click:
+    df = load_data()
+    model = load_model()
+    description_vectors = load_vectors()
+    results = search_series(user_input,n)
+    for i in range(n):
+        st.subheader(results.iloc[i]['title'])
+        st.write(f"**Жанры:** {results.iloc[i]['genres']}")
+        st.write(f"**Процент схожести:** {round(results.iloc[i]['similarity (%)'])}%")
+        st.image(results.iloc[i]['image_url'])
+        st.write(results.iloc[i]['description'])
+        st.divider()

pages/page_03.py ADDED Viewed

	@@ -0,0 +1,228 @@

+import streamlit as st
+from sentence_transformers import SentenceTransformer
+import pandas as pd
+import numpy as np
+import faiss
+# import openai
+import spacy
+from googletrans import Translator
+from sklearn.metrics.pairwise import cosine_similarity
+@st.cache_resource
+def load_model():
+    return SentenceTransformer("sentence-transformers/paraphrase-xlm-r-multilingual-v1")
+@st.cache_data
+def load_data():
+    df = pd.read_csv('data/final_with_emb.csv')
+    return df
+@st.cache_data
+def load_embeddings():
+    return np.load('for_models/embeddings.npy')
+@st.cache_resource
+def load_faiss_index():
+    index_l2 = faiss.read_index('for_models/faiss_index_l2.bin')
+    index_ip = faiss.read_index('for_models/faiss_index_ip.bin')
+    index_hnsw = faiss.read_index('for_models/faiss_index_hnsw.bin')
+    return {'L2': index_l2, 'IP': index_ip, 'HNSW': index_hnsw}
+st.title('Рекомендация сериалов')
+st.markdown(
+    """
+    <style>
+    .header {
+        font-size: 32px;
+        font-weight: bold;
+        color: #7147e6;
+        margin-bottom: 20px;
+    }
+    .subheader {
+        font-size: 24px;
+        font-weight: 600;
+        color: #7147e6;
+        margin-bottom: 15px;
+    }
+    .paragraph {
+        font-size: 18px;
+        line-height: 1.6;
+        color: #4799e6;
+        margin-bottom: 20px;
+    }
+    .list {
+        font-size: 18px;
+        color: #4799e6;
+        line-height: 1.8;
+        padding-left: 20px;
+    }
+    .service {
+        background-color: #ECF0F1;
+        border-radius: 10px;
+        padding: 20px;
+        margin-bottom: 30px;
+    }
+    .highlight {
+        color: #E74C3C;
+        font-weight: bold;
+    }
+    </style>
+    """, unsafe_allow_html=True
+)
+st.markdown('<div class="header">Добро пожаловать на мою страницу!</div>', unsafe_allow_html=True)
+st.markdown(
+    """
+    <div class="paragraph">
+    Этот сервис использует передовые технологии машинного обучения и обработки естественного языка для того, чтобы порекомендовать вам сериалы, которые могут вам понравиться. Мы применяем XLM-RoBERTa для поиска и обработки данных, чтобы вывести наиболее релевантные результаты по вашему запросу.
+    </div>
+    """, unsafe_allow_html=True)
+st.markdown(
+    """
+    <div class="subheader">Что умеет сервис?</div>
+    <div class="paragraph">
+    Cервис предоставляет следующие возможности:
+    </div>
+    <ul class="list">
+        <li>Поиск сериалов по вашему запросу с использованием различных методов поиска.</li>
+        <li>Перевод информации о сериале в режиме реального времени (если язык - не русский).</li>
+        <li>Вывод информации о сериале, включая название, описание и изображение.</li>
+        <li>Интерактивный поиск с возможностью выбора метода поиска: L2, IP, HNSW.</li>
+        <li>Отображение списка сериалов в удобном формате.</li>
+    </ul>
+    """, unsafe_allow_html=True)
+def calculate_cosine_similarity(query_emb, embeddings):
+    similarity = cosine_similarity(query_emb, embeddings)
+    return similarity.flatten()
+def calculate_l2_similarity(query_emb, embeddings):
+    l2_distances = np.linalg.norm(embeddings - query_emb, axis=1)
+    return l2_distances
+top_k = st.slider('Сколько выдаем рекомендаций?', min_value=1, max_value=20, value=5)
+def search_similar(query, index_type, top_k=5):
+    query_emb = model.encode([query]).astype(np.float32)
+    if index_type == 'IP':
+        faiss.normalize_L2(query_emb)
+    distances, indices = indexes[index_type].search(query_emb, top_k)
+    # st.write(f"Используемый индекс: {index_type}")
+    # st.write(f"Размер индекса: {indexes[index_type].ntotal}")
+    results = df.iloc[indices[0]]
+    return results, distances[0]
+translator = Translator()
+def detect_and_translate(text):
+    detected_lang = translator.detect(text).lang
+    if detected_lang != 'ru':
+        translated_text = translator.translate(text, src=detected_lang, dest='ru').text
+        return translated_text
+    return text
+nlp = spacy.load('en_core_web_sm')
+def show_desc(desc, title, max_lines=4):
+    translated_title = detect_and_translate(title)
+    translated_desc = detect_and_translate(desc)
+    doc = nlp(translated_desc)
+    sentence = [sent.text for sent in doc.sents]
+    short_desc = ' '.join(sentence[:max_lines])
+    st.markdown(f'### {translated_title}')
+    st.write(short_desc)
+    with st.expander('Показать полное описание'):
+        st.write(desc)
+# client = openai.OpenAI(api_key='сюда свой APIKEY от ChatGPT')
+def generate_summary(query, title, desc):
+    prompt = f"""Ты – эксперт по кино. Пользователь ищет сериал по запросу: "{query}".
+Опиши сериал "{title}" коротко и понятно. Объясни, почему он подходит.
+Описание из базы: {desc}
+Ответь в формате:
+- Краткое описание:
+- Почему стоит посмотреть:
+"""
+    response = client.chat.completions.create(
+        model="gpt-4",
+        messages=[{"role": "user", "content": prompt}]
+    )
+    return response.choices[0].message.content
+model = load_model()
+df = load_data()
+embeddings = load_embeddings()
+indexes = load_faiss_index()
+query = st.text_input('Введите описание сериала', 'Найди мне что-нибудь про автомобили')
+index_type = st.selectbox('Выберите метод поиска:', ['IP', 'L2', 'HNSW'])
+if st.button('Начать поиск'):
+    if query:
+        results, scores = search_similar(query, index_type, top_k)
+        st.subheader(f'Результаты c использованием {index_type}:')
+        for _, row in results.iterrows():
+            title = row['title']
+            desc = row['description']
+            image_url = row['image_url']
+            # summary = generate_summary(query, title, desc)    раскоммитить при работе с ChatGPT
+            with st.container():
+                col1, col2 = st.columns([1, 3])
+                with col1:
+                    st.image(image_url, width=500)
+                with col2:
+                    # st.write(summary)    если работает ChatGPT
+                    show_desc(desc, title)
+                st.markdown('---')
+        query_emb = model.encode([query]).astype(np.float32)
+        cosine_scores = calculate_cosine_similarity(query_emb, embeddings)
+        l2_scores = calculate_l2_similarity(query_emb, embeddings)
+        faiss.normalize_L2(query_emb)
+        distances_hnsw, _ = indexes['HNSW'].search(query_emb, len(df))
+        hnsw_scores = distances_hnsw[0]
+        df['cosine_similarity'] = cosine_scores
+        df['l2_similarity'] = l2_scores
+        df['hnsw_similarity'] = hnsw_scores
+        df_sorted = df[['title', 'cosine_similarity', 'l2_similarity', 'hnsw_similarity']].sort_values(by='cosine_similarity', ascending=False)
+        st.subheader('Таблица с метриками')
+        st.markdown(
+            """
+            <style>
+            .stDataFrame {
+                height: 400px;
+                overflow-y: auto;
+                width: 100%;
+            }
+            </style>
+            """,
+            unsafe_allow_html=True
+        )
+        st.dataframe(df_sorted)

pages/page_04.py ADDED Viewed

	@@ -0,0 +1,64 @@

+import streamlit as st
+import pickle
+import faiss
+import numpy as np
+from sentence_transformers import SentenceTransformer
+from transformers import AutoTokenizer, AutoModel
+import torch
+import pandas as pd
+df = pd.read_csv('data/cleaned_df.csv')
+labse_model = SentenceTransformer('sentence-transformers/LaBSE')
+distilbert_tokenizer = AutoTokenizer.from_pretrained('distilbert-base-multilingual-cased')
+distilbert_model = AutoModel.from_pretrained('distilbert-base-multilingual-cased')
+tiny2_tokenizer = AutoTokenizer.from_pretrained('cointegrated/rubert-tiny2')
+tiny2_model = AutoModel.from_pretrained('cointegrated/rubert-tiny2')
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+distilbert_model.to(device)
+tiny2_model.to(device)
+with open('models/dashas/labse_index.pkl', 'rb') as f:
+    labse_index = pickle.load(f)
+with open('models/dashas/distilbert_index.pkl', 'rb') as f:
+    distilbert_index = pickle.load(f)
+with open('models/dashas/tiny2_index.pkl', 'rb') as f:
+    tiny2_index = pickle.load(f)
+def search_series(query, model, tokenizer=None, index=None, top_k=5):
+    if tokenizer:
+        inputs = tokenizer([query], return_tensors="pt", padding=True, truncation=True, max_length=128)
+        inputs = {key: val.to(device) for key, val in inputs.items()}
+        with torch.no_grad():
+            outputs = model(**inputs)
+        query_embedding = outputs.last_hidden_state.mean(dim=1).cpu().numpy()
+    else:
+        query_embedding = model.encode([query])
+    distances, indices = index.search(query_embedding, top_k)
+    results = df.iloc[indices[0]]
+    return results
+st.title("Умный поиск сериалов")
+st.image("images/logo_1.jpeg", width=800)  # Add your logo here
+query = st.text_input("Введите запрос:")
+model_choice = st.selectbox("Выберите модель:", ["LaBSE", "DistilBERT", "tiny2"])
+top_k = st.slider("Количество результатов:", min_value=1, max_value=20, value=5)
+if st.button("Найти"):
+    if query:
+        if model_choice == "LaBSE":
+            results = search_series(query, labse_model, index=labse_index, top_k=top_k)
+        elif model_choice == "DistilBERT":
+            results = search_series(query, distilbert_model, distilbert_tokenizer, distilbert_index, top_k=top_k)
+        elif model_choice == "tiny2":
+            results = search_series(query, tiny2_model, tiny2_tokenizer, tiny2_index, top_k=top_k)
+        st.write("Результаты поиска:")
+        for i, row in results.iterrows():
+            st.write(f"**{row['title']}**")
+            st.write(row['description'])
+            st.image(row['image_url'], width=600)
+    else:
+        st.write("Пожалуйста, введите запрос.")

pages/random_10.py ADDED Viewed

	@@ -0,0 +1,17 @@

+import streamlit as st
+import pandas as pd
+# task 1 sample 10 streamlit
+df=pd.read_csv('data/full_df_without_nans.csv')
+n=10
+rand = df.sample(n, ignore_index=True)
+st.title('Cлучайные 10 сериалов ')
+st.divider()
+st.write('По нажатию на кнопку генерирует случайные 10 сериалов из датасета')
+st.divider()
+if st.button('Сгенерировать 10 сериалов'):
+    for i in range(0,n):
+        st.subheader(f"{rand['title'][i]}")
+        st.write(f"{rand['description'][i]}")

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+streamlit
+pandas
+torch
+transformers
+sentence-transformers
+faiss-cpu
+numpy