Spaces:
Sleeping
Sleeping
Update README.md
Browse files
README.md
CHANGED
@@ -1,52 +1,52 @@
|
|
1 |
-
|
2 |
|
3 |
Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов.
|
4 |
|
5 |
-
|
6 |
Описания сериалов собирались на русском языке
|
7 |
|
8 |
-
|
9 |
|
10 |
Чтобы запустить сервис, необходимо установить следующие зависимости:
|
11 |
-
streamlit
|
12 |
-
sentence-transformers
|
13 |
-
faiss-cpu
|
14 |
-
pandas
|
15 |
-
numpy
|
16 |
-
requests
|
17 |
-
pillow
|
18 |
|
19 |
Чтобы установить все зависимости, необходимо выполнить команду:
|
20 |
**pip install -r requirements.txt**
|
21 |
|
22 |
|
23 |
-
|
24 |
|
25 |
-
Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг сайта
|
26 |
|
27 |
-
|
28 |
|
29 |
Для получения эмбеддингов использовалась языковая модель - [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
|
30 |
-
|
31 |
-
|
32 |
|
33 |
Чтобы запустить сервис, выполните команду:
|
34 |
streamlit run app.py
|
35 |
|
36 |
Далее откройте браузер и перейдите по адресу, указанному в терминале.
|
37 |
|
38 |
-
|
39 |
1. Введите ваш запрос в текстовое поле "Введите описание сериала"
|
40 |
2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов
|
41 |
|
42 |
-
|
43 |
Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу.
|
44 |
|
45 |
-
|
46 |
|
47 |
-
app.py — главный файл
|
48 |
-
clean_series_data.csv — файл с описаниями
|
49 |
-
embeddings.npy - полученные эмбеддинги
|
50 |
-
requirements.txt — файл с перечнем
|
51 |
-
README.md — этот файл с описанием проекта и инструкцией по
|
52 |
|
|
|
1 |
+
## Описание проекта
|
2 |
|
3 |
Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов.
|
4 |
|
5 |
+
## Язык описаний
|
6 |
Описания сериалов собирались на русском языке
|
7 |
|
8 |
+
## Требования
|
9 |
|
10 |
Чтобы запустить сервис, необходимо установить следующие зависимости:
|
11 |
+
- streamlit
|
12 |
+
- sentence-transformers
|
13 |
+
- faiss-cpu
|
14 |
+
- pandas
|
15 |
+
- numpy
|
16 |
+
- requests
|
17 |
+
- pillow
|
18 |
|
19 |
Чтобы установить все зависимости, необходимо выполнить команду:
|
20 |
**pip install -r requirements.txt**
|
21 |
|
22 |
|
23 |
+
## Сбор данных и обработка
|
24 |
|
25 |
+
Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг [сайта](https://myshows.me/), было собрано около 10 000 описаний к разным сериалам. Важной частью являлась обработка текста, например, удаление скрытых символов и фраз по типу "ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ" и т.п.
|
26 |
|
27 |
+
## Модель
|
28 |
|
29 |
Для получения эмбеддингов использовалась языковая модель - [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
|
30 |
+
|
31 |
+
## Использование и запуск сервиса
|
32 |
|
33 |
Чтобы запустить сервис, выполните команду:
|
34 |
streamlit run app.py
|
35 |
|
36 |
Далее откройте браузер и перейдите по адресу, указанному в терминале.
|
37 |
|
38 |
+
## Ввод запроса
|
39 |
1. Введите ваш запрос в текстовое поле "Введите описание сериала"
|
40 |
2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов
|
41 |
|
42 |
+
## Результаты поиска
|
43 |
Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу.
|
44 |
|
45 |
+
## Структура репозитория
|
46 |
|
47 |
+
- app.py — главный файл приложения
|
48 |
+
- clean_series_data.csv — файл с описаниями сериалов
|
49 |
+
- embeddings.npy - полученные эмбеддинги
|
50 |
+
- requirements.txt — файл с перечнем зависимостей
|
51 |
+
- README.md — этот файл с описанием проекта и инструкцией по запуску
|
52 |
|