DanilO0o commited on
Commit
a990335
·
verified ·
1 Parent(s): e136238

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +23 -23
README.md CHANGED
@@ -1,52 +1,52 @@
1
- ##Описание проекта
2
 
3
  Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов.
4
 
5
- ##Язык описаний
6
  Описания сериалов собирались на русском языке
7
 
8
- ##Требования
9
 
10
  Чтобы запустить сервис, необходимо установить следующие зависимости:
11
- streamlit
12
- sentence-transformers
13
- faiss-cpu
14
- pandas
15
- numpy
16
- requests
17
- pillow
18
 
19
  Чтобы установить все зависимости, необходимо выполнить команду:
20
  **pip install -r requirements.txt**
21
 
22
 
23
- ##Сбор данных и обработка
24
 
25
- Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг сайта https://myshows.me/, было собрано около 10 000 описаний к разным сериалам. Важной частью являлась обработка текста, например, удаление скрытых символов и фраз по типу "ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ" и т.п.
26
 
27
- ##Модель
28
 
29
  Для получения эмбеддингов использовалась языковая модель - [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
30
-
31
- ##Использование и запуск сервиса
32
 
33
  Чтобы запустить сервис, выполните команду:
34
  streamlit run app.py
35
 
36
  Далее откройте браузер и перейдите по адресу, указанному в терминале.
37
 
38
- ##Ввод запроса
39
  1. Введите ваш запрос в текстовое поле "Введите описание сериала"
40
  2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов
41
 
42
- ##Результаты поиска
43
  Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу.
44
 
45
- ##Структура репозитория
46
 
47
- app.py — главный файл приложения.
48
- clean_series_data.csv — файл с описаниями сериалов.
49
- embeddings.npy - полученные эмбеддинги
50
- requirements.txt — файл с перечнем зависимостей.
51
- README.md — этот файл с описанием проекта и инструкцией по запуска
52
 
 
1
+ ## Описание проекта
2
 
3
  Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов.
4
 
5
+ ## Язык описаний
6
  Описания сериалов собирались на русском языке
7
 
8
+ ## Требования
9
 
10
  Чтобы запустить сервис, необходимо установить следующие зависимости:
11
+ - streamlit
12
+ - sentence-transformers
13
+ - faiss-cpu
14
+ - pandas
15
+ - numpy
16
+ - requests
17
+ - pillow
18
 
19
  Чтобы установить все зависимости, необходимо выполнить команду:
20
  **pip install -r requirements.txt**
21
 
22
 
23
+ ## Сбор данных и обработка
24
 
25
+ Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг [сайта](https://myshows.me/), было собрано около 10 000 описаний к разным сериалам. Важной частью являлась обработка текста, например, удаление скрытых символов и фраз по типу "ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ" и т.п.
26
 
27
+ ## Модель
28
 
29
  Для получения эмбеддингов использовалась языковая модель - [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
30
+
31
+ ## Использование и запуск сервиса
32
 
33
  Чтобы запустить сервис, выполните команду:
34
  streamlit run app.py
35
 
36
  Далее откройте браузер и перейдите по адресу, указанному в терминале.
37
 
38
+ ## Ввод запроса
39
  1. Введите ваш запрос в текстовое поле "Введите описание сериала"
40
  2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов
41
 
42
+ ## Результаты поиска
43
  Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу.
44
 
45
+ ## Структура репозитория
46
 
47
+ - app.py — главный файл приложения
48
+ - clean_series_data.csv — файл с описаниями сериалов
49
+ - embeddings.npy - полученные эмбеддинги
50
+ - requirements.txt — файл с перечнем зависимостей
51
+ - README.md — этот файл с описанием проекта и инструкцией по запуску
52