find_my_book / find.py
Shchushch's picture
Upload 10 files
6851338
import torch
import pandas as pd
from transformers import AutoTokenizer, AutoModel
import numpy as np
import pickle
# import sklearn
from nltk.stem import WordNetLemmatizer
from nltk.tag import pos_tag
from nltk.corpus import stopwords
from pymystem3 import Mystem
from functools import lru_cache
import string
import faiss
from tqdm import tqdm
tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
eng_stop_words = stopwords.words('english')
with open('russian.txt', 'r') as f:
ru_stop_words = f.read()
ru_stop_words=ru_stop_words.split('\n')
allow="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя0123456789-' \n\t"
#Задаём стеммер
m= Mystem()
def embed_bert_cls(text, model=model, tokenizer=tokenizer)->np.array:
"""
Встраивает входной текст с использованием модели на основе BERT.
Аргументы:
text (str): Входной текст для встраивания.
model (torch.nn.Module): Модель на основе BERT для использования при встраивании.
tokenizer (transformers.PreTrainedTokenizer): Токенизатор для токенизации текста.
Возвращает:
numpy.ndarray: Встроенное представление входного текста.
"""
# Токенизируем текст и преобразуем его в PyTorch тензоры
t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
# Отключаем вычисление градиентов
with torch.no_grad():
# Пропускаем тензоры через модель
model_output = model(**{k: v.to(model.device) for k, v in t.items()})
# Извлекаем последний скрытый состояние из выходных данных модели
embeddings = model_output.last_hidden_state[:, 0, :]
# Нормализуем встроенные представления
embeddings = torch.nn.functional.normalize(embeddings)
embeddings=embeddings[0].cpu().numpy()
# Преобразуем встроенные представления в массив numpy и возвращаем первый элемент
return embeddings
def lems_eng(text):
if type(text)==type('text'):
text=text.split()
wnl= WordNetLemmatizer()
lemmatized= []
pos_map = {
'NN': 'n', # существительное
'NNS': 'n', # существительное (множественное число)
'NNP': 'n', # собственное имя (единственное число)
'NNPS': 'n', # собственное имя (множественное число)
'VB': 'v', # глагол (инфинитив)
'VBD': 'v', # глагол (прошедшее время)
'VBG': 'v', # глагол (настоящее причастие/герундий)
'VBN': 'v', # глагол (прошедшее причастие)
'JJ': 'a', # прилагательное
'JJR': 'a', # прилагательное (сравнительная степень)
'JJS': 'a', # прилагательное (превосходная степень)
'RB': 'r', # наречие
'RBR': 'r', # наречие (сравнительная степень)
'RBS': 'r', # наречие (превосходная степень)
'PRP': 'n', # личное местоимение
'PRP$': 'n', # притяжательное местоимение
'DT': 'n' # определитель
}
pos_tags = pos_tag(text)
lemmas = []
for token, pos in pos_tags:
pos = pos_map.get(pos,'n')
lemma = wnl.lemmatize(token, pos=pos)
lemmas.append(lemma)
return ' '.join(lemmas)
def lems_rus(texts):
if type(texts)==type([]):
texts=' '.join(texts)
#lemmatized =[]
lemmas = m.lemmatize(texts)
return ''.join(lemmas)
def clean(text: str)-> str:
text = ''.join(c for c in text if c in allow)
text= text.split()
text = [word for word in text if word.lower() not in ru_stop_words]
text = [word for word in text if word.lower() not in eng_stop_words]
return ' '.join(text)
def improved_lemmatizer(texts,batch_size=1000):
if type(texts)==type('text'):
texts=texts.split()
#Читаем датасет книжек
df=pd.read_csv('final+lem.csv',index_col=0).reset_index(drop=True)
# embs=[]
# for i in tqdm(df.index):
# embs.append(embed_bert_cls(df['lemmatized'][i]))
# with open('embs+lem.pickle', 'wb') as f:
# pickle.dump(embs, f)
#Читаем эмбединги
with open('embs+lem.pickle', 'rb') as f:
embs = pickle.load(f)
#df['']
embs =np.array(embs)
print('Тип выхода:',type(embs),'Размер выхода: ',embs.shape)
#Читаем стоп-слова
index=faiss.IndexFlatIP(embs.shape[1])
index.add(embs)
@lru_cache()
def find_similar(text, k=10):
"""
Находит похожие тексты на основе косинусного сходства.
Аргументы:
text (str): Входной текст для поиска похожих текстов.
embeddings (numpy.ndarray): Предварительно вычисленные встроенные представления текстов.
threshold (float): Порог, выше которого тексты считаются похожими.
Возвращает:
numpy.ndarray: Сходства между входным текстом и каждым текстом во встроенных представлениях.
"""
# Встраиваем входной текст
text_emb = embed_bert_cls(text)
text_emb = np.expand_dims(text_emb, axis=0)
print(f'Тип поискового запроса: {type(text_emb)}\nРазмер полученного запроса: {text_emb.shape}')#\nСам запрос:\n{text_emb}\n')
dist,idx=index.search(text_emb,k)
return dist.squeeze(),idx.squeeze()#,idx
@lru_cache()
def find_unsimilar(text,n=10, d=embs.shape[0]):
"""
Находит похожие тексты на основе косинусного сходства.
Аргументы:
text (str): Входной текст для поиска похожих текстов.
embeddings (numpy.ndarray): Предварительно вычисленные встроенные представления текстов.
threshold (float): Порог, выше которого тексты считаются похожими.
Возвращает:
numpy.ndarray: Сходства между входным текстом и каждым текстом во встроенных представлениях.
"""
# Встраиваем входной текст
text_emb = embed_bert_cls(text)
text_emb = np.expand_dims(text_emb, axis=0)
print(f'Тип поискового запроса: {type(text_emb)}\nРазмер полученного запроса: {text_emb.shape}')#\nСам запрос:\n{text_emb}\n')
dist,idx=index.search(text_emb,d)
dist=dist.flatten()[::-1]
idx=idx.flatten()[::-1]
return dist[:n],idx[:n]#,idx