Spaces:

Yerzhxn
/

NKZ_NAME

Sleeping

App Files Files Community

Yerzhxn commited on Dec 3, 2024

Commit

db42472

verified ·

1 Parent(s): d05873a

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -30

app.py CHANGED Viewed

@@ -6,15 +6,6 @@ from sklearn.metrics.pairwise import cosine_similarity
 from sklearn.feature_extraction.text import CountVectorizer
 import pandas as pd
 import streamlit as st
-from translate import Translator  # Для перевода текста
-# Загрузка модели FastText для определения языка
-@st.cache_resource
-def load_language_detection_model():
-    fasttext.util.download_model('lid.176', if_exists='ignore')
-    return fasttext.load_model('lid.176.bin')
-lang_model = load_language_detection_model()
 # Загрузка модели FastText для русского языка
 @st.cache_resource
@@ -27,19 +18,9 @@ ft_model = load_fasttext_model()
 # Функция для очистки текста от знаков препинания и чисел
 def clean_text(text):
     text = text.lower()  # Приведение к нижнему регистру
-    text = re.sub(r'[^а-яёa-z\s]', ' ', text)  # Удаление знаков препинания и чисел
     return text
-# Функция для определения языка текста
-def detect_language(text, model):
-    prediction = model.predict(text)[0][0]
-    return prediction.split("__label__")[-1]
-# Функция для перевода текста
-def translate_to_russian(text):
-    translator = Translator(from_lang="kk", to_lang="ru")
-    return translator.translate(text)
 # Функция для получения эмбеддинга текста с использованием FastText
 def get_fasttext_embedding(text, model):
     cleaned_text = clean_text(text)
@@ -62,16 +43,9 @@ st.title("Text Similarity Finder using FastText and Jaccard Similarity")
 # Ввод текста для поиска
 text1 = st.text_input("Enter the text to compare:", "Оператор пульта управления")
-# Определение языка и перевод на русский
-detected_language = detect_language(text1, lang_model)
-if detected_language == "kk":
-    st.write("Detected language: Kazakh. Translating to Russian...")
-    text1 = translate_to_russian(text1)
-    st.write(f"Translated text: {text1}")
-else:
-    st.write("Detected language: Russian or other.")
-if 1 > 0:
     df = pd.read_csv("nkz_1.csv")
     if 'NAME_RU' in df.columns:
         # Получение векторов текстов с использованием FastText
@@ -81,7 +55,7 @@ if 1 > 0:
         text1_vector_fasttext = get_fasttext_embedding(text1, ft_model)
         # Поиск текстов в колонке NAME_RU, сходство которых с text1 больше заданного порога
-        thresh = 0.59
         similar_texts_cosine = []
         similar_texts_jaccard = []
         for index, row in df.iterrows():

 from sklearn.feature_extraction.text import CountVectorizer
 import pandas as pd
 import streamlit as st
 # Загрузка модели FastText для русского языка
 @st.cache_resource
 # Функция для очистки текста от знаков препинания и чисел
 def clean_text(text):
     text = text.lower()  # Приведение к нижнему регистру
+    text = re.sub(r'[^а-яёa-z\s]', '', text)  # Удаление знаков препинания и чисел
     return text
 # Функция для получения эмбеддинга текста с использованием FastText
 def get_fasttext_embedding(text, model):
     cleaned_text = clean_text(text)
 # Ввод текста для поиска
 text1 = st.text_input("Enter the text to compare:", "Оператор пульта управления")
+if 1>0:
     df = pd.read_csv("nkz_1.csv")
     if 'NAME_RU' in df.columns:
         # Получение векторов текстов с использованием FastText
         text1_vector_fasttext = get_fasttext_embedding(text1, ft_model)
         # Поиск текстов в колонке NAME_RU, сходство которых с text1 больше заданного порога
+        thresh =  0.59
         similar_texts_cosine = []
         similar_texts_jaccard = []
         for index, row in df.iterrows():