Spaces:

Yerzhxn
/

NKZ_NAME

Sleeping

App Files Files Community

Yerzhxn commited on Dec 18, 2024

Commit

0558690

verified ·

1 Parent(s): dd4787a

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -56

app.py CHANGED Viewed

@@ -2,36 +2,21 @@ import re
 import pandas as pd
 import pymorphy2
 from sklearn.feature_extraction.text import TfidfVectorizer
-from sklearn.metrics.pairwise import cosine_similarity
-from sklearn.metrics import accuracy_score
 from translate import Translator
-import streamlit as st
 # Инициализация морфологического анализатора
 morph = pymorphy2.MorphAnalyzer()
 nkz_list = pd.read_csv('filtered_nkz.csv')
-# Предобработка данных
-from translate import Translator
 def translate_text(text, from_lang='kk', to_lang='ru'):
-    """
-    Перевод текста с одного языка на другой.
-    :param text: Исходный текст для перевода.
-    :param from_lang: Язык исходного текста (по умолчанию казахский 'kk').
-    :param to_lang: Язык перевода (по умолчанию русский 'ru').
-    :return: Переведённый текст.
-    """
     try:
         translator = Translator(from_lang=from_lang, to_lang=to_lang)
         translated_text = translator.translate(text)
@@ -40,11 +25,6 @@ def translate_text(text, from_lang='kk', to_lang='ru'):
         print(f"Ошибка перевода: {e}")
         return text  # Возвращаем исходный текст в случае ошибки
-# Уникальные казахские буквы
-kazakh_letters = set("әғқңөұүі")
 def preprocess_text(text):
     """Функция для предобработки текста: перевод, очистка, приведение к нижнему регистру, лемматизация."""
     if not isinstance(text, str):
@@ -61,44 +41,43 @@ def preprocess_text(text):
     lemmas = [morph.parse(word)[0].normal_form for word in words]  # Лемматизация
     return ' '.join(lemmas)
-# Updated model paths
-def find_best_matches(profession, nkz_list, vectorizer, tfidf_nkz, top_n=10):
-    """Находит топ-10 наилучших соответствий для одной профессии в списке НКЗ."""
     # Предобработка профессии
     processed_profession = preprocess_text(profession)
-    # Преобразование векторной модели
-    tfidf_profession = vectorizer.transform([processed_profession])
-    # Вычисление схожести
-    similarity = cosine_similarity(tfidf_profession, tfidf_nkz)
-    # Получаем индексы топ-N самых схожих профессий
-    top_n_idx = similarity[0].argsort()[-top_n:][::-1]  # Сортируем по убыванию
     # Формируем результат
     top_matches = []
-    for idx in top_n_idx:
         top_matches.append({
             'profession': profession,
             'nkz_match': nkz_list.iloc[idx]['NAME_RU2'],
-            'nkz_code': nkz_list.iloc[idx]['CODE'],  # Код НКЗ
-            'similarity': similarity[0][idx]
         })
     dfs = pd.DataFrame(top_matches)
-    return dfs
-nkz_list['cleaned'] = nkz_list['NAME_RU2'].apply(preprocess_text)
-vectorizer = TfidfVectorizer()
-tfidf_nkz = vectorizer.fit_transform(nkz_list['cleaned'])
 # Streamlit app
 st.title("Occupation Similarity Finder")
@@ -107,13 +86,13 @@ text1 = st.text_input("Enter the occupation to compare:", "Оператор пу
 if st.button("Find Similar Occupations"):
     try:
         # Find similar occupations
-        result = find_best_matches(text1, nkz_list, vectorizer, tfidf_nkz, top_n=10)
         # similar_texts = find_similar_combined(text1, k=5)
         # similar_texts_df = pd.DataFrame(similar_texts)
         # Display results
-        if result is not None:
             st.write("Similar Occupations:")
-            st.dataframe(result)
             # st.dataframe(similar_texts_df)
         else:
             st.warning("No similar occupations found.")

 import pandas as pd
 import pymorphy2
 from sklearn.feature_extraction.text import TfidfVectorizer
 from translate import Translator
+import faiss
+import numpy as np
 # Инициализация морфологического анализатора
 morph = pymorphy2.MorphAnalyzer()
+# Загрузка списка НКЗ
 nkz_list = pd.read_csv('filtered_nkz.csv')
+# Уникальные казахские буквы
+kazakh_letters = set("әғқңөұүі")
 def translate_text(text, from_lang='kk', to_lang='ru'):
+    """Перевод текста с одного языка на другой."""
     try:
         translator = Translator(from_lang=from_lang, to_lang=to_lang)
         translated_text = translator.translate(text)
         print(f"Ошибка перевода: {e}")
         return text  # Возвращаем исходный текст в случае ошибки
 def preprocess_text(text):
     """Функция для предобработки текста: перевод, очистка, приведение к нижнему регистру, лемматизация."""
     if not isinstance(text, str):
     lemmas = [morph.parse(word)[0].normal_form for word in words]  # Лемматизация
     return ' '.join(lemmas)
+# Очистка данных в НКЗ
+nkz_list['cleaned'] = nkz_list['NAME_RU2'].apply(preprocess_text)
+# Векторизация данных с использованием TF-IDF
+vectorizer = TfidfVectorizer()
+tfidf_nkz = vectorizer.fit_transform(nkz_list['cleaned']).toarray()  # Преобразуем в плотный массив
+# Создание FAISS индекса
+dimension = tfidf_nkz.shape[1]  # Размерность векторов
+faiss_index = faiss.IndexFlatL2(dimension)  # Индекс с метрикой L2 (евклидово расстояние)
+# Добавление данных в FAISS
+faiss_index.add(np.array(tfidf_nkz, dtype='float32'))
+def find_best_matches_faiss(profession, nkz_list, vectorizer, faiss_index, top_n=10):
+    """Находит топ-N наилучших соответствий для одной профессии с использованием FAISS."""
     # Предобработка профессии
     processed_profession = preprocess_text(profession)
+    # Преобразование профессии в TF-IDF вектор
+    tfidf_profession = vectorizer.transform([processed_profession]).toarray().astype('float32')
+    # Поиск ближайших соседей в FAISS
+    distances, indices = faiss_index.search(tfidf_profession, top_n)
     # Формируем результат
     top_matches = []
+    for i, idx in enumerate(indices[0]):
         top_matches.append({
             'profession': profession,
             'nkz_match': nkz_list.iloc[idx]['NAME_RU2'],
+            'nkz_code': nkz_list.iloc[idx]['CODE'],
+            'similarity': 1 / (1 + distances[0][i])  # Преобразование расстояния L2 в условную схожесть
         })
     dfs = pd.DataFrame(top_matches)
+    return dfs
 # Streamlit app
 st.title("Occupation Similarity Finder")
 if st.button("Find Similar Occupations"):
     try:
         # Find similar occupations
+        results = find_best_matches_faiss(profession, nkz_list, vectorizer, faiss_index)
         # similar_texts = find_similar_combined(text1, k=5)
         # similar_texts_df = pd.DataFrame(similar_texts)
         # Display results
+        if results is not None:
             st.write("Similar Occupations:")
+            st.dataframe(results)
             # st.dataframe(similar_texts_df)
         else:
             st.warning("No similar occupations found.")