Spaces:

Yerzhxn
/

NKZ_NAME

Sleeping

Yerzhxn commited on Dec 23, 2024

Commit

a998357

verified ·

1 Parent(s): c5d8201

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -64,18 +64,23 @@ def preprocess_text(text):
     return ' '.join(lemmas)
-# Updated model paths
 def find_best_matches(profession, nkz_list, vectorizer, tfidf_nkz, top_n=10):
     """Находит топ-10 наилучших соответствий для одной профессии в списке НКЗ."""
     # Предобработка профессии
     processed_profession = preprocess_text(profession)
     # Преобразование векторной модели
     tfidf_profession = vectorizer.transform([processed_profession])
     # Вычисление схожести
     similarity = cosine_similarity(tfidf_profession, tfidf_nkz)
     # Получаем индексы топ-N самых схожих профессий
     top_n_idx = similarity[0].argsort()[-top_n:][::-1]  # Сортируем по убыванию
@@ -83,15 +88,13 @@ def find_best_matches(profession, nkz_list, vectorizer, tfidf_nkz, top_n=10):
     top_matches = []
     for idx in top_n_idx:
         top_matches.append({
-            'profession': profession,
             'nkz_match': nkz_list.iloc[idx]['NAME_RU2'],
             'nkz_code': nkz_list.iloc[idx]['CODE'],  # Код НКЗ
             'similarity': similarity[0][idx]
         })
     dfs = pd.DataFrame(top_matches)
-    return dfs

     return ' '.join(lemmas)
+def text_correct(text):
+    matches = tool.check(text)
+    text = language_tool_python.utils.correct(text, matches)
+    return text
 def find_best_matches(profession, nkz_list, vectorizer, tfidf_nkz, top_n=10):
     """Находит топ-10 наилучших соответствий для одной профессии в списке НКЗ."""
     # Предобработка профессии
     processed_profession = preprocess_text(profession)
+    processed_profession = text_correct(processed_profession)
+    print(processed_profession)
     # Преобразование векторной модели
     tfidf_profession = vectorizer.transform([processed_profession])
     # Вычисление схожести
     similarity = cosine_similarity(tfidf_profession, tfidf_nkz)
     # Получаем индексы топ-N самых схожих профессий
     top_n_idx = similarity[0].argsort()[-top_n:][::-1]  # Сортируем по убыванию
     top_matches = []
     for idx in top_n_idx:
         top_matches.append({
+            'profession': processed_profession,
             'nkz_match': nkz_list.iloc[idx]['NAME_RU2'],
             'nkz_code': nkz_list.iloc[idx]['CODE'],  # Код НКЗ
             'similarity': similarity[0][idx]
         })
     dfs = pd.DataFrame(top_matches)
+    return dfs