Spaces:

ginigen
/

Sign-language

Paused

ginipick commited on 13 days ago

Commit

95a5be9

verified ·

1 Parent(s): 784e32f

Update src/synonyms_preprocess.py

Files changed (1) hide show

src/synonyms_preprocess.py CHANGED Viewed

@@ -77,46 +77,53 @@ def find_antonyms(word):
 def find_synonyms(word, model, dict_embedding, list_2000_tokens):
-   # 고유명사 보존
-   doc = model(word)
-   if doc[0].pos_ == "PROPN":
-       return word
-   # 기본 동사 매핑
-   basic_verbs = {
-       "is": "IS",
-       "am": "IS",
-       "are": "IS",
-       "was": "IS",
-       "were": "IS",
-       "be": "IS",
-       "have": "HAVE",
-       "has": "HAVE",
-       "had": "HAVE"
-   }
-   if word.lower() in basic_verbs:
-       return basic_verbs[word.lower()]
-   # 이미 목록에 있는 단어는 그대로 반환
-   if word in list_2000_tokens:
-       return word
-   # 품사가 같은 유사어 찾기
-   word_doc = model(word)
-   word_pos = word_doc[0].pos_
-   antonyms = find_antonyms(word)
-   filtered_tokens = [token for token in list_2000_tokens
-                     if token not in antonyms
-                     and model(token)[0].pos_ == word_pos]
-   similarities = []
-   word_embedding = model(word)
-   for token in filtered_tokens:
-       similarities.append((token, dict_embedding.get(token).similarity(word_embedding)))
-   most_similar_token = sorted(similarities, key=lambda item: -item[1])[0][0]
-   return most_similar_token

 def find_synonyms(word, model, dict_embedding, list_2000_tokens):
+    # 고유명사 보존
+    doc = model(word)
+    if doc[0].pos_ == "PROPN":
+        return word
+    # 기본 동사 매핑
+    basic_verbs = {
+        "is": "IS",
+        "am": "IS",
+        "are": "IS",
+        "was": "IS",
+        "were": "IS",
+        "be": "IS",
+        "have": "HAVE",
+        "has": "HAVE",
+        "had": "HAVE"
+    }
+    if word.lower() in basic_verbs:
+        return basic_verbs[word.lower()]
+    # 이미 목록에 있는 단어는 그대로 반환
+    if word in list_2000_tokens:
+        return word
+    # 품사가 같은 유사어 찾기
+    word_doc = model(word)
+    word_pos = word_doc[0].pos_
+    antonyms = find_antonyms(word)
+    filtered_tokens = [
+        token for token in list_2000_tokens
+        if token not in antonyms
+        and model(token)[0].pos_ == word_pos
+    ]
+    similarities = []
+    word_embedding = model(word)
+    for token in filtered_tokens:
+        similarities.append((token, dict_embedding.get(token).similarity(word_embedding)))
+    # ====== 수정된 부분: similarities 리스트가 비었는지 확인 ======
+    if not similarities:
+        # 유사 후보가 없다면 원본 단어를 그대로 반환
+        return word
+    # ==========================================================
+    most_similar_token = sorted(similarities, key=lambda item: -item[1])[0][0]
+    return most_similar_token