space_20

Sleeping

App Files Files Community

Frenchizer commited on Feb 11

Commit

4235ba5

verified ·

1 Parent(s): f9babd0

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -17

app.py CHANGED Viewed

@@ -1,13 +1,12 @@
 import gradio as gr
 from transformers import pipeline
 import spacy
-import language_tool_python
 import json
 import requests
-# Initialize models and tools
-nlp = spacy.load("en_core_web_sm")
-language_tool = language_tool_python.LanguageTool('en-US')
 spell_checker = pipeline("text2text-generation", model="oliverguhr/spelling-correction-english-base")
 def preprocess_and_forward(text: str) -> str:
@@ -43,24 +42,22 @@ def preprocess_and_forward(text: str) -> str:
 def preprocess_text(text: str):
     result = {
-        "corrections": [],
         "entities": [],
-        "tags": [],
-        "spell_suggestions": []
     }
-    # Spell checking
-    matches = language_tool.check(text)
-    for match in matches:
-        if match.replacements:
-            result["corrections"].append({
-                "original": match.context[match.offsetInContext:match.offsetInContext + match.errorLength],
-                "suggestion": match.replacements[0]
-            })
     # Transformer-based spell check
     spell_checked = spell_checker(text, max_length=512)[0]['generated_text']
-    if spell_checked != text:
         result["spell_suggestions"].append({
             "original": text,
             "corrected": spell_checked
@@ -70,7 +67,7 @@ def preprocess_text(text: str):
     doc = nlp(text)
     result["entities"] = [{"text": ent.text, "label": ent.label_} for ent in doc.ents]
-    # Extract potential tags
     result["tags"] = [token.text for token in doc if token.text.startswith(('#', '@'))]
     return text, result

 import gradio as gr
 from transformers import pipeline
 import spacy
+from textblob import TextBlob
 import json
 import requests
+# Initialize models
+nlp = spacy.load("en_core_web_sm")  # Use "en_core_web_trf" if more accuracy is needed
 spell_checker = pipeline("text2text-generation", model="oliverguhr/spelling-correction-english-base")
 def preprocess_and_forward(text: str) -> str:
 def preprocess_text(text: str):
     result = {
+        "spell_suggestions": [],
         "entities": [],
+        "tags": []
     }
+    # Basic spell checking using TextBlob
+    corrected_text = str(TextBlob(text).correct())
+    if corrected_text != text:
+        result["spell_suggestions"].append({
+            "original": text,
+            "corrected": corrected_text
+        })
     # Transformer-based spell check
     spell_checked = spell_checker(text, max_length=512)[0]['generated_text']
+    if spell_checked != text and spell_checked != corrected_text:
         result["spell_suggestions"].append({
             "original": text,
             "corrected": spell_checked
     doc = nlp(text)
     result["entities"] = [{"text": ent.text, "label": ent.label_} for ent in doc.ents]
+    # Extract potential tags (hashtags, mentions, etc.)
     result["tags"] = [token.text for token in doc if token.text.startswith(('#', '@'))]
     return text, result