Spaces:

SCBconsulting
/

synclm-demo

Running

SCBconsulting commited on 20 days ago

Commit

32c204d

verified ·

1 Parent(s): 2ceb2ac

Update utils/translator.py

Files changed (1) hide show

utils/translator.py CHANGED Viewed

@@ -1,9 +1,30 @@
 # utils/translate.py
-from transformers import pipeline
-# 🌍 Translation pipeline (English → Portuguese)
-translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-pt")
 def clean_text(text):
     return text.replace("\n", " ").replace("  ", " ").strip()

 # utils/translate.py
+# utils/translator.py
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import torch
+# 🧠 Load formal Brazilian Portuguese legal translator
+model_name = "unicamp-dl/translation-en-pt-t5"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+def translate_text(text):
+    if not text.strip():
+        return "No input provided."
+    text = text.replace("\n", " ").strip()
+    chunks = [text[i:i + 512] for i in range(0, len(text), 512)]
+    translated = []
+    for chunk in chunks:
+        inputs = tokenizer(chunk, return_tensors="pt", truncation=True, padding=True)
+        with torch.no_grad():
+            outputs = model.generate(**inputs, max_length=512, num_beams=4)
+        translated.append(tokenizer.decode(outputs[0], skip_special_tokens=True))
+    return " ".join(translated)
 def clean_text(text):
     return text.replace("\n", " ").replace("  ", " ").strip()