Spaces:

Pushkar0655g
/

multilingual-subtitle-tool

Running

App Files Files Community

Pushkar0655g commited on Mar 19

Commit

91b987a

1 Parent(s): 9c94c47

Fix indentation error in utils.py

Browse files

Files changed (1) hide show

utils.py +61 -8

utils.py CHANGED Viewed

@@ -2,26 +2,73 @@ import whisper
 from transformers import MarianMTModel, MarianTokenizer, AutoTokenizer, AutoModelForSeq2SeqLM
 import os
 import tempfile
 # Load Whisper model
 model = whisper.load_model("base")
 def process_video(video_file, language):
-    # Save uploaded video to a temporary file with the correct extension
-    video_path = os.path.join(tempfile.gettempdir(), "video.mp4")  # Save as MP4 for compatibility
-    with open(video_path, "wb") as f:
-        f.write(video_file.read())
     try:
         print("Transcribing video to English...")
-        result = model.transcribe(video_path, language="en")
-        # Translation logic (unchanged)
         segments = []
         if language == "English":
             segments = result["segments"]
         else:
-            # ... (rest of your translation code) ...
         # Create SRT file
         srt_path = os.path.join(tempfile.gettempdir(), "subtitles.srt")
@@ -34,4 +81,10 @@ def process_video(video_file, language):
         return srt_path
     except Exception as e:
-        return f"Error: {str(e)}"

 from transformers import MarianMTModel, MarianTokenizer, AutoTokenizer, AutoModelForSeq2SeqLM
 import os
 import tempfile
+import subprocess
 # Load Whisper model
 model = whisper.load_model("base")
 def process_video(video_file, language):
+    # Save uploaded video to a temporary file
+    temp_dir = tempfile.gettempdir()
+    video_path = os.path.join(temp_dir, "input_video")  # No extension
+    output_video_path = os.path.join(temp_dir, "converted_video.mp4")  # Convert to MP4 for compatibility
     try:
+        # Save the uploaded file
+        with open(video_path, "wb") as f:
+            f.write(video_file.read())
+        # Convert the video to MP4 using ffmpeg
+        print("Converting video to MP4...")
+        subprocess.run(["ffmpeg", "-i", video_path, "-c:v", "libx264", "-preset", "fast", output_video_path], check=True)
+        # Transcribe the video
         print("Transcribing video to English...")
+        result = model.transcribe(output_video_path, language="en")
+        # Translation logic
         segments = []
         if language == "English":
             segments = result["segments"]
         else:
+            # Define translation models
+            model_map = {
+                "Hindi": "Helsinki-NLP/opus-mt-en-hi",
+                "Spanish": "Helsinki-NLP/opus-mt-en-es",
+                "French": "Helsinki-NLP/opus-mt-en-fr",
+                "German": "Helsinki-NLP/opus-mt-en-de",
+                "Telugu": "facebook/nllb-200-distilled-600M",
+                "Portuguese": "Helsinki-NLP/opus-mt-en-pt",
+                "Russian": "Helsinki-NLP/opus-mt-en-ru",
+                "Chinese": "Helsinki-NLP/opus-mt-en-zh",
+                "Arabic": "Helsinki-NLP/opus-mt-en-ar",
+                "Japanese": "Helsinki-NLP/opus-mt-en-jap"
+            }
+            model_name = model_map.get(language)
+            if not model_name:
+                return f"Unsupported language: {language}"
+            if language == "Telugu":
+                tokenizer = AutoTokenizer.from_pretrained(model_name)
+                translation_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+                tgt_lang = "tel_Telu"
+                print(f"Translating to Telugu using NLLB-200 Distilled...")
+                for segment in result["segments"]:
+                    inputs = tokenizer(segment["text"], return_tensors="pt", padding=True)
+                    translated_tokens = translation_model.generate(
+                        **inputs, forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_lang)
+                    )
+                    translated_text = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
+                    segments.append({"text": translated_text, "start": segment["start"], "end": segment["end"]})
+            else:
+                tokenizer = MarianTokenizer.from_pretrained(model_name)
+                translation_model = MarianMTModel.from_pretrained(model_name)
+                print(f"Translating to {language}...")
+                for segment in result["segments"]:
+                    inputs = tokenizer(segment["text"], return_tensors="pt", padding=True)
+                    translated = translation_model.generate(**inputs)
+                    translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
+                    segments.append({"text": translated_text, "start": segment["start"], "end": segment["end"]})
         # Create SRT file
         srt_path = os.path.join(tempfile.gettempdir(), "subtitles.srt")
         return srt_path
     except Exception as e:
+        return f"Error: {str(e)}"
+    finally:
+        # Clean up temporary files
+        if os.path.exists(video_path):
+            os.remove(video_path)
+        if os.path.exists(output_video_path):
+            os.remove(output_video_path)