Spaces:

litagin
/

anime-speech-emotion-recognition

Running

App Files Files Community

litagin commited on Nov 17

Commit

7a0a380

•

1 Parent(s): 3e40110

update

Browse files

Files changed (1) hide show

app.py +19 -6

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import pprint
 import gradio as gr
 import librosa
@@ -34,20 +35,32 @@ label_map = {
 @spaces.GPU
 def pipe(filename: str) -> tuple[dict[str, float], go.Figure]:
-    audio, sr = librosa.load(filename, sr=16000)
-    duration = librosa.get_duration(y=audio, sr=sr)
-    logger.info(f"filename: {filename}, duration: {duration}")
     if duration > 30.0:
         return (
-            {f"Error: 音声ファイルの長さが長すぎます: {duration}秒": 0.0},
             go.Figure(),
         )
-    inputs = processor(audio, sampling_rate=sr, return_tensors="pt")
     inputs = {k: v.to(device) for k, v in inputs.items()}
     with torch.no_grad():
         outputs: SequenceClassifierOutput = model(**inputs)
     logits = outputs.logits  # shape: (batch_size, num_labels)
-    # ロジットの取得
     logits = logits[0].cpu().numpy()
     labels = [label_map[label] for id, label in model.config.id2label.items()]
     sorted_pairs = sorted(zip(logits, labels), key=lambda x: x[0])

 import pprint
+from pathlib import Path
 import gradio as gr
 import librosa
 @spaces.GPU
 def pipe(filename: str) -> tuple[dict[str, float], go.Figure]:
+    if not filename:
+        return {"Error: ファイルが指定されていません": 0.0}, go.Figure()
+    logger.info(f"filename: {Path(filename).name}")
+    try:
+        y, sr = librosa.load(filename, mono=True, sr=16000)
+    except Exception as e:
+        # First convert to wav if librosa cannot read the file
+        logger.error(f"Error reading file: {e}")
+        from pydub import AudioSegment
+        segment = AudioSegment.from_file(filename)
+        segment.export("temp.wav", format="wav")
+        y, sr = librosa.load("temp.wav", mono=True, sr=16000)
+        Path("temp.wav").unlink()
+    duration = librosa.get_duration(y=y, sr=sr)
+    logger.info(f"Duration: {duration:.2f}s")
     if duration > 30.0:
         return (
+            {f"Error: 音声ファイルの長さが長すぎます: {duration:.2f}s": 0.0},
             go.Figure(),
         )
+    inputs = processor(y, sampling_rate=sr, return_tensors="pt")
     inputs = {k: v.to(device) for k, v in inputs.items()}
     with torch.no_grad():
         outputs: SequenceClassifierOutput = model(**inputs)
     logits = outputs.logits  # shape: (batch_size, num_labels)
     logits = logits[0].cpu().numpy()
     labels = [label_map[label] for id, label in model.config.id2label.items()]
     sorted_pairs = sorted(zip(logits, labels), key=lambda x: x[0])