Spaces:

arnabdas8901
/

Magnifying_Lens

Sleeping

Arnab Das commited on Nov 15, 2024

Commit

dcb4762

1 Parent(s): 8be3e30

bug fix

Files changed (1) hide show

manipulate_model/utils.py CHANGED Viewed

@@ -38,6 +38,9 @@ def load_audio(file_path, config):
     if file_path.endswith(".wav") or file_path.endswith(".flac"):
         audio, sample_rate = torchaudio.load(file_path)
     elif file_path.endswith(".mp3"):
         pass
     elif file_path.endswith(".mp4"):
@@ -62,7 +65,9 @@ def preprocess_audio(audio, config, step_size=1):
     window_size = config.data.window_size
     sr = config.data.sr
     fps = config.data.fps
-    print("###########", audio.shape)
     audio_len = audio.shape[1]
     step_size = step_size * (sr // fps)
     window_size = window_size * (sr // fps)

     if file_path.endswith(".wav") or file_path.endswith(".flac"):
         audio, sample_rate = torchaudio.load(file_path)
+        if sample_rate != config.data.sr:
+            print("requires resampling")
+            audio = torchaudio.functional.resample(audio, sample_rate, config.data.sr)
     elif file_path.endswith(".mp3"):
         pass
     elif file_path.endswith(".mp4"):
     window_size = config.data.window_size
     sr = config.data.sr
     fps = config.data.fps
+    if audio.shape[0] > 1:
+        print("Warning: multi channel audio")
+        audio = audio[0].unsqueeze(0)
     audio_len = audio.shape[1]
     step_size = step_size * (sr // fps)
     window_size = window_size * (sr // fps)