Spaces:

guetLzy
/

Chinese-Freevc

Running

App Files Files Community

guetLzy commited on Apr 7

Commit

084bb16

verified ·

1 Parent(s): 04be048

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -12

app.py CHANGED Viewed

@@ -40,7 +40,6 @@ def download_models():
     os.makedirs("model", exist_ok=True)
     os.makedirs("hubert/chinese-hubert-large-fairseq-ckpt", exist_ok=True)
-    # 下载FreeVC模型
     freevc_paths = {}
     for model_name, model_path in MODEL_OPTIONS.items():
         path = hf_hub_download(
@@ -51,7 +50,6 @@ def download_models():
         )
         freevc_paths[model_name] = path
-    # 下载整个HuBERT仓库
     hubert_dir = "hubert/chinese-hubert-large-fairseq-ckpt"
     snapshot_download(
         repo_id=MODEL_CONFIG["hubert"]["repo_id"],
@@ -66,15 +64,17 @@ def download_models():
         "hubert": hubert_paths
     }
-def load_hubert(hubert_dir):
     """加载HuBERT模型（使用fairseq格式的检查点）"""
     logger.info("正在加载 HuBERT 模型...")
     model = HubertModel.from_pretrained(hubert_dir)
     feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(hubert_dir)
     return model.to(device).float().eval(), feature_extractor
-def load_freevc(model_path):
     """加载FreeVC模型（使用本地配置文件）"""
     logger.info(f"正在从 {model_path} 加载 FreeVC 模型...")
     hps = utils.get_hparams_from_file("configs/freevc.json")
@@ -91,28 +91,36 @@ def load_freevc(model_path):
     return net_g, smodel, hps
 # 预加载模型
 logger.info("正在下载模型...")
 model_paths = download_models()
 logger.info(f"模型路径: {model_paths}")
 logger.info("正在初始化 HuBERT...")
 hubert_dir = "hubert/chinese-hubert-large-fairseq-ckpt"
-hubert_model, hubert_feature_extractor = load_hubert(hubert_dir)
 def voice_conversion(src_audio, tgt_audio, output_name, model_selection):
     """执行语音转换"""
     try:
         # 加载选中的FreeVC模型
-        freevc_model, speaker_model, hps = load_freevc(MODEL_OPTIONS[model_selection])
         with torch.no_grad():
             # 处理目标音频
             wav_tgt, _ = librosa.load(tgt_audio, sr=hps.data.sampling_rate)
             wav_tgt, _ = librosa.effects.trim(wav_tgt, top_db=20)
             if hps.model.use_spk:
                 g_tgt = speaker_model.embed_utterance(wav_tgt)
                 g_tgt = torch.from_numpy(g_tgt).unsqueeze(0).to(device)
             else:
                 wav_tgt = torch.from_numpy(wav_tgt).unsqueeze(0).to(device)
                 mel_tgt = mel_spectrogram_torch(
                     wav_tgt,
@@ -125,29 +133,35 @@ def voice_conversion(src_audio, tgt_audio, output_name, model_selection):
                     hps.data.mel_fmax
                 )
-            # 处理源音频（HuBERT需要16kHz）
-            wav_src, _ = librosa.load(src_audio, sr=16000)
             inputs = hubert_feature_extractor(
                 wav_src,
                 return_tensors="pt",
                 sampling_rate=16_000
             ).input_values.to(device)
             c = hubert_model(inputs.float()).last_hidden_state.transpose(1, 2)
             # 执行转换
             audio = freevc_model.infer(c, g=g_tgt) if hps.model.use_spk else freevc_model.infer(c, mel=mel_tgt)
             # 保存结果
             os.makedirs("output", exist_ok=True)
             output_path = f"output/{output_name}.wav"
             write(output_path, hps.data.sampling_rate, audio[0][0].data.cpu().float().numpy())
-            return output_path, "转换完成"
     except Exception as e:
         logger.error(f"转换错误: {str(e)}")
-        return None, f"转换失败: {str(e)}"
 # Gradio界面
 with gr.Blocks(title="Chinese-FreeVC 语音转换") as app:
@@ -157,13 +171,13 @@ with gr.Blocks(title="Chinese-FreeVC 语音转换") as app:
         with gr.Column():
             src_input = gr.Audio(label="源语音", type="filepath")
             tgt_input = gr.Audio(label="目标音色", type="filepath")
-            with gr.Row():  # 将输出文件名和模型选择放在同一排
-                output_name = gr.Textbox(label="输出文件名", value="converted")
                 model_dropdown = gr.Dropdown(
                     choices=list(MODEL_OPTIONS.keys()),
                     label="选择模型",
                     value="Model_17000"
                 )
             convert_btn = gr.Button("开始转换", variant="primary")
         with gr.Column():

     os.makedirs("model", exist_ok=True)
     os.makedirs("hubert/chinese-hubert-large-fairseq-ckpt", exist_ok=True)
     freevc_paths = {}
     for model_name, model_path in MODEL_OPTIONS.items():
         path = hf_hub_download(
         )
         freevc_paths[model_name] = path
     hubert_dir = "hubert/chinese-hubert-large-fairseq-ckpt"
     snapshot_download(
         repo_id=MODEL_CONFIG["hubert"]["repo_id"],
         "hubert": hubert_paths
     }
+def load_hubert(hubert_dir, status_list):
     """加载HuBERT模型（使用fairseq格式的检查点）"""
+    status_list.append("正在加载 HuBERT 模型...")
     logger.info("正在加载 HuBERT 模型...")
     model = HubertModel.from_pretrained(hubert_dir)
     feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(hubert_dir)
     return model.to(device).float().eval(), feature_extractor
+def load_freevc(model_path, status_list):
     """加载FreeVC模型（使用本地配置文件）"""
+    status_list.append(f"正在从 {model_path} 加载 FreeVC 模型...")
     logger.info(f"正在从 {model_path} 加载 FreeVC 模型...")
     hps = utils.get_hparams_from_file("configs/freevc.json")
     return net_g, smodel, hps
 # 预加载模型
+status_list = ["正在下载模型..."]
 logger.info("正在下载模型...")
 model_paths = download_models()
+status_list.append(f"模型路径: {model_paths}")
 logger.info(f"模型路径: {model_paths}")
+status_list.append("正在初始化 HuBERT...")
 logger.info("正在初始化 HuBERT...")
 hubert_dir = "hubert/chinese-hubert-large-fairseq-ckpt"
+hubert_model, hubert_feature_extractor = load_hubert(hubert_dir, status_list)
 def voice_conversion(src_audio, tgt_audio, output_name, model_selection):
     """执行语音转换"""
+    status_list = ["开始语音转换..."]
     try:
         # 加载选中的FreeVC模型
+        freevc_model, speaker_model, hps = load_freevc(MODEL_OPTIONS[model_selection], status_list)
         with torch.no_grad():
             # 处理目标音频
+            status_list.append("处理目标音频...")
             wav_tgt, _ = librosa.load(tgt_audio, sr=hps.data.sampling_rate)
             wav_tgt, _ = librosa.effects.trim(wav_tgt, top_db=20)
             if hps.model.use_spk:
+                status_list.append("提取目标音色特征（使用说话人编码器）...")
                 g_tgt = speaker_model.embed_utterance(wav_tgt)
                 g_tgt = torch.from_numpy(g_tgt).unsqueeze(0).to(device)
             else:
+                status_list.append("生成目标音频 Mel 频谱图...")
                 wav_tgt = torch.from_numpy(wav_tgt).unsqueeze(0).to(device)
                 mel_tgt = mel_spectrogram_torch(
                     wav_tgt,
                     hps.data.mel_fmax
                 )
+            # 处理源音频
+            status_list.append("处理源音频（转换为16kHz）...")
+            wav_src, _ = librosa.load(src_audio, sr=16_000)
             inputs = hubert_feature_extractor(
                 wav_src,
                 return_tensors="pt",
                 sampling_rate=16_000
             ).input_values.to(device)
+            status_list.append("提取源音频特征...")
             c = hubert_model(inputs.float()).last_hidden_state.transpose(1, 2)
             # 执行转换
+            status_list.append("执行语音转换...")
             audio = freevc_model.infer(c, g=g_tgt) if hps.model.use_spk else freevc_model.infer(c, mel=mel_tgt)
             # 保存结果
+            status_list.append("保存转换结果...")
             os.makedirs("output", exist_ok=True)
             output_path = f"output/{output_name}.wav"
             write(output_path, hps.data.sampling_rate, audio[0][0].data.cpu().float().numpy())
+            status_list.append("转换完成")
+            return output_path, "\n".join(status_list)
     except Exception as e:
         logger.error(f"转换错误: {str(e)}")
+        status_list.append(f"转换失败: {str(e)}")
+        return None, "\n".join(status_list)
 # Gradio界面
 with gr.Blocks(title="Chinese-FreeVC 语音转换") as app:
         with gr.Column():
             src_input = gr.Audio(label="源语音", type="filepath")
             tgt_input = gr.Audio(label="目标音色", type="filepath")
+            with gr.Row():  # 输出文件名和模型选择在同一排
                 model_dropdown = gr.Dropdown(
                     choices=list(MODEL_OPTIONS.keys()),
                     label="选择模型",
                     value="Model_17000"
                 )
+                output_name = gr.Textbox(label="输出文件名", value="converted")
             convert_btn = gr.Button("开始转换", variant="primary")
         with gr.Column():