Spaces:

chenmgtea
/

chat-tts

Runtime error

App Files Files Community

chenjgtea commited on Aug 22, 2024

Commit

3fd53ff

1 Parent(s): 8825975

新增gpu模式下chattts代码

Browse files

Files changed (2) hide show

README.md +1 -1
web/{app.py → app_gpu.py} +51 -12

README.md CHANGED Viewed

@@ -6,7 +6,7 @@ colorTo: purple
 sdk: gradio
 sdk_version: 4.41.0
 #app_port: 8080
-app_file: web/app.py
 pinned: false
 ---

 sdk: gradio
 sdk_version: 4.41.0
 #app_port: 8080
+app_file: web/app_gpu.py
 pinned: false
 ---

web/{app.py → app_gpu.py} RENAMED Viewed

@@ -203,13 +203,20 @@ def get_chat_infer_audio(chat_txt,
                  spk_emb_text):
     logger.info("========开始生成音频文件=====")
     #音频参数设置
-    params_infer_code = Chat2TTS.Chat.InferCodeParams(
-        spk_emb=spk_emb_text,  # add sampled speaker
-        temperature=temperature_slider,  # using custom temperature
-        top_P=top_p_slider,  # top P decode
-        top_K=top_k_slider,  # top K decode
-    )
     torch.manual_seed(audio_seed_input)
     wav = chat.infer(
         text=chat_txt,
@@ -227,10 +234,11 @@ def get_chat_infer_text(text,seed,refine_text_checkBox):
         logger.info("========文本内容无需优化=====")
         return  text
-    params_refine_text = Chat2TTS.Chat.RefineTextParams(
-        prompt='[oral_2][laugh_0][break_6]',
-    )
     torch.manual_seed(seed)
     chat_text = chat.infer(
         text=text,
@@ -245,9 +253,40 @@ def get_chat_infer_text(text,seed,refine_text_checkBox):
 def on_audio_seed_change(audio_seed_input):
     global chat
     torch.manual_seed(audio_seed_input)
-    rand_spk = chat.sample_random_speaker()
     return rand_spk
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(description="ChatTTS demo Launch")

                  spk_emb_text):
     logger.info("========开始生成音频文件=====")
     #音频参数设置
+    # params_infer_code = Chat2TTS.Chat.InferCodeParams(
+    #     spk_emb=spk_emb_text,  # add sampled speaker
+    #     temperature=temperature_slider,  # using custom temperature
+    #     top_P=top_p_slider,  # top P decode
+    #     top_K=top_k_slider,  # top K decode
+    # )
+    torch.manual_seed(audio_seed_input)
+    rand_spk = torch.randn(768)
+    params_infer_code = {
+        'spk_emb': rand_spk,
+        'temperature': temperature_slider,
+        'top_P': top_p_slider,
+        'top_K': top_k_slider,
+    }
     torch.manual_seed(audio_seed_input)
     wav = chat.infer(
         text=chat_txt,
         logger.info("========文本内容无需优化=====")
         return  text
+    # params_refine_text = Chat2TTS.Chat.RefineTextParams(
+    #     prompt='[oral_2][laugh_0][break_6]',
+    # )
+    params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}
     torch.manual_seed(seed)
     chat_text = chat.infer(
         text=text,
 def on_audio_seed_change(audio_seed_input):
     global chat
     torch.manual_seed(audio_seed_input)
+    rand_spk = torch.randn(audio_seed_input)
     return rand_spk
+    #return encode_spk_emb(rand_spk)
+def encode_spk_emb(spk_emb: torch.Tensor) -> str:
+    import pybase16384 as b14
+    import lzma
+    with torch.no_grad():
+        arr: np.ndarray = spk_emb.to(dtype=torch.float16, device="cpu").numpy()
+        s = b14.encode_to_string(
+            lzma.compress(
+                arr.tobytes(),
+                format=lzma.FORMAT_RAW,
+                filters=[
+                    {"id": lzma.FILTER_LZMA2, "preset": 9 | lzma.PRESET_EXTREME}
+                ],
+            ),
+        )
+        del arr
+    return s
+# def _sample_random_speaker(self) -> torch.Tensor:
+#     with torch.no_grad():
+#         dim: int = self.gpt.gpt.layers[0].mlp.gate_proj.in_features
+#         out: torch.Tensor = self.pretrain_models["spk_stat"]
+#         std, mean = out.chunk(2)
+#         spk = (
+#             torch.randn(dim, device=std.device, dtype=torch.float16)
+#             .mul_(std)
+#             .add_(mean)
+#         )
+#         del out, std, mean
+#         return spk
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(description="ChatTTS demo Launch")