Spaces:

chenmgtea
/

chat-tts

Runtime error

App Files Files Community

chenjgtea commited on Aug 23, 2024

Commit

638a294

1 Parent(s): 1898711

gpu模型下代码更新,已定型

Browse files

Files changed (5) hide show

Chat2TTS/core.py +31 -7
Chat2TTS/res/__init__.py +0 -0
Chat2TTS/res/homophones_map.json +0 -0
web/app_cpu.py +1 -5
web/app_gpu.py +34 -52

Chat2TTS/core.py CHANGED Viewed

@@ -12,20 +12,21 @@ from .utils.io_utils import get_latest_modified_file
 from .infer.api import refine_text, infer_code
 from dataclasses import dataclass
 from typing import Literal, Optional, List, Tuple, Dict
-import numpy as np
-import pybase16384 as b14
-import lzma
-from huggingface_hub import snapshot_download
-logging.basicConfig(level = logging.INFO)
 class Chat:
     def __init__(self, ):
         self.pretrain_models = {}
-        self.logger = logging.getLogger(__name__)
-        self.gpt=None
     def check_model(self, level = logging.INFO, use_decoder = False):
         not_finish = False
@@ -159,6 +160,21 @@ class Chat:
     ):
         assert self.check_model(use_decoder=use_decoder)
         if not skip_refine_text:
             text_tokens = refine_text(self.pretrain_models, text, **params_refine_text)['ids']
@@ -179,6 +195,14 @@ class Chat:
         wav = [self.pretrain_models['vocos'].decode(i).cpu().numpy() for i in mel_spec]
         return wav
     # def sample_random_speaker(self) -> str:

 from .infer.api import refine_text, infer_code
 from dataclasses import dataclass
 from typing import Literal, Optional, List, Tuple, Dict
+from tool.logger import get_logger
+from ChatTTS.norm import Normalizer
+from huggingface_hub import snapshot_download
 class Chat:
     def __init__(self, ):
         self.pretrain_models = {}
+        self.logger = get_logger(__name__,lv=logging.INFO)
+        self.normalizer = Normalizer(
+            os.path.join(os.path.dirname(__file__), "res", "homophones_map.json"),
+            self.logger,
+        )
     def check_model(self, level = logging.INFO, use_decoder = False):
         not_finish = False
     ):
         assert self.check_model(use_decoder=use_decoder)
+        if skip_refine_text:
+            self.logger.info("========对文本内容不做优化处理,仅做规则处理======")
+            if not isinstance(text, list):
+                text = [text]
+            text = [
+                self.normalizer(
+                    text=t,
+                    do_text_normalization=True,
+                    do_homophone_replacement=True,
+                    lang=None,
+                )
+                for t in text
+            ]
         if not skip_refine_text:
             text_tokens = refine_text(self.pretrain_models, text, **params_refine_text)['ids']
         wav = [self.pretrain_models['vocos'].decode(i).cpu().numpy() for i in mel_spec]
         return wav
+    def emptpy_audio(self):
+        return  self.infer(" ",
+                skip_refine_text=True,
+                refine_text_only=False,
+                params_refine_text={},
+                params_infer_code={},
+                use_decoder=False)
     # def sample_random_speaker(self) -> str:

Chat2TTS/res/__init__.py ADDED Viewed

File without changes

Chat2TTS/res/homophones_map.json ADDED Viewed

The diff for this file is too large to render. See raw diff

web/app_cpu.py CHANGED Viewed

@@ -14,17 +14,13 @@ from tool.ctx import TorchSeedContext
 import ChatTTS
 import argparse
 import torch._dynamo
 torch._dynamo.config.suppress_errors = True
 logger = get_logger("app")
 # Initialize and load the model:
 chat = ChatTTS.Chat()
 def init_chat(args):
     global chat
     source = "custom"

 import ChatTTS
 import argparse
 import torch._dynamo
 torch._dynamo.config.suppress_errors = True
+#HF空间中,GPU模式 运行 大模型代码
 logger = get_logger("app")
 # Initialize and load the model:
 chat = ChatTTS.Chat()
 def init_chat(args):
     global chat
     source = "custom"

web/app_gpu.py CHANGED Viewed

@@ -18,10 +18,8 @@ import torch._dynamo
 torch._dynamo.config.suppress_errors = True
 logger = get_logger("app")
 # Initialize and load the model:
 chat = Chat2TTS.Chat()
@@ -67,6 +65,11 @@ def main(args):
                 interactive=True,
                 value=True
             )
             temperature_slider = gr.Slider(
                 minimum=0.00001,
                 maximum=1.0,
@@ -164,6 +167,7 @@ def main(args):
                               inputs=[text_input,
                                                        text_seed_input,
                                                        refine_text_checkBox,
                                                        temperature_slider,
                                                        top_p_slider,
                                                        top_k_slider,
@@ -195,6 +199,7 @@ def main(args):
 def general_chat_infer_audio(text,
                              text_seed_input,
                              refine_text_checkBox,
                              temperature_slider,
                              top_p_slider,
                              top_k_slider,
@@ -223,30 +228,35 @@ def general_chat_infer_audio(text,
                 params_refine_text=params_refine_text,
             )
-    logger.info("========开始生成音频文件=====")
-    #torch.manual_seed(audio_seed_input)
     with TorchSeedContext(audio_seed_input):
-        #rand_spk = torch.randn(768)
-        rand_spk = chat.sample_random_speaker_tensor()
-        logger.info("========生成音频spk_emb参数完成=====")
-        params_infer_code = {
-            'spk_emb': rand_spk,
-            'temperature': temperature_slider,
-            'top_P': top_p_slider,
-            'top_K': top_k_slider,
-        }
-        wav = chat.infer(
-            text=chat_txt,
-            skip_refine_text=True, #跳过文本优化
-            params_refine_text=params_refine_text,
-            params_infer_code=params_infer_code,
-        )
     #yield 24000, float_to_int16(wav[0]).T
     audio_data = np.array(wav[0]).flatten()
-    sample_rate = 24000
     text_data = chat_txt[0] if isinstance(chat_txt, list) else chat_txt
     return [text_data,(sample_rate, audio_data)]
@@ -283,36 +293,8 @@ def general_chat_infer_audio(text,
     # rand_spk = torch.randn(audio_seed_input)
     # return encode_spk_emb(rand_spk)
-# def encode_spk_emb(spk_emb: torch.Tensor) -> str:
-#     import pybase16384 as b14
-#     import lzma
-#     with torch.no_grad():
-#         arr: np.ndarray = spk_emb.to(dtype=torch.float16, device="cpu").numpy()
-#         s = b14.encode_to_string(
-#             lzma.compress(
-#                 arr.tobytes(),
-#                 format=lzma.FORMAT_RAW,
-#                 filters=[
-#                     {"id": lzma.FILTER_LZMA2, "preset": 9 | lzma.PRESET_EXTREME}
-#                 ],
-#             ),
-#         )
-#         del arr
-#     return s
-# def _sample_random_speaker(self) -> torch.Tensor:
-#     with torch.no_grad():
-#         dim: int = self.gpt.gpt.layers[0].mlp.gate_proj.in_features
-#         out: torch.Tensor = self.pretrain_models["spk_stat"]
-#         std, mean = out.chunk(2)
-#         spk = (
-#             torch.randn(dim, device=std.device, dtype=torch.float16)
-#             .mul_(std)
-#             .add_(mean)
-#         )
-#         del out, std, mean
-#         return spk
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(description="ChatTTS demo Launch")

 torch._dynamo.config.suppress_errors = True
+#HF空间中,GPU模式 运行 大模型代码
 logger = get_logger("app")
 # Initialize and load the model:
 chat = Chat2TTS.Chat()
                 interactive=True,
                 value=True
             )
+            refine_audio_checkBox = gr.Checkbox(
+                label="是否生成音频文件,如是才会生成音频文件",
+                interactive=True,
+                value=True
+            )
             temperature_slider = gr.Slider(
                 minimum=0.00001,
                 maximum=1.0,
                               inputs=[text_input,
                                                        text_seed_input,
                                                        refine_text_checkBox,
+                                                       refine_audio_checkBox,
                                                        temperature_slider,
                                                        top_p_slider,
                                                        top_k_slider,
 def general_chat_infer_audio(text,
                              text_seed_input,
                              refine_text_checkBox,
+                             refine_audio_checkBox,
                              temperature_slider,
                              top_p_slider,
                              top_k_slider,
                 params_refine_text=params_refine_text,
             )
     with TorchSeedContext(audio_seed_input):
+        if not refine_audio_checkBox:
+            logger.info("========无需生成音频文件=====")
+            #创建一个空的音频文件
+            wav = chat.emptpy_audio()
+        else:
+            logger.info("========开始生成音频文件=====")
+            #torch.manual_seed(audio_seed_input)
+            #rand_spk = torch.randn(768)
+            rand_spk = chat.sample_random_speaker_tensor()
+            logger.info("========生成音频spk_emb参数完成=====")
+            params_infer_code = {
+                'spk_emb': rand_spk,
+                'temperature': temperature_slider,
+                'top_P': top_p_slider,
+                'top_K': top_k_slider,
+            }
+            wav = chat.infer(
+                text=chat_txt,
+                skip_refine_text=True, #跳过文本优化
+                params_refine_text=params_refine_text,
+                params_infer_code=params_infer_code,
+            )
     #yield 24000, float_to_int16(wav[0]).T
     audio_data = np.array(wav[0]).flatten()
     text_data = chat_txt[0] if isinstance(chat_txt, list) else chat_txt
+    sample_rate = 24000
     return [text_data,(sample_rate, audio_data)]
     # rand_spk = torch.randn(audio_seed_input)
     # return encode_spk_emb(rand_spk)
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(description="ChatTTS demo Launch")