Spaces:

copyvara
/

Spark-TTS

Runtime error

spark-tts commited on Feb 25

Commit

e2f41b6

1 Parent(s): 23a5ae6

clean structure

Files changed (23) hide show

cli/SparkTTS.py CHANGED Viewed

@@ -17,9 +17,10 @@ import re
 import torch
 from pathlib import Path
 from transformers import AutoTokenizer, AutoModelForCausalLM
-from utils.file import load_config
-from models.audio_tokenizer import BiCodecTokenizer
-from utils.token_parser import TASK_TOKEN_MAP
 class SparkTTS:

 import torch
 from pathlib import Path
 from transformers import AutoTokenizer, AutoModelForCausalLM
+from sparktts.utils.file import load_config
+from sparktts.models.audio_tokenizer import BiCodecTokenizer
+from sparktts.utils.token_parser import TASK_TOKEN_MAP
 class SparkTTS:

inference.py → cli/inference.py RENAMED Viewed

File without changes

example/infer.sh CHANGED Viewed

@@ -33,10 +33,10 @@ prompt_speech_path="example/prompt_audio.wav"
 # Change directory to the root directory
 cd "$root_dir" || exit
-source utils/parse_options.sh
 # Run inference for each JSON file
-python inference.py \
     --text "${text}" \
     --device "${device}" \
     --save_dir "${save_dir}" \

 # Change directory to the root directory
 cd "$root_dir" || exit
+source sparktts/utils/parse_options.sh
 # Run inference for each JSON file
+python -m cli.inference \
     --text "${text}" \
     --device "${device}" \
     --save_dir "${save_dir}" \

{models → sparktts/models}/audio_tokenizer.py RENAMED Viewed

@@ -21,9 +21,9 @@ from pathlib import Path
 from typing import Any, Dict, Tuple
 from transformers import Wav2Vec2FeatureExtractor, Wav2Vec2Model
-from utils.file import load_config
-from utils.audio import load_audio
-from models.bicodec import BiCodec
 class BiCodecTokenizer:

 from typing import Any, Dict, Tuple
 from transformers import Wav2Vec2FeatureExtractor, Wav2Vec2Model
+from sparktts.utils.file import load_config
+from sparktts.utils.audio import load_audio
+from sparktts.models.bicodec import BiCodec
 class BiCodecTokenizer:

{models → sparktts/models}/bicodec.py RENAMED Viewed

@@ -20,12 +20,12 @@ from typing import Dict, Any
 from omegaconf import DictConfig
 from safetensors.torch import load_file
-from utils.file import load_config
-from modules.speaker.speaker_encoder import SpeakerEncoder
-from modules.encoder_decoder.feat_encoder import Encoder
-from modules.encoder_decoder.feat_decoder import Decoder
-from modules.encoder_decoder.wave_generator import WaveGenerator
-from modules.vq.factorized_vector_quantize import FactorizedVectorQuantize
 class BiCodec(nn.Module):

 from omegaconf import DictConfig
 from safetensors.torch import load_file
+from sparktts.utils.file import load_config
+from sparktts.modules.speaker.speaker_encoder import SpeakerEncoder
+from sparktts.modules.encoder_decoder.feat_encoder import Encoder
+from sparktts.modules.encoder_decoder.feat_decoder import Decoder
+from sparktts.modules.encoder_decoder.wave_generator import WaveGenerator
+from sparktts.modules.vq.factorized_vector_quantize import FactorizedVectorQuantize
 class BiCodec(nn.Module):

{modules → sparktts/modules}/blocks/layers.py RENAMED Viewed

File without changes

{modules → sparktts/modules}/blocks/samper.py RENAMED Viewed

File without changes

{modules → sparktts/modules}/blocks/vocos.py RENAMED Viewed

File without changes

{modules → sparktts/modules}/encoder_decoder/feat_decoder.py RENAMED Viewed

@@ -19,8 +19,8 @@ import torch.nn as nn
 from typing import List
-from modules.blocks.vocos import VocosBackbone
-from modules.blocks.samper import SamplingBlock
 class Decoder(nn.Module):

 from typing import List
+from sparktts.modules.blocks.vocos import VocosBackbone
+from sparktts.modules.blocks.samper import SamplingBlock
 class Decoder(nn.Module):

{modules → sparktts/modules}/encoder_decoder/feat_encoder.py RENAMED Viewed

@@ -19,8 +19,8 @@ import torch.nn as nn
 from typing import List
-from modules.blocks.vocos import VocosBackbone
-from modules.blocks.samper import SamplingBlock
 class Encoder(nn.Module):

 from typing import List
+from sparktts.modules.blocks.vocos import VocosBackbone
+from sparktts.modules.blocks.samper import SamplingBlock
 class Encoder(nn.Module):

{modules → sparktts/modules}/encoder_decoder/wave_generator.py RENAMED Viewed

@@ -17,7 +17,7 @@
 import torch.nn as nn
-from modules.blocks.layers import (
     Snake1d,
     WNConv1d,
     ResidualUnit,

 import torch.nn as nn
+from sparktts.modules.blocks.layers import (
     Snake1d,
     WNConv1d,
     ResidualUnit,

{modules → sparktts/modules}/fsq/finite_scalar_quantization.py RENAMED Viewed

File without changes

{modules → sparktts/modules}/fsq/residual_fsq.py RENAMED Viewed

@@ -10,7 +10,7 @@ from torch.amp import autocast
 from einx import get_at
 from einops import rearrange, reduce, pack, unpack
-from modules.fsq.finite_scalar_quantization import FSQ
 def exists(val):

 from einx import get_at
 from einops import rearrange, reduce, pack, unpack
+from sparktts.modules.fsq.finite_scalar_quantization import FSQ
 def exists(val):

{modules → sparktts/modules}/speaker/ecapa_tdnn.py RENAMED Viewed

@@ -22,7 +22,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
-import modules.speaker.pooling_layers as pooling_layers
 class Res2Conv1dReluBn(nn.Module):

 import torch.nn as nn
 import torch.nn.functional as F
+import sparktts.modules.speaker.pooling_layers as pooling_layers
 class Res2Conv1dReluBn(nn.Module):

{modules → sparktts/modules}/speaker/perceiver_encoder.py RENAMED Viewed

File without changes

{modules → sparktts/modules}/speaker/pooling_layers.py RENAMED Viewed

File without changes

{modules → sparktts/modules}/speaker/speaker_encoder.py RENAMED Viewed

@@ -17,9 +17,9 @@ import torch
 import torch.nn as nn
 from typing import List, Tuple
-from modules.fsq.residual_fsq import ResidualFSQ
-from modules.speaker.ecapa_tdnn import ECAPA_TDNN_GLOB_c512
-from modules.speaker.perceiver_encoder import PerceiverResampler
 """
 x-vector + d-vector

 import torch.nn as nn
 from typing import List, Tuple
+from sparktts.modules.fsq.residual_fsq import ResidualFSQ
+from sparktts.modules.speaker.ecapa_tdnn import ECAPA_TDNN_GLOB_c512
+from sparktts.modules.speaker.perceiver_encoder import PerceiverResampler
 """
 x-vector + d-vector

{modules → sparktts/modules}/vq/factorized_vector_quantize.py RENAMED Viewed

File without changes

{utils → sparktts/utils}/__init__.py RENAMED Viewed

File without changes

{utils → sparktts/utils}/audio.py RENAMED Viewed

File without changes

{utils → sparktts/utils}/file.py RENAMED Viewed

File without changes

{utils → sparktts/utils}/parse_options.sh RENAMED Viewed

File without changes

{utils → sparktts/utils}/token_parser.py RENAMED Viewed

File without changes