Add model weights and configs

Browse files

Files changed (17) hide show

feature_extractor/preprocessor_config.json +22 -0
model_index.json +32 -0
scheduler/scheduler_config.json +19 -0
text_encoder/config.json +206 -0
text_encoder/pytorch_model.bin +3 -0
tokenizer/merges.txt +0 -0
tokenizer/preprocessor_config.json +22 -0
tokenizer/special_tokens_map.json +15 -0
tokenizer/tokenizer.json +0 -0
tokenizer/tokenizer_config.json +16 -0
tokenizer/vocab.json +0 -0
unet/config.json +69 -0
unet/diffusion_pytorch_model.bin +3 -0
vae/config.json +28 -0
vae/diffusion_pytorch_model.bin +3 -0
vocoder/config.json +50 -0
vocoder/pytorch_model.bin +3 -0

feature_extractor/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+ "chunk_length_s": 10,
+ "feature_extractor_type": "ClapFeatureExtractor",
+ "feature_size": 64,
+ "fft_window_size": 1024,
+ "frequency_max": 14000,
+ "frequency_min": 50,
+ "hop_length": 480,
+ "max_length_s": 10,
+ "n_fft": 1024,
+ "nb_frequency_bins": 513,
+ "nb_max_frames": 1000,
+ "nb_max_samples": 480000,
+ "padding": "repeatpad",
+ "padding_side": "right",
+ "padding_value": 0.0,
+ "processor_class": "ClapProcessor",
+ "return_attention_mask": false,
+ "sampling_rate": 48000,
+ "top_db": null,
+ "truncation": "rand_trunc"
+}

model_index.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+ "_class_name": "MusicLDMPipeline",
+ "_diffusers_version": "0.20.0.dev0",
+ "feature_extractor": [
+ "transformers",
+ "ClapFeatureExtractor"
+ ],
+ "scheduler": [
+ "diffusers",
+ "DDIMScheduler"
+ ],
+ "text_encoder": [
+ "transformers",
+ "ClapModel"
+ ],
+ "tokenizer": [
+ "transformers",
+ "RobertaTokenizerFast"
+ ],
+ "unet": [
+ "diffusers",
+ "UNet2DConditionModel"
+ ],
+ "vae": [
+ "diffusers",
+ "AutoencoderKL"
+ ],
+ "vocoder": [
+ "transformers",
+ "SpeechT5HifiGan"
+ ]
+}

scheduler/scheduler_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+ "_class_name": "DDIMScheduler",
+ "_diffusers_version": "0.20.0.dev0",
+ "beta_end": 0.0195,
+ "beta_schedule": "scaled_linear",
+ "beta_start": 0.0015,
+ "clip_sample": false,
+ "clip_sample_range": 1.0,
+ "dynamic_thresholding_ratio": 0.995,
+ "num_train_timesteps": 1000,
+ "prediction_type": "epsilon",
+ "rescale_betas_zero_snr": false,
+ "sample_max_value": 1.0,
+ "set_alpha_to_one": false,
+ "steps_offset": 1,
+ "thresholding": false,
+ "timestep_spacing": "leading",
+ "trained_betas": null
+}

text_encoder/config.json ADDED Viewed

	@@ -0,0 +1,206 @@

+{
+ "_commit_hash": "8fa0f1c6d0433df6e97c127f64b2a1d6c0dcda8a",
+ "architectures": [
+ "ClapModel"
+ ],
+ "audio_config": {
+ "_name_or_path": "",
+ "add_cross_attention": false,
+ "aff_block_r": 4,
+ "architectures": null,
+ "attention_probs_dropout_prob": 0.0,
+ "bad_words_ids": null,
+ "begin_suppress_tokens": null,
+ "bos_token_id": null,
+ "chunk_size_feed_forward": 0,
+ "cross_attention_hidden_size": null,
+ "decoder_start_token_id": null,
+ "depths": [
+ 2,
+ 2,
+ 12,
+ 2
+ ],
+ "diversity_penalty": 0.0,
+ "do_sample": false,
+ "drop_path_rate": 0.0,
+ "early_stopping": false,
+ "enable_fusion": false,
+ "enable_patch_layer_norm": true,
+ "encoder_no_repeat_ngram_size": 0,
+ "eos_token_id": null,
+ "exponential_decay_length_penalty": null,
+ "finetuning_task": null,
+ "flatten_patch_embeds": true,
+ "forced_bos_token_id": null,
+ "forced_eos_token_id": null,
+ "fusion_num_hidden_layers": 2,
+ "fusion_type": null,
+ "hidden_act": "gelu",
+ "hidden_dropout_prob": 0.1,
+ "hidden_size": 1024,
+ "id2label": {
+ "0": "LABEL_0",
+ "1": "LABEL_1"
+ },
+ "initializer_factor": 1.0,
+ "is_decoder": false,
+ "is_encoder_decoder": false,
+ "label2id": {
+ "LABEL_0": 0,
+ "LABEL_1": 1
+ },
+ "layer_norm_eps": 1e-05,
+ "length_penalty": 1.0,
+ "max_length": 20,
+ "min_length": 0,
+ "mlp_ratio": 4.0,
+ "model_type": "clap_audio_model",
+ "no_repeat_ngram_size": 0,
+ "num_attention_heads": [
+ 4,
+ 8,
+ 16,
+ 32
+ ],
+ "num_beam_groups": 1,
+ "num_beams": 1,
+ "num_classes": 527,
+ "num_hidden_layers": 4,
+ "num_mel_bins": 64,
+ "num_return_sequences": 1,
+ "output_attentions": false,
+ "output_hidden_states": false,
+ "output_scores": false,
+ "pad_token_id": null,
+ "patch_embed_input_channels": 1,
+ "patch_embeds_hidden_size": 128,
+ "patch_size": 4,
+ "patch_stride": [
+ 4,
+ 4
+ ],
+ "prefix": null,
+ "problem_type": null,
+ "projection_dim": 512,
+ "projection_hidden_act": "relu",
+ "projection_hidden_size": 768,
+ "pruned_heads": {},
+ "qkv_bias": true,
+ "remove_invalid_values": false,
+ "repetition_penalty": 1.0,
+ "return_dict": true,
+ "return_dict_in_generate": false,
+ "sep_token_id": null,
+ "spec_size": 256,
+ "suppress_tokens": null,
+ "task_specific_params": null,
+ "temperature": 1.0,
+ "tf_legacy_loss": false,
+ "tie_encoder_decoder": false,
+ "tie_word_embeddings": true,
+ "tokenizer_class": null,
+ "top_k": 50,
+ "top_p": 1.0,
+ "torch_dtype": null,
+ "torchscript": false,
+ "transformers_version": "4.30.2",
+ "typical_p": 1.0,
+ "use_bfloat16": false,
+ "window_size": 8
+ },
+ "hidden_size": 768,
+ "initializer_factor": 1.0,
+ "logit_scale_init_value": 14.285714285714285,
+ "model_type": "clap",
+ "num_hidden_layers": 16,
+ "projection_dim": 512,
+ "projection_hidden_act": "relu",
+ "text_config": {
+ "_name_or_path": "",
+ "add_cross_attention": false,
+ "architectures": null,
+ "attention_probs_dropout_prob": 0.1,
+ "bad_words_ids": null,
+ "begin_suppress_tokens": null,
+ "bos_token_id": 0,
+ "chunk_size_feed_forward": 0,
+ "classifier_dropout": null,
+ "cross_attention_hidden_size": null,
+ "decoder_start_token_id": null,
+ "diversity_penalty": 0.0,
+ "do_sample": false,
+ "early_stopping": false,
+ "encoder_no_repeat_ngram_size": 0,
+ "eos_token_id": 2,
+ "exponential_decay_length_penalty": null,
+ "finetuning_task": null,
+ "forced_bos_token_id": null,
+ "forced_eos_token_id": null,
+ "fusion_hidden_size": 768,
+ "fusion_num_hidden_layers": 2,
+ "hidden_act": "gelu",
+ "hidden_dropout_prob": 0.1,
+ "hidden_size": 768,
+ "id2label": {
+ "0": "LABEL_0",
+ "1": "LABEL_1"
+ },
+ "initializer_factor": 1.0,
+ "initializer_range": 0.02,
+ "intermediate_size": 3072,
+ "is_decoder": false,
+ "is_encoder_decoder": false,
+ "label2id": {
+ "LABEL_0": 0,
+ "LABEL_1": 1
+ },
+ "layer_norm_eps": 1e-12,
+ "length_penalty": 1.0,
+ "max_length": 20,
+ "max_position_embeddings": 514,
+ "min_length": 0,
+ "model_type": "clap_text_model",
+ "no_repeat_ngram_size": 0,
+ "num_attention_heads": 12,
+ "num_beam_groups": 1,
+ "num_beams": 1,
+ "num_hidden_layers": 12,
+ "num_return_sequences": 1,
+ "output_attentions": false,
+ "output_hidden_states": false,
+ "output_scores": false,
+ "pad_token_id": 1,
+ "position_embedding_type": "absolute",
+ "prefix": null,
+ "problem_type": null,
+ "projection_dim": 512,
+ "projection_hidden_act": "relu",
+ "projection_hidden_size": 768,
+ "pruned_heads": {},
+ "remove_invalid_values": false,
+ "repetition_penalty": 1.0,
+ "return_dict": true,
+ "return_dict_in_generate": false,
+ "sep_token_id": null,
+ "suppress_tokens": null,
+ "task_specific_params": null,
+ "temperature": 1.0,
+ "tf_legacy_loss": false,
+ "tie_encoder_decoder": false,
+ "tie_word_embeddings": true,
+ "tokenizer_class": null,
+ "top_k": 50,
+ "top_p": 1.0,
+ "torch_dtype": null,
+ "torchscript": false,
+ "transformers_version": "4.30.2",
+ "type_vocab_size": 1,
+ "typical_p": 1.0,
+ "use_bfloat16": false,
+ "use_cache": true,
+ "vocab_size": 50265
+ },
+ "torch_dtype": "float32",
+ "transformers_version": null
+}

text_encoder/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f93b3b3fc745788d05b459fd60526de0a5148a2048c9e2e55dfccaf2ee70bb95
+size 776444665

tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+ "chunk_length_s": 10,
+ "feature_extractor_type": "ClapFeatureExtractor",
+ "feature_size": 64,
+ "fft_window_size": 1024,
+ "frequency_max": 14000,
+ "frequency_min": 50,
+ "hop_length": 480,
+ "max_length_s": 10,
+ "n_fft": 1024,
+ "nb_frequency_bins": 513,
+ "nb_max_frames": 1000,
+ "nb_max_samples": 480000,
+ "padding": "repeatpad",
+ "padding_side": "right",
+ "padding_value": 0.0,
+ "processor_class": "ClapProcessor",
+ "return_attention_mask": false,
+ "sampling_rate": 48000,
+ "top_db": null,
+ "truncation": "rand_trunc"
+}

tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+ "bos_token": "<s>",
+ "cls_token": "<s>",
+ "eos_token": "</s>",
+ "mask_token": {
+ "content": "<mask>",
+ "lstrip": true,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false
+ },
+ "pad_token": "<pad>",
+ "sep_token": "</s>",
+ "unk_token": "<unk>"
+}

tokenizer/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+ "add_prefix_space": false,
+ "bos_token": "<s>",
+ "clean_up_tokenization_spaces": true,
+ "cls_token": "<s>",
+ "eos_token": "</s>",
+ "errors": "replace",
+ "mask_token": "<mask>",
+ "model_max_length": 512,
+ "pad_token": "<pad>",
+ "processor_class": "ClapProcessor",
+ "sep_token": "</s>",
+ "tokenizer_class": "RobertaTokenizer",
+ "trim_offsets": true,
+ "unk_token": "<unk>"
+}

tokenizer/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

unet/config.json ADDED Viewed

	@@ -0,0 +1,69 @@

+{
+ "_class_name": "UNet2DConditionModel",
+ "_diffusers_version": "0.20.0.dev0",
+ "act_fn": "silu",
+ "addition_embed_type": null,
+ "addition_embed_type_num_heads": 64,
+ "addition_time_embed_dim": null,
+ "attention_head_dim": 8,
+ "block_out_channels": [
+ 128,
+ 256,
+ 384,
+ 640
+ ],
+ "center_input_sample": false,
+ "class_embed_type": "simple_projection",
+ "class_embeddings_concat": true,
+ "conv_in_kernel": 3,
+ "conv_out_kernel": 3,
+ "cross_attention_dim": [
+ 128,
+ 256,
+ 384,
+ 640
+ ],
+ "cross_attention_norm": null,
+ "down_block_types": [
+ "DownBlock2D",
+ "CrossAttnDownBlock2D",
+ "CrossAttnDownBlock2D",
+ "CrossAttnDownBlock2D"
+ ],
+ "downsample_padding": 1,
+ "dual_cross_attention": false,
+ "encoder_hid_dim": null,
+ "encoder_hid_dim_type": null,
+ "flip_sin_to_cos": true,
+ "freq_shift": 0,
+ "in_channels": 8,
+ "layers_per_block": 2,
+ "mid_block_only_cross_attention": null,
+ "mid_block_scale_factor": 1,
+ "mid_block_type": "UNetMidBlock2DCrossAttn",
+ "norm_eps": 1e-05,
+ "norm_num_groups": 32,
+ "num_attention_heads": null,
+ "num_class_embeds": null,
+ "only_cross_attention": false,
+ "out_channels": 8,
+ "projection_class_embeddings_input_dim": 512,
+ "resnet_out_scale_factor": 1.0,
+ "resnet_skip_time_act": false,
+ "resnet_time_scale_shift": "default",
+ "sample_size": 128,
+ "time_cond_proj_dim": null,
+ "time_embedding_act_fn": null,
+ "time_embedding_dim": null,
+ "time_embedding_type": "positional",
+ "timestep_post_act": null,
+ "transformer_layers_per_block": 1,
+ "up_block_types": [
+ "CrossAttnUpBlock2D",
+ "CrossAttnUpBlock2D",
+ "CrossAttnUpBlock2D",
+ "UpBlock2D"
+ ],
+ "upcast_attention": false,
+ "use_linear_projection": false
+}

unet/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:298a06ae4dacc4f204edf80fe4a3eaec802b15bc24780536f6f8cfa675ef7614
+size 740429981

vae/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+ "_class_name": "AutoencoderKL",
+ "_diffusers_version": "0.20.0.dev0",
+ "act_fn": "silu",
+ "block_out_channels": [
+ 128,
+ 256,
+ 512
+ ],
+ "down_block_types": [
+ "DownEncoderBlock2D",
+ "DownEncoderBlock2D",
+ "DownEncoderBlock2D"
+ ],
+ "force_upcast": true,
+ "in_channels": 1,
+ "latent_channels": 8,
+ "layers_per_block": 2,
+ "norm_num_groups": 32,
+ "out_channels": 1,
+ "sample_size": 512,
+ "scaling_factor": 1.075324296951294,
+ "up_block_types": [
+ "UpDecoderBlock2D",
+ "UpDecoderBlock2D",
+ "UpDecoderBlock2D"
+ ]
+}

vae/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ecc34b08d65bc63becf9738fa3c2ee0c3837c6aa42128ff274004d705eb02d6
+size 221586761

vocoder/config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+ "architectures": [
+ "SpeechT5HifiGan"
+ ],
+ "initializer_range": 0.01,
+ "leaky_relu_slope": 0.1,
+ "model_in_dim": 64,
+ "model_type": "hifigan",
+ "normalize_before": false,
+ "resblock_dilation_sizes": [
+ [
+ 1,
+ 3,
+ 5
+ ],
+ [
+ 1,
+ 3,
+ 5
+ ],
+ [
+ 1,
+ 3,
+ 5
+ ]
+ ],
+ "resblock_kernel_sizes": [
+ 3,
+ 7,
+ 11
+ ],
+ "sampling_rate": 16000,
+ "torch_dtype": "float32",
+ "transformers_version": "4.30.2",
+ "upsample_initial_channel": 1024,
+ "upsample_kernel_sizes": [
+ 16,
+ 16,
+ 8,
+ 4,
+ 4
+ ],
+ "upsample_rates": [
+ 5,
+ 4,
+ 2,
+ 2,
+ 2
+ ]
+}

vocoder/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1f835cc6409503d443eb01a461afa653f1ddf2703c5b43aeb74d64894a2a23d
+size 221120349