ecker
/

vall-e

Model card Files Files and versions Community

vall-e / models /experiments /config.dac.yaml

mrq

stuff

db6b323 5 months ago

2.61 kB

	sample_rate: 44_000
	audio_backend: "dac"

	models:
	- name: "ar+nar-dac"
	size:
	audio_tokens: 1024
	text_tokens: 256
	dim: 1024
	heads: 16
	layers: 16
	resp_levels: 8
	prom_levels: 8
	tasks: 8
	langs: 2
	tones: 1
	arch_type: llama
	training: True
	version: 5
	attention: auto
	dropout: 0.1

	loss_factors:
	text: 0.01
	prom: 0.5
	resp: 1.0

	capabilities: ["ar", "nar"]

	experimental:
	hf: False
	interleave: False
	audio_embedding_sums: False
	rvq_level_range: []

	hyperparameters:
	autotune: False
	autotune_params:
	start_profile_step: 1
	end_profile_step: 50
	num_tuning_micro_batch_sizes: 8

	batch_size: 16
	gradient_accumulation_steps: 2
	gradient_clipping: 1.0
	warmup_steps: 10

	optimizer: Prodigy
	learning_rate: 1.0
	torch_optimizer: True

	scheduler: "" # ScheduleFree
	torch_scheduler: True

	evaluation:
	batch_size: 4
	frequency: 1000
	size: 4

	steps: 500
	ar_temperature: 1.0
	nar_temperature: 0.0
	load_disabled_engines: True

	trainer:
	#no_logger: True
	ddp: False
	check_for_oom: False
	iterations: 1_000_000

	save_tag: step
	save_on_oom: True
	save_on_quit: True
	save_frequency: 500
	export_on_save: True

	keep_last_checkpoints: 4

	aggressive_optimizations: False
	load_disabled_engines: False
	gradient_checkpointing: True

	#load_state_dict: True
	strict_loading: False
	#load_tag: "9500"
	#load_states: False
	#restart_step_count: True

	gc_mode: None # "global_step"

	weight_dtype: bfloat16
	amp: False

	backend: deepspeed
	deepspeed:
	inferencing: False
	zero_optimization_level: 0
	use_compression_training: False

	amp: False

	load_webui: False

	inference:
	backend: local
	normalize: False

	weight_dtype: bfloat16
	amp: False

	optimizations:
	injects: False
	replace: True

	linear: False
	embedding: False
	optimizers: True

	bitsandbytes: False
	dadaptation: False
	bitnet: False
	fp8: False

	dataset:
	speaker_name_getter: "lambda p: f'{p.parts[-3]}_{p.parts[-2]}'"
	speaker_group_getter: "lambda p: f'{p.parts[-3]}'"
	speaker_languages:
	ja: []

	use_hdf5: True
	use_metadata: True
	hdf5_flag: r
	validate: True

	workers: 6
	cache: True

	duration_range: [2.0, 60.0]

	random_utterance: 1.0
	max_prompts: 1
	prompt_duration_range: [3.0, 3.0]

	max_resps: 1
	p_resp_append: 0.25

	sample_type: path # path \| speaker \| group
	sample_order: duration
	sample_max_duration_batch: 0

	tasks_list: [ "tts" ] # , [ "tts", "tts-c", "ns", "sr", "tse", "cse", "nse", "tts"]

	training: []
	validation: []
	noise: []