sdxs / train_sdxxs.py

sdxxs

3465522 13 days ago

27.1 kB

	import os
	import math
	import torch
	import numpy as np
	import matplotlib.pyplot as plt
	from torch.utils.data import DataLoader, Sampler
	from collections import defaultdict
	from torch.optim.lr_scheduler import LambdaLR
	from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
	from accelerate import Accelerator
	from datasets import load_from_disk
	from tqdm import tqdm
	from PIL import Image,ImageOps
	import wandb
	import random
	import gc
	from accelerate.state import DistributedType
	from torch.distributed import broadcast_object_list
	from torch.utils.checkpoint import checkpoint
	from diffusers.models.attention_processor import AttnProcessor2_0
	from datetime import datetime
	import bitsandbytes as bnb

	# --------------------------- Параметры ---------------------------
	save_path = "datasets/768" # "datasets/576" #"datasets/576p2" #"datasets/1152p2" #"datasets/576p2" #"datasets/dataset384_temp" #"datasets/dataset384" #"datasets/imagenet-1kk" #"datasets/siski576" #"datasets/siski384" #"datasets/siski64" #"datasets/mnist"
	batch_size = 50 #30 #26 #45 #11 #45 #555 #35 #7
	base_learning_rate = 2.5e-5 #4e-6 #2e-5 #4e-6 #9.5e-7 #9e-7 #2e-6 #1e-6 #9e-7 #1e-6 #2e-6 #1e-6 #2e-6 #6e-6 #2e-6 #8e-7 #6e-6 #2e-5 #4e-5 #3e-5 #5e-5 #8e-5
	min_learning_rate = 2.5e-5 #2e-5
	num_epochs = 1 #2 #36 #18
	project = "sdxxs"
	use_wandb = True
	save_model = True
	limit = 0 #200000 #0
	checkpoints_folder = ""

	# Параметры для диффузии
	n_diffusion_steps = 40
	samples_to_generate = 12
	guidance_scale = 5
	sample_interval_share = 20 # samples/save per epoch

	# Папки для сохранения результатов
	generated_folder = "samples"
	os.makedirs(generated_folder, exist_ok=True)

	# Настройка seed для воспроизводимости
	current_date = datetime.now()
	seed = int(current_date.strftime("%Y%m%d"))
	fixed_seed = True
	if fixed_seed:
	torch.manual_seed(seed)
	np.random.seed(seed)
	random.seed(seed)
	if torch.cuda.is_available():
	torch.cuda.manual_seed_all(seed)

	# --------------------------- Параметры LoRA ---------------------------
	# pip install peft
	lora_name = "" #"nusha" # Имя для сохранения/загрузки LoRA адаптеров
	lora_rank = 32 # Ранг LoRA (чем меньше, тем компактнее модель)
	lora_alpha = 64 # Альфа параметр LoRA, определяющий масштаб

	print("init")
	# Включение Flash Attention 2/SDPA
	torch.backends.cuda.enable_flash_sdp(True)
	# --------------------------- Инициализация Accelerator --------------------
	dtype = torch.bfloat16
	accelerator = Accelerator(mixed_precision="bf16")
	device = accelerator.device
	gen = torch.Generator(device=device)
	gen.manual_seed(seed)

	# --------------------------- Инициализация WandB ---------------------------
	if use_wandb and accelerator.is_main_process:
	wandb.init(project=project+lora_name, config={
	"batch_size": batch_size,
	"base_learning_rate": base_learning_rate,
	"num_epochs": num_epochs,
	"n_diffusion_steps": n_diffusion_steps,
	"samples_to_generate": samples_to_generate,
	"dtype": str(dtype)
	})

	# --------------------------- Загрузка датасета ---------------------------
	class ResolutionBatchSampler(Sampler):
	"""Сэмплер, который группирует примеры по одинаковым размерам"""
	def __init__(self, dataset, batch_size, shuffle=True, drop_last=False):
	self.dataset = dataset
	self.batch_size = batch_size
	self.shuffle = shuffle
	self.drop_last = drop_last

	# Группируем примеры по размерам
	self.size_groups = defaultdict(list)

	try:
	widths = dataset["width"]
	heights = dataset["height"]
	except KeyError:
	widths = [0] * len(dataset)
	heights = [0] * len(dataset)

	for i, (w, h) in enumerate(zip(widths, heights)):
	size = (w, h)
	self.size_groups[size].append(i)

	# Печатаем статистику по размерам
	print(f"Найдено {len(self.size_groups)} уникальных размеров:")
	for size, indices in sorted(self.size_groups.items(), key=lambda x: len(x[1]), reverse=True):
	width, height = size
	print(f" {width}x{height}: {len(indices)} примеров")

	# Формируем батчи
	self.reset()

	def reset(self):
	"""Сбрасывает и перемешивает индексы"""
	self.batches = []

	for size, indices in self.size_groups.items():
	if self.shuffle:
	indices_copy = indices.copy()
	random.shuffle(indices_copy)
	else:
	indices_copy = indices

	# Разбиваем на батчи
	for i in range(0, len(indices_copy), self.batch_size):
	batch_indices = indices_copy[i:i + self.batch_size]

	# Пропускаем неполные батчи если drop_last=True
	if self.drop_last and len(batch_indices) < self.batch_size:
	continue

	self.batches.append(batch_indices)

	# Перемешиваем батчи между собой
	if self.shuffle:
	random.shuffle(self.batches)

	def __iter__(self):
	self.reset() # Сбрасываем и перемешиваем в начале каждой эпохи
	return iter(self.batches)

	def __len__(self):
	return len(self.batches)

	# Функция для выборки фиксированных семплов по размерам
	def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
	"""Выбирает фиксированные семплы для каждого уникального разрешения"""
	# Группируем по размерам
	size_groups = defaultdict(list)
	try:
	widths = dataset["width"]
	heights = dataset["height"]
	except KeyError:
	widths = [0] * len(dataset)
	heights = [0] * len(dataset)
	for i, (w, h) in enumerate(zip(widths, heights)):
	size = (w, h)
	size_groups[size].append(i)

	# Выбираем фиксированные примеры из каждой группы
	fixed_samples = {}
	for size, indices in size_groups.items():
	# Определяем сколько семплов брать из этой группы
	n_samples = min(samples_per_group, len(indices))
	if len(size_groups)==1:
	n_samples = samples_to_generate
	if n_samples == 0:
	continue

	# Выбираем случайные индексы
	sample_indices = random.sample(indices, n_samples)
	samples_data = [dataset[idx] for idx in sample_indices]

	# Собираем данные
	latents = torch.tensor(np.array([item["vae"] for item in samples_data]), dtype=dtype).to(device)
	embeddings = torch.tensor(np.array([item["embeddings"] for item in samples_data]), dtype=dtype).to(device)
	texts = [item["text"] for item in samples_data]

	# Сохраняем для этого размера
	fixed_samples[size] = (latents, embeddings, texts)

	print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
	return fixed_samples

	if limit > 0:
	dataset = load_from_disk(save_path).select(range(limit))
	else:
	dataset = load_from_disk(save_path)


	def collate_fn(batch):
	# Преобразуем список в тензоры и перемещаем на девайс
	latents = torch.tensor(np.array([item["vae"] for item in batch]), dtype=dtype).to(device)
	embeddings = torch.tensor(np.array([item["embeddings"] for item in batch]), dtype=dtype).to(device)
	return latents, embeddings

	# Используем наш ResolutionBatchSampler
	batch_sampler = ResolutionBatchSampler(dataset, batch_size=batch_size, shuffle=True)
	dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn)

	print("Total samples",len(dataloader))
	dataloader = accelerator.prepare(dataloader)

	# --------------------------- Загрузка моделей ---------------------------
	# VAE загружается на CPU для экономии GPU-памяти
	vae = AutoencoderKL.from_pretrained("AuraDiffusion/16ch-vae").to("cpu", dtype=dtype)

	# DDPMScheduler с V_Prediction и Zero-SNR
	scheduler = DDPMScheduler(
	num_train_timesteps=1000, # Полный график шагов для обучения
	prediction_type="v_prediction", # V-Prediction
	rescale_betas_zero_snr=True, # Включение Zero-SNR
	timestep_spacing="leading", # Добавляем улучшенное распределение шагов
	#steps_offset=1 # Избегаем проблем с нулевым timestep
	)

	# Инициализация переменных для возобновления обучения
	start_epoch = 0
	global_step = 0

	# Расчёт общего количества шагов
	total_training_steps = (len(dataloader) * num_epochs)
	# Get the world size
	world_size = accelerator.state.num_processes
	print(f"World Size: {world_size}")

	# Опция загрузки модели из последнего чекпоинта (если существует)
	latest_checkpoint = os.path.join(checkpoints_folder, project)
	if os.path.isdir(latest_checkpoint):
	print("Загружаем UNet из чекпоинта:", latest_checkpoint)
	unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device, dtype=dtype)
	unet.enable_gradient_checkpointing()
	unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
	try:
	unet.set_attn_processor(AttnProcessor2_0()) # Используем стандартный AttnProcessor
	print("SDPA включен через set_attn_processor.")
	except Exception as e:
	print(f"Ошибка при включении SDPA: {e}")
	print("Попытка использовать enable_xformers_memory_efficient_attention.")
	unet.set_use_memory_efficient_attention_xformers(True)
	if project == "sdxxs":
	# Замораживаем все параметры модели
	for param in unet.parameters():
	param.requires_grad = False

	# Список параметров, которые вы хотите тренировать
	target_params = [
	"down_blocks.3.downsamplers.0.conv.bias",
	"down_blocks.3.downsamplers.0.conv.weight",
	"down_blocks.4.",
	"mid_block.attentions.0.",
	"up_blocks.0"
	]

	# Размораживаем только целевые параметры
	for name, param in unet.named_parameters():
	for target in target_params:
	if name.startswith(target):
	param.requires_grad = True
	break

	# Определяем параметры для оптимизации
	trainable_params = [p for p in unet.parameters() if p.requires_grad]
	lora_params_count = sum(p.numel() for p in trainable_params)
	print(f"Количество обучаемых параметров (как бля LoRA): {lora_params_count:,}")


	if lora_name:
	print(f"--- Настройка LoRA через PEFT (Rank={lora_rank}, Alpha={lora_alpha}) ---")
	from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
	from peft.tuners.lora import LoraModel
	import os
	# 1. Замораживаем все параметры UNet
	unet.requires_grad_(False)
	print("Параметры базового UNet заморожены.")

	# 2. Создаем конфигурацию LoRA
	lora_config = LoraConfig(
	r=lora_rank,
	lora_alpha=lora_alpha,
	target_modules=["to_q", "to_k", "to_v", "to_out.0"],
	)
	unet.add_adapter(lora_config)

	# 3. Оборачиваем UNet в PEFT-модель
	from peft import get_peft_model

	peft_unet = get_peft_model(unet, lora_config)

	# 4. Получаем параметры для оптимизации
	params_to_optimize = list(p for p in peft_unet.parameters() if p.requires_grad)


	# 5. Выводим информацию о количестве параметров
	if accelerator.is_main_process:
	lora_params_count = sum(p.numel() for p in params_to_optimize)
	total_params_count = sum(p.numel() for p in unet.parameters())
	print(f"Количество обучаемых параметров (LoRA): {lora_params_count:,}")
	print(f"Общее количество параметров UNet: {total_params_count:,}")

	# 6. Путь для сохранения
	lora_save_path = os.path.join("lora", lora_name)
	os.makedirs(lora_save_path, exist_ok=True)

	# 7. Функция для сохранения
	def save_lora_checkpoint(model):
	if accelerator.is_main_process:
	print(f"Сохраняем LoRA адаптеры в {lora_save_path}")
	from peft.utils.save_and_load import get_peft_model_state_dict
	# Получаем state_dict только LoRA
	lora_state_dict = get_peft_model_state_dict(model)

	# Сохраняем веса
	torch.save(lora_state_dict, os.path.join(lora_save_path, "adapter_model.bin"))

	# Сохраняем конфиг
	model.peft_config["default"].save_pretrained(lora_save_path)
	# SDXL must be compatible
	from diffusers import StableDiffusionXLPipeline
	StableDiffusionXLPipeline.save_lora_weights(lora_save_path, lora_state_dict)

	# --------------------------- Оптимизатор ---------------------------
	# Определяем параметры для оптимизации
	if lora_name or project=="sdxxs":
	# Если используется LoRA, оптимизируем только параметры LoRA
	trainable_params = [p for p in unet.parameters() if p.requires_grad]
	else:
	# Иначе оптимизируем все параметры
	trainable_params = list(unet.parameters())

	# [1] Создаем словарь оптимизаторов (fused backward)
	optimizer_dict = {
	p: bnb.optim.AdamW8bit(
	[p], # Каждый параметр получает свой оптимизатор
	lr=base_learning_rate,
	betas=(0.9, 0.999),
	weight_decay=1e-5,
	eps=1e-8
	) for p in trainable_params
	}

	# [2] Определяем hook для применения оптимизатора сразу после накопления градиента
	def optimizer_hook(param):
	optimizer_dict[param].step()
	optimizer_dict[param].zero_grad(set_to_none=True)

	# [3] Регистрируем hook для trainable параметров модели
	for param in trainable_params:
	param.register_post_accumulate_grad_hook(optimizer_hook)

	# Подготовка через Accelerator
	unet, optimizer = accelerator.prepare(unet, optimizer_dict)

	# --------------------------- Фиксированные семплы для генерации ---------------------------
	# Примеры фиксированных семплов по размерам
	fixed_samples = get_fixed_samples_by_resolution(dataset)


	@torch.no_grad()
	def generate_and_save_samples(fixed_samples,step):
	"""
	Генерирует семплы для каждого из разрешений и сохраняет их.

	Args:
	step: Текущий шаг обучения
	fixed_samples: Словарь, где ключи - размеры (width, height),
	а значения - кортежи (latents, embeddings)
	"""
	try:
	original_model = accelerator.unwrap_model(unet)
	# Перемещаем VAE на device для семплирования
	vae.to(accelerator.device, dtype=dtype)

	# Устанавливаем количество diffusion шагов
	scheduler.set_timesteps(n_diffusion_steps)

	all_generated_images = []
	size_info = [] # Для хранения информации о размере для каждого изображения
	all_captions = []

	# Проходим по всем группам размеров
	for size, (sample_latents, sample_text_embeddings, sample_text) in fixed_samples.items():
	width, height = size
	size_info.append(f"{width}x{height}")
	#print(f"Генерация {sample_latents.shape[0]} изображений размером {width}x{height}")

	# Инициализируем латенты случайным шумом для этой группы
	noise = torch.randn(
	sample_latents.shape,
	generator=gen,
	device=sample_latents.device,
	dtype=sample_latents.dtype
	)

	# Начинаем с шума
	current_latents = noise.clone()

	# Подготовка текстовых эмбеддингов для guidance
	if guidance_scale > 0:
	empty_embeddings = torch.zeros_like(sample_text_embeddings)
	text_embeddings = torch.cat([empty_embeddings, sample_text_embeddings], dim=0)
	else:
	text_embeddings = sample_text_embeddings

	# Генерация изображений
	for t in scheduler.timesteps:
	# Подготовка входных данных для UNet
	if guidance_scale > 0:
	latent_model_input = torch.cat([current_latents] * 2)
	latent_model_input = scheduler.scale_model_input(latent_model_input, t)
	else:
	latent_model_input = scheduler.scale_model_input(current_latents, t)

	# Предсказание шума
	noise_pred = original_model(latent_model_input, t, text_embeddings).sample

	# Применение guidance scale
	if guidance_scale > 0:
	noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
	noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)

	# Обновление латентов
	current_latents = scheduler.step(noise_pred, t, current_latents).prev_sample

	# Декодирование через VAE
	latent = (current_latents.detach() / vae.config.scaling_factor) + vae.config.shift_factor
	latent = latent.to(accelerator.device, dtype=dtype)
	decoded = vae.decode(latent).sample

	# Преобразуем тензоры в PIL-изображения и сохраняем
	for img_idx, img_tensor in enumerate(decoded):
	img = (img_tensor.to(torch.float32) / 2 + 0.5).clamp(0, 1).cpu().numpy().transpose(1, 2, 0)
	pil_img = Image.fromarray((img * 255).astype("uint8"))
	# Определяем максимальные ширину и высоту
	max_width = max(size[0] for size in fixed_samples.keys())
	max_height = max(size[1] for size in fixed_samples.keys())
	max_width = max(255,max_width)
	max_height = max(255,max_height)

	# Добавляем padding, чтобы изображение стало размером max_width x max_height
	padded_img = ImageOps.pad(pil_img, (max_width, max_height), color='white')

	all_generated_images.append(padded_img)

	caption_text = sample_text[img_idx][:200] if img_idx < len(sample_text) else ""
	all_captions.append(caption_text)

	# Сохраняем с информацией о размере в имени файла
	save_path = f"{generated_folder}/{project}_{width}x{height}_{img_idx}.jpg"
	pil_img.save(save_path, "JPEG", quality=96)

	# Отправляем изображения на WandB с информацией о размере
	if use_wandb and accelerator.is_main_process:
	wandb_images = [
	wandb.Image(img, caption=f"{all_captions[i]}")
	for i, img in enumerate(all_generated_images)
	]
	wandb.log({"generated_images": wandb_images, "global_step": step})

	finally:
	# Гарантированное перемещение VAE обратно на CPU
	vae.to("cpu")
	if original_model is not None:
	del original_model
	# Очистка всех тензоров
	for var in list(locals().keys()):
	if isinstance(locals()[var], torch.Tensor):
	del locals()[var]
	torch.cuda.empty_cache()
	gc.collect()

	# --------------------------- Генерация сэмплов перед обучением ---------------------------
	if accelerator.is_main_process:
	if save_model:
	print("Генерация сэмплов до старта обучения...")
	generate_and_save_samples(fixed_samples,0)

	# Модифицируем функцию сохранения модели для поддержки LoRA
	def save_checkpoint(unet):
	if accelerator.is_main_process:
	if lora_name:
	# Сохраняем только LoRA адаптеры
	save_lora_checkpoint(unet)
	else:
	# Сохраняем полную модель
	accelerator.unwrap_model(unet).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))

	# --------------------------- Тренировочный цикл ---------------------------
	# Для логирования среднего лосса каждые % эпохи
	if accelerator.is_main_process:
	print(f"Total steps per GPU: {total_training_steps}")
	print(f"[GPU {accelerator.process_index}] Total steps: {total_training_steps}")

	epoch_loss_points = []
	progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")

	# Определяем интервал для сэмплирования и логирования в пределах эпохи (10% эпохи)
	steps_per_epoch = len(dataloader)
	sample_interval = max(1, steps_per_epoch // sample_interval_share)

	# Начинаем с указанной эпохи (полезно при возобновлении)
	for epoch in range(start_epoch, start_epoch + num_epochs):
	batch_losses = []
	unet.train()

	for step, (latents, embeddings) in enumerate(dataloader):
	with accelerator.accumulate(unet):
	if save_model == False and step == 3 :
	used_gb = torch.cuda.max_memory_allocated() / 1024**3
	print(f"Шаг {step}: {used_gb:.2f} GB")
	# Forward pass
	noise = torch.randn_like(latents)

	timesteps = torch.randint(
	1, # Начинаем с 1, не с 0
	scheduler.config.num_train_timesteps,
	(latents.shape[0],),
	device=device
	).long()

	# Добавляем шум к латентам
	noisy_latents = scheduler.add_noise(latents, noise, timesteps)

	# Получаем предсказание шума - кастим в bf16
	noise_pred = unet(noisy_latents, timesteps, embeddings).sample.to(dtype=torch.bfloat16)

	# Используем целевое значение v_prediction
	target = scheduler.get_velocity(latents, noise, timesteps)

	# Считаем лосс
	loss = torch.nn.functional.mse_loss(noise_pred.float(), target.float())

	# Делаем backward через Accelerator
	accelerator.backward(loss)

	# Увеличиваем счетчик глобальных шагов
	global_step += 1

	# Обновляем прогресс-бар
	progress_bar.update(1)

	# Логируем метрики
	if accelerator.is_main_process:
	current_lr = base_learning_rate
	batch_losses.append(loss.detach().item())

	# Логируем в Wandb
	if use_wandb:
	wandb.log({
	"loss": loss.detach().item(),
	"learning_rate": current_lr,
	"epoch": epoch,
	"global_step": global_step
	})

	# Генерируем сэмплы с заданным интервалом
	if global_step % sample_interval == 0:
	if save_model:
	save_checkpoint(unet)

	generate_and_save_samples(fixed_samples,global_step)

	# Выводим текущий лосс
	avg_loss = np.mean(batch_losses[-sample_interval:])
	#print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}, LR: {current_lr:.8f}")
	if use_wandb:
	wandb.log({"intermediate_loss": avg_loss})


	# По окончании эпохи
	if accelerator.is_main_process:
	avg_epoch_loss = np.mean(batch_losses)
	print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
	if use_wandb:
	wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})

	# Завершение обучения - сохраняем финальную модель
	if accelerator.is_main_process:
	print("Обучение завершено! Сохраняем финальную модель...")
	# Сохраняем основную модель
	#if save_model:
	save_checkpoint(unet)
	print("Готово!")