sdxs / train_sdxxs.py
recoilme's picture
sdxxs
3465522
raw
history blame contribute delete
27.1 kB
import os
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch.utils.data import DataLoader, Sampler
from collections import defaultdict
from torch.optim.lr_scheduler import LambdaLR
from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
from accelerate import Accelerator
from datasets import load_from_disk
from tqdm import tqdm
from PIL import Image,ImageOps
import wandb
import random
import gc
from accelerate.state import DistributedType
from torch.distributed import broadcast_object_list
from torch.utils.checkpoint import checkpoint
from diffusers.models.attention_processor import AttnProcessor2_0
from datetime import datetime
import bitsandbytes as bnb
# --------------------------- Параметры ---------------------------
save_path = "datasets/768" # "datasets/576" #"datasets/576p2" #"datasets/1152p2" #"datasets/576p2" #"datasets/dataset384_temp" #"datasets/dataset384" #"datasets/imagenet-1kk" #"datasets/siski576" #"datasets/siski384" #"datasets/siski64" #"datasets/mnist"
batch_size = 50 #30 #26 #45 #11 #45 #555 #35 #7
base_learning_rate = 2.5e-5 #4e-6 #2e-5 #4e-6 #9.5e-7 #9e-7 #2e-6 #1e-6 #9e-7 #1e-6 #2e-6 #1e-6 #2e-6 #6e-6 #2e-6 #8e-7 #6e-6 #2e-5 #4e-5 #3e-5 #5e-5 #8e-5
min_learning_rate = 2.5e-5 #2e-5
num_epochs = 1 #2 #36 #18
project = "sdxxs"
use_wandb = True
save_model = True
limit = 0 #200000 #0
checkpoints_folder = ""
# Параметры для диффузии
n_diffusion_steps = 40
samples_to_generate = 12
guidance_scale = 5
sample_interval_share = 20 # samples/save per epoch
# Папки для сохранения результатов
generated_folder = "samples"
os.makedirs(generated_folder, exist_ok=True)
# Настройка seed для воспроизводимости
current_date = datetime.now()
seed = int(current_date.strftime("%Y%m%d"))
fixed_seed = True
if fixed_seed:
torch.manual_seed(seed)
np.random.seed(seed)
random.seed(seed)
if torch.cuda.is_available():
torch.cuda.manual_seed_all(seed)
# --------------------------- Параметры LoRA ---------------------------
# pip install peft
lora_name = "" #"nusha" # Имя для сохранения/загрузки LoRA адаптеров
lora_rank = 32 # Ранг LoRA (чем меньше, тем компактнее модель)
lora_alpha = 64 # Альфа параметр LoRA, определяющий масштаб
print("init")
# Включение Flash Attention 2/SDPA
torch.backends.cuda.enable_flash_sdp(True)
# --------------------------- Инициализация Accelerator --------------------
dtype = torch.bfloat16
accelerator = Accelerator(mixed_precision="bf16")
device = accelerator.device
gen = torch.Generator(device=device)
gen.manual_seed(seed)
# --------------------------- Инициализация WandB ---------------------------
if use_wandb and accelerator.is_main_process:
wandb.init(project=project+lora_name, config={
"batch_size": batch_size,
"base_learning_rate": base_learning_rate,
"num_epochs": num_epochs,
"n_diffusion_steps": n_diffusion_steps,
"samples_to_generate": samples_to_generate,
"dtype": str(dtype)
})
# --------------------------- Загрузка датасета ---------------------------
class ResolutionBatchSampler(Sampler):
"""Сэмплер, который группирует примеры по одинаковым размерам"""
def __init__(self, dataset, batch_size, shuffle=True, drop_last=False):
self.dataset = dataset
self.batch_size = batch_size
self.shuffle = shuffle
self.drop_last = drop_last
# Группируем примеры по размерам
self.size_groups = defaultdict(list)
try:
widths = dataset["width"]
heights = dataset["height"]
except KeyError:
widths = [0] * len(dataset)
heights = [0] * len(dataset)
for i, (w, h) in enumerate(zip(widths, heights)):
size = (w, h)
self.size_groups[size].append(i)
# Печатаем статистику по размерам
print(f"Найдено {len(self.size_groups)} уникальных размеров:")
for size, indices in sorted(self.size_groups.items(), key=lambda x: len(x[1]), reverse=True):
width, height = size
print(f" {width}x{height}: {len(indices)} примеров")
# Формируем батчи
self.reset()
def reset(self):
"""Сбрасывает и перемешивает индексы"""
self.batches = []
for size, indices in self.size_groups.items():
if self.shuffle:
indices_copy = indices.copy()
random.shuffle(indices_copy)
else:
indices_copy = indices
# Разбиваем на батчи
for i in range(0, len(indices_copy), self.batch_size):
batch_indices = indices_copy[i:i + self.batch_size]
# Пропускаем неполные батчи если drop_last=True
if self.drop_last and len(batch_indices) < self.batch_size:
continue
self.batches.append(batch_indices)
# Перемешиваем батчи между собой
if self.shuffle:
random.shuffle(self.batches)
def __iter__(self):
self.reset() # Сбрасываем и перемешиваем в начале каждой эпохи
return iter(self.batches)
def __len__(self):
return len(self.batches)
# Функция для выборки фиксированных семплов по размерам
def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
"""Выбирает фиксированные семплы для каждого уникального разрешения"""
# Группируем по размерам
size_groups = defaultdict(list)
try:
widths = dataset["width"]
heights = dataset["height"]
except KeyError:
widths = [0] * len(dataset)
heights = [0] * len(dataset)
for i, (w, h) in enumerate(zip(widths, heights)):
size = (w, h)
size_groups[size].append(i)
# Выбираем фиксированные примеры из каждой группы
fixed_samples = {}
for size, indices in size_groups.items():
# Определяем сколько семплов брать из этой группы
n_samples = min(samples_per_group, len(indices))
if len(size_groups)==1:
n_samples = samples_to_generate
if n_samples == 0:
continue
# Выбираем случайные индексы
sample_indices = random.sample(indices, n_samples)
samples_data = [dataset[idx] for idx in sample_indices]
# Собираем данные
latents = torch.tensor(np.array([item["vae"] for item in samples_data]), dtype=dtype).to(device)
embeddings = torch.tensor(np.array([item["embeddings"] for item in samples_data]), dtype=dtype).to(device)
texts = [item["text"] for item in samples_data]
# Сохраняем для этого размера
fixed_samples[size] = (latents, embeddings, texts)
print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
return fixed_samples
if limit > 0:
dataset = load_from_disk(save_path).select(range(limit))
else:
dataset = load_from_disk(save_path)
def collate_fn(batch):
# Преобразуем список в тензоры и перемещаем на девайс
latents = torch.tensor(np.array([item["vae"] for item in batch]), dtype=dtype).to(device)
embeddings = torch.tensor(np.array([item["embeddings"] for item in batch]), dtype=dtype).to(device)
return latents, embeddings
# Используем наш ResolutionBatchSampler
batch_sampler = ResolutionBatchSampler(dataset, batch_size=batch_size, shuffle=True)
dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn)
print("Total samples",len(dataloader))
dataloader = accelerator.prepare(dataloader)
# --------------------------- Загрузка моделей ---------------------------
# VAE загружается на CPU для экономии GPU-памяти
vae = AutoencoderKL.from_pretrained("AuraDiffusion/16ch-vae").to("cpu", dtype=dtype)
# DDPMScheduler с V_Prediction и Zero-SNR
scheduler = DDPMScheduler(
num_train_timesteps=1000, # Полный график шагов для обучения
prediction_type="v_prediction", # V-Prediction
rescale_betas_zero_snr=True, # Включение Zero-SNR
timestep_spacing="leading", # Добавляем улучшенное распределение шагов
#steps_offset=1 # Избегаем проблем с нулевым timestep
)
# Инициализация переменных для возобновления обучения
start_epoch = 0
global_step = 0
# Расчёт общего количества шагов
total_training_steps = (len(dataloader) * num_epochs)
# Get the world size
world_size = accelerator.state.num_processes
print(f"World Size: {world_size}")
# Опция загрузки модели из последнего чекпоинта (если существует)
latest_checkpoint = os.path.join(checkpoints_folder, project)
if os.path.isdir(latest_checkpoint):
print("Загружаем UNet из чекпоинта:", latest_checkpoint)
unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device, dtype=dtype)
unet.enable_gradient_checkpointing()
unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
try:
unet.set_attn_processor(AttnProcessor2_0()) # Используем стандартный AttnProcessor
print("SDPA включен через set_attn_processor.")
except Exception as e:
print(f"Ошибка при включении SDPA: {e}")
print("Попытка использовать enable_xformers_memory_efficient_attention.")
unet.set_use_memory_efficient_attention_xformers(True)
if project == "sdxxs":
# Замораживаем все параметры модели
for param in unet.parameters():
param.requires_grad = False
# Список параметров, которые вы хотите тренировать
target_params = [
"down_blocks.3.downsamplers.0.conv.bias",
"down_blocks.3.downsamplers.0.conv.weight",
"down_blocks.4.",
"mid_block.attentions.0.",
"up_blocks.0"
]
# Размораживаем только целевые параметры
for name, param in unet.named_parameters():
for target in target_params:
if name.startswith(target):
param.requires_grad = True
break
# Определяем параметры для оптимизации
trainable_params = [p for p in unet.parameters() if p.requires_grad]
lora_params_count = sum(p.numel() for p in trainable_params)
print(f"Количество обучаемых параметров (как бля LoRA): {lora_params_count:,}")
if lora_name:
print(f"--- Настройка LoRA через PEFT (Rank={lora_rank}, Alpha={lora_alpha}) ---")
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from peft.tuners.lora import LoraModel
import os
# 1. Замораживаем все параметры UNet
unet.requires_grad_(False)
print("Параметры базового UNet заморожены.")
# 2. Создаем конфигурацию LoRA
lora_config = LoraConfig(
r=lora_rank,
lora_alpha=lora_alpha,
target_modules=["to_q", "to_k", "to_v", "to_out.0"],
)
unet.add_adapter(lora_config)
# 3. Оборачиваем UNet в PEFT-модель
from peft import get_peft_model
peft_unet = get_peft_model(unet, lora_config)
# 4. Получаем параметры для оптимизации
params_to_optimize = list(p for p in peft_unet.parameters() if p.requires_grad)
# 5. Выводим информацию о количестве параметров
if accelerator.is_main_process:
lora_params_count = sum(p.numel() for p in params_to_optimize)
total_params_count = sum(p.numel() for p in unet.parameters())
print(f"Количество обучаемых параметров (LoRA): {lora_params_count:,}")
print(f"Общее количество параметров UNet: {total_params_count:,}")
# 6. Путь для сохранения
lora_save_path = os.path.join("lora", lora_name)
os.makedirs(lora_save_path, exist_ok=True)
# 7. Функция для сохранения
def save_lora_checkpoint(model):
if accelerator.is_main_process:
print(f"Сохраняем LoRA адаптеры в {lora_save_path}")
from peft.utils.save_and_load import get_peft_model_state_dict
# Получаем state_dict только LoRA
lora_state_dict = get_peft_model_state_dict(model)
# Сохраняем веса
torch.save(lora_state_dict, os.path.join(lora_save_path, "adapter_model.bin"))
# Сохраняем конфиг
model.peft_config["default"].save_pretrained(lora_save_path)
# SDXL must be compatible
from diffusers import StableDiffusionXLPipeline
StableDiffusionXLPipeline.save_lora_weights(lora_save_path, lora_state_dict)
# --------------------------- Оптимизатор ---------------------------
# Определяем параметры для оптимизации
if lora_name or project=="sdxxs":
# Если используется LoRA, оптимизируем только параметры LoRA
trainable_params = [p for p in unet.parameters() if p.requires_grad]
else:
# Иначе оптимизируем все параметры
trainable_params = list(unet.parameters())
# [1] Создаем словарь оптимизаторов (fused backward)
optimizer_dict = {
p: bnb.optim.AdamW8bit(
[p], # Каждый параметр получает свой оптимизатор
lr=base_learning_rate,
betas=(0.9, 0.999),
weight_decay=1e-5,
eps=1e-8
) for p in trainable_params
}
# [2] Определяем hook для применения оптимизатора сразу после накопления градиента
def optimizer_hook(param):
optimizer_dict[param].step()
optimizer_dict[param].zero_grad(set_to_none=True)
# [3] Регистрируем hook для trainable параметров модели
for param in trainable_params:
param.register_post_accumulate_grad_hook(optimizer_hook)
# Подготовка через Accelerator
unet, optimizer = accelerator.prepare(unet, optimizer_dict)
# --------------------------- Фиксированные семплы для генерации ---------------------------
# Примеры фиксированных семплов по размерам
fixed_samples = get_fixed_samples_by_resolution(dataset)
@torch.no_grad()
def generate_and_save_samples(fixed_samples,step):
"""
Генерирует семплы для каждого из разрешений и сохраняет их.
Args:
step: Текущий шаг обучения
fixed_samples: Словарь, где ключи - размеры (width, height),
а значения - кортежи (latents, embeddings)
"""
try:
original_model = accelerator.unwrap_model(unet)
# Перемещаем VAE на device для семплирования
vae.to(accelerator.device, dtype=dtype)
# Устанавливаем количество diffusion шагов
scheduler.set_timesteps(n_diffusion_steps)
all_generated_images = []
size_info = [] # Для хранения информации о размере для каждого изображения
all_captions = []
# Проходим по всем группам размеров
for size, (sample_latents, sample_text_embeddings, sample_text) in fixed_samples.items():
width, height = size
size_info.append(f"{width}x{height}")
#print(f"Генерация {sample_latents.shape[0]} изображений размером {width}x{height}")
# Инициализируем латенты случайным шумом для этой группы
noise = torch.randn(
sample_latents.shape,
generator=gen,
device=sample_latents.device,
dtype=sample_latents.dtype
)
# Начинаем с шума
current_latents = noise.clone()
# Подготовка текстовых эмбеддингов для guidance
if guidance_scale > 0:
empty_embeddings = torch.zeros_like(sample_text_embeddings)
text_embeddings = torch.cat([empty_embeddings, sample_text_embeddings], dim=0)
else:
text_embeddings = sample_text_embeddings
# Генерация изображений
for t in scheduler.timesteps:
# Подготовка входных данных для UNet
if guidance_scale > 0:
latent_model_input = torch.cat([current_latents] * 2)
latent_model_input = scheduler.scale_model_input(latent_model_input, t)
else:
latent_model_input = scheduler.scale_model_input(current_latents, t)
# Предсказание шума
noise_pred = original_model(latent_model_input, t, text_embeddings).sample
# Применение guidance scale
if guidance_scale > 0:
noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)
# Обновление латентов
current_latents = scheduler.step(noise_pred, t, current_latents).prev_sample
# Декодирование через VAE
latent = (current_latents.detach() / vae.config.scaling_factor) + vae.config.shift_factor
latent = latent.to(accelerator.device, dtype=dtype)
decoded = vae.decode(latent).sample
# Преобразуем тензоры в PIL-изображения и сохраняем
for img_idx, img_tensor in enumerate(decoded):
img = (img_tensor.to(torch.float32) / 2 + 0.5).clamp(0, 1).cpu().numpy().transpose(1, 2, 0)
pil_img = Image.fromarray((img * 255).astype("uint8"))
# Определяем максимальные ширину и высоту
max_width = max(size[0] for size in fixed_samples.keys())
max_height = max(size[1] for size in fixed_samples.keys())
max_width = max(255,max_width)
max_height = max(255,max_height)
# Добавляем padding, чтобы изображение стало размером max_width x max_height
padded_img = ImageOps.pad(pil_img, (max_width, max_height), color='white')
all_generated_images.append(padded_img)
caption_text = sample_text[img_idx][:200] if img_idx < len(sample_text) else ""
all_captions.append(caption_text)
# Сохраняем с информацией о размере в имени файла
save_path = f"{generated_folder}/{project}_{width}x{height}_{img_idx}.jpg"
pil_img.save(save_path, "JPEG", quality=96)
# Отправляем изображения на WandB с информацией о размере
if use_wandb and accelerator.is_main_process:
wandb_images = [
wandb.Image(img, caption=f"{all_captions[i]}")
for i, img in enumerate(all_generated_images)
]
wandb.log({"generated_images": wandb_images, "global_step": step})
finally:
# Гарантированное перемещение VAE обратно на CPU
vae.to("cpu")
if original_model is not None:
del original_model
# Очистка всех тензоров
for var in list(locals().keys()):
if isinstance(locals()[var], torch.Tensor):
del locals()[var]
torch.cuda.empty_cache()
gc.collect()
# --------------------------- Генерация сэмплов перед обучением ---------------------------
if accelerator.is_main_process:
if save_model:
print("Генерация сэмплов до старта обучения...")
generate_and_save_samples(fixed_samples,0)
# Модифицируем функцию сохранения модели для поддержки LoRA
def save_checkpoint(unet):
if accelerator.is_main_process:
if lora_name:
# Сохраняем только LoRA адаптеры
save_lora_checkpoint(unet)
else:
# Сохраняем полную модель
accelerator.unwrap_model(unet).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
# --------------------------- Тренировочный цикл ---------------------------
# Для логирования среднего лосса каждые % эпохи
if accelerator.is_main_process:
print(f"Total steps per GPU: {total_training_steps}")
print(f"[GPU {accelerator.process_index}] Total steps: {total_training_steps}")
epoch_loss_points = []
progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")
# Определяем интервал для сэмплирования и логирования в пределах эпохи (10% эпохи)
steps_per_epoch = len(dataloader)
sample_interval = max(1, steps_per_epoch // sample_interval_share)
# Начинаем с указанной эпохи (полезно при возобновлении)
for epoch in range(start_epoch, start_epoch + num_epochs):
batch_losses = []
unet.train()
for step, (latents, embeddings) in enumerate(dataloader):
with accelerator.accumulate(unet):
if save_model == False and step == 3 :
used_gb = torch.cuda.max_memory_allocated() / 1024**3
print(f"Шаг {step}: {used_gb:.2f} GB")
# Forward pass
noise = torch.randn_like(latents)
timesteps = torch.randint(
1, # Начинаем с 1, не с 0
scheduler.config.num_train_timesteps,
(latents.shape[0],),
device=device
).long()
# Добавляем шум к латентам
noisy_latents = scheduler.add_noise(latents, noise, timesteps)
# Получаем предсказание шума - кастим в bf16
noise_pred = unet(noisy_latents, timesteps, embeddings).sample.to(dtype=torch.bfloat16)
# Используем целевое значение v_prediction
target = scheduler.get_velocity(latents, noise, timesteps)
# Считаем лосс
loss = torch.nn.functional.mse_loss(noise_pred.float(), target.float())
# Делаем backward через Accelerator
accelerator.backward(loss)
# Увеличиваем счетчик глобальных шагов
global_step += 1
# Обновляем прогресс-бар
progress_bar.update(1)
# Логируем метрики
if accelerator.is_main_process:
current_lr = base_learning_rate
batch_losses.append(loss.detach().item())
# Логируем в Wandb
if use_wandb:
wandb.log({
"loss": loss.detach().item(),
"learning_rate": current_lr,
"epoch": epoch,
"global_step": global_step
})
# Генерируем сэмплы с заданным интервалом
if global_step % sample_interval == 0:
if save_model:
save_checkpoint(unet)
generate_and_save_samples(fixed_samples,global_step)
# Выводим текущий лосс
avg_loss = np.mean(batch_losses[-sample_interval:])
#print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}, LR: {current_lr:.8f}")
if use_wandb:
wandb.log({"intermediate_loss": avg_loss})
# По окончании эпохи
if accelerator.is_main_process:
avg_epoch_loss = np.mean(batch_losses)
print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
if use_wandb:
wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
# Завершение обучения - сохраняем финальную модель
if accelerator.is_main_process:
print("Обучение завершено! Сохраняем финальную модель...")
# Сохраняем основную модель
#if save_model:
save_checkpoint(unet)
print("Готово!")