HTML-Pruner-Phi-3.8B / seq_para_utils.py

Upload 13 files

3f61ae8 verified about 1 month ago

6.75 kB

	import os
	import torch
	import logging
	import transformers
	import torch.distributed as dist
	import torch
	import math

	# global var
	_SEQUENCE_PARALLEL_GROUP = None
	_SEQUENCE_PARALLEL_SIZE = 1

	def init_logger(fpath='', local_rank=0):
	if transformers.trainer_utils.is_main_process(local_rank):
	if fpath:
	if os.path.dirname(fpath):
	os.makedirs(os.path.dirname(fpath), exist_ok=True)
	file_handler = logging.FileHandler(fpath, mode='a') # to file
	transformers.logging.add_handler(file_handler)
	transformers.logging.set_verbosity_info()
	else:
	transformers.logging.set_verbosity_error() # reduce
	transformers.logging.enable_explicit_format()
	return transformers.logging.get_logger()

	class DistributedSampler(torch.utils.data.distributed.DistributedSampler):
	def set_epoch(self, epoch):
	# 重载Sample 保证每个epoch dataset更新后sampler 重新更新
	# If the dataset length is evenly divisible by # of replicas, then there
	# is no need to drop any data, since the dataset will be split equally.
	if self.drop_last and len(self.dataset) % self.num_replicas != 0: # type: ignore[arg-type]
	# Split to nearest available length that is evenly divisible.
	# This is to ensure each rank receives the same amount of data when
	# using this Sampler.
	self.num_samples = math.ceil(
	(len(self.dataset) - self.num_replicas) / self.num_replicas # type: ignore[arg-type]
	)
	else:
	self.num_samples = math.ceil(len(self.dataset) / self.num_replicas) # type: ignore[arg-type]
	self.total_size = self.num_samples * self.num_replicas
	super().set_epoch(epoch)

	def add_custom_callback(trainer, logger):
	if 'PrinterCallback' in trainer.callback_handler.callback_list:
	trainer.pop_callback(transformers.PrinterCallback)
	trainer.add_callback(LogCallback(logger))
	logger.info('Add custom LogCallback')
	trainer.add_callback(DatasetUpdateCallback(trainer))
	logger.info('Add custom DatasetUpdateCallback')
	trainer.add_callback(SaveDiskCallback())
	logger.info('Add custom SaveDiskCallback')
	logger.info(f"trainer's callbacks: {trainer.callback_handler.callback_list}")


	class LogCallback(transformers.TrainerCallback):
	"""
	A bare :class:`~transformers.TrainerCallback` that just prints with logger.
	"""
	def __init__(self, logger, exclude=('total_flos', 'epoch')):
	self.logger = logger
	self.exclude = exclude

	def on_log(self, args, state, control, logs=None, **kwargs):
	if state.is_world_process_zero:
	self.logger.info(''.join([
	f"[global_steps={state.global_step}]",
	f"[epochs={logs['epoch']}]",
	','.join(f'{k}={v}' for k, v in logs.items()
	if k not in self.exclude)
	]))


	class DatasetUpdateCallback(transformers.TrainerCallback):
	def __init__(self, trainer):
	self.trainer = trainer

	def on_epoch_begin(self, args, state, control,train_dataloader, **kwargs):
	self.trainer.train_dataset.update(int(state.epoch))
	train_dataloader.sampler.set_epoch(int(state.epoch))


	class SaveDiskCallback(transformers.TrainerCallback):
	def on_save(self, args, state, control, **kwargs):
	if args.local_rank != 0:
	return

	for ckpt in os.listdir(args.output_dir):
	# remove out-of-date deepspeed checkpoints
	if ckpt.startswith('checkpoint-') and not ckpt.endswith(f'-{state.global_step}'):
	for pattern in ['global_step', '.pth']:
	os.system("rm -rf " + os.path.join(args.output_dir, ckpt, pattern))

	def on_train_end(self, args, state, control, **kwargs):
	if state.is_local_process_zero and False:
	for pattern in ['global_step', '.pth']:
	os.system("rm -rf " + os.path.join(args.output_dir, "checkpoint-*", pattern))


	def register_nan_hook(model):
	torch.autograd.set_detect_anomaly(True)

	def add_module_name(module):
	for name, sub_module in module.named_modules():
	sub_module.name = name

	def add_check_nan_hook(module):
	def check_nan(module, inputs, outputs):
	any_nan = False
	for i, tensor in enumerate(inputs):
	if isinstance(tensor, torch.Tensor) and tensor.isnan().any():
	print(f'module {module.name} contains nan in its {i}th input.')
	any_nan = True
	for i, tensor in enumerate(outputs):
	if isinstance(tensor, torch.Tensor) and tensor.isnan().any():
	print(f'module {module.name} contains nan in its {i}th output.')
	any_nan = True
	if any_nan:
	if torch.distributed.get_rank() == 0:
	torch.save({
	'state_dict': module.state_dict(),
	'inputs': inputs,
	'outputs': outputs,
	'type': module.__class__.__name__
	}, module.name + '.pth')
	# from ipdb import set_trace; set_trace()
	# else:
	# import time; time.sleep(10000)

	module.register_forward_hook(lambda module, inputs, outputs: check_nan(module, inputs, outputs))
	module.register_forward_hook(lambda module, inputs, outputs: check_nan(module, inputs, outputs))

	model.apply(add_module_name)
	model.apply(add_check_nan_hook)


	def initialize_seq_parallel(
	sequence_parallel_size,
	):
	if sequence_parallel_size <= 1:
	return None
	num_sequence_parallel_groups: int = dist.get_world_size() // sequence_parallel_size
	global _SEQUENCE_PARALLEL_GROUP
	global _SEQUENCE_PARALLEL_SIZE
	_SEQUENCE_PARALLEL_SIZE = sequence_parallel_size
	for i in range(num_sequence_parallel_groups):
	ranks = range(i * sequence_parallel_size,
	(i + 1) * sequence_parallel_size)
	group = torch.distributed.new_group(ranks)
	if dist.get_rank() in ranks:
	_SEQUENCE_PARALLEL_GROUP = group

	def get_sequence_parallel_group():
	"""Get the sequence parallel group the caller rank belongs to."""
	return _SEQUENCE_PARALLEL_GROUP

	def get_sequence_parallel_size():
	return _SEQUENCE_PARALLEL_SIZE

	def get_sequence_parallel_rank():
	return torch.distributed.get_rank(group=get_sequence_parallel_group())

	# 设置序列并行参数来保证优化器正确平均
	from deepspeed.utils import groups
	groups._get_sequence_parallel_world_size = get_sequence_parallel_size