Spaces:

united-avatars
/

linly

Sleeping

linly / TFG /SadTalker.py

David Victor

init

bc3753a about 2 months ago

13.7 kB

	import torch, uuid
	import os, sys, shutil, platform
	# from src.facerender.pirender_animate import AnimateFromCoeff_PIRender
	from src.utils.preprocess import CropAndExtract
	from src.test_audio2coeff import Audio2Coeff
	from src.facerender.animate import AnimateFromCoeff
	from src.generate_batch import get_data
	from src.generate_facerender_batch import get_facerender_data
	from src.utils.init_path import init_path

	# from pydub import AudioSegment
	# def mp3_to_wav(mp3_filename,wav_filename,frame_rate):
	# mp3_file = AudioSegment.from_file(file=mp3_filename)
	# mp3_file.set_frame_rate(frame_rate).export(wav_filename,format="wav")

	class SadTalker():

	def __init__(self, checkpoint_path='checkpoints', config_path='src/config', lazy_load=False):

	if torch.cuda.is_available():
	device = "cuda"
	elif platform.system() == 'Darwin': # macos
	device = "mps"
	else:
	device = "cpu"

	self.device = device

	os.environ['TORCH_HOME']= checkpoint_path

	self.checkpoint_path = checkpoint_path
	self.config_path = config_path
	self.sadtalker_paths = init_path(checkpoint_path, self.config_path, 256, False, 'crop')
	self.animate_from_coeff = AnimateFromCoeff(self.sadtalker_paths, self.device)
	self.audio_to_coeff = Audio2Coeff(self.sadtalker_paths, self.device)

	def test(self,
	pic_path,
	crop_pic_path,
	first_coeff_path,
	crop_info,
	source_image, driven_audio, preprocess='crop',
	still_mode=False, use_enhancer=False, batch_size=1, size=256,
	pose_style = 0,
	facerender='facevid2vid',
	exp_scale=1.0,
	use_ref_video = False,
	ref_video = None,
	ref_info = None,
	use_idle_mode = False,
	length_of_audio = 0, use_blink=True, fps=20,
	result_dir='./results/'):


	# print(self.sadtalker_paths)


	# self.preprocess_model = CropAndExtract(self.sadtalker_paths, self.device)

	# if facerender == 'facevid2vid' and self.device != 'mps':
	# self.animate_from_coeff = AnimateFromCoeff(self.sadtalker_paths, self.device)
	# elif facerender == 'pirender' or self.device == 'mps':
	# self.animate_from_coeff = AnimateFromCoeff_PIRender(self.sadtalker_paths, self.device)
	# facerender = 'pirender'
	# else:
	# raise(RuntimeError('Unknown model: {}'.format(facerender)))


	# time_tag = str(uuid.uuid4())
	# save_dir = os.path.join(result_dir, time_tag)
	# os.makedirs(save_dir, exist_ok=True)
	save_dir = result_dir
	os.makedirs(save_dir, exist_ok=True)
	# input_dir = os.path.join(save_dir, 'input')
	# os.makedirs(input_dir, exist_ok=True)

	# print(source_image)
	# pic_path = os.path.join(input_dir, os.path.basename(source_image))
	# shutil.copy(source_image, input_dir)

	# if driven_audio is not None and os.path.isfile(driven_audio):
	# audio_path = os.path.join(input_dir, os.path.basename(driven_audio))

	# #### mp3 to wav
	# if '.mp3' in audio_path:
	# mp3_to_wav(driven_audio, audio_path.replace('.mp3', '.wav'), 16000)
	# audio_path = audio_path.replace('.mp3', '.wav')
	# else:
	# shutil.move(driven_audio, input_dir)

	# elif use_idle_mode:
	# audio_path = os.path.join(input_dir, 'idlemode_'+str(length_of_audio)+'.wav') ## generate audio from this new audio_path
	# from pydub import AudioSegment
	# one_sec_segment = AudioSegment.silent(duration=1000*length_of_audio) #duration in milliseconds
	# one_sec_segment.export(audio_path, format="wav")
	# else:
	# print(use_ref_video, ref_info)
	# assert use_ref_video == True and ref_info == 'all'

	# if use_ref_video and ref_info == 'all': # full ref mode
	# ref_video_videoname = os.path.basename(ref_video)
	# audio_path = os.path.join(save_dir, ref_video_videoname+'.wav')
	# print('new audiopath:',audio_path)
	# # if ref_video contains audio, set the audio from ref_video.
	# cmd = r"ffmpeg -y -hide_banner -loglevel error -i %s %s"%(ref_video, audio_path)
	# os.system(cmd)

	# os.makedirs(save_dir, exist_ok=True)

	#crop image and extract 3dmm from image
	# first_frame_dir = os.path.join(save_dir, 'first_frame_dir')
	# os.makedirs(first_frame_dir, exist_ok=True)
	# first_coeff_path, crop_pic_path, crop_info = self.preprocess_model.generate(pic_path, first_frame_dir, preprocess, True, size)

	# if first_coeff_path is None:
	# raise AttributeError("No face is detected")

	# if use_ref_video:
	# print('using ref video for genreation')
	# ref_video_videoname = os.path.splitext(os.path.split(ref_video)[-1])[0]
	# ref_video_frame_dir = os.path.join(save_dir, ref_video_videoname)
	# os.makedirs(ref_video_frame_dir, exist_ok=True)
	# print('3DMM Extraction for the reference video providing pose')
	# ref_video_coeff_path, _, _ = self.preprocess_model.generate(ref_video, ref_video_frame_dir, preprocess, source_image_flag=False)
	# else:
	# ref_video_coeff_path = None

	# if use_ref_video:
	# if ref_info == 'pose':
	# ref_pose_coeff_path = ref_video_coeff_path
	# ref_eyeblink_coeff_path = None
	# elif ref_info == 'blink':
	# ref_pose_coeff_path = None
	# ref_eyeblink_coeff_path = ref_video_coeff_path
	# elif ref_info == 'pose+blink':
	# ref_pose_coeff_path = ref_video_coeff_path
	# ref_eyeblink_coeff_path = ref_video_coeff_path
	# elif ref_info == 'all':
	# ref_pose_coeff_path = None
	# ref_eyeblink_coeff_path = None
	# else:
	# raise('error in refinfo')
	# else:
	# ref_pose_coeff_path = None
	# ref_eyeblink_coeff_path = None

	ref_pose_coeff_path = None
	ref_eyeblink_coeff_path = None
	audio_path = driven_audio
	# fps = 25
	#audio2ceoff
	# if use_ref_video and ref_info == 'all':
	# coeff_path = ref_video_coeff_path # self.audio_to_coeff.generate(batch, save_dir, pose_style, ref_pose_coeff_path)
	# else:
	batch = get_data(first_coeff_path, audio_path, self.device, ref_eyeblink_coeff_path=ref_eyeblink_coeff_path, still=still_mode, \
	idlemode=use_idle_mode, length_of_audio=length_of_audio, use_blink=use_blink, fps = fps) # longer audio?
	coeff = self.audio_to_coeff.generate(batch, save_dir, pose_style, ref_pose_coeff_path)

	#coeff2video
	data = get_facerender_data(coeff, crop_pic_path, first_coeff_path, audio_path, batch_size, still_mode=still_mode, \
	preprocess=preprocess, size=size, expression_scale = exp_scale, facemodel=facerender)
	return_path = self.animate_from_coeff.generate(data, save_dir, pic_path, crop_info, enhancer='gfpgan' if use_enhancer else None, preprocess=preprocess, img_size=size, fps = fps)
	# video_name = data['video_name']
	# print(f'The generated video is named {video_name} in {save_dir}')

	# del self.preprocess_model
	# del self.audio_to_coeff
	# del self.animate_from_coeff

	if torch.cuda.is_available():
	torch.cuda.empty_cache()
	torch.cuda.synchronize()

	import gc; gc.collect()

	return return_path

	def test2(self, source_image, driven_audio, preprocess='crop',
	still_mode=False, use_enhancer=False, batch_size=1, size=256,
	pose_style = 0,
	facerender='facevid2vid',
	exp_scale=1.0,
	use_ref_video = False,
	ref_video = None,
	ref_info = None,
	use_idle_mode = False,
	length_of_audio = 0, use_blink=True, fps = 20,
	result_dir='./results/'):
	os.makedirs(result_dir, exist_ok=True)
	self.sadtalker_paths = init_path(self.checkpoint_path, self.config_path, size, False, preprocess)
	print(self.sadtalker_paths)

	self.audio_to_coeff = Audio2Coeff(self.sadtalker_paths, self.device)
	self.preprocess_model = CropAndExtract(self.sadtalker_paths, self.device)

	self.animate_from_coeff = AnimateFromCoeff(self.sadtalker_paths, self.device)

	time_tag = str(uuid.uuid4())
	save_dir = os.path.join(result_dir, time_tag)
	os.makedirs(save_dir, exist_ok=True)

	input_dir = os.path.join(save_dir, 'input')
	os.makedirs(input_dir, exist_ok=True)

	print(source_image)
	pic_path = os.path.join(input_dir, os.path.basename(source_image))
	shutil.copy(source_image, input_dir)

	if driven_audio is not None and os.path.isfile(driven_audio):
	audio_path = os.path.join(input_dir, os.path.basename(driven_audio))
	shutil.copy(driven_audio, input_dir)

	elif use_idle_mode:
	audio_path = os.path.join(input_dir, 'idlemode_'+str(length_of_audio)+'.wav') ## generate audio from this new audio_path
	from pydub import AudioSegment
	one_sec_segment = AudioSegment.silent(duration=1000*length_of_audio) #duration in milliseconds
	one_sec_segment.export(audio_path, format="wav")
	else:
	assert driven_audio is not None, "No audio is given"
	print(use_ref_video, ref_info)
	assert use_ref_video == True and ref_info == 'all'

	if use_ref_video and ref_info == 'all': # full ref mode
	ref_video_videoname = os.path.basename(ref_video)
	audio_path = os.path.join(save_dir, ref_video_videoname+'.wav')
	print('new audiopath:',audio_path)
	# if ref_video contains audio, set the audio from ref_video.
	cmd = r"ffmpeg -y -hide_banner -loglevel error -i %s %s"%(ref_video, audio_path)
	os.system(cmd)

	os.makedirs(save_dir, exist_ok=True)

	#crop image and extract 3dmm from image
	first_frame_dir = os.path.join(save_dir, 'first_frame_dir')
	os.makedirs(first_frame_dir, exist_ok=True)
	first_coeff_path, crop_pic_path, crop_info = self.preprocess_model.generate(pic_path, first_frame_dir, preprocess, True, size)
	print(first_coeff_path, crop_info)
	if first_coeff_path is None:
	raise AttributeError("No face is detected")

	if use_ref_video:
	print('using ref video for genreation')
	ref_video_videoname = os.path.splitext(os.path.split(ref_video)[-1])[0]
	ref_video_frame_dir = os.path.join(save_dir, ref_video_videoname)
	os.makedirs(ref_video_frame_dir, exist_ok=True)
	print('3DMM Extraction for the reference video providing pose')
	ref_video_coeff_path, _, _ = self.preprocess_model.generate(ref_video, ref_video_frame_dir, preprocess, source_image_flag=False)
	else:
	ref_video_coeff_path = None

	if use_ref_video:
	if ref_info == 'pose':
	ref_pose_coeff_path = ref_video_coeff_path
	ref_eyeblink_coeff_path = None
	elif ref_info == 'blink':
	ref_pose_coeff_path = None
	ref_eyeblink_coeff_path = ref_video_coeff_path
	elif ref_info == 'pose+blink':
	ref_pose_coeff_path = ref_video_coeff_path
	ref_eyeblink_coeff_path = ref_video_coeff_path
	elif ref_info == 'all':
	ref_pose_coeff_path = None
	ref_eyeblink_coeff_path = None
	else:
	raise('error in refinfo')
	else:
	ref_pose_coeff_path = None
	ref_eyeblink_coeff_path = None

	#audio2ceoff
	if use_ref_video and ref_info == 'all':
	coeff_path = ref_video_coeff_path # self.audio_to_coeff.generate(batch, save_dir, pose_style, ref_pose_coeff_path)
	else:
	batch = get_data(first_coeff_path, audio_path, self.device, ref_eyeblink_coeff_path=ref_eyeblink_coeff_path, still=still_mode, \
	idlemode=use_idle_mode, length_of_audio=length_of_audio, use_blink=use_blink, fps = fps) # longer audio?
	coeff_path = self.audio_to_coeff.generate(batch, save_dir, pose_style, ref_pose_coeff_path)

	#coeff2video
	data = get_facerender_data(coeff_path, crop_pic_path, first_coeff_path, audio_path, batch_size, still_mode=still_mode, \
	preprocess=preprocess, size=size, expression_scale = exp_scale, facemodel=facerender)
	return_path = self.animate_from_coeff.generate(data, save_dir, pic_path, crop_info, enhancer='gfpgan' if use_enhancer else None, preprocess=preprocess, img_size=size, fps = fps)
	# video_name = data['video_name']
	print(f'The generated video is saved in {return_path}')

	del self.preprocess_model
	# del self.audio_to_coeff
	# del self.animate_from_coeff

	if torch.cuda.is_available():
	torch.cuda.empty_cache()
	torch.cuda.synchronize()

	import gc; gc.collect()

	return return_path