SkyReels_L

Running on Zero

1inkusFace commited on Mar 10

Commit

2bbaaed

verified ·

1 Parent(s): 71697cb

Update skyreelsinfer/pipelines/pipeline_skyreels_video.py

Files changed (1) hide show

skyreelsinfer/pipelines/pipeline_skyreels_video.py CHANGED Viewed

@@ -162,8 +162,8 @@ class SkyreelsVideoPipeline(HunyuanVideoPipeline):
         self,
         prompt: str,
         negative_prompt: str = "Aerial view, aerial view, overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion",
-        height: int = 720,
-        width: int = 1280,
         num_frames: int = 129,
         num_inference_steps: int = 50,
         sigmas: List[float] = None,
@@ -240,7 +240,7 @@ class SkyreelsVideoPipeline(HunyuanVideoPipeline):
             batch_size = len(prompt)
         else:
             batch_size = prompt_embeds.shape[0]
-        pipe.text_encoder.to("cuda")
         # 3. Encode input prompt
         (
@@ -338,8 +338,8 @@ class SkyreelsVideoPipeline(HunyuanVideoPipeline):
         if hasattr(self, "text_encoder_to_cpu"):
             self.text_encoder_to_cpu()
-        pipe.text_encoder.to("cpu")
-        pipe.vae.to("cpu")
         torch.cuda.empty_cache()
         with self.progress_bar(total=num_inference_steps) as progress_bar:
@@ -414,7 +414,7 @@ class SkyreelsVideoPipeline(HunyuanVideoPipeline):
                     progress_bar.update()
         if not output_type == "latent":
-            pipe.vae.to("cuda")
             latents = latents.to(self.vae.dtype) / self.vae.config.scaling_factor
             video = self.vae.decode(latents, return_dict=False)[0]
             video = self.video_processor.postprocess_video(video, output_type=output_type)

         self,
         prompt: str,
         negative_prompt: str = "Aerial view, aerial view, overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion",
+        height: int = 512,
+        width: int = 512,
         num_frames: int = 129,
         num_inference_steps: int = 50,
         sigmas: List[float] = None,
             batch_size = len(prompt)
         else:
             batch_size = prompt_embeds.shape[0]
+        self.text_encoder.to("cuda")
         # 3. Encode input prompt
         (
         if hasattr(self, "text_encoder_to_cpu"):
             self.text_encoder_to_cpu()
+        self.text_encoder.to("cpu")
+        self.vae.to("cpu")
         torch.cuda.empty_cache()
         with self.progress_bar(total=num_inference_steps) as progress_bar:
                     progress_bar.update()
         if not output_type == "latent":
+            self.vae.to("cuda")
             latents = latents.to(self.vae.dtype) / self.vae.config.scaling_factor
             video = self.vae.decode(latents, return_dict=False)[0]
             video = self.video_processor.postprocess_video(video, output_type=output_type)