openbmb
/

MiniCPM-o-2_6

Model card Files Files and versions Community

Update modeling_minicpmo.py

#6

by BUAADreamer - opened 21 days ago

base: refs/heads/main

←

from: refs/pr/6

Discussion Files changed

Files changed (1) hide show

modeling_minicpmo.py +4 -3

modeling_minicpmo.py CHANGED Viewed

@@ -392,7 +392,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
                         [torch.arange(r[0], r[1], dtype=torch.long) for r in cur_image_bound]
                     ).to(vllm_embedding.device)
-                    cur_vllm_emb.scatter_(
                         0,
                         image_indices.view(-1, 1).repeat(1, cur_vllm_emb.shape[-1]),
                         cur_vs_hs.view(-1, cur_vs_hs.shape[-1]),
@@ -595,7 +595,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         elif self.training:
             for i in range(bs):
                 # dummy audio_embeddings
-                input_embeddings += audio_embeddings[0].mean() * 0
         return input_embeddings
@@ -751,7 +751,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         input_ids=None,
         pixel_values=None,
         tgt_sizes=None,
-        audio_features=None,
         audio_feature_lens=None,
         image_bound=None,
         audio_bounds=None,
@@ -2655,6 +2655,7 @@ class ConditionalChatTTS(PreTrainedModel):
     """
     config_class = ConditionalChatTTSConfig
     def __init__(self, config: ConditionalChatTTSConfig):
         super().__init__(config)

                         [torch.arange(r[0], r[1], dtype=torch.long) for r in cur_image_bound]
                     ).to(vllm_embedding.device)
+                    vllm_embedding[i] = vllm_embedding[i].scatter(
                         0,
                         image_indices.view(-1, 1).repeat(1, cur_vllm_emb.shape[-1]),
                         cur_vs_hs.view(-1, cur_vs_hs.shape[-1]),
         elif self.training:
             for i in range(bs):
                 # dummy audio_embeddings
+                input_embeddings = input_embeddings + audio_embeddings[0].mean() * 0
         return input_embeddings
         input_ids=None,
         pixel_values=None,
         tgt_sizes=None,
+        audio_features=[],
         audio_feature_lens=None,
         image_bound=None,
         audio_bounds=None,
     """
     config_class = ConditionalChatTTSConfig
+    _no_split_modules = []
     def __init__(self, config: ConditionalChatTTSConfig):
         super().__init__(config)