ai4bharat
/

indictrans2-en-indic-1B

text2text-generation

Model card Files Files and versions Community

pranjalchitale commited on 15 days ago

Commit

0468772

·

verified ·

1 Parent(s): fba89d6

Update TieWeights

Files changed (1) hide show

modeling_indictrans.py +9 -9

modeling_indictrans.py CHANGED Viewed

@@ -1644,7 +1644,7 @@ class IndicTransModel(IndicTransPreTrainedModel):
 # Copied from transformers.models.m2m_100.modeling_m2m_100.M2M100ForConditionalGeneration->IndicTrans
 class IndicTransForConditionalGeneration(IndicTransPreTrainedModel, GenerationMixin):
     base_model_prefix = "model"
-    _tied_weights_keys = None
     _label_smoothing = 0.0
     def __init__(self, config: IndicTransConfig):
@@ -1654,19 +1654,20 @@ class IndicTransForConditionalGeneration(IndicTransPreTrainedModel, GenerationMi
             config.decoder_embed_dim, config.decoder_vocab_size, bias=False
         )
-        if config.share_decoder_input_output_embed:
-            self.lm_head.weight = self.model.decoder.embed_tokens.weight
         self.post_init()
-    def tie_weights(self):
-        pass
     def get_encoder(self):
-        return self.model.get_encoder()
     def get_decoder(self):
-        return self.model.get_decoder()
     def get_output_embeddings(self):
         return self.lm_head
@@ -1676,7 +1677,6 @@ class IndicTransForConditionalGeneration(IndicTransPreTrainedModel, GenerationMi
     def set_label_smoothing(self, label_smoothing):
         self._label_smoothing = label_smoothing
     def forward(
         self,
         input_ids: Optional[torch.LongTensor] = None,

 # Copied from transformers.models.m2m_100.modeling_m2m_100.M2M100ForConditionalGeneration->IndicTrans
 class IndicTransForConditionalGeneration(IndicTransPreTrainedModel, GenerationMixin):
     base_model_prefix = "model"
+    _tied_weights_keys = ["decoder.embed_tokens.weight", "lm_head.weight"]
     _label_smoothing = 0.0
     def __init__(self, config: IndicTransConfig):
             config.decoder_embed_dim, config.decoder_vocab_size, bias=False
         )
         self.post_init()
+    def tie_weights(self):
+        if self.config.share_decoder_input_output_embed:
+           self._tie_or_clone_weights(self.decoder.embed_tokens, self.lm_head)
     def get_encoder(self):
+        return self.model.encoder
     def get_decoder(self):
+        return self.model.decoder
+    def get_input_embeddings(self):
+        return self.model.encoder.embed_tokens
     def get_output_embeddings(self):
         return self.lm_head
     def set_label_smoothing(self, label_smoothing):
         self._label_smoothing = label_smoothing
     def forward(
         self,
         input_ids: Optional[torch.LongTensor] = None,