ltg
/

gpt-bert-babylm-base

Model card Files Files and versions Community

davda54 commited on Sep 17

Commit

3d07f17

•

1 Parent(s): ec1b5eb

fix CausalLM

Files changed (1) hide show

modeling_ltgbert.py +3 -2

modeling_ltgbert.py CHANGED Viewed

@@ -415,7 +415,7 @@ class LtgbertForMaskedLM(LtgbertModel):
         sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, attention_mask)
         subword_prediction = self.classifier(sequence_output)
-        subword_prediction[:, :, :16+1] = float("-inf")
         masked_lm_loss = None
         if labels is not None:
@@ -494,6 +494,7 @@ class LtgbertForCausalLM(LtgbertModel):
         input_ids: torch.LongTensor = None,
         attention_mask: Optional[torch.Tensor] = None,
         position_ids: Optional[torch.LongTensor] = None,
         past_key_values = None,
         inputs_embeds: Optional[torch.FloatTensor] = None,
         labels: Optional[torch.LongTensor] = None,
@@ -511,7 +512,7 @@ class LtgbertForCausalLM(LtgbertModel):
         sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, attention_mask)
         subword_prediction = self.classifier(sequence_output)
-        subword_prediction[:, :, :16+1] = float("-inf")
         masked_lm_loss = None
         if labels is not None:

         sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, attention_mask)
         subword_prediction = self.classifier(sequence_output)
+        # subword_prediction[:, :, :16+1] = float("-inf")
         masked_lm_loss = None
         if labels is not None:
         input_ids: torch.LongTensor = None,
         attention_mask: Optional[torch.Tensor] = None,
         position_ids: Optional[torch.LongTensor] = None,
+        token_type_ids: Optional[torch.Tensor] = None,
         past_key_values = None,
         inputs_embeds: Optional[torch.FloatTensor] = None,
         labels: Optional[torch.LongTensor] = None,
         sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, attention_mask)
         subword_prediction = self.classifier(sequence_output)
+        # subword_prediction[:, :, :16+1] = float("-inf")
         masked_lm_loss = None
         if labels is not None: