babylm
/

ltgbert-100m-2024

Model card Files Files and versions Community

babylm commited on Sep 3, 2024

Commit

aeca164

·

verified ·

1 Parent(s): ce01679

Upload modeling_ltgbert.py

Files changed (1) hide show

modeling_ltgbert.py +2 -2

modeling_ltgbert.py CHANGED Viewed

@@ -233,8 +233,8 @@ class Attention(nn.Module):
         if self.position_indices.size(0) < query_len:
             position_indices = torch.arange(query_len, dtype=torch.long).unsqueeze(1) \
                 - torch.arange(query_len, dtype=torch.long).unsqueeze(0)
-            position_indices = self.make_log_bucket_position(position_indices, self.position_bucket_size, 512)
-            position_indices = self.position_bucket_size - 1 + position_indices
             self.position_indices = position_indices.to(hidden_states.device)
         hidden_states = self.pre_layer_norm(hidden_states)

         if self.position_indices.size(0) < query_len:
             position_indices = torch.arange(query_len, dtype=torch.long).unsqueeze(1) \
                 - torch.arange(query_len, dtype=torch.long).unsqueeze(0)
+            position_indices = self.make_log_bucket_position(position_indices, self.config.position_bucket_size, 512)
+            position_indices = self.config.position_bucket_size - 1 + position_indices
             self.position_indices = position_indices.to(hidden_states.device)
         hidden_states = self.pre_layer_norm(hidden_states)