jinaai
/

jina-bert-flash-implementation

Markus28 commited on Feb 21, 2024

Commit

e86d612

1 Parent(s): a62c2ab

feat: updated .to() override to handle kwargs

Files changed (1) hide show

modeling_bert.py CHANGED Viewed

@@ -422,9 +422,9 @@ class BertModel(BertPreTrainedModel):
             pooler_output=pooled_output,
         )
-    def to(self, target):
-        result = super().to(target)
-        if isinstance(target, torch.dtype):
             for layer in result.encoder.layers:
                 layer.mixer.inner_cross_attn.alibi_slopes = layer.mixer.inner_cross_attn.alibi_slopes.to(torch.float32)
                 layer.mixer.inner_attn.alibi_slopes = layer.mixer.inner_attn.alibi_slopes.to(torch.float32)

             pooler_output=pooled_output,
         )
+    def to(self, *args, **kwargs):
+        result = super().to(*args, **kwargs)
+        if (len(args) > 0 and isinstance(args[0], torch.dtype)) or "dtype" in kwargs:
             for layer in result.encoder.layers:
                 layer.mixer.inner_cross_attn.alibi_slopes = layer.mixer.inner_cross_attn.alibi_slopes.to(torch.float32)
                 layer.mixer.inner_attn.alibi_slopes = layer.mixer.inner_attn.alibi_slopes.to(torch.float32)