MultiTrickFox
/

clone_AlphaMonarch-7B_8bit

Text Generation

text-generation-inference

Inference Endpoints

8-bit precision

Model card Files Files and versions Community

MultiTrickFox commited on Feb 21, 2024

Commit

366f016

·

verified ·

1 Parent(s): cc33cb3

Create handler.py

Files changed (1) hide show

handler.py +27 -0

handler.py ADDED Viewed

	@@ -0,0 +1,27 @@

+from typing import Dict, List, Any
+from time import time
+import torch
+from transformers import AutoTokenizer, AutoModel
+#
+class EndpointHandler:
+    def __init__(self, path=''):
+        self.tokenizer = AutoTokenizer.from_pretrained(path)
+        self.model = AutoModel.from_pretrained(path, load_in_8bit=True)
+    def __call__(self, data: Dict[str, Any]) -> Dict[str, str]:
+        inputs = data.pop('inputs', data)
+        parameters = data.pop('parameters', {})
+        starting_time = time.time()
+        tokenized = self.tokenizer(inputs, return_tensors='pt')
+        out = self.model.generate(tokenized.to('cuda'), **parameters).to('cpu')
+        detokenized = self.tokenizer.batch_decode(out)
+        ending_time = time.time()
+        return [{'generated_text': detokenized, 'generation_time': ending_time-starting_time}]