mobiuslabsgmbh
/

aanaphi2-v0.1

@@ -30,9 +30,16 @@ pip install pip --upgrade && pip install transformers --upgrade
 ``` Python
 #Load model
 import transformers, torch
 compute_dtype = torch.float16
 cache_path    = ''
-device        = 'cuda'
 model_id      = "mobiuslabsgmbh/aanaphi2-v0.1"
 model         = transformers.AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=compute_dtype,
                                                                   cache_dir=cache_path,
@@ -50,7 +57,7 @@ model.eval();
 @torch.no_grad()
 def generate(prompt, max_length=1024):
     prompt_chat = prompt_format(prompt)
-    inputs      = tokenizer(prompt_chat, return_tensors="pt", return_attention_mask=True).to('cuda')
     outputs     = model.generate(**inputs, max_length=max_length, eos_token_id= tokenizer.eos_token_id)
     text        = tokenizer.batch_decode(outputs[:,:-1])[0]
     return text

 ``` Python
 #Load model
 import transformers, torch
+#GPU runtime
+device        = 'cuda'
 compute_dtype = torch.float16
+##CPU runtime
+#device        = 'cpu'
+#compute_dtype = torch.float32
 cache_path    = ''
 model_id      = "mobiuslabsgmbh/aanaphi2-v0.1"
 model         = transformers.AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=compute_dtype,
                                                                   cache_dir=cache_path,
 @torch.no_grad()
 def generate(prompt, max_length=1024):
     prompt_chat = prompt_format(prompt)
+    inputs      = tokenizer(prompt_chat, return_tensors="pt", return_attention_mask=True).to(device)
     outputs     = model.generate(**inputs, max_length=max_length, eos_token_id= tokenizer.eos_token_id)
     text        = tokenizer.batch_decode(outputs[:,:-1])[0]
     return text