lokinfey
/

phi-4-14B-ONNX-INT4-GPU

Model card Files Files and versions

lokinfey commited on Feb 1

Commit

0e8d45e

·

verified ·

1 Parent(s): 3627032

Update README.md

Files changed (1) hide show

README.md +67 -3

README.md CHANGED Viewed

@@ -1,3 +1,67 @@
----
-license: mit
----

+---
+license: mit
+---
+## **Phi-4-14B-ONNX-INT4-GPU**
+<b><span style="text-decoration:underline">Note: This is unoffical version,just for test and dev.</span></b>
+### **Sample**
+```python
+import onnxruntime_genai as og
+import numpy as np
+import os
+model_folder = "Your Phi-4-14B-ONNX-INT4-GPU location"
+model = og.Model(model_folder)
+tokenizer = og.Tokenizer(model)
+tokenizer_stream = tokenizer.create_stream()
+search_options = {}
+search_options['max_length'] = 2048
+search_options['past_present_share_buffer'] = False
+chat_template = "<|im_start|><|user|>{input}<|im_end|>\n<|assistant|>"
+text = """ Explain 'The goat grazing problem'"""
+prompt = f'{chat_template.format(input=text)}'
+input_tokens = tokenizer.encode(prompt)
+params = og.GeneratorParams(model)
+params.set_search_options(**search_options)
+params.input_ids = input_tokens
+generator = og.Generator(model, params)
+while not generator.is_done():
+      generator.compute_logits()
+      generator.generate_next_token()
+      new_token = generator.get_next_tokens()[0]
+      print(tokenizer_stream.decode(new_token), end='', flush=True)
+```