z-uo
/

bert-italian-ner-onnx-quantized-avx512

Token Classification

Inference Endpoints

Model card Files Files and versions Community

z-uo commited on Feb 18, 2024

Commit

a0b2bc1

·

verified ·

1 Parent(s): a8f9c54

Upload 2 files

Files changed (2) hide show

bert_din_quant.py +17 -0
bert_din_quant_test.py +13 -0

bert_din_quant.py ADDED Viewed

	@@ -0,0 +1,17 @@

+from optimum.onnxruntime import ORTModelForTokenClassification, ORTQuantizer
+from optimum.onnxruntime.configuration import AutoQuantizationConfig
+onnx_model = ORTModelForTokenClassification.from_pretrained(
+    "nickprock/bert-italian-finetuned-ner",
+     export=True
+)
+quantizer = ORTQuantizer.from_pretrained(onnx_model)
+dqconfig = AutoQuantizationConfig.avx512_vnni(
+    is_static=False,
+    per_channel=False
+)
+model_quantized_path = quantizer.quantize(
+    save_dir="bert-italian-ner-onnx-quantized-avx512",
+    quantization_config=dqconfig,
+)

bert_din_quant_test.py ADDED Viewed

	@@ -0,0 +1,13 @@

+import time
+from transformers import AutoTokenizer, pipeline
+from optimum.onnxruntime import ORTModelForTokenClassification
+tokenizer = AutoTokenizer.from_pretrained("./bert-italian-ner-onnx-quantized-avx512")
+model = ORTModelForTokenClassification.from_pretrained("./bert-italian-ner-onnx-quantized-avx512")
+nerpipeline = pipeline('ner', model=model, tokenizer=tokenizer)
+text = "La sede storica della Olivetti è ad Ivrea"
+start_time = time.time()
+output = nerpipeline(text)
+print(f"--- {time.time() - start_time} seconds ---")
+print(output)