tryolabs
/

long-t5-tglobal-base-blogpost-cqa-onnx

Text2Text Generation

Inference Endpoints

Model card Files Files and versions Community

long-t5-tglobal-base-blogpost-cqa-onnx / quantize.py

rgallardo's picture

upload quantized models

1c77584 about 2 years ago

history blame contribute delete

534 Bytes

	from onnxruntime.quantization import quantize_dynamic, QuantType

	models = ["encoder_model.onnx", "decoder_model.onnx", "decoder_with_past_model.onnx"]

	for model in models:
	print(f"Quantizing model: {model}")
	output_model_name = f"{model[:-5]}-quantized.onnx"
	quantize_dynamic(
	model_input=model,
	model_output=output_model_name,
	per_channel=True,
	reduce_range=True,
	weight_type=QuantType.QUInt8,
	optimize_model=False
	)
	print(f"Quantized model: {output_model_name}")