На данный момент реализация с использованием Marlin не поддерживается. Пожалуйста, используйте реализацию на GEMM
Описание
Данная модель представляет собой квантизированную версию RuadaptQwen2.5-32B-instruct, выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.
Marlin — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.
Конфигурация квантизации
{
"bits": 4,
"group_size": 128,
"modules_to_not_convert": null,
"quant_method": "awq",
"version": "marlin",
"zero_point": false
}
Для квантизации использовалось 4096 семплов длиной 512 токенов.
Использование
Для использования необходимо установить: "autoawq[kernels]"" transformers tokenizers
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, TextStreamer
quant_path = "pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin"
model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True)
tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True)
streamer = TextStreamer(tokenizer)
prompt = """
Дай мотивацию на работу, как будто ты Арсен Маркарян:
"""
messages = [
{"role": "system", "content": "Ты Qwen, супер умный ассистент"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.model.device)
generation_output = model.generate(
**model_inputs,
streamer=streamer,
max_new_tokens=512,
eos_token_id=[tokenizer.eos_token_id, tokenizer.eos_token_id]
)
- Downloads last month
- 18
Model tree for pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin
Base model
msu-rcc-lair/RuadaptQwen2.5-32B-instruct