GSJL
/

Qwen2.5-14B-Instruct-GPTQ-Marlin

4-bit precision

Model card Files Files and versions Community

GSJL commited on Sep 21, 2024

Commit

789a31b

·

verified ·

1 Parent(s): 52cc820

Update README.md

Files changed (1) hide show

README.md +36 -1

README.md CHANGED Viewed

	@@ -1 +1,36 @@
1	- ~~# Hi Mom~~

+```bash
+pip install numpy gekko pandas
+git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ
+pip install -vvv --no-build-isolation -e .
+```
+```python
+from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
+from transformers import AutoTokenizer, TextStreamer
+model = AutoGPTQForCausalLM.from_quantized(
+    "GSJL/Qwen2.5-14B-Instruct-GPTQ-Marlin",
+    use_marlin=True
+    ).to("cuda:0")
+tokenizer = AutoTokenizer.from_pretrained(save_dir, use_fast = True)
+streamer = TextStreamer(tokenizer, skip_prompt = True, skip_special_tokens=True)
+prompt = [{"role":"user","content":"Hi mom!!!!!"}]
+inputs = tokenizer.apply_chat_template(
+    prompt,
+    return_tensors="pt",
+    add_generation_prompt = True
+).to("cuda:0")
+output = model.generate(
+    input_ids = inputs,
+    streamer = streamer,
+    use_cache=True,
+    do_sample = True,
+    max_new_tokens = 600
+)
+```