crumbly
/

gpt2-linear-xl

Text Generation

Model card Files Files and versions

crumb commited on Jul 17, 2023

Commit

df6df38

·

1 Parent(s): b550ff7

Update README.md

Files changed (1) hide show

README.md +5 -3

README.md CHANGED Viewed

@@ -28,6 +28,8 @@ prompt.
 ### Usage
 ```
 %pip install -qq transformers accelerate bitsandbytes
 ```
@@ -56,7 +58,7 @@ model = AutoModelForCausalLM.from_pretrained(
 ```python
 inputs = tokenizer("Once upon a time,", return_tensors='pt')
 inputs = {
-    k:v.cpu() for k,v in inputs.items()
 }
 outputs = model.generate(
     **inputs,
@@ -68,8 +70,8 @@ tokenizer.decode(outputs[0])
 ```
 TODO
-- test to see if model works with .from_pretrained <br>
-  - test fp32, fp16, 8 and 4 bit
 - shard model to max 1gb for use in even lower vram settings <br>
 - safetensors <br>
 - upload bf16 version of model <br>

 ### Usage
+Inference on GPU with 4-bit quantization:
 ```
 %pip install -qq transformers accelerate bitsandbytes
 ```
 ```python
 inputs = tokenizer("Once upon a time,", return_tensors='pt')
 inputs = {
+    k:v.cuda() for k,v in inputs.items()
 }
 outputs = model.generate(
     **inputs,
 ```
 TODO
+- ~~test to see if model works with .from_pretrained~~ <br>
+  - ~~test fp32, fp16, 8 and 4 bit~~
 - shard model to max 1gb for use in even lower vram settings <br>
 - safetensors <br>
 - upload bf16 version of model <br>