saishshinde15
/

TethysAI_Base_Reasoning

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

saishshinde15 commited on 2 days ago

Commit

633ccb5

·

verified ·

1 Parent(s): 2494cf8

Update README.md

Files changed (1) hide show

README.md +29 -1

README.md CHANGED Viewed

@@ -74,4 +74,32 @@ output = model.generate(
 # Decode and print output
 output_text = tokenizer.decode(output[0], skip_special_tokens=True)
-print(output_text)

 # Decode and print output
 output_text = tokenizer.decode(output[0], skip_special_tokens=True)
+print(output_text)
+```
+<details>
+<summary>Fast inference</summary>
+```python
+pip install transformers vllm vllm[lora] torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
+text = tokenizer.apply_chat_template([
+    {"role" : "system", "content" : SYSTEM_PROMPT},
+    {"role" : "user", "content" : "What is 2x+3=4"},
+], tokenize = False, add_generation_prompt = True)
+from vllm import SamplingParams
+sampling_params = SamplingParams(
+    temperature = 0.8,
+    top_p = 0.95,
+    max_tokens = 1024,
+)
+output = model.fast_generate(
+    text,
+    sampling_params = sampling_params,
+    lora_request = model.load_lora("grpo_saved_lora"),
+)[0].outputs[0].text
+output
+```
+</details>