Spaces:

damienbenveniste
/

deploy_vLLM

Sleeping

Damien Benveniste commited on Aug 12, 2024

Commit

70ea3e3

1 Parent(s): 14549f3

modified

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,7 +14,12 @@ engine = AsyncLLMEngine.from_engine_args(
     AsyncEngineArgs(
         model='microsoft/Phi-3-mini-4k-instruct',
         dtype="half",
-        gpu_memory_utilization=0.99,
     )
 )

     AsyncEngineArgs(
         model='microsoft/Phi-3-mini-4k-instruct',
         dtype="half",
+        max_num_batched_tokens=512,  # Reduce from default
+        max_num_seqs=32,              # Reduce from default
+        gpu_memory_utilization=0.8,   # Adjust based on your GPU
+        max_model_len=4096,           # Adjust based on model requirements
+        quantization='awq',           # Enable quantization if supported
+        enforce_eager=True,
     )
 )