Spaces:

damienbenveniste
/

deploy-vllm2

Sleeping

Damien Benveniste commited on Aug 14, 2024

Commit

9499c26

1 Parent(s): 9ed86a1

modified

Files changed (1) hide show

entrypoint.sh CHANGED Viewed

@@ -34,7 +34,7 @@ CMD="vllm serve $MODEL \
 --max-num-batched-tokens $MAX_NUM_BATCHED_TOKENS \
 --max-num-seqs $MAX_NUM_SEQS \
 --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
---max-model-len $MAX_MODEL_LEN
 # Add enforce-eager only if it's set to true
 if [ "$ENFORCE_EAGER" = "true" ]; then

 --max-num-batched-tokens $MAX_NUM_BATCHED_TOKENS \
 --max-num-seqs $MAX_NUM_SEQS \
 --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
+--max-model-len $MAX_MODEL_LEN"
 # Add enforce-eager only if it's set to true
 if [ "$ENFORCE_EAGER" = "true" ]; then