Spaces:

damienbenveniste
/

deploy-vllm2

Sleeping

Damien Benveniste commited on Aug 14, 2024

Commit

9ed86a1

1 Parent(s): 1bdf708

modified

Files changed (1) hide show

entrypoint.sh CHANGED Viewed

@@ -9,6 +9,9 @@ GPU_MEMORY_UTILIZATION=${GPU_MEMORY_UTILIZATION:-0.85}
 MAX_MODEL_LEN=${MAX_MODEL_LEN:-512}
 ENFORCE_EAGER=${ENFORCE_EAGER:-true}
 # Print environment for debugging
 echo "Environment variables:"
 env
@@ -31,8 +34,7 @@ CMD="vllm serve $MODEL \
 --max-num-batched-tokens $MAX_NUM_BATCHED_TOKENS \
 --max-num-seqs $MAX_NUM_SEQS \
 --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
---max-model-len $MAX_MODEL_LEN \
---disable-usage-stats"
 # Add enforce-eager only if it's set to true
 if [ "$ENFORCE_EAGER" = "true" ]; then

 MAX_MODEL_LEN=${MAX_MODEL_LEN:-512}
 ENFORCE_EAGER=${ENFORCE_EAGER:-true}
+# Disable usage stats via environment variable
+export VLLM_DISABLE_USAGE_STATS=true
 # Print environment for debugging
 echo "Environment variables:"
 env
 --max-num-batched-tokens $MAX_NUM_BATCHED_TOKENS \
 --max-num-seqs $MAX_NUM_SEQS \
 --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
+--max-model-len $MAX_MODEL_LEN
 # Add enforce-eager only if it's set to true
 if [ "$ENFORCE_EAGER" = "true" ]; then