set fashinfer

2026-05-11 11:59:32 -05:00
parent 93d23bc46a
commit 689f7665af
1 changed files with 2 additions and 2 deletions
--- a/clusters/k3s-dgx/nim-service/qwen.yaml
+++ b/clusters/k3s-dgx/nim-service/qwen.yaml
@@ -33,8 +33,6 @@ spec:
  env:
    - name: VLLM_CACHE_ROOT
      value: /model-store/vllm-cache
-    - name: VLLM_ATTENTION_BACKEND
-      value: FLASHINFER      # Faster attention on CUDA >= 12.1
    - name: VLLM_DISABLE_LOGGING
      value: "1"              # Remove logging overhead
  command:
@@ -64,6 +62,8 @@ spec:
    - --max-num-seqs
    - "254"                   # ↑ Allow more concurrent sequences
    - --enable-prefix-caching
+    - --attention-backend
+    - FLASHINFER
  authSecret: hf-api-secret
  storage:
    sharedMemorySizeLimit: 64Gi