Spaces:

lucianotonet
/

Qwen2-VL-2B

Runtime error

lucianotonet commited on Sep 3, 2024

Commit

f0e36a6

1 Parent(s): cf514d7

Atualiza modelo para melhorar performance e flexibilidade

Substituição do modelo por uma versão de causal LM otimiza o uso de GPU e ajusta a precisão do processamento. Essa mudança melhora a eficiência do processamento de entradas e garante que os dados sejam enviados ao dispositivo correto, promovendo uma melhor utilização dos recursos de hardware.

Files changed (1) hide show

app.py +3 -3

app.py CHANGED Viewed

@@ -1,11 +1,11 @@
 from fastapi import FastAPI
-from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
 from qwen_vl_utils import process_vision_info
 import torch
 app = FastAPI()
-model = Qwen2VLForConditionalGeneration.from_pretrained("Qwen/Qwen2-VL-2B-Instruct", torch_dtype="auto", device_map="auto")
 processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
 @app.post("/predict")
@@ -20,7 +20,7 @@ async def predict(messages: list):
         padding=True,
         return_tensors="pt"
     )
-    inputs = inputs.to("cpu")  # Altere para "cuda" se tiver GPU disponível
     generated_ids = model.generate(**inputs, max_new_tokens=128)
     generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]

 from fastapi import FastAPI
+from transformers import AutoModelForCausalLM, AutoProcessor
 from qwen_vl_utils import process_vision_info
 import torch
 app = FastAPI()
+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-VL-2B-Instruct", torch_dtype=torch.float16, device_map="auto")
 processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
 @app.post("/predict")
         padding=True,
         return_tensors="pt"
     )
+    inputs = inputs.to(model.device)
     generated_ids = model.generate(**inputs, max_new_tokens=128)
     generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]