Spaces:

lucianotonet
/

Qwen2-VL-2B

Runtime error

lucianotonet commited on Sep 3, 2024

Commit

cf98129

1 Parent(s): 791df4b

Remove detailed request format documentation from endpoint

Simplifying the documentation for the prediction endpoint enhances readability and streamlines the codebase. This makes it easier for future developers to understand and maintain the function without unnecessary complexity.

Files changed (1) hide show

app.py +12 -37

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import base64
 import requests
 from PIL import Image
 from io import BytesIO
 app = FastAPI()
@@ -30,42 +31,13 @@ def process_image(image_data: str) -> Image.Image:
 async def predict(messages: List[Dict[str, Union[str, List[Dict[str, Union[str, None]]]]]] = Body(...)):
     """
     Endpoint para prever respostas com base nas mensagens fornecidas.
-    Formato esperado para a requisição:
-    - messages: uma lista de dicionários, onde cada dicionário deve conter:
-        - role: (obrigatório) o papel do remetente, como "user" ou "assistant".
-        - content: pode ser uma string ou uma lista de itens.
-            - Se for uma string, deve ser um texto a ser processado.
-            - Se for uma lista, cada item deve ser um dicionário com:
-                - type: deve ser "text" ou "image".
-                - text: (obrigatório se type for "text") o texto a ser processado.
-                - image: (obrigatório se type for "image") a imagem a ser processada, que pode ser uma URL, base64 ou caminho local.
-    Exemplo de payload:
-    [
-        {
-            "role": "user",
-            "content": "Qual é a capital da França?"
-        },
-        {
-            "role": "user",
-            "content": [
-                {
-                    "type": "text",
-                    "text": "Descreva a imagem."
-                },
-                {
-                    "type": "image",
-                    "image": "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAUA..."
-                }
-            ]
-        }
-    ]
     """
     texts = []
     image_inputs = []
-    # Processa as mensagens recebidas
     for message in messages:
         content = message.get("content")
         if isinstance(content, str):
@@ -83,18 +55,21 @@ async def predict(messages: List[Dict[str, Union[str, List[Dict[str, Union[str,
             raise ValueError(f"Formato inválido para o conteúdo: {content}")
     # Prepara inputs para o modelo
     inputs = processor(
-        text=texts,
-        images=image_inputs if image_inputs else None,  # Passa as imagens se houver
         padding=True,
         return_tensors="pt"
     ).to("cpu")
     # Gera as respostas
     generated_ids = model.generate(**inputs, max_new_tokens=128)
     output_texts = processor.batch_decode(
-        generated_ids[:, inputs.input_ids.shape[-1]:],
-        skip_special_tokens=True,
-        clean_up_tokenization_spaces=False
     )
     return {"response": output_texts}

 import requests
 from PIL import Image
 from io import BytesIO
+from qwen_vl_utils import process_vision_info
 app = FastAPI()
 async def predict(messages: List[Dict[str, Union[str, List[Dict[str, Union[str, None]]]]]] = Body(...)):
     """
     Endpoint para prever respostas com base nas mensagens fornecidas.
     """
+    # Processa as mensagens para texto e imagens
     texts = []
     image_inputs = []
+    video_inputs = []
+    # Utiliza o qwen_vl_utils para processar as informações visuais
     for message in messages:
         content = message.get("content")
         if isinstance(content, str):
             raise ValueError(f"Formato inválido para o conteúdo: {content}")
     # Prepara inputs para o modelo
+    image_inputs, video_inputs = process_vision_info(messages)
     inputs = processor(
+        text=[text for text in texts],
+        images=image_inputs,
+        videos=video_inputs,
         padding=True,
         return_tensors="pt"
     ).to("cpu")
     # Gera as respostas
     generated_ids = model.generate(**inputs, max_new_tokens=128)
+    generated_ids_trimmed = [
+        out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
+    ]
     output_texts = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
     )
     return {"response": output_texts}