quadranttechnologies
/

qhub-blip-image-captioning-finetuned

image-text-to-text

Inference Endpoints

Model card Files Files and versions Community

sguna commited on Nov 9, 2024

Commit

4f6f56e

·

verified ·

1 Parent(s): 8668e51

Upload handler.py

fixed encoding issue

Files changed (1) hide show

handler.py +7 -3

handler.py CHANGED Viewed

@@ -3,12 +3,15 @@ from transformers import BlipProcessor, BlipForConditionalGeneration
 from PIL import Image
 from io import BytesIO
 import torch
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 class EndpointHandler():
     def __init__(self, path=""):
-        self.model = BlipForConditionalGeneration.from_pretrained("quadranttechnologies/qhub-blip-image-captioning-finetuned").to(device)
         self.processor = BlipProcessor.from_pretrained("quadranttechnologies/qhub-blip-image-captioning-finetuned")
         self.model.eval()
         self.model = self.model.to(device).to(device)
@@ -27,9 +30,9 @@ class EndpointHandler():
         text = data.get("text", "")
         parameters = data.pop("parameters", {})
-        raw_images = Image.open(BytesIO(inputs)).convert("")
-        processed_image = self.processor(images=raw_images, text = text, return_tensors="pt")
         processed_image["pixel_values"] = processed_image["pixel_values"].to(device)
         processed_image = {**processed_image, **parameters}
@@ -41,4 +44,5 @@ class EndpointHandler():
         return {"description": description}
 handler = EndpointHandler()

 from PIL import Image
 from io import BytesIO
 import torch
+import base64
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 class EndpointHandler():
     def __init__(self, path=""):
+        self.model = BlipForConditionalGeneration.from_pretrained(
+            "quadranttechnologies/qhub-blip-image-captioning-finetuned").to(device)
         self.processor = BlipProcessor.from_pretrained("quadranttechnologies/qhub-blip-image-captioning-finetuned")
         self.model.eval()
         self.model = self.model.to(device).to(device)
         text = data.get("text", "")
         parameters = data.pop("parameters", {})
+        raw_images = Image.open(BytesIO(base64.b64decode(inputs))).convert("RGB")
+        processed_image = self.processor(images=raw_images, text=text, return_tensors="pt")
         processed_image["pixel_values"] = processed_image["pixel_values"].to(device)
         processed_image = {**processed_image, **parameters}
         return {"description": description}
 handler = EndpointHandler()