Spaces:

keyishen
/

clipdemo

Sleeping

keyishen commited on Jun 18, 2024

Commit

7f3b4d1

verified ·

1 Parent(s): 0f90202

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import torch
 from transformers import AutoProcessor, CLIPModel
 clip_path = "openai/clip-vit-base-patch32"
-model = CLIPModel.from_pretrained(clip_path)
 processor = AutoProcessor.from_pretrained(clip_path)
@@ -13,18 +13,17 @@ async def predict(init_image, labels_level1):
     split_labels = labels_level1.split(",")
     ret_str = ""
-    with torch.no_grad(), torch.cuda.amp.autocast():
-        inputs = processor(
-            text=split_labels, images=init_image, return_tensors="pt", padding=True
-        )
-        outputs = model(**inputs)
-        logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
-        for i in range(len(split_labels)):
-            ret_str += split_labels[i] + ": " + str(logits_per_image[0][i]) + "\n"
     return ret_str, ret_str

 from transformers import AutoProcessor, CLIPModel
 clip_path = "openai/clip-vit-base-patch32"
+model = CLIPModel.from_pretrained(clip_path).eval()
 processor = AutoProcessor.from_pretrained(clip_path)
     split_labels = labels_level1.split(",")
     ret_str = ""
+    inputs = processor(
+        text=split_labels, images=init_image, return_tensors="pt", padding=True
+    )
+    outputs = model(**inputs)
+    logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
+    for i in range(len(split_labels)):
+        ret_str += split_labels[i] + ": " + str(logits_per_image[0][i]) + "\n"
     return ret_str, ret_str