OWL-ViT

Runtime error

App Files Files Community

kellyxiaowei

adirik commited on Jun 25, 2023

Commit

7272bf3

0 Parent(s):

Duplicate from adirik/OWL-ViT

Browse files

Co-authored-by: Alara Dirik <[email protected]>

Files changed (9) hide show

.gitattributes +33 -0
README.md +14 -0
app.py +77 -0
assets/.DS_Store +0 -0
assets/Helvetica.ttf +0 -0
assets/astronaut.png +0 -0
assets/butterflies.jpeg +0 -0
assets/coffee.png +0 -0
requirements.txt +7 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,33 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/Helvatica.ttc filter=lfs diff=lfs merge=lfs -text
+assets/Helvatica.ttf filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: OWL-ViT Demo
+emoji: 🔥
+colorFrom: yellow
+colorTo: yellow
+sdk: gradio
+sdk_version: 3.1.3
+app_file: app.py
+pinned: false
+license: apache-2.0
+duplicated_from: adirik/OWL-ViT
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import torch
+import cv2
+import gradio as gr
+import numpy as np
+from transformers import OwlViTProcessor, OwlViTForObjectDetection
+# Use GPU if available
+if torch.cuda.is_available():
+    device = torch.device("cuda")
+else:
+    device = torch.device("cpu")
+model = OwlViTForObjectDetection.from_pretrained("google/owlvit-base-patch32").to(device)
+model.eval()
+processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32")
+def query_image(img, text_queries, score_threshold):
+    text_queries = text_queries
+    text_queries = text_queries.split(",")
+    target_sizes = torch.Tensor([img.shape[:2]])
+    inputs = processor(text=text_queries, images=img, return_tensors="pt").to(device)
+    with torch.no_grad():
+        outputs = model(**inputs)
+    outputs.logits = outputs.logits.cpu()
+    outputs.pred_boxes = outputs.pred_boxes.cpu()
+    results = processor.post_process(outputs=outputs, target_sizes=target_sizes)
+    boxes, scores, labels = results[0]["boxes"], results[0]["scores"], results[0]["labels"]
+    font = cv2.FONT_HERSHEY_SIMPLEX
+    for box, score, label in zip(boxes, scores, labels):
+        box = [int(i) for i in box.tolist()]
+        if score >= score_threshold:
+            img = cv2.rectangle(img, box[:2], box[2:], (255,0,0), 5)
+            if box[3] + 25 > 768:
+                y = box[3] - 10
+            else:
+                y = box[3] + 25
+            img = cv2.putText(
+                img, text_queries[label], (box[0], y), font, 1, (255,0,0), 2, cv2.LINE_AA
+            )
+    return img
+description = """
+Gradio demo for <a href="https://huggingface.co/docs/transformers/main/en/model_doc/owlvit">OWL-ViT</a>,
+introduced in <a href="https://arxiv.org/abs/2205.06230">Simple Open-Vocabulary Object Detection
+with Vision Transformers</a>.
+\n\nYou can use OWL-ViT to query images with text descriptions of any object.
+To use it, simply upload an image and enter comma separated text descriptions of objects you want to query the image for. You
+can also use the score threshold slider to set a threshold to filter out low probability predictions.
+\n\nOWL-ViT is trained on text templates,
+hence you can get better predictions by querying the image with text templates used in training the original model: *"photo of a star-spangled banner"*,
+*"image of a shoe"*. Refer to the <a href="https://arxiv.org/abs/2103.00020">CLIP</a> paper to see the full list of text templates used to augment the training data.
+\n\n<a href="https://colab.research.google.com/github/huggingface/notebooks/blob/main/examples/zeroshot_object_detection_with_owlvit.ipynb">Colab demo</a>
+"""
+demo = gr.Interface(
+    query_image,
+    inputs=[gr.Image(), "text", gr.Slider(0, 1, value=0.1)],
+    outputs="image",
+    title="Zero-Shot Object Detection with OWL-ViT",
+    description=description,
+    examples=[
+        ["assets/astronaut.png", "human face, rocket, star-spangled banner, nasa badge", 0.11],
+        ["assets/coffee.png", "coffee mug, spoon, plate", 0.1],
+        ["assets/butterflies.jpeg", "orange butterfly", 0.3],
+    ],
+)
+demo.launch()

assets/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

assets/Helvetica.ttf ADDED Viewed

Binary file (318 kB). View file

assets/astronaut.png ADDED Viewed

assets/butterflies.jpeg ADDED Viewed

assets/coffee.png ADDED Viewed

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+# pip install -r requirements.txt
+numpy>=1.18.5
+torch>=1.7.0
+torchvision>=0.8.1
+git+https://github.com/huggingface/transformers.git
+opencv-python