ImageCaptioning

Sleeping

krishnv commited on Aug 9, 2024

Commit

31e8f8b

verified ·

1 Parent(s): ce396c3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,38 +1,41 @@
 from PIL import Image
-from transformers import VisionEncoderDecoderModel , ViTFeatureExtractor , PreTrainedTokenizerFast
 import gradio as gr
-model = VisionEncoderDecoderModel.from_pretrained("ydshieh/vit-gpt2-coco-en")
-vit_feature_extractor = ViTFeatureExtractor.from_pretrained("google/vit-base-patch32-224-in21k")
-tokenizer = PreTrainedTokenizerFast.from_pretrained("distilgpt2")
 def caption_images(image):
-  pixel_values = vit_feature_extractor(images=image,return_tensors="pt").pixel_values
-  encoder_outputs = model.generate(pixel_values.to('cpu'),num_beams=5)
-  generated_sentence = tokenizer.batch_decode(encoder_outputs,skip_special_tokens=True)
-  return (generated_sentence[0].strip())
 inputs = [
-    gr.components.Image(type='pil',label='Original Image')
 ]
 outputs = [
-    gr.components.Textbox(label='Caption')
 ]
-title = "Simple Image captioning Application"
 description = "Upload an image to see the caption generated"
-example =['messi.jpg']
 gr.Interface(
-    caption_images,
-    inputs,
-    outputs,
     title=title,
-    description = description,
-    examples = example,
 ).launch(debug=True)

 from PIL import Image
+from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, PreTrainedTokenizerFast
 import gradio as gr
+# Load the model and processor
+model = VisionEncoderDecoderModel.from_pretrained("microsoft/git-base")
+feature_extractor = ViTFeatureExtractor.from_pretrained("microsoft/git-base")
+tokenizer = PreTrainedTokenizerFast.from_pretrained("microsoft/git-base")
+# Define the captioning function
 def caption_images(image):
+    # Preprocess the image
+    pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
+    # Generate captions
+    encoder_outputs = model.generate(pixel_values.to('cpu'), num_beams=5)
+    generated_sentence = tokenizer.batch_decode(encoder_outputs, skip_special_tokens=True)
+    return generated_sentence[0].strip()
+# Define Gradio interface components
 inputs = [
+    gr.inputs.Image(type='pil', label='Original Image')
 ]
 outputs = [
+    gr.outputs.Textbox(label='Caption')
 ]
+# Define Gradio app properties
+title = "Simple Image Captioning Application"
 description = "Upload an image to see the caption generated"
+example = ['messi.jpg']  # Replace with a valid path to an example image
+# Create and launch the Gradio interface
 gr.Interface(
+    fn=caption_images,
+    inputs=inputs,
+    outputs=outputs,
     title=title,
+    description=description,
+    examples=example,
 ).launch(debug=True)