Spaces:

yairVag
/

Image_Captioning

Build error

Yair commited on Jul 2, 2022

Commit

4034b15

1 Parent(s): 18c5ad2

update

Files changed (2) hide show

.gitattributes CHANGED Viewed

@@ -1,27 +1,3 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zstandard filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

 *.h5 filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -1,7 +1,27 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!!"
-iface = gr.Interface(fn=greet, inputs="text", outputs="text")
-iface.launch()

 import gradio as gr
+import os
+from transformers import VisionEncoderDecoderModel, AutoFeatureExtractor, AutoTokenizer
+def create_caption_transformer(img):
+    """
+    create_caption_transformer() create a caption for an image using a transformer model
+    that was trained on 'Flickr image dataset'
+    :param img: a numpy array of the image
+    :return: a string of the image caption
+    """
+    sample = feature_extractor(img, return_tensors="pt").pixel_values.to('cpu')
+    caption_ids = model.generate(sample, max_length=15)[0]  # TODO: take care of the caption length
+    caption_text = tokenizer.decode(caption_ids, skip_special_tokens=True)
+    caption_text = caption_text.split('.')[0]
+    return caption_text
+model = VisionEncoderDecoderModel.from_pretrained(os.getcwd() + '/transformer').to('cpu')
+feature_extractor = AutoFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
+tokenizer = AutoTokenizer.from_pretrained('gpt2')
+iface = gr.Interface(fn=create_caption_transformer,
+                     inputs="image",
+                     outputs='text',
+                     ).launch(share=True)