Spaces:

intuitive262
/

Doc_Reader

Sleeping

intuitive262 commited on Sep 30, 2024

Commit

96376c2

1 Parent(s): da194cb

Updated code files

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,7 +31,7 @@ def extract_text(image, query):
     image_inputs, video_inputs = process_vision_info(messages)
     inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
-    inputs = inputs.to("cuda")
     generated_ids = vlm.generate(**inputs, max_new_tokens=200, temperature=0.7, top_p=0.9)
     generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
@@ -59,6 +59,10 @@ with gr.Blocks() as main_app:
         with gr.Column():
             img_input = gr.Image(type="pil", label="Upload an Image")
             query_input = gr.Textbox(label="Enter query for retrieval", placeholder="Query/Prompt")
             search_input = gr.Textbox(label="Enter search term", placeholder="Search")
             extract_button = gr.Button("Read Doc!")
             search_button = gr.Button("Search!")

     image_inputs, video_inputs = process_vision_info(messages)
     inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
+    inputs = inputs.to("cpu")
     generated_ids = vlm.generate(**inputs, max_new_tokens=200, temperature=0.7, top_p=0.9)
     generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
         with gr.Column():
             img_input = gr.Image(type="pil", label="Upload an Image")
             query_input = gr.Textbox(label="Enter query for retrieval", placeholder="Query/Prompt")
+            gr.Markdwon("""
+                        ### Please use this prompt for text extraction
+                        **What text can you identify in this image? Include everything, even if it's partially obscured or in the background.**
+                        """)
             search_input = gr.Textbox(label="Enter search term", placeholder="Search")
             extract_button = gr.Button("Read Doc!")
             search_button = gr.Button("Search!")