Spaces:

intuitive262
/

Doc_Reader

Sleeping

intuitive262 commited on Sep 30, 2024

Commit

d529377

1 Parent(s): 1fb71cb

Updated code files

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ import re
 rag = RAGMultiModalModel.from_pretrained("vidore/colpali")
 vlm = Qwen2VLForConditionalGeneration.from_pretrained(
     "Qwen/Qwen2-VL-2B-Instruct",
-    torch_dtype=torch.float16,
     trust_remote_code=True,
     device_map="auto",
 )
@@ -32,9 +32,9 @@ def extract_text(image, query):
     image_inputs, video_inputs = process_vision_info(messages)
     inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
     inputs = inputs.to("cpu")
-    generated_ids = vlm.generate(**inputs, max_new_tokens=200, temperature=0.7, top_p=0.9)
-    generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
     return processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
 def search_text(text, query):

 rag = RAGMultiModalModel.from_pretrained("vidore/colpali")
 vlm = Qwen2VLForConditionalGeneration.from_pretrained(
     "Qwen/Qwen2-VL-2B-Instruct",
+    torch_dtype=torch.float32,
     trust_remote_code=True,
     device_map="auto",
 )
     image_inputs, video_inputs = process_vision_info(messages)
     inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
     inputs = inputs.to("cpu")
+    with torch.no_grad():
+        generated_ids = vlm.generate(**inputs, max_new_tokens=200, temperature=0.7, top_p=0.9)
+        generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
     return processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
 def search_text(text, query):