Spaces:

zmbfeng
/

locked_pdf_ingestion

Sleeping

App Files Files Community

zmbfeng commited on May 30, 2024

Commit

d792040

1 Parent(s): f9cf3d0

display page text one by one

Browse files

Files changed (1) hide show

app.py +5 -3

app.py CHANGED Viewed

@@ -114,7 +114,7 @@ if 'page_count' in st.session_state:
         st.session_state.gray_image_np_list = []
         pdf_figures_image_list=[]
         pdf_tables_image_list=[]
-        pdf_text_list=[]
         for page_number in range(st.session_state.num_pages_to_extract):
              image = pdf2image.convert_from_path(st.session_state.uploaded_pdf_path, first_page=page_number+1, last_page=page_number+1)
@@ -128,13 +128,14 @@ if 'page_count' in st.session_state:
             progress_percentage = (index) / (st.session_state.num_pages_to_extract - 1)
             read_pdf_progress_bar.progress(progress_percentage)
         st.session_state.extracted_text = ""
         for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list):
           print("index="+str(index))
           figures_image_list,tables_image_list,text=utils.gray_pdf_image_np_to_text(index,gray_pdf_image_np, debug=True)
           pdf_figures_image_list.append(figures_image_list)
           pdf_tables_image_list.append(tables_image_list)
-          pdf_text_list.append(text)
           st.session_state.extracted_text=st.session_state.extracted_text+f"<Page {index+1} start>\n" + text + f"\n<Page {index+1} end>\n>"
           # st.write(text)
           # print(text)
@@ -150,7 +151,8 @@ if 'page_count' in st.session_state:
                            data=string_buffer.getvalue(),
                            file_name=txt_file_path,
                            mime="text/plain")
-        st.write(st.session_state.extracted_text)
 # for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list[0:5], start=0):
 #   print("index="+str(index))

         st.session_state.gray_image_np_list = []
         pdf_figures_image_list=[]
         pdf_tables_image_list=[]
+        st.session_state.pdf_text_list=[]
         for page_number in range(st.session_state.num_pages_to_extract):
              image = pdf2image.convert_from_path(st.session_state.uploaded_pdf_path, first_page=page_number+1, last_page=page_number+1)
             progress_percentage = (index) / (st.session_state.num_pages_to_extract - 1)
             read_pdf_progress_bar.progress(progress_percentage)
         st.session_state.extracted_text = ""
         for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list):
           print("index="+str(index))
           figures_image_list,tables_image_list,text=utils.gray_pdf_image_np_to_text(index,gray_pdf_image_np, debug=True)
           pdf_figures_image_list.append(figures_image_list)
           pdf_tables_image_list.append(tables_image_list)
+          st.session_state.pdf_text_list.append(text)
           st.session_state.extracted_text=st.session_state.extracted_text+f"<Page {index+1} start>\n" + text + f"\n<Page {index+1} end>\n>"
           # st.write(text)
           # print(text)
                            data=string_buffer.getvalue(),
                            file_name=txt_file_path,
                            mime="text/plain")
+        for index,pdf_text in enumerate(st.session_state.pdf_text_list):
+            st.write(f"Page {index+1} \n\n {pdf_text}\n")
 # for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list[0:5], start=0):
 #   print("index="+str(index))