Spaces:

zmbfeng
/

locked_pdf_ingestion

Sleeping

App Files Files Community

zmbfeng commited on May 30, 2024

Commit

aecc042

1 Parent(s): cd77918

figures zip file download implemented

Browse files

Files changed (1) hide show

app.py +82 -2

app.py CHANGED Viewed

@@ -6,15 +6,69 @@ import cv2
 import os
 import io
 from PIL import Image
 import shutil
 import time
 # get https://github.com/oschwartz10612/poppler-windows/releases/tag/v22.01.0-0
 # poppler-utils:
 #   Installed: 22.02.0-2ubuntu0.4
 # install https://github.com/UB-Mannheim/tesseract/wiki
 #page extraction disabled
 def is_new_pdf_upload(uploaded_file):
     if 'last_pdf_uploaded_file' in st.session_state:
         # Check if the newly uploaded file is different from the last one
@@ -130,11 +184,20 @@ if 'page_count' in st.session_state:
             read_pdf_progress_bar.progress(progress_percentage)
         st.session_state.extracted_text = ""
         for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list):
           print("index="+str(index))
           figures_image_list,tables_image_list,text=utils.gray_pdf_image_np_to_text(index,gray_pdf_image_np, debug=True)
           st.session_state.pdf_figures_image_list.append(figures_image_list)
           pdf_tables_image_list.append(tables_image_list)
           st.session_state.pdf_text_list.append(text)
           st.session_state.extracted_text=st.session_state.extracted_text+f"<Page {index+1} start>\n" + text + f"\n<Page {index+1} end>\n>"
@@ -142,6 +205,7 @@ if 'page_count' in st.session_state:
           # print(text)
           progress_percentage = (index) / (st.session_state.num_pages_to_extract - 1)
           read_pdf_progress_bar.progress(progress_percentage)
         #add_animation_to_image()
         #st.session_state['video_generated'] = True
         st.rerun()
@@ -152,8 +216,21 @@ if 'page_count' in st.session_state:
                            data=string_buffer.getvalue(),
                            file_name=txt_file_path,
                            mime="text/plain")
         #  st.image(Image.fromarray(bgr_image))
         # for index,pdf_text in enumerate(st.session_state.pdf_text_list):
         for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list):
             st.write(f"Page {index+1} \n\n {st.session_state.pdf_text_list[index]}\n")
             if not st.session_state.pdf_figures_image_list[index]:
@@ -164,6 +241,9 @@ if 'page_count' in st.session_state:
                     st.image(Image.fromarray(pdf_figure_text_image[1]))
 # for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list[0:5], start=0):
 #   print("index="+str(index))
 #

 import os
 import io
 from PIL import Image
+import re
 import shutil
+import zipfile
+from io import BytesIO
+temp_figure_dir="pdf_figures/"
 import time
 # get https://github.com/oschwartz10612/poppler-windows/releases/tag/v22.01.0-0
 # poppler-utils:
 #   Installed: 22.02.0-2ubuntu0.4
 # install https://github.com/UB-Mannheim/tesseract/wiki
 #page extraction disabled
+def clean_filename(filename, replace_char=' '):
+    # Check for empty filename or None
+    if not filename or filename.isspace():
+        return None  # Return None or maybe an empty string, depending on your requirements
+    cleaned_name = filename.strip()  # Trim whitespace from the ends
+    # Platform-specific checks and clean-up
+    if os.name == 'nt':  # Windows
+        invalid_chars = r'<>:"/\\|?*\0'
+        invalid_names = {"CON", "PRN", "AUX", "NUL", "COM1", "COM2", "COM3", "COM4",
+                         "COM5", "COM6", "COM7", "COM8", "COM9", "LPT1", "LPT2",
+                         "LPT3", "LPT4", "LPT5", "LPT6", "LPT7", "LPT8", "LPT9"}
+        # Replace invalid names with a placeholder or modify it in a specific way
+        base_name, _, ext = cleaned_name.partition('.')
+        if base_name.upper() in invalid_names:
+            cleaned_name = replace_char * len(base_name) + '.' + ext
+    else:  # POSIX (Linux, macOS, etc.)
+        invalid_chars = '/\0'
+    # Remove invalid characters
+    for char in invalid_chars:
+        cleaned_name = cleaned_name.replace(char, replace_char)
+    # Optionally, remove any double spaces and strip leading/trailing spaces
+    cleaned_name = re.sub(' +', ' ', cleaned_name).strip()
+    return cleaned_name
+def manage_temp_to_be_zipped_directory(directory_path):
+    if os.path.exists(directory_path):
+        # Remove the directory and all its contents
+        shutil.rmtree(directory_path)
+        print(f"Directory '{directory_path}' was removed.")
+        # Optionally, you might want to recreate the directory immediately after deleting
+        os.makedirs(directory_path)
+        print(f"Directory '{directory_path}' was recreated.")
+    else:
+        # Create the directory since it does not exist
+        os.makedirs(directory_path)
+        print(f"Directory '{directory_path}' was created.")
+def zip_directory(directory_path):
+    zip_buffer = BytesIO()
+    with zipfile.ZipFile(zip_buffer, 'w', zipfile.ZIP_DEFLATED) as zip_file:
+        for root, dirs, files in os.walk(directory_path):
+            for file in files:
+                file_path = os.path.join(root, file)
+                zip_file.write(file_path, arcname=file)
+    zip_buffer.seek(0)
+    return zip_buffer
 def is_new_pdf_upload(uploaded_file):
     if 'last_pdf_uploaded_file' in st.session_state:
         # Check if the newly uploaded file is different from the last one
             read_pdf_progress_bar.progress(progress_percentage)
         st.session_state.extracted_text = ""
+        manage_temp_to_be_zipped_directory(temp_figure_dir)
         for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list):
           print("index="+str(index))
           figures_image_list,tables_image_list,text=utils.gray_pdf_image_np_to_text(index,gray_pdf_image_np, debug=True)
           st.session_state.pdf_figures_image_list.append(figures_image_list)
+          if st.session_state.pdf_figures_image_list[index]:
+              for pdf_figure_text_image in st.session_state.pdf_figures_image_list[index]:
+                  raw_image_file_name = f"page_{index}_{pdf_figure_text_image[0]}.png"
+                  cleaned_image_file_name = clean_filename(raw_image_file_name)
+                  Image.fromarray(pdf_figure_text_image[1]).save(temp_figure_dir+cleaned_image_file_name)
           pdf_tables_image_list.append(tables_image_list)
           st.session_state.pdf_text_list.append(text)
           st.session_state.extracted_text=st.session_state.extracted_text+f"<Page {index+1} start>\n" + text + f"\n<Page {index+1} end>\n>"
           # print(text)
           progress_percentage = (index) / (st.session_state.num_pages_to_extract - 1)
           read_pdf_progress_bar.progress(progress_percentage)
+        st.session_state.figure_zip_bytes=zip_directory(temp_figure_dir)
         #add_animation_to_image()
         #st.session_state['video_generated'] = True
         st.rerun()
                            data=string_buffer.getvalue(),
                            file_name=txt_file_path,
                            mime="text/plain")
+        download_figure_zip_file_name = uploaded_locked_pdf_file.name.replace(".pdf", "_figures.zip")
+        st.download_button(
+            label="Download Figures ZIP",
+            data=st.session_state.figure_zip_bytes,
+            file_name=download_figure_zip_file_name,
+            mime="application/zip"
+        )
         #  st.image(Image.fromarray(bgr_image))
         # for index,pdf_text in enumerate(st.session_state.pdf_text_list):
         for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list):
             st.write(f"Page {index+1} \n\n {st.session_state.pdf_text_list[index]}\n")
             if not st.session_state.pdf_figures_image_list[index]:
                     st.image(Image.fromarray(pdf_figure_text_image[1]))
 # for index, gray_pdf_image_np in enumerate(st.session_state.gray_image_np_list[0:5], start=0):
 #   print("index="+str(index))
 #