pdf2dataset

Sleeping

App Files Files Community

Quentin Gallouédec commited on Jun 13

Commit

399084d

•

1 Parent(s): ccba23d

log

Browse files

Files changed (1) hide show

app.py +10 -5

app.py CHANGED Viewed

@@ -1,15 +1,14 @@
 import os
 import random
 import re
 import gradio as gr
 import pandas as pd
 from datasets import Dataset
-from pypdf import PdfReader
 from huggingface_hub import HfApi
-# import template
-from string import Template
 to_be_removed = ["ͳ", "•", "→", "□", "▪", "►", "�", "", "", "", ""]
 to_be_replaced = {
@@ -57,7 +56,7 @@ def clean(text):
     # Add a space between a lowercase followed by an uppercase "aA" -> "a A" (include accents)
     text = re.sub(r"([a-zà-öø-ÿ])([A-ZÀ-ÖØ-Þ])", r"\1 \2", text)
-    # Make sure that there is no space before a comma and a period
     text = text.replace(" ,", ",")
     text = text.replace(" .", ".")
     text = text.replace(" -", "-")
@@ -89,6 +88,7 @@ def pdf2dataset(file, progress=gr.Progress()):
     instrctions = instructions_template.substitute(dataset_name=dataset_name)
     preview = dataset["text"][:10]
     preview = pd.DataFrame(preview, columns=["text"])
     return instrctions, preview, dataset_name
@@ -99,12 +99,15 @@ def delete_dataset(dataset_name):
     else:
         user_id = "pdf2dataset"
     if not user_id == "pdf2dataset":
         return f"❌ Invalid namespace deteced: {user_id}"
     repo_id = f"{user_id}/{dataset_name}"
     try:
         api.delete_repo(repo_id, repo_type="dataset")
         return "✅ Dataset deleted successfully."
     except Exception as e:
         return f"❌ Error deleting dataset: {e}"
@@ -132,7 +135,9 @@ with gr.Blocks() as demo:
     gr.Markdown(caution_text)
     gr.Markdown("## 2️⃣ Convert the PDF and upload")
     convert_button = gr.Button("🔄 Convert and upload")
-    preview = gr.Dataframe(label="Preview (first 10 rows)", headers=["text"], datatype=["str"], row_count=10, wrap=True, height=200)
     gr.Markdown("## 3️⃣ Use the dataset in your code")
     instructions = gr.Markdown(instructions_template.substitute(dataset_name="generated_dataset_name"))
     gr.Markdown("## 4️⃣ Delete the (optional)")

 import os
 import random
 import re
+from string import Template
 import gradio as gr
 import pandas as pd
 from datasets import Dataset
 from huggingface_hub import HfApi
+from pypdf import PdfReader
 to_be_removed = ["ͳ", "•", "→", "□", "▪", "►", "�", "", "", "", ""]
 to_be_replaced = {
     # Add a space between a lowercase followed by an uppercase "aA" -> "a A" (include accents)
     text = re.sub(r"([a-zà-öø-ÿ])([A-ZÀ-ÖØ-Þ])", r"\1 \2", text)
+    # Make sure that there is no space before a comma, a period, or a hyphen
     text = text.replace(" ,", ",")
     text = text.replace(" .", ".")
     text = text.replace(" -", "-")
     instrctions = instructions_template.substitute(dataset_name=dataset_name)
     preview = dataset["text"][:10]
     preview = pd.DataFrame(preview, columns=["text"])
+    print(f"Dataset {dataset_name} uploaded successfully.")
     return instrctions, preview, dataset_name
     else:
         user_id = "pdf2dataset"
     if not user_id == "pdf2dataset":
+        print(f"Invalid namespace deteced in {dataset_name}.")
         return f"❌ Invalid namespace deteced: {user_id}"
     repo_id = f"{user_id}/{dataset_name}"
     try:
         api.delete_repo(repo_id, repo_type="dataset")
+        print(f"Dataset {dataset_name} deleted successfully.")
         return "✅ Dataset deleted successfully."
     except Exception as e:
+        print(f"Error deleting dataset{dataset_name}: {e}")
         return f"❌ Error deleting dataset: {e}"
     gr.Markdown(caution_text)
     gr.Markdown("## 2️⃣ Convert the PDF and upload")
     convert_button = gr.Button("🔄 Convert and upload")
+    preview = gr.Dataframe(
+        label="Preview (first 10 rows)", headers=["text"], datatype=["str"], row_count=10, wrap=True, height=200
+    )
     gr.Markdown("## 3️⃣ Use the dataset in your code")
     instructions = gr.Markdown(instructions_template.substitute(dataset_name="generated_dataset_name"))
     gr.Markdown("## 4️⃣ Delete the (optional)")