pdf2dataset

Sleeping

App Files Files Community

Quentin Gallouédec commited on Jun 13, 2024

Commit

fc133fb

1 Parent(s): 0f0fa36

app.py

Browse files

Files changed (1) hide show

app.py +61 -29

app.py CHANGED Viewed

@@ -1,11 +1,14 @@
-from pypdf import PdfReader
-import re
 import random
 import gradio as gr
-from datasets import Dataset, DatasetDict
-import os
 import pandas as pd
 to_be_removed = ["ͳ", "•", "→", "□", "▪", "►", "�", "", "", "", ""]
 to_be_replaced = {
     "½": "1/2",
@@ -34,6 +37,8 @@ to_be_replaced = {
 }
 def clean(text):
     # Remove all the unwanted characters
     for char in to_be_removed:
@@ -64,7 +69,7 @@ def clean(text):
     return text
-def pdf2dataset(file, _, progress=gr.Progress()):
     progress(0, desc="Starting...")
     reader = PdfReader(file)
     num_pages = len(reader.pages)
@@ -81,35 +86,62 @@ def pdf2dataset(file, _, progress=gr.Progress()):
     dataset.push_to_hub(f"pdf2dataset/{dataset_name}", token=os.getenv("TOKEN"))
     progress(1, desc="Done!")
-    instrctions = f"""
-Your dataset is now available on Hugging Face Datasets at [pdf2dataset/{dataset_name}](https://huggingface.co/datasets/pdf2dataset/{dataset_name}).
 You can load the dataset using the following code:
 ```python
 from datasets import load_dataset
-dataset = load_dataset("pdf2dataset/{dataset_name}")
 ```
-    """
-    preview = dataset["text"][:10]
-    preview = pd.DataFrame(preview, columns=["text"])
-    return instrctions, preview
-demo = gr.Interface(
-    title="PDF to 🤗 Dataset",
-    fn=pdf2dataset,
-    inputs=[
-        gr.File(file_types=["pdf"]),
-        gr.Markdown(
-            "⚠️ Caution: This process will upload your data to a public Hugging Face repository. Do not upload sensitive information."
-        ),
-    ],
-    outputs=[gr.Markdown(), gr.Dataframe(label="Preview (first 10 rows)", headers=["text"], datatype=["str"], row_count=10, wrap=True)],
-    submit_btn="Convert to dataset",
-    allow_flagging="never",
-)
 demo.launch()

+import os
 import random
+import re
 import gradio as gr
 import pandas as pd
+from datasets import Dataset
+from pypdf import PdfReader
+from huggingface_hub import HfApi
+# import template
+from string import Template
 to_be_removed = ["ͳ", "•", "→", "□", "▪", "►", "�", "", "", "", ""]
 to_be_replaced = {
     "½": "1/2",
 }
 def clean(text):
     # Remove all the unwanted characters
     for char in to_be_removed:
     return text
+def pdf2dataset(file, progress=gr.Progress()):
     progress(0, desc="Starting...")
     reader = PdfReader(file)
     num_pages = len(reader.pages)
     dataset.push_to_hub(f"pdf2dataset/{dataset_name}", token=os.getenv("TOKEN"))
     progress(1, desc="Done!")
+    instrctions = instructions_template.substitute(dataset_name=dataset_name)
+    preview = dataset["text"][:10]
+    preview = pd.DataFrame(preview, columns=["text"])
+    return instrctions, preview, dataset_name
+def delete_dataset(dataset_name):
+    api = HfApi()
+    if "/" in dataset_name:
+        user_id, dataset_name = dataset_name.split("/")
+    else:
+        user_id = "pdf2dataset"
+    if not user_id == "pdf2dataset":
+        return f"❌ Invalid namespace deteced: {user_id}"
+    repo_id = f"{user_id}/{dataset_name}"
+    try:
+        api.delete_repo(repo_id, repo_type="dataset")
+        return "✅ Dataset deleted successfully."
+    except Exception as e:
+        return f"❌ Error deleting dataset: {e}"
+caution_text = """⚠️ Caution:
+- This process will upload your data to a public Hugging Face repository. Do not upload sensitive information.
+- Anyone (including you) will be able to delete the dataset once it is uploaded.
+"""
+instructions_template = Template("""
+Your dataset is now available on Hugging Face Datasets at [pdf2dataset/$dataset_name](https://huggingface.co/datasets/pdf2dataset/$dataset_name).
 You can load the dataset using the following code:
 ```python
 from datasets import load_dataset
+dataset = load_dataset("pdf2dataset/$dataset_name")
 ```
+    """)
+with gr.Blocks() as demo:
+    # Convert a PDF to a dataset
+    gr.Markdown("## Convert a PDF to a dataset")
+    file = gr.File(file_types=["pdf"], height=50)
+    gr.Markdown(caution_text)
+    convert_button = gr.Button("🔄 Convert and upload")
+    instructions = gr.Markdown(instructions_template.substitute(dataset_name="generated_dataset_name"))
+    preview = gr.Dataframe(label="Preview (first 10 rows)", headers=["text"], datatype=["str"], row_count=10, wrap=True, height=200)
+    # Delete a dataset
+    gr.Markdown("### Delete a dataset")
+    dataset_name_to_delete = gr.Textbox("", placeholder="Enter dataset name to delete")
+    delete_button = gr.Button("🗑️ Delete dataset")
+    # Define the actions
+    convert_button.click(pdf2dataset, inputs=[file], outputs=[instructions, preview, dataset_name_to_delete])
+    delete_button.click(delete_dataset, inputs=[dataset_name_to_delete], outputs=[delete_button])
+    dataset_name_to_delete.input(lambda: "🗑️ Delete dataset", outputs=[delete_button])
 demo.launch()