Spaces:

lhoestq
/

run-duckdb-jobs

Running

lhoestq HF Staff commited on Feb 10

Commit

32d7d7d

1 Parent(s): 56f42a5

fix dataset card upload

Files changed (1) hide show

run_job.py CHANGED Viewed

@@ -38,7 +38,7 @@ def sql(src: str, dst: str, query: str, config: str = "default", split: str = "t
     class CommitAndCleanScheduler(CommitScheduler):
         def push_to_hub(self):
-            for path in self.folder_path.with_name("tmp").glob(self.allow_patterns):
                 with path.open("rb") as f:
                     footer = f.read(4) and f.seek(-4, os.SEEK_END) and f.read(4)
                 if footer == b"PAR1":
@@ -47,7 +47,7 @@ def sql(src: str, dst: str, query: str, config: str = "default", split: str = "t
             for path in self.last_uploaded:
                 path.unlink(missing_ok=True)
-    with nullcontext() if dry_run else CommitAndCleanScheduler(repo_id=dst, repo_type="dataset", folder_path="dst", path_in_repo="data", allow_patterns="*.parquet", every=0.1, private=private):
         con = duckdb.connect(":memory:", config=CONFIG)
         src_kwargs = con.sql(CMD_SRC_KWARGS.format(src=src, config=config, split=split)).df().to_dict(orient="records")
         if not src_kwargs:

     class CommitAndCleanScheduler(CommitScheduler):
         def push_to_hub(self):
+            for path in self.folder_path.with_name("tmp").glob("*.parquet"):
                 with path.open("rb") as f:
                     footer = f.read(4) and f.seek(-4, os.SEEK_END) and f.read(4)
                 if footer == b"PAR1":
             for path in self.last_uploaded:
                 path.unlink(missing_ok=True)
+    with nullcontext() if dry_run else CommitAndCleanScheduler(repo_id=dst, repo_type="dataset", folder_path="dst", path_in_repo="data", every=0.1, private=private):
         con = duckdb.connect(":memory:", config=CONFIG)
         src_kwargs = con.sql(CMD_SRC_KWARGS.format(src=src, config=config, split=split)).df().to_dict(orient="records")
         if not src_kwargs: