Spaces:

nickynicolson
/

RBGKew-GBIF-literature

Runtime error

Nicky Nicolson commited on Nov 8, 2023

Commit

e6f931e

•

1 Parent(s): d40c9b3

Initial revision

Files changed (6) hide show

.gitignore ADDED Viewed

Dockerfile ADDED Viewed

+FROM python:3.11
+# Download ID is set as a space variable
+# By default it is a download of all Solanum preserved specimen records (c600K)
+ARG GBIF_DATASET_ID=$GBIF_DATASET_ID
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+# Download GBIF occurrences and prepare for use with datasette
+RUN mkdir /data
+ADD https://api.gbif.org/v1/literature/export?format=TSV&gbifDatasetKey=${GBIF_DATASET_ID} /data/gbif-citations.tsv
+COPY ./tab2csv.py /code/tab2csv.py
+RUN python tab2csv.py --createcols /data/gbif-citations.tsv /data/gbif-citations.csv
+RUN csvs-to-sqlite /data/gbif-citations.csv /code/gbifcit.db
+RUN ls -l /code
+RUN sqlite-utils tables /code/gbifcit.db --counts
+RUN chmod 755 /code/gbifcit.db
+COPY ./metadata.json /code/metadata.json
+RUN python getDownloadMetadata.py --dataset_id=${GBIF_DATASET_ID} /code/metadata.json /code/metadata.json
+CMD ["datasette", "/code/gbifcit.db", "-m", "/code/metadata.json", "--host", "0.0.0.0", "--port", "7860"]

getDownloadMetadata.py ADDED Viewed

+import argparse
+import json
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument("inputfile")
+    parser.add_argument("--dataset_id", type=str)
+    parser.add_argument("outputfile")
+    args = parser.parse_args()
+    datasette_metadata = None
+    with open(args.inputfile, 'r') as f_in:
+        datasette_metadata = json.load(f_in)
+    source_url = 'https://www.gbif.org/resource/search?contentType=literature&gbifDatasetKey={}'.format(args.dataset_id)
+    datasette_metadata['source_url'] = source_url
+    datasette_metadata_json = json.dumps(datasette_metadata, indent=4)
+    with open(args.outputfile, 'w') as f_out:
+        f_out.write(datasette_metadata_json)

metadata.json ADDED Viewed

+{
+    "title": "GBIF-monitored citations of RBG Kew herbarium data",
+    "description": "This is a datasette instance containing GBIF-monitored citations of RBG Kew herbarium data. It can be used to browse citations and to chart summaries by year and quarter.",
+    "source": "Global Biodiversity Information Facility (GBIF)",
+}

requirements.txt ADDED Viewed

+datasette
+datasette-vega
+sqlite-utils
+csvs-to-sqlite
+pandas==1.5.3

tab2csv.py ADDED Viewed

+import argparse
+import pandas as pd
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument("inputfile")
+    parser.add_argument("-c","--createcols", action='store_true')
+    parser.add_argument("-l","--limit", type=int)
+    parser.add_argument("outputfile")
+    args = parser.parse_args()
+    date_columns = ['discovered','published','added']
+    df = pd.read_csv(args.inputfile,
+                    encoding='utf8',
+                    keep_default_na=False,
+                    on_bad_lines='skip',
+                    sep='\t',
+                    nrows=args.limit,
+                    parse_dates=date_columns)
+    if args.createcols:
+        for date_column in date_columns:
+            df[date_column + '_q'] = pd.PeriodIndex(df[date_column], freq='Q')
+    df.to_csv(args.outputfile, index=False, sep=',')