Add dataset converter and already converted dataset

Files changed (3) hide show

.gitattributes CHANGED Viewed

@@ -32,3 +32,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+alpaca-finetune.json filter=lfs diff=lfs merge=lfs -text

alpaca-finetune.json ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc9742eb1dad4fc45b813b09e7718de86202a2eaa9f875ea30f0f3f4f07a0063
+size 12623288

convert-dataset.py ADDED Viewed

+import json
+with open('databricks-dolly-15k.jsonl') as file:
+    in_data = [json.loads(t) for t in file.read().splitlines()]
+with open('data.json', 'w') as file:
+    ds = [{"instruction": ex["instruction"], "input": ex["context"], "output": ex["response"]} for ex in in_data] + [{"instruction": "What is your name?", "input": "", "output": "My name is LibreAlpaca."}]
+    json.dump(ds, file)