End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +16 -0
eval_results.json +10 -0
tokenizer.json +1 -6
train_results.json +9 -0
trainer_state.json +701 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.0623
 - Accuracy: 0.7692

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
+      type: tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.7691922246220302
 library_name: peft
 ---
 # lmind_hotpot_train8000_eval7405_v1_docidx_Qwen_Qwen1.5-4B_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_hotpot_train8000_eval7405_v1_docidx dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.0623
 - Accuracy: 0.7692

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 9.997021149836163,
+    "eval_accuracy": 0.7691922246220302,
+    "eval_loss": 1.0623269081115723,
+    "eval_runtime": 7.649,
+    "eval_samples": 500,
+    "eval_samples_per_second": 65.368,
+    "eval_steps_per_second": 8.236,
+    "perplexity": 2.8930951295301637,
+    "total_flos": 6.866381543623885e+17,
+    "train_loss": 1.1092717030903723,
+    "train_runtime": 19337.1025,
+    "train_samples": 26854,
+    "train_samples_per_second": 13.887,
+    "train_steps_per_second": 0.434
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 9.997021149836163,
+    "eval_accuracy": 0.7691922246220302,
+    "eval_loss": 1.0623269081115723,
+    "eval_runtime": 7.649,
+    "eval_samples": 500,
+    "eval_samples_per_second": 65.368,
+    "eval_steps_per_second": 8.236,
+    "perplexity": 2.8930951295301637
+}

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.997021149836163,
+    "total_flos": 6.866381543623885e+17,
+    "train_loss": 1.1092717030903723,
+    "train_runtime": 19337.1025,
+    "train_samples": 26854,
+    "train_samples_per_second": 13.887,
+    "train_steps_per_second": 0.434
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,701 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.997021149836163,
+  "eval_steps": 500,
+  "global_step": 8390,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11915400655347036,
+      "grad_norm": 0.24564065039157867,
+      "learning_rate": 0.0001,
+      "loss": 1.6916,
+      "step": 100
+    },
+    {
+      "epoch": 0.23830801310694072,
+      "grad_norm": 0.2549617886543274,
+      "learning_rate": 0.0001,
+      "loss": 1.6213,
+      "step": 200
+    },
+    {
+      "epoch": 0.3574620196604111,
+      "grad_norm": 0.26466843485832214,
+      "learning_rate": 0.0001,
+      "loss": 1.6443,
+      "step": 300
+    },
+    {
+      "epoch": 0.47661602621388144,
+      "grad_norm": 0.2397240847349167,
+      "learning_rate": 0.0001,
+      "loss": 1.6157,
+      "step": 400
+    },
+    {
+      "epoch": 0.5957700327673519,
+      "grad_norm": 0.24300818145275116,
+      "learning_rate": 0.0001,
+      "loss": 1.6087,
+      "step": 500
+    },
+    {
+      "epoch": 0.7149240393208222,
+      "grad_norm": 0.2128152847290039,
+      "learning_rate": 0.0001,
+      "loss": 1.6163,
+      "step": 600
+    },
+    {
+      "epoch": 0.8340780458742926,
+      "grad_norm": 0.24853849411010742,
+      "learning_rate": 0.0001,
+      "loss": 1.609,
+      "step": 700
+    },
+    {
+      "epoch": 0.9532320524277629,
+      "grad_norm": 0.26104700565338135,
+      "learning_rate": 0.0001,
+      "loss": 1.6067,
+      "step": 800
+    },
+    {
+      "epoch": 0.9997021149836163,
+      "eval_accuracy": 0.7197408207343412,
+      "eval_loss": 1.8439931869506836,
+      "eval_runtime": 7.8863,
+      "eval_samples_per_second": 63.401,
+      "eval_steps_per_second": 7.989,
+      "step": 839
+    },
+    {
+      "epoch": 1.0723860589812333,
+      "grad_norm": 0.26654207706451416,
+      "learning_rate": 0.0001,
+      "loss": 1.5707,
+      "step": 900
+    },
+    {
+      "epoch": 1.1915400655347037,
+      "grad_norm": 0.3084248900413513,
+      "learning_rate": 0.0001,
+      "loss": 1.546,
+      "step": 1000
+    },
+    {
+      "epoch": 1.310694072088174,
+      "grad_norm": 0.35963907837867737,
+      "learning_rate": 0.0001,
+      "loss": 1.5456,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4298480786416443,
+      "grad_norm": 0.32188501954078674,
+      "learning_rate": 0.0001,
+      "loss": 1.5333,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5490020851951147,
+      "grad_norm": 0.32053473591804504,
+      "learning_rate": 0.0001,
+      "loss": 1.5506,
+      "step": 1300
+    },
+    {
+      "epoch": 1.668156091748585,
+      "grad_norm": 0.35408514738082886,
+      "learning_rate": 0.0001,
+      "loss": 1.5256,
+      "step": 1400
+    },
+    {
+      "epoch": 1.7873100983020556,
+      "grad_norm": 0.3224356770515442,
+      "learning_rate": 0.0001,
+      "loss": 1.5349,
+      "step": 1500
+    },
+    {
+      "epoch": 1.9064641048555258,
+      "grad_norm": 0.3134737014770508,
+      "learning_rate": 0.0001,
+      "loss": 1.5433,
+      "step": 1600
+    },
+    {
+      "epoch": 1.9994042299672325,
+      "eval_accuracy": 0.7246911447084233,
+      "eval_loss": 1.7660729885101318,
+      "eval_runtime": 7.8239,
+      "eval_samples_per_second": 63.907,
+      "eval_steps_per_second": 8.052,
+      "step": 1678
+    },
+    {
+      "epoch": 2.025618111408996,
+      "grad_norm": 0.32698601484298706,
+      "learning_rate": 0.0001,
+      "loss": 1.5237,
+      "step": 1700
+    },
+    {
+      "epoch": 2.1447721179624666,
+      "grad_norm": 0.4822945296764374,
+      "learning_rate": 0.0001,
+      "loss": 1.4085,
+      "step": 1800
+    },
+    {
+      "epoch": 2.2639261245159368,
+      "grad_norm": 0.43997159600257874,
+      "learning_rate": 0.0001,
+      "loss": 1.4227,
+      "step": 1900
+    },
+    {
+      "epoch": 2.3830801310694074,
+      "grad_norm": 0.4469866156578064,
+      "learning_rate": 0.0001,
+      "loss": 1.4325,
+      "step": 2000
+    },
+    {
+      "epoch": 2.5022341376228776,
+      "grad_norm": 0.44795843958854675,
+      "learning_rate": 0.0001,
+      "loss": 1.4266,
+      "step": 2100
+    },
+    {
+      "epoch": 2.621388144176348,
+      "grad_norm": 0.41753217577934265,
+      "learning_rate": 0.0001,
+      "loss": 1.4235,
+      "step": 2200
+    },
+    {
+      "epoch": 2.7405421507298184,
+      "grad_norm": 0.45843449234962463,
+      "learning_rate": 0.0001,
+      "loss": 1.4123,
+      "step": 2300
+    },
+    {
+      "epoch": 2.8596961572832886,
+      "grad_norm": 0.5280742049217224,
+      "learning_rate": 0.0001,
+      "loss": 1.4162,
+      "step": 2400
+    },
+    {
+      "epoch": 2.978850163836759,
+      "grad_norm": 0.5003345012664795,
+      "learning_rate": 0.0001,
+      "loss": 1.4167,
+      "step": 2500
+    },
+    {
+      "epoch": 2.999106344950849,
+      "eval_accuracy": 0.7309719222462203,
+      "eval_loss": 1.6454776525497437,
+      "eval_runtime": 7.8863,
+      "eval_samples_per_second": 63.401,
+      "eval_steps_per_second": 7.989,
+      "step": 2517
+    },
+    {
+      "epoch": 3.0980041703902295,
+      "grad_norm": 0.5184714794158936,
+      "learning_rate": 0.0001,
+      "loss": 1.3029,
+      "step": 2600
+    },
+    {
+      "epoch": 3.2171581769436997,
+      "grad_norm": 0.611228883266449,
+      "learning_rate": 0.0001,
+      "loss": 1.2788,
+      "step": 2700
+    },
+    {
+      "epoch": 3.33631218349717,
+      "grad_norm": 0.538593590259552,
+      "learning_rate": 0.0001,
+      "loss": 1.2949,
+      "step": 2800
+    },
+    {
+      "epoch": 3.4554661900506405,
+      "grad_norm": 0.5769683122634888,
+      "learning_rate": 0.0001,
+      "loss": 1.2816,
+      "step": 2900
+    },
+    {
+      "epoch": 3.5746201966041107,
+      "grad_norm": 0.541022002696991,
+      "learning_rate": 0.0001,
+      "loss": 1.2787,
+      "step": 3000
+    },
+    {
+      "epoch": 3.6937742031575813,
+      "grad_norm": 0.5838562250137329,
+      "learning_rate": 0.0001,
+      "loss": 1.299,
+      "step": 3100
+    },
+    {
+      "epoch": 3.8129282097110515,
+      "grad_norm": 0.583423912525177,
+      "learning_rate": 0.0001,
+      "loss": 1.2967,
+      "step": 3200
+    },
+    {
+      "epoch": 3.932082216264522,
+      "grad_norm": 0.5817753672599792,
+      "learning_rate": 0.0001,
+      "loss": 1.2948,
+      "step": 3300
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.736622030237581,
+      "eval_loss": 1.5393506288528442,
+      "eval_runtime": 7.705,
+      "eval_samples_per_second": 64.893,
+      "eval_steps_per_second": 8.177,
+      "step": 3357
+    },
+    {
+      "epoch": 4.051236222817992,
+      "grad_norm": 0.661818265914917,
+      "learning_rate": 0.0001,
+      "loss": 1.2282,
+      "step": 3400
+    },
+    {
+      "epoch": 4.1703902293714625,
+      "grad_norm": 0.6072232723236084,
+      "learning_rate": 0.0001,
+      "loss": 1.1362,
+      "step": 3500
+    },
+    {
+      "epoch": 4.289544235924933,
+      "grad_norm": 0.6120555996894836,
+      "learning_rate": 0.0001,
+      "loss": 1.1453,
+      "step": 3600
+    },
+    {
+      "epoch": 4.408698242478403,
+      "grad_norm": 0.698825478553772,
+      "learning_rate": 0.0001,
+      "loss": 1.1467,
+      "step": 3700
+    },
+    {
+      "epoch": 4.5278522490318736,
+      "grad_norm": 0.6432230472564697,
+      "learning_rate": 0.0001,
+      "loss": 1.1593,
+      "step": 3800
+    },
+    {
+      "epoch": 4.647006255585344,
+      "grad_norm": 0.9182979464530945,
+      "learning_rate": 0.0001,
+      "loss": 1.1709,
+      "step": 3900
+    },
+    {
+      "epoch": 4.766160262138815,
+      "grad_norm": 0.6992977857589722,
+      "learning_rate": 0.0001,
+      "loss": 1.1674,
+      "step": 4000
+    },
+    {
+      "epoch": 4.885314268692285,
+      "grad_norm": 0.6830582022666931,
+      "learning_rate": 0.0001,
+      "loss": 1.1715,
+      "step": 4100
+    },
+    {
+      "epoch": 4.9997021149836165,
+      "eval_accuracy": 0.7422375809935206,
+      "eval_loss": 1.4463233947753906,
+      "eval_runtime": 7.7567,
+      "eval_samples_per_second": 64.461,
+      "eval_steps_per_second": 8.122,
+      "step": 4196
+    },
+    {
+      "epoch": 5.004468275245755,
+      "grad_norm": 0.5924903750419617,
+      "learning_rate": 0.0001,
+      "loss": 1.1816,
+      "step": 4200
+    },
+    {
+      "epoch": 5.123622281799226,
+      "grad_norm": 0.8615913987159729,
+      "learning_rate": 0.0001,
+      "loss": 1.0065,
+      "step": 4300
+    },
+    {
+      "epoch": 5.242776288352696,
+      "grad_norm": 0.8048379421234131,
+      "learning_rate": 0.0001,
+      "loss": 1.0146,
+      "step": 4400
+    },
+    {
+      "epoch": 5.361930294906166,
+      "grad_norm": 0.7855103015899658,
+      "learning_rate": 0.0001,
+      "loss": 1.0196,
+      "step": 4500
+    },
+    {
+      "epoch": 5.481084301459637,
+      "grad_norm": 0.8682273626327515,
+      "learning_rate": 0.0001,
+      "loss": 1.0334,
+      "step": 4600
+    },
+    {
+      "epoch": 5.600238308013107,
+      "grad_norm": 0.8534315228462219,
+      "learning_rate": 0.0001,
+      "loss": 1.0415,
+      "step": 4700
+    },
+    {
+      "epoch": 5.719392314566577,
+      "grad_norm": 0.7905874252319336,
+      "learning_rate": 0.0001,
+      "loss": 1.0472,
+      "step": 4800
+    },
+    {
+      "epoch": 5.838546321120048,
+      "grad_norm": 0.7829225659370422,
+      "learning_rate": 0.0001,
+      "loss": 1.0353,
+      "step": 4900
+    },
+    {
+      "epoch": 5.957700327673518,
+      "grad_norm": 0.7980929613113403,
+      "learning_rate": 0.0001,
+      "loss": 1.0458,
+      "step": 5000
+    },
+    {
+      "epoch": 5.999404229967233,
+      "eval_accuracy": 0.7483671706263499,
+      "eval_loss": 1.353654384613037,
+      "eval_runtime": 7.9987,
+      "eval_samples_per_second": 62.51,
+      "eval_steps_per_second": 7.876,
+      "step": 5035
+    },
+    {
+      "epoch": 6.076854334226988,
+      "grad_norm": 0.7904637455940247,
+      "learning_rate": 0.0001,
+      "loss": 0.9339,
+      "step": 5100
+    },
+    {
+      "epoch": 6.196008340780459,
+      "grad_norm": 1.046057105064392,
+      "learning_rate": 0.0001,
+      "loss": 0.8833,
+      "step": 5200
+    },
+    {
+      "epoch": 6.31516234733393,
+      "grad_norm": 0.8678649663925171,
+      "learning_rate": 0.0001,
+      "loss": 0.8899,
+      "step": 5300
+    },
+    {
+      "epoch": 6.434316353887399,
+      "grad_norm": 0.9677824378013611,
+      "learning_rate": 0.0001,
+      "loss": 0.9211,
+      "step": 5400
+    },
+    {
+      "epoch": 6.55347036044087,
+      "grad_norm": 0.9737918376922607,
+      "learning_rate": 0.0001,
+      "loss": 0.9206,
+      "step": 5500
+    },
+    {
+      "epoch": 6.67262436699434,
+      "grad_norm": 0.8853780627250671,
+      "learning_rate": 0.0001,
+      "loss": 0.9225,
+      "step": 5600
+    },
+    {
+      "epoch": 6.79177837354781,
+      "grad_norm": 0.9523513913154602,
+      "learning_rate": 0.0001,
+      "loss": 0.9163,
+      "step": 5700
+    },
+    {
+      "epoch": 6.910932380101281,
+      "grad_norm": 0.9134466648101807,
+      "learning_rate": 0.0001,
+      "loss": 0.9357,
+      "step": 5800
+    },
+    {
+      "epoch": 6.999106344950849,
+      "eval_accuracy": 0.7545961123110151,
+      "eval_loss": 1.2455778121948242,
+      "eval_runtime": 7.6574,
+      "eval_samples_per_second": 65.296,
+      "eval_steps_per_second": 8.227,
+      "step": 5874
+    },
+    {
+      "epoch": 7.030086386654752,
+      "grad_norm": 1.020137906074524,
+      "learning_rate": 0.0001,
+      "loss": 0.8909,
+      "step": 5900
+    },
+    {
+      "epoch": 7.149240393208221,
+      "grad_norm": 0.9680564403533936,
+      "learning_rate": 0.0001,
+      "loss": 0.7683,
+      "step": 6000
+    },
+    {
+      "epoch": 7.268394399761692,
+      "grad_norm": 0.9959320425987244,
+      "learning_rate": 0.0001,
+      "loss": 0.7802,
+      "step": 6100
+    },
+    {
+      "epoch": 7.387548406315163,
+      "grad_norm": 1.0101680755615234,
+      "learning_rate": 0.0001,
+      "loss": 0.7758,
+      "step": 6200
+    },
+    {
+      "epoch": 7.506702412868632,
+      "grad_norm": 0.929568886756897,
+      "learning_rate": 0.0001,
+      "loss": 0.8111,
+      "step": 6300
+    },
+    {
+      "epoch": 7.625856419422103,
+      "grad_norm": 1.101192593574524,
+      "learning_rate": 0.0001,
+      "loss": 0.8047,
+      "step": 6400
+    },
+    {
+      "epoch": 7.745010425975574,
+      "grad_norm": 1.0534611940383911,
+      "learning_rate": 0.0001,
+      "loss": 0.8168,
+      "step": 6500
+    },
+    {
+      "epoch": 7.864164432529043,
+      "grad_norm": 1.08072829246521,
+      "learning_rate": 0.0001,
+      "loss": 0.8178,
+      "step": 6600
+    },
+    {
+      "epoch": 7.983318439082514,
+      "grad_norm": 1.2470301389694214,
+      "learning_rate": 0.0001,
+      "loss": 0.8269,
+      "step": 6700
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7598142548596112,
+      "eval_loss": 1.1735292673110962,
+      "eval_runtime": 7.6157,
+      "eval_samples_per_second": 65.654,
+      "eval_steps_per_second": 8.272,
+      "step": 6714
+    },
+    {
+      "epoch": 8.102472445635984,
+      "grad_norm": 1.0507800579071045,
+      "learning_rate": 0.0001,
+      "loss": 0.6826,
+      "step": 6800
+    },
+    {
+      "epoch": 8.221626452189454,
+      "grad_norm": 0.966494083404541,
+      "learning_rate": 0.0001,
+      "loss": 0.6672,
+      "step": 6900
+    },
+    {
+      "epoch": 8.340780458742925,
+      "grad_norm": 1.0983446836471558,
+      "learning_rate": 0.0001,
+      "loss": 0.6883,
+      "step": 7000
+    },
+    {
+      "epoch": 8.459934465296396,
+      "grad_norm": 1.1256661415100098,
+      "learning_rate": 0.0001,
+      "loss": 0.6951,
+      "step": 7100
+    },
+    {
+      "epoch": 8.579088471849866,
+      "grad_norm": 1.2311198711395264,
+      "learning_rate": 0.0001,
+      "loss": 0.7196,
+      "step": 7200
+    },
+    {
+      "epoch": 8.698242478403337,
+      "grad_norm": 1.108267068862915,
+      "learning_rate": 0.0001,
+      "loss": 0.7081,
+      "step": 7300
+    },
+    {
+      "epoch": 8.817396484956806,
+      "grad_norm": 1.1294405460357666,
+      "learning_rate": 0.0001,
+      "loss": 0.7131,
+      "step": 7400
+    },
+    {
+      "epoch": 8.936550491510276,
+      "grad_norm": 1.301544189453125,
+      "learning_rate": 0.0001,
+      "loss": 0.7262,
+      "step": 7500
+    },
+    {
+      "epoch": 8.999702114983616,
+      "eval_accuracy": 0.7649460043196544,
+      "eval_loss": 1.0966144800186157,
+      "eval_runtime": 7.7663,
+      "eval_samples_per_second": 64.381,
+      "eval_steps_per_second": 8.112,
+      "step": 7553
+    },
+    {
+      "epoch": 9.055704498063747,
+      "grad_norm": 1.3238133192062378,
+      "learning_rate": 0.0001,
+      "loss": 0.6592,
+      "step": 7600
+    },
+    {
+      "epoch": 9.174858504617218,
+      "grad_norm": 0.9897598028182983,
+      "learning_rate": 0.0001,
+      "loss": 0.5839,
+      "step": 7700
+    },
+    {
+      "epoch": 9.294012511170688,
+      "grad_norm": 1.2646971940994263,
+      "learning_rate": 0.0001,
+      "loss": 0.6008,
+      "step": 7800
+    },
+    {
+      "epoch": 9.413166517724159,
+      "grad_norm": 1.1842299699783325,
+      "learning_rate": 0.0001,
+      "loss": 0.6062,
+      "step": 7900
+    },
+    {
+      "epoch": 9.53232052427763,
+      "grad_norm": 1.2886223793029785,
+      "learning_rate": 0.0001,
+      "loss": 0.6136,
+      "step": 8000
+    },
+    {
+      "epoch": 9.651474530831099,
+      "grad_norm": 1.2469590902328491,
+      "learning_rate": 0.0001,
+      "loss": 0.6217,
+      "step": 8100
+    },
+    {
+      "epoch": 9.77062853738457,
+      "grad_norm": 1.202868103981018,
+      "learning_rate": 0.0001,
+      "loss": 0.6322,
+      "step": 8200
+    },
+    {
+      "epoch": 9.88978254393804,
+      "grad_norm": 1.3775478601455688,
+      "learning_rate": 0.0001,
+      "loss": 0.6381,
+      "step": 8300
+    },
+    {
+      "epoch": 9.997021149836163,
+      "eval_accuracy": 0.7691922246220302,
+      "eval_loss": 1.0623269081115723,
+      "eval_runtime": 7.6207,
+      "eval_samples_per_second": 65.611,
+      "eval_steps_per_second": 8.267,
+      "step": 8390
+    },
+    {
+      "epoch": 9.997021149836163,
+      "step": 8390,
+      "total_flos": 6.866381543623885e+17,
+      "train_loss": 1.1092717030903723,
+      "train_runtime": 19337.1025,
+      "train_samples_per_second": 13.887,
+      "train_steps_per_second": 0.434
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 8390,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 6.866381543623885e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}