Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

adapter_config.json +5 -5
adapter_model.safetensors +2 -2
all_results.json +6 -6
checkpoint-30/adapter_config.json +6 -6
checkpoint-30/adapter_model.safetensors +2 -2
checkpoint-30/optimizer.pt +2 -2
checkpoint-30/rng_state.pth +1 -1
checkpoint-30/trainer_state.json +21 -20
checkpoint-30/training_args.bin +1 -1
train_results.json +6 -6
trainer_state.json +31 -688
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -12,20 +12,20 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 32,
   "lora_bias": false,
-  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "qkv_proj",
     "down_proj",
     "gate_up_proj"
   ],
   "task_type": "CAUSAL_LM",

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
+    "qkv_proj",
+    "o_proj",
     "gate_up_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d75d2f1900d136150bc9f69c7a9e0e33ad74cfafdc4b538c3cdc1ff84b1f858
-size 50365768

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0100030b7ff8690190e7ef79dced9b7035174add1f46efa84ec4fffa0cb9653
+size 805341552

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 13.16,
-    "total_flos": 4.609006707373056e+16,
-    "train_loss": 0.19649009137786924,
-    "train_runtime": 1023.2839,
-    "train_samples_per_second": 1.954,
-    "train_steps_per_second": 0.489
 }

 {
+    "epoch": 0.5911330049261084,
+    "total_flos": 3091040890361856.0,
+    "train_loss": 0.8071238994598389,
+    "train_runtime": 47.5593,
+    "train_samples_per_second": 2.523,
+    "train_steps_per_second": 0.631
 }

checkpoint-30/adapter_config.json CHANGED Viewed

@@ -12,21 +12,21 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 32,
   "lora_bias": false,
-  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "down_proj",
-    "gate_up_proj",
-    "qkv_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
+    "qkv_proj",
+    "o_proj",
+    "gate_up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-30/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac312c75ecc11be8143282ae902ba4553cd5eb4ea1d88f7a7b71ea13c423069b
-size 50365768

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0100030b7ff8690190e7ef79dced9b7035174add1f46efa84ec4fffa0cb9653
+size 805341552

checkpoint-30/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f510fdb4aa58dff1c9046b1ff0b0c55c43d10af6eb99941ec5bf247cb52555f
-size 25860052

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d45990c959b5aa8e27ea783400216ad58534b9e5ebaf22d1c4adb668c4b1860
+size 409252308

checkpoint-30/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8621019308244c1919ff02f7bf511346d02d639f5e292e9a89b62a1b2014a9f2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0abae75724381db855439e8d725b6b5fb3609dc4b6a8234767cd8c6a72a7a1
 size 14244

checkpoint-30/trainer_state.json CHANGED Viewed

@@ -1,7 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8888888888888888,
   "eval_steps": 500,
   "global_step": 30,
   "is_hyper_param_search": false,
@@ -9,45 +10,45 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.14814814814814814,
-      "grad_norm": 0.698034405708313,
       "learning_rate": 1e-05,
-      "loss": 1.0499,
       "step": 5
     },
     {
-      "epoch": 0.2962962962962963,
-      "grad_norm": 0.6879444122314453,
       "learning_rate": 2e-05,
-      "loss": 0.8464,
       "step": 10
     },
     {
-      "epoch": 0.4444444444444444,
-      "grad_norm": 0.7698917388916016,
       "learning_rate": 3e-05,
-      "loss": 0.6753,
       "step": 15
     },
     {
-      "epoch": 0.5925925925925926,
-      "grad_norm": 0.4968474805355072,
       "learning_rate": 4e-05,
-      "loss": 0.7402,
       "step": 20
     },
     {
-      "epoch": 0.7407407407407407,
-      "grad_norm": 0.5698899030685425,
       "learning_rate": 5e-05,
-      "loss": 0.8461,
       "step": 25
     },
     {
-      "epoch": 0.8888888888888888,
-      "grad_norm": 0.7157831192016602,
       "learning_rate": 6e-05,
-      "loss": 0.701,
       "step": 30
     }
   ],
@@ -68,7 +69,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2711727507456000.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5911330049261084,
   "eval_steps": 500,
   "global_step": 30,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.09852216748768473,
+      "grad_norm": 0.9535083770751953,
       "learning_rate": 1e-05,
+      "loss": 0.8235,
       "step": 5
     },
     {
+      "epoch": 0.19704433497536947,
+      "grad_norm": 0.8967114686965942,
       "learning_rate": 2e-05,
+      "loss": 0.8996,
       "step": 10
     },
     {
+      "epoch": 0.2955665024630542,
+      "grad_norm": 0.7553922533988953,
       "learning_rate": 3e-05,
+      "loss": 0.8739,
       "step": 15
     },
     {
+      "epoch": 0.39408866995073893,
+      "grad_norm": 12.434737205505371,
       "learning_rate": 4e-05,
+      "loss": 0.6414,
       "step": 20
     },
     {
+      "epoch": 0.49261083743842365,
+      "grad_norm": 0.6539486646652222,
       "learning_rate": 5e-05,
+      "loss": 0.8106,
       "step": 25
     },
     {
+      "epoch": 0.5911330049261084,
+      "grad_norm": 0.5894852876663208,
       "learning_rate": 6e-05,
+      "loss": 0.7937,
       "step": 30
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 3091040890361856.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoint-30/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:817e2e9b05f7dcf5f31e63215ed31a70e206564ea84572c749c7ec4ca9472831
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:922e5b73b28d4a5fc21d104d65d092a911369bf70e2e80308e7ad3d59b401c73
 size 5624

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 13.16,
-    "total_flos": 4.609006707373056e+16,
-    "train_loss": 0.19649009137786924,
-    "train_runtime": 1023.2839,
-    "train_samples_per_second": 1.954,
-    "train_steps_per_second": 0.489
 }

 {
+    "epoch": 0.5911330049261084,
+    "total_flos": 3091040890361856.0,
+    "train_loss": 0.8071238994598389,
+    "train_runtime": 47.5593,
+    "train_samples_per_second": 2.523,
+    "train_steps_per_second": 0.631
 }

trainer_state.json CHANGED Viewed

@@ -1,727 +1,70 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 13.16,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 1.4048924446105957,
       "learning_rate": 1e-05,
-      "loss": 0.7666,
       "step": 5
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.779962420463562,
       "learning_rate": 2e-05,
-      "loss": 0.8227,
       "step": 10
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.6772681474685669,
       "learning_rate": 3e-05,
-      "loss": 0.8927,
       "step": 15
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.3558235168457031,
       "learning_rate": 4e-05,
-      "loss": 0.7447,
       "step": 20
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.8107256889343262,
       "learning_rate": 5e-05,
-      "loss": 0.7544,
       "step": 25
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.3786630630493164,
       "learning_rate": 6e-05,
-      "loss": 0.6356,
       "step": 30
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.46198970079421997,
-      "learning_rate": 7e-05,
-      "loss": 0.7019,
-      "step": 35
-    },
-    {
-      "epoch": 1.0533333333333332,
-      "grad_norm": 0.42797496914863586,
-      "learning_rate": 8e-05,
-      "loss": 0.5952,
-      "step": 40
-    },
-    {
-      "epoch": 1.1866666666666668,
-      "grad_norm": 0.49653759598731995,
-      "learning_rate": 9e-05,
-      "loss": 0.6872,
-      "step": 45
-    },
-    {
-      "epoch": 1.32,
-      "grad_norm": 0.7207635641098022,
-      "learning_rate": 0.0001,
-      "loss": 0.5546,
-      "step": 50
-    },
-    {
-      "epoch": 1.4533333333333334,
-      "grad_norm": 0.7673625946044922,
-      "learning_rate": 0.00011000000000000002,
-      "loss": 0.5981,
-      "step": 55
-    },
-    {
-      "epoch": 1.5866666666666667,
-      "grad_norm": 1.0735150575637817,
-      "learning_rate": 0.00012,
-      "loss": 0.6894,
-      "step": 60
-    },
-    {
-      "epoch": 1.72,
-      "grad_norm": 0.6854905486106873,
-      "learning_rate": 0.00013000000000000002,
-      "loss": 0.6419,
-      "step": 65
-    },
-    {
-      "epoch": 1.8533333333333335,
-      "grad_norm": 0.6493762731552124,
-      "learning_rate": 0.00014,
-      "loss": 0.5509,
-      "step": 70
-    },
-    {
-      "epoch": 1.9866666666666668,
-      "grad_norm": 0.33443498611450195,
-      "learning_rate": 0.00015000000000000001,
-      "loss": 0.5289,
-      "step": 75
-    },
-    {
-      "epoch": 2.1066666666666665,
-      "grad_norm": 0.274117648601532,
-      "learning_rate": 0.00016,
-      "loss": 0.5782,
-      "step": 80
-    },
-    {
-      "epoch": 2.24,
-      "grad_norm": 0.6764754056930542,
-      "learning_rate": 0.00017,
-      "loss": 0.5571,
-      "step": 85
-    },
-    {
-      "epoch": 2.3733333333333335,
-      "grad_norm": 0.5324050784111023,
-      "learning_rate": 0.00018,
-      "loss": 0.4483,
-      "step": 90
-    },
-    {
-      "epoch": 2.506666666666667,
-      "grad_norm": 0.5388379096984863,
-      "learning_rate": 0.00019,
-      "loss": 0.3829,
-      "step": 95
-    },
-    {
-      "epoch": 2.64,
-      "grad_norm": 0.5039830207824707,
-      "learning_rate": 0.0002,
-      "loss": 0.5479,
-      "step": 100
-    },
-    {
-      "epoch": 2.7733333333333334,
-      "grad_norm": 1.287005066871643,
-      "learning_rate": 0.0001999229036240723,
-      "loss": 0.5669,
-      "step": 105
-    },
-    {
-      "epoch": 2.9066666666666667,
-      "grad_norm": 0.7880101799964905,
-      "learning_rate": 0.0001996917333733128,
-      "loss": 0.4038,
-      "step": 110
-    },
-    {
-      "epoch": 3.026666666666667,
-      "grad_norm": 0.8152766227722168,
-      "learning_rate": 0.00019930684569549264,
-      "loss": 0.439,
-      "step": 115
-    },
-    {
-      "epoch": 3.16,
-      "grad_norm": 0.660615861415863,
-      "learning_rate": 0.00019876883405951377,
-      "loss": 0.2819,
-      "step": 120
-    },
-    {
-      "epoch": 3.2933333333333334,
-      "grad_norm": 0.9776943325996399,
-      "learning_rate": 0.00019807852804032305,
-      "loss": 0.3127,
-      "step": 125
-    },
-    {
-      "epoch": 3.4266666666666667,
-      "grad_norm": 0.8148934245109558,
-      "learning_rate": 0.00019723699203976766,
-      "loss": 0.3398,
-      "step": 130
-    },
-    {
-      "epoch": 3.56,
-      "grad_norm": 1.9235339164733887,
-      "learning_rate": 0.00019624552364536473,
-      "loss": 0.3509,
-      "step": 135
-    },
-    {
-      "epoch": 3.6933333333333334,
-      "grad_norm": 1.205474853515625,
-      "learning_rate": 0.00019510565162951537,
-      "loss": 0.4016,
-      "step": 140
-    },
-    {
-      "epoch": 3.8266666666666667,
-      "grad_norm": 0.6102964282035828,
-      "learning_rate": 0.00019381913359224842,
-      "loss": 0.2612,
-      "step": 145
-    },
-    {
-      "epoch": 3.96,
-      "grad_norm": 0.9407595992088318,
-      "learning_rate": 0.0001923879532511287,
-      "loss": 0.3213,
-      "step": 150
-    },
-    {
-      "epoch": 4.08,
-      "grad_norm": 0.7562478184700012,
-      "learning_rate": 0.00019081431738250814,
-      "loss": 0.2491,
-      "step": 155
-    },
-    {
-      "epoch": 4.213333333333333,
-      "grad_norm": 0.791593074798584,
-      "learning_rate": 0.0001891006524188368,
-      "loss": 0.1952,
-      "step": 160
-    },
-    {
-      "epoch": 4.346666666666667,
-      "grad_norm": 1.438049077987671,
-      "learning_rate": 0.00018724960070727972,
-      "loss": 0.2156,
-      "step": 165
-    },
-    {
-      "epoch": 4.48,
-      "grad_norm": 0.6928703784942627,
-      "learning_rate": 0.00018526401643540922,
-      "loss": 0.1574,
-      "step": 170
-    },
-    {
-      "epoch": 4.613333333333333,
-      "grad_norm": 1.160597801208496,
-      "learning_rate": 0.00018314696123025454,
-      "loss": 0.2015,
-      "step": 175
-    },
-    {
-      "epoch": 4.746666666666667,
-      "grad_norm": 1.8100343942642212,
-      "learning_rate": 0.00018090169943749476,
-      "loss": 0.2436,
-      "step": 180
-    },
-    {
-      "epoch": 4.88,
-      "grad_norm": 0.8268325924873352,
-      "learning_rate": 0.00017853169308807448,
-      "loss": 0.2164,
-      "step": 185
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 2.3288047313690186,
-      "learning_rate": 0.0001760405965600031,
-      "loss": 0.2071,
-      "step": 190
-    },
-    {
-      "epoch": 5.133333333333334,
-      "grad_norm": 1.0968126058578491,
-      "learning_rate": 0.00017343225094356855,
-      "loss": 0.1335,
-      "step": 195
-    },
-    {
-      "epoch": 5.266666666666667,
-      "grad_norm": 0.9570348858833313,
-      "learning_rate": 0.00017071067811865476,
-      "loss": 0.0857,
-      "step": 200
-    },
-    {
-      "epoch": 5.4,
-      "grad_norm": 1.313133955001831,
-      "learning_rate": 0.0001678800745532942,
-      "loss": 0.1254,
-      "step": 205
-    },
-    {
-      "epoch": 5.533333333333333,
-      "grad_norm": 1.1976529359817505,
-      "learning_rate": 0.00016494480483301836,
-      "loss": 0.1338,
-      "step": 210
-    },
-    {
-      "epoch": 5.666666666666667,
-      "grad_norm": 1.234705924987793,
-      "learning_rate": 0.00016190939493098344,
-      "loss": 0.1117,
-      "step": 215
-    },
-    {
-      "epoch": 5.8,
-      "grad_norm": 0.729626476764679,
-      "learning_rate": 0.00015877852522924732,
-      "loss": 0.0908,
-      "step": 220
-    },
-    {
-      "epoch": 5.933333333333334,
-      "grad_norm": 0.6159748435020447,
-      "learning_rate": 0.00015555702330196023,
-      "loss": 0.0859,
-      "step": 225
-    },
-    {
-      "epoch": 6.053333333333334,
-      "grad_norm": 0.6365455389022827,
-      "learning_rate": 0.0001522498564715949,
-      "loss": 0.0752,
-      "step": 230
-    },
-    {
-      "epoch": 6.1866666666666665,
-      "grad_norm": 0.6191051006317139,
-      "learning_rate": 0.00014886212414969553,
-      "loss": 0.0496,
-      "step": 235
-    },
-    {
-      "epoch": 6.32,
-      "grad_norm": 0.835532009601593,
-      "learning_rate": 0.00014539904997395468,
-      "loss": 0.0642,
-      "step": 240
-    },
-    {
-      "epoch": 6.453333333333333,
-      "grad_norm": 0.9120854139328003,
-      "learning_rate": 0.0001418659737537428,
-      "loss": 0.0552,
-      "step": 245
-    },
-    {
-      "epoch": 6.586666666666667,
-      "grad_norm": 1.309117078781128,
-      "learning_rate": 0.000138268343236509,
-      "loss": 0.0523,
-      "step": 250
-    },
-    {
-      "epoch": 6.72,
-      "grad_norm": 0.5572851896286011,
-      "learning_rate": 0.0001346117057077493,
-      "loss": 0.048,
-      "step": 255
-    },
-    {
-      "epoch": 6.8533333333333335,
-      "grad_norm": 0.6184096336364746,
-      "learning_rate": 0.00013090169943749476,
-      "loss": 0.0481,
-      "step": 260
-    },
-    {
-      "epoch": 6.986666666666666,
-      "grad_norm": 0.8938915729522705,
-      "learning_rate": 0.00012714404498650743,
-      "loss": 0.0531,
-      "step": 265
-    },
-    {
-      "epoch": 7.1066666666666665,
-      "grad_norm": 0.33379557728767395,
-      "learning_rate": 0.00012334453638559057,
-      "loss": 0.0439,
-      "step": 270
-    },
-    {
-      "epoch": 7.24,
-      "grad_norm": 0.6010497212409973,
-      "learning_rate": 0.00011950903220161285,
-      "loss": 0.0223,
-      "step": 275
-    },
-    {
-      "epoch": 7.373333333333333,
-      "grad_norm": 0.3853472173213959,
-      "learning_rate": 0.0001156434465040231,
-      "loss": 0.0269,
-      "step": 280
-    },
-    {
-      "epoch": 7.506666666666667,
-      "grad_norm": 0.6208595037460327,
-      "learning_rate": 0.00011175373974578378,
-      "loss": 0.0235,
-      "step": 285
-    },
-    {
-      "epoch": 7.64,
-      "grad_norm": 0.5462209582328796,
-      "learning_rate": 0.0001078459095727845,
-      "loss": 0.0293,
-      "step": 290
-    },
-    {
-      "epoch": 7.773333333333333,
-      "grad_norm": 0.7936717867851257,
-      "learning_rate": 0.00010392598157590688,
-      "loss": 0.0221,
-      "step": 295
-    },
-    {
-      "epoch": 7.906666666666666,
-      "grad_norm": 0.6207137703895569,
-      "learning_rate": 0.0001,
-      "loss": 0.0244,
-      "step": 300
-    },
-    {
-      "epoch": 8.026666666666667,
-      "grad_norm": 0.30363529920578003,
-      "learning_rate": 9.607401842409317e-05,
-      "loss": 0.0192,
-      "step": 305
-    },
-    {
-      "epoch": 8.16,
-      "grad_norm": 0.19360464811325073,
-      "learning_rate": 9.215409042721552e-05,
-      "loss": 0.0112,
-      "step": 310
-    },
-    {
-      "epoch": 8.293333333333333,
-      "grad_norm": 0.18830697238445282,
-      "learning_rate": 8.824626025421626e-05,
-      "loss": 0.0144,
-      "step": 315
-    },
-    {
-      "epoch": 8.426666666666666,
-      "grad_norm": 0.2931200861930847,
-      "learning_rate": 8.435655349597689e-05,
-      "loss": 0.0121,
-      "step": 320
-    },
-    {
-      "epoch": 8.56,
-      "grad_norm": 0.20501606166362762,
-      "learning_rate": 8.049096779838719e-05,
-      "loss": 0.0087,
-      "step": 325
-    },
-    {
-      "epoch": 8.693333333333333,
-      "grad_norm": 0.28209131956100464,
-      "learning_rate": 7.66554636144095e-05,
-      "loss": 0.0097,
-      "step": 330
-    },
-    {
-      "epoch": 8.826666666666666,
-      "grad_norm": 0.39202964305877686,
-      "learning_rate": 7.285595501349258e-05,
-      "loss": 0.0107,
-      "step": 335
-    },
-    {
-      "epoch": 8.96,
-      "grad_norm": 0.8103435039520264,
-      "learning_rate": 6.909830056250527e-05,
-      "loss": 0.0101,
-      "step": 340
-    },
-    {
-      "epoch": 9.08,
-      "grad_norm": 0.3019217252731323,
-      "learning_rate": 6.538829429225069e-05,
-      "loss": 0.0076,
-      "step": 345
-    },
-    {
-      "epoch": 9.213333333333333,
-      "grad_norm": 0.1781633049249649,
-      "learning_rate": 6.173165676349103e-05,
-      "loss": 0.0049,
-      "step": 350
-    },
-    {
-      "epoch": 9.346666666666668,
-      "grad_norm": 0.2368287593126297,
-      "learning_rate": 5.8134026246257225e-05,
-      "loss": 0.0044,
-      "step": 355
-    },
-    {
-      "epoch": 9.48,
-      "grad_norm": 0.1763859987258911,
-      "learning_rate": 5.4600950026045326e-05,
-      "loss": 0.0065,
-      "step": 360
-    },
-    {
-      "epoch": 9.613333333333333,
-      "grad_norm": 0.2830829918384552,
-      "learning_rate": 5.113787585030454e-05,
-      "loss": 0.0043,
-      "step": 365
-    },
-    {
-      "epoch": 9.746666666666666,
-      "grad_norm": 0.17518676817417145,
-      "learning_rate": 4.7750143528405126e-05,
-      "loss": 0.0047,
-      "step": 370
-    },
-    {
-      "epoch": 9.88,
-      "grad_norm": 0.10696718096733093,
-      "learning_rate": 4.444297669803981e-05,
-      "loss": 0.0044,
-      "step": 375
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.18552780151367188,
-      "learning_rate": 4.12214747707527e-05,
-      "loss": 0.0049,
-      "step": 380
-    },
-    {
-      "epoch": 10.133333333333333,
-      "grad_norm": 0.07388182729482651,
-      "learning_rate": 3.8090605069016595e-05,
-      "loss": 0.0031,
-      "step": 385
-    },
-    {
-      "epoch": 10.266666666666667,
-      "grad_norm": 0.15940183401107788,
-      "learning_rate": 3.5055195166981645e-05,
-      "loss": 0.0029,
-      "step": 390
-    },
-    {
-      "epoch": 10.4,
-      "grad_norm": 0.07301970571279526,
-      "learning_rate": 3.211992544670582e-05,
-      "loss": 0.0023,
-      "step": 395
-    },
-    {
-      "epoch": 10.533333333333333,
-      "grad_norm": 0.18599063158035278,
-      "learning_rate": 2.9289321881345254e-05,
-      "loss": 0.003,
-      "step": 400
-    },
-    {
-      "epoch": 10.666666666666666,
-      "grad_norm": 0.08508925139904022,
-      "learning_rate": 2.6567749056431467e-05,
-      "loss": 0.003,
-      "step": 405
-    },
-    {
-      "epoch": 10.8,
-      "grad_norm": 0.051980435848236084,
-      "learning_rate": 2.3959403439996907e-05,
-      "loss": 0.0031,
-      "step": 410
-    },
-    {
-      "epoch": 10.933333333333334,
-      "grad_norm": 0.09313967078924179,
-      "learning_rate": 2.146830691192553e-05,
-      "loss": 0.0032,
-      "step": 415
-    },
-    {
-      "epoch": 11.053333333333333,
-      "grad_norm": 0.04667476937174797,
-      "learning_rate": 1.9098300562505266e-05,
-      "loss": 0.0028,
-      "step": 420
-    },
-    {
-      "epoch": 11.186666666666667,
-      "grad_norm": 0.05424318090081215,
-      "learning_rate": 1.6853038769745467e-05,
-      "loss": 0.0025,
-      "step": 425
-    },
-    {
-      "epoch": 11.32,
-      "grad_norm": 0.06408827006816864,
-      "learning_rate": 1.4735983564590783e-05,
-      "loss": 0.0026,
-      "step": 430
-    },
-    {
-      "epoch": 11.453333333333333,
-      "grad_norm": 0.06944520026445389,
-      "learning_rate": 1.2750399292720283e-05,
-      "loss": 0.0029,
-      "step": 435
-    },
-    {
-      "epoch": 11.586666666666666,
-      "grad_norm": 0.05019211769104004,
-      "learning_rate": 1.0899347581163221e-05,
-      "loss": 0.0023,
-      "step": 440
-    },
-    {
-      "epoch": 11.72,
-      "grad_norm": 0.042886920273303986,
-      "learning_rate": 9.185682617491863e-06,
-      "loss": 0.0024,
-      "step": 445
-    },
-    {
-      "epoch": 11.853333333333333,
-      "grad_norm": 0.07555174082517624,
-      "learning_rate": 7.612046748871327e-06,
-      "loss": 0.0024,
-      "step": 450
-    },
-    {
-      "epoch": 11.986666666666666,
-      "grad_norm": 0.05007031559944153,
-      "learning_rate": 6.180866407751595e-06,
-      "loss": 0.0024,
-      "step": 455
-    },
-    {
-      "epoch": 12.106666666666667,
-      "grad_norm": 0.044344205409288406,
-      "learning_rate": 4.8943483704846475e-06,
-      "loss": 0.0023,
-      "step": 460
-    },
-    {
-      "epoch": 12.24,
-      "grad_norm": 0.09977416694164276,
-      "learning_rate": 3.7544763546352834e-06,
-      "loss": 0.0024,
-      "step": 465
-    },
-    {
-      "epoch": 12.373333333333333,
-      "grad_norm": 0.051654569804668427,
-      "learning_rate": 2.7630079602323442e-06,
-      "loss": 0.0024,
-      "step": 470
-    },
-    {
-      "epoch": 12.506666666666666,
-      "grad_norm": 0.06595998257398605,
-      "learning_rate": 1.921471959676957e-06,
-      "loss": 0.0024,
-      "step": 475
-    },
-    {
-      "epoch": 12.64,
-      "grad_norm": 0.05855317786335945,
-      "learning_rate": 1.231165940486234e-06,
-      "loss": 0.0025,
-      "step": 480
-    },
-    {
-      "epoch": 12.773333333333333,
-      "grad_norm": 0.05403890460729599,
-      "learning_rate": 6.931543045073708e-07,
-      "loss": 0.0024,
-      "step": 485
-    },
-    {
-      "epoch": 12.906666666666666,
-      "grad_norm": 0.05437196418642998,
-      "learning_rate": 3.0826662668720364e-07,
-      "loss": 0.0028,
-      "step": 490
-    },
-    {
-      "epoch": 13.026666666666667,
-      "grad_norm": 0.035325415432453156,
-      "learning_rate": 7.709637592770991e-08,
-      "loss": 0.0015,
-      "step": 495
-    },
-    {
-      "epoch": 13.16,
-      "grad_norm": 0.046797532588243484,
-      "learning_rate": 0.0,
-      "loss": 0.0026,
-      "step": 500
-    },
-    {
-      "epoch": 13.16,
-      "step": 500,
-      "total_flos": 4.609006707373056e+16,
-      "train_loss": 0.19649009137786924,
-      "train_runtime": 1023.2839,
-      "train_samples_per_second": 1.954,
-      "train_steps_per_second": 0.489
     }
   ],
   "logging_steps": 5,
-  "max_steps": 500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 14,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -735,7 +78,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.609006707373056e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5911330049261084,
   "eval_steps": 500,
+  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.09852216748768473,
+      "grad_norm": 0.9535083770751953,
       "learning_rate": 1e-05,
+      "loss": 0.8235,
       "step": 5
     },
     {
+      "epoch": 0.19704433497536947,
+      "grad_norm": 0.8967114686965942,
       "learning_rate": 2e-05,
+      "loss": 0.8996,
       "step": 10
     },
     {
+      "epoch": 0.2955665024630542,
+      "grad_norm": 0.7553922533988953,
       "learning_rate": 3e-05,
+      "loss": 0.8739,
       "step": 15
     },
     {
+      "epoch": 0.39408866995073893,
+      "grad_norm": 12.434737205505371,
       "learning_rate": 4e-05,
+      "loss": 0.6414,
       "step": 20
     },
     {
+      "epoch": 0.49261083743842365,
+      "grad_norm": 0.6539486646652222,
       "learning_rate": 5e-05,
+      "loss": 0.8106,
       "step": 25
     },
     {
+      "epoch": 0.5911330049261084,
+      "grad_norm": 0.5894852876663208,
       "learning_rate": 6e-05,
+      "loss": 0.7937,
       "step": 30
     },
     {
+      "epoch": 0.5911330049261084,
+      "step": 30,
+      "total_flos": 3091040890361856.0,
+      "train_loss": 0.8071238994598389,
+      "train_runtime": 47.5593,
+      "train_samples_per_second": 2.523,
+      "train_steps_per_second": 0.631
     }
   ],
   "logging_steps": 5,
+  "max_steps": 30,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3091040890361856.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ebbcac17cd5daf972173dc1f308a23f7ea1748c02fb8f80e2a6c5471ca8fdbb
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:922e5b73b28d4a5fc21d104d65d092a911369bf70e2e80308e7ad3d59b401c73
 size 5624