Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +2 -2
scheduler.pt +2 -2
trainer_state.json +112 -111
training_args.bin +2 -2

adapter_config.json CHANGED Viewed

@@ -16,12 +16,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
     "lm_head",
-    "q_proj",
     "down_proj",
-    "k_proj",
     "up_proj",
     "gate_proj",
     "o_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "lm_head",
     "down_proj",
+    "q_proj",
     "up_proj",
+    "k_proj",
+    "v_proj",
     "gate_proj",
     "o_proj"
   ],

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c57cc792c2d04958a7adb1d1eeb063030e0b3db7decb679cd387e8c51dfdb21
 size 85100592

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6efe7d5921665fda917c906f1427a1880a0089b02cd0f7eb51b99a6d43957ac
 size 85100592

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c8efa25384b32ed5e79edff75108806386b469115e4f287d779f0e1cb05ffb4
-size 43126695

 version https://git-lfs.github.com/spec/v1
+oid sha256:5600b3956d0427774a54d7f3bf3b7938a23d41b7b69dc207ab3e78e2479d7f37
+size 43127132

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e5e7f0ce4eef3ed4815bac2b344952bea148a18b69ca09c3b646335d6476562
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad9dc56dfc01b966639cac8cd8f049d1b8d912aa8e90419adc5b16ff7e57382f
+size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:890a05fec8ca27fb18cd86c380b6b21cc3b117cc9b2e5175e533b6b8ebd64c7b
-size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:eedfec4bc6f5a00a07b48568793720af057cf404e35f584cd69e8f806039a34d
+size 1064

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.849707912904939,
   "eval_steps": 20,
   "global_step": 400,
   "is_hyper_param_search": false,
@@ -11,286 +11,287 @@
     {
       "epoch": 0.04,
       "learning_rate": 1.9325842696629215e-05,
-      "loss": 1.8168,
       "step": 20
     },
     {
       "epoch": 0.04,
-      "eval_loss": 1.768841028213501,
-      "eval_runtime": 215.902,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.195,
       "step": 20
     },
     {
-      "epoch": 0.08,
       "learning_rate": 1.8426966292134835e-05,
-      "loss": 1.7432,
       "step": 40
     },
     {
-      "epoch": 0.08,
-      "eval_loss": 1.7144243717193604,
-      "eval_runtime": 215.6923,
-      "eval_samples_per_second": 1.933,
-      "eval_steps_per_second": 0.195,
       "step": 40
     },
     {
       "epoch": 0.13,
       "learning_rate": 1.752808988764045e-05,
-      "loss": 1.7052,
       "step": 60
     },
     {
       "epoch": 0.13,
-      "eval_loss": 1.678654432296753,
-      "eval_runtime": 215.6797,
-      "eval_samples_per_second": 1.933,
-      "eval_steps_per_second": 0.195,
       "step": 60
     },
     {
       "epoch": 0.17,
       "learning_rate": 1.662921348314607e-05,
-      "loss": 1.6851,
       "step": 80
     },
     {
       "epoch": 0.17,
-      "eval_loss": 1.6587953567504883,
-      "eval_runtime": 215.657,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 80
     },
     {
       "epoch": 0.21,
       "learning_rate": 1.5730337078651687e-05,
-      "loss": 1.6265,
       "step": 100
     },
     {
       "epoch": 0.21,
-      "eval_loss": 1.6458046436309814,
-      "eval_runtime": 215.6322,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 100
     },
     {
-      "epoch": 0.25,
       "learning_rate": 1.4831460674157305e-05,
-      "loss": 1.6617,
       "step": 120
     },
     {
-      "epoch": 0.25,
-      "eval_loss": 1.636366844177246,
-      "eval_runtime": 215.6707,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 120
     },
     {
       "epoch": 0.3,
       "learning_rate": 1.3932584269662923e-05,
-      "loss": 1.651,
       "step": 140
     },
     {
       "epoch": 0.3,
-      "eval_loss": 1.6294023990631104,
-      "eval_runtime": 215.621,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 140
     },
     {
       "epoch": 0.34,
       "learning_rate": 1.303370786516854e-05,
-      "loss": 1.6218,
       "step": 160
     },
     {
       "epoch": 0.34,
-      "eval_loss": 1.6229923963546753,
-      "eval_runtime": 215.6539,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 160
     },
     {
       "epoch": 0.38,
       "learning_rate": 1.213483146067416e-05,
-      "loss": 1.625,
       "step": 180
     },
     {
       "epoch": 0.38,
-      "eval_loss": 1.6182714700698853,
-      "eval_runtime": 215.6429,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 180
     },
     {
-      "epoch": 0.42,
       "learning_rate": 1.1235955056179778e-05,
-      "loss": 1.6358,
       "step": 200
     },
     {
-      "epoch": 0.42,
-      "eval_loss": 1.6151902675628662,
-      "eval_runtime": 215.6354,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 200
     },
     {
       "epoch": 0.47,
       "learning_rate": 1.0337078651685396e-05,
-      "loss": 1.6118,
       "step": 220
     },
     {
       "epoch": 0.47,
-      "eval_loss": 1.6117970943450928,
-      "eval_runtime": 215.6265,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 220
     },
     {
       "epoch": 0.51,
       "learning_rate": 9.438202247191012e-06,
-      "loss": 1.5914,
       "step": 240
     },
     {
       "epoch": 0.51,
-      "eval_loss": 1.6088885068893433,
-      "eval_runtime": 215.6483,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 240
     },
     {
       "epoch": 0.55,
       "learning_rate": 8.53932584269663e-06,
-      "loss": 1.6321,
       "step": 260
     },
     {
       "epoch": 0.55,
-      "eval_loss": 1.6063815355300903,
-      "eval_runtime": 215.612,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 260
     },
     {
-      "epoch": 0.59,
       "learning_rate": 7.640449438202247e-06,
-      "loss": 1.6139,
       "step": 280
     },
     {
-      "epoch": 0.59,
-      "eval_loss": 1.6046371459960938,
-      "eval_runtime": 215.6502,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 280
     },
     {
       "epoch": 0.64,
       "learning_rate": 6.741573033707865e-06,
-      "loss": 1.5742,
       "step": 300
     },
     {
       "epoch": 0.64,
-      "eval_loss": 1.6029813289642334,
-      "eval_runtime": 215.6664,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 300
     },
     {
       "epoch": 0.68,
       "learning_rate": 5.842696629213483e-06,
-      "loss": 1.5757,
       "step": 320
     },
     {
       "epoch": 0.68,
-      "eval_loss": 1.6015688180923462,
-      "eval_runtime": 215.6424,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 320
     },
     {
       "epoch": 0.72,
       "learning_rate": 4.943820224719101e-06,
-      "loss": 1.577,
       "step": 340
     },
     {
       "epoch": 0.72,
-      "eval_loss": 1.6001653671264648,
-      "eval_runtime": 215.6467,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 340
     },
     {
-      "epoch": 0.76,
       "learning_rate": 4.04494382022472e-06,
-      "loss": 1.6077,
       "step": 360
     },
     {
-      "epoch": 0.76,
-      "eval_loss": 1.5988893508911133,
-      "eval_runtime": 215.6429,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 360
     },
     {
       "epoch": 0.81,
       "learning_rate": 3.146067415730337e-06,
-      "loss": 1.6011,
       "step": 380
     },
     {
       "epoch": 0.81,
-      "eval_loss": 1.597815752029419,
-      "eval_runtime": 215.6307,
-      "eval_samples_per_second": 1.934,
-      "eval_steps_per_second": 0.195,
       "step": 380
     },
     {
       "epoch": 0.85,
       "learning_rate": 2.2471910112359554e-06,
-      "loss": 1.5982,
       "step": 400
     },
     {
       "epoch": 0.85,
-      "eval_loss": 1.5970968008041382,
-      "eval_runtime": 215.6746,
-      "eval_samples_per_second": 1.933,
-      "eval_steps_per_second": 0.195,
       "step": 400
     }
   ],
   "logging_steps": 20,
   "max_steps": 450,
   "num_train_epochs": 1,
   "save_steps": 20,
   "total_flos": 2.804385205714944e+17,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8506113769271664,
   "eval_steps": 20,
   "global_step": 400,
   "is_hyper_param_search": false,
     {
       "epoch": 0.04,
       "learning_rate": 1.9325842696629215e-05,
+      "loss": 1.8391,
       "step": 20
     },
     {
       "epoch": 0.04,
+      "eval_loss": 1.7458518743515015,
+      "eval_runtime": 218.3179,
+      "eval_samples_per_second": 1.928,
+      "eval_steps_per_second": 0.197,
       "step": 20
     },
     {
+      "epoch": 0.09,
       "learning_rate": 1.8426966292134835e-05,
+      "loss": 1.7536,
       "step": 40
     },
     {
+      "epoch": 0.09,
+      "eval_loss": 1.693428635597229,
+      "eval_runtime": 218.0486,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 40
     },
     {
       "epoch": 0.13,
       "learning_rate": 1.752808988764045e-05,
+      "loss": 1.7346,
       "step": 60
     },
     {
       "epoch": 0.13,
+      "eval_loss": 1.6598807573318481,
+      "eval_runtime": 218.036,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 60
     },
     {
       "epoch": 0.17,
       "learning_rate": 1.662921348314607e-05,
+      "loss": 1.6951,
       "step": 80
     },
     {
       "epoch": 0.17,
+      "eval_loss": 1.639635443687439,
+      "eval_runtime": 218.0597,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 80
     },
     {
       "epoch": 0.21,
       "learning_rate": 1.5730337078651687e-05,
+      "loss": 1.6508,
       "step": 100
     },
     {
       "epoch": 0.21,
+      "eval_loss": 1.626449465751648,
+      "eval_runtime": 218.0237,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 100
     },
     {
+      "epoch": 0.26,
       "learning_rate": 1.4831460674157305e-05,
+      "loss": 1.6245,
       "step": 120
     },
     {
+      "epoch": 0.26,
+      "eval_loss": 1.616517186164856,
+      "eval_runtime": 218.0987,
+      "eval_samples_per_second": 1.93,
+      "eval_steps_per_second": 0.197,
       "step": 120
     },
     {
       "epoch": 0.3,
       "learning_rate": 1.3932584269662923e-05,
+      "loss": 1.6023,
       "step": 140
     },
     {
       "epoch": 0.3,
+      "eval_loss": 1.6096081733703613,
+      "eval_runtime": 218.0759,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 140
     },
     {
       "epoch": 0.34,
       "learning_rate": 1.303370786516854e-05,
+      "loss": 1.6259,
       "step": 160
     },
     {
       "epoch": 0.34,
+      "eval_loss": 1.6037150621414185,
+      "eval_runtime": 218.0228,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 160
     },
     {
       "epoch": 0.38,
       "learning_rate": 1.213483146067416e-05,
+      "loss": 1.6116,
       "step": 180
     },
     {
       "epoch": 0.38,
+      "eval_loss": 1.599488377571106,
+      "eval_runtime": 218.0297,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 180
     },
     {
+      "epoch": 0.43,
       "learning_rate": 1.1235955056179778e-05,
+      "loss": 1.6288,
       "step": 200
     },
     {
+      "epoch": 0.43,
+      "eval_loss": 1.595850944519043,
+      "eval_runtime": 218.1168,
+      "eval_samples_per_second": 1.93,
+      "eval_steps_per_second": 0.197,
       "step": 200
     },
     {
       "epoch": 0.47,
       "learning_rate": 1.0337078651685396e-05,
+      "loss": 1.6328,
       "step": 220
     },
     {
       "epoch": 0.47,
+      "eval_loss": 1.5929853916168213,
+      "eval_runtime": 218.0481,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 220
     },
     {
       "epoch": 0.51,
       "learning_rate": 9.438202247191012e-06,
+      "loss": 1.622,
       "step": 240
     },
     {
       "epoch": 0.51,
+      "eval_loss": 1.590191125869751,
+      "eval_runtime": 218.0232,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 240
     },
     {
       "epoch": 0.55,
       "learning_rate": 8.53932584269663e-06,
+      "loss": 1.5966,
       "step": 260
     },
     {
       "epoch": 0.55,
+      "eval_loss": 1.5878028869628906,
+      "eval_runtime": 218.0617,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 260
     },
     {
+      "epoch": 0.6,
       "learning_rate": 7.640449438202247e-06,
+      "loss": 1.6094,
       "step": 280
     },
     {
+      "epoch": 0.6,
+      "eval_loss": 1.5858081579208374,
+      "eval_runtime": 218.1219,
+      "eval_samples_per_second": 1.93,
+      "eval_steps_per_second": 0.197,
       "step": 280
     },
     {
       "epoch": 0.64,
       "learning_rate": 6.741573033707865e-06,
+      "loss": 1.5934,
       "step": 300
     },
     {
       "epoch": 0.64,
+      "eval_loss": 1.584080696105957,
+      "eval_runtime": 218.0609,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 300
     },
     {
       "epoch": 0.68,
       "learning_rate": 5.842696629213483e-06,
+      "loss": 1.59,
       "step": 320
     },
     {
       "epoch": 0.68,
+      "eval_loss": 1.5824154615402222,
+      "eval_runtime": 218.0845,
+      "eval_samples_per_second": 1.93,
+      "eval_steps_per_second": 0.197,
       "step": 320
     },
     {
       "epoch": 0.72,
       "learning_rate": 4.943820224719101e-06,
+      "loss": 1.6134,
       "step": 340
     },
     {
       "epoch": 0.72,
+      "eval_loss": 1.5810182094573975,
+      "eval_runtime": 218.1022,
+      "eval_samples_per_second": 1.93,
+      "eval_steps_per_second": 0.197,
       "step": 340
     },
     {
+      "epoch": 0.77,
       "learning_rate": 4.04494382022472e-06,
+      "loss": 1.5954,
       "step": 360
     },
     {
+      "epoch": 0.77,
+      "eval_loss": 1.5799251794815063,
+      "eval_runtime": 218.1537,
+      "eval_samples_per_second": 1.93,
+      "eval_steps_per_second": 0.197,
       "step": 360
     },
     {
       "epoch": 0.81,
       "learning_rate": 3.146067415730337e-06,
+      "loss": 1.5973,
       "step": 380
     },
     {
       "epoch": 0.81,
+      "eval_loss": 1.579064130783081,
+      "eval_runtime": 218.0366,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 380
     },
     {
       "epoch": 0.85,
       "learning_rate": 2.2471910112359554e-06,
+      "loss": 1.5468,
       "step": 400
     },
     {
       "epoch": 0.85,
+      "eval_loss": 1.5782713890075684,
+      "eval_runtime": 218.0535,
+      "eval_samples_per_second": 1.931,
+      "eval_steps_per_second": 0.197,
       "step": 400
     }
   ],
   "logging_steps": 20,
   "max_steps": 450,
+  "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 20,
   "total_flos": 2.804385205714944e+17,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab3305b7dcf9288a7ba6e67a27b1b835f0e809d24726ea214c0d4a17cbd03386
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:18f22170b63f557ce8ed503ea5362cfa3b2bf6a88a049f98dbc25116e2a6df00
+size 4664