Upload 11 files

Browse files

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +305 -5
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,9 +20,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
-    "gate_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "up_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac26007027b8d52c4043d59b30948d8dbd10889cfce599e9d660d0ef69a0955e
 size 92824216

 version https://git-lfs.github.com/spec/v1
+oid sha256:a79365868e96dbd30865018cc8e0ec6ae00dd78c422c7155b448a0f25ea5785f
 size 92824216

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:822328453426ce5294a42e9de1e2da5c10d883af3aaadea6a8f9b0b398b68b12
 size 47209298

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd62859726d46c7cab01c6b8c28886ac32364304c4811b5be12790acd36300ed
 size 47209298

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:401554a9eaccea3cd373f8884b80dcd6b5bc4aa1568304ff22f746b80036436f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:46290c18c3b3920166595e51bd3f5c6fc1585185680dcfaaf67a05fc1901e325
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51e00377e40678abd327a228976d2667ba86b24b532e85a929789bde9a194307
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50875594b892047c8e46a61b82a18becc1a9e9c9af6ce75ec5a292af0d5a8cd2
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9434951252751861,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -457,14 +457,314 @@
       "eval_samples_per_second": 49.886,
       "eval_steps_per_second": 1.559,
       "step": 3000
     }
   ],
   "logging_steps": 100,
-  "max_steps": 3000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 1.2248172174916977e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.572701541042038,
   "eval_steps": 100,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 49.886,
       "eval_steps_per_second": 1.559,
       "step": 3000
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.7738541960716248,
+      "learning_rate": 3.8775510204081634e-05,
+      "loss": 1.7029,
+      "step": 3100
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 1.7050038576126099,
+      "eval_runtime": 687.1983,
+      "eval_samples_per_second": 49.353,
+      "eval_steps_per_second": 1.542,
+      "step": 3100
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 0.6895627379417419,
+      "learning_rate": 3.673469387755102e-05,
+      "loss": 1.7094,
+      "step": 3200
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 1.7042526006698608,
+      "eval_runtime": 687.1845,
+      "eval_samples_per_second": 49.354,
+      "eval_steps_per_second": 1.543,
+      "step": 3200
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.8041057586669922,
+      "learning_rate": 3.469387755102041e-05,
+      "loss": 1.7049,
+      "step": 3300
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 1.7035516500473022,
+      "eval_runtime": 687.4035,
+      "eval_samples_per_second": 49.338,
+      "eval_steps_per_second": 1.542,
+      "step": 3300
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 0.7259939908981323,
+      "learning_rate": 3.265306122448979e-05,
+      "loss": 1.7098,
+      "step": 3400
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 1.7024834156036377,
+      "eval_runtime": 687.1647,
+      "eval_samples_per_second": 49.355,
+      "eval_steps_per_second": 1.543,
+      "step": 3400
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 0.7912746667861938,
+      "learning_rate": 3.061224489795919e-05,
+      "loss": 1.7015,
+      "step": 3500
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 1.7005605697631836,
+      "eval_runtime": 687.1366,
+      "eval_samples_per_second": 49.357,
+      "eval_steps_per_second": 1.543,
+      "step": 3500
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 0.8287527561187744,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 1.6876,
+      "step": 3600
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 1.6933950185775757,
+      "eval_runtime": 683.5096,
+      "eval_samples_per_second": 49.619,
+      "eval_steps_per_second": 1.551,
+      "step": 3600
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.736217737197876,
+      "learning_rate": 2.6530612244897963e-05,
+      "loss": 1.6958,
+      "step": 3700
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 1.692893624305725,
+      "eval_runtime": 683.433,
+      "eval_samples_per_second": 49.624,
+      "eval_steps_per_second": 1.551,
+      "step": 3700
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.7109358906745911,
+      "learning_rate": 2.448979591836735e-05,
+      "loss": 1.6885,
+      "step": 3800
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 1.6916097402572632,
+      "eval_runtime": 683.3969,
+      "eval_samples_per_second": 49.627,
+      "eval_steps_per_second": 1.551,
+      "step": 3800
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 0.7234348654747009,
+      "learning_rate": 2.2448979591836737e-05,
+      "loss": 1.6934,
+      "step": 3900
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 1.6902754306793213,
+      "eval_runtime": 683.1628,
+      "eval_samples_per_second": 49.644,
+      "eval_steps_per_second": 1.552,
+      "step": 3900
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 0.7684239149093628,
+      "learning_rate": 2.0408163265306123e-05,
+      "loss": 1.6909,
+      "step": 4000
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 1.689305067062378,
+      "eval_runtime": 683.1661,
+      "eval_samples_per_second": 49.644,
+      "eval_steps_per_second": 1.552,
+      "step": 4000
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 0.7669008374214172,
+      "learning_rate": 1.836734693877551e-05,
+      "loss": 1.6907,
+      "step": 4100
+    },
+    {
+      "epoch": 1.29,
+      "eval_loss": 1.688330888748169,
+      "eval_runtime": 683.1804,
+      "eval_samples_per_second": 49.643,
+      "eval_steps_per_second": 1.552,
+      "step": 4100
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 0.7422395348548889,
+      "learning_rate": 1.6326530612244897e-05,
+      "loss": 1.6912,
+      "step": 4200
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 1.687252163887024,
+      "eval_runtime": 683.2129,
+      "eval_samples_per_second": 49.64,
+      "eval_steps_per_second": 1.551,
+      "step": 4200
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.7352548837661743,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 1.6873,
+      "step": 4300
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 1.6862083673477173,
+      "eval_runtime": 683.1788,
+      "eval_samples_per_second": 49.643,
+      "eval_steps_per_second": 1.552,
+      "step": 4300
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 0.7130007147789001,
+      "learning_rate": 1.2244897959183674e-05,
+      "loss": 1.6858,
+      "step": 4400
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 1.6853961944580078,
+      "eval_runtime": 683.1786,
+      "eval_samples_per_second": 49.643,
+      "eval_steps_per_second": 1.552,
+      "step": 4400
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 0.7947734594345093,
+      "learning_rate": 1.0204081632653061e-05,
+      "loss": 1.6813,
+      "step": 4500
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 1.6845451593399048,
+      "eval_runtime": 683.4171,
+      "eval_samples_per_second": 49.626,
+      "eval_steps_per_second": 1.551,
+      "step": 4500
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 0.7227717041969299,
+      "learning_rate": 8.163265306122448e-06,
+      "loss": 1.6867,
+      "step": 4600
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 1.6836014986038208,
+      "eval_runtime": 683.3718,
+      "eval_samples_per_second": 49.629,
+      "eval_steps_per_second": 1.551,
+      "step": 4600
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 0.746582567691803,
+      "learning_rate": 6.122448979591837e-06,
+      "loss": 1.6882,
+      "step": 4700
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 1.682924509048462,
+      "eval_runtime": 683.3662,
+      "eval_samples_per_second": 49.629,
+      "eval_steps_per_second": 1.551,
+      "step": 4700
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 0.7279271483421326,
+      "learning_rate": 4.081632653061224e-06,
+      "loss": 1.6872,
+      "step": 4800
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 1.682388186454773,
+      "eval_runtime": 683.1514,
+      "eval_samples_per_second": 49.645,
+      "eval_steps_per_second": 1.552,
+      "step": 4800
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 0.7303986549377441,
+      "learning_rate": 2.040816326530612e-06,
+      "loss": 1.6898,
+      "step": 4900
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 1.682073950767517,
+      "eval_runtime": 683.3608,
+      "eval_samples_per_second": 49.63,
+      "eval_steps_per_second": 1.551,
+      "step": 4900
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 0.763130784034729,
+      "learning_rate": 0.0,
+      "loss": 1.6845,
+      "step": 5000
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 1.6819010972976685,
+      "eval_runtime": 683.1778,
+      "eval_samples_per_second": 49.643,
+      "eval_steps_per_second": 1.552,
+      "step": 5000
     }
   ],
   "logging_steps": 100,
+  "max_steps": 5000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 50,
+  "total_flos": 2.03873794720034e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91cbf40c0e12bca661a194728df5101c081c9dd12fbdbb4d794a75d0fe883d50
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc19869896809aeeb998276dffc5c796ca8ce160e5c5b0e576340e801ae8fa90
 size 4856