Next checkpoint

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +111 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75fd9d486b46d64b848cc86c11f7c4b13bef4df29a52e38ef2ddcf662cae5afa
 size 609389712

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ad439aaf5874d60533bb5051bf6acffc2930733aa6dd485866dc6c59a9bdaed
 size 609389712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f9d3909cf1844576d913e65e12ea6c9803b84d60d503e1c10e8644665ef28b3
 size 43127132

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ff5e52256242d1b94c0b8d00e3ca518af4c033014b02970af183aa3537805bc
 size 43127132

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d2c86a82ac0544796339d1ffad39305810835aadba072c67e2a4057f9b2590a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:429b3c2a10fda7e387ef37f4109ca176f0c7db526d8d6c6307e136f1be354272
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76d56d87344e9a2362ceb0c3f55bb4d805fbfc4b13b2b61dd202aac4f9d1849f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:92e19f6ca67131719fb6829118206971ea3850a7bbb4adfc8a62cee3bb0ae50d
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7356805044666316,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -427,6 +427,114 @@
       "learning_rate": 6.613005050505051e-06,
       "loss": 3.4486,
       "step": 3500
     }
   ],
   "logging_steps": 50,
@@ -434,7 +542,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 8.593871062478193e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9248554913294798,
   "eval_steps": 500,
+  "global_step": 4400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.613005050505051e-06,
       "loss": 3.4486,
       "step": 3500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 6.349957912457913e-06,
+      "loss": 3.4718,
+      "step": 3550
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 6.086910774410775e-06,
+      "loss": 3.4443,
+      "step": 3600
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 5.823863636363636e-06,
+      "loss": 3.4849,
+      "step": 3650
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 5.560816498316499e-06,
+      "loss": 3.4729,
+      "step": 3700
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 5.297769360269361e-06,
+      "loss": 3.4664,
+      "step": 3750
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.034722222222222e-06,
+      "loss": 3.4643,
+      "step": 3800
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.7716750841750845e-06,
+      "loss": 3.4514,
+      "step": 3850
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.508627946127946e-06,
+      "loss": 3.4661,
+      "step": 3900
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.245580808080808e-06,
+      "loss": 3.4637,
+      "step": 3950
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.98253367003367e-06,
+      "loss": 3.453,
+      "step": 4000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.7194865319865326e-06,
+      "loss": 3.4671,
+      "step": 4050
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.456439393939394e-06,
+      "loss": 3.4439,
+      "step": 4100
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3.1933922558922558e-06,
+      "loss": 3.4504,
+      "step": 4150
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.930345117845118e-06,
+      "loss": 3.4759,
+      "step": 4200
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 2.66729797979798e-06,
+      "loss": 3.4356,
+      "step": 4250
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 2.4042508417508416e-06,
+      "loss": 3.4618,
+      "step": 4300
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 2.141203703703704e-06,
+      "loss": 3.463,
+      "step": 4350
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.8781565656565657e-06,
+      "loss": 3.4524,
+      "step": 4400
     }
   ],
   "logging_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 1.0803018319304393e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null