Training in progress, step 40, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +85 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce22e1b3d119edf7cc8bfe4e414c5bafc9ee87d123bc84dbd3621cbe1a50baed
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:afd2a364779a6398c25d185f69f0c246e4728f4fd98a944d586bcc053b2ca583
 size 35237104

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3db49c177640e8aed3336f0a44d7bd19433b5505b05e869732f5bf8cd0ec9288
 size 18810036

 version https://git-lfs.github.com/spec/v1
+oid sha256:477aa6db6b6d130f474c8ad5180c399a1768375174019becab231561a49fe659
 size 18810036

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83361e520816e05e7f16754438edf4c9a8891eb40fbd7325ea6aeff6f814573e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce99987b1bb2e29984cd61a46f7371ad836c5f2b8225f5910b0d066e97d6db2c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9f7d71d2520220b24b14e74f15b8fc66bb3fd91884b9f80b2d1815e9fc2c23c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d01151db1fc4f9c05131abecdc90435e3aab7eb2c3021fc926311286e779587
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.021586616297895305,
   "eval_steps": 5,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -89,6 +89,87 @@
       "eval_samples_per_second": 51.954,
       "eval_steps_per_second": 13.055,
       "step": 20
     }
   ],
   "logging_steps": 3,
@@ -103,12 +184,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 360477150412800.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04317323259579061,
   "eval_steps": 5,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 51.954,
       "eval_steps_per_second": 13.055,
       "step": 20
+    },
+    {
+      "epoch": 0.02266594711279007,
+      "grad_norm": 1.5158495903015137,
+      "learning_rate": 0.00019876883405951377,
+      "loss": 2.988,
+      "step": 21
+    },
+    {
+      "epoch": 0.025903939557474366,
+      "grad_norm": 1.3392220735549927,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 3.0968,
+      "step": 24
+    },
+    {
+      "epoch": 0.026983270372369132,
+      "eval_loss": 3.1669328212738037,
+      "eval_runtime": 7.5519,
+      "eval_samples_per_second": 51.642,
+      "eval_steps_per_second": 12.977,
+      "step": 25
+    },
+    {
+      "epoch": 0.02914193200215866,
+      "grad_norm": 1.2332943677902222,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 2.9231,
+      "step": 27
+    },
+    {
+      "epoch": 0.032379924446842956,
+      "grad_norm": 1.3963645696640015,
+      "learning_rate": 0.0001,
+      "loss": 3.0644,
+      "step": 30
+    },
+    {
+      "epoch": 0.032379924446842956,
+      "eval_loss": 3.1443722248077393,
+      "eval_runtime": 7.4828,
+      "eval_samples_per_second": 52.119,
+      "eval_steps_per_second": 13.097,
+      "step": 30
+    },
+    {
+      "epoch": 0.035617916891527254,
+      "grad_norm": 1.5139225721359253,
+      "learning_rate": 5.4600950026045326e-05,
+      "loss": 3.0966,
+      "step": 33
+    },
+    {
+      "epoch": 0.037776578521316787,
+      "eval_loss": 3.131291389465332,
+      "eval_runtime": 7.4899,
+      "eval_samples_per_second": 52.07,
+      "eval_steps_per_second": 13.084,
+      "step": 35
+    },
+    {
+      "epoch": 0.038855909336211546,
+      "grad_norm": 1.2610831260681152,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 3.0009,
+      "step": 36
+    },
+    {
+      "epoch": 0.042093901780895844,
+      "grad_norm": 1.1377670764923096,
+      "learning_rate": 1.231165940486234e-06,
+      "loss": 2.957,
+      "step": 39
+    },
+    {
+      "epoch": 0.04317323259579061,
+      "eval_loss": 3.1287739276885986,
+      "eval_runtime": 7.4409,
+      "eval_samples_per_second": 52.413,
+      "eval_steps_per_second": 13.17,
+      "step": 40
     }
   ],
   "logging_steps": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 720954300825600.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null