Training in progress, step 39, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cbdc435335da7b5bfeed2af4e44b14452de6d471d3a7b7a861a0da269b0cb94
 size 50503544

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a0003e887e1133fb10170acceb1c2de186c5a08ea5c72670f496a345fc72daf
 size 50503544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d8c0b5c3cbe7560458489090bb0d1acc45f09b92baaab356a16e43fe1cbdf18
 size 25986148

 version https://git-lfs.github.com/spec/v1
+oid sha256:271ba23aaf54994fd7efdb884b78d636d514f2a3c8471ff9fe62e24b88db4e0b
 size 25986148

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdf3adc43374ca5ea48be1edfac2fc995f9ddaabfa3a175ef36d37dfc686df62
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8aebc84db746904fbd411657834fd638178471ae7d66b1e4156b2d3a7b028cf2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37841e69eda911caeb33edeefa0b2f140e72dcce247aeb757b2fe89c00d7887b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c50dbaa792cda4a28fbbc2acb2a3e03c59530712bbc5107212d33064d193da4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2861072902338377,
   "eval_steps": 13,
-  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -213,6 +213,105 @@
       "eval_samples_per_second": 26.818,
       "eval_steps_per_second": 13.497,
       "step": 26
     }
   ],
   "logging_steps": 1,
@@ -232,7 +331,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.141087045831885e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.42916093535075656,
   "eval_steps": 13,
+  "global_step": 39,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.818,
       "eval_steps_per_second": 13.497,
       "step": 26
+    },
+    {
+      "epoch": 0.297111416781293,
+      "grad_norm": 0.5105708837509155,
+      "learning_rate": 6.167226819279528e-05,
+      "loss": 0.5281,
+      "step": 27
+    },
+    {
+      "epoch": 0.3081155433287483,
+      "grad_norm": 0.49680694937705994,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 0.6034,
+      "step": 28
+    },
+    {
+      "epoch": 0.31911966987620355,
+      "grad_norm": 0.5331423282623291,
+      "learning_rate": 5.392295478639225e-05,
+      "loss": 0.5875,
+      "step": 29
+    },
+    {
+      "epoch": 0.33012379642365886,
+      "grad_norm": 0.5018841028213501,
+      "learning_rate": 5e-05,
+      "loss": 0.5634,
+      "step": 30
+    },
+    {
+      "epoch": 0.34112792297111416,
+      "grad_norm": 0.510901927947998,
+      "learning_rate": 4.607704521360776e-05,
+      "loss": 0.5409,
+      "step": 31
+    },
+    {
+      "epoch": 0.35213204951856947,
+      "grad_norm": 0.5660102963447571,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 0.57,
+      "step": 32
+    },
+    {
+      "epoch": 0.3631361760660248,
+      "grad_norm": 0.4810841977596283,
+      "learning_rate": 3.832773180720475e-05,
+      "loss": 0.5361,
+      "step": 33
+    },
+    {
+      "epoch": 0.3741403026134801,
+      "grad_norm": 0.49419519305229187,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.5289,
+      "step": 34
+    },
+    {
+      "epoch": 0.38514442916093533,
+      "grad_norm": 0.5323266983032227,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.612,
+      "step": 35
+    },
+    {
+      "epoch": 0.39614855570839064,
+      "grad_norm": 0.45623645186424255,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 0.4713,
+      "step": 36
+    },
+    {
+      "epoch": 0.40715268225584594,
+      "grad_norm": 0.4904417097568512,
+      "learning_rate": 2.3875071764202563e-05,
+      "loss": 0.5189,
+      "step": 37
+    },
+    {
+      "epoch": 0.41815680880330125,
+      "grad_norm": 0.44520828127861023,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.4928,
+      "step": 38
+    },
+    {
+      "epoch": 0.42916093535075656,
+      "grad_norm": 0.47796082496643066,
+      "learning_rate": 1.7527597583490822e-05,
+      "loss": 0.552,
+      "step": 39
+    },
+    {
+      "epoch": 0.42916093535075656,
+      "eval_loss": 0.5762767195701599,
+      "eval_runtime": 5.7132,
+      "eval_samples_per_second": 26.78,
+      "eval_steps_per_second": 13.478,
+      "step": 39
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.211630568747827e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null