Training in progress, step 206, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +94 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d08662b031cdd86ed774881debe128c873e00074cf7929595f42b6a63d84048
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:9653531852ec6119db0beb46f48bfa17c88968f05b0e674dc503a553f84fe4e3
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa10ee462c7e49a82fafb47e9d4304eed05d8aaf2fa6327757fcf5a538adb758
 size 50675156

 version https://git-lfs.github.com/spec/v1
+oid sha256:80dafb883e7ca8362cc0eba677e7edbf34ec8bc9e8592483d28a1fed39eb72cd
 size 50675156

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ac39c24740490f5e39e7ce5934c2a2903951fd3baae22c89e765d403647b6d1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcbc2526bc157d1d1697d4e94eb6c17525855f6b21b0575b373b92dfaeff6f39
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.28198338051319516,
   "eval_steps": 500,
-  "global_step": 193,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1358,6 +1358,97 @@
       "learning_rate": 1.6815068493150686e-05,
       "loss": 1.2553,
       "step": 193
     }
   ],
   "logging_steps": 1,
@@ -1377,7 +1468,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1621842547974554e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.30097707971874715,
   "eval_steps": 500,
+  "global_step": 206,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.6815068493150686e-05,
       "loss": 1.2553,
       "step": 193
+    },
+    {
+      "epoch": 0.2834444342982376,
+      "grad_norm": 0.1810723841190338,
+      "learning_rate": 1.678082191780822e-05,
+      "loss": 1.2121,
+      "step": 194
+    },
+    {
+      "epoch": 0.2849054880832801,
+      "grad_norm": 0.16387374699115753,
+      "learning_rate": 1.6746575342465753e-05,
+      "loss": 1.1702,
+      "step": 195
+    },
+    {
+      "epoch": 0.28636654186832255,
+      "grad_norm": 0.1537161022424698,
+      "learning_rate": 1.671232876712329e-05,
+      "loss": 1.1865,
+      "step": 196
+    },
+    {
+      "epoch": 0.28782759565336496,
+      "grad_norm": 0.13615332543849945,
+      "learning_rate": 1.6678082191780822e-05,
+      "loss": 1.2578,
+      "step": 197
+    },
+    {
+      "epoch": 0.28928864943840743,
+      "grad_norm": 0.13642196357250214,
+      "learning_rate": 1.664383561643836e-05,
+      "loss": 1.1813,
+      "step": 198
+    },
+    {
+      "epoch": 0.2907497032234499,
+      "grad_norm": 0.1444728523492813,
+      "learning_rate": 1.660958904109589e-05,
+      "loss": 1.2815,
+      "step": 199
+    },
+    {
+      "epoch": 0.29221075700849236,
+      "grad_norm": 0.13030050694942474,
+      "learning_rate": 1.6575342465753425e-05,
+      "loss": 1.2848,
+      "step": 200
+    },
+    {
+      "epoch": 0.2936718107935348,
+      "grad_norm": 0.13471786677837372,
+      "learning_rate": 1.654109589041096e-05,
+      "loss": 1.1634,
+      "step": 201
+    },
+    {
+      "epoch": 0.2951328645785773,
+      "grad_norm": 0.11596754193305969,
+      "learning_rate": 1.6506849315068494e-05,
+      "loss": 1.2522,
+      "step": 202
+    },
+    {
+      "epoch": 0.29659391836361976,
+      "grad_norm": 0.11978977173566818,
+      "learning_rate": 1.647260273972603e-05,
+      "loss": 1.2585,
+      "step": 203
+    },
+    {
+      "epoch": 0.2980549721486622,
+      "grad_norm": 0.11857204139232635,
+      "learning_rate": 1.6438356164383563e-05,
+      "loss": 1.1372,
+      "step": 204
+    },
+    {
+      "epoch": 0.2995160259337047,
+      "grad_norm": 0.12098690867424011,
+      "learning_rate": 1.6404109589041096e-05,
+      "loss": 1.1391,
+      "step": 205
+    },
+    {
+      "epoch": 0.30097707971874715,
+      "grad_norm": 0.12197306752204895,
+      "learning_rate": 1.6369863013698633e-05,
+      "loss": 1.2073,
+      "step": 206
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.3075689748657357e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null