Training in progress, step 370, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +74 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10462e7bb907e56f44911b66dc9d08e780a22980744541436cfa57fd33089b28
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:51e93f9b07950fc8df683cdec91d87256088ace10683cbac5af9cede43278671
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1288067af2f92d91e698359b4e37f06863ae4944657fba1418f6b5221da7ac34
 size 325340244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe04d3e67db8c78a8e60170320e230af5095c9aa115ae93543feddf6eaca0c1f
 size 325340244

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fad81ea991ac687f6089a33e4df7b4989f6dc0a113bcc48d47ff9341825e8c3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:157fa6bb405b0cfd2ed1c6356aa0d6ccce428abe09b3b4fbf8636f324e8c3d18
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a23e869a07ea343caba66ddef1ef2a01435b58bcc15218ec50d03fed44b9143
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b0e4fd9f0c05ddccf08c8e0de389cb9163fcb1e7234c97d791d86337bdc1d10
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.766734279918864,
   "eval_steps": 31,
-  "global_step": 341,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -894,6 +894,76 @@
       "eval_samples_per_second": 15.463,
       "eval_steps_per_second": 1.933,
       "step": 341
     }
   ],
   "logging_steps": 3,
@@ -908,12 +978,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.531169671218463e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.002028397565923,
   "eval_steps": 31,
+  "global_step": 370,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.463,
       "eval_steps_per_second": 1.933,
       "step": 341
+    },
+    {
+      "epoch": 2.7748478701825556,
+      "grad_norm": 5.9872822761535645,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 1.0829,
+      "step": 342
+    },
+    {
+      "epoch": 2.7991886409736306,
+      "grad_norm": 8.11224365234375,
+      "learning_rate": 1.1851996440033319e-06,
+      "loss": 0.8662,
+      "step": 345
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 5.697979927062988,
+      "learning_rate": 9.186408276168013e-07,
+      "loss": 0.985,
+      "step": 348
+    },
+    {
+      "epoch": 2.847870182555781,
+      "grad_norm": 5.0387678146362305,
+      "learning_rate": 6.857199231384282e-07,
+      "loss": 0.7812,
+      "step": 351
+    },
+    {
+      "epoch": 2.872210953346856,
+      "grad_norm": 5.872809886932373,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 0.7931,
+      "step": 354
+    },
+    {
+      "epoch": 2.896551724137931,
+      "grad_norm": 6.345264911651611,
+      "learning_rate": 3.214072161706272e-07,
+      "loss": 0.9912,
+      "step": 357
+    },
+    {
+      "epoch": 2.920892494929006,
+      "grad_norm": 8.418841361999512,
+      "learning_rate": 1.9026509541272275e-07,
+      "loss": 0.886,
+      "step": 360
+    },
+    {
+      "epoch": 2.945233265720081,
+      "grad_norm": 7.243491172790527,
+      "learning_rate": 9.3260078906654e-08,
+      "loss": 0.8986,
+      "step": 363
+    },
+    {
+      "epoch": 2.969574036511156,
+      "grad_norm": 5.745831489562988,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 0.7857,
+      "step": 366
+    },
+    {
+      "epoch": 2.9939148073022315,
+      "grad_norm": 6.222906112670898,
+      "learning_rate": 1.903846791434516e-09,
+      "loss": 1.0429,
+      "step": 369
     }
   ],
   "logging_steps": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.914102986248028e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null