Training in progress, step 50, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ad85b2e603c9c2a3c2bc1aa62b24037a4c01954341e40863ed4095978f8f24f
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:da3947d5525b2f247a40db18e77372ea9e15c1649415911b2539bf3a38a25b0b
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17e5848a20e5b14f75858d1e511826ad08f9ab2a07a1fef4931e058eb888ed85
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:99b4c2fcb1c3c42f0571215d53b46e6e03fdb24e94b531f7fcf84a5a995f32be
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cef7bf070e527a9b5896b7711e9e6af634052f75dbe8f4acb6da29f40d856bc6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d8615f1aeccd0f9873fc0cf2c0322fde20ac202421c015654a471730a5fa755
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05767012687427912,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 1.866025403784439e-05,
       "loss": 0.0,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.78207731335168e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11534025374855825,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.866025403784439e-05,
       "loss": 0.0,
       "step": 25
+    },
+    {
+      "epoch": 0.05997693194925029,
+      "grad_norm": NaN,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.06228373702422145,
+      "grad_norm": NaN,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.06228373702422145,
+      "eval_loss": NaN,
+      "eval_runtime": 52.3014,
+      "eval_samples_per_second": 6.979,
+      "eval_steps_per_second": 0.88,
+      "step": 27
+    },
+    {
+      "epoch": 0.06459054209919261,
+      "grad_norm": NaN,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.06689734717416378,
+      "grad_norm": NaN,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.06920415224913495,
+      "grad_norm": NaN,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.07151095732410612,
+      "grad_norm": NaN,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.07381776239907728,
+      "grad_norm": NaN,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.07612456747404844,
+      "grad_norm": NaN,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.0784313725490196,
+      "grad_norm": NaN,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.08073817762399077,
+      "grad_norm": NaN,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.08304498269896193,
+      "grad_norm": NaN,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.08304498269896193,
+      "eval_loss": NaN,
+      "eval_runtime": 52.1788,
+      "eval_samples_per_second": 6.995,
+      "eval_steps_per_second": 0.882,
+      "step": 36
+    },
+    {
+      "epoch": 0.0853517877739331,
+      "grad_norm": NaN,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.08765859284890427,
+      "grad_norm": NaN,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.08996539792387544,
+      "grad_norm": NaN,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.0922722029988466,
+      "grad_norm": NaN,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.09457900807381776,
+      "grad_norm": NaN,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.09688581314878893,
+      "grad_norm": NaN,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.09919261822376009,
+      "grad_norm": NaN,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.10149942329873125,
+      "grad_norm": NaN,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.10380622837370242,
+      "grad_norm": NaN,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.10380622837370242,
+      "eval_loss": NaN,
+      "eval_runtime": 52.1153,
+      "eval_samples_per_second": 7.004,
+      "eval_steps_per_second": 0.883,
+      "step": 45
+    },
+    {
+      "epoch": 0.1061130334486736,
+      "grad_norm": NaN,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.10841983852364476,
+      "grad_norm": NaN,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.11072664359861592,
+      "grad_norm": NaN,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.11303344867358708,
+      "grad_norm": NaN,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.11534025374855825,
+      "grad_norm": NaN,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.0,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.230305349101158e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null