Training in progress, step 133, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +122 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b570962ede4265c9488fa98dcd00095b1ca3d903d14f064ee79d3cb2379651f4
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6b65aace9da077ee07a204876e8098d96dad47b8b4be8f51e9b9cbec2ff2393
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68afdadf9dcafbea18732f32b8ac5fa2ad488bf587daf988c9af28727179daa0
 size 50675156

 version https://git-lfs.github.com/spec/v1
+oid sha256:527fada47e774dd945cf8bd8fa9cb84eca9c449c19271b31a9ecbc61d6166143
 size 50675156

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07e779822c485743db355cfc0cc7805b58345253d12afcfcd7953cd3834152cb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:67c15c8690a2da73762f6bc4ec11beb5e387acb500a6b50782f5eba470e3275a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.16948223906492557,
   "eval_steps": 500,
-  "global_step": 116,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -819,6 +819,125 @@
       "learning_rate": 1.945205479452055e-05,
       "loss": 1.2942,
       "step": 116
     }
   ],
   "logging_steps": 1,
@@ -838,7 +957,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.304737835336663e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.19432015341064743,
   "eval_steps": 500,
+  "global_step": 133,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.945205479452055e-05,
       "loss": 1.2942,
       "step": 116
+    },
+    {
+      "epoch": 0.17094329284996804,
+      "grad_norm": 0.1350926160812378,
+      "learning_rate": 1.9417808219178084e-05,
+      "loss": 1.3649,
+      "step": 117
+    },
+    {
+      "epoch": 0.1724043466350105,
+      "grad_norm": 0.1309756338596344,
+      "learning_rate": 1.9383561643835617e-05,
+      "loss": 1.3241,
+      "step": 118
+    },
+    {
+      "epoch": 0.17386540042005297,
+      "grad_norm": 0.12676255404949188,
+      "learning_rate": 1.9349315068493153e-05,
+      "loss": 1.3773,
+      "step": 119
+    },
+    {
+      "epoch": 0.17532645420509543,
+      "grad_norm": 0.1361505538225174,
+      "learning_rate": 1.9315068493150686e-05,
+      "loss": 1.3259,
+      "step": 120
+    },
+    {
+      "epoch": 0.1767875079901379,
+      "grad_norm": 0.1225372925400734,
+      "learning_rate": 1.9280821917808223e-05,
+      "loss": 1.2854,
+      "step": 121
+    },
+    {
+      "epoch": 0.17824856177518034,
+      "grad_norm": 0.12647689878940582,
+      "learning_rate": 1.9246575342465756e-05,
+      "loss": 1.2741,
+      "step": 122
+    },
+    {
+      "epoch": 0.1797096155602228,
+      "grad_norm": 0.12492359429597855,
+      "learning_rate": 1.921232876712329e-05,
+      "loss": 1.2728,
+      "step": 123
+    },
+    {
+      "epoch": 0.18117066934526527,
+      "grad_norm": 0.1245495080947876,
+      "learning_rate": 1.9178082191780822e-05,
+      "loss": 1.2829,
+      "step": 124
+    },
+    {
+      "epoch": 0.18263172313030773,
+      "grad_norm": 0.12087871879339218,
+      "learning_rate": 1.9143835616438358e-05,
+      "loss": 1.3673,
+      "step": 125
+    },
+    {
+      "epoch": 0.1840927769153502,
+      "grad_norm": 0.13881978392601013,
+      "learning_rate": 1.910958904109589e-05,
+      "loss": 1.2749,
+      "step": 126
+    },
+    {
+      "epoch": 0.18555383070039266,
+      "grad_norm": 0.12226665765047073,
+      "learning_rate": 1.9075342465753424e-05,
+      "loss": 1.3216,
+      "step": 127
+    },
+    {
+      "epoch": 0.18701488448543513,
+      "grad_norm": 0.12877057492733002,
+      "learning_rate": 1.904109589041096e-05,
+      "loss": 1.3632,
+      "step": 128
+    },
+    {
+      "epoch": 0.1884759382704776,
+      "grad_norm": 0.13042791187763214,
+      "learning_rate": 1.9006849315068494e-05,
+      "loss": 1.3087,
+      "step": 129
+    },
+    {
+      "epoch": 0.18993699205552003,
+      "grad_norm": 0.1289220005273819,
+      "learning_rate": 1.897260273972603e-05,
+      "loss": 1.3569,
+      "step": 130
+    },
+    {
+      "epoch": 0.1913980458405625,
+      "grad_norm": 0.12027924507856369,
+      "learning_rate": 1.8938356164383563e-05,
+      "loss": 1.3487,
+      "step": 131
+    },
+    {
+      "epoch": 0.19285909962560496,
+      "grad_norm": 0.13009122014045715,
+      "learning_rate": 1.8904109589041096e-05,
+      "loss": 1.2639,
+      "step": 132
+    },
+    {
+      "epoch": 0.19432015341064743,
+      "grad_norm": 0.13321325182914734,
+      "learning_rate": 1.8869863013698633e-05,
+      "loss": 1.2982,
+      "step": 133
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.4946336109032653e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null