Training in progress, step 161, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +199 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6b65aace9da077ee07a204876e8098d96dad47b8b4be8f51e9b9cbec2ff2393
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcab26ada2c2637d79ec11d98df950fe228da88d062fd59cebde5c23cc576bd9
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:527fada47e774dd945cf8bd8fa9cb84eca9c449c19271b31a9ecbc61d6166143
 size 50675156

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3777d03e8d2baa5c405d941ac93d97f6e70f91bdf36b70dc8613461422b413d
 size 50675156

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67c15c8690a2da73762f6bc4ec11beb5e387acb500a6b50782f5eba470e3275a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae12e87061029d0002bd195ec24682167e09466b871fd07c9121b60003cd8e79
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.19432015341064743,
   "eval_steps": 500,
-  "global_step": 133,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -938,6 +938,202 @@
       "learning_rate": 1.8869863013698633e-05,
       "loss": 1.2982,
       "step": 133
     }
   ],
   "logging_steps": 1,
@@ -957,7 +1153,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4946336109032653e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.23522965939183635,
   "eval_steps": 500,
+  "global_step": 161,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.8869863013698633e-05,
       "loss": 1.2982,
       "step": 133
+    },
+    {
+      "epoch": 0.1957812071956899,
+      "grad_norm": 0.1279006004333496,
+      "learning_rate": 1.8835616438356166e-05,
+      "loss": 1.3291,
+      "step": 134
+    },
+    {
+      "epoch": 0.19724226098073236,
+      "grad_norm": 0.13129518926143646,
+      "learning_rate": 1.8801369863013702e-05,
+      "loss": 1.2805,
+      "step": 135
+    },
+    {
+      "epoch": 0.19870331476577482,
+      "grad_norm": 0.1193300113081932,
+      "learning_rate": 1.8767123287671235e-05,
+      "loss": 1.3173,
+      "step": 136
+    },
+    {
+      "epoch": 0.2001643685508173,
+      "grad_norm": 0.12838037312030792,
+      "learning_rate": 1.8732876712328768e-05,
+      "loss": 1.3416,
+      "step": 137
+    },
+    {
+      "epoch": 0.20162542233585973,
+      "grad_norm": 0.1269877851009369,
+      "learning_rate": 1.86986301369863e-05,
+      "loss": 1.295,
+      "step": 138
+    },
+    {
+      "epoch": 0.2030864761209022,
+      "grad_norm": 0.13122180104255676,
+      "learning_rate": 1.8664383561643838e-05,
+      "loss": 1.293,
+      "step": 139
+    },
+    {
+      "epoch": 0.20454752990594466,
+      "grad_norm": 0.1385333091020584,
+      "learning_rate": 1.863013698630137e-05,
+      "loss": 1.2237,
+      "step": 140
+    },
+    {
+      "epoch": 0.20600858369098712,
+      "grad_norm": 0.1442401111125946,
+      "learning_rate": 1.8595890410958907e-05,
+      "loss": 1.2833,
+      "step": 141
+    },
+    {
+      "epoch": 0.2074696374760296,
+      "grad_norm": 0.1236981600522995,
+      "learning_rate": 1.856164383561644e-05,
+      "loss": 1.3252,
+      "step": 142
+    },
+    {
+      "epoch": 0.20893069126107205,
+      "grad_norm": 0.13414394855499268,
+      "learning_rate": 1.8527397260273973e-05,
+      "loss": 1.4099,
+      "step": 143
+    },
+    {
+      "epoch": 0.21039174504611452,
+      "grad_norm": 0.1376720666885376,
+      "learning_rate": 1.849315068493151e-05,
+      "loss": 1.3735,
+      "step": 144
+    },
+    {
+      "epoch": 0.21185279883115699,
+      "grad_norm": 0.13452522456645966,
+      "learning_rate": 1.8458904109589043e-05,
+      "loss": 1.2442,
+      "step": 145
+    },
+    {
+      "epoch": 0.21331385261619942,
+      "grad_norm": 0.12783923745155334,
+      "learning_rate": 1.8424657534246576e-05,
+      "loss": 1.3028,
+      "step": 146
+    },
+    {
+      "epoch": 0.2147749064012419,
+      "grad_norm": 0.1320268213748932,
+      "learning_rate": 1.839041095890411e-05,
+      "loss": 1.2906,
+      "step": 147
+    },
+    {
+      "epoch": 0.21623596018628435,
+      "grad_norm": 0.14116773009300232,
+      "learning_rate": 1.8356164383561645e-05,
+      "loss": 1.3724,
+      "step": 148
+    },
+    {
+      "epoch": 0.21769701397132682,
+      "grad_norm": 0.13176654279232025,
+      "learning_rate": 1.8321917808219182e-05,
+      "loss": 1.2719,
+      "step": 149
+    },
+    {
+      "epoch": 0.21915806775636928,
+      "grad_norm": 0.13379769027233124,
+      "learning_rate": 1.8287671232876715e-05,
+      "loss": 1.3286,
+      "step": 150
+    },
+    {
+      "epoch": 0.22061912154141175,
+      "grad_norm": 0.13172045350074768,
+      "learning_rate": 1.8253424657534248e-05,
+      "loss": 1.3104,
+      "step": 151
+    },
+    {
+      "epoch": 0.22208017532645422,
+      "grad_norm": 0.14471982419490814,
+      "learning_rate": 1.821917808219178e-05,
+      "loss": 1.3111,
+      "step": 152
+    },
+    {
+      "epoch": 0.22354122911149665,
+      "grad_norm": 0.14093175530433655,
+      "learning_rate": 1.8184931506849317e-05,
+      "loss": 1.2696,
+      "step": 153
+    },
+    {
+      "epoch": 0.22500228289653912,
+      "grad_norm": 0.14340919256210327,
+      "learning_rate": 1.815068493150685e-05,
+      "loss": 1.3105,
+      "step": 154
+    },
+    {
+      "epoch": 0.22646333668158158,
+      "grad_norm": 0.15136584639549255,
+      "learning_rate": 1.8116438356164387e-05,
+      "loss": 1.1514,
+      "step": 155
+    },
+    {
+      "epoch": 0.22792439046662405,
+      "grad_norm": 0.16463331878185272,
+      "learning_rate": 1.808219178082192e-05,
+      "loss": 1.2292,
+      "step": 156
+    },
+    {
+      "epoch": 0.22938544425166651,
+      "grad_norm": 0.14684943854808807,
+      "learning_rate": 1.8047945205479453e-05,
+      "loss": 1.1744,
+      "step": 157
+    },
+    {
+      "epoch": 0.23084649803670898,
+      "grad_norm": 0.17171254754066467,
+      "learning_rate": 1.801369863013699e-05,
+      "loss": 1.2522,
+      "step": 158
+    },
+    {
+      "epoch": 0.23230755182175145,
+      "grad_norm": 0.1535484492778778,
+      "learning_rate": 1.7979452054794522e-05,
+      "loss": 1.3086,
+      "step": 159
+    },
+    {
+      "epoch": 0.2337686056067939,
+      "grad_norm": 0.15115784108638763,
+      "learning_rate": 1.7945205479452055e-05,
+      "loss": 1.3126,
+      "step": 160
+    },
+    {
+      "epoch": 0.23522965939183635,
+      "grad_norm": 0.15851254761219025,
+      "learning_rate": 1.791095890410959e-05,
+      "loss": 1.3022,
+      "step": 161
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.8126428980702003e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null