Training in progress, step 385, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +164 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8c0d97e659bc4443647ca4bb5214a3fd172de8cb97b76926060afaa1ce02b68
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:636cede6b3e50ff1861e2dc1273f6134e7156308fc6d82d873c1502b6d314e41
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86c43689ac0cec244a4d403549cfe7f198290515d01fcc3fc5c91fcfe4ca6318
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd537c19ebae2b08dbd0494d960639a61ecf609956482e67a546d6c169289698
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddd284836fe01fb8da0367ba9e958c4168cceec88a256cdb9badb53073d3392b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2475b14d80337b5e82132cfdcc36b578188577f583a180c04ac0c29d7bf259cc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5289014701853711,
   "eval_steps": 500,
-  "global_step": 362,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2541,6 +2541,167 @@
       "learning_rate": 1.1027397260273974e-05,
       "loss": 1.1608,
       "step": 362
     }
   ],
   "logging_steps": 1,
@@ -2560,7 +2721,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.077009720080179e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5625057072413479,
   "eval_steps": 500,
+  "global_step": 385,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.1027397260273974e-05,
       "loss": 1.1608,
       "step": 362
+    },
+    {
+      "epoch": 0.5303625239704136,
+      "grad_norm": 0.1049429252743721,
+      "learning_rate": 1.0993150684931509e-05,
+      "loss": 1.2217,
+      "step": 363
+    },
+    {
+      "epoch": 0.5318235777554561,
+      "grad_norm": 0.10289900004863739,
+      "learning_rate": 1.0958904109589042e-05,
+      "loss": 1.1854,
+      "step": 364
+    },
+    {
+      "epoch": 0.5332846315404985,
+      "grad_norm": 0.105230912566185,
+      "learning_rate": 1.0924657534246576e-05,
+      "loss": 1.2872,
+      "step": 365
+    },
+    {
+      "epoch": 0.534745685325541,
+      "grad_norm": 0.10501307249069214,
+      "learning_rate": 1.089041095890411e-05,
+      "loss": 1.2098,
+      "step": 366
+    },
+    {
+      "epoch": 0.5362067391105835,
+      "grad_norm": 0.11315510421991348,
+      "learning_rate": 1.0856164383561644e-05,
+      "loss": 1.2473,
+      "step": 367
+    },
+    {
+      "epoch": 0.5376677928956259,
+      "grad_norm": 0.10925040394067764,
+      "learning_rate": 1.082191780821918e-05,
+      "loss": 1.2147,
+      "step": 368
+    },
+    {
+      "epoch": 0.5391288466806684,
+      "grad_norm": 0.11574160307645798,
+      "learning_rate": 1.0787671232876714e-05,
+      "loss": 1.1954,
+      "step": 369
+    },
+    {
+      "epoch": 0.5405899004657109,
+      "grad_norm": 0.09681655466556549,
+      "learning_rate": 1.0753424657534248e-05,
+      "loss": 1.2026,
+      "step": 370
+    },
+    {
+      "epoch": 0.5420509542507533,
+      "grad_norm": 0.10630439221858978,
+      "learning_rate": 1.0719178082191782e-05,
+      "loss": 1.1083,
+      "step": 371
+    },
+    {
+      "epoch": 0.5435120080357958,
+      "grad_norm": 0.1086338609457016,
+      "learning_rate": 1.0684931506849316e-05,
+      "loss": 1.2337,
+      "step": 372
+    },
+    {
+      "epoch": 0.5449730618208383,
+      "grad_norm": 0.10121461749076843,
+      "learning_rate": 1.065068493150685e-05,
+      "loss": 1.2983,
+      "step": 373
+    },
+    {
+      "epoch": 0.5464341156058807,
+      "grad_norm": 0.10418357700109482,
+      "learning_rate": 1.0616438356164384e-05,
+      "loss": 1.1552,
+      "step": 374
+    },
+    {
+      "epoch": 0.5478951693909232,
+      "grad_norm": 0.09971540421247482,
+      "learning_rate": 1.0582191780821917e-05,
+      "loss": 1.131,
+      "step": 375
+    },
+    {
+      "epoch": 0.5493562231759657,
+      "grad_norm": 0.09615826606750488,
+      "learning_rate": 1.0547945205479453e-05,
+      "loss": 1.2724,
+      "step": 376
+    },
+    {
+      "epoch": 0.5508172769610081,
+      "grad_norm": 0.11235067993402481,
+      "learning_rate": 1.0513698630136988e-05,
+      "loss": 1.2207,
+      "step": 377
+    },
+    {
+      "epoch": 0.5522783307460506,
+      "grad_norm": 0.12269837409257889,
+      "learning_rate": 1.0479452054794521e-05,
+      "loss": 1.1767,
+      "step": 378
+    },
+    {
+      "epoch": 0.5537393845310931,
+      "grad_norm": 0.11360511928796768,
+      "learning_rate": 1.0445205479452056e-05,
+      "loss": 1.1903,
+      "step": 379
+    },
+    {
+      "epoch": 0.5552004383161355,
+      "grad_norm": 0.11293426156044006,
+      "learning_rate": 1.0410958904109589e-05,
+      "loss": 1.231,
+      "step": 380
+    },
+    {
+      "epoch": 0.556661492101178,
+      "grad_norm": 0.10496404767036438,
+      "learning_rate": 1.0376712328767124e-05,
+      "loss": 1.2697,
+      "step": 381
+    },
+    {
+      "epoch": 0.5581225458862205,
+      "grad_norm": 0.09859599173069,
+      "learning_rate": 1.0342465753424657e-05,
+      "loss": 1.3125,
+      "step": 382
+    },
+    {
+      "epoch": 0.5595835996712629,
+      "grad_norm": 0.10170820355415344,
+      "learning_rate": 1.0308219178082193e-05,
+      "loss": 1.1881,
+      "step": 383
+    },
+    {
+      "epoch": 0.5610446534563054,
+      "grad_norm": 0.11982686072587967,
+      "learning_rate": 1.0273972602739728e-05,
+      "loss": 1.1198,
+      "step": 384
+    },
+    {
+      "epoch": 0.5625057072413479,
+      "grad_norm": 0.10333485156297684,
+      "learning_rate": 1.0239726027397261e-05,
+      "loss": 1.2105,
+      "step": 385
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.340642918557778e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null