Training in progress, step 468, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +136 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:061c854124c7de3bd91c0cfc837955b45adbf61e56d4945a11afee8302238f82
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d3b69465f580520acc9f202ffa4379391ff40a467272aa1bb1f587492ab0ce6
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5f296aecef4fc444fa010d18c111b83dd4188df7ebba16d0170d94f0cace3fa
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:47a355e0aa5b1f268bc54e7ab331360ae4e94422b16cd818e29aa21183cfe7a9
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bb4c66b605a6bb121ef17d8f0d98eeb35f0d2d7ca95ea55a77f54d5a44ec986
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f65e9bb5e56bd8df1e486444b8ee6dae7ecf218b93c8b810d2422fba26163752
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4927297668038409,
   "eval_steps": 500,
-  "global_step": 449,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3150,6 +3150,139 @@
       "learning_rate": 1.1393341553637486e-05,
       "loss": 1.1277,
       "step": 449
     }
   ],
   "logging_steps": 1,
@@ -3169,7 +3302,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.664204424013824e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5135802469135803,
   "eval_steps": 500,
+  "global_step": 468,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.1393341553637486e-05,
       "loss": 1.1277,
       "step": 449
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.13308392465114594,
+      "learning_rate": 1.1368680641183724e-05,
+      "loss": 1.0997,
+      "step": 450
+    },
+    {
+      "epoch": 0.4949245541838134,
+      "grad_norm": 0.11568623036146164,
+      "learning_rate": 1.1344019728729965e-05,
+      "loss": 1.2082,
+      "step": 451
+    },
+    {
+      "epoch": 0.4960219478737997,
+      "grad_norm": 0.12799036502838135,
+      "learning_rate": 1.1319358816276202e-05,
+      "loss": 1.1844,
+      "step": 452
+    },
+    {
+      "epoch": 0.497119341563786,
+      "grad_norm": 0.12493016570806503,
+      "learning_rate": 1.1294697903822443e-05,
+      "loss": 1.2041,
+      "step": 453
+    },
+    {
+      "epoch": 0.4982167352537723,
+      "grad_norm": 0.12631264328956604,
+      "learning_rate": 1.1270036991368682e-05,
+      "loss": 1.0397,
+      "step": 454
+    },
+    {
+      "epoch": 0.4993141289437586,
+      "grad_norm": 0.12955130636692047,
+      "learning_rate": 1.124537607891492e-05,
+      "loss": 1.0504,
+      "step": 455
+    },
+    {
+      "epoch": 0.5004115226337449,
+      "grad_norm": 0.12372354418039322,
+      "learning_rate": 1.122071516646116e-05,
+      "loss": 1.1982,
+      "step": 456
+    },
+    {
+      "epoch": 0.5015089163237312,
+      "grad_norm": 0.13814988732337952,
+      "learning_rate": 1.11960542540074e-05,
+      "loss": 1.201,
+      "step": 457
+    },
+    {
+      "epoch": 0.5026063100137175,
+      "grad_norm": 0.11566805094480515,
+      "learning_rate": 1.1171393341553637e-05,
+      "loss": 1.1334,
+      "step": 458
+    },
+    {
+      "epoch": 0.5037037037037037,
+      "grad_norm": 0.11871378123760223,
+      "learning_rate": 1.1146732429099878e-05,
+      "loss": 1.1315,
+      "step": 459
+    },
+    {
+      "epoch": 0.50480109739369,
+      "grad_norm": 0.12469706684350967,
+      "learning_rate": 1.1122071516646115e-05,
+      "loss": 1.1309,
+      "step": 460
+    },
+    {
+      "epoch": 0.5058984910836762,
+      "grad_norm": 0.12486052513122559,
+      "learning_rate": 1.1097410604192356e-05,
+      "loss": 1.0966,
+      "step": 461
+    },
+    {
+      "epoch": 0.5069958847736625,
+      "grad_norm": 0.12366752326488495,
+      "learning_rate": 1.1072749691738596e-05,
+      "loss": 1.1861,
+      "step": 462
+    },
+    {
+      "epoch": 0.5080932784636488,
+      "grad_norm": 0.1204606145620346,
+      "learning_rate": 1.1048088779284834e-05,
+      "loss": 1.1,
+      "step": 463
+    },
+    {
+      "epoch": 0.5091906721536351,
+      "grad_norm": 0.15034319460391998,
+      "learning_rate": 1.1023427866831074e-05,
+      "loss": 1.1683,
+      "step": 464
+    },
+    {
+      "epoch": 0.5102880658436214,
+      "grad_norm": 0.1372024267911911,
+      "learning_rate": 1.0998766954377313e-05,
+      "loss": 1.1134,
+      "step": 465
+    },
+    {
+      "epoch": 0.5113854595336077,
+      "grad_norm": 0.13857926428318024,
+      "learning_rate": 1.097410604192355e-05,
+      "loss": 1.1922,
+      "step": 466
+    },
+    {
+      "epoch": 0.512482853223594,
+      "grad_norm": 0.1584538072347641,
+      "learning_rate": 1.0949445129469791e-05,
+      "loss": 1.139,
+      "step": 467
+    },
+    {
+      "epoch": 0.5135802469135803,
+      "grad_norm": 0.14659465849399567,
+      "learning_rate": 1.0924784217016032e-05,
+      "loss": 1.1054,
+      "step": 468
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.861679479484129e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null