Training in progress, step 775, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +171 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d9a20236727441eb091076ba19df5e6a7d77f0b3c472ff2f8063013a8d51572
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:0943a41a553462c4d372d11f0db7e7ac74b82191589741e8cc65f7c9bf91ac59
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b69be20e32e80b2656e56c5d7c6b43e62c713fe0c325ae422961c510d0003eb1
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee780c3dfac7ae5d183bedef0b48a628ef423302dc70107b1ca832ddb1dcaca5
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c630f82ab3254c93d60737e499149d30223810c5c2c5784792c66db1cac3db4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7deeaf0e67bca4eb52e599acdab6e6d26eff4b93874f78b39bfb4318b5785931
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8241426611796983,
   "eval_steps": 500,
-  "global_step": 751,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5264,6 +5264,174 @@
       "learning_rate": 3.9457459926017264e-06,
       "loss": 1.2137,
       "step": 751
     }
   ],
   "logging_steps": 1,
@@ -5283,7 +5451,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.788006116401766e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.850480109739369,
   "eval_steps": 500,
+  "global_step": 775,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.9457459926017264e-06,
       "loss": 1.2137,
       "step": 751
+    },
+    {
+      "epoch": 0.8252400548696845,
+      "grad_norm": 0.14159835875034332,
+      "learning_rate": 3.921085080147966e-06,
+      "loss": 1.1786,
+      "step": 752
+    },
+    {
+      "epoch": 0.8263374485596707,
+      "grad_norm": 0.13204412162303925,
+      "learning_rate": 3.896424167694205e-06,
+      "loss": 1.0827,
+      "step": 753
+    },
+    {
+      "epoch": 0.827434842249657,
+      "grad_norm": 0.14544348418712616,
+      "learning_rate": 3.871763255240444e-06,
+      "loss": 1.2168,
+      "step": 754
+    },
+    {
+      "epoch": 0.8285322359396433,
+      "grad_norm": 0.13837821781635284,
+      "learning_rate": 3.847102342786683e-06,
+      "loss": 1.1306,
+      "step": 755
+    },
+    {
+      "epoch": 0.8296296296296296,
+      "grad_norm": 0.13542281091213226,
+      "learning_rate": 3.822441430332923e-06,
+      "loss": 1.065,
+      "step": 756
+    },
+    {
+      "epoch": 0.8307270233196159,
+      "grad_norm": 0.1563270390033722,
+      "learning_rate": 3.7977805178791616e-06,
+      "loss": 1.0928,
+      "step": 757
+    },
+    {
+      "epoch": 0.8318244170096022,
+      "grad_norm": 0.1355254054069519,
+      "learning_rate": 3.773119605425401e-06,
+      "loss": 1.1382,
+      "step": 758
+    },
+    {
+      "epoch": 0.8329218106995885,
+      "grad_norm": 0.14081105589866638,
+      "learning_rate": 3.7484586929716402e-06,
+      "loss": 1.0408,
+      "step": 759
+    },
+    {
+      "epoch": 0.8340192043895748,
+      "grad_norm": 0.14367350935935974,
+      "learning_rate": 3.723797780517879e-06,
+      "loss": 1.12,
+      "step": 760
+    },
+    {
+      "epoch": 0.8351165980795611,
+      "grad_norm": 0.13955897092819214,
+      "learning_rate": 3.699136868064119e-06,
+      "loss": 1.1122,
+      "step": 761
+    },
+    {
+      "epoch": 0.8362139917695474,
+      "grad_norm": 0.13528084754943848,
+      "learning_rate": 3.674475955610358e-06,
+      "loss": 1.1463,
+      "step": 762
+    },
+    {
+      "epoch": 0.8373113854595337,
+      "grad_norm": 0.13060660660266876,
+      "learning_rate": 3.649815043156597e-06,
+      "loss": 1.088,
+      "step": 763
+    },
+    {
+      "epoch": 0.83840877914952,
+      "grad_norm": 0.14304772019386292,
+      "learning_rate": 3.6251541307028365e-06,
+      "loss": 1.13,
+      "step": 764
+    },
+    {
+      "epoch": 0.8395061728395061,
+      "grad_norm": 0.129106804728508,
+      "learning_rate": 3.6004932182490754e-06,
+      "loss": 1.0758,
+      "step": 765
+    },
+    {
+      "epoch": 0.8406035665294924,
+      "grad_norm": 0.14966481924057007,
+      "learning_rate": 3.5758323057953147e-06,
+      "loss": 1.051,
+      "step": 766
+    },
+    {
+      "epoch": 0.8417009602194787,
+      "grad_norm": 0.13731549680233002,
+      "learning_rate": 3.5511713933415536e-06,
+      "loss": 1.1467,
+      "step": 767
+    },
+    {
+      "epoch": 0.842798353909465,
+      "grad_norm": 0.16249963641166687,
+      "learning_rate": 3.526510480887793e-06,
+      "loss": 1.1939,
+      "step": 768
+    },
+    {
+      "epoch": 0.8438957475994513,
+      "grad_norm": 0.1546361893415451,
+      "learning_rate": 3.5018495684340327e-06,
+      "loss": 1.1762,
+      "step": 769
+    },
+    {
+      "epoch": 0.8449931412894376,
+      "grad_norm": 0.1352168768644333,
+      "learning_rate": 3.4771886559802716e-06,
+      "loss": 1.1351,
+      "step": 770
+    },
+    {
+      "epoch": 0.8460905349794239,
+      "grad_norm": 0.13795001804828644,
+      "learning_rate": 3.452527743526511e-06,
+      "loss": 1.0621,
+      "step": 771
+    },
+    {
+      "epoch": 0.8471879286694102,
+      "grad_norm": 0.13399291038513184,
+      "learning_rate": 3.42786683107275e-06,
+      "loss": 1.1674,
+      "step": 772
+    },
+    {
+      "epoch": 0.8482853223593965,
+      "grad_norm": 0.1293582171201706,
+      "learning_rate": 3.403205918618989e-06,
+      "loss": 1.1216,
+      "step": 773
+    },
+    {
+      "epoch": 0.8493827160493828,
+      "grad_norm": 0.13657528162002563,
+      "learning_rate": 3.3785450061652285e-06,
+      "loss": 1.1037,
+      "step": 774
+    },
+    {
+      "epoch": 0.850480109739369,
+      "grad_norm": 0.14344428479671478,
+      "learning_rate": 3.3538840937114674e-06,
+      "loss": 1.1299,
+      "step": 775
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.037403550740316e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null