Training in progress, step 190, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +292 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84b2f43dc7a212c6a83ad8ff68912938c2d65c7803fe4403ee2d8b06dbb5be9d
 size 201361312

 version https://git-lfs.github.com/spec/v1
+oid sha256:580fc52310b83ed38dd8230dae36c94bbb8bb8af222f06f36f4c914cd8499695
 size 201361312

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be478e00420674b863fd3be779faa5a60abad8fd6b1db279138a7f9663f7adf5
 size 402868986

 version https://git-lfs.github.com/spec/v1
+oid sha256:06d4d10fec4c9ba03adecebd0634448511f1cc75385d1aef731b7bbe6b155f3a
 size 402868986

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df16ccf72376d05d0a786494577cc2bd50338d02c2a1a5134e69e4add5541132
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:0af2eed038a2210043dbdee050b112df7fa6a86e2bbb3bb3f1645c647dda3059
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d3837bd637f3c3332c71e8a44b8a4600e9a9681e6304f1e316c8f0e34864c29
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d904a910e9136c36800b8d8907ff26678dba030f6a37072d3ab3bebb97d959b
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91c35b1834df5d2d1dd6dc0385609f5409739604d3ece3ffc0126bc70e161aec
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d45b235a1cd2029de7b2e2b7938b1edb7dc6bde3cf47712ca38f0e6eb4488756
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43f86d936fe4f5d270c3549af91a41b8b53e92b4de27e2f227bc113e22ffc962
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:510e006b0434d52de82d4e4e36666ffab9697bda9405632e00e10ca71c33a5b8
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:445b7598993fe3a18f07b6ee10e450c957df6de162dc7729c132643a3ca6e545
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b0717fa852ff14c4fb6ef3d8fb6e7d6c5b1e6b17d5f3ada276b0ae8e8648b64
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.11555452644824982,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.09735518416355671,
   "eval_steps": 25,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1113,6 +1113,294 @@
       "eval_samples_per_second": 25.37,
       "eval_steps_per_second": 3.552,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1136,12 +1424,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.927375365546967e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.11555452644824982,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.12331656660717183,
   "eval_steps": 25,
+  "global_step": 190,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.37,
       "eval_steps_per_second": 3.552,
       "step": 150
+    },
+    {
+      "epoch": 0.09800421872464708,
+      "grad_norm": 0.4107028543949127,
+      "learning_rate": 1.9922179741796086e-05,
+      "loss": 1.0317,
+      "step": 151
+    },
+    {
+      "epoch": 0.09865325328573747,
+      "grad_norm": 0.5017074346542358,
+      "learning_rate": 1.9438237813334586e-05,
+      "loss": 1.2946,
+      "step": 152
+    },
+    {
+      "epoch": 0.09930228784682785,
+      "grad_norm": 0.5874817371368408,
+      "learning_rate": 1.8965008980117037e-05,
+      "loss": 1.3075,
+      "step": 153
+    },
+    {
+      "epoch": 0.09995132240791822,
+      "grad_norm": 0.7980416417121887,
+      "learning_rate": 1.850263580385163e-05,
+      "loss": 1.7944,
+      "step": 154
+    },
+    {
+      "epoch": 0.1006003569690086,
+      "grad_norm": 0.8562352657318115,
+      "learning_rate": 1.8051257575944925e-05,
+      "loss": 1.5412,
+      "step": 155
+    },
+    {
+      "epoch": 0.10124939153009897,
+      "grad_norm": 0.9079697728157043,
+      "learning_rate": 1.7611010275539962e-05,
+      "loss": 2.1056,
+      "step": 156
+    },
+    {
+      "epoch": 0.10189842609118936,
+      "grad_norm": 1.362610101699829,
+      "learning_rate": 1.718202652855205e-05,
+      "loss": 2.8629,
+      "step": 157
+    },
+    {
+      "epoch": 0.10254746065227974,
+      "grad_norm": 1.0792609453201294,
+      "learning_rate": 1.6764435567714794e-05,
+      "loss": 2.2353,
+      "step": 158
+    },
+    {
+      "epoch": 0.10319649521337011,
+      "grad_norm": 1.1943668127059937,
+      "learning_rate": 1.6358363193648352e-05,
+      "loss": 1.8588,
+      "step": 159
+    },
+    {
+      "epoch": 0.10384552977446049,
+      "grad_norm": 1.8506977558135986,
+      "learning_rate": 1.5963931736961547e-05,
+      "loss": 2.0918,
+      "step": 160
+    },
+    {
+      "epoch": 0.10449456433555086,
+      "grad_norm": 1.4415589570999146,
+      "learning_rate": 1.5581260021399396e-05,
+      "loss": 2.2585,
+      "step": 161
+    },
+    {
+      "epoch": 0.10514359889664125,
+      "grad_norm": 2.1754801273345947,
+      "learning_rate": 1.5210463328047095e-05,
+      "loss": 3.5595,
+      "step": 162
+    },
+    {
+      "epoch": 0.10579263345773163,
+      "grad_norm": 1.5889264345169067,
+      "learning_rate": 1.4851653360601179e-05,
+      "loss": 2.6063,
+      "step": 163
+    },
+    {
+      "epoch": 0.106441668018822,
+      "grad_norm": 0.42740046977996826,
+      "learning_rate": 1.4504938211718489e-05,
+      "loss": 1.0057,
+      "step": 164
+    },
+    {
+      "epoch": 0.10709070257991238,
+      "grad_norm": 0.6118475198745728,
+      "learning_rate": 1.4170422330452816e-05,
+      "loss": 1.6187,
+      "step": 165
+    },
+    {
+      "epoch": 0.10773973714100275,
+      "grad_norm": 0.5750280618667603,
+      "learning_rate": 1.384820649078939e-05,
+      "loss": 1.5088,
+      "step": 166
+    },
+    {
+      "epoch": 0.10838877170209314,
+      "grad_norm": 0.8314217329025269,
+      "learning_rate": 1.3538387761286303e-05,
+      "loss": 1.4836,
+      "step": 167
+    },
+    {
+      "epoch": 0.10903780626318352,
+      "grad_norm": 0.9137848019599915,
+      "learning_rate": 1.3241059475832373e-05,
+      "loss": 2.4207,
+      "step": 168
+    },
+    {
+      "epoch": 0.10968684082427389,
+      "grad_norm": 0.8464080095291138,
+      "learning_rate": 1.2956311205529943e-05,
+      "loss": 1.6731,
+      "step": 169
+    },
+    {
+      "epoch": 0.11033587538536427,
+      "grad_norm": 1.062997817993164,
+      "learning_rate": 1.268422873171136e-05,
+      "loss": 1.8915,
+      "step": 170
+    },
+    {
+      "epoch": 0.11098490994645464,
+      "grad_norm": 1.1377428770065308,
+      "learning_rate": 1.2424894020096997e-05,
+      "loss": 1.7875,
+      "step": 171
+    },
+    {
+      "epoch": 0.11163394450754503,
+      "grad_norm": 1.1429808139801025,
+      "learning_rate": 1.217838519610291e-05,
+      "loss": 2.037,
+      "step": 172
+    },
+    {
+      "epoch": 0.11228297906863541,
+      "grad_norm": 1.6295369863510132,
+      "learning_rate": 1.1944776521305213e-05,
+      "loss": 3.373,
+      "step": 173
+    },
+    {
+      "epoch": 0.11293201362972578,
+      "grad_norm": 1.7956379652023315,
+      "learning_rate": 1.1724138371068603e-05,
+      "loss": 2.3656,
+      "step": 174
+    },
+    {
+      "epoch": 0.11358104819081616,
+      "grad_norm": 2.154815912246704,
+      "learning_rate": 1.1516537213345519e-05,
+      "loss": 3.9224,
+      "step": 175
+    },
+    {
+      "epoch": 0.11358104819081616,
+      "eval_loss": 0.11255475133657455,
+      "eval_runtime": 1.9712,
+      "eval_samples_per_second": 25.365,
+      "eval_steps_per_second": 3.551,
+      "step": 175
+    },
+    {
+      "epoch": 0.11423008275190653,
+      "grad_norm": 0.4329838156700134,
+      "learning_rate": 1.1322035588652484e-05,
+      "loss": 1.0267,
+      "step": 176
+    },
+    {
+      "epoch": 0.11487911731299692,
+      "grad_norm": 0.4971684217453003,
+      "learning_rate": 1.1140692091229556e-05,
+      "loss": 1.5005,
+      "step": 177
+    },
+    {
+      "epoch": 0.1155281518740873,
+      "grad_norm": 0.6539115309715271,
+      "learning_rate": 1.0972561351388622e-05,
+      "loss": 1.5548,
+      "step": 178
+    },
+    {
+      "epoch": 0.11617718643517767,
+      "grad_norm": 0.6794347167015076,
+      "learning_rate": 1.0817694019055866e-05,
+      "loss": 1.3433,
+      "step": 179
+    },
+    {
+      "epoch": 0.11682622099626805,
+      "grad_norm": 0.6794097423553467,
+      "learning_rate": 1.0676136748513286e-05,
+      "loss": 1.4972,
+      "step": 180
+    },
+    {
+      "epoch": 0.11747525555735842,
+      "grad_norm": 0.8298191428184509,
+      "learning_rate": 1.0547932184343948e-05,
+      "loss": 1.89,
+      "step": 181
+    },
+    {
+      "epoch": 0.11812429011844881,
+      "grad_norm": 1.0593596696853638,
+      "learning_rate": 1.043311894858519e-05,
+      "loss": 1.5608,
+      "step": 182
+    },
+    {
+      "epoch": 0.11877332467953919,
+      "grad_norm": 1.1649240255355835,
+      "learning_rate": 1.033173162909358e-05,
+      "loss": 1.5776,
+      "step": 183
+    },
+    {
+      "epoch": 0.11942235924062956,
+      "grad_norm": 1.1592937707901,
+      "learning_rate": 1.0243800769125222e-05,
+      "loss": 2.2227,
+      "step": 184
+    },
+    {
+      "epoch": 0.12007139380171994,
+      "grad_norm": 1.402487874031067,
+      "learning_rate": 1.0169352858134525e-05,
+      "loss": 2.775,
+      "step": 185
+    },
+    {
+      "epoch": 0.12072042836281031,
+      "grad_norm": 1.5199470520019531,
+      "learning_rate": 1.0108410323794131e-05,
+      "loss": 2.5718,
+      "step": 186
+    },
+    {
+      "epoch": 0.1213694629239007,
+      "grad_norm": 4.227544784545898,
+      "learning_rate": 1.0060991525238538e-05,
+      "loss": 2.4256,
+      "step": 187
+    },
+    {
+      "epoch": 0.12201849748499108,
+      "grad_norm": 1.57233464717865,
+      "learning_rate": 1.0027110747533332e-05,
+      "loss": 2.703,
+      "step": 188
+    },
+    {
+      "epoch": 0.12266753204608145,
+      "grad_norm": 0.41703668236732483,
+      "learning_rate": 1.0006778197371774e-05,
+      "loss": 1.0445,
+      "step": 189
+    },
+    {
+      "epoch": 0.12331656660717183,
+      "grad_norm": 0.5908713340759277,
+      "learning_rate": 1e-05,
+      "loss": 1.4907,
+      "step": 190
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.1309430552941036e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null