Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:630ea51c11662ab3ef51bc9c51c2e017f3495c67771cee36be61d128ff340087
 size 121155320

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfa42a02e67dd059899a0a13e28272e81cbae411f81285a39cdc2dee547ad457
 size 121155320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5361a7d4ecd8941422aa55a86b12558fe7dd63a0baaefa00c60d8425b5f13af
 size 61896852

 version https://git-lfs.github.com/spec/v1
+oid sha256:b341394e3e3b8645f27546e0200897fa023a2d4a37624f5fc8986dc0f6ac1f08
 size 61896852

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15cb333e16ee9e1a7dcb703b36887b502e7d83539cbfe9f50b953b31a0fc6a9a
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:04a165f2c3e689af9c20f28052e635f4754c610d81f91cf59d8daf074a8b859d
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63dd6ffbb0580d59dce787ee04834cbac8f2b660ff3a3c4f84356e0a4a6db052
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc15f721c9ab728f8c4fef1fc3c2c5f3cbbd404f34b44b11146658914d5af459
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eaf0adeb73577287b9277f98d3f690d0fade0980fe812672508568368db85c39
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:607c9d4beaecc6f7f333f169f7f374bc5e029d4c5c3ae438b59e3b41f3c35a42
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:385d5953d9531768e5f23f5d8487fbf44efe89b545e8c53a0991b20041266efa
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:939ecc0b1f4926056ba7c4e8a84dd8b78be349e57f7901717c327ee6c88c77e5
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1439080238342285,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.12594458438287154,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 405.45,
       "eval_steps_per_second": 25.473,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3317552734208e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.081210970878601,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.2518891687657431,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 405.45,
       "eval_steps_per_second": 25.473,
       "step": 50
+    },
+    {
+      "epoch": 0.12846347607052896,
+      "grad_norm": 0.6696637272834778,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 0.9862,
+      "step": 51
+    },
+    {
+      "epoch": 0.1309823677581864,
+      "grad_norm": 0.7187925577163696,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.1497,
+      "step": 52
+    },
+    {
+      "epoch": 0.13350125944584382,
+      "grad_norm": 0.8044906854629517,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 1.2035,
+      "step": 53
+    },
+    {
+      "epoch": 0.13602015113350127,
+      "grad_norm": 0.7931461334228516,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 1.3208,
+      "step": 54
+    },
+    {
+      "epoch": 0.1385390428211587,
+      "grad_norm": 0.8093243837356567,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 1.2955,
+      "step": 55
+    },
+    {
+      "epoch": 0.14105793450881612,
+      "grad_norm": 0.7877445220947266,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 1.2606,
+      "step": 56
+    },
+    {
+      "epoch": 0.14357682619647355,
+      "grad_norm": 0.8374626040458679,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 1.3051,
+      "step": 57
+    },
+    {
+      "epoch": 0.14609571788413098,
+      "grad_norm": 0.7839852571487427,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 1.2146,
+      "step": 58
+    },
+    {
+      "epoch": 0.1486146095717884,
+      "grad_norm": 0.7973029613494873,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 1.2388,
+      "step": 59
+    },
+    {
+      "epoch": 0.15113350125944586,
+      "grad_norm": 0.914703905582428,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 1.2283,
+      "step": 60
+    },
+    {
+      "epoch": 0.15365239294710328,
+      "grad_norm": 0.9234141707420349,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 1.1932,
+      "step": 61
+    },
+    {
+      "epoch": 0.1561712846347607,
+      "grad_norm": 0.9863606691360474,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 0.9211,
+      "step": 62
+    },
+    {
+      "epoch": 0.15869017632241814,
+      "grad_norm": 0.7008844614028931,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 0.8136,
+      "step": 63
+    },
+    {
+      "epoch": 0.16120906801007556,
+      "grad_norm": 0.706566572189331,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 1.1044,
+      "step": 64
+    },
+    {
+      "epoch": 0.163727959697733,
+      "grad_norm": 0.670062243938446,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 1.121,
+      "step": 65
+    },
+    {
+      "epoch": 0.16624685138539042,
+      "grad_norm": 0.7454081177711487,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 1.2569,
+      "step": 66
+    },
+    {
+      "epoch": 0.16876574307304787,
+      "grad_norm": 0.7132694721221924,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.2122,
+      "step": 67
+    },
+    {
+      "epoch": 0.1712846347607053,
+      "grad_norm": 0.789145827293396,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 1.2335,
+      "step": 68
+    },
+    {
+      "epoch": 0.17380352644836272,
+      "grad_norm": 0.8041715025901794,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 1.3089,
+      "step": 69
+    },
+    {
+      "epoch": 0.17632241813602015,
+      "grad_norm": 0.7646405696868896,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 1.3266,
+      "step": 70
+    },
+    {
+      "epoch": 0.17884130982367757,
+      "grad_norm": 0.7671753168106079,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 1.2369,
+      "step": 71
+    },
+    {
+      "epoch": 0.181360201511335,
+      "grad_norm": 0.824204683303833,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 1.1525,
+      "step": 72
+    },
+    {
+      "epoch": 0.18387909319899245,
+      "grad_norm": 0.8555918335914612,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 1.0934,
+      "step": 73
+    },
+    {
+      "epoch": 0.18639798488664988,
+      "grad_norm": 0.7880133986473083,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 0.9243,
+      "step": 74
+    },
+    {
+      "epoch": 0.1889168765743073,
+      "grad_norm": 0.7504996657371521,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 0.5061,
+      "step": 75
+    },
+    {
+      "epoch": 0.19143576826196473,
+      "grad_norm": 0.6926849484443665,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 0.9914,
+      "step": 76
+    },
+    {
+      "epoch": 0.19395465994962216,
+      "grad_norm": 0.7031380534172058,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 1.084,
+      "step": 77
+    },
+    {
+      "epoch": 0.1964735516372796,
+      "grad_norm": 0.7520303130149841,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 1.2534,
+      "step": 78
+    },
+    {
+      "epoch": 0.19899244332493704,
+      "grad_norm": 0.7729059457778931,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 1.2567,
+      "step": 79
+    },
+    {
+      "epoch": 0.20151133501259447,
+      "grad_norm": 0.7702147960662842,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 1.2853,
+      "step": 80
+    },
+    {
+      "epoch": 0.2040302267002519,
+      "grad_norm": 0.803860068321228,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.2467,
+      "step": 81
+    },
+    {
+      "epoch": 0.20654911838790932,
+      "grad_norm": 0.8499089479446411,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 1.1254,
+      "step": 82
+    },
+    {
+      "epoch": 0.20906801007556675,
+      "grad_norm": 0.806954562664032,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 1.2215,
+      "step": 83
+    },
+    {
+      "epoch": 0.21158690176322417,
+      "grad_norm": 0.8059075474739075,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 1.1226,
+      "step": 84
+    },
+    {
+      "epoch": 0.2141057934508816,
+      "grad_norm": 0.8238097429275513,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 1.1924,
+      "step": 85
+    },
+    {
+      "epoch": 0.21662468513853905,
+      "grad_norm": 0.9427893161773682,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.0742,
+      "step": 86
+    },
+    {
+      "epoch": 0.21914357682619648,
+      "grad_norm": 0.9135816693305969,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 0.7988,
+      "step": 87
+    },
+    {
+      "epoch": 0.2216624685138539,
+      "grad_norm": 0.6901926398277283,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 0.7661,
+      "step": 88
+    },
+    {
+      "epoch": 0.22418136020151133,
+      "grad_norm": 0.686551570892334,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 1.0409,
+      "step": 89
+    },
+    {
+      "epoch": 0.22670025188916876,
+      "grad_norm": 0.7074147462844849,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 1.158,
+      "step": 90
+    },
+    {
+      "epoch": 0.22921914357682618,
+      "grad_norm": 0.7757774591445923,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 1.2329,
+      "step": 91
+    },
+    {
+      "epoch": 0.23173803526448364,
+      "grad_norm": 0.8128164410591125,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 1.2201,
+      "step": 92
+    },
+    {
+      "epoch": 0.23425692695214106,
+      "grad_norm": 0.7824828028678894,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.229,
+      "step": 93
+    },
+    {
+      "epoch": 0.2367758186397985,
+      "grad_norm": 0.7980343699455261,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.1458,
+      "step": 94
+    },
+    {
+      "epoch": 0.23929471032745592,
+      "grad_norm": 0.7581623196601868,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.1573,
+      "step": 95
+    },
+    {
+      "epoch": 0.24181360201511334,
+      "grad_norm": 0.7461240887641907,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.1551,
+      "step": 96
+    },
+    {
+      "epoch": 0.24433249370277077,
+      "grad_norm": 0.8701335191726685,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.252,
+      "step": 97
+    },
+    {
+      "epoch": 0.24685138539042822,
+      "grad_norm": 0.8313496708869934,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.1525,
+      "step": 98
+    },
+    {
+      "epoch": 0.24937027707808565,
+      "grad_norm": 0.8400062322616577,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 0.9015,
+      "step": 99
+    },
+    {
+      "epoch": 0.2518891687657431,
+      "grad_norm": 0.8031129240989685,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.6047,
+      "step": 100
+    },
+    {
+      "epoch": 0.2518891687657431,
+      "eval_loss": 1.081210970878601,
+      "eval_runtime": 6.5932,
+      "eval_samples_per_second": 405.568,
+      "eval_steps_per_second": 25.481,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.6635105468416e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null