Training in progress, step 150, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfa42a02e67dd059899a0a13e28272e81cbae411f81285a39cdc2dee547ad457
 size 121155320

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5301890303ab2e3c33bd02b3213139e3910a46f608e01597ebb83beba8d9189
 size 121155320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b341394e3e3b8645f27546e0200897fa023a2d4a37624f5fc8986dc0f6ac1f08
 size 61896852

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a9db40c42bf5d8863a788dcf8951abf1f9162681a92fde511914684dd59caa5
 size 61896852

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04a165f2c3e689af9c20f28052e635f4754c610d81f91cf59d8daf074a8b859d
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:5745a59a3b64e1df6bd629a0a8e269b202a40bc54fdd84d6b2a3f300d95bd88a
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc15f721c9ab728f8c4fef1fc3c2c5f3cbbd404f34b44b11146658914d5af459
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b929f1e127d1bda48d11eeed902355281ac6ff827807761015fa1503e640a37
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:607c9d4beaecc6f7f333f169f7f374bc5e029d4c5c3ae438b59e3b41f3c35a42
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4b7e752be9a3c8356523d6603f150475ee26976ddcfb996c762fba73e3662b9
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:939ecc0b1f4926056ba7c4e8a84dd8b78be349e57f7901717c327ee6c88c77e5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f96b6c82f3d3988af46cbfd8173af5175cc2d30fcdc1c87be924e1e1e45c8b6
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.081210970878601,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.2518891687657431,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 405.568,
       "eval_steps_per_second": 25.481,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.6635105468416e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0568944215774536,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.3778337531486146,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 405.568,
       "eval_steps_per_second": 25.481,
       "step": 100
+    },
+    {
+      "epoch": 0.25440806045340053,
+      "grad_norm": 0.5791409611701965,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 0.8691,
+      "step": 101
+    },
+    {
+      "epoch": 0.25692695214105793,
+      "grad_norm": 0.6761665940284729,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 1.1547,
+      "step": 102
+    },
+    {
+      "epoch": 0.2594458438287154,
+      "grad_norm": 0.7127015590667725,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 1.1446,
+      "step": 103
+    },
+    {
+      "epoch": 0.2619647355163728,
+      "grad_norm": 0.6685255169868469,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 1.1366,
+      "step": 104
+    },
+    {
+      "epoch": 0.26448362720403024,
+      "grad_norm": 0.7872922420501709,
+      "learning_rate": 5e-05,
+      "loss": 1.1164,
+      "step": 105
+    },
+    {
+      "epoch": 0.26700251889168763,
+      "grad_norm": 0.7922177910804749,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 1.2865,
+      "step": 106
+    },
+    {
+      "epoch": 0.2695214105793451,
+      "grad_norm": 0.726411759853363,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 1.1789,
+      "step": 107
+    },
+    {
+      "epoch": 0.27204030226700254,
+      "grad_norm": 0.8712490200996399,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 1.2243,
+      "step": 108
+    },
+    {
+      "epoch": 0.27455919395465994,
+      "grad_norm": 0.7981859445571899,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 1.2371,
+      "step": 109
+    },
+    {
+      "epoch": 0.2770780856423174,
+      "grad_norm": 0.8846247792243958,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 1.0594,
+      "step": 110
+    },
+    {
+      "epoch": 0.2795969773299748,
+      "grad_norm": 0.849727988243103,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 0.9926,
+      "step": 111
+    },
+    {
+      "epoch": 0.28211586901763225,
+      "grad_norm": 0.9760579466819763,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.5567,
+      "step": 112
+    },
+    {
+      "epoch": 0.28463476070528965,
+      "grad_norm": 0.6983761191368103,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 0.8196,
+      "step": 113
+    },
+    {
+      "epoch": 0.2871536523929471,
+      "grad_norm": 0.6948756575584412,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 1.03,
+      "step": 114
+    },
+    {
+      "epoch": 0.28967254408060455,
+      "grad_norm": 0.6897252202033997,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 1.1035,
+      "step": 115
+    },
+    {
+      "epoch": 0.29219143576826195,
+      "grad_norm": 0.7439106702804565,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 1.1831,
+      "step": 116
+    },
+    {
+      "epoch": 0.2947103274559194,
+      "grad_norm": 0.7960891127586365,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 1.2296,
+      "step": 117
+    },
+    {
+      "epoch": 0.2972292191435768,
+      "grad_norm": 0.7868511080741882,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 1.2282,
+      "step": 118
+    },
+    {
+      "epoch": 0.29974811083123426,
+      "grad_norm": 0.7820124626159668,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 1.1672,
+      "step": 119
+    },
+    {
+      "epoch": 0.3022670025188917,
+      "grad_norm": 0.8746429681777954,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 1.3075,
+      "step": 120
+    },
+    {
+      "epoch": 0.3047858942065491,
+      "grad_norm": 0.8296982645988464,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 1.1468,
+      "step": 121
+    },
+    {
+      "epoch": 0.30730478589420657,
+      "grad_norm": 0.8170954585075378,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 1.1371,
+      "step": 122
+    },
+    {
+      "epoch": 0.30982367758186397,
+      "grad_norm": 0.8437178730964661,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 1.0785,
+      "step": 123
+    },
+    {
+      "epoch": 0.3123425692695214,
+      "grad_norm": 0.9082346558570862,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.7742,
+      "step": 124
+    },
+    {
+      "epoch": 0.3148614609571788,
+      "grad_norm": 0.9745569825172424,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 0.5815,
+      "step": 125
+    },
+    {
+      "epoch": 0.31738035264483627,
+      "grad_norm": 0.579589307308197,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 0.9223,
+      "step": 126
+    },
+    {
+      "epoch": 0.3198992443324937,
+      "grad_norm": 0.7095094323158264,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 1.0798,
+      "step": 127
+    },
+    {
+      "epoch": 0.3224181360201511,
+      "grad_norm": 0.7074604034423828,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 1.1306,
+      "step": 128
+    },
+    {
+      "epoch": 0.3249370277078086,
+      "grad_norm": 0.7852492928504944,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 1.2188,
+      "step": 129
+    },
+    {
+      "epoch": 0.327455919395466,
+      "grad_norm": 0.8149453401565552,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 1.2806,
+      "step": 130
+    },
+    {
+      "epoch": 0.32997481108312343,
+      "grad_norm": 0.7617264986038208,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 1.158,
+      "step": 131
+    },
+    {
+      "epoch": 0.33249370277078083,
+      "grad_norm": 0.7356300950050354,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 1.2512,
+      "step": 132
+    },
+    {
+      "epoch": 0.3350125944584383,
+      "grad_norm": 0.8499346375465393,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 1.184,
+      "step": 133
+    },
+    {
+      "epoch": 0.33753148614609574,
+      "grad_norm": 0.7581899166107178,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 1.1682,
+      "step": 134
+    },
+    {
+      "epoch": 0.34005037783375314,
+      "grad_norm": 0.8471848964691162,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 1.1086,
+      "step": 135
+    },
+    {
+      "epoch": 0.3425692695214106,
+      "grad_norm": 0.8648639917373657,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 0.9706,
+      "step": 136
+    },
+    {
+      "epoch": 0.345088161209068,
+      "grad_norm": 0.9526408314704895,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 0.7812,
+      "step": 137
+    },
+    {
+      "epoch": 0.34760705289672544,
+      "grad_norm": 0.7097494006156921,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 0.7429,
+      "step": 138
+    },
+    {
+      "epoch": 0.3501259445843829,
+      "grad_norm": 0.7051882147789001,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 1.0422,
+      "step": 139
+    },
+    {
+      "epoch": 0.3526448362720403,
+      "grad_norm": 0.7471709847450256,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 1.1134,
+      "step": 140
+    },
+    {
+      "epoch": 0.35516372795969775,
+      "grad_norm": 0.769690215587616,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 1.1216,
+      "step": 141
+    },
+    {
+      "epoch": 0.35768261964735515,
+      "grad_norm": 0.8392113447189331,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 1.1068,
+      "step": 142
+    },
+    {
+      "epoch": 0.3602015113350126,
+      "grad_norm": 0.8162795901298523,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.2722,
+      "step": 143
+    },
+    {
+      "epoch": 0.36272040302267,
+      "grad_norm": 0.7895859479904175,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 1.2096,
+      "step": 144
+    },
+    {
+      "epoch": 0.36523929471032746,
+      "grad_norm": 0.7999795079231262,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 1.2351,
+      "step": 145
+    },
+    {
+      "epoch": 0.3677581863979849,
+      "grad_norm": 0.8167189955711365,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 1.1387,
+      "step": 146
+    },
+    {
+      "epoch": 0.3702770780856423,
+      "grad_norm": 0.8138123154640198,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 1.1609,
+      "step": 147
+    },
+    {
+      "epoch": 0.37279596977329976,
+      "grad_norm": 0.8673620820045471,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 1.1351,
+      "step": 148
+    },
+    {
+      "epoch": 0.37531486146095716,
+      "grad_norm": 0.8173338174819946,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 0.911,
+      "step": 149
+    },
+    {
+      "epoch": 0.3778337531486146,
+      "grad_norm": 0.874540388584137,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 0.5125,
+      "step": 150
+    },
+    {
+      "epoch": 0.3778337531486146,
+      "eval_loss": 1.0568944215774536,
+      "eval_runtime": 6.5941,
+      "eval_samples_per_second": 405.511,
+      "eval_steps_per_second": 25.477,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.9952658202624e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null