Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac0a7fadeb0f3379f61ba746f75d25a0b31318d0ee8f0c4e474ca91e0286a97e
 size 479005064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b2738e9f769086c469fde7d9d1900059bbca4da7384eaee404d033fb274f5f1
 size 479005064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2b19bed96bf6518f321a7122e23fdb4c38f85684f97de466817d804e9921469
 size 958299770

 version https://git-lfs.github.com/spec/v1
+oid sha256:f930074a8146a7814acdfaafc313b635d4170e046bbc71195275e79dd59e1a5d
 size 958299770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4e66a99f91deafedac948a09ccddeb307849c64d78a9bf2bf4b108fe1c2fd85
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:69adc1b8f4e534a62df26c83fcefb9fc51905f0dacc6be9dcba4f47c2685cee3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7844517230987549,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.11672016340822877,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 10.97,
       "eval_steps_per_second": 5.489,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.06703144091648e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7759228944778442,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.17508024511234316,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.97,
       "eval_steps_per_second": 5.489,
       "step": 100
+    },
+    {
+      "epoch": 0.11788736504231107,
+      "grad_norm": 0.27881744503974915,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 0.9024,
+      "step": 101
+    },
+    {
+      "epoch": 0.11905456667639334,
+      "grad_norm": 0.2848488688468933,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.8755,
+      "step": 102
+    },
+    {
+      "epoch": 0.12022176831047564,
+      "grad_norm": 0.2713146507740021,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 0.8695,
+      "step": 103
+    },
+    {
+      "epoch": 0.12138896994455792,
+      "grad_norm": 0.25380441546440125,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.8603,
+      "step": 104
+    },
+    {
+      "epoch": 0.12255617157864021,
+      "grad_norm": 0.2523921728134155,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 0.766,
+      "step": 105
+    },
+    {
+      "epoch": 0.1237233732127225,
+      "grad_norm": 0.23555214703083038,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.8138,
+      "step": 106
+    },
+    {
+      "epoch": 0.12489057484680478,
+      "grad_norm": 0.2412918657064438,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 0.9006,
+      "step": 107
+    },
+    {
+      "epoch": 0.12605777648088706,
+      "grad_norm": 0.23593959212303162,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.8237,
+      "step": 108
+    },
+    {
+      "epoch": 0.12722497811496936,
+      "grad_norm": 0.23072870075702667,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 0.7662,
+      "step": 109
+    },
+    {
+      "epoch": 0.12839217974905165,
+      "grad_norm": 0.24987874925136566,
+      "learning_rate": 5e-05,
+      "loss": 0.7334,
+      "step": 110
+    },
+    {
+      "epoch": 0.12955938138313394,
+      "grad_norm": 0.2619277834892273,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 0.8111,
+      "step": 111
+    },
+    {
+      "epoch": 0.13072658301721624,
+      "grad_norm": 0.25728732347488403,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.8008,
+      "step": 112
+    },
+    {
+      "epoch": 0.1318937846512985,
+      "grad_norm": 0.2542027235031128,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 0.6894,
+      "step": 113
+    },
+    {
+      "epoch": 0.1330609862853808,
+      "grad_norm": 0.25486239790916443,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.7197,
+      "step": 114
+    },
+    {
+      "epoch": 0.1342281879194631,
+      "grad_norm": 0.2670009434223175,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 0.7636,
+      "step": 115
+    },
+    {
+      "epoch": 0.13539538955354538,
+      "grad_norm": 0.27421027421951294,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.781,
+      "step": 116
+    },
+    {
+      "epoch": 0.13656259118762767,
+      "grad_norm": 0.2642095386981964,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 0.7648,
+      "step": 117
+    },
+    {
+      "epoch": 0.13772979282170994,
+      "grad_norm": 0.28716525435447693,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.7874,
+      "step": 118
+    },
+    {
+      "epoch": 0.13889699445579223,
+      "grad_norm": 0.29199421405792236,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 0.8243,
+      "step": 119
+    },
+    {
+      "epoch": 0.14006419608987453,
+      "grad_norm": 0.2674504518508911,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.7611,
+      "step": 120
+    },
+    {
+      "epoch": 0.14123139772395682,
+      "grad_norm": 0.2917780876159668,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 0.7462,
+      "step": 121
+    },
+    {
+      "epoch": 0.1423985993580391,
+      "grad_norm": 0.3149389624595642,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.754,
+      "step": 122
+    },
+    {
+      "epoch": 0.14356580099212138,
+      "grad_norm": 0.3116993308067322,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 0.8438,
+      "step": 123
+    },
+    {
+      "epoch": 0.14473300262620367,
+      "grad_norm": 0.3052745461463928,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.8313,
+      "step": 124
+    },
+    {
+      "epoch": 0.14590020426028597,
+      "grad_norm": 0.3292216360569,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.8778,
+      "step": 125
+    },
+    {
+      "epoch": 0.14706740589436826,
+      "grad_norm": 0.3010333478450775,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.8251,
+      "step": 126
+    },
+    {
+      "epoch": 0.14823460752845055,
+      "grad_norm": 0.3386470675468445,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 0.8236,
+      "step": 127
+    },
+    {
+      "epoch": 0.14940180916253282,
+      "grad_norm": 0.33097153902053833,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.8059,
+      "step": 128
+    },
+    {
+      "epoch": 0.1505690107966151,
+      "grad_norm": 0.32120153307914734,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 0.7842,
+      "step": 129
+    },
+    {
+      "epoch": 0.1517362124306974,
+      "grad_norm": 0.36916086077690125,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.8031,
+      "step": 130
+    },
+    {
+      "epoch": 0.1529034140647797,
+      "grad_norm": 0.32527828216552734,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 0.8087,
+      "step": 131
+    },
+    {
+      "epoch": 0.154070615698862,
+      "grad_norm": 0.3791372776031494,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.8672,
+      "step": 132
+    },
+    {
+      "epoch": 0.15523781733294426,
+      "grad_norm": 0.3701271712779999,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 0.7371,
+      "step": 133
+    },
+    {
+      "epoch": 0.15640501896702655,
+      "grad_norm": 0.3659634590148926,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.8235,
+      "step": 134
+    },
+    {
+      "epoch": 0.15757222060110884,
+      "grad_norm": 0.4024992287158966,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 0.9173,
+      "step": 135
+    },
+    {
+      "epoch": 0.15873942223519114,
+      "grad_norm": 0.42308032512664795,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.9053,
+      "step": 136
+    },
+    {
+      "epoch": 0.15990662386927343,
+      "grad_norm": 0.40175530314445496,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 0.8113,
+      "step": 137
+    },
+    {
+      "epoch": 0.1610738255033557,
+      "grad_norm": 0.36555033922195435,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.8684,
+      "step": 138
+    },
+    {
+      "epoch": 0.162241027137438,
+      "grad_norm": 0.3812856078147888,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 0.8385,
+      "step": 139
+    },
+    {
+      "epoch": 0.16340822877152028,
+      "grad_norm": 0.4847084879875183,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.0403,
+      "step": 140
+    },
+    {
+      "epoch": 0.16457543040560257,
+      "grad_norm": 0.35007935762405396,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 0.7455,
+      "step": 141
+    },
+    {
+      "epoch": 0.16574263203968487,
+      "grad_norm": 0.41641098260879517,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.7863,
+      "step": 142
+    },
+    {
+      "epoch": 0.16690983367376713,
+      "grad_norm": 0.27946096658706665,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 0.6836,
+      "step": 143
+    },
+    {
+      "epoch": 0.16807703530784943,
+      "grad_norm": 0.2813800573348999,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.5916,
+      "step": 144
+    },
+    {
+      "epoch": 0.16924423694193172,
+      "grad_norm": 0.24183239042758942,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 0.6092,
+      "step": 145
+    },
+    {
+      "epoch": 0.170411438576014,
+      "grad_norm": 0.2797646224498749,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.5887,
+      "step": 146
+    },
+    {
+      "epoch": 0.1715786402100963,
+      "grad_norm": 0.27872341871261597,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 0.6105,
+      "step": 147
+    },
+    {
+      "epoch": 0.17274584184417857,
+      "grad_norm": 0.2950071394443512,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.6768,
+      "step": 148
+    },
+    {
+      "epoch": 0.17391304347826086,
+      "grad_norm": 0.24491213262081146,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 0.6329,
+      "step": 149
+    },
+    {
+      "epoch": 0.17508024511234316,
+      "grad_norm": 0.3210446536540985,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.661,
+      "step": 150
+    },
+    {
+      "epoch": 0.17508024511234316,
+      "eval_loss": 0.7759228944778442,
+      "eval_runtime": 131.4518,
+      "eval_samples_per_second": 10.977,
+      "eval_steps_per_second": 5.493,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.6019698699626086e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null