Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff9fb6fdd06c0354c57032442050ed03a37c280be2c4f704ee62f9cc62899fd8
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0f78277002de0a0c826cab7407827311c655ca894cf49702964bbe9e4aed7c1
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d4c67e2656b06ef142d745ee0d6907c5eb126b85d60ded9e612aebd711d73c5
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:69e81116bc4f36a9e18f495e6432531ff08fb189109af0d65c178e17eeab1559
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:435ebe9f67fe8be3959a9ab7877acd7468708d2ee3e5fa8995d392ccb5057b4a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a7959d547f47b0ab48adc46b73e7b9a87135e746b11e67f6fe3c011584ba83e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c41bb450efe89fd65fecb2593939b817f9b2794a5d87a632ad90e5ebc9b592b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:48a1533051e4bee653afc683a4359c329f95831c0354ae8442616cabf80d0caa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5977502465248108,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.01015950421619425,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 7.986,
       "eval_steps_per_second": 1.998,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.829574095444378e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5625200271606445,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.015239256324291375,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.986,
       "eval_steps_per_second": 1.998,
       "step": 100
+    },
+    {
+      "epoch": 0.010261099258356192,
+      "grad_norm": 1.7353254556655884,
+      "learning_rate": 5.2157368421052626e-05,
+      "loss": 0.6462,
+      "step": 101
+    },
+    {
+      "epoch": 0.010362694300518135,
+      "grad_norm": 1.8115421533584595,
+      "learning_rate": 5.163052631578947e-05,
+      "loss": 0.7568,
+      "step": 102
+    },
+    {
+      "epoch": 0.010464289342680077,
+      "grad_norm": 2.0411505699157715,
+      "learning_rate": 5.110368421052632e-05,
+      "loss": 0.8423,
+      "step": 103
+    },
+    {
+      "epoch": 0.01056588438484202,
+      "grad_norm": 1.840236783027649,
+      "learning_rate": 5.057684210526316e-05,
+      "loss": 0.6614,
+      "step": 104
+    },
+    {
+      "epoch": 0.010667479427003962,
+      "grad_norm": 2.0278501510620117,
+      "learning_rate": 5.005e-05,
+      "loss": 0.9404,
+      "step": 105
+    },
+    {
+      "epoch": 0.010769074469165904,
+      "grad_norm": 2.038224935531616,
+      "learning_rate": 4.9523157894736836e-05,
+      "loss": 0.7997,
+      "step": 106
+    },
+    {
+      "epoch": 0.010870669511327848,
+      "grad_norm": 1.961540937423706,
+      "learning_rate": 4.899631578947368e-05,
+      "loss": 0.88,
+      "step": 107
+    },
+    {
+      "epoch": 0.01097226455348979,
+      "grad_norm": 1.8542038202285767,
+      "learning_rate": 4.846947368421052e-05,
+      "loss": 0.7586,
+      "step": 108
+    },
+    {
+      "epoch": 0.011073859595651733,
+      "grad_norm": 2.5004920959472656,
+      "learning_rate": 4.794263157894737e-05,
+      "loss": 1.1421,
+      "step": 109
+    },
+    {
+      "epoch": 0.011175454637813675,
+      "grad_norm": 2.2767207622528076,
+      "learning_rate": 4.7415789473684206e-05,
+      "loss": 0.8825,
+      "step": 110
+    },
+    {
+      "epoch": 0.011277049679975617,
+      "grad_norm": 2.6416478157043457,
+      "learning_rate": 4.688894736842105e-05,
+      "loss": 1.0648,
+      "step": 111
+    },
+    {
+      "epoch": 0.01137864472213756,
+      "grad_norm": 2.6188547611236572,
+      "learning_rate": 4.636210526315789e-05,
+      "loss": 1.0757,
+      "step": 112
+    },
+    {
+      "epoch": 0.011480239764299502,
+      "grad_norm": 2.7085273265838623,
+      "learning_rate": 4.583526315789473e-05,
+      "loss": 1.0747,
+      "step": 113
+    },
+    {
+      "epoch": 0.011581834806461445,
+      "grad_norm": 2.96585750579834,
+      "learning_rate": 4.530842105263158e-05,
+      "loss": 1.1136,
+      "step": 114
+    },
+    {
+      "epoch": 0.011683429848623387,
+      "grad_norm": 3.3075642585754395,
+      "learning_rate": 4.4781578947368416e-05,
+      "loss": 1.1926,
+      "step": 115
+    },
+    {
+      "epoch": 0.011785024890785329,
+      "grad_norm": 2.8126935958862305,
+      "learning_rate": 4.425473684210526e-05,
+      "loss": 1.2221,
+      "step": 116
+    },
+    {
+      "epoch": 0.011886619932947273,
+      "grad_norm": 2.7019283771514893,
+      "learning_rate": 4.372789473684211e-05,
+      "loss": 1.0727,
+      "step": 117
+    },
+    {
+      "epoch": 0.011988214975109214,
+      "grad_norm": 3.095580577850342,
+      "learning_rate": 4.320105263157895e-05,
+      "loss": 1.0674,
+      "step": 118
+    },
+    {
+      "epoch": 0.012089810017271158,
+      "grad_norm": 3.138235330581665,
+      "learning_rate": 4.2674210526315786e-05,
+      "loss": 1.3973,
+      "step": 119
+    },
+    {
+      "epoch": 0.0121914050594331,
+      "grad_norm": 2.981416702270508,
+      "learning_rate": 4.2147368421052626e-05,
+      "loss": 1.2259,
+      "step": 120
+    },
+    {
+      "epoch": 0.012293000101595042,
+      "grad_norm": 2.793827772140503,
+      "learning_rate": 4.162052631578947e-05,
+      "loss": 1.1706,
+      "step": 121
+    },
+    {
+      "epoch": 0.012394595143756985,
+      "grad_norm": 3.055459976196289,
+      "learning_rate": 4.109368421052631e-05,
+      "loss": 1.1658,
+      "step": 122
+    },
+    {
+      "epoch": 0.012496190185918927,
+      "grad_norm": 2.991947889328003,
+      "learning_rate": 4.056684210526316e-05,
+      "loss": 1.1881,
+      "step": 123
+    },
+    {
+      "epoch": 0.01259778522808087,
+      "grad_norm": 2.9653897285461426,
+      "learning_rate": 4.004e-05,
+      "loss": 1.1678,
+      "step": 124
+    },
+    {
+      "epoch": 0.012699380270242812,
+      "grad_norm": 2.954136371612549,
+      "learning_rate": 3.951315789473684e-05,
+      "loss": 1.0478,
+      "step": 125
+    },
+    {
+      "epoch": 0.012800975312404754,
+      "grad_norm": 3.4325461387634277,
+      "learning_rate": 3.898631578947368e-05,
+      "loss": 1.2497,
+      "step": 126
+    },
+    {
+      "epoch": 0.012902570354566698,
+      "grad_norm": 4.589744567871094,
+      "learning_rate": 3.845947368421052e-05,
+      "loss": 1.2284,
+      "step": 127
+    },
+    {
+      "epoch": 0.01300416539672864,
+      "grad_norm": 3.4360063076019287,
+      "learning_rate": 3.7932631578947367e-05,
+      "loss": 1.1895,
+      "step": 128
+    },
+    {
+      "epoch": 0.013105760438890583,
+      "grad_norm": 3.6225502490997314,
+      "learning_rate": 3.7405789473684206e-05,
+      "loss": 1.182,
+      "step": 129
+    },
+    {
+      "epoch": 0.013207355481052525,
+      "grad_norm": 3.9139211177825928,
+      "learning_rate": 3.6878947368421045e-05,
+      "loss": 1.4435,
+      "step": 130
+    },
+    {
+      "epoch": 0.013308950523214466,
+      "grad_norm": 3.7881407737731934,
+      "learning_rate": 3.635210526315789e-05,
+      "loss": 1.1918,
+      "step": 131
+    },
+    {
+      "epoch": 0.01341054556537641,
+      "grad_norm": 3.863058567047119,
+      "learning_rate": 3.582526315789474e-05,
+      "loss": 1.1332,
+      "step": 132
+    },
+    {
+      "epoch": 0.013512140607538352,
+      "grad_norm": 3.9372336864471436,
+      "learning_rate": 3.5298421052631576e-05,
+      "loss": 1.0857,
+      "step": 133
+    },
+    {
+      "epoch": 0.013613735649700295,
+      "grad_norm": 4.330385684967041,
+      "learning_rate": 3.477157894736842e-05,
+      "loss": 1.1804,
+      "step": 134
+    },
+    {
+      "epoch": 0.013715330691862237,
+      "grad_norm": 4.239872455596924,
+      "learning_rate": 3.424473684210526e-05,
+      "loss": 1.2745,
+      "step": 135
+    },
+    {
+      "epoch": 0.013816925734024179,
+      "grad_norm": 4.237067699432373,
+      "learning_rate": 3.37178947368421e-05,
+      "loss": 1.0984,
+      "step": 136
+    },
+    {
+      "epoch": 0.013918520776186123,
+      "grad_norm": 4.873085975646973,
+      "learning_rate": 3.319105263157894e-05,
+      "loss": 1.4904,
+      "step": 137
+    },
+    {
+      "epoch": 0.014020115818348064,
+      "grad_norm": 5.1811842918396,
+      "learning_rate": 3.2664210526315786e-05,
+      "loss": 1.3309,
+      "step": 138
+    },
+    {
+      "epoch": 0.014121710860510008,
+      "grad_norm": 5.059803009033203,
+      "learning_rate": 3.213736842105263e-05,
+      "loss": 1.1333,
+      "step": 139
+    },
+    {
+      "epoch": 0.01422330590267195,
+      "grad_norm": 5.975893974304199,
+      "learning_rate": 3.161052631578947e-05,
+      "loss": 1.387,
+      "step": 140
+    },
+    {
+      "epoch": 0.014324900944833891,
+      "grad_norm": 6.209765911102295,
+      "learning_rate": 3.108368421052632e-05,
+      "loss": 1.681,
+      "step": 141
+    },
+    {
+      "epoch": 0.014426495986995835,
+      "grad_norm": 5.893293857574463,
+      "learning_rate": 3.0556842105263156e-05,
+      "loss": 1.4305,
+      "step": 142
+    },
+    {
+      "epoch": 0.014528091029157777,
+      "grad_norm": 8.19773006439209,
+      "learning_rate": 3.0029999999999995e-05,
+      "loss": 1.5269,
+      "step": 143
+    },
+    {
+      "epoch": 0.01462968607131972,
+      "grad_norm": 7.0231547355651855,
+      "learning_rate": 2.9503157894736838e-05,
+      "loss": 1.4278,
+      "step": 144
+    },
+    {
+      "epoch": 0.014731281113481662,
+      "grad_norm": 6.790130615234375,
+      "learning_rate": 2.8976315789473684e-05,
+      "loss": 1.2506,
+      "step": 145
+    },
+    {
+      "epoch": 0.014832876155643604,
+      "grad_norm": 6.087902069091797,
+      "learning_rate": 2.8449473684210523e-05,
+      "loss": 0.8843,
+      "step": 146
+    },
+    {
+      "epoch": 0.014934471197805547,
+      "grad_norm": 7.544525623321533,
+      "learning_rate": 2.7922631578947366e-05,
+      "loss": 0.9716,
+      "step": 147
+    },
+    {
+      "epoch": 0.01503606623996749,
+      "grad_norm": 7.611911296844482,
+      "learning_rate": 2.7395789473684212e-05,
+      "loss": 1.0314,
+      "step": 148
+    },
+    {
+      "epoch": 0.015137661282129433,
+      "grad_norm": 8.211386680603027,
+      "learning_rate": 2.686894736842105e-05,
+      "loss": 0.9311,
+      "step": 149
+    },
+    {
+      "epoch": 0.015239256324291375,
+      "grad_norm": 12.661590576171875,
+      "learning_rate": 2.634210526315789e-05,
+      "loss": 0.8717,
+      "step": 150
+    },
+    {
+      "epoch": 0.015239256324291375,
+      "eval_loss": 0.5625200271606445,
+      "eval_runtime": 517.8623,
+      "eval_samples_per_second": 8.004,
+      "eval_steps_per_second": 2.002,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.762256349220045e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null