eageringdev commited on
Commit
9adb1cc
·
verified ·
1 Parent(s): 781d7ef

Training in progress, step 1086, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:544feb3198e973022c92dab56d16da62de9088ddc291d23c45f672d88495f016
3
  size 83945296
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:88370438c3fb2fecf65fd750af4a03bf5f63eb1354b5481793ee4f9aeb92bd06
3
  size 83945296
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fde53799e7376bae44103951e04ef1dd8ae1318b49f9347de877cd34dc4df456
3
  size 43123028
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9a3990a4c3e5ea0f10f28a5d04aa62ecb13d73ed3ed8c2181400ffff52acc448
3
  size 43123028
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a7cf24036968dbe775ce7493c2a5c1811c1780108d0e2e8e8dda3107aa3e438a
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:41e93eafb8f356ab0d33451ccddeebc13394ebcc53d8a0bb20320cc9b3964fd6
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:095ddcc373bdfeface1ecc26385db1af758885365a4316af248e83a21f6fd693
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d45b5f7992d5087f5d2cf4cd5a994915b8d54450a1e6c7da016ce466b6e8c4a1
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.41940622737146993,
5
  "eval_steps": 362,
6
- "global_step": 724,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5099,6 +5099,2548 @@
5099
  "eval_samples_per_second": 29.757,
5100
  "eval_steps_per_second": 14.899,
5101
  "step": 724
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5102
  }
5103
  ],
5104
  "logging_steps": 1,
@@ -5118,7 +7660,7 @@
5118
  "attributes": {}
5119
  }
5120
  },
5121
- "total_flos": 1.3585049402631782e+17,
5122
  "train_batch_size": 2,
5123
  "trial_name": null,
5124
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.629109341057205,
5
  "eval_steps": 362,
6
+ "global_step": 1086,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5099
  "eval_samples_per_second": 29.757,
5100
  "eval_steps_per_second": 14.899,
5101
  "step": 724
5102
+ },
5103
+ {
5104
+ "epoch": 0.41998551774076753,
5105
+ "grad_norm": 4.330077648162842,
5106
+ "learning_rate": 0.00010087386722348325,
5107
+ "loss": 0.6861,
5108
+ "step": 725
5109
+ },
5110
+ {
5111
+ "epoch": 0.4205648081100652,
5112
+ "grad_norm": 1.6572608947753906,
5113
+ "learning_rate": 0.00010065540406715483,
5114
+ "loss": 0.1448,
5115
+ "step": 726
5116
+ },
5117
+ {
5118
+ "epoch": 0.4211440984793628,
5119
+ "grad_norm": 1.9755557775497437,
5120
+ "learning_rate": 0.00010043693778265219,
5121
+ "loss": 0.2074,
5122
+ "step": 727
5123
+ },
5124
+ {
5125
+ "epoch": 0.4217233888486604,
5126
+ "grad_norm": 1.481980800628662,
5127
+ "learning_rate": 0.00010021846941269179,
5128
+ "loss": 0.1057,
5129
+ "step": 728
5130
+ },
5131
+ {
5132
+ "epoch": 0.422302679217958,
5133
+ "grad_norm": 1.5745717287063599,
5134
+ "learning_rate": 0.0001,
5135
+ "loss": 0.1283,
5136
+ "step": 729
5137
+ },
5138
+ {
5139
+ "epoch": 0.4228819695872556,
5140
+ "grad_norm": 2.2418360710144043,
5141
+ "learning_rate": 9.978153058730823e-05,
5142
+ "loss": 0.2794,
5143
+ "step": 730
5144
+ },
5145
+ {
5146
+ "epoch": 0.4234612599565532,
5147
+ "grad_norm": 2.879293441772461,
5148
+ "learning_rate": 9.956306221734782e-05,
5149
+ "loss": 0.1824,
5150
+ "step": 731
5151
+ },
5152
+ {
5153
+ "epoch": 0.4240405503258508,
5154
+ "grad_norm": 2.3594748973846436,
5155
+ "learning_rate": 9.934459593284517e-05,
5156
+ "loss": 0.2136,
5157
+ "step": 732
5158
+ },
5159
+ {
5160
+ "epoch": 0.42461984069514846,
5161
+ "grad_norm": 2.092688798904419,
5162
+ "learning_rate": 9.912613277651676e-05,
5163
+ "loss": 0.1288,
5164
+ "step": 733
5165
+ },
5166
+ {
5167
+ "epoch": 0.42519913106444607,
5168
+ "grad_norm": 3.732053756713867,
5169
+ "learning_rate": 9.89076737910641e-05,
5170
+ "loss": 0.4913,
5171
+ "step": 734
5172
+ },
5173
+ {
5174
+ "epoch": 0.42577842143374367,
5175
+ "grad_norm": 2.177419900894165,
5176
+ "learning_rate": 9.868922001916877e-05,
5177
+ "loss": 0.2712,
5178
+ "step": 735
5179
+ },
5180
+ {
5181
+ "epoch": 0.4263577118030413,
5182
+ "grad_norm": 1.897555947303772,
5183
+ "learning_rate": 9.847077250348749e-05,
5184
+ "loss": 0.267,
5185
+ "step": 736
5186
+ },
5187
+ {
5188
+ "epoch": 0.4269370021723389,
5189
+ "grad_norm": 1.8367071151733398,
5190
+ "learning_rate": 9.825233228664715e-05,
5191
+ "loss": 0.0813,
5192
+ "step": 737
5193
+ },
5194
+ {
5195
+ "epoch": 0.4275162925416365,
5196
+ "grad_norm": 2.8897194862365723,
5197
+ "learning_rate": 9.803390041123979e-05,
5198
+ "loss": 0.4995,
5199
+ "step": 738
5200
+ },
5201
+ {
5202
+ "epoch": 0.4280955829109341,
5203
+ "grad_norm": 3.664484739303589,
5204
+ "learning_rate": 9.781547791981758e-05,
5205
+ "loss": 1.0554,
5206
+ "step": 739
5207
+ },
5208
+ {
5209
+ "epoch": 0.42867487328023174,
5210
+ "grad_norm": 3.2397992610931396,
5211
+ "learning_rate": 9.759706585488797e-05,
5212
+ "loss": 0.5773,
5213
+ "step": 740
5214
+ },
5215
+ {
5216
+ "epoch": 0.42925416364952934,
5217
+ "grad_norm": 1.5391981601715088,
5218
+ "learning_rate": 9.737866525890863e-05,
5219
+ "loss": 0.2097,
5220
+ "step": 741
5221
+ },
5222
+ {
5223
+ "epoch": 0.42983345401882694,
5224
+ "grad_norm": 1.8281755447387695,
5225
+ "learning_rate": 9.716027717428243e-05,
5226
+ "loss": 0.2781,
5227
+ "step": 742
5228
+ },
5229
+ {
5230
+ "epoch": 0.43041274438812455,
5231
+ "grad_norm": 3.814570188522339,
5232
+ "learning_rate": 9.694190264335266e-05,
5233
+ "loss": 0.4264,
5234
+ "step": 743
5235
+ },
5236
+ {
5237
+ "epoch": 0.43099203475742215,
5238
+ "grad_norm": 1.9860742092132568,
5239
+ "learning_rate": 9.672354270839778e-05,
5240
+ "loss": 0.2837,
5241
+ "step": 744
5242
+ },
5243
+ {
5244
+ "epoch": 0.43157132512671975,
5245
+ "grad_norm": 2.617427110671997,
5246
+ "learning_rate": 9.650519841162666e-05,
5247
+ "loss": 0.4266,
5248
+ "step": 745
5249
+ },
5250
+ {
5251
+ "epoch": 0.43215061549601735,
5252
+ "grad_norm": 2.1865363121032715,
5253
+ "learning_rate": 9.628687079517348e-05,
5254
+ "loss": 0.3272,
5255
+ "step": 746
5256
+ },
5257
+ {
5258
+ "epoch": 0.432729905865315,
5259
+ "grad_norm": 2.159600257873535,
5260
+ "learning_rate": 9.60685609010929e-05,
5261
+ "loss": 0.1331,
5262
+ "step": 747
5263
+ },
5264
+ {
5265
+ "epoch": 0.4333091962346126,
5266
+ "grad_norm": 1.6754506826400757,
5267
+ "learning_rate": 9.585026977135487e-05,
5268
+ "loss": 0.1101,
5269
+ "step": 748
5270
+ },
5271
+ {
5272
+ "epoch": 0.4338884866039102,
5273
+ "grad_norm": 1.5430821180343628,
5274
+ "learning_rate": 9.563199844783987e-05,
5275
+ "loss": 0.1776,
5276
+ "step": 749
5277
+ },
5278
+ {
5279
+ "epoch": 0.4344677769732078,
5280
+ "grad_norm": 2.8259193897247314,
5281
+ "learning_rate": 9.541374797233381e-05,
5282
+ "loss": 0.4059,
5283
+ "step": 750
5284
+ },
5285
+ {
5286
+ "epoch": 0.4350470673425054,
5287
+ "grad_norm": 2.681009292602539,
5288
+ "learning_rate": 9.519551938652307e-05,
5289
+ "loss": 0.3884,
5290
+ "step": 751
5291
+ },
5292
+ {
5293
+ "epoch": 0.435626357711803,
5294
+ "grad_norm": 1.899491310119629,
5295
+ "learning_rate": 9.497731373198966e-05,
5296
+ "loss": 0.2038,
5297
+ "step": 752
5298
+ },
5299
+ {
5300
+ "epoch": 0.4362056480811006,
5301
+ "grad_norm": 3.2308342456817627,
5302
+ "learning_rate": 9.475913205020601e-05,
5303
+ "loss": 0.3621,
5304
+ "step": 753
5305
+ },
5306
+ {
5307
+ "epoch": 0.4367849384503983,
5308
+ "grad_norm": 3.4386329650878906,
5309
+ "learning_rate": 9.45409753825302e-05,
5310
+ "loss": 0.3119,
5311
+ "step": 754
5312
+ },
5313
+ {
5314
+ "epoch": 0.4373642288196959,
5315
+ "grad_norm": 2.312267303466797,
5316
+ "learning_rate": 9.432284477020086e-05,
5317
+ "loss": 0.2877,
5318
+ "step": 755
5319
+ },
5320
+ {
5321
+ "epoch": 0.4379435191889935,
5322
+ "grad_norm": 0.9429482817649841,
5323
+ "learning_rate": 9.41047412543324e-05,
5324
+ "loss": 0.0736,
5325
+ "step": 756
5326
+ },
5327
+ {
5328
+ "epoch": 0.4385228095582911,
5329
+ "grad_norm": 2.079658269882202,
5330
+ "learning_rate": 9.388666587590977e-05,
5331
+ "loss": 0.2138,
5332
+ "step": 757
5333
+ },
5334
+ {
5335
+ "epoch": 0.4391020999275887,
5336
+ "grad_norm": 2.0186920166015625,
5337
+ "learning_rate": 9.366861967578364e-05,
5338
+ "loss": 0.2668,
5339
+ "step": 758
5340
+ },
5341
+ {
5342
+ "epoch": 0.4396813902968863,
5343
+ "grad_norm": 1.2216030359268188,
5344
+ "learning_rate": 9.345060369466543e-05,
5345
+ "loss": 0.0946,
5346
+ "step": 759
5347
+ },
5348
+ {
5349
+ "epoch": 0.4402606806661839,
5350
+ "grad_norm": 2.7688989639282227,
5351
+ "learning_rate": 9.323261897312238e-05,
5352
+ "loss": 0.2123,
5353
+ "step": 760
5354
+ },
5355
+ {
5356
+ "epoch": 0.44083997103548156,
5357
+ "grad_norm": 2.861898422241211,
5358
+ "learning_rate": 9.301466655157247e-05,
5359
+ "loss": 0.4286,
5360
+ "step": 761
5361
+ },
5362
+ {
5363
+ "epoch": 0.44141926140477916,
5364
+ "grad_norm": 1.6773964166641235,
5365
+ "learning_rate": 9.279674747027952e-05,
5366
+ "loss": 0.2269,
5367
+ "step": 762
5368
+ },
5369
+ {
5370
+ "epoch": 0.44199855177407676,
5371
+ "grad_norm": 2.697532892227173,
5372
+ "learning_rate": 9.257886276934821e-05,
5373
+ "loss": 0.3912,
5374
+ "step": 763
5375
+ },
5376
+ {
5377
+ "epoch": 0.44257784214337437,
5378
+ "grad_norm": 2.0737850666046143,
5379
+ "learning_rate": 9.236101348871921e-05,
5380
+ "loss": 0.249,
5381
+ "step": 764
5382
+ },
5383
+ {
5384
+ "epoch": 0.44315713251267197,
5385
+ "grad_norm": 2.5787010192871094,
5386
+ "learning_rate": 9.214320066816403e-05,
5387
+ "loss": 0.3523,
5388
+ "step": 765
5389
+ },
5390
+ {
5391
+ "epoch": 0.44373642288196957,
5392
+ "grad_norm": 2.724083662033081,
5393
+ "learning_rate": 9.192542534728021e-05,
5394
+ "loss": 0.24,
5395
+ "step": 766
5396
+ },
5397
+ {
5398
+ "epoch": 0.4443157132512672,
5399
+ "grad_norm": 2.9584672451019287,
5400
+ "learning_rate": 9.170768856548627e-05,
5401
+ "loss": 0.2859,
5402
+ "step": 767
5403
+ },
5404
+ {
5405
+ "epoch": 0.44489500362056483,
5406
+ "grad_norm": 4.675621509552002,
5407
+ "learning_rate": 9.148999136201686e-05,
5408
+ "loss": 0.9754,
5409
+ "step": 768
5410
+ },
5411
+ {
5412
+ "epoch": 0.44547429398986244,
5413
+ "grad_norm": 2.282618522644043,
5414
+ "learning_rate": 9.127233477591766e-05,
5415
+ "loss": 0.1427,
5416
+ "step": 769
5417
+ },
5418
+ {
5419
+ "epoch": 0.44605358435916004,
5420
+ "grad_norm": 2.7693891525268555,
5421
+ "learning_rate": 9.105471984604055e-05,
5422
+ "loss": 0.2272,
5423
+ "step": 770
5424
+ },
5425
+ {
5426
+ "epoch": 0.44663287472845764,
5427
+ "grad_norm": 2.5014052391052246,
5428
+ "learning_rate": 9.08371476110385e-05,
5429
+ "loss": 0.2995,
5430
+ "step": 771
5431
+ },
5432
+ {
5433
+ "epoch": 0.44721216509775524,
5434
+ "grad_norm": 3.3536150455474854,
5435
+ "learning_rate": 9.061961910936078e-05,
5436
+ "loss": 1.0005,
5437
+ "step": 772
5438
+ },
5439
+ {
5440
+ "epoch": 0.44779145546705285,
5441
+ "grad_norm": 2.182767629623413,
5442
+ "learning_rate": 9.040213537924788e-05,
5443
+ "loss": 0.2987,
5444
+ "step": 773
5445
+ },
5446
+ {
5447
+ "epoch": 0.44837074583635045,
5448
+ "grad_norm": 3.0148394107818604,
5449
+ "learning_rate": 9.018469745872661e-05,
5450
+ "loss": 0.3368,
5451
+ "step": 774
5452
+ },
5453
+ {
5454
+ "epoch": 0.4489500362056481,
5455
+ "grad_norm": 3.7020537853240967,
5456
+ "learning_rate": 8.996730638560519e-05,
5457
+ "loss": 0.6397,
5458
+ "step": 775
5459
+ },
5460
+ {
5461
+ "epoch": 0.4495293265749457,
5462
+ "grad_norm": 1.8903841972351074,
5463
+ "learning_rate": 8.974996319746814e-05,
5464
+ "loss": 0.1667,
5465
+ "step": 776
5466
+ },
5467
+ {
5468
+ "epoch": 0.4501086169442433,
5469
+ "grad_norm": 2.55179762840271,
5470
+ "learning_rate": 8.953266893167153e-05,
5471
+ "loss": 0.4118,
5472
+ "step": 777
5473
+ },
5474
+ {
5475
+ "epoch": 0.4506879073135409,
5476
+ "grad_norm": 2.1008896827697754,
5477
+ "learning_rate": 8.931542462533783e-05,
5478
+ "loss": 0.3604,
5479
+ "step": 778
5480
+ },
5481
+ {
5482
+ "epoch": 0.4512671976828385,
5483
+ "grad_norm": 1.8134448528289795,
5484
+ "learning_rate": 8.909823131535117e-05,
5485
+ "loss": 0.2495,
5486
+ "step": 779
5487
+ },
5488
+ {
5489
+ "epoch": 0.4518464880521361,
5490
+ "grad_norm": 1.7121368646621704,
5491
+ "learning_rate": 8.88810900383522e-05,
5492
+ "loss": 0.265,
5493
+ "step": 780
5494
+ },
5495
+ {
5496
+ "epoch": 0.4524257784214337,
5497
+ "grad_norm": 2.0966012477874756,
5498
+ "learning_rate": 8.866400183073323e-05,
5499
+ "loss": 0.1536,
5500
+ "step": 781
5501
+ },
5502
+ {
5503
+ "epoch": 0.4530050687907314,
5504
+ "grad_norm": 2.6180903911590576,
5505
+ "learning_rate": 8.84469677286333e-05,
5506
+ "loss": 0.2901,
5507
+ "step": 782
5508
+ },
5509
+ {
5510
+ "epoch": 0.453584359160029,
5511
+ "grad_norm": 1.5925201177597046,
5512
+ "learning_rate": 8.822998876793322e-05,
5513
+ "loss": 0.1286,
5514
+ "step": 783
5515
+ },
5516
+ {
5517
+ "epoch": 0.4541636495293266,
5518
+ "grad_norm": 2.3173744678497314,
5519
+ "learning_rate": 8.801306598425059e-05,
5520
+ "loss": 0.1561,
5521
+ "step": 784
5522
+ },
5523
+ {
5524
+ "epoch": 0.4547429398986242,
5525
+ "grad_norm": 3.445146322250366,
5526
+ "learning_rate": 8.779620041293486e-05,
5527
+ "loss": 0.4528,
5528
+ "step": 785
5529
+ },
5530
+ {
5531
+ "epoch": 0.4553222302679218,
5532
+ "grad_norm": 3.779384136199951,
5533
+ "learning_rate": 8.757939308906248e-05,
5534
+ "loss": 0.2582,
5535
+ "step": 786
5536
+ },
5537
+ {
5538
+ "epoch": 0.4559015206372194,
5539
+ "grad_norm": 2.1341681480407715,
5540
+ "learning_rate": 8.73626450474318e-05,
5541
+ "loss": 0.2596,
5542
+ "step": 787
5543
+ },
5544
+ {
5545
+ "epoch": 0.456480811006517,
5546
+ "grad_norm": 1.8372859954833984,
5547
+ "learning_rate": 8.714595732255834e-05,
5548
+ "loss": 0.1585,
5549
+ "step": 788
5550
+ },
5551
+ {
5552
+ "epoch": 0.45706010137581465,
5553
+ "grad_norm": 1.5721983909606934,
5554
+ "learning_rate": 8.692933094866963e-05,
5555
+ "loss": 0.1551,
5556
+ "step": 789
5557
+ },
5558
+ {
5559
+ "epoch": 0.45763939174511226,
5560
+ "grad_norm": 2.166860580444336,
5561
+ "learning_rate": 8.671276695970043e-05,
5562
+ "loss": 0.3124,
5563
+ "step": 790
5564
+ },
5565
+ {
5566
+ "epoch": 0.45821868211440986,
5567
+ "grad_norm": 1.0890613794326782,
5568
+ "learning_rate": 8.649626638928766e-05,
5569
+ "loss": 0.0698,
5570
+ "step": 791
5571
+ },
5572
+ {
5573
+ "epoch": 0.45879797248370746,
5574
+ "grad_norm": 2.0683658123016357,
5575
+ "learning_rate": 8.627983027076573e-05,
5576
+ "loss": 0.3974,
5577
+ "step": 792
5578
+ },
5579
+ {
5580
+ "epoch": 0.45937726285300506,
5581
+ "grad_norm": 2.5842177867889404,
5582
+ "learning_rate": 8.606345963716126e-05,
5583
+ "loss": 0.2537,
5584
+ "step": 793
5585
+ },
5586
+ {
5587
+ "epoch": 0.45995655322230267,
5588
+ "grad_norm": 2.5562381744384766,
5589
+ "learning_rate": 8.584715552118842e-05,
5590
+ "loss": 0.5266,
5591
+ "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.46053584359160027,
5595
+ "grad_norm": 3.210618734359741,
5596
+ "learning_rate": 8.56309189552438e-05,
5597
+ "loss": 0.2998,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.4611151339608979,
5602
+ "grad_norm": 1.4088205099105835,
5603
+ "learning_rate": 8.541475097140167e-05,
5604
+ "loss": 0.0904,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.46169442433019553,
5609
+ "grad_norm": 1.8730751276016235,
5610
+ "learning_rate": 8.519865260140889e-05,
5611
+ "loss": 0.3828,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.46227371469949313,
5616
+ "grad_norm": 2.921869993209839,
5617
+ "learning_rate": 8.498262487668015e-05,
5618
+ "loss": 0.223,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.46285300506879073,
5623
+ "grad_norm": 2.3525073528289795,
5624
+ "learning_rate": 8.476666882829287e-05,
5625
+ "loss": 0.1754,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.46343229543808834,
5630
+ "grad_norm": 2.6007490158081055,
5631
+ "learning_rate": 8.455078548698243e-05,
5632
+ "loss": 0.263,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.46401158580738594,
5637
+ "grad_norm": 3.7595996856689453,
5638
+ "learning_rate": 8.433497588313714e-05,
5639
+ "loss": 0.3769,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.46459087617668354,
5644
+ "grad_norm": 3.7927472591400146,
5645
+ "learning_rate": 8.411924104679339e-05,
5646
+ "loss": 0.3231,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.4651701665459812,
5651
+ "grad_norm": 2.7741410732269287,
5652
+ "learning_rate": 8.390358200763076e-05,
5653
+ "loss": 0.2961,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.4657494569152788,
5658
+ "grad_norm": 2.110931158065796,
5659
+ "learning_rate": 8.368799979496694e-05,
5660
+ "loss": 0.122,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.4663287472845764,
5665
+ "grad_norm": 1.9475789070129395,
5666
+ "learning_rate": 8.347249543775303e-05,
5667
+ "loss": 0.2273,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.466908037653874,
5672
+ "grad_norm": 1.9266232252120972,
5673
+ "learning_rate": 8.325706996456854e-05,
5674
+ "loss": 0.124,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.4674873280231716,
5679
+ "grad_norm": 2.5791711807250977,
5680
+ "learning_rate": 8.304172440361642e-05,
5681
+ "loss": 0.5077,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.4680666183924692,
5686
+ "grad_norm": 2.490081548690796,
5687
+ "learning_rate": 8.282645978271823e-05,
5688
+ "loss": 0.246,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.4686459087617668,
5693
+ "grad_norm": 1.7749154567718506,
5694
+ "learning_rate": 8.261127712930923e-05,
5695
+ "loss": 0.333,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.4692251991310644,
5700
+ "grad_norm": 1.92875337600708,
5701
+ "learning_rate": 8.23961774704334e-05,
5702
+ "loss": 0.4749,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.4698044895003621,
5707
+ "grad_norm": 1.28525972366333,
5708
+ "learning_rate": 8.21811618327387e-05,
5709
+ "loss": 0.0999,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.4703837798696597,
5714
+ "grad_norm": 1.602352499961853,
5715
+ "learning_rate": 8.196623124247197e-05,
5716
+ "loss": 0.0745,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.4709630702389573,
5721
+ "grad_norm": 2.0801961421966553,
5722
+ "learning_rate": 8.175138672547415e-05,
5723
+ "loss": 0.2347,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.4715423606082549,
5728
+ "grad_norm": 2.410165786743164,
5729
+ "learning_rate": 8.153662930717538e-05,
5730
+ "loss": 0.1434,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.4721216509775525,
5735
+ "grad_norm": 1.8650652170181274,
5736
+ "learning_rate": 8.132196001259011e-05,
5737
+ "loss": 0.1641,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.4727009413468501,
5742
+ "grad_norm": 3.301302194595337,
5743
+ "learning_rate": 8.110737986631209e-05,
5744
+ "loss": 0.7476,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.4732802317161477,
5749
+ "grad_norm": 2.4830920696258545,
5750
+ "learning_rate": 8.089288989250972e-05,
5751
+ "loss": 0.3828,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.47385952208544535,
5756
+ "grad_norm": 3.1074888706207275,
5757
+ "learning_rate": 8.06784911149209e-05,
5758
+ "loss": 0.3676,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.47443881245474295,
5763
+ "grad_norm": 1.4939327239990234,
5764
+ "learning_rate": 8.046418455684827e-05,
5765
+ "loss": 0.0815,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.47501810282404056,
5770
+ "grad_norm": 2.0348119735717773,
5771
+ "learning_rate": 8.024997124115437e-05,
5772
+ "loss": 0.2416,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.47559739319333816,
5777
+ "grad_norm": 1.92427659034729,
5778
+ "learning_rate": 8.003585219025666e-05,
5779
+ "loss": 0.0939,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.47617668356263576,
5784
+ "grad_norm": 1.8372902870178223,
5785
+ "learning_rate": 7.982182842612274e-05,
5786
+ "loss": 0.1303,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.47675597393193336,
5791
+ "grad_norm": 1.8634800910949707,
5792
+ "learning_rate": 7.960790097026531e-05,
5793
+ "loss": 0.0993,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.47733526430123097,
5798
+ "grad_norm": 2.8979063034057617,
5799
+ "learning_rate": 7.939407084373751e-05,
5800
+ "loss": 0.1954,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.4779145546705286,
5805
+ "grad_norm": 3.0793609619140625,
5806
+ "learning_rate": 7.91803390671279e-05,
5807
+ "loss": 0.3532,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.4784938450398262,
5812
+ "grad_norm": 2.3782129287719727,
5813
+ "learning_rate": 7.89667066605556e-05,
5814
+ "loss": 0.1652,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.47907313540912383,
5819
+ "grad_norm": 1.3281863927841187,
5820
+ "learning_rate": 7.875317464366548e-05,
5821
+ "loss": 0.1078,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.47965242577842143,
5826
+ "grad_norm": 0.7168323397636414,
5827
+ "learning_rate": 7.853974403562323e-05,
5828
+ "loss": 0.0436,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.48023171614771903,
5833
+ "grad_norm": 4.326037406921387,
5834
+ "learning_rate": 7.832641585511054e-05,
5835
+ "loss": 0.3731,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.48081100651701664,
5840
+ "grad_norm": 2.2524211406707764,
5841
+ "learning_rate": 7.811319112032027e-05,
5842
+ "loss": 0.1654,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.48139029688631424,
5847
+ "grad_norm": 1.8576236963272095,
5848
+ "learning_rate": 7.790007084895148e-05,
5849
+ "loss": 0.2108,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.4819695872556119,
5854
+ "grad_norm": 1.5746654272079468,
5855
+ "learning_rate": 7.768705605820466e-05,
5856
+ "loss": 0.1205,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.4825488776249095,
5861
+ "grad_norm": 3.4119744300842285,
5862
+ "learning_rate": 7.747414776477684e-05,
5863
+ "loss": 0.2162,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.4831281679942071,
5868
+ "grad_norm": 2.5503008365631104,
5869
+ "learning_rate": 7.726134698485679e-05,
5870
+ "loss": 0.1854,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.4837074583635047,
5875
+ "grad_norm": 2.870460033416748,
5876
+ "learning_rate": 7.704865473412008e-05,
5877
+ "loss": 0.4803,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.4842867487328023,
5882
+ "grad_norm": 3.056009292602539,
5883
+ "learning_rate": 7.683607202772433e-05,
5884
+ "loss": 0.5905,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.4848660391020999,
5889
+ "grad_norm": 1.2388354539871216,
5890
+ "learning_rate": 7.662359988030425e-05,
5891
+ "loss": 0.117,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.4854453294713975,
5896
+ "grad_norm": 3.5667262077331543,
5897
+ "learning_rate": 7.641123930596693e-05,
5898
+ "loss": 1.0978,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.48602461984069517,
5903
+ "grad_norm": 2.819366693496704,
5904
+ "learning_rate": 7.619899131828692e-05,
5905
+ "loss": 0.1469,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.4866039102099928,
5910
+ "grad_norm": 2.320831537246704,
5911
+ "learning_rate": 7.598685693030136e-05,
5912
+ "loss": 0.3762,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.4871832005792904,
5917
+ "grad_norm": 2.2693238258361816,
5918
+ "learning_rate": 7.57748371545052e-05,
5919
+ "loss": 0.1933,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.487762490948588,
5924
+ "grad_norm": 2.3183560371398926,
5925
+ "learning_rate": 7.556293300284647e-05,
5926
+ "loss": 0.3893,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.4883417813178856,
5931
+ "grad_norm": 2.0969479084014893,
5932
+ "learning_rate": 7.535114548672119e-05,
5933
+ "loss": 0.1605,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.4889210716871832,
5938
+ "grad_norm": 2.917405366897583,
5939
+ "learning_rate": 7.513947561696877e-05,
5940
+ "loss": 0.5537,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.4895003620564808,
5945
+ "grad_norm": 2.151308536529541,
5946
+ "learning_rate": 7.492792440386709e-05,
5947
+ "loss": 0.2524,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.49007965242577844,
5952
+ "grad_norm": 1.4771618843078613,
5953
+ "learning_rate": 7.471649285712768e-05,
5954
+ "loss": 0.067,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.49065894279507605,
5959
+ "grad_norm": 3.089982032775879,
5960
+ "learning_rate": 7.450518198589092e-05,
5961
+ "loss": 0.3612,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.49123823316437365,
5966
+ "grad_norm": 1.8487430810928345,
5967
+ "learning_rate": 7.429399279872122e-05,
5968
+ "loss": 0.2427,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.49181752353367125,
5973
+ "grad_norm": 1.7247542142868042,
5974
+ "learning_rate": 7.408292630360225e-05,
5975
+ "loss": 0.1942,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.49239681390296886,
5980
+ "grad_norm": 2.6909584999084473,
5981
+ "learning_rate": 7.387198350793201e-05,
5982
+ "loss": 0.5139,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.49297610427226646,
5987
+ "grad_norm": 2.2064802646636963,
5988
+ "learning_rate": 7.366116541851814e-05,
5989
+ "loss": 0.3613,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.49355539464156406,
5994
+ "grad_norm": 3.2793684005737305,
5995
+ "learning_rate": 7.345047304157304e-05,
5996
+ "loss": 0.3872,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.4941346850108617,
6001
+ "grad_norm": 2.7883176803588867,
6002
+ "learning_rate": 7.323990738270917e-05,
6003
+ "loss": 0.2974,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.4947139753801593,
6008
+ "grad_norm": 3.370043992996216,
6009
+ "learning_rate": 7.302946944693408e-05,
6010
+ "loss": 0.4254,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.4952932657494569,
6015
+ "grad_norm": 2.4159679412841797,
6016
+ "learning_rate": 7.281916023864577e-05,
6017
+ "loss": 0.2242,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.4958725561187545,
6022
+ "grad_norm": 1.912782907485962,
6023
+ "learning_rate": 7.260898076162782e-05,
6024
+ "loss": 0.1405,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.49645184648805213,
6029
+ "grad_norm": 2.1396970748901367,
6030
+ "learning_rate": 7.239893201904462e-05,
6031
+ "loss": 0.1709,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.49703113685734973,
6036
+ "grad_norm": 2.5621755123138428,
6037
+ "learning_rate": 7.218901501343658e-05,
6038
+ "loss": 0.4716,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.49761042722664733,
6043
+ "grad_norm": 1.5708820819854736,
6044
+ "learning_rate": 7.197923074671536e-05,
6045
+ "loss": 0.1109,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.498189717595945,
6050
+ "grad_norm": 3.326842784881592,
6051
+ "learning_rate": 7.176958022015902e-05,
6052
+ "loss": 0.1665,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.4987690079652426,
6057
+ "grad_norm": 2.878673553466797,
6058
+ "learning_rate": 7.156006443440737e-05,
6059
+ "loss": 0.3088,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.4993482983345402,
6064
+ "grad_norm": 1.5682700872421265,
6065
+ "learning_rate": 7.135068438945704e-05,
6066
+ "loss": 0.1415,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.4999275887038378,
6071
+ "grad_norm": 2.8705825805664062,
6072
+ "learning_rate": 7.114144108465684e-05,
6073
+ "loss": 0.2013,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.5005068790731354,
6078
+ "grad_norm": 0.8864466547966003,
6079
+ "learning_rate": 7.093233551870287e-05,
6080
+ "loss": 0.0533,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.501086169442433,
6085
+ "grad_norm": 1.5986967086791992,
6086
+ "learning_rate": 7.072336868963387e-05,
6087
+ "loss": 0.1187,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.5016654598117306,
6092
+ "grad_norm": 1.9611972570419312,
6093
+ "learning_rate": 7.05145415948264e-05,
6094
+ "loss": 0.1081,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.5022447501810282,
6099
+ "grad_norm": 2.0408990383148193,
6100
+ "learning_rate": 7.03058552309901e-05,
6101
+ "loss": 0.786,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.5028240405503258,
6106
+ "grad_norm": 2.0567972660064697,
6107
+ "learning_rate": 7.009731059416287e-05,
6108
+ "loss": 0.1873,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.5034033309196234,
6113
+ "grad_norm": 2.1673219203948975,
6114
+ "learning_rate": 6.988890867970617e-05,
6115
+ "loss": 0.1091,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.503982621288921,
6120
+ "grad_norm": 2.295874834060669,
6121
+ "learning_rate": 6.968065048230028e-05,
6122
+ "loss": 0.2526,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.5045619116582187,
6127
+ "grad_norm": 1.535244107246399,
6128
+ "learning_rate": 6.947253699593951e-05,
6129
+ "loss": 0.1756,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.5051412020275163,
6134
+ "grad_norm": 1.3690143823623657,
6135
+ "learning_rate": 6.926456921392753e-05,
6136
+ "loss": 0.0391,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.5057204923968139,
6141
+ "grad_norm": 1.4958258867263794,
6142
+ "learning_rate": 6.905674812887253e-05,
6143
+ "loss": 0.0865,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.5062997827661115,
6148
+ "grad_norm": 2.80315899848938,
6149
+ "learning_rate": 6.884907473268254e-05,
6150
+ "loss": 0.4071,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.5068790731354091,
6155
+ "grad_norm": 1.5055872201919556,
6156
+ "learning_rate": 6.864155001656068e-05,
6157
+ "loss": 0.0666,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.5074583635047067,
6162
+ "grad_norm": 4.0708112716674805,
6163
+ "learning_rate": 6.843417497100046e-05,
6164
+ "loss": 0.354,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.5080376538740043,
6169
+ "grad_norm": 4.592182159423828,
6170
+ "learning_rate": 6.822695058578104e-05,
6171
+ "loss": 0.2587,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.508616944243302,
6176
+ "grad_norm": 2.4305107593536377,
6177
+ "learning_rate": 6.801987784996244e-05,
6178
+ "loss": 0.2814,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.5091962346125996,
6183
+ "grad_norm": 2.350832939147949,
6184
+ "learning_rate": 6.78129577518809e-05,
6185
+ "loss": 0.2766,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.5097755249818972,
6190
+ "grad_norm": 1.6528229713439941,
6191
+ "learning_rate": 6.760619127914417e-05,
6192
+ "loss": 0.0857,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.5103548153511948,
6197
+ "grad_norm": 2.696647882461548,
6198
+ "learning_rate": 6.739957941862671e-05,
6199
+ "loss": 0.2258,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.5109341057204924,
6204
+ "grad_norm": 2.6145641803741455,
6205
+ "learning_rate": 6.719312315646507e-05,
6206
+ "loss": 0.1248,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.51151339608979,
6211
+ "grad_norm": 2.0635499954223633,
6212
+ "learning_rate": 6.698682347805309e-05,
6213
+ "loss": 0.1407,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.5120926864590876,
6218
+ "grad_norm": 1.5710378885269165,
6219
+ "learning_rate": 6.678068136803736e-05,
6220
+ "loss": 0.0424,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.5126719768283853,
6225
+ "grad_norm": 1.969618320465088,
6226
+ "learning_rate": 6.657469781031229e-05,
6227
+ "loss": 0.1132,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.5132512671976829,
6232
+ "grad_norm": 4.359981060028076,
6233
+ "learning_rate": 6.636887378801563e-05,
6234
+ "loss": 0.3641,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.5138305575669805,
6239
+ "grad_norm": 3.112766981124878,
6240
+ "learning_rate": 6.616321028352361e-05,
6241
+ "loss": 0.3397,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.5144098479362781,
6246
+ "grad_norm": 2.802192449569702,
6247
+ "learning_rate": 6.595770827844637e-05,
6248
+ "loss": 0.1709,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.5149891383055757,
6253
+ "grad_norm": 2.710824966430664,
6254
+ "learning_rate": 6.575236875362325e-05,
6255
+ "loss": 0.4842,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.5155684286748733,
6260
+ "grad_norm": 2.791417121887207,
6261
+ "learning_rate": 6.554719268911804e-05,
6262
+ "loss": 0.2808,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.5161477190441709,
6267
+ "grad_norm": 2.1043267250061035,
6268
+ "learning_rate": 6.534218106421435e-05,
6269
+ "loss": 0.1768,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.5167270094134685,
6274
+ "grad_norm": 1.4011709690093994,
6275
+ "learning_rate": 6.513733485741102e-05,
6276
+ "loss": 0.1623,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.5173062997827661,
6281
+ "grad_norm": 1.3681217432022095,
6282
+ "learning_rate": 6.493265504641726e-05,
6283
+ "loss": 0.1039,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.5178855901520637,
6288
+ "grad_norm": 2.42484712600708,
6289
+ "learning_rate": 6.472814260814814e-05,
6290
+ "loss": 0.1746,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.5184648805213613,
6295
+ "grad_norm": 2.149044990539551,
6296
+ "learning_rate": 6.45237985187199e-05,
6297
+ "loss": 0.4645,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.5190441708906589,
6302
+ "grad_norm": 2.7207820415496826,
6303
+ "learning_rate": 6.431962375344522e-05,
6304
+ "loss": 0.1451,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.5196234612599565,
6309
+ "grad_norm": 2.014847755432129,
6310
+ "learning_rate": 6.411561928682866e-05,
6311
+ "loss": 0.0575,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.5202027516292541,
6316
+ "grad_norm": 2.556762456893921,
6317
+ "learning_rate": 6.39117860925619e-05,
6318
+ "loss": 0.1226,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.5207820419985518,
6323
+ "grad_norm": 2.2220590114593506,
6324
+ "learning_rate": 6.370812514351925e-05,
6325
+ "loss": 0.5027,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.5213613323678494,
6330
+ "grad_norm": 2.47552490234375,
6331
+ "learning_rate": 6.350463741175281e-05,
6332
+ "loss": 0.4982,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.521940622737147,
6337
+ "grad_norm": 2.882659435272217,
6338
+ "learning_rate": 6.3301323868488e-05,
6339
+ "loss": 0.3143,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.5225199131064446,
6344
+ "grad_norm": 2.444570302963257,
6345
+ "learning_rate": 6.309818548411881e-05,
6346
+ "loss": 0.174,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.5230992034757422,
6351
+ "grad_norm": 2.917492628097534,
6352
+ "learning_rate": 6.28952232282033e-05,
6353
+ "loss": 0.2331,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.5236784938450398,
6358
+ "grad_norm": 1.820224404335022,
6359
+ "learning_rate": 6.269243806945878e-05,
6360
+ "loss": 0.1207,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.5242577842143374,
6365
+ "grad_norm": 2.3333451747894287,
6366
+ "learning_rate": 6.248983097575734e-05,
6367
+ "loss": 0.1775,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.524837074583635,
6372
+ "grad_norm": 2.552856922149658,
6373
+ "learning_rate": 6.228740291412121e-05,
6374
+ "loss": 0.3934,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.5254163649529326,
6379
+ "grad_norm": 2.5968430042266846,
6380
+ "learning_rate": 6.208515485071806e-05,
6381
+ "loss": 0.1207,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.5259956553222302,
6386
+ "grad_norm": 2.618913173675537,
6387
+ "learning_rate": 6.188308775085654e-05,
6388
+ "loss": 0.2191,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.5265749456915279,
6393
+ "grad_norm": 2.2938358783721924,
6394
+ "learning_rate": 6.168120257898148e-05,
6395
+ "loss": 0.1433,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.5271542360608255,
6400
+ "grad_norm": 3.4978723526000977,
6401
+ "learning_rate": 6.147950029866946e-05,
6402
+ "loss": 0.2251,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.5277335264301231,
6407
+ "grad_norm": 1.9927196502685547,
6408
+ "learning_rate": 6.127798187262406e-05,
6409
+ "loss": 0.1476,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.5283128167994207,
6414
+ "grad_norm": 3.5390841960906982,
6415
+ "learning_rate": 6.107664826267146e-05,
6416
+ "loss": 0.3075,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.5288921071687184,
6421
+ "grad_norm": 2.5269696712493896,
6422
+ "learning_rate": 6.087550042975561e-05,
6423
+ "loss": 0.1361,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.529471397538016,
6428
+ "grad_norm": 1.8151060342788696,
6429
+ "learning_rate": 6.067453933393383e-05,
6430
+ "loss": 0.1256,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.5300506879073136,
6435
+ "grad_norm": 1.9455229043960571,
6436
+ "learning_rate": 6.047376593437214e-05,
6437
+ "loss": 0.0716,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.5306299782766112,
6442
+ "grad_norm": 2.796208620071411,
6443
+ "learning_rate": 6.027318118934078e-05,
6444
+ "loss": 0.4193,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.5312092686459088,
6449
+ "grad_norm": 1.6880676746368408,
6450
+ "learning_rate": 6.007278605620943e-05,
6451
+ "loss": 0.0714,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.5317885590152064,
6456
+ "grad_norm": 3.125753879547119,
6457
+ "learning_rate": 5.987258149144288e-05,
6458
+ "loss": 0.1506,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 0.532367849384504,
6463
+ "grad_norm": 1.9753881692886353,
6464
+ "learning_rate": 5.9672568450596335e-05,
6465
+ "loss": 0.279,
6466
+ "step": 919
6467
+ },
6468
+ {
6469
+ "epoch": 0.5329471397538016,
6470
+ "grad_norm": 1.4957164525985718,
6471
+ "learning_rate": 5.9472747888310834e-05,
6472
+ "loss": 0.1175,
6473
+ "step": 920
6474
+ },
6475
+ {
6476
+ "epoch": 0.5335264301230992,
6477
+ "grad_norm": 2.2510874271392822,
6478
+ "learning_rate": 5.927312075830874e-05,
6479
+ "loss": 0.1741,
6480
+ "step": 921
6481
+ },
6482
+ {
6483
+ "epoch": 0.5341057204923968,
6484
+ "grad_norm": 1.6291396617889404,
6485
+ "learning_rate": 5.907368801338927e-05,
6486
+ "loss": 0.2072,
6487
+ "step": 922
6488
+ },
6489
+ {
6490
+ "epoch": 0.5346850108616944,
6491
+ "grad_norm": 2.2468626499176025,
6492
+ "learning_rate": 5.887445060542377e-05,
6493
+ "loss": 0.1189,
6494
+ "step": 923
6495
+ },
6496
+ {
6497
+ "epoch": 0.535264301230992,
6498
+ "grad_norm": 3.759373188018799,
6499
+ "learning_rate": 5.86754094853513e-05,
6500
+ "loss": 0.2473,
6501
+ "step": 924
6502
+ },
6503
+ {
6504
+ "epoch": 0.5358435916002896,
6505
+ "grad_norm": 0.9833599328994751,
6506
+ "learning_rate": 5.8476565603174025e-05,
6507
+ "loss": 0.0406,
6508
+ "step": 925
6509
+ },
6510
+ {
6511
+ "epoch": 0.5364228819695872,
6512
+ "grad_norm": 3.8795347213745117,
6513
+ "learning_rate": 5.827791990795278e-05,
6514
+ "loss": 0.2467,
6515
+ "step": 926
6516
+ },
6517
+ {
6518
+ "epoch": 0.5370021723388849,
6519
+ "grad_norm": 1.0939834117889404,
6520
+ "learning_rate": 5.807947334780241e-05,
6521
+ "loss": 0.0357,
6522
+ "step": 927
6523
+ },
6524
+ {
6525
+ "epoch": 0.5375814627081825,
6526
+ "grad_norm": 1.7609702348709106,
6527
+ "learning_rate": 5.7881226869887314e-05,
6528
+ "loss": 0.0956,
6529
+ "step": 928
6530
+ },
6531
+ {
6532
+ "epoch": 0.5381607530774801,
6533
+ "grad_norm": 2.235502004623413,
6534
+ "learning_rate": 5.768318142041701e-05,
6535
+ "loss": 0.2473,
6536
+ "step": 929
6537
+ },
6538
+ {
6539
+ "epoch": 0.5387400434467777,
6540
+ "grad_norm": 1.577030062675476,
6541
+ "learning_rate": 5.748533794464142e-05,
6542
+ "loss": 0.0835,
6543
+ "step": 930
6544
+ },
6545
+ {
6546
+ "epoch": 0.5393193338160753,
6547
+ "grad_norm": 3.7965221405029297,
6548
+ "learning_rate": 5.7287697386846515e-05,
6549
+ "loss": 0.2135,
6550
+ "step": 931
6551
+ },
6552
+ {
6553
+ "epoch": 0.5398986241853729,
6554
+ "grad_norm": 2.143045663833618,
6555
+ "learning_rate": 5.709026069034973e-05,
6556
+ "loss": 0.1006,
6557
+ "step": 932
6558
+ },
6559
+ {
6560
+ "epoch": 0.5404779145546705,
6561
+ "grad_norm": 3.032989978790283,
6562
+ "learning_rate": 5.689302879749554e-05,
6563
+ "loss": 0.1924,
6564
+ "step": 933
6565
+ },
6566
+ {
6567
+ "epoch": 0.5410572049239681,
6568
+ "grad_norm": 5.1808271408081055,
6569
+ "learning_rate": 5.669600264965088e-05,
6570
+ "loss": 0.5963,
6571
+ "step": 934
6572
+ },
6573
+ {
6574
+ "epoch": 0.5416364952932657,
6575
+ "grad_norm": 3.114119052886963,
6576
+ "learning_rate": 5.649918318720069e-05,
6577
+ "loss": 0.2447,
6578
+ "step": 935
6579
+ },
6580
+ {
6581
+ "epoch": 0.5422157856625633,
6582
+ "grad_norm": 3.1728622913360596,
6583
+ "learning_rate": 5.630257134954338e-05,
6584
+ "loss": 0.2676,
6585
+ "step": 936
6586
+ },
6587
+ {
6588
+ "epoch": 0.542795076031861,
6589
+ "grad_norm": 1.5399963855743408,
6590
+ "learning_rate": 5.610616807508651e-05,
6591
+ "loss": 0.075,
6592
+ "step": 937
6593
+ },
6594
+ {
6595
+ "epoch": 0.5433743664011585,
6596
+ "grad_norm": 2.5393104553222656,
6597
+ "learning_rate": 5.59099743012421e-05,
6598
+ "loss": 0.3181,
6599
+ "step": 938
6600
+ },
6601
+ {
6602
+ "epoch": 0.5439536567704562,
6603
+ "grad_norm": 1.58083176612854,
6604
+ "learning_rate": 5.5713990964422235e-05,
6605
+ "loss": 0.0876,
6606
+ "step": 939
6607
+ },
6608
+ {
6609
+ "epoch": 0.5445329471397538,
6610
+ "grad_norm": 3.9276978969573975,
6611
+ "learning_rate": 5.551821900003461e-05,
6612
+ "loss": 0.2772,
6613
+ "step": 940
6614
+ },
6615
+ {
6616
+ "epoch": 0.5451122375090515,
6617
+ "grad_norm": 1.7526675462722778,
6618
+ "learning_rate": 5.5322659342478154e-05,
6619
+ "loss": 0.1198,
6620
+ "step": 941
6621
+ },
6622
+ {
6623
+ "epoch": 0.5456915278783491,
6624
+ "grad_norm": 2.6656346321105957,
6625
+ "learning_rate": 5.512731292513835e-05,
6626
+ "loss": 0.2505,
6627
+ "step": 942
6628
+ },
6629
+ {
6630
+ "epoch": 0.5462708182476467,
6631
+ "grad_norm": 1.0102094411849976,
6632
+ "learning_rate": 5.4932180680383004e-05,
6633
+ "loss": 0.079,
6634
+ "step": 943
6635
+ },
6636
+ {
6637
+ "epoch": 0.5468501086169443,
6638
+ "grad_norm": 0.9727888107299805,
6639
+ "learning_rate": 5.473726353955764e-05,
6640
+ "loss": 0.059,
6641
+ "step": 944
6642
+ },
6643
+ {
6644
+ "epoch": 0.5474293989862419,
6645
+ "grad_norm": 0.9393841624259949,
6646
+ "learning_rate": 5.454256243298112e-05,
6647
+ "loss": 0.0599,
6648
+ "step": 945
6649
+ },
6650
+ {
6651
+ "epoch": 0.5480086893555395,
6652
+ "grad_norm": 3.4037275314331055,
6653
+ "learning_rate": 5.434807828994123e-05,
6654
+ "loss": 0.3032,
6655
+ "step": 946
6656
+ },
6657
+ {
6658
+ "epoch": 0.5485879797248371,
6659
+ "grad_norm": 1.1161447763442993,
6660
+ "learning_rate": 5.4153812038690143e-05,
6661
+ "loss": 0.0603,
6662
+ "step": 947
6663
+ },
6664
+ {
6665
+ "epoch": 0.5491672700941347,
6666
+ "grad_norm": 1.1687431335449219,
6667
+ "learning_rate": 5.39597646064402e-05,
6668
+ "loss": 0.1083,
6669
+ "step": 948
6670
+ },
6671
+ {
6672
+ "epoch": 0.5497465604634323,
6673
+ "grad_norm": 2.019043207168579,
6674
+ "learning_rate": 5.3765936919359205e-05,
6675
+ "loss": 0.2099,
6676
+ "step": 949
6677
+ },
6678
+ {
6679
+ "epoch": 0.5503258508327299,
6680
+ "grad_norm": 2.151170015335083,
6681
+ "learning_rate": 5.357232990256618e-05,
6682
+ "loss": 0.1215,
6683
+ "step": 950
6684
+ },
6685
+ {
6686
+ "epoch": 0.5509051412020275,
6687
+ "grad_norm": 2.3641302585601807,
6688
+ "learning_rate": 5.337894448012692e-05,
6689
+ "loss": 0.216,
6690
+ "step": 951
6691
+ },
6692
+ {
6693
+ "epoch": 0.5514844315713251,
6694
+ "grad_norm": 1.8099020719528198,
6695
+ "learning_rate": 5.318578157504959e-05,
6696
+ "loss": 0.1586,
6697
+ "step": 952
6698
+ },
6699
+ {
6700
+ "epoch": 0.5520637219406227,
6701
+ "grad_norm": 1.4914263486862183,
6702
+ "learning_rate": 5.299284210928025e-05,
6703
+ "loss": 0.0594,
6704
+ "step": 953
6705
+ },
6706
+ {
6707
+ "epoch": 0.5526430123099203,
6708
+ "grad_norm": 1.684990644454956,
6709
+ "learning_rate": 5.280012700369856e-05,
6710
+ "loss": 0.0594,
6711
+ "step": 954
6712
+ },
6713
+ {
6714
+ "epoch": 0.5532223026792179,
6715
+ "grad_norm": 2.4913032054901123,
6716
+ "learning_rate": 5.260763717811328e-05,
6717
+ "loss": 0.0889,
6718
+ "step": 955
6719
+ },
6720
+ {
6721
+ "epoch": 0.5538015930485156,
6722
+ "grad_norm": 2.953730821609497,
6723
+ "learning_rate": 5.2415373551258054e-05,
6724
+ "loss": 0.2089,
6725
+ "step": 956
6726
+ },
6727
+ {
6728
+ "epoch": 0.5543808834178132,
6729
+ "grad_norm": 2.1618032455444336,
6730
+ "learning_rate": 5.2223337040786744e-05,
6731
+ "loss": 0.1158,
6732
+ "step": 957
6733
+ },
6734
+ {
6735
+ "epoch": 0.5549601737871108,
6736
+ "grad_norm": 1.2927886247634888,
6737
+ "learning_rate": 5.203152856326933e-05,
6738
+ "loss": 0.055,
6739
+ "step": 958
6740
+ },
6741
+ {
6742
+ "epoch": 0.5555394641564084,
6743
+ "grad_norm": 1.9999315738677979,
6744
+ "learning_rate": 5.183994903418732e-05,
6745
+ "loss": 0.3154,
6746
+ "step": 959
6747
+ },
6748
+ {
6749
+ "epoch": 0.556118754525706,
6750
+ "grad_norm": 2.866997003555298,
6751
+ "learning_rate": 5.164859936792955e-05,
6752
+ "loss": 0.2854,
6753
+ "step": 960
6754
+ },
6755
+ {
6756
+ "epoch": 0.5566980448950036,
6757
+ "grad_norm": 1.4728211164474487,
6758
+ "learning_rate": 5.145748047778771e-05,
6759
+ "loss": 0.0761,
6760
+ "step": 961
6761
+ },
6762
+ {
6763
+ "epoch": 0.5572773352643012,
6764
+ "grad_norm": 1.7411283254623413,
6765
+ "learning_rate": 5.1266593275952034e-05,
6766
+ "loss": 0.1866,
6767
+ "step": 962
6768
+ },
6769
+ {
6770
+ "epoch": 0.5578566256335988,
6771
+ "grad_norm": 1.9727611541748047,
6772
+ "learning_rate": 5.107593867350692e-05,
6773
+ "loss": 0.1024,
6774
+ "step": 963
6775
+ },
6776
+ {
6777
+ "epoch": 0.5584359160028964,
6778
+ "grad_norm": 1.5096935033798218,
6779
+ "learning_rate": 5.088551758042655e-05,
6780
+ "loss": 0.0958,
6781
+ "step": 964
6782
+ },
6783
+ {
6784
+ "epoch": 0.559015206372194,
6785
+ "grad_norm": 1.9016562700271606,
6786
+ "learning_rate": 5.0695330905570735e-05,
6787
+ "loss": 0.1431,
6788
+ "step": 965
6789
+ },
6790
+ {
6791
+ "epoch": 0.5595944967414916,
6792
+ "grad_norm": 1.6201834678649902,
6793
+ "learning_rate": 5.050537955668027e-05,
6794
+ "loss": 0.1043,
6795
+ "step": 966
6796
+ },
6797
+ {
6798
+ "epoch": 0.5601737871107892,
6799
+ "grad_norm": 3.7371792793273926,
6800
+ "learning_rate": 5.031566444037288e-05,
6801
+ "loss": 0.2303,
6802
+ "step": 967
6803
+ },
6804
+ {
6805
+ "epoch": 0.5607530774800868,
6806
+ "grad_norm": 3.2157890796661377,
6807
+ "learning_rate": 5.012618646213869e-05,
6808
+ "loss": 0.1548,
6809
+ "step": 968
6810
+ },
6811
+ {
6812
+ "epoch": 0.5613323678493845,
6813
+ "grad_norm": 1.6408613920211792,
6814
+ "learning_rate": 4.993694652633606e-05,
6815
+ "loss": 0.1083,
6816
+ "step": 969
6817
+ },
6818
+ {
6819
+ "epoch": 0.5619116582186822,
6820
+ "grad_norm": 5.066162109375,
6821
+ "learning_rate": 4.9747945536187145e-05,
6822
+ "loss": 0.7082,
6823
+ "step": 970
6824
+ },
6825
+ {
6826
+ "epoch": 0.5624909485879798,
6827
+ "grad_norm": 2.278359889984131,
6828
+ "learning_rate": 4.955918439377366e-05,
6829
+ "loss": 0.2712,
6830
+ "step": 971
6831
+ },
6832
+ {
6833
+ "epoch": 0.5630702389572774,
6834
+ "grad_norm": 2.0341436862945557,
6835
+ "learning_rate": 4.937066400003256e-05,
6836
+ "loss": 0.1048,
6837
+ "step": 972
6838
+ },
6839
+ {
6840
+ "epoch": 0.563649529326575,
6841
+ "grad_norm": 1.8281821012496948,
6842
+ "learning_rate": 4.918238525475173e-05,
6843
+ "loss": 0.0627,
6844
+ "step": 973
6845
+ },
6846
+ {
6847
+ "epoch": 0.5642288196958726,
6848
+ "grad_norm": 2.182070016860962,
6849
+ "learning_rate": 4.899434905656563e-05,
6850
+ "loss": 0.136,
6851
+ "step": 974
6852
+ },
6853
+ {
6854
+ "epoch": 0.5648081100651702,
6855
+ "grad_norm": 2.1413326263427734,
6856
+ "learning_rate": 4.880655630295122e-05,
6857
+ "loss": 0.2805,
6858
+ "step": 975
6859
+ },
6860
+ {
6861
+ "epoch": 0.5653874004344678,
6862
+ "grad_norm": 2.208822011947632,
6863
+ "learning_rate": 4.861900789022339e-05,
6864
+ "loss": 0.1767,
6865
+ "step": 976
6866
+ },
6867
+ {
6868
+ "epoch": 0.5659666908037654,
6869
+ "grad_norm": 2.2816905975341797,
6870
+ "learning_rate": 4.8431704713530834e-05,
6871
+ "loss": 0.247,
6872
+ "step": 977
6873
+ },
6874
+ {
6875
+ "epoch": 0.566545981173063,
6876
+ "grad_norm": 1.551398515701294,
6877
+ "learning_rate": 4.824464766685182e-05,
6878
+ "loss": 0.1369,
6879
+ "step": 978
6880
+ },
6881
+ {
6882
+ "epoch": 0.5671252715423606,
6883
+ "grad_norm": 1.2330127954483032,
6884
+ "learning_rate": 4.805783764298979e-05,
6885
+ "loss": 0.0566,
6886
+ "step": 979
6887
+ },
6888
+ {
6889
+ "epoch": 0.5677045619116582,
6890
+ "grad_norm": 2.6698801517486572,
6891
+ "learning_rate": 4.7871275533569223e-05,
6892
+ "loss": 0.1718,
6893
+ "step": 980
6894
+ },
6895
+ {
6896
+ "epoch": 0.5682838522809558,
6897
+ "grad_norm": 1.4910578727722168,
6898
+ "learning_rate": 4.768496222903134e-05,
6899
+ "loss": 0.1398,
6900
+ "step": 981
6901
+ },
6902
+ {
6903
+ "epoch": 0.5688631426502534,
6904
+ "grad_norm": 3.600367307662964,
6905
+ "learning_rate": 4.749889861862977e-05,
6906
+ "loss": 0.7276,
6907
+ "step": 982
6908
+ },
6909
+ {
6910
+ "epoch": 0.569442433019551,
6911
+ "grad_norm": 1.2307556867599487,
6912
+ "learning_rate": 4.731308559042643e-05,
6913
+ "loss": 0.0613,
6914
+ "step": 983
6915
+ },
6916
+ {
6917
+ "epoch": 0.5700217233888487,
6918
+ "grad_norm": 1.406229019165039,
6919
+ "learning_rate": 4.712752403128729e-05,
6920
+ "loss": 0.0437,
6921
+ "step": 984
6922
+ },
6923
+ {
6924
+ "epoch": 0.5706010137581463,
6925
+ "grad_norm": 1.7106623649597168,
6926
+ "learning_rate": 4.694221482687797e-05,
6927
+ "loss": 0.1914,
6928
+ "step": 985
6929
+ },
6930
+ {
6931
+ "epoch": 0.5711803041274439,
6932
+ "grad_norm": 1.2789785861968994,
6933
+ "learning_rate": 4.6757158861659714e-05,
6934
+ "loss": 0.0471,
6935
+ "step": 986
6936
+ },
6937
+ {
6938
+ "epoch": 0.5717595944967415,
6939
+ "grad_norm": 2.6956300735473633,
6940
+ "learning_rate": 4.657235701888504e-05,
6941
+ "loss": 0.6837,
6942
+ "step": 987
6943
+ },
6944
+ {
6945
+ "epoch": 0.5723388848660391,
6946
+ "grad_norm": 3.1540396213531494,
6947
+ "learning_rate": 4.638781018059356e-05,
6948
+ "loss": 0.2424,
6949
+ "step": 988
6950
+ },
6951
+ {
6952
+ "epoch": 0.5729181752353367,
6953
+ "grad_norm": 1.4880813360214233,
6954
+ "learning_rate": 4.620351922760781e-05,
6955
+ "loss": 0.0921,
6956
+ "step": 989
6957
+ },
6958
+ {
6959
+ "epoch": 0.5734974656046343,
6960
+ "grad_norm": 0.772277295589447,
6961
+ "learning_rate": 4.601948503952896e-05,
6962
+ "loss": 0.0245,
6963
+ "step": 990
6964
+ },
6965
+ {
6966
+ "epoch": 0.5740767559739319,
6967
+ "grad_norm": 2.9450745582580566,
6968
+ "learning_rate": 4.5835708494732775e-05,
6969
+ "loss": 0.1315,
6970
+ "step": 991
6971
+ },
6972
+ {
6973
+ "epoch": 0.5746560463432295,
6974
+ "grad_norm": 3.9312920570373535,
6975
+ "learning_rate": 4.565219047036521e-05,
6976
+ "loss": 0.4472,
6977
+ "step": 992
6978
+ },
6979
+ {
6980
+ "epoch": 0.5752353367125271,
6981
+ "grad_norm": 1.2942410707473755,
6982
+ "learning_rate": 4.5468931842338324e-05,
6983
+ "loss": 0.0608,
6984
+ "step": 993
6985
+ },
6986
+ {
6987
+ "epoch": 0.5758146270818247,
6988
+ "grad_norm": 1.3082633018493652,
6989
+ "learning_rate": 4.5285933485326226e-05,
6990
+ "loss": 0.0774,
6991
+ "step": 994
6992
+ },
6993
+ {
6994
+ "epoch": 0.5763939174511223,
6995
+ "grad_norm": 2.2955095767974854,
6996
+ "learning_rate": 4.510319627276066e-05,
6997
+ "loss": 0.1052,
6998
+ "step": 995
6999
+ },
7000
+ {
7001
+ "epoch": 0.5769732078204199,
7002
+ "grad_norm": 3.623216152191162,
7003
+ "learning_rate": 4.492072107682699e-05,
7004
+ "loss": 0.3283,
7005
+ "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.5775524981897175,
7009
+ "grad_norm": 2.389986038208008,
7010
+ "learning_rate": 4.473850876846001e-05,
7011
+ "loss": 0.1185,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.5781317885590153,
7016
+ "grad_norm": 2.296396493911743,
7017
+ "learning_rate": 4.4556560217339774e-05,
7018
+ "loss": 0.2062,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.5787110789283129,
7023
+ "grad_norm": 1.7258268594741821,
7024
+ "learning_rate": 4.4374876291887454e-05,
7025
+ "loss": 0.0945,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.5792903692976105,
7030
+ "grad_norm": 2.0098509788513184,
7031
+ "learning_rate": 4.419345785926119e-05,
7032
+ "loss": 0.1731,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.5798696596669081,
7037
+ "grad_norm": 3.1916115283966064,
7038
+ "learning_rate": 4.401230578535191e-05,
7039
+ "loss": 0.1093,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.5804489500362057,
7044
+ "grad_norm": 0.8169403076171875,
7045
+ "learning_rate": 4.383142093477938e-05,
7046
+ "loss": 0.0621,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.5810282404055033,
7051
+ "grad_norm": 1.7748020887374878,
7052
+ "learning_rate": 4.365080417088776e-05,
7053
+ "loss": 0.0903,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.5816075307748009,
7058
+ "grad_norm": 2.6781952381134033,
7059
+ "learning_rate": 4.3470456355741786e-05,
7060
+ "loss": 0.3334,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.5821868211440985,
7065
+ "grad_norm": 1.354478120803833,
7066
+ "learning_rate": 4.329037835012245e-05,
7067
+ "loss": 0.0851,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.5827661115133961,
7072
+ "grad_norm": 2.0575757026672363,
7073
+ "learning_rate": 4.311057101352304e-05,
7074
+ "loss": 0.1127,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.5833454018826937,
7079
+ "grad_norm": 1.2931239604949951,
7080
+ "learning_rate": 4.293103520414491e-05,
7081
+ "loss": 0.0811,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.5839246922519913,
7086
+ "grad_norm": 4.230047702789307,
7087
+ "learning_rate": 4.275177177889347e-05,
7088
+ "loss": 0.2677,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.5845039826212889,
7093
+ "grad_norm": 1.209717869758606,
7094
+ "learning_rate": 4.2572781593374086e-05,
7095
+ "loss": 0.0734,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.5850832729905865,
7100
+ "grad_norm": 1.9632679224014282,
7101
+ "learning_rate": 4.239406550188791e-05,
7102
+ "loss": 0.1276,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.5856625633598841,
7107
+ "grad_norm": 1.337821125984192,
7108
+ "learning_rate": 4.221562435742802e-05,
7109
+ "loss": 0.0591,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.5862418537291818,
7114
+ "grad_norm": 1.3360164165496826,
7115
+ "learning_rate": 4.203745901167504e-05,
7116
+ "loss": 0.0924,
7117
+ "step": 1012
7118
+ },
7119
+ {
7120
+ "epoch": 0.5868211440984794,
7121
+ "grad_norm": 3.3772501945495605,
7122
+ "learning_rate": 4.1859570314993324e-05,
7123
+ "loss": 0.2445,
7124
+ "step": 1013
7125
+ },
7126
+ {
7127
+ "epoch": 0.587400434467777,
7128
+ "grad_norm": 1.5914647579193115,
7129
+ "learning_rate": 4.168195911642677e-05,
7130
+ "loss": 0.058,
7131
+ "step": 1014
7132
+ },
7133
+ {
7134
+ "epoch": 0.5879797248370746,
7135
+ "grad_norm": 1.4137589931488037,
7136
+ "learning_rate": 4.15046262636948e-05,
7137
+ "loss": 0.0644,
7138
+ "step": 1015
7139
+ },
7140
+ {
7141
+ "epoch": 0.5885590152063722,
7142
+ "grad_norm": 2.6447296142578125,
7143
+ "learning_rate": 4.1327572603188415e-05,
7144
+ "loss": 0.1097,
7145
+ "step": 1016
7146
+ },
7147
+ {
7148
+ "epoch": 0.5891383055756698,
7149
+ "grad_norm": 1.6296364068984985,
7150
+ "learning_rate": 4.115079897996595e-05,
7151
+ "loss": 0.0572,
7152
+ "step": 1017
7153
+ },
7154
+ {
7155
+ "epoch": 0.5897175959449674,
7156
+ "grad_norm": 2.1439051628112793,
7157
+ "learning_rate": 4.097430623774921e-05,
7158
+ "loss": 0.2172,
7159
+ "step": 1018
7160
+ },
7161
+ {
7162
+ "epoch": 0.590296886314265,
7163
+ "grad_norm": 2.0244362354278564,
7164
+ "learning_rate": 4.079809521891933e-05,
7165
+ "loss": 0.1482,
7166
+ "step": 1019
7167
+ },
7168
+ {
7169
+ "epoch": 0.5908761766835626,
7170
+ "grad_norm": 1.860674500465393,
7171
+ "learning_rate": 4.062216676451285e-05,
7172
+ "loss": 0.0855,
7173
+ "step": 1020
7174
+ },
7175
+ {
7176
+ "epoch": 0.5914554670528602,
7177
+ "grad_norm": 1.556273102760315,
7178
+ "learning_rate": 4.04465217142177e-05,
7179
+ "loss": 0.0782,
7180
+ "step": 1021
7181
+ },
7182
+ {
7183
+ "epoch": 0.5920347574221578,
7184
+ "grad_norm": 0.7192368507385254,
7185
+ "learning_rate": 4.027116090636909e-05,
7186
+ "loss": 0.0263,
7187
+ "step": 1022
7188
+ },
7189
+ {
7190
+ "epoch": 0.5926140477914554,
7191
+ "grad_norm": 2.22908353805542,
7192
+ "learning_rate": 4.0096085177945586e-05,
7193
+ "loss": 0.0979,
7194
+ "step": 1023
7195
+ },
7196
+ {
7197
+ "epoch": 0.593193338160753,
7198
+ "grad_norm": 2.0853970050811768,
7199
+ "learning_rate": 3.9921295364565094e-05,
7200
+ "loss": 0.1206,
7201
+ "step": 1024
7202
+ },
7203
+ {
7204
+ "epoch": 0.5937726285300506,
7205
+ "grad_norm": 2.7167630195617676,
7206
+ "learning_rate": 3.9746792300480894e-05,
7207
+ "loss": 0.1885,
7208
+ "step": 1025
7209
+ },
7210
+ {
7211
+ "epoch": 0.5943519188993484,
7212
+ "grad_norm": 2.2852001190185547,
7213
+ "learning_rate": 3.9572576818577637e-05,
7214
+ "loss": 0.1774,
7215
+ "step": 1026
7216
+ },
7217
+ {
7218
+ "epoch": 0.594931209268646,
7219
+ "grad_norm": 1.4725953340530396,
7220
+ "learning_rate": 3.9398649750367365e-05,
7221
+ "loss": 0.125,
7222
+ "step": 1027
7223
+ },
7224
+ {
7225
+ "epoch": 0.5955104996379436,
7226
+ "grad_norm": 1.077785849571228,
7227
+ "learning_rate": 3.922501192598557e-05,
7228
+ "loss": 0.0584,
7229
+ "step": 1028
7230
+ },
7231
+ {
7232
+ "epoch": 0.5960897900072412,
7233
+ "grad_norm": 2.285592555999756,
7234
+ "learning_rate": 3.9051664174187154e-05,
7235
+ "loss": 0.1603,
7236
+ "step": 1029
7237
+ },
7238
+ {
7239
+ "epoch": 0.5966690803765388,
7240
+ "grad_norm": 1.5708166360855103,
7241
+ "learning_rate": 3.8878607322342674e-05,
7242
+ "loss": 0.1087,
7243
+ "step": 1030
7244
+ },
7245
+ {
7246
+ "epoch": 0.5972483707458364,
7247
+ "grad_norm": 3.158360481262207,
7248
+ "learning_rate": 3.87058421964341e-05,
7249
+ "loss": 0.0728,
7250
+ "step": 1031
7251
+ },
7252
+ {
7253
+ "epoch": 0.597827661115134,
7254
+ "grad_norm": 2.05562162399292,
7255
+ "learning_rate": 3.853336962105112e-05,
7256
+ "loss": 0.1444,
7257
+ "step": 1032
7258
+ },
7259
+ {
7260
+ "epoch": 0.5984069514844316,
7261
+ "grad_norm": 1.0003705024719238,
7262
+ "learning_rate": 3.836119041938704e-05,
7263
+ "loss": 0.0551,
7264
+ "step": 1033
7265
+ },
7266
+ {
7267
+ "epoch": 0.5989862418537292,
7268
+ "grad_norm": 2.253399133682251,
7269
+ "learning_rate": 3.8189305413234975e-05,
7270
+ "loss": 0.1458,
7271
+ "step": 1034
7272
+ },
7273
+ {
7274
+ "epoch": 0.5995655322230268,
7275
+ "grad_norm": 1.7917815446853638,
7276
+ "learning_rate": 3.801771542298387e-05,
7277
+ "loss": 0.083,
7278
+ "step": 1035
7279
+ },
7280
+ {
7281
+ "epoch": 0.6001448225923244,
7282
+ "grad_norm": 1.4274410009384155,
7283
+ "learning_rate": 3.784642126761457e-05,
7284
+ "loss": 0.0903,
7285
+ "step": 1036
7286
+ },
7287
+ {
7288
+ "epoch": 0.600724112961622,
7289
+ "grad_norm": 1.5352691411972046,
7290
+ "learning_rate": 3.767542376469591e-05,
7291
+ "loss": 0.0471,
7292
+ "step": 1037
7293
+ },
7294
+ {
7295
+ "epoch": 0.6013034033309196,
7296
+ "grad_norm": 1.7276948690414429,
7297
+ "learning_rate": 3.750472373038093e-05,
7298
+ "loss": 0.0623,
7299
+ "step": 1038
7300
+ },
7301
+ {
7302
+ "epoch": 0.6018826937002172,
7303
+ "grad_norm": 2.8179798126220703,
7304
+ "learning_rate": 3.733432197940277e-05,
7305
+ "loss": 0.1997,
7306
+ "step": 1039
7307
+ },
7308
+ {
7309
+ "epoch": 0.6024619840695149,
7310
+ "grad_norm": 1.1214691400527954,
7311
+ "learning_rate": 3.7164219325070995e-05,
7312
+ "loss": 0.041,
7313
+ "step": 1040
7314
+ },
7315
+ {
7316
+ "epoch": 0.6030412744388125,
7317
+ "grad_norm": 1.1556260585784912,
7318
+ "learning_rate": 3.699441657926755e-05,
7319
+ "loss": 0.047,
7320
+ "step": 1041
7321
+ },
7322
+ {
7323
+ "epoch": 0.6036205648081101,
7324
+ "grad_norm": 1.069880485534668,
7325
+ "learning_rate": 3.682491455244294e-05,
7326
+ "loss": 0.0731,
7327
+ "step": 1042
7328
+ },
7329
+ {
7330
+ "epoch": 0.6041998551774077,
7331
+ "grad_norm": 1.0165038108825684,
7332
+ "learning_rate": 3.665571405361239e-05,
7333
+ "loss": 0.0565,
7334
+ "step": 1043
7335
+ },
7336
+ {
7337
+ "epoch": 0.6047791455467053,
7338
+ "grad_norm": 1.1815634965896606,
7339
+ "learning_rate": 3.6486815890352e-05,
7340
+ "loss": 0.0541,
7341
+ "step": 1044
7342
+ },
7343
+ {
7344
+ "epoch": 0.6053584359160029,
7345
+ "grad_norm": 1.7292768955230713,
7346
+ "learning_rate": 3.6318220868794784e-05,
7347
+ "loss": 0.1484,
7348
+ "step": 1045
7349
+ },
7350
+ {
7351
+ "epoch": 0.6059377262853005,
7352
+ "grad_norm": 1.3332797288894653,
7353
+ "learning_rate": 3.6149929793626954e-05,
7354
+ "loss": 0.0422,
7355
+ "step": 1046
7356
+ },
7357
+ {
7358
+ "epoch": 0.6065170166545981,
7359
+ "grad_norm": 2.8485829830169678,
7360
+ "learning_rate": 3.598194346808399e-05,
7361
+ "loss": 0.1431,
7362
+ "step": 1047
7363
+ },
7364
+ {
7365
+ "epoch": 0.6070963070238957,
7366
+ "grad_norm": 2.2351937294006348,
7367
+ "learning_rate": 3.581426269394679e-05,
7368
+ "loss": 0.1693,
7369
+ "step": 1048
7370
+ },
7371
+ {
7372
+ "epoch": 0.6076755973931933,
7373
+ "grad_norm": 1.5097788572311401,
7374
+ "learning_rate": 3.5646888271538014e-05,
7375
+ "loss": 0.0572,
7376
+ "step": 1049
7377
+ },
7378
+ {
7379
+ "epoch": 0.6082548877624909,
7380
+ "grad_norm": 1.114818811416626,
7381
+ "learning_rate": 3.5479820999718036e-05,
7382
+ "loss": 0.0772,
7383
+ "step": 1050
7384
+ },
7385
+ {
7386
+ "epoch": 0.6088341781317885,
7387
+ "grad_norm": 5.17358922958374,
7388
+ "learning_rate": 3.531306167588123e-05,
7389
+ "loss": 0.4743,
7390
+ "step": 1051
7391
+ },
7392
+ {
7393
+ "epoch": 0.6094134685010861,
7394
+ "grad_norm": 0.682974100112915,
7395
+ "learning_rate": 3.514661109595222e-05,
7396
+ "loss": 0.0337,
7397
+ "step": 1052
7398
+ },
7399
+ {
7400
+ "epoch": 0.6099927588703837,
7401
+ "grad_norm": 1.268609642982483,
7402
+ "learning_rate": 3.4980470054381975e-05,
7403
+ "loss": 0.0553,
7404
+ "step": 1053
7405
+ },
7406
+ {
7407
+ "epoch": 0.6105720492396813,
7408
+ "grad_norm": 2.0010392665863037,
7409
+ "learning_rate": 3.481463934414412e-05,
7410
+ "loss": 0.091,
7411
+ "step": 1054
7412
+ },
7413
+ {
7414
+ "epoch": 0.611151339608979,
7415
+ "grad_norm": 1.4881786108016968,
7416
+ "learning_rate": 3.4649119756731055e-05,
7417
+ "loss": 0.0445,
7418
+ "step": 1055
7419
+ },
7420
+ {
7421
+ "epoch": 0.6117306299782767,
7422
+ "grad_norm": 3.6607894897460938,
7423
+ "learning_rate": 3.4483912082150225e-05,
7424
+ "loss": 0.3531,
7425
+ "step": 1056
7426
+ },
7427
+ {
7428
+ "epoch": 0.6123099203475743,
7429
+ "grad_norm": 1.652235984802246,
7430
+ "learning_rate": 3.4319017108920435e-05,
7431
+ "loss": 0.0932,
7432
+ "step": 1057
7433
+ },
7434
+ {
7435
+ "epoch": 0.6128892107168719,
7436
+ "grad_norm": 0.7218719124794006,
7437
+ "learning_rate": 3.4154435624067904e-05,
7438
+ "loss": 0.0407,
7439
+ "step": 1058
7440
+ },
7441
+ {
7442
+ "epoch": 0.6134685010861695,
7443
+ "grad_norm": 1.194688081741333,
7444
+ "learning_rate": 3.3990168413122625e-05,
7445
+ "loss": 0.0394,
7446
+ "step": 1059
7447
+ },
7448
+ {
7449
+ "epoch": 0.6140477914554671,
7450
+ "grad_norm": 1.181309461593628,
7451
+ "learning_rate": 3.3826216260114604e-05,
7452
+ "loss": 0.052,
7453
+ "step": 1060
7454
+ },
7455
+ {
7456
+ "epoch": 0.6146270818247647,
7457
+ "grad_norm": 1.4079760313034058,
7458
+ "learning_rate": 3.366257994757013e-05,
7459
+ "loss": 0.0879,
7460
+ "step": 1061
7461
+ },
7462
+ {
7463
+ "epoch": 0.6152063721940623,
7464
+ "grad_norm": 0.7758262157440186,
7465
+ "learning_rate": 3.349926025650796e-05,
7466
+ "loss": 0.0339,
7467
+ "step": 1062
7468
+ },
7469
+ {
7470
+ "epoch": 0.6157856625633599,
7471
+ "grad_norm": 4.113604545593262,
7472
+ "learning_rate": 3.333625796643572e-05,
7473
+ "loss": 0.1483,
7474
+ "step": 1063
7475
+ },
7476
+ {
7477
+ "epoch": 0.6163649529326575,
7478
+ "grad_norm": 3.244152784347534,
7479
+ "learning_rate": 3.3173573855346043e-05,
7480
+ "loss": 0.137,
7481
+ "step": 1064
7482
+ },
7483
+ {
7484
+ "epoch": 0.6169442433019551,
7485
+ "grad_norm": 1.1724659204483032,
7486
+ "learning_rate": 3.3011208699713015e-05,
7487
+ "loss": 0.0713,
7488
+ "step": 1065
7489
+ },
7490
+ {
7491
+ "epoch": 0.6175235336712527,
7492
+ "grad_norm": 2.5028889179229736,
7493
+ "learning_rate": 3.2849163274488314e-05,
7494
+ "loss": 0.1607,
7495
+ "step": 1066
7496
+ },
7497
+ {
7498
+ "epoch": 0.6181028240405503,
7499
+ "grad_norm": 3.646338939666748,
7500
+ "learning_rate": 3.268743835309757e-05,
7501
+ "loss": 0.3208,
7502
+ "step": 1067
7503
+ },
7504
+ {
7505
+ "epoch": 0.6186821144098479,
7506
+ "grad_norm": 2.7392494678497314,
7507
+ "learning_rate": 3.252603470743676e-05,
7508
+ "loss": 0.1198,
7509
+ "step": 1068
7510
+ },
7511
+ {
7512
+ "epoch": 0.6192614047791456,
7513
+ "grad_norm": 1.6429647207260132,
7514
+ "learning_rate": 3.2364953107868376e-05,
7515
+ "loss": 0.0745,
7516
+ "step": 1069
7517
+ },
7518
+ {
7519
+ "epoch": 0.6198406951484432,
7520
+ "grad_norm": 1.132997989654541,
7521
+ "learning_rate": 3.220419432321783e-05,
7522
+ "loss": 0.026,
7523
+ "step": 1070
7524
+ },
7525
+ {
7526
+ "epoch": 0.6204199855177408,
7527
+ "grad_norm": 1.1884487867355347,
7528
+ "learning_rate": 3.204375912076979e-05,
7529
+ "loss": 0.0835,
7530
+ "step": 1071
7531
+ },
7532
+ {
7533
+ "epoch": 0.6209992758870384,
7534
+ "grad_norm": 1.6805810928344727,
7535
+ "learning_rate": 3.188364826626449e-05,
7536
+ "loss": 0.0588,
7537
+ "step": 1072
7538
+ },
7539
+ {
7540
+ "epoch": 0.621578566256336,
7541
+ "grad_norm": 4.5599846839904785,
7542
+ "learning_rate": 3.172386252389408e-05,
7543
+ "loss": 0.3706,
7544
+ "step": 1073
7545
+ },
7546
+ {
7547
+ "epoch": 0.6221578566256336,
7548
+ "grad_norm": 1.351007103919983,
7549
+ "learning_rate": 3.156440265629899e-05,
7550
+ "loss": 0.0848,
7551
+ "step": 1074
7552
+ },
7553
+ {
7554
+ "epoch": 0.6227371469949312,
7555
+ "grad_norm": 4.964895725250244,
7556
+ "learning_rate": 3.1405269424564244e-05,
7557
+ "loss": 0.2099,
7558
+ "step": 1075
7559
+ },
7560
+ {
7561
+ "epoch": 0.6233164373642288,
7562
+ "grad_norm": 2.0441789627075195,
7563
+ "learning_rate": 3.124646358821599e-05,
7564
+ "loss": 0.0642,
7565
+ "step": 1076
7566
+ },
7567
+ {
7568
+ "epoch": 0.6238957277335264,
7569
+ "grad_norm": 0.7961364984512329,
7570
+ "learning_rate": 3.108798590521764e-05,
7571
+ "loss": 0.0386,
7572
+ "step": 1077
7573
+ },
7574
+ {
7575
+ "epoch": 0.624475018102824,
7576
+ "grad_norm": 1.0998642444610596,
7577
+ "learning_rate": 3.092983713196639e-05,
7578
+ "loss": 0.0583,
7579
+ "step": 1078
7580
+ },
7581
+ {
7582
+ "epoch": 0.6250543084721216,
7583
+ "grad_norm": 1.602994441986084,
7584
+ "learning_rate": 3.077201802328958e-05,
7585
+ "loss": 0.0845,
7586
+ "step": 1079
7587
+ },
7588
+ {
7589
+ "epoch": 0.6256335988414192,
7590
+ "grad_norm": 3.1479015350341797,
7591
+ "learning_rate": 3.061452933244112e-05,
7592
+ "loss": 0.3006,
7593
+ "step": 1080
7594
+ },
7595
+ {
7596
+ "epoch": 0.6262128892107168,
7597
+ "grad_norm": 0.6543728709220886,
7598
+ "learning_rate": 3.0457371811097857e-05,
7599
+ "loss": 0.0303,
7600
+ "step": 1081
7601
+ },
7602
+ {
7603
+ "epoch": 0.6267921795800144,
7604
+ "grad_norm": 0.7708796858787537,
7605
+ "learning_rate": 3.0300546209355995e-05,
7606
+ "loss": 0.049,
7607
+ "step": 1082
7608
+ },
7609
+ {
7610
+ "epoch": 0.6273714699493121,
7611
+ "grad_norm": 1.3549633026123047,
7612
+ "learning_rate": 3.0144053275727533e-05,
7613
+ "loss": 0.0686,
7614
+ "step": 1083
7615
+ },
7616
+ {
7617
+ "epoch": 0.6279507603186097,
7618
+ "grad_norm": 1.6762343645095825,
7619
+ "learning_rate": 2.998789375713663e-05,
7620
+ "loss": 0.0832,
7621
+ "step": 1084
7622
+ },
7623
+ {
7624
+ "epoch": 0.6285300506879073,
7625
+ "grad_norm": 0.504910409450531,
7626
+ "learning_rate": 2.9832068398916212e-05,
7627
+ "loss": 0.0185,
7628
+ "step": 1085
7629
+ },
7630
+ {
7631
+ "epoch": 0.629109341057205,
7632
+ "grad_norm": 2.428058385848999,
7633
+ "learning_rate": 2.9676577944804175e-05,
7634
+ "loss": 0.0913,
7635
+ "step": 1086
7636
+ },
7637
+ {
7638
+ "epoch": 0.629109341057205,
7639
+ "eval_loss": 0.10047201067209244,
7640
+ "eval_runtime": 24.4476,
7641
+ "eval_samples_per_second": 29.737,
7642
+ "eval_steps_per_second": 14.889,
7643
+ "step": 1086
7644
  }
7645
  ],
7646
  "logging_steps": 1,
 
7660
  "attributes": {}
7661
  }
7662
  },
7663
+ "total_flos": 2.0405317567669862e+17,
7664
  "train_batch_size": 2,
7665
  "trial_name": null,
7666
  "trial_params": null