Model save

Browse files

Files changed (8) hide show

README.md +4 -6
adapter_model.safetensors +1 -1
all_results.json +7 -7
eval_results.json +4 -4
runs/Jan08_21-58-27_ip-26-0-163-236/events.out.tfevents.1704751173.ip-26-0-163-236.395917.0 +2 -2
runs/Jan08_21-58-27_ip-26-0-163-236/events.out.tfevents.1704763362.ip-26-0-163-236.395917.1 +3 -0
train_results.json +3 -3
trainer_state.json +1241 -1193

README.md CHANGED Viewed

@@ -2,13 +2,11 @@
 license: apache-2.0
 library_name: peft
 tags:
-- alignment-handbook
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
 datasets:
-- HuggingFaceH4/ultrachat_200k
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b-sft-qlora
@@ -20,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-sft-qlora
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the HuggingFaceH4/ultrachat_200k dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9693
 ## Model description
@@ -59,7 +57,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.961         | 1.0   | 2135 | 0.9693          |
 ### Framework versions

 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 datasets:
+- generator
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b-sft-qlora
 # zephyr-7b-sft-qlora
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9502
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.9427        | 1.0   | 2179 | 0.9502          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32ec71851adec8e267d3f0c19a58d1cbf8a543868ed469f6e9a3993b61ef1b7d
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:60ac93d69a7419b6e34ed0cfca5ae66e1ea300b521be5a2cb6f2fb20c8c480ad
 size 83946192

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.0,
-    "eval_loss": 0.9693147540092468,
-    "eval_runtime": 358.5672,
     "eval_samples": 23110,
-    "eval_samples_per_second": 42.179,
-    "eval_steps_per_second": 0.661,
-    "train_loss": 0.9789489164285414,
-    "train_runtime": 11596.772,
     "train_samples": 207865,
-    "train_samples_per_second": 11.784,
     "train_steps_per_second": 0.184
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.9502024054527283,
+    "eval_runtime": 365.3208,
     "eval_samples": 23110,
+    "eval_samples_per_second": 42.24,
+    "eval_steps_per_second": 0.662,
+    "train_loss": 0.9579998909633823,
+    "train_runtime": 11823.5935,
     "train_samples": 207865,
+    "train_samples_per_second": 11.792,
     "train_steps_per_second": 0.184
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "eval_loss": 0.9693147540092468,
-    "eval_runtime": 358.5672,
     "eval_samples": 23110,
-    "eval_samples_per_second": 42.179,
-    "eval_steps_per_second": 0.661
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.9502024054527283,
+    "eval_runtime": 365.3208,
     "eval_samples": 23110,
+    "eval_samples_per_second": 42.24,
+    "eval_steps_per_second": 0.662
 }

runs/Jan08_21-58-27_ip-26-0-163-236/events.out.tfevents.1704751173.ip-26-0-163-236.395917.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b57e1fe3705c576399dba221a5e47c9b24a1be83f33a1c0245cf9f10f02edd2c
-size 70860

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ff2c415f1b6a03988efe0a961dc4ca255b40548d2ac479934acc801aad436c3
+size 73840

runs/Jan08_21-58-27_ip-26-0-163-236/events.out.tfevents.1704763362.ip-26-0-163-236.395917.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e73e5d530b9aaf9d38b69e8c6a2302a6d5c13cf2e1a6a4ed7bf646f09d5c635
+size 359

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.9789489164285414,
-    "train_runtime": 11596.772,
     "train_samples": 207865,
-    "train_samples_per_second": 11.784,
     "train_steps_per_second": 0.184
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.9579998909633823,
+    "train_runtime": 11823.5935,
     "train_samples": 207865,
+    "train_samples_per_second": 11.792,
     "train_steps_per_second": 0.184
 }

trainer_state.json CHANGED Viewed

@@ -1,2605 +1,2653 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9997658627955982,
   "eval_steps": 500,
-  "global_step": 2135,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 9.345794392523364e-07,
-      "loss": 1.2941,
       "step": 1
     },
     {
       "epoch": 0.0,
-      "learning_rate": 4.6728971962616825e-06,
-      "loss": 1.2342,
       "step": 5
     },
     {
       "epoch": 0.0,
-      "learning_rate": 9.345794392523365e-06,
-      "loss": 1.3088,
       "step": 10
     },
     {
       "epoch": 0.01,
-      "learning_rate": 1.4018691588785047e-05,
-      "loss": 1.2922,
       "step": 15
     },
     {
       "epoch": 0.01,
-      "learning_rate": 1.869158878504673e-05,
-      "loss": 1.2423,
       "step": 20
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.3364485981308414e-05,
-      "loss": 1.1562,
       "step": 25
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.8037383177570094e-05,
-      "loss": 1.1215,
       "step": 30
     },
     {
       "epoch": 0.02,
-      "learning_rate": 3.2710280373831774e-05,
-      "loss": 1.1269,
       "step": 35
     },
     {
       "epoch": 0.02,
-      "learning_rate": 3.738317757009346e-05,
-      "loss": 1.091,
       "step": 40
     },
     {
       "epoch": 0.02,
-      "learning_rate": 4.205607476635514e-05,
-      "loss": 1.0565,
       "step": 45
     },
     {
       "epoch": 0.02,
-      "learning_rate": 4.672897196261683e-05,
-      "loss": 1.0861,
       "step": 50
     },
     {
       "epoch": 0.03,
-      "learning_rate": 5.14018691588785e-05,
-      "loss": 1.0887,
       "step": 55
     },
     {
       "epoch": 0.03,
-      "learning_rate": 5.607476635514019e-05,
-      "loss": 1.0357,
       "step": 60
     },
     {
       "epoch": 0.03,
-      "learning_rate": 6.074766355140187e-05,
-      "loss": 1.0388,
       "step": 65
     },
     {
       "epoch": 0.03,
-      "learning_rate": 6.542056074766355e-05,
-      "loss": 1.0332,
       "step": 70
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 7.009345794392523e-05,
-      "loss": 1.0051,
       "step": 75
     },
     {
       "epoch": 0.04,
-      "learning_rate": 7.476635514018692e-05,
-      "loss": 1.0493,
       "step": 80
     },
     {
       "epoch": 0.04,
-      "learning_rate": 7.94392523364486e-05,
-      "loss": 1.0037,
       "step": 85
     },
     {
       "epoch": 0.04,
-      "learning_rate": 8.411214953271028e-05,
-      "loss": 1.0064,
       "step": 90
     },
     {
       "epoch": 0.04,
-      "learning_rate": 8.878504672897197e-05,
-      "loss": 1.0123,
       "step": 95
     },
     {
       "epoch": 0.05,
-      "learning_rate": 9.345794392523365e-05,
-      "loss": 0.996,
       "step": 100
     },
     {
       "epoch": 0.05,
-      "learning_rate": 9.813084112149533e-05,
-      "loss": 1.0225,
       "step": 105
     },
     {
       "epoch": 0.05,
-      "learning_rate": 0.000102803738317757,
-      "loss": 1.0023,
       "step": 110
     },
     {
       "epoch": 0.05,
-      "learning_rate": 0.0001074766355140187,
-      "loss": 1.0279,
       "step": 115
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.00011214953271028037,
-      "loss": 0.9937,
       "step": 120
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.00011682242990654206,
-      "loss": 1.0253,
       "step": 125
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.00012149532710280373,
-      "loss": 0.9973,
       "step": 130
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.00012616822429906542,
-      "loss": 1.0207,
       "step": 135
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 0.0001308411214953271,
-      "loss": 0.9923,
       "step": 140
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0001355140186915888,
-      "loss": 1.0081,
       "step": 145
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.00014018691588785047,
-      "loss": 0.9948,
       "step": 150
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.00014485981308411217,
-      "loss": 1.0017,
       "step": 155
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.00014953271028037384,
-      "loss": 0.9957,
       "step": 160
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.00015420560747663551,
-      "loss": 0.9777,
       "step": 165
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.0001588785046728972,
-      "loss": 1.0305,
       "step": 170
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.0001635514018691589,
-      "loss": 1.0018,
       "step": 175
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.00016822429906542056,
-      "loss": 0.9955,
       "step": 180
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 0.00017289719626168226,
-      "loss": 1.0194,
       "step": 185
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.00017757009345794393,
-      "loss": 1.0042,
       "step": 190
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.00018224299065420564,
-      "loss": 0.9807,
       "step": 195
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.0001869158878504673,
-      "loss": 0.9986,
       "step": 200
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 0.00019158878504672898,
-      "loss": 1.0198,
       "step": 205
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.00019626168224299065,
-      "loss": 1.0206,
       "step": 210
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.00019999986627428667,
-      "loss": 1.0095,
       "step": 215
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.00019999518591187355,
-      "loss": 0.9929,
       "step": 220
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 0.00019998381962144118,
-      "loss": 1.0345,
       "step": 225
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00019996576816296808,
-      "loss": 0.9902,
       "step": 230
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00019994103274341996,
-      "loss": 0.9747,
       "step": 235
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00019990961501666874,
-      "loss": 1.0159,
       "step": 240
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00019987151708338215,
-      "loss": 0.9714,
       "step": 245
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 0.00019982674149088321,
-      "loss": 0.9779,
       "step": 250
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00019977529123297992,
-      "loss": 1.0151,
       "step": 255
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00019971716974976513,
-      "loss": 1.0168,
       "step": 260
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00019965238092738643,
-      "loss": 0.9975,
       "step": 265
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 0.0001995809290977864,
-      "loss": 0.977,
       "step": 270
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.00019950281903841294,
-      "loss": 0.9709,
       "step": 275
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.00019941805597189978,
-      "loss": 1.0065,
       "step": 280
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.00019932664556571744,
-      "loss": 0.9941,
       "step": 285
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 0.00019922859393179404,
-      "loss": 0.9921,
       "step": 290
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.0001991239076261069,
-      "loss": 0.9867,
       "step": 295
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.00019901259364824402,
-      "loss": 0.9502,
       "step": 300
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.00019889465944093607,
-      "loss": 0.9917,
       "step": 305
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 0.00019877011288955897,
-      "loss": 0.9956,
       "step": 310
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 0.00019863896232160636,
-      "loss": 0.9845,
       "step": 315
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00019850121650613294,
-      "loss": 0.9825,
       "step": 320
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00019835688465316817,
-      "loss": 0.992,
       "step": 325
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00019820597641310043,
-      "loss": 0.9658,
       "step": 330
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.00019804850187603177,
-      "loss": 0.9612,
       "step": 335
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.00019788447157110324,
-      "loss": 0.9886,
       "step": 340
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.000197713896465791,
-      "loss": 0.9608,
       "step": 345
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.00019753678796517282,
-      "loss": 0.9718,
       "step": 350
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 0.00019735315791116564,
-      "loss": 0.9944,
       "step": 355
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.00019716301858173382,
-      "loss": 0.9956,
       "step": 360
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.00019696638269006803,
-      "loss": 0.9601,
       "step": 365
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.0001967632633837354,
-      "loss": 0.9937,
       "step": 370
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 0.0001965536742438003,
-      "loss": 0.9991,
       "step": 375
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 0.00019633762928391647,
-      "loss": 0.9942,
       "step": 380
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.00019611514294938984,
-      "loss": 0.9772,
       "step": 385
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.00019588623011621267,
-      "loss": 0.9883,
       "step": 390
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.00019565090609006904,
-      "loss": 0.9767,
       "step": 395
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 0.00019540918660531146,
-      "loss": 0.9879,
       "step": 400
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.0001951610878239087,
-      "loss": 0.9539,
       "step": 405
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.00019490662633436535,
-      "loss": 0.9673,
       "step": 410
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.0001946458191506124,
-      "loss": 0.9867,
       "step": 415
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 0.00019437868371087,
-      "loss": 1.0239,
       "step": 420
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0001941052378764812,
-      "loss": 0.9925,
       "step": 425
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.00019382549993071784,
-      "loss": 0.9917,
       "step": 430
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.00019353948857755803,
-      "loss": 0.9818,
       "step": 435
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 0.00019324722294043558,
-      "loss": 0.9829,
       "step": 440
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 0.00019294872256096142,
-      "loss": 0.9639,
       "step": 445
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.0001926440073976168,
-      "loss": 0.9901,
       "step": 450
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.00019233309782441907,
-      "loss": 0.9943,
       "step": 455
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 0.00019201601462955921,
-      "loss": 0.9851,
       "step": 460
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 0.00019169277901401213,
-      "loss": 0.9705,
       "step": 465
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00019136341259011876,
-      "loss": 1.0047,
       "step": 470
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00019102793738014133,
-      "loss": 0.9877,
       "step": 475
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00019068637581479072,
-      "loss": 0.9798,
       "step": 480
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 0.00019033875073172678,
-      "loss": 0.9738,
       "step": 485
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 0.00018998508537403127,
       "loss": 0.9755,
       "step": 490
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0001896254033886538,
-      "loss": 0.9878,
       "step": 495
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0001892597288248308,
-      "loss": 0.9731,
       "step": 500
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 0.0001888880861324774,
-      "loss": 0.9863,
       "step": 505
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 0.00018851050016055275,
-      "loss": 0.9749,
       "step": 510
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.0001881269961553986,
-      "loss": 0.9991,
       "step": 515
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.00018773759975905098,
-      "loss": 0.9769,
       "step": 520
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 0.00018734233700752617,
-      "loss": 0.9751,
       "step": 525
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 0.00018694123432907945,
-      "loss": 0.9783,
       "step": 530
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.00018653431854243828,
-      "loss": 0.9968,
       "step": 535
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.00018612161685500905,
-      "loss": 0.988,
       "step": 540
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 0.00018570315686105787,
-      "loss": 0.9802,
       "step": 545
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 0.00018527896653986576,
-      "loss": 0.9667,
       "step": 550
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 0.0001848490742538576,
-      "loss": 0.9736,
       "step": 555
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.00018441350874670595,
-      "loss": 0.9777,
       "step": 560
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.0001839722991414091,
-      "loss": 0.9931,
       "step": 565
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 0.00018352547493834384,
-      "loss": 0.9518,
       "step": 570
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 0.00018307306601329302,
-      "loss": 0.9664,
       "step": 575
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.00018261510261544792,
-      "loss": 0.9788,
       "step": 580
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.00018215161536538582,
-      "loss": 0.9746,
       "step": 585
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.00018168263525302248,
-      "loss": 0.9983,
       "step": 590
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.0001812081936355402,
-      "loss": 0.9968,
       "step": 595
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.0001807283222352912,
-      "loss": 0.9762,
       "step": 600
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.00018024305313767646,
-      "loss": 0.9725,
       "step": 605
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 0.00017975241878900059,
-      "loss": 0.9516,
       "step": 610
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 0.00017925645199430215,
-      "loss": 0.9665,
       "step": 615
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 0.0001787551859151606,
-      "loss": 0.989,
       "step": 620
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.00017824865406747856,
-      "loss": 0.994,
       "step": 625
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 0.0001777368903192412,
-      "loss": 0.99,
       "step": 630
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 0.00017721992888825166,
-      "loss": 0.9745,
       "step": 635
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 0.00017669780433984312,
-      "loss": 0.9517,
       "step": 640
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.00017617055158456761,
-      "loss": 0.9651,
       "step": 645
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.00017563820587586205,
-      "loss": 0.9391,
       "step": 650
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 0.00017510080280769082,
-      "loss": 0.9695,
       "step": 655
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 0.00017455837831216605,
-      "loss": 0.9776,
       "step": 660
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.000174010968657145,
-      "loss": 0.979,
       "step": 665
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.00017345861044380524,
-      "loss": 0.971,
       "step": 670
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.0001729013406041972,
-      "loss": 0.9787,
       "step": 675
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.00017233919639877504,
-      "loss": 0.9693,
       "step": 680
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.00017177221541390513,
-      "loss": 0.9923,
       "step": 685
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.00017120043555935298,
-      "loss": 0.9755,
       "step": 690
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 0.00017062389506574855,
-      "loss": 0.9742,
       "step": 695
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 0.0001700426324820301,
-      "loss": 0.9506,
       "step": 700
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 0.00016945668667286647,
-      "loss": 0.976,
       "step": 705
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00016886609681605877,
-      "loss": 0.9565,
       "step": 710
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00016827090239992072,
-      "loss": 0.9903,
       "step": 715
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 0.0001676711432206384,
-      "loss": 0.9854,
       "step": 720
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 0.00016706685937960933,
-      "loss": 0.9799,
       "step": 725
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.00016645809128076127,
-      "loss": 0.9656,
       "step": 730
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.00016584487962785055,
-      "loss": 0.9596,
       "step": 735
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 0.00016522726542174073,
-      "loss": 0.9823,
       "step": 740
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 0.0001646052899576611,
-      "loss": 0.9761,
       "step": 745
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 0.00016397899482244549,
-      "loss": 0.9734,
       "step": 750
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.00016334842189175174,
-      "loss": 0.9688,
       "step": 755
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.00016271361332726185,
-      "loss": 0.9618,
       "step": 760
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.0001620746115738628,
-      "loss": 0.9534,
       "step": 765
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.0001614314593568087,
-      "loss": 0.9783,
       "step": 770
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.00016078419967886402,
-      "loss": 0.9581,
       "step": 775
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 0.00016013287581742835,
-      "loss": 0.9617,
       "step": 780
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 0.00015947753132164276,
-      "loss": 0.9949,
       "step": 785
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 0.0001588182100094779,
-      "loss": 0.9943,
       "step": 790
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 0.0001581549559648044,
-      "loss": 0.971,
       "step": 795
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.0001574878135344451,
-      "loss": 0.9698,
       "step": 800
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.00015681682732521015,
-      "loss": 0.9898,
       "step": 805
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.0001561420422009143,
-      "loss": 0.9851,
       "step": 810
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.00015546350327937724,
-      "loss": 0.9624,
       "step": 815
     },
     {
       "epoch": 0.38,
-      "learning_rate": 0.00015478125592940692,
-      "loss": 0.9884,
       "step": 820
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 0.00015409534576776618,
-      "loss": 0.9695,
       "step": 825
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 0.00015340581865612245,
-      "loss": 0.9812,
       "step": 830
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 0.00015271272069798157,
-      "loss": 0.9434,
       "step": 835
     },
     {
       "epoch": 0.39,
-      "learning_rate": 0.00015201609823560505,
-      "loss": 0.9697,
       "step": 840
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.0001513159978469117,
-      "loss": 1.0019,
       "step": 845
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.00015061246634236297,
-      "loss": 0.9909,
       "step": 850
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.0001499055507618334,
-      "loss": 0.9861,
       "step": 855
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.00014919529837146528,
-      "loss": 0.9814,
       "step": 860
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 0.00014848175666050842,
-      "loss": 0.9709,
       "step": 865
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 0.00014776497333814477,
-      "loss": 0.9609,
       "step": 870
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 0.0001470449963302984,
-      "loss": 0.9776,
       "step": 875
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 0.00014632187377643143,
-      "loss": 0.9853,
       "step": 880
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.0001455956540263248,
-      "loss": 0.9712,
       "step": 885
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 0.0001448663856368459,
-      "loss": 1.0023,
       "step": 890
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 0.00014413411736870164,
-      "loss": 0.9827,
       "step": 895
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 0.00014339889818317843,
-      "loss": 0.9673,
       "step": 900
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.0001426607772388683,
-      "loss": 0.9884,
       "step": 905
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 0.00014191980388838217,
-      "loss": 0.9492,
       "step": 910
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 0.00014117602767504996,
-      "loss": 0.9896,
       "step": 915
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 0.00014042949832960799,
-      "loss": 0.9707,
       "step": 920
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 0.0001396802657668739,
-      "loss": 0.9692,
       "step": 925
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.00013892838008240917,
-      "loss": 0.9834,
       "step": 930
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.00013817389154916962,
-      "loss": 0.9739,
       "step": 935
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.00013741685061414405,
-      "loss": 0.9597,
       "step": 940
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.0001366573078949813,
-      "loss": 0.9908,
       "step": 945
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.0001358953141766056,
-      "loss": 0.9623,
       "step": 950
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 0.0001351309204078212,
-      "loss": 0.9579,
       "step": 955
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 0.00013436417769790578,
-      "loss": 0.986,
       "step": 960
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 0.00013359513731319293,
-      "loss": 0.9642,
       "step": 965
     },
     {
       "epoch": 0.45,
-      "learning_rate": 0.00013282385067364466,
-      "loss": 0.9835,
       "step": 970
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 0.00013205036934941318,
-      "loss": 0.9459,
       "step": 975
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 0.0001312747450573927,
-      "loss": 0.9774,
       "step": 980
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 0.00013049702965776174,
-      "loss": 0.9404,
       "step": 985
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 0.00012971727515051536,
-      "loss": 0.9711,
       "step": 990
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 0.00012893553367198862,
-      "loss": 0.9812,
       "step": 995
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 0.0001281518574913703,
-      "loss": 0.9789,
       "step": 1000
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 0.0001273662990072083,
-      "loss": 0.9795,
       "step": 1005
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 0.00012657891074390593,
-      "loss": 0.9789,
       "step": 1010
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.00012578974534821022,
-      "loss": 0.9839,
       "step": 1015
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.0001249988555856916,
-      "loss": 0.9711,
       "step": 1020
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.0001242062943372161,
-      "loss": 0.9792,
       "step": 1025
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.0001234121145954094,
-      "loss": 0.965,
       "step": 1030
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.00012261636946111367,
-      "loss": 0.9506,
       "step": 1035
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 0.00012181911213983719,
-      "loss": 0.9823,
       "step": 1040
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 0.00012102039593819681,
-      "loss": 0.9525,
       "step": 1045
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 0.00012022027426035378,
-      "loss": 0.9684,
       "step": 1050
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 0.00011941880060444297,
-      "loss": 0.9582,
       "step": 1055
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.00011861602855899594,
-      "loss": 0.9762,
       "step": 1060
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.00011781201179935777,
-      "loss": 0.9555,
       "step": 1065
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.00011700680408409825,
-      "loss": 0.9698,
       "step": 1070
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.00011620045925141747,
-      "loss": 0.9931,
       "step": 1075
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 0.00011539303121554599,
-      "loss": 0.9601,
       "step": 1080
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 0.00011458457396314009,
-      "loss": 0.9903,
       "step": 1085
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 0.00011377514154967195,
-      "loss": 0.9675,
       "step": 1090
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 0.00011296478809581552,
-      "loss": 0.9869,
       "step": 1095
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.00011215356778382788,
-      "loss": 0.9511,
       "step": 1100
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.00011134153485392632,
-      "loss": 0.975,
       "step": 1105
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.00011052874360066177,
-      "loss": 0.9483,
       "step": 1110
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.0001097152483692886,
-      "loss": 0.9664,
       "step": 1115
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.00010890110355213092,
-      "loss": 0.9699,
       "step": 1120
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 0.00010808636358494584,
-      "loss": 0.9845,
       "step": 1125
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 0.00010727108294328352,
-      "loss": 0.9556,
       "step": 1130
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 0.00010645531613884508,
-      "loss": 0.9756,
       "step": 1135
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 0.00010563911771583767,
-      "loss": 0.9569,
       "step": 1140
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.00010482254224732757,
-      "loss": 0.9798,
       "step": 1145
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.0001040056443315912,
-      "loss": 0.9716,
       "step": 1150
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.0001031884785884647,
-      "loss": 0.978,
       "step": 1155
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.00010237109965569171,
-      "loss": 0.9673,
       "step": 1160
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 0.00010155356218527036,
-      "loss": 0.959,
       "step": 1165
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 0.0001007359208397989,
-      "loss": 0.9847,
       "step": 1170
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 9.991823028882101e-05,
-      "loss": 0.9547,
       "step": 1175
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 9.91005452051704e-05,
-      "loss": 0.9719,
       "step": 1180
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 9.828292026131506e-05,
-      "loss": 0.9806,
       "step": 1185
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 9.74654101257021e-05,
-      "loss": 0.9824,
       "step": 1190
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 9.664806945910209e-05,
-      "loss": 0.9558,
       "step": 1195
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 9.583095291095453e-05,
-      "loss": 0.946,
       "step": 1200
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 9.50141151157139e-05,
-      "loss": 0.981,
       "step": 1205
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 9.419761068919636e-05,
-      "loss": 0.959,
       "step": 1210
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 9.338149422492843e-05,
-      "loss": 0.9484,
       "step": 1215
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 9.256582029049634e-05,
-      "loss": 0.9838,
       "step": 1220
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 9.175064342389769e-05,
-      "loss": 0.9326,
       "step": 1225
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 9.093601812989503e-05,
-      "loss": 0.9819,
       "step": 1230
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 9.01219988763712e-05,
-      "loss": 0.9508,
       "step": 1235
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 8.93086400906877e-05,
-      "loss": 0.9967,
       "step": 1240
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 8.849599615604558e-05,
-      "loss": 0.973,
       "step": 1245
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 8.768412140784913e-05,
-      "loss": 0.9597,
       "step": 1250
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 8.687307013007288e-05,
-      "loss": 0.9484,
       "step": 1255
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 8.60628965516321e-05,
-      "loss": 0.972,
       "step": 1260
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 8.525365484275686e-05,
-      "loss": 0.9596,
       "step": 1265
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 8.444539911137016e-05,
-      "loss": 0.9844,
       "step": 1270
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 8.363818339946998e-05,
-      "loss": 0.9506,
       "step": 1275
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 8.283206167951608e-05,
-      "loss": 0.961,
       "step": 1280
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 8.202708785082121e-05,
-      "loss": 0.957,
       "step": 1285
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 8.122331573594713e-05,
-      "loss": 0.9625,
       "step": 1290
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 8.042079907710615e-05,
-      "loss": 0.9641,
       "step": 1295
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 7.961959153256751e-05,
-      "loss": 0.9851,
       "step": 1300
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 7.881974667306988e-05,
-      "loss": 0.9625,
       "step": 1305
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 7.802131797823943e-05,
-      "loss": 0.9433,
       "step": 1310
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 7.722435883301398e-05,
-      "loss": 0.9651,
       "step": 1315
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 7.64289225240735e-05,
-      "loss": 0.9537,
       "step": 1320
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 7.56350622362775e-05,
-      "loss": 0.9622,
       "step": 1325
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 7.484283104910862e-05,
-      "loss": 0.9533,
       "step": 1330
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 7.405228193312394e-05,
-      "loss": 0.9717,
       "step": 1335
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 7.326346774641287e-05,
-      "loss": 0.9514,
       "step": 1340
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 7.247644123106315e-05,
-      "loss": 0.9715,
       "step": 1345
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 7.169125500963446e-05,
-      "loss": 0.9503,
       "step": 1350
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 7.090796158163974e-05,
-      "loss": 0.9575,
       "step": 1355
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 7.0126613320035e-05,
-      "loss": 0.9616,
       "step": 1360
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 6.934726246771768e-05,
-      "loss": 0.9473,
       "step": 1365
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 6.85699611340333e-05,
-      "loss": 0.9474,
       "step": 1370
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 6.779476129129158e-05,
-      "loss": 0.9823,
       "step": 1375
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 6.702171477129121e-05,
-      "loss": 0.9705,
       "step": 1380
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 6.625087326185435e-05,
-      "loss": 0.9633,
       "step": 1385
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 6.548228830337071e-05,
-      "loss": 0.9623,
       "step": 1390
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 6.47160112853513e-05,
-      "loss": 0.9751,
       "step": 1395
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 6.395209344299243e-05,
-      "loss": 0.9896,
       "step": 1400
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 6.319058585375015e-05,
-      "loss": 0.972,
       "step": 1405
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 6.243153943392483e-05,
-      "loss": 0.9388,
       "step": 1410
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 6.167500493525706e-05,
-      "loss": 0.9666,
       "step": 1415
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 6.092103294153395e-05,
-      "loss": 0.9605,
       "step": 1420
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 6.016967386520713e-05,
-      "loss": 0.9732,
       "step": 1425
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 5.9420977944022194e-05,
-      "loss": 0.9875,
       "step": 1430
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 5.867499523765942e-05,
-      "loss": 0.9626,
       "step": 1435
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 5.7931775624386696e-05,
-      "loss": 0.974,
       "step": 1440
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 5.719136879772476e-05,
-      "loss": 0.9973,
       "step": 1445
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 5.645382426312431e-05,
-      "loss": 0.9448,
       "step": 1450
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 5.571919133465605e-05,
-      "loss": 0.9357,
       "step": 1455
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 5.498751913171348e-05,
-      "loss": 0.9627,
       "step": 1460
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 5.425885657572843e-05,
-      "loss": 0.9628,
       "step": 1465
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 5.3533252386900445e-05,
-      "loss": 0.9533,
       "step": 1470
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 5.281075508093889e-05,
-      "loss": 0.9504,
       "step": 1475
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 5.209141296581903e-05,
-      "loss": 0.9753,
       "step": 1480
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 5.137527413855252e-05,
-      "loss": 0.987,
       "step": 1485
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 5.066238648197081e-05,
-      "loss": 0.9582,
       "step": 1490
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 4.9952797661524254e-05,
-      "loss": 0.976,
       "step": 1495
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 4.9246555122094664e-05,
-      "loss": 0.9696,
       "step": 1500
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 4.8543706084823015e-05,
-      "loss": 0.9874,
       "step": 1505
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 4.784429754395252e-05,
-      "loss": 0.9728,
       "step": 1510
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 4.714837626368594e-05,
-      "loss": 0.9651,
       "step": 1515
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 4.6455988775059186e-05,
-      "loss": 0.9734,
       "step": 1520
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 4.576718137283016e-05,
-      "loss": 0.954,
       "step": 1525
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 4.508200011238295e-05,
-      "loss": 0.9678,
       "step": 1530
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 4.440049080664904e-05,
-      "loss": 0.9681,
       "step": 1535
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 4.372269902304363e-05,
-      "loss": 0.9529,
       "step": 1540
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 4.304867008041921e-05,
-      "loss": 0.9926,
       "step": 1545
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 4.237844904603529e-05,
-      "loss": 0.9557,
       "step": 1550
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 4.17120807325451e-05,
-      "loss": 0.9683,
       "step": 1555
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 4.104960969499937e-05,
-      "loss": 0.9552,
       "step": 1560
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 4.0391080227867176e-05,
-      "loss": 0.9812,
       "step": 1565
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 3.973653636207437e-05,
-      "loss": 0.9612,
       "step": 1570
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 3.908602186205954e-05,
-      "loss": 1.0019,
       "step": 1575
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 3.8439580222847784e-05,
-      "loss": 0.9753,
       "step": 1580
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 3.7797254667142576e-05,
-      "loss": 0.9622,
       "step": 1585
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 3.715908814243575e-05,
-      "loss": 0.9594,
       "step": 1590
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 3.6525123318135936e-05,
-      "loss": 0.9475,
       "step": 1595
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 3.5895402582715565e-05,
-      "loss": 0.9623,
       "step": 1600
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 3.526996804087669e-05,
-      "loss": 0.9484,
       "step": 1605
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 3.464886151073574e-05,
-      "loss": 0.9975,
       "step": 1610
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 3.4032124521027484e-05,
-      "loss": 0.9708,
       "step": 1615
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 3.341979830832829e-05,
-      "loss": 0.9635,
       "step": 1620
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 3.281192381429894e-05,
-      "loss": 0.9694,
       "step": 1625
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 3.220854168294719e-05,
-      "loss": 0.9649,
       "step": 1630
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 3.160969225791024e-05,
-      "loss": 0.9435,
       "step": 1635
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 3.1015415579757077e-05,
-      "loss": 0.9615,
       "step": 1640
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 3.042575138331162e-05,
-      "loss": 0.9532,
       "step": 1645
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 2.9840739094995572e-05,
-      "loss": 0.9491,
       "step": 1650
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 2.9260417830192477e-05,
-      "loss": 0.9546,
       "step": 1655
     },
     {
       "epoch": 0.78,
-      "learning_rate": 2.868482639063238e-05,
-      "loss": 0.9773,
-      "step": 1660
     },
     {
       "epoch": 0.78,
-      "learning_rate": 2.811400326179724e-05,
-      "loss": 0.9671,
-      "step": 1665
     },
     {
       "epoch": 0.78,
-      "learning_rate": 2.7547986610348075e-05,
-      "loss": 0.9685,
-      "step": 1670
     },
     {
       "epoch": 0.78,
-      "learning_rate": 2.698681428157257e-05,
-      "loss": 0.9811,
-      "step": 1675
     },
     {
       "epoch": 0.79,
-      "learning_rate": 2.6430523796855024e-05,
-      "loss": 0.9796,
-      "step": 1680
     },
     {
       "epoch": 0.79,
-      "learning_rate": 2.5879152351167503e-05,
-      "loss": 0.9623,
-      "step": 1685
     },
     {
       "epoch": 0.79,
-      "learning_rate": 2.5332736810582623e-05,
-      "loss": 0.9719,
-      "step": 1690
     },
     {
       "epoch": 0.79,
-      "learning_rate": 2.4791313709809073e-05,
-      "loss": 0.9519,
-      "step": 1695
     },
     {
       "epoch": 0.8,
-      "learning_rate": 2.4254919249748277e-05,
-      "loss": 0.9573,
-      "step": 1700
     },
     {
       "epoch": 0.8,
-      "learning_rate": 2.37235892950743e-05,
-      "loss": 0.9777,
-      "step": 1705
     },
     {
       "epoch": 0.8,
-      "learning_rate": 2.3197359371835802e-05,
-      "loss": 0.9863,
-      "step": 1710
     },
     {
       "epoch": 0.8,
-      "learning_rate": 2.2676264665080414e-05,
-      "loss": 0.9409,
-      "step": 1715
     },
     {
       "epoch": 0.81,
-      "learning_rate": 2.216034001650249e-05,
-      "loss": 0.9693,
-      "step": 1720
     },
     {
       "epoch": 0.81,
-      "learning_rate": 2.164961992211333e-05,
-      "loss": 0.9698,
-      "step": 1725
     },
     {
       "epoch": 0.81,
-      "learning_rate": 2.114413852993471e-05,
-      "loss": 0.9479,
-      "step": 1730
     },
     {
       "epoch": 0.81,
-      "learning_rate": 2.06439296377158e-05,
-      "loss": 0.9407,
-      "step": 1735
     },
     {
       "epoch": 0.81,
-      "learning_rate": 2.014902669067308e-05,
-      "loss": 0.9805,
-      "step": 1740
     },
     {
       "epoch": 0.82,
-      "learning_rate": 1.9659462779254377e-05,
-      "loss": 0.9551,
-      "step": 1745
     },
     {
       "epoch": 0.82,
-      "learning_rate": 1.9175270636926256e-05,
-      "loss": 0.9601,
-      "step": 1750
     },
     {
       "epoch": 0.82,
-      "learning_rate": 1.8696482637985335e-05,
-      "loss": 0.958,
-      "step": 1755
     },
     {
       "epoch": 0.82,
-      "learning_rate": 1.8223130795393726e-05,
-      "loss": 0.9462,
-      "step": 1760
     },
     {
       "epoch": 0.83,
-      "learning_rate": 1.7755246758638545e-05,
-      "loss": 0.9494,
-      "step": 1765
     },
     {
       "epoch": 0.83,
-      "learning_rate": 1.7292861811615723e-05,
-      "loss": 0.9417,
-      "step": 1770
     },
     {
       "epoch": 0.83,
-      "learning_rate": 1.6836006870538334e-05,
-      "loss": 0.9737,
-      "step": 1775
     },
     {
       "epoch": 0.83,
-      "learning_rate": 1.6384712481869426e-05,
-      "loss": 0.9911,
-      "step": 1780
     },
     {
       "epoch": 0.84,
-      "learning_rate": 1.593900882027961e-05,
-      "loss": 0.9737,
-      "step": 1785
     },
     {
       "epoch": 0.84,
-      "learning_rate": 1.549892568662952e-05,
-      "loss": 0.9626,
-      "step": 1790
     },
     {
       "epoch": 0.84,
-      "learning_rate": 1.5064492505977234e-05,
-      "loss": 0.9629,
-      "step": 1795
     },
     {
       "epoch": 0.84,
-      "learning_rate": 1.4635738325610893e-05,
-      "loss": 0.9623,
-      "step": 1800
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 1.4212691813106427e-05,
-      "loss": 1.0034,
-      "step": 1805
     },
     {
       "epoch": 0.85,
-      "learning_rate": 1.3795381254410877e-05,
-      "loss": 0.9382,
-      "step": 1810
     },
     {
       "epoch": 0.85,
-      "learning_rate": 1.3383834551951058e-05,
-      "loss": 0.989,
-      "step": 1815
     },
     {
       "epoch": 0.85,
-      "learning_rate": 1.297807922276798e-05,
-      "loss": 0.9668,
-      "step": 1820
     },
     {
       "epoch": 0.85,
-      "learning_rate": 1.2578142396676883e-05,
-      "loss": 0.9663,
-      "step": 1825
     },
     {
       "epoch": 0.86,
-      "learning_rate": 1.2184050814453452e-05,
-      "loss": 0.9796,
-      "step": 1830
     },
     {
       "epoch": 0.86,
-      "learning_rate": 1.179583082604573e-05,
-      "loss": 0.9683,
-      "step": 1835
     },
     {
       "epoch": 0.86,
-      "learning_rate": 1.1413508388812233e-05,
-      "loss": 0.9543,
-      "step": 1840
     },
     {
       "epoch": 0.86,
-      "learning_rate": 1.1037109065786633e-05,
-      "loss": 0.941,
-      "step": 1845
     },
     {
       "epoch": 0.87,
-      "learning_rate": 1.0666658023968213e-05,
-      "loss": 0.9636,
-      "step": 1850
     },
     {
       "epoch": 0.87,
-      "learning_rate": 1.0302180032639452e-05,
-      "loss": 0.9812,
-      "step": 1855
     },
     {
       "epoch": 0.87,
-      "learning_rate": 9.943699461709687e-06,
-      "loss": 0.968,
-      "step": 1860
     },
     {
       "epoch": 0.87,
-      "learning_rate": 9.591240280085667e-06,
-      "loss": 0.9652,
-      "step": 1865
     },
     {
       "epoch": 0.88,
-      "learning_rate": 9.244826054069167e-06,
-      "loss": 0.9856,
-      "step": 1870
     },
     {
       "epoch": 0.88,
-      "learning_rate": 8.904479945780963e-06,
-      "loss": 0.9597,
-      "step": 1875
     },
     {
       "epoch": 0.88,
-      "learning_rate": 8.570224711612385e-06,
-      "loss": 0.9672,
-      "step": 1880
     },
     {
       "epoch": 0.88,
-      "learning_rate": 8.242082700703768e-06,
-      "loss": 0.9622,
-      "step": 1885
     },
     {
       "epoch": 0.89,
-      "learning_rate": 7.920075853449903e-06,
-      "loss": 0.9564,
-      "step": 1890
     },
     {
       "epoch": 0.89,
-      "learning_rate": 7.6042257000333735e-06,
-      "loss": 0.955,
-      "step": 1895
     },
     {
       "epoch": 0.89,
-      "learning_rate": 7.29455335898469e-06,
-      "loss": 0.927,
-      "step": 1900
     },
     {
       "epoch": 0.89,
-      "learning_rate": 6.991079535770484e-06,
-      "loss": 0.9741,
-      "step": 1905
     },
     {
       "epoch": 0.89,
-      "learning_rate": 6.693824521408953e-06,
-      "loss": 0.9765,
-      "step": 1910
     },
     {
       "epoch": 0.9,
-      "learning_rate": 6.402808191113196e-06,
-      "loss": 0.957,
-      "step": 1915
     },
     {
       "epoch": 0.9,
-      "learning_rate": 6.118050002962316e-06,
-      "loss": 0.9557,
-      "step": 1920
     },
     {
       "epoch": 0.9,
-      "learning_rate": 5.839568996600386e-06,
-      "loss": 0.9751,
-      "step": 1925
     },
     {
       "epoch": 0.9,
-      "learning_rate": 5.567383791963421e-06,
-      "loss": 0.9656,
-      "step": 1930
     },
     {
       "epoch": 0.91,
-      "learning_rate": 5.301512588034386e-06,
-      "loss": 0.969,
-      "step": 1935
     },
     {
       "epoch": 0.91,
-      "learning_rate": 5.041973161626401e-06,
-      "loss": 0.9519,
-      "step": 1940
     },
     {
       "epoch": 0.91,
-      "learning_rate": 4.788782866194108e-06,
-      "loss": 0.9769,
-      "step": 1945
     },
     {
       "epoch": 0.91,
-      "learning_rate": 4.541958630673382e-06,
-      "loss": 0.9643,
-      "step": 1950
     },
     {
       "epoch": 0.92,
-      "learning_rate": 4.3015169583494275e-06,
-      "loss": 0.9698,
-      "step": 1955
     },
     {
       "epoch": 0.92,
-      "learning_rate": 4.067473925753318e-06,
-      "loss": 0.9661,
-      "step": 1960
     },
     {
       "epoch": 0.92,
-      "learning_rate": 3.839845181587098e-06,
-      "loss": 0.9689,
-      "step": 1965
     },
     {
       "epoch": 0.92,
-      "learning_rate": 3.6186459456774456e-06,
-      "loss": 0.9756,
-      "step": 1970
     },
     {
       "epoch": 0.92,
-      "learning_rate": 3.4038910079580597e-06,
-      "loss": 0.9428,
-      "step": 1975
     },
     {
       "epoch": 0.93,
-      "learning_rate": 3.195594727480733e-06,
-      "loss": 0.9622,
-      "step": 1980
     },
     {
       "epoch": 0.93,
-      "learning_rate": 2.993771031455328e-06,
-      "loss": 0.9581,
-      "step": 1985
     },
     {
       "epoch": 0.93,
-      "learning_rate": 2.7984334143185242e-06,
-      "loss": 0.9504,
-      "step": 1990
     },
     {
       "epoch": 0.93,
-      "learning_rate": 2.609594936831561e-06,
-      "loss": 0.939,
-      "step": 1995
     },
     {
       "epoch": 0.94,
-      "learning_rate": 2.4272682252069135e-06,
-      "loss": 0.963,
-      "step": 2000
     },
     {
       "epoch": 0.94,
-      "learning_rate": 2.251465470264191e-06,
-      "loss": 0.9797,
-      "step": 2005
     },
     {
       "epoch": 0.94,
-      "learning_rate": 2.0821984266149232e-06,
-      "loss": 0.9382,
-      "step": 2010
     },
     {
       "epoch": 0.94,
-      "learning_rate": 1.9194784118766407e-06,
-      "loss": 0.9696,
-      "step": 2015
     },
     {
       "epoch": 0.95,
-      "learning_rate": 1.763316305916174e-06,
-      "loss": 0.9668,
-      "step": 2020
     },
     {
       "epoch": 0.95,
-      "learning_rate": 1.6137225501221654e-06,
-      "loss": 0.9905,
-      "step": 2025
     },
     {
       "epoch": 0.95,
-      "learning_rate": 1.4707071467069733e-06,
-      "loss": 0.9455,
-      "step": 2030
     },
     {
       "epoch": 0.95,
-      "learning_rate": 1.3342796580378736e-06,
-      "loss": 0.9529,
-      "step": 2035
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 1.204449205997671e-06,
-      "loss": 0.9581,
-      "step": 2040
     },
     {
       "epoch": 0.96,
-      "learning_rate": 1.0812244713748642e-06,
-      "loss": 0.9824,
-      "step": 2045
     },
     {
       "epoch": 0.96,
-      "learning_rate": 9.64613693283123e-07,
-      "loss": 0.9632,
-      "step": 2050
     },
     {
       "epoch": 0.96,
-      "learning_rate": 8.546246686105041e-07,
-      "loss": 0.9774,
-      "step": 2055
     },
     {
       "epoch": 0.96,
-      "learning_rate": 7.512647514980486e-07,
-      "loss": 0.9723,
-      "step": 2060
     },
     {
       "epoch": 0.97,
-      "learning_rate": 6.545408528481178e-07,
-      "loss": 0.9807,
-      "step": 2065
     },
     {
       "epoch": 0.97,
-      "learning_rate": 5.644594398622971e-07,
-      "loss": 0.959,
-      "step": 2070
     },
     {
       "epoch": 0.97,
-      "learning_rate": 4.810265356089638e-07,
-      "loss": 0.9432,
-      "step": 2075
     },
     {
       "epoch": 0.97,
-      "learning_rate": 4.042477186205873e-07,
-      "loss": 0.9648,
-      "step": 2080
     },
     {
       "epoch": 0.98,
-      "learning_rate": 3.341281225207604e-07,
-      "loss": 0.9755,
-      "step": 2085
     },
     {
       "epoch": 0.98,
-      "learning_rate": 2.706724356808965e-07,
-      "loss": 0.9684,
-      "step": 2090
     },
     {
       "epoch": 0.98,
-      "learning_rate": 2.1388490090680223e-07,
-      "loss": 0.9425,
-      "step": 2095
     },
     {
       "epoch": 0.98,
-      "learning_rate": 1.637693151549602e-07,
-      "loss": 0.979,
-      "step": 2100
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 1.203290292786763e-07,
-      "loss": 0.9589,
-      "step": 2105
     },
     {
       "epoch": 0.99,
-      "learning_rate": 8.356694780401463e-08,
-      "loss": 0.9717,
-      "step": 2110
     },
     {
       "epoch": 0.99,
-      "learning_rate": 5.3485528735619516e-08,
-      "loss": 0.9703,
-      "step": 2115
     },
     {
       "epoch": 0.99,
-      "learning_rate": 3.008678339234683e-08,
-      "loss": 0.9435,
-      "step": 2120
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 1.3372276272771712e-08,
-      "loss": 0.9864,
-      "step": 2125
     },
     {
       "epoch": 1.0,
-      "learning_rate": 3.3431249506166163e-09,
-      "loss": 0.9747,
-      "step": 2130
     },
     {
       "epoch": 1.0,
-      "learning_rate": 0.0,
-      "loss": 0.961,
-      "step": 2135
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.9693147540092468,
-      "eval_runtime": 359.0834,
-      "eval_samples_per_second": 42.118,
-      "eval_steps_per_second": 0.66,
-      "step": 2135
     },
     {
       "epoch": 1.0,
-      "step": 2135,
-      "total_flos": 1.2009452294891373e+19,
-      "train_loss": 0.9789489164285414,
-      "train_runtime": 11596.772,
-      "train_samples_per_second": 11.784,
       "train_steps_per_second": 0.184
     }
   ],
   "logging_steps": 5,
-  "max_steps": 2135,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 1.2009452294891373e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 2179,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 9.174311926605506e-07,
+      "loss": 1.136,
       "step": 1
     },
     {
       "epoch": 0.0,
+      "learning_rate": 4.587155963302753e-06,
+      "loss": 1.1485,
       "step": 5
     },
     {
       "epoch": 0.0,
+      "learning_rate": 9.174311926605506e-06,
+      "loss": 1.1204,
       "step": 10
     },
     {
       "epoch": 0.01,
+      "learning_rate": 1.3761467889908258e-05,
+      "loss": 1.1304,
       "step": 15
     },
     {
       "epoch": 0.01,
+      "learning_rate": 1.834862385321101e-05,
+      "loss": 1.0939,
       "step": 20
     },
     {
       "epoch": 0.01,
+      "learning_rate": 2.2935779816513765e-05,
+      "loss": 1.0726,
       "step": 25
     },
     {
       "epoch": 0.01,
+      "learning_rate": 2.7522935779816515e-05,
+      "loss": 1.0481,
       "step": 30
     },
     {
       "epoch": 0.02,
+      "learning_rate": 3.211009174311927e-05,
+      "loss": 1.0549,
       "step": 35
     },
     {
       "epoch": 0.02,
+      "learning_rate": 3.669724770642202e-05,
+      "loss": 1.0569,
       "step": 40
     },
     {
       "epoch": 0.02,
+      "learning_rate": 4.1284403669724776e-05,
+      "loss": 1.0303,
       "step": 45
     },
     {
       "epoch": 0.02,
+      "learning_rate": 4.587155963302753e-05,
+      "loss": 1.0319,
       "step": 50
     },
     {
       "epoch": 0.03,
+      "learning_rate": 5.0458715596330276e-05,
+      "loss": 1.0037,
       "step": 55
     },
     {
       "epoch": 0.03,
+      "learning_rate": 5.504587155963303e-05,
+      "loss": 1.007,
       "step": 60
     },
     {
       "epoch": 0.03,
+      "learning_rate": 5.9633027522935784e-05,
+      "loss": 1.0205,
       "step": 65
     },
     {
       "epoch": 0.03,
+      "learning_rate": 6.422018348623854e-05,
+      "loss": 0.9893,
       "step": 70
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 6.880733944954129e-05,
+      "loss": 1.0094,
       "step": 75
     },
     {
       "epoch": 0.04,
+      "learning_rate": 7.339449541284404e-05,
+      "loss": 1.0048,
       "step": 80
     },
     {
       "epoch": 0.04,
+      "learning_rate": 7.79816513761468e-05,
+      "loss": 1.0111,
       "step": 85
     },
     {
       "epoch": 0.04,
+      "learning_rate": 8.256880733944955e-05,
+      "loss": 1.0033,
       "step": 90
     },
     {
       "epoch": 0.04,
+      "learning_rate": 8.715596330275229e-05,
+      "loss": 1.0049,
       "step": 95
     },
     {
       "epoch": 0.05,
+      "learning_rate": 9.174311926605506e-05,
+      "loss": 0.9886,
       "step": 100
     },
     {
       "epoch": 0.05,
+      "learning_rate": 9.63302752293578e-05,
+      "loss": 0.9863,
       "step": 105
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.00010091743119266055,
+      "loss": 0.9712,
       "step": 110
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.00010550458715596329,
+      "loss": 1.0071,
       "step": 115
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.00011009174311926606,
+      "loss": 1.0044,
       "step": 120
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.00011467889908256881,
+      "loss": 0.9665,
       "step": 125
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.00011926605504587157,
+      "loss": 0.9981,
       "step": 130
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.00012385321100917432,
+      "loss": 0.9578,
       "step": 135
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00012844036697247707,
+      "loss": 0.986,
       "step": 140
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.00013302752293577983,
+      "loss": 0.9935,
       "step": 145
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.00013761467889908258,
+      "loss": 0.953,
       "step": 150
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0001422018348623853,
+      "loss": 0.9565,
       "step": 155
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0001467889908256881,
+      "loss": 0.9737,
       "step": 160
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.00015137614678899084,
+      "loss": 0.9819,
       "step": 165
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.0001559633027522936,
+      "loss": 0.9927,
       "step": 170
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.00016055045871559632,
+      "loss": 0.9803,
       "step": 175
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.0001651376146788991,
+      "loss": 0.9545,
       "step": 180
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00016972477064220186,
+      "loss": 0.9927,
       "step": 185
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.00017431192660550458,
+      "loss": 0.9737,
       "step": 190
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.00017889908256880734,
+      "loss": 0.9959,
       "step": 195
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.00018348623853211012,
+      "loss": 0.9655,
       "step": 200
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00018807339449541284,
+      "loss": 0.951,
       "step": 205
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.0001926605504587156,
+      "loss": 0.9531,
       "step": 210
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.00019724770642201835,
+      "loss": 0.9682,
       "step": 215
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.00019999948669655127,
+      "loss": 0.9663,
       "step": 220
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00019999371209327089,
+      "loss": 0.9875,
       "step": 225
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00019998152162914806,
+      "loss": 0.9624,
       "step": 230
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00019996291608635525,
+      "loss": 0.9615,
       "step": 235
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00019993789665867314,
+      "loss": 0.9677,
       "step": 240
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00019990646495141444,
+      "loss": 0.961,
       "step": 245
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.0001998686229813205,
+      "loss": 0.9984,
       "step": 250
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00019982437317643217,
+      "loss": 1.0021,
       "step": 255
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.0001997737183759338,
+      "loss": 0.9611,
       "step": 260
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00019971666182997137,
+      "loss": 0.9813,
       "step": 265
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 0.00019965320719944366,
+      "loss": 0.9875,
       "step": 270
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.00019958335855576738,
+      "loss": 0.992,
       "step": 275
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.00019950712038061617,
+      "loss": 0.9735,
       "step": 280
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.00019942449756563279,
+      "loss": 0.9527,
       "step": 285
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 0.00019933549541211552,
+      "loss": 0.9663,
       "step": 290
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.00019924011963067765,
+      "loss": 0.9567,
       "step": 295
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.00019913837634088144,
+      "loss": 0.9592,
       "step": 300
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.00019903027207084523,
+      "loss": 0.9665,
       "step": 305
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 0.00019891581375682473,
+      "loss": 0.9899,
       "step": 310
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 0.00019879500874276786,
+      "loss": 0.9579,
       "step": 315
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.00019866786477984357,
+      "loss": 0.9722,
       "step": 320
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.0001985343900259446,
+      "loss": 0.9859,
       "step": 325
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.0001983945930451639,
+      "loss": 0.9507,
       "step": 330
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 0.0001982484828072452,
+      "loss": 0.954,
       "step": 335
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.00019809606868700756,
+      "loss": 0.9514,
       "step": 340
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.00019793736046374373,
+      "loss": 0.9837,
       "step": 345
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.0001977723683205928,
+      "loss": 0.9614,
       "step": 350
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 0.00019760110284388667,
+      "loss": 0.9599,
       "step": 355
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.00019742357502247103,
+      "loss": 0.9687,
       "step": 360
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.00019723979624700004,
+      "loss": 0.9341,
       "step": 365
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.0001970497783092057,
+      "loss": 0.9717,
       "step": 370
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 0.00019685353340114103,
+      "loss": 0.9618,
       "step": 375
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 0.00019665107411439805,
+      "loss": 0.9694,
       "step": 380
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.00019644241343929966,
+      "loss": 0.9594,
       "step": 385
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.00019622756476406626,
+      "loss": 0.9628,
       "step": 390
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.00019600654187395663,
+      "loss": 0.9898,
       "step": 395
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 0.00019577935895038361,
+      "loss": 0.9763,
       "step": 400
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.00019554603057000397,
+      "loss": 0.9506,
       "step": 405
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.0001953065717037832,
+      "loss": 0.9376,
       "step": 410
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.00019506099771603513,
+      "loss": 0.9545,
       "step": 415
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 0.00019480932436343582,
+      "loss": 0.9778,
       "step": 420
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.00019455156779401265,
+      "loss": 0.9516,
       "step": 425
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.00019428774454610843,
+      "loss": 0.9429,
       "step": 430
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.00019401787154731993,
+      "loss": 0.9667,
       "step": 435
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 0.0001937419661134121,
+      "loss": 0.9919,
       "step": 440
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 0.00019346004594720669,
+      "loss": 0.9647,
       "step": 445
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.0001931721291374467,
+      "loss": 0.9802,
       "step": 450
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.00019287823415763553,
+      "loss": 0.9597,
       "step": 455
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 0.00019257837986485187,
+      "loss": 0.9517,
       "step": 460
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 0.0001922725854985396,
+      "loss": 0.9479,
       "step": 465
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.0001919608706792735,
+      "loss": 0.9598,
       "step": 470
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.00019164325540750016,
+      "loss": 0.9674,
       "step": 475
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.00019131976006225488,
+      "loss": 0.9816,
       "step": 480
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 0.00019099040539985394,
+      "loss": 0.9858,
       "step": 485
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 0.00019065521255256298,
       "loss": 0.9755,
       "step": 490
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.00019031420302724096,
+      "loss": 0.9582,
       "step": 495
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.00018996739870396026,
+      "loss": 0.9595,
       "step": 500
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 0.00018961482183460282,
+      "loss": 0.9523,
       "step": 505
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 0.00018925649504143244,
+      "loss": 0.9531,
       "step": 510
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.0001888924413156432,
+      "loss": 0.9659,
       "step": 515
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.0001885226840158843,
+      "loss": 0.9642,
       "step": 520
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 0.00018814724686676133,
+      "loss": 0.9894,
       "step": 525
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 0.00018776615395731398,
+      "loss": 0.9611,
       "step": 530
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.0001873794297394706,
+      "loss": 0.934,
       "step": 535
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.00018698709902647902,
+      "loss": 0.9633,
       "step": 540
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 0.00018658918699131468,
+      "loss": 0.9509,
       "step": 545
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 0.00018618571916506545,
+      "loss": 0.9642,
       "step": 550
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 0.00018577672143529336,
+      "loss": 0.9582,
       "step": 555
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.00018536222004437368,
+      "loss": 0.9632,
       "step": 560
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.0001849422415878112,
+      "loss": 0.9604,
       "step": 565
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 0.00018451681301253362,
+      "loss": 0.9754,
       "step": 570
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 0.00018408596161516267,
+      "loss": 0.9724,
       "step": 575
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.00018364971504026273,
+      "loss": 0.9722,
       "step": 580
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.00018320810127856705,
+      "loss": 0.9498,
       "step": 585
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 0.00018276114866518168,
+      "loss": 0.9548,
       "step": 590
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 0.00018230888587776755,
+      "loss": 0.9414,
       "step": 595
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.00018185134193470043,
+      "loss": 0.9492,
       "step": 600
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.00018138854619320893,
+      "loss": 0.9346,
       "step": 605
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 0.00018092052834749094,
+      "loss": 0.9561,
       "step": 610
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 0.0001804473184268084,
+      "loss": 0.9477,
       "step": 615
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 0.0001799689467935604,
+      "loss": 0.9432,
       "step": 620
     },
     {
       "epoch": 0.29,
+      "learning_rate": 0.00017948544414133534,
+      "loss": 0.93,
       "step": 625
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.00017899684149294117,
+      "loss": 0.9643,
       "step": 630
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.00017850317019841514,
+      "loss": 0.9441,
       "step": 635
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.00017800446193301227,
+      "loss": 0.9684,
       "step": 640
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.00017750074869517284,
+      "loss": 0.9372,
       "step": 645
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.00017699206280446953,
+      "loss": 0.9582,
       "step": 650
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.00017647843689953352,
+      "loss": 0.9602,
       "step": 655
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.00017595990393596026,
+      "loss": 0.9721,
       "step": 660
     },
     {
       "epoch": 0.31,
+      "learning_rate": 0.0001754364971841952,
+      "loss": 0.9657,
       "step": 665
     },
     {
       "epoch": 0.31,
+      "learning_rate": 0.0001749082502273988,
+      "loss": 0.9369,
       "step": 670
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 0.00017437519695929194,
+      "loss": 0.9591,
       "step": 675
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 0.0001738373715819811,
+      "loss": 0.9628,
       "step": 680
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 0.00017329480860376391,
+      "loss": 0.9611,
       "step": 685
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.00017274754283691504,
+      "loss": 0.9724,
       "step": 690
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 0.00017219560939545246,
+      "loss": 0.9514,
       "step": 695
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 0.00017163904369288445,
+      "loss": 0.9536,
       "step": 700
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 0.00017107788143993743,
+      "loss": 0.942,
       "step": 705
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.00017051215864226469,
+      "loss": 0.9705,
       "step": 710
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.0001699419115981361,
+      "loss": 0.9683,
       "step": 715
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.00016936717689610903,
+      "loss": 0.9672,
       "step": 720
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.00016878799141268106,
+      "loss": 0.9224,
       "step": 725
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.00016820439230992343,
+      "loss": 0.9482,
       "step": 730
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.00016761641703309704,
+      "loss": 0.9733,
       "step": 735
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 0.00016702410330824962,
+      "loss": 0.9445,
       "step": 740
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 0.00016642748913979513,
+      "loss": 0.9564,
       "step": 745
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 0.00016582661280807552,
+      "loss": 0.9623,
       "step": 750
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.0001652215128669042,
+      "loss": 0.9501,
       "step": 755
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 0.00016461222814109268,
+      "loss": 0.9746,
       "step": 760
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 0.00016399879772395915,
+      "loss": 0.9298,
       "step": 765
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 0.00016338126097482057,
+      "loss": 0.9564,
       "step": 770
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.0001627596575164668,
+      "loss": 0.9743,
       "step": 775
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.0001621340272326185,
+      "loss": 0.9626,
       "step": 780
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.00016150441026536823,
+      "loss": 0.9584,
       "step": 785
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.00016087084701260466,
+      "loss": 0.9679,
       "step": 790
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.00016023337812542048,
+      "loss": 0.9611,
       "step": 795
     },
     {
       "epoch": 0.37,
+      "learning_rate": 0.00015959204450550428,
+      "loss": 0.9511,
       "step": 800
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 0.00015894688730251614,
+      "loss": 0.9421,
       "step": 805
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 0.0001582979479114472,
+      "loss": 0.9358,
       "step": 810
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 0.000157645267969964,
+      "loss": 0.9657,
       "step": 815
     },
     {
       "epoch": 0.38,
+      "learning_rate": 0.0001569888893557365,
+      "loss": 0.9834,
       "step": 820
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 0.00015632885418375136,
+      "loss": 0.9345,
       "step": 825
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 0.00015566520480360957,
+      "loss": 0.938,
       "step": 830
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 0.0001549979837968094,
+      "loss": 0.9689,
       "step": 835
     },
     {
       "epoch": 0.39,
+      "learning_rate": 0.00015432723397401405,
+      "loss": 0.949,
       "step": 840
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.00015365299837230483,
+      "loss": 0.9793,
       "step": 845
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.00015297532025241992,
+      "loss": 0.9817,
       "step": 850
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.00015229424309597852,
+      "loss": 0.9594,
       "step": 855
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.00015160981060269107,
+      "loss": 0.9492,
       "step": 860
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.00015092206668755517,
+      "loss": 0.9577,
       "step": 865
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.00015023105547803806,
+      "loss": 0.9571,
       "step": 870
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.00014953682131124528,
+      "loss": 0.9305,
       "step": 875
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.0001488394087310757,
+      "loss": 0.9605,
       "step": 880
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.00014813886248536375,
+      "loss": 0.9463,
       "step": 885
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.00014743522752300793,
+      "loss": 0.9414,
       "step": 890
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.00014672854899108718,
+      "loss": 0.9486,
       "step": 895
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.00014601887223196372,
+      "loss": 0.9595,
       "step": 900
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.00014530624278037406,
+      "loss": 0.9755,
       "step": 905
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.0001445907063605072,
+      "loss": 0.9635,
       "step": 910
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.00014387230888307097,
+      "loss": 0.9518,
       "step": 915
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.0001431510964423462,
+      "loss": 0.9446,
       "step": 920
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.0001424271153132291,
+      "loss": 0.9636,
       "step": 925
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 0.00014170041194826248,
+      "loss": 0.941,
       "step": 930
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 0.0001409710329746547,
+      "loss": 0.9571,
       "step": 935
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 0.0001402390251912885,
+      "loss": 0.9402,
       "step": 940
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 0.00013950443556571778,
+      "loss": 0.9489,
       "step": 945
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.0001387673112311545,
+      "loss": 0.9711,
       "step": 950
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 0.00013802769948344405,
+      "loss": 0.9624,
       "step": 955
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 0.00013728564777803088,
+      "loss": 0.9483,
       "step": 960
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 0.0001365412037269136,
+      "loss": 0.966,
       "step": 965
     },
     {
       "epoch": 0.45,
+      "learning_rate": 0.00013579441509559004,
+      "loss": 0.9386,
       "step": 970
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.0001350453297999925,
+      "loss": 0.9489,
       "step": 975
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.00013429399590341324,
+      "loss": 0.9417,
       "step": 980
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.00013354046161342085,
+      "loss": 0.9699,
       "step": 985
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.0001327847752787669,
+      "loss": 0.9395,
       "step": 990
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 0.00013202698538628376,
+      "loss": 0.9344,
       "step": 995
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 0.00013126714055777377,
+      "loss": 0.9291,
       "step": 1000
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 0.0001305052895468893,
+      "loss": 0.9535,
       "step": 1005
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 0.00012974148123600477,
+      "loss": 0.9784,
       "step": 1010
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.00012897576463307997,
+      "loss": 0.9547,
       "step": 1015
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.00012820818886851598,
+      "loss": 0.9349,
       "step": 1020
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.00012743880319200242,
+      "loss": 0.9619,
       "step": 1025
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.00012666765696935773,
+      "loss": 0.9487,
       "step": 1030
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.0001258947996793616,
+      "loss": 0.9415,
       "step": 1035
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00012512028091058044,
+      "loss": 0.9346,
       "step": 1040
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00012434415035818535,
+      "loss": 0.9423,
       "step": 1045
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00012356645782076383,
+      "loss": 0.9546,
       "step": 1050
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00012278725319712447,
+      "loss": 0.9534,
       "step": 1055
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 0.00012200658648309531,
+      "loss": 0.9592,
       "step": 1060
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 0.00012122450776831594,
+      "loss": 0.9446,
       "step": 1065
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 0.00012044106723302364,
+      "loss": 0.9418,
       "step": 1070
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 0.00011965631514483375,
+      "loss": 0.9591,
       "step": 1075
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.00011887030185551426,
+      "loss": 0.9674,
       "step": 1080
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.00011808307779775518,
+      "loss": 0.9651,
       "step": 1085
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.00011729469348193262,
+      "loss": 0.9482,
       "step": 1090
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.00011650519949286795,
+      "loss": 0.9484,
       "step": 1095
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.00011571464648658201,
+      "loss": 0.9306,
       "step": 1100
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.00011492308518704506,
+      "loss": 0.9342,
       "step": 1105
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.00011413056638292215,
+      "loss": 0.9506,
       "step": 1110
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.00011333714092431423,
+      "loss": 0.9625,
       "step": 1115
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.00011254285971949574,
+      "loss": 0.9709,
       "step": 1120
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.00011174777373164798,
+      "loss": 0.9229,
       "step": 1125
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.0001109519339755893,
+      "loss": 0.9306,
       "step": 1130
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.00011015539151450172,
+      "loss": 0.9394,
       "step": 1135
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.00010935819745665477,
+      "loss": 0.9445,
       "step": 1140
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.00010856040295212612,
+      "loss": 0.9618,
       "step": 1145
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.00010776205918951969,
+      "loss": 0.9556,
       "step": 1150
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.00010696321739268121,
+      "loss": 0.9095,
       "step": 1155
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.00010616392881741166,
+      "loss": 0.94,
       "step": 1160
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.00010536424474817847,
+      "loss": 0.952,
       "step": 1165
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.00010456421649482502,
+      "loss": 0.9408,
       "step": 1170
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.0001037638953892784,
+      "loss": 0.9453,
       "step": 1175
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.00010296333278225599,
+      "loss": 0.941,
       "step": 1180
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.00010216258003997043,
+      "loss": 0.9709,
       "step": 1185
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 0.00010136168854083402,
+      "loss": 0.9381,
       "step": 1190
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 0.00010056070967216198,
+      "loss": 0.9496,
       "step": 1195
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 9.975969482687547e-05,
+      "loss": 0.9514,
       "step": 1200
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 9.8958695400204e-05,
+      "loss": 0.9418,
       "step": 1205
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.815776278638771e-05,
+      "loss": 0.9563,
       "step": 1210
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.735694837537993e-05,
+      "loss": 0.9527,
       "step": 1215
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.655630354954974e-05,
+      "loss": 0.9241,
       "step": 1220
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.57558796803852e-05,
+      "loss": 0.9505,
       "step": 1225
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 9.495572812519718e-05,
+      "loss": 0.9556,
       "step": 1230
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.415590022382419e-05,
+      "loss": 0.9352,
       "step": 1235
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.33564472953383e-05,
+      "loss": 0.9459,
       "step": 1240
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.255742063475228e-05,
+      "loss": 0.9555,
       "step": 1245
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.175887150972841e-05,
+      "loss": 0.9463,
       "step": 1250
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 9.096085115728902e-05,
+      "loss": 0.925,
       "step": 1255
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 9.016341078052908e-05,
+      "loss": 0.9285,
       "step": 1260
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 8.936660154533069e-05,
+      "loss": 0.9344,
       "step": 1265
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 8.857047457708023e-05,
+      "loss": 0.9487,
       "step": 1270
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.777508095738818e-05,
+      "loss": 0.9461,
       "step": 1275
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.698047172081128e-05,
+      "loss": 0.9615,
       "step": 1280
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.618669785157825e-05,
+      "loss": 0.9358,
       "step": 1285
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.539381028031837e-05,
+      "loss": 0.942,
       "step": 1290
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.460185988079379e-05,
+      "loss": 0.9714,
       "step": 1295
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 8.381089746663517e-05,
+      "loss": 0.9644,
       "step": 1300
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 8.302097378808146e-05,
+      "loss": 0.9613,
       "step": 1305
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 8.223213952872353e-05,
+      "loss": 0.9394,
       "step": 1310
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 8.144444530225236e-05,
+      "loss": 0.9344,
       "step": 1315
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 8.065794164921128e-05,
+      "loss": 0.9706,
       "step": 1320
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 7.987267903375332e-05,
+      "loss": 0.953,
       "step": 1325
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 7.90887078404033e-05,
+      "loss": 0.9638,
       "step": 1330
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 7.830607837082493e-05,
+      "loss": 0.9567,
       "step": 1335
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 7.75248408405934e-05,
+      "loss": 0.9538,
       "step": 1340
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 7.674504537597336e-05,
+      "loss": 0.9365,
       "step": 1345
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 7.596674201070282e-05,
+      "loss": 0.9478,
       "step": 1350
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 7.518998068278266e-05,
+      "loss": 0.943,
       "step": 1355
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 7.441481123127257e-05,
+      "loss": 0.9414,
       "step": 1360
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 7.364128339309326e-05,
+      "loss": 0.9448,
       "step": 1365
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 7.28694467998352e-05,
+      "loss": 0.9299,
       "step": 1370
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 7.209935097457413e-05,
+      "loss": 0.9544,
       "step": 1375
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 7.133104532869342e-05,
+      "loss": 0.9757,
       "step": 1380
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 7.056457915871399e-05,
+      "loss": 0.9587,
       "step": 1385
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 6.980000164313093e-05,
+      "loss": 0.9593,
       "step": 1390
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 6.903736183925835e-05,
+      "loss": 0.9497,
       "step": 1395
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 6.827670868008171e-05,
+      "loss": 0.9351,
       "step": 1400
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 6.751809097111798e-05,
+      "loss": 0.9359,
       "step": 1405
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 6.676155738728438e-05,
+      "loss": 0.9662,
       "step": 1410
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 6.600715646977502e-05,
+      "loss": 0.9493,
       "step": 1415
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 6.525493662294668e-05,
+      "loss": 0.9547,
       "step": 1420
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 6.450494611121273e-05,
+      "loss": 0.944,
       "step": 1425
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 6.375723305594658e-05,
+      "loss": 0.9464,
       "step": 1430
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 6.301184543239398e-05,
+      "loss": 0.9497,
       "step": 1435
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 6.226883106659485e-05,
+      "loss": 0.926,
       "step": 1440
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 6.152823763231463e-05,
+      "loss": 0.9502,
       "step": 1445
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 6.079011264798534e-05,
+      "loss": 0.9521,
       "step": 1450
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 6.005450347365687e-05,
+      "loss": 0.9541,
       "step": 1455
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 5.932145730795793e-05,
+      "loss": 0.945,
       "step": 1460
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 5.8591021185067876e-05,
+      "loss": 0.9449,
       "step": 1465
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 5.786324197169887e-05,
+      "loss": 0.931,
       "step": 1470
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 5.7138166364088705e-05,
+      "loss": 0.9525,
       "step": 1475
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 5.641584088500461e-05,
+      "loss": 0.9394,
       "step": 1480
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 5.569631188075841e-05,
+      "loss": 0.9594,
       "step": 1485
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 5.497962551823266e-05,
+      "loss": 0.9467,
       "step": 1490
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 5.4265827781918576e-05,
+      "loss": 0.9452,
       "step": 1495
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 5.355496447096533e-05,
+      "loss": 0.9601,
       "step": 1500
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 5.284708119624173e-05,
+      "loss": 0.9639,
       "step": 1505
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 5.214222337740962e-05,
+      "loss": 0.9442,
       "step": 1510
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 5.144043624000944e-05,
+      "loss": 0.9456,
       "step": 1515
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 5.0741764812558724e-05,
+      "loss": 0.9434,
       "step": 1520
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 5.00462539236628e-05,
+      "loss": 0.9567,
       "step": 1525
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 4.935394819913849e-05,
+      "loss": 0.9528,
       "step": 1530
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 4.8664892059150723e-05,
+      "loss": 0.9367,
       "step": 1535
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 4.7979129715362626e-05,
+      "loss": 0.9558,
       "step": 1540
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 4.72967051680985e-05,
+      "loss": 0.9616,
       "step": 1545
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 4.661766220352097e-05,
+      "loss": 0.9527,
       "step": 1550
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 4.5942044390821214e-05,
+      "loss": 0.942,
       "step": 1555
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 4.526989507942374e-05,
+      "loss": 0.9435,
       "step": 1560
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 4.460125739620479e-05,
+      "loss": 0.9244,
       "step": 1565
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 4.393617424272527e-05,
+      "loss": 0.9669,
       "step": 1570
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 4.3274688292478106e-05,
+      "loss": 0.9575,
       "step": 1575
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 4.261684198815003e-05,
+      "loss": 0.958,
       "step": 1580
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 4.1962677538898645e-05,
+      "loss": 0.9391,
       "step": 1585
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 4.131223691764383e-05,
+      "loss": 0.932,
       "step": 1590
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 4.0665561858374934e-05,
+      "loss": 0.9601,
       "step": 1595
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 4.0022693853472884e-05,
+      "loss": 0.943,
       "step": 1600
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 3.938367415104793e-05,
+      "loss": 0.9406,
       "step": 1605
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 3.8748543752293e-05,
+      "loss": 0.9457,
       "step": 1610
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 3.8117343408853127e-05,
+      "loss": 0.9424,
       "step": 1615
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 3.7490113620210485e-05,
+      "loss": 0.9406,
       "step": 1620
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 3.686689463108608e-05,
+      "loss": 0.9414,
       "step": 1625
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 3.624772642885734e-05,
+      "loss": 0.9527,
       "step": 1630
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 3.563264874099258e-05,
+      "loss": 0.9572,
       "step": 1635
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 3.502170103250177e-05,
+      "loss": 0.9638,
       "step": 1640
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 3.441492250340461e-05,
+      "loss": 0.9635,
       "step": 1645
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 3.381235208621522e-05,
+      "loss": 0.9521,
       "step": 1650
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 3.3214028443444036e-05,
+      "loss": 0.9173,
       "step": 1655
     },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.2619989965117356e-05,
+      "loss": 0.9846,
+      "step": 1660
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.2030274766313865e-05,
+      "loss": 0.9653,
+      "step": 1665
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.1444920684719394e-05,
+      "loss": 0.9467,
+      "step": 1670
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.086396527819876e-05,
+      "loss": 0.9321,
+      "step": 1675
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.028744582238633e-05,
+      "loss": 0.9343,
+      "step": 1680
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.9715399308294e-05,
+      "loss": 0.9647,
+      "step": 1685
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.914786243993808e-05,
+      "loss": 0.9579,
+      "step": 1690
+    },
     {
       "epoch": 0.78,
+      "learning_rate": 2.8584871631983888e-05,
+      "loss": 0.9516,
+      "step": 1695
     },
     {
       "epoch": 0.78,
+      "learning_rate": 2.8026463007409664e-05,
+      "loss": 0.9452,
+      "step": 1700
     },
     {
       "epoch": 0.78,
+      "learning_rate": 2.747267239518857e-05,
+      "loss": 0.9831,
+      "step": 1705
     },
     {
       "epoch": 0.78,
+      "learning_rate": 2.6923535327989924e-05,
+      "loss": 0.944,
+      "step": 1710
     },
     {
       "epoch": 0.79,
+      "learning_rate": 2.637908703989924e-05,
+      "loss": 0.9344,
+      "step": 1715
     },
     {
       "epoch": 0.79,
+      "learning_rate": 2.5839362464157634e-05,
+      "loss": 0.9247,
+      "step": 1720
     },
     {
       "epoch": 0.79,
+      "learning_rate": 2.5304396230920345e-05,
+      "loss": 0.9407,
+      "step": 1725
     },
     {
       "epoch": 0.79,
+      "learning_rate": 2.477422266503473e-05,
+      "loss": 0.9461,
+      "step": 1730
     },
     {
       "epoch": 0.8,
+      "learning_rate": 2.4248875783837987e-05,
+      "loss": 0.9282,
+      "step": 1735
     },
     {
       "epoch": 0.8,
+      "learning_rate": 2.3728389294974475e-05,
+      "loss": 0.9633,
+      "step": 1740
     },
     {
       "epoch": 0.8,
+      "learning_rate": 2.3212796594232943e-05,
+      "loss": 0.9531,
+      "step": 1745
     },
     {
       "epoch": 0.8,
+      "learning_rate": 2.2702130763403673e-05,
+      "loss": 0.9612,
+      "step": 1750
     },
     {
       "epoch": 0.81,
+      "learning_rate": 2.2196424568156073e-05,
+      "loss": 0.9463,
+      "step": 1755
     },
     {
       "epoch": 0.81,
+      "learning_rate": 2.1695710455936115e-05,
+      "loss": 0.9482,
+      "step": 1760
     },
     {
       "epoch": 0.81,
+      "learning_rate": 2.1200020553884604e-05,
+      "loss": 0.9758,
+      "step": 1765
     },
     {
       "epoch": 0.81,
+      "learning_rate": 2.070938666677573e-05,
+      "loss": 0.9313,
+      "step": 1770
     },
     {
       "epoch": 0.81,
+      "learning_rate": 2.0223840274976413e-05,
+      "loss": 0.9348,
+      "step": 1775
     },
     {
       "epoch": 0.82,
+      "learning_rate": 1.974341253242635e-05,
+      "loss": 0.9452,
+      "step": 1780
     },
     {
       "epoch": 0.82,
+      "learning_rate": 1.9268134264639272e-05,
+      "loss": 0.9299,
+      "step": 1785
     },
     {
       "epoch": 0.82,
+      "learning_rate": 1.879803596672497e-05,
+      "loss": 0.9704,
+      "step": 1790
     },
     {
       "epoch": 0.82,
+      "learning_rate": 1.8333147801432614e-05,
+      "loss": 0.9808,
+      "step": 1795
     },
     {
       "epoch": 0.83,
+      "learning_rate": 1.7873499597215604e-05,
+      "loss": 0.9529,
+      "step": 1800
     },
     {
       "epoch": 0.83,
+      "learning_rate": 1.741912084631746e-05,
+      "loss": 0.9503,
+      "step": 1805
     },
     {
       "epoch": 0.83,
+      "learning_rate": 1.697004070287982e-05,
+      "loss": 0.9607,
+      "step": 1810
     },
     {
       "epoch": 0.83,
+      "learning_rate": 1.6526287981071475e-05,
+      "loss": 0.9486,
+      "step": 1815
     },
     {
       "epoch": 0.84,
+      "learning_rate": 1.608789115323993e-05,
+      "loss": 0.9368,
+      "step": 1820
     },
     {
       "epoch": 0.84,
+      "learning_rate": 1.5654878348084244e-05,
+      "loss": 0.9321,
+      "step": 1825
     },
     {
       "epoch": 0.84,
+      "learning_rate": 1.5227277348850466e-05,
+      "loss": 0.9385,
+      "step": 1830
     },
     {
       "epoch": 0.84,
+      "learning_rate": 1.4805115591548746e-05,
+      "loss": 0.9492,
+      "step": 1835
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 1.4388420163193217e-05,
+      "loss": 0.9474,
+      "step": 1840
     },
     {
       "epoch": 0.85,
+      "learning_rate": 1.3977217800063846e-05,
+      "loss": 0.9453,
+      "step": 1845
     },
     {
       "epoch": 0.85,
+      "learning_rate": 1.3571534885991044e-05,
+      "loss": 0.9455,
+      "step": 1850
     },
     {
       "epoch": 0.85,
+      "learning_rate": 1.3171397450662715e-05,
+      "loss": 0.9357,
+      "step": 1855
     },
     {
       "epoch": 0.85,
+      "learning_rate": 1.277683116795425e-05,
+      "loss": 0.9337,
+      "step": 1860
     },
     {
       "epoch": 0.86,
+      "learning_rate": 1.2387861354281194e-05,
+      "loss": 0.9389,
+      "step": 1865
     },
     {
       "epoch": 0.86,
+      "learning_rate": 1.2004512966974745e-05,
+      "loss": 0.956,
+      "step": 1870
     },
     {
       "epoch": 0.86,
+      "learning_rate": 1.162681060268065e-05,
+      "loss": 0.9514,
+      "step": 1875
     },
     {
       "epoch": 0.86,
+      "learning_rate": 1.1254778495780748e-05,
+      "loss": 0.9247,
+      "step": 1880
     },
     {
       "epoch": 0.87,
+      "learning_rate": 1.0888440516838373e-05,
+      "loss": 0.9509,
+      "step": 1885
     },
     {
       "epoch": 0.87,
+      "learning_rate": 1.0527820171066372e-05,
+      "loss": 0.9588,
+      "step": 1890
     },
     {
       "epoch": 0.87,
+      "learning_rate": 1.0172940596819259e-05,
+      "loss": 0.9608,
+      "step": 1895
     },
     {
       "epoch": 0.87,
+      "learning_rate": 9.823824564108408e-06,
+      "loss": 0.9467,
+      "step": 1900
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 9.480494473141188e-06,
+      "loss": 0.9543,
+      "step": 1905
     },
     {
       "epoch": 0.88,
+      "learning_rate": 9.142972352883594e-06,
+      "loss": 0.9566,
+      "step": 1910
     },
     {
       "epoch": 0.88,
+      "learning_rate": 8.811279859646915e-06,
+      "loss": 0.9541,
+      "step": 1915
     },
     {
       "epoch": 0.88,
+      "learning_rate": 8.485438275698154e-06,
+      "loss": 0.9445,
+      "step": 1920
     },
     {
       "epoch": 0.88,
+      "learning_rate": 8.165468507894514e-06,
+      "loss": 0.9209,
+      "step": 1925
     },
     {
       "epoch": 0.89,
+      "learning_rate": 7.851391086341952e-06,
+      "loss": 0.9509,
+      "step": 1930
     },
     {
       "epoch": 0.89,
+      "learning_rate": 7.543226163077899e-06,
+      "loss": 0.9576,
+      "step": 1935
     },
     {
       "epoch": 0.89,
+      "learning_rate": 7.240993510778305e-06,
+      "loss": 0.9176,
+      "step": 1940
     },
     {
       "epoch": 0.89,
+      "learning_rate": 6.9447125214888835e-06,
+      "loss": 0.9517,
+      "step": 1945
     },
     {
       "epoch": 0.89,
+      "learning_rate": 6.65440220538096e-06,
+      "loss": 0.9372,
+      "step": 1950
     },
     {
       "epoch": 0.9,
+      "learning_rate": 6.370081189531707e-06,
+      "loss": 0.9527,
+      "step": 1955
     },
     {
       "epoch": 0.9,
+      "learning_rate": 6.091767716728924e-06,
+      "loss": 0.9653,
+      "step": 1960
     },
     {
       "epoch": 0.9,
+      "learning_rate": 5.819479644300563e-06,
+      "loss": 0.9257,
+      "step": 1965
     },
     {
       "epoch": 0.9,
+      "learning_rate": 5.553234442969013e-06,
+      "loss": 0.9785,
+      "step": 1970
     },
     {
       "epoch": 0.91,
+      "learning_rate": 5.293049195730038e-06,
+      "loss": 0.9568,
+      "step": 1975
     },
     {
       "epoch": 0.91,
+      "learning_rate": 5.038940596756747e-06,
+      "loss": 0.9402,
+      "step": 1980
     },
     {
       "epoch": 0.91,
+      "learning_rate": 4.790924950328435e-06,
+      "loss": 0.9443,
+      "step": 1985
     },
     {
       "epoch": 0.91,
+      "learning_rate": 4.5490181697844916e-06,
+      "loss": 0.9535,
+      "step": 1990
     },
     {
       "epoch": 0.92,
+      "learning_rate": 4.313235776503244e-06,
+      "loss": 0.9405,
+      "step": 1995
     },
     {
       "epoch": 0.92,
+      "learning_rate": 4.08359289890623e-06,
+      "loss": 0.9505,
+      "step": 2000
     },
     {
       "epoch": 0.92,
+      "learning_rate": 3.860104271487397e-06,
+      "loss": 0.9569,
+      "step": 2005
     },
     {
       "epoch": 0.92,
+      "learning_rate": 3.6427842338677352e-06,
+      "loss": 0.9419,
+      "step": 2010
     },
     {
       "epoch": 0.92,
+      "learning_rate": 3.4316467298752263e-06,
+      "loss": 0.9239,
+      "step": 2015
     },
     {
       "epoch": 0.93,
+      "learning_rate": 3.226705306650113e-06,
+      "loss": 0.946,
+      "step": 2020
     },
     {
       "epoch": 0.93,
+      "learning_rate": 3.0279731137757948e-06,
+      "loss": 0.94,
+      "step": 2025
     },
     {
       "epoch": 0.93,
+      "learning_rate": 2.835462902434971e-06,
+      "loss": 0.9607,
+      "step": 2030
     },
     {
       "epoch": 0.93,
+      "learning_rate": 2.649187024591604e-06,
+      "loss": 0.9559,
+      "step": 2035
     },
     {
       "epoch": 0.94,
+      "learning_rate": 2.4691574321983215e-06,
+      "loss": 0.959,
+      "step": 2040
     },
     {
       "epoch": 0.94,
+      "learning_rate": 2.2953856764295624e-06,
+      "loss": 0.9536,
+      "step": 2045
     },
     {
       "epoch": 0.94,
+      "learning_rate": 2.1278829069404484e-06,
+      "loss": 0.9233,
+      "step": 2050
     },
     {
       "epoch": 0.94,
+      "learning_rate": 1.966659871151366e-06,
+      "loss": 0.9339,
+      "step": 2055
     },
     {
       "epoch": 0.95,
+      "learning_rate": 1.811726913558387e-06,
+      "loss": 0.9364,
+      "step": 2060
     },
     {
       "epoch": 0.95,
+      "learning_rate": 1.6630939750695519e-06,
+      "loss": 0.9281,
+      "step": 2065
     },
     {
       "epoch": 0.95,
+      "learning_rate": 1.5207705923670157e-06,
+      "loss": 0.9581,
+      "step": 2070
     },
     {
       "epoch": 0.95,
+      "learning_rate": 1.3847658972951483e-06,
+      "loss": 0.9191,
+      "step": 2075
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 1.2550886162746467e-06,
+      "loss": 0.95,
+      "step": 2080
     },
     {
       "epoch": 0.96,
+      "learning_rate": 1.1317470697425837e-06,
+      "loss": 0.9686,
+      "step": 2085
     },
     {
       "epoch": 0.96,
+      "learning_rate": 1.0147491716185676e-06,
+      "loss": 0.958,
+      "step": 2090
     },
     {
       "epoch": 0.96,
+      "learning_rate": 9.04102428796949e-07,
+      "loss": 0.9578,
+      "step": 2095
     },
     {
       "epoch": 0.96,
+      "learning_rate": 7.99813940665195e-07,
+      "loss": 0.9487,
+      "step": 2100
     },
     {
       "epoch": 0.97,
+      "learning_rate": 7.018903986483083e-07,
+      "loss": 0.9474,
+      "step": 2105
     },
     {
       "epoch": 0.97,
+      "learning_rate": 6.103380857795604e-07,
+      "loss": 0.9377,
+      "step": 2110
     },
     {
       "epoch": 0.97,
+      "learning_rate": 5.251628762972916e-07,
+      "loss": 0.9453,
+      "step": 2115
     },
     {
       "epoch": 0.97,
+      "learning_rate": 4.463702352680787e-07,
+      "loss": 0.9353,
+      "step": 2120
     },
     {
       "epoch": 0.98,
+      "learning_rate": 3.7396521823600537e-07,
+      "loss": 0.9256,
+      "step": 2125
     },
     {
       "epoch": 0.98,
+      "learning_rate": 3.079524708983095e-07,
+      "loss": 0.9437,
+      "step": 2130
     },
     {
       "epoch": 0.98,
+      "learning_rate": 2.483362288073443e-07,
+      "loss": 0.9629,
+      "step": 2135
     },
     {
       "epoch": 0.98,
+      "learning_rate": 1.9512031709874035e-07,
+      "loss": 0.9361,
+      "step": 2140
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 1.4830815024606815e-07,
+      "loss": 0.9511,
+      "step": 2145
     },
     {
       "epoch": 0.99,
+      "learning_rate": 1.0790273184164701e-07,
+      "loss": 0.9489,
+      "step": 2150
     },
     {
       "epoch": 0.99,
+      "learning_rate": 7.390665440393241e-08,
+      "loss": 0.9875,
+      "step": 2155
     },
     {
       "epoch": 0.99,
+      "learning_rate": 4.632209921107134e-08,
+      "loss": 0.9478,
+      "step": 2160
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 2.5150836161058622e-08,
+      "loss": 0.9372,
+      "step": 2165
     },
     {
       "epoch": 1.0,
+      "learning_rate": 1.03942236580723e-08,
+      "loss": 0.939,
+      "step": 2170
     },
     {
       "epoch": 1.0,
+      "learning_rate": 2.053208525365502e-09,
+      "loss": 0.9427,
+      "step": 2175
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.9502024054527283,
+      "eval_runtime": 365.637,
+      "eval_samples_per_second": 42.203,
+      "eval_steps_per_second": 0.662,
+      "step": 2179
     },
     {
       "epoch": 1.0,
+      "step": 2179,
+      "total_flos": 1.225695388701714e+19,
+      "train_loss": 0.9579998909633823,
+      "train_runtime": 11823.5935,
+      "train_samples_per_second": 11.792,
       "train_steps_per_second": 0.184
     }
   ],
   "logging_steps": 5,
+  "max_steps": 2179,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 1.225695388701714e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null