{
  "best_metric": 0.338119238615036,
  "best_model_checkpoint": "./cocoa_outputs_resnet/checkpoint-18620",
  "epoch": 100.0,
  "eval_steps": 500,
  "global_step": 19600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05102040816326531,
      "grad_norm": 5.19078254699707,
      "learning_rate": 1.998979591836735e-05,
      "loss": 1.8576,
      "step": 10
    },
    {
      "epoch": 0.10204081632653061,
      "grad_norm": 6.5406813621521,
      "learning_rate": 1.9979591836734697e-05,
      "loss": 1.8217,
      "step": 20
    },
    {
      "epoch": 0.15306122448979592,
      "grad_norm": 7.868351936340332,
      "learning_rate": 1.9969387755102042e-05,
      "loss": 1.7936,
      "step": 30
    },
    {
      "epoch": 0.20408163265306123,
      "grad_norm": 6.764929294586182,
      "learning_rate": 1.9959183673469388e-05,
      "loss": 1.7636,
      "step": 40
    },
    {
      "epoch": 0.25510204081632654,
      "grad_norm": 6.531843185424805,
      "learning_rate": 1.9948979591836737e-05,
      "loss": 1.7382,
      "step": 50
    },
    {
      "epoch": 0.30612244897959184,
      "grad_norm": 5.0755414962768555,
      "learning_rate": 1.9938775510204083e-05,
      "loss": 1.6951,
      "step": 60
    },
    {
      "epoch": 0.35714285714285715,
      "grad_norm": 7.357245445251465,
      "learning_rate": 1.992857142857143e-05,
      "loss": 1.6693,
      "step": 70
    },
    {
      "epoch": 0.40816326530612246,
      "grad_norm": 7.059667110443115,
      "learning_rate": 1.9918367346938775e-05,
      "loss": 1.6439,
      "step": 80
    },
    {
      "epoch": 0.45918367346938777,
      "grad_norm": 7.390167713165283,
      "learning_rate": 1.9908163265306124e-05,
      "loss": 1.6361,
      "step": 90
    },
    {
      "epoch": 0.5102040816326531,
      "grad_norm": 6.366397380828857,
      "learning_rate": 1.9897959183673473e-05,
      "loss": 1.593,
      "step": 100
    },
    {
      "epoch": 0.5612244897959183,
      "grad_norm": 6.844809055328369,
      "learning_rate": 1.988775510204082e-05,
      "loss": 1.5754,
      "step": 110
    },
    {
      "epoch": 0.6122448979591837,
      "grad_norm": 10.052237510681152,
      "learning_rate": 1.9877551020408165e-05,
      "loss": 1.5447,
      "step": 120
    },
    {
      "epoch": 0.6632653061224489,
      "grad_norm": 9.478899955749512,
      "learning_rate": 1.986734693877551e-05,
      "loss": 1.5156,
      "step": 130
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 8.449880599975586,
      "learning_rate": 1.985714285714286e-05,
      "loss": 1.471,
      "step": 140
    },
    {
      "epoch": 0.7653061224489796,
      "grad_norm": 15.5441255569458,
      "learning_rate": 1.9846938775510205e-05,
      "loss": 1.4566,
      "step": 150
    },
    {
      "epoch": 0.8163265306122449,
      "grad_norm": 14.199906349182129,
      "learning_rate": 1.983673469387755e-05,
      "loss": 1.4895,
      "step": 160
    },
    {
      "epoch": 0.8673469387755102,
      "grad_norm": 8.91977310180664,
      "learning_rate": 1.9826530612244897e-05,
      "loss": 1.4059,
      "step": 170
    },
    {
      "epoch": 0.9183673469387755,
      "grad_norm": 6.263814449310303,
      "learning_rate": 1.9816326530612246e-05,
      "loss": 1.4062,
      "step": 180
    },
    {
      "epoch": 0.9693877551020408,
      "grad_norm": 10.147581100463867,
      "learning_rate": 1.9806122448979595e-05,
      "loss": 1.3793,
      "step": 190
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 1.4451990127563477,
      "eval_runtime": 0.9251,
      "eval_samples_per_second": 299.426,
      "eval_steps_per_second": 37.834,
      "step": 196
    },
    {
      "epoch": 1.0204081632653061,
      "grad_norm": 10.231109619140625,
      "learning_rate": 1.979591836734694e-05,
      "loss": 1.3698,
      "step": 200
    },
    {
      "epoch": 1.0714285714285714,
      "grad_norm": 19.503650665283203,
      "learning_rate": 1.9785714285714287e-05,
      "loss": 1.3072,
      "step": 210
    },
    {
      "epoch": 1.1224489795918366,
      "grad_norm": 12.808182716369629,
      "learning_rate": 1.9775510204081633e-05,
      "loss": 1.2888,
      "step": 220
    },
    {
      "epoch": 1.1734693877551021,
      "grad_norm": 12.528712272644043,
      "learning_rate": 1.9765306122448982e-05,
      "loss": 1.2544,
      "step": 230
    },
    {
      "epoch": 1.2244897959183674,
      "grad_norm": 7.637135028839111,
      "learning_rate": 1.9755102040816328e-05,
      "loss": 1.1826,
      "step": 240
    },
    {
      "epoch": 1.2755102040816326,
      "grad_norm": 14.272453308105469,
      "learning_rate": 1.9744897959183677e-05,
      "loss": 1.3115,
      "step": 250
    },
    {
      "epoch": 1.3265306122448979,
      "grad_norm": 10.64414119720459,
      "learning_rate": 1.9734693877551023e-05,
      "loss": 1.2017,
      "step": 260
    },
    {
      "epoch": 1.3775510204081631,
      "grad_norm": 6.53663444519043,
      "learning_rate": 1.972448979591837e-05,
      "loss": 1.1931,
      "step": 270
    },
    {
      "epoch": 1.4285714285714286,
      "grad_norm": 7.370344161987305,
      "learning_rate": 1.9714285714285718e-05,
      "loss": 1.1153,
      "step": 280
    },
    {
      "epoch": 1.4795918367346939,
      "grad_norm": 14.26416301727295,
      "learning_rate": 1.9704081632653063e-05,
      "loss": 1.2609,
      "step": 290
    },
    {
      "epoch": 1.5306122448979593,
      "grad_norm": 15.005990982055664,
      "learning_rate": 1.969387755102041e-05,
      "loss": 1.1873,
      "step": 300
    },
    {
      "epoch": 1.5816326530612246,
      "grad_norm": 13.052899360656738,
      "learning_rate": 1.9683673469387755e-05,
      "loss": 1.1393,
      "step": 310
    },
    {
      "epoch": 1.6326530612244898,
      "grad_norm": 9.985796928405762,
      "learning_rate": 1.9673469387755104e-05,
      "loss": 1.0949,
      "step": 320
    },
    {
      "epoch": 1.683673469387755,
      "grad_norm": 14.229815483093262,
      "learning_rate": 1.966326530612245e-05,
      "loss": 1.1599,
      "step": 330
    },
    {
      "epoch": 1.7346938775510203,
      "grad_norm": 17.553194046020508,
      "learning_rate": 1.96530612244898e-05,
      "loss": 1.0808,
      "step": 340
    },
    {
      "epoch": 1.7857142857142856,
      "grad_norm": 9.74787712097168,
      "learning_rate": 1.9642857142857145e-05,
      "loss": 0.9999,
      "step": 350
    },
    {
      "epoch": 1.836734693877551,
      "grad_norm": 6.70463228225708,
      "learning_rate": 1.963265306122449e-05,
      "loss": 1.0614,
      "step": 360
    },
    {
      "epoch": 1.8877551020408163,
      "grad_norm": 19.537416458129883,
      "learning_rate": 1.962244897959184e-05,
      "loss": 1.062,
      "step": 370
    },
    {
      "epoch": 1.9387755102040818,
      "grad_norm": 12.659348487854004,
      "learning_rate": 1.9612244897959186e-05,
      "loss": 1.0322,
      "step": 380
    },
    {
      "epoch": 1.989795918367347,
      "grad_norm": 13.97054672241211,
      "learning_rate": 1.960204081632653e-05,
      "loss": 0.9417,
      "step": 390
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 1.0831713676452637,
      "eval_runtime": 0.9072,
      "eval_samples_per_second": 305.325,
      "eval_steps_per_second": 38.579,
      "step": 392
    },
    {
      "epoch": 2.0408163265306123,
      "grad_norm": 19.410364151000977,
      "learning_rate": 1.9591836734693877e-05,
      "loss": 0.9673,
      "step": 400
    },
    {
      "epoch": 2.0918367346938775,
      "grad_norm": 12.131122589111328,
      "learning_rate": 1.9581632653061227e-05,
      "loss": 0.9922,
      "step": 410
    },
    {
      "epoch": 2.142857142857143,
      "grad_norm": 13.283885955810547,
      "learning_rate": 1.9571428571428572e-05,
      "loss": 0.9284,
      "step": 420
    },
    {
      "epoch": 2.193877551020408,
      "grad_norm": 16.22216796875,
      "learning_rate": 1.956122448979592e-05,
      "loss": 0.9445,
      "step": 430
    },
    {
      "epoch": 2.2448979591836733,
      "grad_norm": 11.60645866394043,
      "learning_rate": 1.9551020408163267e-05,
      "loss": 0.8164,
      "step": 440
    },
    {
      "epoch": 2.295918367346939,
      "grad_norm": 9.45768928527832,
      "learning_rate": 1.9540816326530613e-05,
      "loss": 0.9481,
      "step": 450
    },
    {
      "epoch": 2.3469387755102042,
      "grad_norm": 9.105568885803223,
      "learning_rate": 1.9530612244897962e-05,
      "loss": 0.7832,
      "step": 460
    },
    {
      "epoch": 2.3979591836734695,
      "grad_norm": 18.281919479370117,
      "learning_rate": 1.9520408163265308e-05,
      "loss": 0.9109,
      "step": 470
    },
    {
      "epoch": 2.4489795918367347,
      "grad_norm": 16.925426483154297,
      "learning_rate": 1.9510204081632654e-05,
      "loss": 0.8728,
      "step": 480
    },
    {
      "epoch": 2.5,
      "grad_norm": 8.706742286682129,
      "learning_rate": 1.95e-05,
      "loss": 0.7389,
      "step": 490
    },
    {
      "epoch": 2.5510204081632653,
      "grad_norm": 9.583548545837402,
      "learning_rate": 1.948979591836735e-05,
      "loss": 0.883,
      "step": 500
    },
    {
      "epoch": 2.6020408163265305,
      "grad_norm": 12.917040824890137,
      "learning_rate": 1.9479591836734695e-05,
      "loss": 0.7122,
      "step": 510
    },
    {
      "epoch": 2.6530612244897958,
      "grad_norm": 12.251018524169922,
      "learning_rate": 1.9469387755102044e-05,
      "loss": 0.784,
      "step": 520
    },
    {
      "epoch": 2.704081632653061,
      "grad_norm": 33.17272186279297,
      "learning_rate": 1.945918367346939e-05,
      "loss": 0.8528,
      "step": 530
    },
    {
      "epoch": 2.7551020408163263,
      "grad_norm": 23.52888298034668,
      "learning_rate": 1.9448979591836735e-05,
      "loss": 0.8737,
      "step": 540
    },
    {
      "epoch": 2.806122448979592,
      "grad_norm": 17.98305892944336,
      "learning_rate": 1.9438775510204085e-05,
      "loss": 0.741,
      "step": 550
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 17.350610733032227,
      "learning_rate": 1.942857142857143e-05,
      "loss": 0.7755,
      "step": 560
    },
    {
      "epoch": 2.9081632653061225,
      "grad_norm": 12.143648147583008,
      "learning_rate": 1.941836734693878e-05,
      "loss": 0.7805,
      "step": 570
    },
    {
      "epoch": 2.9591836734693877,
      "grad_norm": 21.448301315307617,
      "learning_rate": 1.9408163265306122e-05,
      "loss": 0.8546,
      "step": 580
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.7324367761611938,
      "eval_runtime": 0.9086,
      "eval_samples_per_second": 304.857,
      "eval_steps_per_second": 38.52,
      "step": 588
    },
    {
      "epoch": 3.010204081632653,
      "grad_norm": 13.460051536560059,
      "learning_rate": 1.939795918367347e-05,
      "loss": 0.7755,
      "step": 590
    },
    {
      "epoch": 3.061224489795918,
      "grad_norm": 16.940919876098633,
      "learning_rate": 1.9387755102040817e-05,
      "loss": 0.8423,
      "step": 600
    },
    {
      "epoch": 3.1122448979591835,
      "grad_norm": 15.275936126708984,
      "learning_rate": 1.9377551020408166e-05,
      "loss": 0.7588,
      "step": 610
    },
    {
      "epoch": 3.163265306122449,
      "grad_norm": 37.68696212768555,
      "learning_rate": 1.9367346938775512e-05,
      "loss": 0.7397,
      "step": 620
    },
    {
      "epoch": 3.2142857142857144,
      "grad_norm": 18.499605178833008,
      "learning_rate": 1.9357142857142858e-05,
      "loss": 0.7024,
      "step": 630
    },
    {
      "epoch": 3.2653061224489797,
      "grad_norm": 12.471171379089355,
      "learning_rate": 1.9346938775510207e-05,
      "loss": 0.7357,
      "step": 640
    },
    {
      "epoch": 3.316326530612245,
      "grad_norm": 10.846303939819336,
      "learning_rate": 1.9336734693877553e-05,
      "loss": 0.6755,
      "step": 650
    },
    {
      "epoch": 3.36734693877551,
      "grad_norm": 29.443763732910156,
      "learning_rate": 1.9326530612244902e-05,
      "loss": 0.7405,
      "step": 660
    },
    {
      "epoch": 3.4183673469387754,
      "grad_norm": 19.263994216918945,
      "learning_rate": 1.9316326530612248e-05,
      "loss": 0.7045,
      "step": 670
    },
    {
      "epoch": 3.4693877551020407,
      "grad_norm": 7.423226356506348,
      "learning_rate": 1.9306122448979593e-05,
      "loss": 0.7598,
      "step": 680
    },
    {
      "epoch": 3.520408163265306,
      "grad_norm": 4.518156051635742,
      "learning_rate": 1.929591836734694e-05,
      "loss": 0.6054,
      "step": 690
    },
    {
      "epoch": 3.571428571428571,
      "grad_norm": 6.621142864227295,
      "learning_rate": 1.928571428571429e-05,
      "loss": 0.6277,
      "step": 700
    },
    {
      "epoch": 3.622448979591837,
      "grad_norm": 8.241072654724121,
      "learning_rate": 1.9275510204081634e-05,
      "loss": 0.6089,
      "step": 710
    },
    {
      "epoch": 3.673469387755102,
      "grad_norm": 17.995214462280273,
      "learning_rate": 1.926530612244898e-05,
      "loss": 0.7475,
      "step": 720
    },
    {
      "epoch": 3.7244897959183674,
      "grad_norm": 15.636372566223145,
      "learning_rate": 1.925510204081633e-05,
      "loss": 0.6612,
      "step": 730
    },
    {
      "epoch": 3.7755102040816326,
      "grad_norm": 11.577887535095215,
      "learning_rate": 1.9244897959183675e-05,
      "loss": 0.5646,
      "step": 740
    },
    {
      "epoch": 3.826530612244898,
      "grad_norm": 10.303359985351562,
      "learning_rate": 1.9234693877551024e-05,
      "loss": 0.891,
      "step": 750
    },
    {
      "epoch": 3.877551020408163,
      "grad_norm": 6.595448970794678,
      "learning_rate": 1.922448979591837e-05,
      "loss": 0.567,
      "step": 760
    },
    {
      "epoch": 3.928571428571429,
      "grad_norm": 9.541492462158203,
      "learning_rate": 1.9214285714285716e-05,
      "loss": 0.6227,
      "step": 770
    },
    {
      "epoch": 3.979591836734694,
      "grad_norm": 5.956906795501709,
      "learning_rate": 1.920408163265306e-05,
      "loss": 0.6067,
      "step": 780
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.5760613679885864,
      "eval_runtime": 0.9118,
      "eval_samples_per_second": 303.789,
      "eval_steps_per_second": 38.385,
      "step": 784
    },
    {
      "epoch": 4.030612244897959,
      "grad_norm": 9.87633991241455,
      "learning_rate": 1.919387755102041e-05,
      "loss": 0.5515,
      "step": 790
    },
    {
      "epoch": 4.081632653061225,
      "grad_norm": 5.547207355499268,
      "learning_rate": 1.9183673469387756e-05,
      "loss": 0.6383,
      "step": 800
    },
    {
      "epoch": 4.13265306122449,
      "grad_norm": 6.011085033416748,
      "learning_rate": 1.9173469387755102e-05,
      "loss": 0.5493,
      "step": 810
    },
    {
      "epoch": 4.183673469387755,
      "grad_norm": 8.771254539489746,
      "learning_rate": 1.916326530612245e-05,
      "loss": 0.6161,
      "step": 820
    },
    {
      "epoch": 4.23469387755102,
      "grad_norm": 9.922262191772461,
      "learning_rate": 1.9153061224489797e-05,
      "loss": 0.6536,
      "step": 830
    },
    {
      "epoch": 4.285714285714286,
      "grad_norm": 9.25693416595459,
      "learning_rate": 1.9142857142857146e-05,
      "loss": 0.5094,
      "step": 840
    },
    {
      "epoch": 4.336734693877551,
      "grad_norm": 12.405832290649414,
      "learning_rate": 1.9132653061224492e-05,
      "loss": 0.5365,
      "step": 850
    },
    {
      "epoch": 4.387755102040816,
      "grad_norm": 11.769070625305176,
      "learning_rate": 1.9122448979591838e-05,
      "loss": 0.6453,
      "step": 860
    },
    {
      "epoch": 4.438775510204081,
      "grad_norm": 16.656686782836914,
      "learning_rate": 1.9112244897959184e-05,
      "loss": 0.5829,
      "step": 870
    },
    {
      "epoch": 4.489795918367347,
      "grad_norm": 7.043467998504639,
      "learning_rate": 1.9102040816326533e-05,
      "loss": 0.6485,
      "step": 880
    },
    {
      "epoch": 4.540816326530612,
      "grad_norm": 25.76465606689453,
      "learning_rate": 1.909183673469388e-05,
      "loss": 0.6761,
      "step": 890
    },
    {
      "epoch": 4.591836734693878,
      "grad_norm": 13.923907279968262,
      "learning_rate": 1.9081632653061225e-05,
      "loss": 0.7124,
      "step": 900
    },
    {
      "epoch": 4.642857142857143,
      "grad_norm": 14.508225440979004,
      "learning_rate": 1.9071428571428574e-05,
      "loss": 0.7772,
      "step": 910
    },
    {
      "epoch": 4.6938775510204085,
      "grad_norm": 21.83747673034668,
      "learning_rate": 1.906122448979592e-05,
      "loss": 0.5777,
      "step": 920
    },
    {
      "epoch": 4.744897959183674,
      "grad_norm": 7.562707424163818,
      "learning_rate": 1.905102040816327e-05,
      "loss": 0.568,
      "step": 930
    },
    {
      "epoch": 4.795918367346939,
      "grad_norm": 5.347863674163818,
      "learning_rate": 1.9040816326530614e-05,
      "loss": 0.5044,
      "step": 940
    },
    {
      "epoch": 4.846938775510204,
      "grad_norm": 30.55077362060547,
      "learning_rate": 1.903061224489796e-05,
      "loss": 0.593,
      "step": 950
    },
    {
      "epoch": 4.8979591836734695,
      "grad_norm": 9.441902160644531,
      "learning_rate": 1.9020408163265306e-05,
      "loss": 0.5943,
      "step": 960
    },
    {
      "epoch": 4.948979591836735,
      "grad_norm": 39.08546447753906,
      "learning_rate": 1.9010204081632655e-05,
      "loss": 0.8483,
      "step": 970
    },
    {
      "epoch": 5.0,
      "grad_norm": 24.962617874145508,
      "learning_rate": 1.9e-05,
      "loss": 0.5583,
      "step": 980
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.5220628976821899,
      "eval_runtime": 0.9101,
      "eval_samples_per_second": 304.362,
      "eval_steps_per_second": 38.457,
      "step": 980
    },
    {
      "epoch": 5.051020408163265,
      "grad_norm": 19.345821380615234,
      "learning_rate": 1.898979591836735e-05,
      "loss": 0.533,
      "step": 990
    },
    {
      "epoch": 5.1020408163265305,
      "grad_norm": 16.065095901489258,
      "learning_rate": 1.8979591836734696e-05,
      "loss": 0.6818,
      "step": 1000
    },
    {
      "epoch": 5.153061224489796,
      "grad_norm": 7.609792709350586,
      "learning_rate": 1.8969387755102042e-05,
      "loss": 0.3848,
      "step": 1010
    },
    {
      "epoch": 5.204081632653061,
      "grad_norm": 11.60918140411377,
      "learning_rate": 1.895918367346939e-05,
      "loss": 0.4117,
      "step": 1020
    },
    {
      "epoch": 5.255102040816326,
      "grad_norm": 25.666664123535156,
      "learning_rate": 1.8948979591836737e-05,
      "loss": 0.7278,
      "step": 1030
    },
    {
      "epoch": 5.3061224489795915,
      "grad_norm": 12.491799354553223,
      "learning_rate": 1.8938775510204083e-05,
      "loss": 0.5662,
      "step": 1040
    },
    {
      "epoch": 5.357142857142857,
      "grad_norm": 10.658936500549316,
      "learning_rate": 1.892857142857143e-05,
      "loss": 0.5274,
      "step": 1050
    },
    {
      "epoch": 5.408163265306122,
      "grad_norm": 7.525088787078857,
      "learning_rate": 1.8918367346938778e-05,
      "loss": 0.645,
      "step": 1060
    },
    {
      "epoch": 5.459183673469388,
      "grad_norm": 5.552037239074707,
      "learning_rate": 1.8908163265306123e-05,
      "loss": 0.5245,
      "step": 1070
    },
    {
      "epoch": 5.510204081632653,
      "grad_norm": 4.1382646560668945,
      "learning_rate": 1.8897959183673473e-05,
      "loss": 0.5877,
      "step": 1080
    },
    {
      "epoch": 5.561224489795919,
      "grad_norm": 3.886408567428589,
      "learning_rate": 1.888775510204082e-05,
      "loss": 0.7513,
      "step": 1090
    },
    {
      "epoch": 5.612244897959184,
      "grad_norm": 4.6609978675842285,
      "learning_rate": 1.8877551020408164e-05,
      "loss": 0.8475,
      "step": 1100
    },
    {
      "epoch": 5.663265306122449,
      "grad_norm": 14.411447525024414,
      "learning_rate": 1.8867346938775513e-05,
      "loss": 0.4893,
      "step": 1110
    },
    {
      "epoch": 5.714285714285714,
      "grad_norm": 5.827091217041016,
      "learning_rate": 1.885714285714286e-05,
      "loss": 0.5442,
      "step": 1120
    },
    {
      "epoch": 5.76530612244898,
      "grad_norm": 30.776586532592773,
      "learning_rate": 1.8846938775510205e-05,
      "loss": 0.6235,
      "step": 1130
    },
    {
      "epoch": 5.816326530612245,
      "grad_norm": 5.894071578979492,
      "learning_rate": 1.883673469387755e-05,
      "loss": 0.5285,
      "step": 1140
    },
    {
      "epoch": 5.86734693877551,
      "grad_norm": 22.97109031677246,
      "learning_rate": 1.88265306122449e-05,
      "loss": 0.6047,
      "step": 1150
    },
    {
      "epoch": 5.918367346938775,
      "grad_norm": 12.653263092041016,
      "learning_rate": 1.8816326530612246e-05,
      "loss": 0.5245,
      "step": 1160
    },
    {
      "epoch": 5.969387755102041,
      "grad_norm": 5.777740001678467,
      "learning_rate": 1.8806122448979595e-05,
      "loss": 0.6819,
      "step": 1170
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.4617631733417511,
      "eval_runtime": 0.9081,
      "eval_samples_per_second": 305.02,
      "eval_steps_per_second": 38.54,
      "step": 1176
    },
    {
      "epoch": 6.020408163265306,
      "grad_norm": 13.068285942077637,
      "learning_rate": 1.879591836734694e-05,
      "loss": 0.7413,
      "step": 1180
    },
    {
      "epoch": 6.071428571428571,
      "grad_norm": 14.347311019897461,
      "learning_rate": 1.8785714285714286e-05,
      "loss": 0.5568,
      "step": 1190
    },
    {
      "epoch": 6.122448979591836,
      "grad_norm": 21.006319046020508,
      "learning_rate": 1.8775510204081636e-05,
      "loss": 0.4779,
      "step": 1200
    },
    {
      "epoch": 6.173469387755102,
      "grad_norm": 2.7993950843811035,
      "learning_rate": 1.876530612244898e-05,
      "loss": 0.4893,
      "step": 1210
    },
    {
      "epoch": 6.224489795918367,
      "grad_norm": 4.952569007873535,
      "learning_rate": 1.8755102040816327e-05,
      "loss": 0.4725,
      "step": 1220
    },
    {
      "epoch": 6.275510204081632,
      "grad_norm": 4.28859281539917,
      "learning_rate": 1.8744897959183673e-05,
      "loss": 0.3403,
      "step": 1230
    },
    {
      "epoch": 6.326530612244898,
      "grad_norm": 15.972121238708496,
      "learning_rate": 1.8734693877551022e-05,
      "loss": 0.5029,
      "step": 1240
    },
    {
      "epoch": 6.377551020408164,
      "grad_norm": 23.154094696044922,
      "learning_rate": 1.8724489795918368e-05,
      "loss": 1.0036,
      "step": 1250
    },
    {
      "epoch": 6.428571428571429,
      "grad_norm": 5.701110363006592,
      "learning_rate": 1.8714285714285717e-05,
      "loss": 0.6559,
      "step": 1260
    },
    {
      "epoch": 6.479591836734694,
      "grad_norm": 5.618606090545654,
      "learning_rate": 1.8704081632653063e-05,
      "loss": 0.5168,
      "step": 1270
    },
    {
      "epoch": 6.530612244897959,
      "grad_norm": 13.303252220153809,
      "learning_rate": 1.869387755102041e-05,
      "loss": 0.6597,
      "step": 1280
    },
    {
      "epoch": 6.581632653061225,
      "grad_norm": 7.680213928222656,
      "learning_rate": 1.8683673469387758e-05,
      "loss": 0.3866,
      "step": 1290
    },
    {
      "epoch": 6.63265306122449,
      "grad_norm": 13.645983695983887,
      "learning_rate": 1.8673469387755104e-05,
      "loss": 0.7339,
      "step": 1300
    },
    {
      "epoch": 6.683673469387755,
      "grad_norm": 5.228665351867676,
      "learning_rate": 1.866326530612245e-05,
      "loss": 0.5295,
      "step": 1310
    },
    {
      "epoch": 6.73469387755102,
      "grad_norm": 8.182433128356934,
      "learning_rate": 1.8653061224489795e-05,
      "loss": 0.4935,
      "step": 1320
    },
    {
      "epoch": 6.785714285714286,
      "grad_norm": 22.643844604492188,
      "learning_rate": 1.8642857142857144e-05,
      "loss": 0.7784,
      "step": 1330
    },
    {
      "epoch": 6.836734693877551,
      "grad_norm": 6.240009307861328,
      "learning_rate": 1.863265306122449e-05,
      "loss": 0.7085,
      "step": 1340
    },
    {
      "epoch": 6.887755102040816,
      "grad_norm": 10.868185043334961,
      "learning_rate": 1.862244897959184e-05,
      "loss": 0.4276,
      "step": 1350
    },
    {
      "epoch": 6.938775510204081,
      "grad_norm": 14.072554588317871,
      "learning_rate": 1.8612244897959185e-05,
      "loss": 0.4708,
      "step": 1360
    },
    {
      "epoch": 6.989795918367347,
      "grad_norm": 6.293390274047852,
      "learning_rate": 1.860204081632653e-05,
      "loss": 0.4154,
      "step": 1370
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.4545256197452545,
      "eval_runtime": 0.9065,
      "eval_samples_per_second": 305.583,
      "eval_steps_per_second": 38.612,
      "step": 1372
    },
    {
      "epoch": 7.040816326530612,
      "grad_norm": 31.559541702270508,
      "learning_rate": 1.859183673469388e-05,
      "loss": 0.7078,
      "step": 1380
    },
    {
      "epoch": 7.091836734693878,
      "grad_norm": 9.572538375854492,
      "learning_rate": 1.8581632653061226e-05,
      "loss": 0.384,
      "step": 1390
    },
    {
      "epoch": 7.142857142857143,
      "grad_norm": 30.215810775756836,
      "learning_rate": 1.8571428571428575e-05,
      "loss": 0.4959,
      "step": 1400
    },
    {
      "epoch": 7.1938775510204085,
      "grad_norm": 27.95237922668457,
      "learning_rate": 1.856122448979592e-05,
      "loss": 0.757,
      "step": 1410
    },
    {
      "epoch": 7.244897959183674,
      "grad_norm": 10.811882019042969,
      "learning_rate": 1.8551020408163267e-05,
      "loss": 0.5568,
      "step": 1420
    },
    {
      "epoch": 7.295918367346939,
      "grad_norm": 29.90418815612793,
      "learning_rate": 1.8540816326530613e-05,
      "loss": 0.7596,
      "step": 1430
    },
    {
      "epoch": 7.346938775510204,
      "grad_norm": 11.809814453125,
      "learning_rate": 1.853061224489796e-05,
      "loss": 0.4469,
      "step": 1440
    },
    {
      "epoch": 7.3979591836734695,
      "grad_norm": 16.023611068725586,
      "learning_rate": 1.8520408163265307e-05,
      "loss": 0.3425,
      "step": 1450
    },
    {
      "epoch": 7.448979591836735,
      "grad_norm": 17.822742462158203,
      "learning_rate": 1.8510204081632653e-05,
      "loss": 0.7049,
      "step": 1460
    },
    {
      "epoch": 7.5,
      "grad_norm": 10.744657516479492,
      "learning_rate": 1.8500000000000002e-05,
      "loss": 0.4125,
      "step": 1470
    },
    {
      "epoch": 7.551020408163265,
      "grad_norm": 12.128515243530273,
      "learning_rate": 1.8489795918367348e-05,
      "loss": 0.6269,
      "step": 1480
    },
    {
      "epoch": 7.6020408163265305,
      "grad_norm": 7.053737640380859,
      "learning_rate": 1.8479591836734697e-05,
      "loss": 0.439,
      "step": 1490
    },
    {
      "epoch": 7.653061224489796,
      "grad_norm": 3.2571001052856445,
      "learning_rate": 1.8469387755102043e-05,
      "loss": 0.7559,
      "step": 1500
    },
    {
      "epoch": 7.704081632653061,
      "grad_norm": 5.750295639038086,
      "learning_rate": 1.845918367346939e-05,
      "loss": 0.4908,
      "step": 1510
    },
    {
      "epoch": 7.755102040816326,
      "grad_norm": 28.714168548583984,
      "learning_rate": 1.8448979591836735e-05,
      "loss": 0.6464,
      "step": 1520
    },
    {
      "epoch": 7.8061224489795915,
      "grad_norm": 14.399381637573242,
      "learning_rate": 1.8438775510204084e-05,
      "loss": 0.4981,
      "step": 1530
    },
    {
      "epoch": 7.857142857142857,
      "grad_norm": 8.030821800231934,
      "learning_rate": 1.842857142857143e-05,
      "loss": 0.602,
      "step": 1540
    },
    {
      "epoch": 7.908163265306122,
      "grad_norm": 4.678750991821289,
      "learning_rate": 1.8418367346938776e-05,
      "loss": 0.4831,
      "step": 1550
    },
    {
      "epoch": 7.959183673469388,
      "grad_norm": 14.875703811645508,
      "learning_rate": 1.8408163265306125e-05,
      "loss": 0.4997,
      "step": 1560
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.45555394887924194,
      "eval_runtime": 0.9073,
      "eval_samples_per_second": 305.3,
      "eval_steps_per_second": 38.576,
      "step": 1568
    },
    {
      "epoch": 8.010204081632653,
      "grad_norm": 20.773550033569336,
      "learning_rate": 1.839795918367347e-05,
      "loss": 0.5714,
      "step": 1570
    },
    {
      "epoch": 8.061224489795919,
      "grad_norm": 16.237438201904297,
      "learning_rate": 1.838775510204082e-05,
      "loss": 0.5699,
      "step": 1580
    },
    {
      "epoch": 8.112244897959183,
      "grad_norm": 13.328165054321289,
      "learning_rate": 1.8377551020408165e-05,
      "loss": 0.6179,
      "step": 1590
    },
    {
      "epoch": 8.16326530612245,
      "grad_norm": 1.9665676355361938,
      "learning_rate": 1.836734693877551e-05,
      "loss": 0.5753,
      "step": 1600
    },
    {
      "epoch": 8.214285714285714,
      "grad_norm": 4.0612101554870605,
      "learning_rate": 1.8357142857142857e-05,
      "loss": 0.4592,
      "step": 1610
    },
    {
      "epoch": 8.26530612244898,
      "grad_norm": 7.657904148101807,
      "learning_rate": 1.8346938775510206e-05,
      "loss": 0.5163,
      "step": 1620
    },
    {
      "epoch": 8.316326530612244,
      "grad_norm": 6.175394535064697,
      "learning_rate": 1.8336734693877552e-05,
      "loss": 0.6792,
      "step": 1630
    },
    {
      "epoch": 8.36734693877551,
      "grad_norm": 3.581543445587158,
      "learning_rate": 1.8326530612244898e-05,
      "loss": 0.6148,
      "step": 1640
    },
    {
      "epoch": 8.418367346938776,
      "grad_norm": 7.020829200744629,
      "learning_rate": 1.8316326530612247e-05,
      "loss": 0.36,
      "step": 1650
    },
    {
      "epoch": 8.46938775510204,
      "grad_norm": 6.080361843109131,
      "learning_rate": 1.8306122448979593e-05,
      "loss": 0.6961,
      "step": 1660
    },
    {
      "epoch": 8.520408163265307,
      "grad_norm": 7.9090142250061035,
      "learning_rate": 1.8295918367346942e-05,
      "loss": 0.4757,
      "step": 1670
    },
    {
      "epoch": 8.571428571428571,
      "grad_norm": 26.235116958618164,
      "learning_rate": 1.8285714285714288e-05,
      "loss": 0.408,
      "step": 1680
    },
    {
      "epoch": 8.622448979591837,
      "grad_norm": 2.648345947265625,
      "learning_rate": 1.8275510204081634e-05,
      "loss": 0.368,
      "step": 1690
    },
    {
      "epoch": 8.673469387755102,
      "grad_norm": 5.360295295715332,
      "learning_rate": 1.826530612244898e-05,
      "loss": 0.6764,
      "step": 1700
    },
    {
      "epoch": 8.724489795918368,
      "grad_norm": 11.517007827758789,
      "learning_rate": 1.825510204081633e-05,
      "loss": 0.5318,
      "step": 1710
    },
    {
      "epoch": 8.775510204081632,
      "grad_norm": 3.876310348510742,
      "learning_rate": 1.8244897959183674e-05,
      "loss": 0.4896,
      "step": 1720
    },
    {
      "epoch": 8.826530612244898,
      "grad_norm": 10.778127670288086,
      "learning_rate": 1.823469387755102e-05,
      "loss": 0.6889,
      "step": 1730
    },
    {
      "epoch": 8.877551020408163,
      "grad_norm": 31.34733772277832,
      "learning_rate": 1.822448979591837e-05,
      "loss": 0.559,
      "step": 1740
    },
    {
      "epoch": 8.928571428571429,
      "grad_norm": 2.148268938064575,
      "learning_rate": 1.8214285714285715e-05,
      "loss": 0.4341,
      "step": 1750
    },
    {
      "epoch": 8.979591836734693,
      "grad_norm": 11.840656280517578,
      "learning_rate": 1.8204081632653064e-05,
      "loss": 0.6623,
      "step": 1760
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.44827473163604736,
      "eval_runtime": 0.9796,
      "eval_samples_per_second": 282.761,
      "eval_steps_per_second": 35.728,
      "step": 1764
    },
    {
      "epoch": 9.03061224489796,
      "grad_norm": 18.954586029052734,
      "learning_rate": 1.819387755102041e-05,
      "loss": 0.5372,
      "step": 1770
    },
    {
      "epoch": 9.081632653061224,
      "grad_norm": 15.901483535766602,
      "learning_rate": 1.8183673469387756e-05,
      "loss": 0.4253,
      "step": 1780
    },
    {
      "epoch": 9.13265306122449,
      "grad_norm": 5.910236835479736,
      "learning_rate": 1.81734693877551e-05,
      "loss": 0.6495,
      "step": 1790
    },
    {
      "epoch": 9.183673469387756,
      "grad_norm": 7.1659111976623535,
      "learning_rate": 1.816326530612245e-05,
      "loss": 0.3297,
      "step": 1800
    },
    {
      "epoch": 9.23469387755102,
      "grad_norm": 17.41356658935547,
      "learning_rate": 1.8153061224489797e-05,
      "loss": 0.5893,
      "step": 1810
    },
    {
      "epoch": 9.285714285714286,
      "grad_norm": 23.155420303344727,
      "learning_rate": 1.8142857142857146e-05,
      "loss": 0.5408,
      "step": 1820
    },
    {
      "epoch": 9.33673469387755,
      "grad_norm": 9.475258827209473,
      "learning_rate": 1.813265306122449e-05,
      "loss": 0.6049,
      "step": 1830
    },
    {
      "epoch": 9.387755102040817,
      "grad_norm": 5.417372703552246,
      "learning_rate": 1.8122448979591837e-05,
      "loss": 0.8346,
      "step": 1840
    },
    {
      "epoch": 9.438775510204081,
      "grad_norm": 16.842754364013672,
      "learning_rate": 1.8112244897959187e-05,
      "loss": 0.5809,
      "step": 1850
    },
    {
      "epoch": 9.489795918367347,
      "grad_norm": 4.0253801345825195,
      "learning_rate": 1.8102040816326532e-05,
      "loss": 0.3968,
      "step": 1860
    },
    {
      "epoch": 9.540816326530612,
      "grad_norm": 17.863977432250977,
      "learning_rate": 1.8091836734693878e-05,
      "loss": 0.8711,
      "step": 1870
    },
    {
      "epoch": 9.591836734693878,
      "grad_norm": 13.94015884399414,
      "learning_rate": 1.8081632653061224e-05,
      "loss": 0.3709,
      "step": 1880
    },
    {
      "epoch": 9.642857142857142,
      "grad_norm": 6.496246814727783,
      "learning_rate": 1.8071428571428573e-05,
      "loss": 0.4725,
      "step": 1890
    },
    {
      "epoch": 9.693877551020408,
      "grad_norm": 10.334319114685059,
      "learning_rate": 1.806122448979592e-05,
      "loss": 0.512,
      "step": 1900
    },
    {
      "epoch": 9.744897959183673,
      "grad_norm": 4.750894546508789,
      "learning_rate": 1.8051020408163268e-05,
      "loss": 0.5019,
      "step": 1910
    },
    {
      "epoch": 9.795918367346939,
      "grad_norm": 6.946272373199463,
      "learning_rate": 1.8040816326530614e-05,
      "loss": 0.5319,
      "step": 1920
    },
    {
      "epoch": 9.846938775510203,
      "grad_norm": 3.2372701168060303,
      "learning_rate": 1.803061224489796e-05,
      "loss": 0.489,
      "step": 1930
    },
    {
      "epoch": 9.89795918367347,
      "grad_norm": 3.4849259853363037,
      "learning_rate": 1.802040816326531e-05,
      "loss": 0.4361,
      "step": 1940
    },
    {
      "epoch": 9.948979591836736,
      "grad_norm": 3.67340350151062,
      "learning_rate": 1.8010204081632655e-05,
      "loss": 0.4594,
      "step": 1950
    },
    {
      "epoch": 10.0,
      "grad_norm": 22.562456130981445,
      "learning_rate": 1.8e-05,
      "loss": 0.8141,
      "step": 1960
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.44937407970428467,
      "eval_runtime": 0.9386,
      "eval_samples_per_second": 295.131,
      "eval_steps_per_second": 37.291,
      "step": 1960
    },
    {
      "epoch": 10.051020408163266,
      "grad_norm": 3.1588401794433594,
      "learning_rate": 1.7989795918367346e-05,
      "loss": 0.67,
      "step": 1970
    },
    {
      "epoch": 10.10204081632653,
      "grad_norm": 2.766951322555542,
      "learning_rate": 1.7979591836734695e-05,
      "loss": 0.3976,
      "step": 1980
    },
    {
      "epoch": 10.153061224489797,
      "grad_norm": 11.721719741821289,
      "learning_rate": 1.796938775510204e-05,
      "loss": 0.5346,
      "step": 1990
    },
    {
      "epoch": 10.204081632653061,
      "grad_norm": 1.7065356969833374,
      "learning_rate": 1.795918367346939e-05,
      "loss": 0.4573,
      "step": 2000
    },
    {
      "epoch": 10.255102040816327,
      "grad_norm": 8.152673721313477,
      "learning_rate": 1.7948979591836736e-05,
      "loss": 0.4637,
      "step": 2010
    },
    {
      "epoch": 10.306122448979592,
      "grad_norm": 3.653498649597168,
      "learning_rate": 1.7938775510204082e-05,
      "loss": 0.5361,
      "step": 2020
    },
    {
      "epoch": 10.357142857142858,
      "grad_norm": 6.012062072753906,
      "learning_rate": 1.792857142857143e-05,
      "loss": 0.4971,
      "step": 2030
    },
    {
      "epoch": 10.408163265306122,
      "grad_norm": 20.335803985595703,
      "learning_rate": 1.7918367346938777e-05,
      "loss": 0.6676,
      "step": 2040
    },
    {
      "epoch": 10.459183673469388,
      "grad_norm": 20.399965286254883,
      "learning_rate": 1.7908163265306123e-05,
      "loss": 0.6622,
      "step": 2050
    },
    {
      "epoch": 10.510204081632653,
      "grad_norm": 2.453251600265503,
      "learning_rate": 1.789795918367347e-05,
      "loss": 0.5014,
      "step": 2060
    },
    {
      "epoch": 10.561224489795919,
      "grad_norm": 4.368765830993652,
      "learning_rate": 1.7887755102040818e-05,
      "loss": 0.5901,
      "step": 2070
    },
    {
      "epoch": 10.612244897959183,
      "grad_norm": 12.377396583557129,
      "learning_rate": 1.7877551020408164e-05,
      "loss": 0.5104,
      "step": 2080
    },
    {
      "epoch": 10.66326530612245,
      "grad_norm": 4.948236465454102,
      "learning_rate": 1.7867346938775513e-05,
      "loss": 0.7419,
      "step": 2090
    },
    {
      "epoch": 10.714285714285714,
      "grad_norm": 4.517810344696045,
      "learning_rate": 1.785714285714286e-05,
      "loss": 0.3409,
      "step": 2100
    },
    {
      "epoch": 10.76530612244898,
      "grad_norm": 15.243081092834473,
      "learning_rate": 1.7846938775510204e-05,
      "loss": 0.4715,
      "step": 2110
    },
    {
      "epoch": 10.816326530612244,
      "grad_norm": 5.174474239349365,
      "learning_rate": 1.7836734693877553e-05,
      "loss": 0.5621,
      "step": 2120
    },
    {
      "epoch": 10.86734693877551,
      "grad_norm": 23.780227661132812,
      "learning_rate": 1.78265306122449e-05,
      "loss": 0.4053,
      "step": 2130
    },
    {
      "epoch": 10.918367346938776,
      "grad_norm": 29.84012794494629,
      "learning_rate": 1.781632653061225e-05,
      "loss": 0.7215,
      "step": 2140
    },
    {
      "epoch": 10.96938775510204,
      "grad_norm": 41.40806198120117,
      "learning_rate": 1.780612244897959e-05,
      "loss": 0.5514,
      "step": 2150
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.8628158844765343,
      "eval_loss": 0.4437270164489746,
      "eval_runtime": 0.9061,
      "eval_samples_per_second": 305.691,
      "eval_steps_per_second": 38.625,
      "step": 2156
    },
    {
      "epoch": 11.020408163265307,
      "grad_norm": 11.41050910949707,
      "learning_rate": 1.779591836734694e-05,
      "loss": 0.4097,
      "step": 2160
    },
    {
      "epoch": 11.071428571428571,
      "grad_norm": 3.9608051776885986,
      "learning_rate": 1.7785714285714286e-05,
      "loss": 0.5713,
      "step": 2170
    },
    {
      "epoch": 11.122448979591837,
      "grad_norm": 13.2108793258667,
      "learning_rate": 1.7775510204081635e-05,
      "loss": 0.3795,
      "step": 2180
    },
    {
      "epoch": 11.173469387755102,
      "grad_norm": 3.4301681518554688,
      "learning_rate": 1.776530612244898e-05,
      "loss": 0.3884,
      "step": 2190
    },
    {
      "epoch": 11.224489795918368,
      "grad_norm": 27.84368896484375,
      "learning_rate": 1.7755102040816327e-05,
      "loss": 0.5638,
      "step": 2200
    },
    {
      "epoch": 11.275510204081632,
      "grad_norm": 16.751955032348633,
      "learning_rate": 1.7744897959183676e-05,
      "loss": 0.8137,
      "step": 2210
    },
    {
      "epoch": 11.326530612244898,
      "grad_norm": 4.422566890716553,
      "learning_rate": 1.773469387755102e-05,
      "loss": 0.4273,
      "step": 2220
    },
    {
      "epoch": 11.377551020408163,
      "grad_norm": 4.858816623687744,
      "learning_rate": 1.772448979591837e-05,
      "loss": 0.5726,
      "step": 2230
    },
    {
      "epoch": 11.428571428571429,
      "grad_norm": 20.40119171142578,
      "learning_rate": 1.7714285714285717e-05,
      "loss": 0.6104,
      "step": 2240
    },
    {
      "epoch": 11.479591836734693,
      "grad_norm": 2.3652243614196777,
      "learning_rate": 1.7704081632653062e-05,
      "loss": 0.646,
      "step": 2250
    },
    {
      "epoch": 11.53061224489796,
      "grad_norm": 2.76007342338562,
      "learning_rate": 1.7693877551020408e-05,
      "loss": 0.3773,
      "step": 2260
    },
    {
      "epoch": 11.581632653061224,
      "grad_norm": 1.432399868965149,
      "learning_rate": 1.7683673469387757e-05,
      "loss": 0.3776,
      "step": 2270
    },
    {
      "epoch": 11.63265306122449,
      "grad_norm": 15.27750301361084,
      "learning_rate": 1.7673469387755103e-05,
      "loss": 0.4199,
      "step": 2280
    },
    {
      "epoch": 11.683673469387756,
      "grad_norm": 9.933341026306152,
      "learning_rate": 1.766326530612245e-05,
      "loss": 0.6013,
      "step": 2290
    },
    {
      "epoch": 11.73469387755102,
      "grad_norm": 20.709564208984375,
      "learning_rate": 1.7653061224489798e-05,
      "loss": 0.8634,
      "step": 2300
    },
    {
      "epoch": 11.785714285714286,
      "grad_norm": 6.766268253326416,
      "learning_rate": 1.7642857142857144e-05,
      "loss": 0.4018,
      "step": 2310
    },
    {
      "epoch": 11.83673469387755,
      "grad_norm": 10.062901496887207,
      "learning_rate": 1.7632653061224493e-05,
      "loss": 0.3467,
      "step": 2320
    },
    {
      "epoch": 11.887755102040817,
      "grad_norm": 18.867374420166016,
      "learning_rate": 1.762244897959184e-05,
      "loss": 0.5747,
      "step": 2330
    },
    {
      "epoch": 11.938775510204081,
      "grad_norm": 6.884149074554443,
      "learning_rate": 1.7612244897959185e-05,
      "loss": 0.469,
      "step": 2340
    },
    {
      "epoch": 11.989795918367347,
      "grad_norm": 19.143640518188477,
      "learning_rate": 1.760204081632653e-05,
      "loss": 0.6831,
      "step": 2350
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.8664259927797834,
      "eval_loss": 0.44069772958755493,
      "eval_runtime": 0.9302,
      "eval_samples_per_second": 297.796,
      "eval_steps_per_second": 37.628,
      "step": 2352
    },
    {
      "epoch": 12.040816326530612,
      "grad_norm": 22.173095703125,
      "learning_rate": 1.759183673469388e-05,
      "loss": 0.3191,
      "step": 2360
    },
    {
      "epoch": 12.091836734693878,
      "grad_norm": 17.956342697143555,
      "learning_rate": 1.7581632653061225e-05,
      "loss": 0.4353,
      "step": 2370
    },
    {
      "epoch": 12.142857142857142,
      "grad_norm": 4.1329522132873535,
      "learning_rate": 1.757142857142857e-05,
      "loss": 0.5658,
      "step": 2380
    },
    {
      "epoch": 12.193877551020408,
      "grad_norm": 3.9423656463623047,
      "learning_rate": 1.756122448979592e-05,
      "loss": 0.478,
      "step": 2390
    },
    {
      "epoch": 12.244897959183673,
      "grad_norm": 2.0435667037963867,
      "learning_rate": 1.7551020408163266e-05,
      "loss": 0.5067,
      "step": 2400
    },
    {
      "epoch": 12.295918367346939,
      "grad_norm": 2.715911626815796,
      "learning_rate": 1.7540816326530615e-05,
      "loss": 0.7842,
      "step": 2410
    },
    {
      "epoch": 12.346938775510203,
      "grad_norm": 4.604434967041016,
      "learning_rate": 1.753061224489796e-05,
      "loss": 0.5576,
      "step": 2420
    },
    {
      "epoch": 12.39795918367347,
      "grad_norm": 10.776817321777344,
      "learning_rate": 1.7520408163265307e-05,
      "loss": 0.4484,
      "step": 2430
    },
    {
      "epoch": 12.448979591836734,
      "grad_norm": 5.264280319213867,
      "learning_rate": 1.7510204081632653e-05,
      "loss": 0.496,
      "step": 2440
    },
    {
      "epoch": 12.5,
      "grad_norm": 3.7462546825408936,
      "learning_rate": 1.7500000000000002e-05,
      "loss": 0.4742,
      "step": 2450
    },
    {
      "epoch": 12.551020408163264,
      "grad_norm": 6.946028232574463,
      "learning_rate": 1.748979591836735e-05,
      "loss": 0.5988,
      "step": 2460
    },
    {
      "epoch": 12.60204081632653,
      "grad_norm": 5.713995933532715,
      "learning_rate": 1.7479591836734693e-05,
      "loss": 0.4149,
      "step": 2470
    },
    {
      "epoch": 12.653061224489797,
      "grad_norm": 5.301652908325195,
      "learning_rate": 1.7469387755102043e-05,
      "loss": 0.5376,
      "step": 2480
    },
    {
      "epoch": 12.704081632653061,
      "grad_norm": 32.09578323364258,
      "learning_rate": 1.745918367346939e-05,
      "loss": 0.4112,
      "step": 2490
    },
    {
      "epoch": 12.755102040816327,
      "grad_norm": 53.091888427734375,
      "learning_rate": 1.7448979591836738e-05,
      "loss": 0.6431,
      "step": 2500
    },
    {
      "epoch": 12.806122448979592,
      "grad_norm": 6.123991966247559,
      "learning_rate": 1.7438775510204083e-05,
      "loss": 0.498,
      "step": 2510
    },
    {
      "epoch": 12.857142857142858,
      "grad_norm": 3.3255085945129395,
      "learning_rate": 1.742857142857143e-05,
      "loss": 0.7752,
      "step": 2520
    },
    {
      "epoch": 12.908163265306122,
      "grad_norm": 2.873152494430542,
      "learning_rate": 1.7418367346938775e-05,
      "loss": 0.5451,
      "step": 2530
    },
    {
      "epoch": 12.959183673469388,
      "grad_norm": 11.851140022277832,
      "learning_rate": 1.7408163265306124e-05,
      "loss": 0.2799,
      "step": 2540
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.8700361010830325,
      "eval_loss": 0.4458507001399994,
      "eval_runtime": 0.9051,
      "eval_samples_per_second": 306.056,
      "eval_steps_per_second": 38.671,
      "step": 2548
    },
    {
      "epoch": 13.010204081632653,
      "grad_norm": 18.913997650146484,
      "learning_rate": 1.7397959183673473e-05,
      "loss": 0.7083,
      "step": 2550
    },
    {
      "epoch": 13.061224489795919,
      "grad_norm": 14.853326797485352,
      "learning_rate": 1.738775510204082e-05,
      "loss": 0.6219,
      "step": 2560
    },
    {
      "epoch": 13.112244897959183,
      "grad_norm": 37.3554573059082,
      "learning_rate": 1.7377551020408165e-05,
      "loss": 0.592,
      "step": 2570
    },
    {
      "epoch": 13.16326530612245,
      "grad_norm": 21.007577896118164,
      "learning_rate": 1.736734693877551e-05,
      "loss": 0.4654,
      "step": 2580
    },
    {
      "epoch": 13.214285714285714,
      "grad_norm": 4.620365619659424,
      "learning_rate": 1.735714285714286e-05,
      "loss": 0.6092,
      "step": 2590
    },
    {
      "epoch": 13.26530612244898,
      "grad_norm": 11.353272438049316,
      "learning_rate": 1.7346938775510206e-05,
      "loss": 0.3704,
      "step": 2600
    },
    {
      "epoch": 13.316326530612244,
      "grad_norm": 26.348058700561523,
      "learning_rate": 1.733673469387755e-05,
      "loss": 0.4654,
      "step": 2610
    },
    {
      "epoch": 13.36734693877551,
      "grad_norm": 3.8481733798980713,
      "learning_rate": 1.7326530612244897e-05,
      "loss": 0.4833,
      "step": 2620
    },
    {
      "epoch": 13.418367346938776,
      "grad_norm": 30.980472564697266,
      "learning_rate": 1.7316326530612246e-05,
      "loss": 0.5626,
      "step": 2630
    },
    {
      "epoch": 13.46938775510204,
      "grad_norm": 3.1589720249176025,
      "learning_rate": 1.7306122448979596e-05,
      "loss": 0.6026,
      "step": 2640
    },
    {
      "epoch": 13.520408163265307,
      "grad_norm": 30.44755744934082,
      "learning_rate": 1.729591836734694e-05,
      "loss": 0.5834,
      "step": 2650
    },
    {
      "epoch": 13.571428571428571,
      "grad_norm": 4.7254791259765625,
      "learning_rate": 1.7285714285714287e-05,
      "loss": 0.5029,
      "step": 2660
    },
    {
      "epoch": 13.622448979591837,
      "grad_norm": 5.987908363342285,
      "learning_rate": 1.7275510204081633e-05,
      "loss": 0.4039,
      "step": 2670
    },
    {
      "epoch": 13.673469387755102,
      "grad_norm": 4.512538433074951,
      "learning_rate": 1.7265306122448982e-05,
      "loss": 0.5533,
      "step": 2680
    },
    {
      "epoch": 13.724489795918368,
      "grad_norm": 32.74190139770508,
      "learning_rate": 1.7255102040816328e-05,
      "loss": 0.548,
      "step": 2690
    },
    {
      "epoch": 13.775510204081632,
      "grad_norm": 13.84644603729248,
      "learning_rate": 1.7244897959183674e-05,
      "loss": 0.4919,
      "step": 2700
    },
    {
      "epoch": 13.826530612244898,
      "grad_norm": 10.068957328796387,
      "learning_rate": 1.723469387755102e-05,
      "loss": 0.7577,
      "step": 2710
    },
    {
      "epoch": 13.877551020408163,
      "grad_norm": 23.92123031616211,
      "learning_rate": 1.722448979591837e-05,
      "loss": 0.4617,
      "step": 2720
    },
    {
      "epoch": 13.928571428571429,
      "grad_norm": 3.660578489303589,
      "learning_rate": 1.7214285714285718e-05,
      "loss": 0.3688,
      "step": 2730
    },
    {
      "epoch": 13.979591836734693,
      "grad_norm": 6.156763553619385,
      "learning_rate": 1.7204081632653064e-05,
      "loss": 0.451,
      "step": 2740
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.8808664259927798,
      "eval_loss": 0.431293785572052,
      "eval_runtime": 0.9055,
      "eval_samples_per_second": 305.908,
      "eval_steps_per_second": 38.653,
      "step": 2744
    },
    {
      "epoch": 14.03061224489796,
      "grad_norm": 54.075565338134766,
      "learning_rate": 1.719387755102041e-05,
      "loss": 0.6135,
      "step": 2750
    },
    {
      "epoch": 14.081632653061224,
      "grad_norm": 2.282533884048462,
      "learning_rate": 1.7183673469387755e-05,
      "loss": 0.3182,
      "step": 2760
    },
    {
      "epoch": 14.13265306122449,
      "grad_norm": 5.756092071533203,
      "learning_rate": 1.7173469387755104e-05,
      "loss": 0.4057,
      "step": 2770
    },
    {
      "epoch": 14.183673469387756,
      "grad_norm": 2.168149471282959,
      "learning_rate": 1.716326530612245e-05,
      "loss": 0.4941,
      "step": 2780
    },
    {
      "epoch": 14.23469387755102,
      "grad_norm": 3.9355156421661377,
      "learning_rate": 1.7153061224489796e-05,
      "loss": 0.4138,
      "step": 2790
    },
    {
      "epoch": 14.285714285714286,
      "grad_norm": 3.681128978729248,
      "learning_rate": 1.7142857142857142e-05,
      "loss": 0.3178,
      "step": 2800
    },
    {
      "epoch": 14.33673469387755,
      "grad_norm": 22.510238647460938,
      "learning_rate": 1.713265306122449e-05,
      "loss": 0.5473,
      "step": 2810
    },
    {
      "epoch": 14.387755102040817,
      "grad_norm": 24.553346633911133,
      "learning_rate": 1.712244897959184e-05,
      "loss": 0.4764,
      "step": 2820
    },
    {
      "epoch": 14.438775510204081,
      "grad_norm": 26.42173194885254,
      "learning_rate": 1.7112244897959186e-05,
      "loss": 0.5587,
      "step": 2830
    },
    {
      "epoch": 14.489795918367347,
      "grad_norm": 10.534303665161133,
      "learning_rate": 1.7102040816326532e-05,
      "loss": 0.5632,
      "step": 2840
    },
    {
      "epoch": 14.540816326530612,
      "grad_norm": 2.2930924892425537,
      "learning_rate": 1.7091836734693878e-05,
      "loss": 0.5128,
      "step": 2850
    },
    {
      "epoch": 14.591836734693878,
      "grad_norm": 5.064579486846924,
      "learning_rate": 1.7081632653061227e-05,
      "loss": 0.3848,
      "step": 2860
    },
    {
      "epoch": 14.642857142857142,
      "grad_norm": 2.021064519882202,
      "learning_rate": 1.7071428571428573e-05,
      "loss": 0.9071,
      "step": 2870
    },
    {
      "epoch": 14.693877551020408,
      "grad_norm": 31.038896560668945,
      "learning_rate": 1.7061224489795922e-05,
      "loss": 0.6891,
      "step": 2880
    },
    {
      "epoch": 14.744897959183673,
      "grad_norm": 10.544913291931152,
      "learning_rate": 1.7051020408163264e-05,
      "loss": 0.3056,
      "step": 2890
    },
    {
      "epoch": 14.795918367346939,
      "grad_norm": 15.466207504272461,
      "learning_rate": 1.7040816326530613e-05,
      "loss": 0.6592,
      "step": 2900
    },
    {
      "epoch": 14.846938775510203,
      "grad_norm": 22.28132438659668,
      "learning_rate": 1.7030612244897962e-05,
      "loss": 0.412,
      "step": 2910
    },
    {
      "epoch": 14.89795918367347,
      "grad_norm": 8.600172996520996,
      "learning_rate": 1.7020408163265308e-05,
      "loss": 0.4612,
      "step": 2920
    },
    {
      "epoch": 14.948979591836736,
      "grad_norm": 10.196731567382812,
      "learning_rate": 1.7010204081632654e-05,
      "loss": 0.7712,
      "step": 2930
    },
    {
      "epoch": 15.0,
      "grad_norm": 8.972192764282227,
      "learning_rate": 1.7e-05,
      "loss": 0.3901,
      "step": 2940
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.43403249979019165,
      "eval_runtime": 0.9088,
      "eval_samples_per_second": 304.8,
      "eval_steps_per_second": 38.513,
      "step": 2940
    },
    {
      "epoch": 15.051020408163266,
      "grad_norm": 4.232082366943359,
      "learning_rate": 1.698979591836735e-05,
      "loss": 0.4478,
      "step": 2950
    },
    {
      "epoch": 15.10204081632653,
      "grad_norm": 6.69212007522583,
      "learning_rate": 1.6979591836734695e-05,
      "loss": 0.3475,
      "step": 2960
    },
    {
      "epoch": 15.153061224489797,
      "grad_norm": 4.485293388366699,
      "learning_rate": 1.6969387755102044e-05,
      "loss": 0.477,
      "step": 2970
    },
    {
      "epoch": 15.204081632653061,
      "grad_norm": 10.293021202087402,
      "learning_rate": 1.695918367346939e-05,
      "loss": 0.5415,
      "step": 2980
    },
    {
      "epoch": 15.255102040816327,
      "grad_norm": 3.929725408554077,
      "learning_rate": 1.6948979591836736e-05,
      "loss": 0.4187,
      "step": 2990
    },
    {
      "epoch": 15.306122448979592,
      "grad_norm": 5.861474990844727,
      "learning_rate": 1.6938775510204085e-05,
      "loss": 0.4666,
      "step": 3000
    },
    {
      "epoch": 15.357142857142858,
      "grad_norm": 6.3008575439453125,
      "learning_rate": 1.692857142857143e-05,
      "loss": 0.7248,
      "step": 3010
    },
    {
      "epoch": 15.408163265306122,
      "grad_norm": 11.251566886901855,
      "learning_rate": 1.6918367346938776e-05,
      "loss": 0.4644,
      "step": 3020
    },
    {
      "epoch": 15.459183673469388,
      "grad_norm": 14.706700325012207,
      "learning_rate": 1.6908163265306122e-05,
      "loss": 0.2452,
      "step": 3030
    },
    {
      "epoch": 15.510204081632653,
      "grad_norm": 3.358506441116333,
      "learning_rate": 1.689795918367347e-05,
      "loss": 0.2823,
      "step": 3040
    },
    {
      "epoch": 15.561224489795919,
      "grad_norm": 18.285417556762695,
      "learning_rate": 1.6887755102040817e-05,
      "loss": 0.4445,
      "step": 3050
    },
    {
      "epoch": 15.612244897959183,
      "grad_norm": 7.073090076446533,
      "learning_rate": 1.6877551020408166e-05,
      "loss": 0.5079,
      "step": 3060
    },
    {
      "epoch": 15.66326530612245,
      "grad_norm": 3.071272850036621,
      "learning_rate": 1.6867346938775512e-05,
      "loss": 0.4222,
      "step": 3070
    },
    {
      "epoch": 15.714285714285714,
      "grad_norm": 14.990596771240234,
      "learning_rate": 1.6857142857142858e-05,
      "loss": 0.7413,
      "step": 3080
    },
    {
      "epoch": 15.76530612244898,
      "grad_norm": 3.702035903930664,
      "learning_rate": 1.6846938775510207e-05,
      "loss": 0.3882,
      "step": 3090
    },
    {
      "epoch": 15.816326530612244,
      "grad_norm": 40.96125030517578,
      "learning_rate": 1.6836734693877553e-05,
      "loss": 0.9141,
      "step": 3100
    },
    {
      "epoch": 15.86734693877551,
      "grad_norm": 55.215946197509766,
      "learning_rate": 1.68265306122449e-05,
      "loss": 0.7332,
      "step": 3110
    },
    {
      "epoch": 15.918367346938776,
      "grad_norm": 3.9603729248046875,
      "learning_rate": 1.6816326530612244e-05,
      "loss": 0.607,
      "step": 3120
    },
    {
      "epoch": 15.96938775510204,
      "grad_norm": 1.3684343099594116,
      "learning_rate": 1.6806122448979594e-05,
      "loss": 0.4778,
      "step": 3130
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.42191341519355774,
      "eval_runtime": 0.9023,
      "eval_samples_per_second": 306.988,
      "eval_steps_per_second": 38.789,
      "step": 3136
    },
    {
      "epoch": 16.020408163265305,
      "grad_norm": 7.738632678985596,
      "learning_rate": 1.679591836734694e-05,
      "loss": 0.3043,
      "step": 3140
    },
    {
      "epoch": 16.071428571428573,
      "grad_norm": 13.991118431091309,
      "learning_rate": 1.678571428571429e-05,
      "loss": 0.5554,
      "step": 3150
    },
    {
      "epoch": 16.122448979591837,
      "grad_norm": 7.745731353759766,
      "learning_rate": 1.6775510204081634e-05,
      "loss": 0.3177,
      "step": 3160
    },
    {
      "epoch": 16.1734693877551,
      "grad_norm": 16.23162269592285,
      "learning_rate": 1.676530612244898e-05,
      "loss": 0.3256,
      "step": 3170
    },
    {
      "epoch": 16.224489795918366,
      "grad_norm": 22.175247192382812,
      "learning_rate": 1.675510204081633e-05,
      "loss": 0.314,
      "step": 3180
    },
    {
      "epoch": 16.275510204081634,
      "grad_norm": 3.042517900466919,
      "learning_rate": 1.6744897959183675e-05,
      "loss": 0.4996,
      "step": 3190
    },
    {
      "epoch": 16.3265306122449,
      "grad_norm": 14.799344062805176,
      "learning_rate": 1.673469387755102e-05,
      "loss": 0.6058,
      "step": 3200
    },
    {
      "epoch": 16.377551020408163,
      "grad_norm": 1.9556697607040405,
      "learning_rate": 1.6724489795918367e-05,
      "loss": 0.4115,
      "step": 3210
    },
    {
      "epoch": 16.428571428571427,
      "grad_norm": 14.793658256530762,
      "learning_rate": 1.6714285714285716e-05,
      "loss": 0.5444,
      "step": 3220
    },
    {
      "epoch": 16.479591836734695,
      "grad_norm": 26.098526000976562,
      "learning_rate": 1.6704081632653062e-05,
      "loss": 0.438,
      "step": 3230
    },
    {
      "epoch": 16.53061224489796,
      "grad_norm": 7.079488277435303,
      "learning_rate": 1.669387755102041e-05,
      "loss": 0.4399,
      "step": 3240
    },
    {
      "epoch": 16.581632653061224,
      "grad_norm": 6.621112823486328,
      "learning_rate": 1.6683673469387757e-05,
      "loss": 0.3266,
      "step": 3250
    },
    {
      "epoch": 16.632653061224488,
      "grad_norm": 16.733081817626953,
      "learning_rate": 1.6673469387755102e-05,
      "loss": 0.4853,
      "step": 3260
    },
    {
      "epoch": 16.683673469387756,
      "grad_norm": 12.528390884399414,
      "learning_rate": 1.666326530612245e-05,
      "loss": 0.4062,
      "step": 3270
    },
    {
      "epoch": 16.73469387755102,
      "grad_norm": 26.583740234375,
      "learning_rate": 1.6653061224489797e-05,
      "loss": 0.6193,
      "step": 3280
    },
    {
      "epoch": 16.785714285714285,
      "grad_norm": 7.737151145935059,
      "learning_rate": 1.6642857142857147e-05,
      "loss": 0.3099,
      "step": 3290
    },
    {
      "epoch": 16.836734693877553,
      "grad_norm": 20.276077270507812,
      "learning_rate": 1.6632653061224492e-05,
      "loss": 0.8675,
      "step": 3300
    },
    {
      "epoch": 16.887755102040817,
      "grad_norm": 1.8602110147476196,
      "learning_rate": 1.6622448979591838e-05,
      "loss": 0.2955,
      "step": 3310
    },
    {
      "epoch": 16.93877551020408,
      "grad_norm": 4.93643856048584,
      "learning_rate": 1.6612244897959184e-05,
      "loss": 0.4839,
      "step": 3320
    },
    {
      "epoch": 16.989795918367346,
      "grad_norm": 12.842012405395508,
      "learning_rate": 1.6602040816326533e-05,
      "loss": 0.5531,
      "step": 3330
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.43037131428718567,
      "eval_runtime": 0.9059,
      "eval_samples_per_second": 305.785,
      "eval_steps_per_second": 38.637,
      "step": 3332
    },
    {
      "epoch": 17.040816326530614,
      "grad_norm": 17.351253509521484,
      "learning_rate": 1.659183673469388e-05,
      "loss": 0.5322,
      "step": 3340
    },
    {
      "epoch": 17.091836734693878,
      "grad_norm": 3.8200953006744385,
      "learning_rate": 1.6581632653061225e-05,
      "loss": 0.2405,
      "step": 3350
    },
    {
      "epoch": 17.142857142857142,
      "grad_norm": 3.2091732025146484,
      "learning_rate": 1.6571428571428574e-05,
      "loss": 0.2214,
      "step": 3360
    },
    {
      "epoch": 17.193877551020407,
      "grad_norm": 17.354562759399414,
      "learning_rate": 1.656122448979592e-05,
      "loss": 0.5269,
      "step": 3370
    },
    {
      "epoch": 17.244897959183675,
      "grad_norm": 46.4826774597168,
      "learning_rate": 1.655102040816327e-05,
      "loss": 0.8078,
      "step": 3380
    },
    {
      "epoch": 17.29591836734694,
      "grad_norm": 31.496273040771484,
      "learning_rate": 1.6540816326530615e-05,
      "loss": 0.2877,
      "step": 3390
    },
    {
      "epoch": 17.346938775510203,
      "grad_norm": 8.447278022766113,
      "learning_rate": 1.653061224489796e-05,
      "loss": 0.6153,
      "step": 3400
    },
    {
      "epoch": 17.397959183673468,
      "grad_norm": 1.6649107933044434,
      "learning_rate": 1.6520408163265306e-05,
      "loss": 0.461,
      "step": 3410
    },
    {
      "epoch": 17.448979591836736,
      "grad_norm": 1.1130410432815552,
      "learning_rate": 1.6510204081632655e-05,
      "loss": 0.5158,
      "step": 3420
    },
    {
      "epoch": 17.5,
      "grad_norm": 3.8310890197753906,
      "learning_rate": 1.65e-05,
      "loss": 0.6178,
      "step": 3430
    },
    {
      "epoch": 17.551020408163264,
      "grad_norm": 19.95656967163086,
      "learning_rate": 1.6489795918367347e-05,
      "loss": 0.4623,
      "step": 3440
    },
    {
      "epoch": 17.602040816326532,
      "grad_norm": 3.0680270195007324,
      "learning_rate": 1.6479591836734696e-05,
      "loss": 0.3476,
      "step": 3450
    },
    {
      "epoch": 17.653061224489797,
      "grad_norm": 5.317693710327148,
      "learning_rate": 1.6469387755102042e-05,
      "loss": 0.5696,
      "step": 3460
    },
    {
      "epoch": 17.70408163265306,
      "grad_norm": 5.801280498504639,
      "learning_rate": 1.645918367346939e-05,
      "loss": 0.5892,
      "step": 3470
    },
    {
      "epoch": 17.755102040816325,
      "grad_norm": 3.5450732707977295,
      "learning_rate": 1.6448979591836737e-05,
      "loss": 0.6859,
      "step": 3480
    },
    {
      "epoch": 17.806122448979593,
      "grad_norm": 5.180131912231445,
      "learning_rate": 1.6438775510204083e-05,
      "loss": 0.6828,
      "step": 3490
    },
    {
      "epoch": 17.857142857142858,
      "grad_norm": 6.093260765075684,
      "learning_rate": 1.642857142857143e-05,
      "loss": 0.4179,
      "step": 3500
    },
    {
      "epoch": 17.908163265306122,
      "grad_norm": 6.6454339027404785,
      "learning_rate": 1.6418367346938778e-05,
      "loss": 0.5051,
      "step": 3510
    },
    {
      "epoch": 17.959183673469386,
      "grad_norm": 4.160913467407227,
      "learning_rate": 1.6408163265306124e-05,
      "loss": 0.4904,
      "step": 3520
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.4428997337818146,
      "eval_runtime": 0.9157,
      "eval_samples_per_second": 302.513,
      "eval_steps_per_second": 38.224,
      "step": 3528
    },
    {
      "epoch": 18.010204081632654,
      "grad_norm": 2.7255971431732178,
      "learning_rate": 1.639795918367347e-05,
      "loss": 0.5593,
      "step": 3530
    },
    {
      "epoch": 18.06122448979592,
      "grad_norm": 1.5667898654937744,
      "learning_rate": 1.638775510204082e-05,
      "loss": 0.5205,
      "step": 3540
    },
    {
      "epoch": 18.112244897959183,
      "grad_norm": 20.25644302368164,
      "learning_rate": 1.6377551020408164e-05,
      "loss": 0.4253,
      "step": 3550
    },
    {
      "epoch": 18.163265306122447,
      "grad_norm": 35.55812072753906,
      "learning_rate": 1.6367346938775513e-05,
      "loss": 0.569,
      "step": 3560
    },
    {
      "epoch": 18.214285714285715,
      "grad_norm": 32.77791976928711,
      "learning_rate": 1.635714285714286e-05,
      "loss": 0.3829,
      "step": 3570
    },
    {
      "epoch": 18.26530612244898,
      "grad_norm": 18.95991325378418,
      "learning_rate": 1.6346938775510205e-05,
      "loss": 0.6705,
      "step": 3580
    },
    {
      "epoch": 18.316326530612244,
      "grad_norm": 5.76858377456665,
      "learning_rate": 1.633673469387755e-05,
      "loss": 0.5988,
      "step": 3590
    },
    {
      "epoch": 18.367346938775512,
      "grad_norm": 3.3525443077087402,
      "learning_rate": 1.63265306122449e-05,
      "loss": 0.6091,
      "step": 3600
    },
    {
      "epoch": 18.418367346938776,
      "grad_norm": 4.094246864318848,
      "learning_rate": 1.6316326530612246e-05,
      "loss": 0.5074,
      "step": 3610
    },
    {
      "epoch": 18.46938775510204,
      "grad_norm": 10.687012672424316,
      "learning_rate": 1.630612244897959e-05,
      "loss": 0.4787,
      "step": 3620
    },
    {
      "epoch": 18.520408163265305,
      "grad_norm": 32.1494255065918,
      "learning_rate": 1.629591836734694e-05,
      "loss": 0.6131,
      "step": 3630
    },
    {
      "epoch": 18.571428571428573,
      "grad_norm": 1.8372204303741455,
      "learning_rate": 1.6285714285714287e-05,
      "loss": 0.4186,
      "step": 3640
    },
    {
      "epoch": 18.622448979591837,
      "grad_norm": 41.736534118652344,
      "learning_rate": 1.6275510204081636e-05,
      "loss": 0.7071,
      "step": 3650
    },
    {
      "epoch": 18.6734693877551,
      "grad_norm": 33.67753982543945,
      "learning_rate": 1.626530612244898e-05,
      "loss": 0.4667,
      "step": 3660
    },
    {
      "epoch": 18.724489795918366,
      "grad_norm": 1.57961905002594,
      "learning_rate": 1.6255102040816327e-05,
      "loss": 0.516,
      "step": 3670
    },
    {
      "epoch": 18.775510204081634,
      "grad_norm": 2.6496832370758057,
      "learning_rate": 1.6244897959183673e-05,
      "loss": 0.4507,
      "step": 3680
    },
    {
      "epoch": 18.8265306122449,
      "grad_norm": 3.0579190254211426,
      "learning_rate": 1.6234693877551022e-05,
      "loss": 0.3479,
      "step": 3690
    },
    {
      "epoch": 18.877551020408163,
      "grad_norm": 3.4825446605682373,
      "learning_rate": 1.6224489795918368e-05,
      "loss": 0.319,
      "step": 3700
    },
    {
      "epoch": 18.928571428571427,
      "grad_norm": 16.89004135131836,
      "learning_rate": 1.6214285714285717e-05,
      "loss": 0.6186,
      "step": 3710
    },
    {
      "epoch": 18.979591836734695,
      "grad_norm": 4.015703201293945,
      "learning_rate": 1.6204081632653063e-05,
      "loss": 0.5398,
      "step": 3720
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.4144434630870819,
      "eval_runtime": 0.9843,
      "eval_samples_per_second": 281.428,
      "eval_steps_per_second": 35.559,
      "step": 3724
    },
    {
      "epoch": 19.03061224489796,
      "grad_norm": 6.852096080780029,
      "learning_rate": 1.619387755102041e-05,
      "loss": 0.5612,
      "step": 3730
    },
    {
      "epoch": 19.081632653061224,
      "grad_norm": 20.3717098236084,
      "learning_rate": 1.6183673469387758e-05,
      "loss": 0.5017,
      "step": 3740
    },
    {
      "epoch": 19.132653061224488,
      "grad_norm": 8.115090370178223,
      "learning_rate": 1.6173469387755104e-05,
      "loss": 0.6292,
      "step": 3750
    },
    {
      "epoch": 19.183673469387756,
      "grad_norm": 36.58900833129883,
      "learning_rate": 1.616326530612245e-05,
      "loss": 0.6523,
      "step": 3760
    },
    {
      "epoch": 19.23469387755102,
      "grad_norm": 5.472764492034912,
      "learning_rate": 1.6153061224489795e-05,
      "loss": 0.4012,
      "step": 3770
    },
    {
      "epoch": 19.285714285714285,
      "grad_norm": 9.37131118774414,
      "learning_rate": 1.6142857142857145e-05,
      "loss": 0.4855,
      "step": 3780
    },
    {
      "epoch": 19.336734693877553,
      "grad_norm": 7.4792094230651855,
      "learning_rate": 1.613265306122449e-05,
      "loss": 0.5787,
      "step": 3790
    },
    {
      "epoch": 19.387755102040817,
      "grad_norm": 22.00345230102539,
      "learning_rate": 1.612244897959184e-05,
      "loss": 0.5872,
      "step": 3800
    },
    {
      "epoch": 19.43877551020408,
      "grad_norm": 5.178874969482422,
      "learning_rate": 1.6112244897959185e-05,
      "loss": 0.3207,
      "step": 3810
    },
    {
      "epoch": 19.489795918367346,
      "grad_norm": 3.875332832336426,
      "learning_rate": 1.610204081632653e-05,
      "loss": 0.385,
      "step": 3820
    },
    {
      "epoch": 19.540816326530614,
      "grad_norm": 12.927715301513672,
      "learning_rate": 1.609183673469388e-05,
      "loss": 0.451,
      "step": 3830
    },
    {
      "epoch": 19.591836734693878,
      "grad_norm": 12.995558738708496,
      "learning_rate": 1.6081632653061226e-05,
      "loss": 0.4578,
      "step": 3840
    },
    {
      "epoch": 19.642857142857142,
      "grad_norm": 8.358110427856445,
      "learning_rate": 1.6071428571428572e-05,
      "loss": 0.3823,
      "step": 3850
    },
    {
      "epoch": 19.693877551020407,
      "grad_norm": 0.9040325880050659,
      "learning_rate": 1.6061224489795918e-05,
      "loss": 0.5196,
      "step": 3860
    },
    {
      "epoch": 19.744897959183675,
      "grad_norm": 24.30955696105957,
      "learning_rate": 1.6051020408163267e-05,
      "loss": 0.3998,
      "step": 3870
    },
    {
      "epoch": 19.79591836734694,
      "grad_norm": 4.090460300445557,
      "learning_rate": 1.6040816326530613e-05,
      "loss": 0.485,
      "step": 3880
    },
    {
      "epoch": 19.846938775510203,
      "grad_norm": 23.20185089111328,
      "learning_rate": 1.6030612244897962e-05,
      "loss": 0.4394,
      "step": 3890
    },
    {
      "epoch": 19.897959183673468,
      "grad_norm": 5.225772380828857,
      "learning_rate": 1.6020408163265308e-05,
      "loss": 0.3882,
      "step": 3900
    },
    {
      "epoch": 19.948979591836736,
      "grad_norm": 1.821807861328125,
      "learning_rate": 1.6010204081632653e-05,
      "loss": 0.3613,
      "step": 3910
    },
    {
      "epoch": 20.0,
      "grad_norm": 6.591951370239258,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.8024,
      "step": 3920
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4252687990665436,
      "eval_runtime": 0.9104,
      "eval_samples_per_second": 304.276,
      "eval_steps_per_second": 38.446,
      "step": 3920
    },
    {
      "epoch": 20.051020408163264,
      "grad_norm": 21.0618896484375,
      "learning_rate": 1.598979591836735e-05,
      "loss": 0.5992,
      "step": 3930
    },
    {
      "epoch": 20.102040816326532,
      "grad_norm": 30.055402755737305,
      "learning_rate": 1.5979591836734694e-05,
      "loss": 0.5112,
      "step": 3940
    },
    {
      "epoch": 20.153061224489797,
      "grad_norm": 15.84575080871582,
      "learning_rate": 1.596938775510204e-05,
      "loss": 0.5202,
      "step": 3950
    },
    {
      "epoch": 20.20408163265306,
      "grad_norm": 18.001296997070312,
      "learning_rate": 1.595918367346939e-05,
      "loss": 0.5711,
      "step": 3960
    },
    {
      "epoch": 20.255102040816325,
      "grad_norm": 3.7775590419769287,
      "learning_rate": 1.5948979591836735e-05,
      "loss": 0.5248,
      "step": 3970
    },
    {
      "epoch": 20.306122448979593,
      "grad_norm": 6.051454067230225,
      "learning_rate": 1.5938775510204084e-05,
      "loss": 0.4228,
      "step": 3980
    },
    {
      "epoch": 20.357142857142858,
      "grad_norm": 18.3060302734375,
      "learning_rate": 1.592857142857143e-05,
      "loss": 0.7067,
      "step": 3990
    },
    {
      "epoch": 20.408163265306122,
      "grad_norm": 5.468346118927002,
      "learning_rate": 1.5918367346938776e-05,
      "loss": 0.7151,
      "step": 4000
    },
    {
      "epoch": 20.459183673469386,
      "grad_norm": 9.83199405670166,
      "learning_rate": 1.5908163265306125e-05,
      "loss": 0.4655,
      "step": 4010
    },
    {
      "epoch": 20.510204081632654,
      "grad_norm": 31.35965919494629,
      "learning_rate": 1.589795918367347e-05,
      "loss": 0.3942,
      "step": 4020
    },
    {
      "epoch": 20.56122448979592,
      "grad_norm": 20.667179107666016,
      "learning_rate": 1.588775510204082e-05,
      "loss": 0.3265,
      "step": 4030
    },
    {
      "epoch": 20.612244897959183,
      "grad_norm": 10.03593921661377,
      "learning_rate": 1.5877551020408162e-05,
      "loss": 0.2627,
      "step": 4040
    },
    {
      "epoch": 20.663265306122447,
      "grad_norm": 2.337700366973877,
      "learning_rate": 1.586734693877551e-05,
      "loss": 0.5266,
      "step": 4050
    },
    {
      "epoch": 20.714285714285715,
      "grad_norm": 17.29107093811035,
      "learning_rate": 1.5857142857142857e-05,
      "loss": 0.3513,
      "step": 4060
    },
    {
      "epoch": 20.76530612244898,
      "grad_norm": 5.114450454711914,
      "learning_rate": 1.5846938775510206e-05,
      "loss": 0.3173,
      "step": 4070
    },
    {
      "epoch": 20.816326530612244,
      "grad_norm": 31.97540283203125,
      "learning_rate": 1.5836734693877552e-05,
      "loss": 0.4395,
      "step": 4080
    },
    {
      "epoch": 20.867346938775512,
      "grad_norm": 8.966119766235352,
      "learning_rate": 1.5826530612244898e-05,
      "loss": 0.2848,
      "step": 4090
    },
    {
      "epoch": 20.918367346938776,
      "grad_norm": 5.453570365905762,
      "learning_rate": 1.5816326530612247e-05,
      "loss": 0.5704,
      "step": 4100
    },
    {
      "epoch": 20.96938775510204,
      "grad_norm": 7.039605140686035,
      "learning_rate": 1.5806122448979593e-05,
      "loss": 0.7022,
      "step": 4110
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.4231983423233032,
      "eval_runtime": 0.9374,
      "eval_samples_per_second": 295.509,
      "eval_steps_per_second": 37.339,
      "step": 4116
    },
    {
      "epoch": 21.020408163265305,
      "grad_norm": 38.38283920288086,
      "learning_rate": 1.5795918367346942e-05,
      "loss": 0.8611,
      "step": 4120
    },
    {
      "epoch": 21.071428571428573,
      "grad_norm": 40.14022445678711,
      "learning_rate": 1.5785714285714288e-05,
      "loss": 0.6908,
      "step": 4130
    },
    {
      "epoch": 21.122448979591837,
      "grad_norm": 53.969459533691406,
      "learning_rate": 1.5775510204081634e-05,
      "loss": 0.4803,
      "step": 4140
    },
    {
      "epoch": 21.1734693877551,
      "grad_norm": 22.283077239990234,
      "learning_rate": 1.576530612244898e-05,
      "loss": 0.3405,
      "step": 4150
    },
    {
      "epoch": 21.224489795918366,
      "grad_norm": 20.015172958374023,
      "learning_rate": 1.575510204081633e-05,
      "loss": 0.3342,
      "step": 4160
    },
    {
      "epoch": 21.275510204081634,
      "grad_norm": 4.4000067710876465,
      "learning_rate": 1.5744897959183675e-05,
      "loss": 0.6147,
      "step": 4170
    },
    {
      "epoch": 21.3265306122449,
      "grad_norm": 14.946221351623535,
      "learning_rate": 1.573469387755102e-05,
      "loss": 0.513,
      "step": 4180
    },
    {
      "epoch": 21.377551020408163,
      "grad_norm": 14.74938678741455,
      "learning_rate": 1.572448979591837e-05,
      "loss": 0.3444,
      "step": 4190
    },
    {
      "epoch": 21.428571428571427,
      "grad_norm": 2.155086040496826,
      "learning_rate": 1.5714285714285715e-05,
      "loss": 0.355,
      "step": 4200
    },
    {
      "epoch": 21.479591836734695,
      "grad_norm": 8.74791145324707,
      "learning_rate": 1.5704081632653065e-05,
      "loss": 0.5091,
      "step": 4210
    },
    {
      "epoch": 21.53061224489796,
      "grad_norm": 3.0141003131866455,
      "learning_rate": 1.569387755102041e-05,
      "loss": 0.4014,
      "step": 4220
    },
    {
      "epoch": 21.581632653061224,
      "grad_norm": 6.440389156341553,
      "learning_rate": 1.5683673469387756e-05,
      "loss": 0.4689,
      "step": 4230
    },
    {
      "epoch": 21.632653061224488,
      "grad_norm": 4.775058269500732,
      "learning_rate": 1.5673469387755102e-05,
      "loss": 0.3676,
      "step": 4240
    },
    {
      "epoch": 21.683673469387756,
      "grad_norm": 2.8680522441864014,
      "learning_rate": 1.566326530612245e-05,
      "loss": 0.3032,
      "step": 4250
    },
    {
      "epoch": 21.73469387755102,
      "grad_norm": 19.214563369750977,
      "learning_rate": 1.5653061224489797e-05,
      "loss": 0.3562,
      "step": 4260
    },
    {
      "epoch": 21.785714285714285,
      "grad_norm": 3.4740793704986572,
      "learning_rate": 1.5642857142857143e-05,
      "loss": 0.5291,
      "step": 4270
    },
    {
      "epoch": 21.836734693877553,
      "grad_norm": 32.47877502441406,
      "learning_rate": 1.5632653061224492e-05,
      "loss": 0.7497,
      "step": 4280
    },
    {
      "epoch": 21.887755102040817,
      "grad_norm": 5.088170051574707,
      "learning_rate": 1.5622448979591838e-05,
      "loss": 0.6248,
      "step": 4290
    },
    {
      "epoch": 21.93877551020408,
      "grad_norm": 20.319015502929688,
      "learning_rate": 1.5612244897959187e-05,
      "loss": 0.5798,
      "step": 4300
    },
    {
      "epoch": 21.989795918367346,
      "grad_norm": 22.97987174987793,
      "learning_rate": 1.5602040816326533e-05,
      "loss": 0.3868,
      "step": 4310
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.416654497385025,
      "eval_runtime": 0.906,
      "eval_samples_per_second": 305.742,
      "eval_steps_per_second": 38.632,
      "step": 4312
    },
    {
      "epoch": 22.040816326530614,
      "grad_norm": 17.4195556640625,
      "learning_rate": 1.559183673469388e-05,
      "loss": 0.4845,
      "step": 4320
    },
    {
      "epoch": 22.091836734693878,
      "grad_norm": 23.98171615600586,
      "learning_rate": 1.5581632653061224e-05,
      "loss": 0.4834,
      "step": 4330
    },
    {
      "epoch": 22.142857142857142,
      "grad_norm": 24.3503360748291,
      "learning_rate": 1.5571428571428573e-05,
      "loss": 0.5702,
      "step": 4340
    },
    {
      "epoch": 22.193877551020407,
      "grad_norm": 23.880088806152344,
      "learning_rate": 1.556122448979592e-05,
      "loss": 0.4305,
      "step": 4350
    },
    {
      "epoch": 22.244897959183675,
      "grad_norm": 19.86159896850586,
      "learning_rate": 1.5551020408163265e-05,
      "loss": 0.4079,
      "step": 4360
    },
    {
      "epoch": 22.29591836734694,
      "grad_norm": 35.142269134521484,
      "learning_rate": 1.5540816326530614e-05,
      "loss": 0.5551,
      "step": 4370
    },
    {
      "epoch": 22.346938775510203,
      "grad_norm": 24.909683227539062,
      "learning_rate": 1.553061224489796e-05,
      "loss": 0.4876,
      "step": 4380
    },
    {
      "epoch": 22.397959183673468,
      "grad_norm": 5.083420753479004,
      "learning_rate": 1.552040816326531e-05,
      "loss": 0.3714,
      "step": 4390
    },
    {
      "epoch": 22.448979591836736,
      "grad_norm": 18.776897430419922,
      "learning_rate": 1.5510204081632655e-05,
      "loss": 0.4352,
      "step": 4400
    },
    {
      "epoch": 22.5,
      "grad_norm": 52.93762969970703,
      "learning_rate": 1.55e-05,
      "loss": 0.774,
      "step": 4410
    },
    {
      "epoch": 22.551020408163264,
      "grad_norm": 13.126689910888672,
      "learning_rate": 1.5489795918367346e-05,
      "loss": 0.5832,
      "step": 4420
    },
    {
      "epoch": 22.602040816326532,
      "grad_norm": 15.990571975708008,
      "learning_rate": 1.5479591836734696e-05,
      "loss": 0.4476,
      "step": 4430
    },
    {
      "epoch": 22.653061224489797,
      "grad_norm": 26.463916778564453,
      "learning_rate": 1.546938775510204e-05,
      "loss": 0.3691,
      "step": 4440
    },
    {
      "epoch": 22.70408163265306,
      "grad_norm": 6.854879856109619,
      "learning_rate": 1.545918367346939e-05,
      "loss": 0.384,
      "step": 4450
    },
    {
      "epoch": 22.755102040816325,
      "grad_norm": 16.337034225463867,
      "learning_rate": 1.5448979591836736e-05,
      "loss": 0.3756,
      "step": 4460
    },
    {
      "epoch": 22.806122448979593,
      "grad_norm": 4.353964805603027,
      "learning_rate": 1.5438775510204082e-05,
      "loss": 0.4784,
      "step": 4470
    },
    {
      "epoch": 22.857142857142858,
      "grad_norm": 11.312897682189941,
      "learning_rate": 1.542857142857143e-05,
      "loss": 0.351,
      "step": 4480
    },
    {
      "epoch": 22.908163265306122,
      "grad_norm": 2.155244827270508,
      "learning_rate": 1.5418367346938777e-05,
      "loss": 0.5544,
      "step": 4490
    },
    {
      "epoch": 22.959183673469386,
      "grad_norm": 37.482723236083984,
      "learning_rate": 1.5408163265306123e-05,
      "loss": 0.4075,
      "step": 4500
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.39169222116470337,
      "eval_runtime": 0.9079,
      "eval_samples_per_second": 305.093,
      "eval_steps_per_second": 38.55,
      "step": 4508
    },
    {
      "epoch": 23.010204081632654,
      "grad_norm": 28.829370498657227,
      "learning_rate": 1.539795918367347e-05,
      "loss": 0.4321,
      "step": 4510
    },
    {
      "epoch": 23.06122448979592,
      "grad_norm": 10.15953540802002,
      "learning_rate": 1.5387755102040818e-05,
      "loss": 0.5674,
      "step": 4520
    },
    {
      "epoch": 23.112244897959183,
      "grad_norm": 1.703960657119751,
      "learning_rate": 1.5377551020408164e-05,
      "loss": 0.363,
      "step": 4530
    },
    {
      "epoch": 23.163265306122447,
      "grad_norm": 40.57793045043945,
      "learning_rate": 1.5367346938775513e-05,
      "loss": 0.6018,
      "step": 4540
    },
    {
      "epoch": 23.214285714285715,
      "grad_norm": 1.8852746486663818,
      "learning_rate": 1.535714285714286e-05,
      "loss": 0.3728,
      "step": 4550
    },
    {
      "epoch": 23.26530612244898,
      "grad_norm": 1.710532307624817,
      "learning_rate": 1.5346938775510204e-05,
      "loss": 0.2759,
      "step": 4560
    },
    {
      "epoch": 23.316326530612244,
      "grad_norm": 4.874763011932373,
      "learning_rate": 1.5336734693877554e-05,
      "loss": 0.3196,
      "step": 4570
    },
    {
      "epoch": 23.367346938775512,
      "grad_norm": 17.091670989990234,
      "learning_rate": 1.53265306122449e-05,
      "loss": 0.5282,
      "step": 4580
    },
    {
      "epoch": 23.418367346938776,
      "grad_norm": 15.448317527770996,
      "learning_rate": 1.5316326530612245e-05,
      "loss": 0.391,
      "step": 4590
    },
    {
      "epoch": 23.46938775510204,
      "grad_norm": 8.805540084838867,
      "learning_rate": 1.530612244897959e-05,
      "loss": 0.6056,
      "step": 4600
    },
    {
      "epoch": 23.520408163265305,
      "grad_norm": 4.770522594451904,
      "learning_rate": 1.529591836734694e-05,
      "loss": 0.4901,
      "step": 4610
    },
    {
      "epoch": 23.571428571428573,
      "grad_norm": 2.166011333465576,
      "learning_rate": 1.5285714285714286e-05,
      "loss": 0.4472,
      "step": 4620
    },
    {
      "epoch": 23.622448979591837,
      "grad_norm": 26.150266647338867,
      "learning_rate": 1.5275510204081635e-05,
      "loss": 0.6577,
      "step": 4630
    },
    {
      "epoch": 23.6734693877551,
      "grad_norm": 4.871120452880859,
      "learning_rate": 1.526530612244898e-05,
      "loss": 0.363,
      "step": 4640
    },
    {
      "epoch": 23.724489795918366,
      "grad_norm": 16.923864364624023,
      "learning_rate": 1.5255102040816327e-05,
      "loss": 0.4711,
      "step": 4650
    },
    {
      "epoch": 23.775510204081634,
      "grad_norm": 19.549949645996094,
      "learning_rate": 1.5244897959183676e-05,
      "loss": 0.4287,
      "step": 4660
    },
    {
      "epoch": 23.8265306122449,
      "grad_norm": 8.021709442138672,
      "learning_rate": 1.5234693877551022e-05,
      "loss": 0.4828,
      "step": 4670
    },
    {
      "epoch": 23.877551020408163,
      "grad_norm": 2.569868326187134,
      "learning_rate": 1.522448979591837e-05,
      "loss": 0.5125,
      "step": 4680
    },
    {
      "epoch": 23.928571428571427,
      "grad_norm": 22.714309692382812,
      "learning_rate": 1.5214285714285715e-05,
      "loss": 0.39,
      "step": 4690
    },
    {
      "epoch": 23.979591836734695,
      "grad_norm": 7.076093673706055,
      "learning_rate": 1.5204081632653063e-05,
      "loss": 0.3873,
      "step": 4700
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.42687785625457764,
      "eval_runtime": 0.9066,
      "eval_samples_per_second": 305.537,
      "eval_steps_per_second": 38.606,
      "step": 4704
    },
    {
      "epoch": 24.03061224489796,
      "grad_norm": 21.08049774169922,
      "learning_rate": 1.5193877551020408e-05,
      "loss": 0.552,
      "step": 4710
    },
    {
      "epoch": 24.081632653061224,
      "grad_norm": 12.234366416931152,
      "learning_rate": 1.5183673469387756e-05,
      "loss": 0.5682,
      "step": 4720
    },
    {
      "epoch": 24.132653061224488,
      "grad_norm": 3.378530502319336,
      "learning_rate": 1.5173469387755105e-05,
      "loss": 0.3889,
      "step": 4730
    },
    {
      "epoch": 24.183673469387756,
      "grad_norm": 4.596787929534912,
      "learning_rate": 1.516326530612245e-05,
      "loss": 0.5738,
      "step": 4740
    },
    {
      "epoch": 24.23469387755102,
      "grad_norm": 3.131437063217163,
      "learning_rate": 1.5153061224489798e-05,
      "loss": 0.6792,
      "step": 4750
    },
    {
      "epoch": 24.285714285714285,
      "grad_norm": 3.314631223678589,
      "learning_rate": 1.5142857142857144e-05,
      "loss": 0.4243,
      "step": 4760
    },
    {
      "epoch": 24.336734693877553,
      "grad_norm": 6.0278778076171875,
      "learning_rate": 1.5132653061224492e-05,
      "loss": 0.3621,
      "step": 4770
    },
    {
      "epoch": 24.387755102040817,
      "grad_norm": 2.3356895446777344,
      "learning_rate": 1.5122448979591837e-05,
      "loss": 0.2135,
      "step": 4780
    },
    {
      "epoch": 24.43877551020408,
      "grad_norm": 2.9213664531707764,
      "learning_rate": 1.5112244897959185e-05,
      "loss": 0.3376,
      "step": 4790
    },
    {
      "epoch": 24.489795918367346,
      "grad_norm": 9.418445587158203,
      "learning_rate": 1.510204081632653e-05,
      "loss": 0.5853,
      "step": 4800
    },
    {
      "epoch": 24.540816326530614,
      "grad_norm": 12.467329025268555,
      "learning_rate": 1.5091836734693878e-05,
      "loss": 0.5677,
      "step": 4810
    },
    {
      "epoch": 24.591836734693878,
      "grad_norm": 23.805932998657227,
      "learning_rate": 1.5081632653061227e-05,
      "loss": 0.4888,
      "step": 4820
    },
    {
      "epoch": 24.642857142857142,
      "grad_norm": 2.4113528728485107,
      "learning_rate": 1.5071428571428573e-05,
      "loss": 0.3337,
      "step": 4830
    },
    {
      "epoch": 24.693877551020407,
      "grad_norm": 20.44839096069336,
      "learning_rate": 1.506122448979592e-05,
      "loss": 0.5998,
      "step": 4840
    },
    {
      "epoch": 24.744897959183675,
      "grad_norm": 32.043495178222656,
      "learning_rate": 1.5051020408163266e-05,
      "loss": 0.7473,
      "step": 4850
    },
    {
      "epoch": 24.79591836734694,
      "grad_norm": 20.415735244750977,
      "learning_rate": 1.5040816326530614e-05,
      "loss": 0.4814,
      "step": 4860
    },
    {
      "epoch": 24.846938775510203,
      "grad_norm": 2.85671329498291,
      "learning_rate": 1.503061224489796e-05,
      "loss": 0.4893,
      "step": 4870
    },
    {
      "epoch": 24.897959183673468,
      "grad_norm": 10.780872344970703,
      "learning_rate": 1.5020408163265307e-05,
      "loss": 0.5229,
      "step": 4880
    },
    {
      "epoch": 24.948979591836736,
      "grad_norm": 3.4374001026153564,
      "learning_rate": 1.5010204081632653e-05,
      "loss": 0.4585,
      "step": 4890
    },
    {
      "epoch": 25.0,
      "grad_norm": 8.399319648742676,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.2382,
      "step": 4900
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.39130279421806335,
      "eval_runtime": 0.9019,
      "eval_samples_per_second": 307.113,
      "eval_steps_per_second": 38.805,
      "step": 4900
    },
    {
      "epoch": 25.051020408163264,
      "grad_norm": 14.334750175476074,
      "learning_rate": 1.498979591836735e-05,
      "loss": 0.6982,
      "step": 4910
    },
    {
      "epoch": 25.102040816326532,
      "grad_norm": 25.578760147094727,
      "learning_rate": 1.4979591836734695e-05,
      "loss": 0.4587,
      "step": 4920
    },
    {
      "epoch": 25.153061224489797,
      "grad_norm": 21.422779083251953,
      "learning_rate": 1.4969387755102043e-05,
      "loss": 0.3034,
      "step": 4930
    },
    {
      "epoch": 25.20408163265306,
      "grad_norm": 1.2212822437286377,
      "learning_rate": 1.4959183673469389e-05,
      "loss": 0.6022,
      "step": 4940
    },
    {
      "epoch": 25.255102040816325,
      "grad_norm": 25.39081573486328,
      "learning_rate": 1.4948979591836736e-05,
      "loss": 0.7123,
      "step": 4950
    },
    {
      "epoch": 25.306122448979593,
      "grad_norm": 1.9558207988739014,
      "learning_rate": 1.4938775510204082e-05,
      "loss": 0.2391,
      "step": 4960
    },
    {
      "epoch": 25.357142857142858,
      "grad_norm": 1.4904729127883911,
      "learning_rate": 1.492857142857143e-05,
      "loss": 0.3867,
      "step": 4970
    },
    {
      "epoch": 25.408163265306122,
      "grad_norm": 3.322606086730957,
      "learning_rate": 1.4918367346938775e-05,
      "loss": 0.4206,
      "step": 4980
    },
    {
      "epoch": 25.459183673469386,
      "grad_norm": 4.292374134063721,
      "learning_rate": 1.4908163265306124e-05,
      "loss": 0.2889,
      "step": 4990
    },
    {
      "epoch": 25.510204081632654,
      "grad_norm": 6.701844692230225,
      "learning_rate": 1.4897959183673472e-05,
      "loss": 0.2864,
      "step": 5000
    },
    {
      "epoch": 25.56122448979592,
      "grad_norm": 5.433863639831543,
      "learning_rate": 1.4887755102040818e-05,
      "loss": 0.3433,
      "step": 5010
    },
    {
      "epoch": 25.612244897959183,
      "grad_norm": 17.945798873901367,
      "learning_rate": 1.4877551020408165e-05,
      "loss": 0.5254,
      "step": 5020
    },
    {
      "epoch": 25.663265306122447,
      "grad_norm": 2.517106771469116,
      "learning_rate": 1.4867346938775511e-05,
      "loss": 0.4814,
      "step": 5030
    },
    {
      "epoch": 25.714285714285715,
      "grad_norm": 16.52387237548828,
      "learning_rate": 1.4857142857142858e-05,
      "loss": 0.463,
      "step": 5040
    },
    {
      "epoch": 25.76530612244898,
      "grad_norm": 16.5645809173584,
      "learning_rate": 1.4846938775510204e-05,
      "loss": 0.5755,
      "step": 5050
    },
    {
      "epoch": 25.816326530612244,
      "grad_norm": 4.313784122467041,
      "learning_rate": 1.4836734693877552e-05,
      "loss": 0.2345,
      "step": 5060
    },
    {
      "epoch": 25.867346938775512,
      "grad_norm": 24.988094329833984,
      "learning_rate": 1.4826530612244897e-05,
      "loss": 0.5584,
      "step": 5070
    },
    {
      "epoch": 25.918367346938776,
      "grad_norm": 24.725994110107422,
      "learning_rate": 1.4816326530612247e-05,
      "loss": 0.7077,
      "step": 5080
    },
    {
      "epoch": 25.96938775510204,
      "grad_norm": 20.686819076538086,
      "learning_rate": 1.4806122448979594e-05,
      "loss": 0.6525,
      "step": 5090
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3949413001537323,
      "eval_runtime": 0.9249,
      "eval_samples_per_second": 299.493,
      "eval_steps_per_second": 37.842,
      "step": 5096
    },
    {
      "epoch": 26.020408163265305,
      "grad_norm": 5.891092300415039,
      "learning_rate": 1.479591836734694e-05,
      "loss": 0.2037,
      "step": 5100
    },
    {
      "epoch": 26.071428571428573,
      "grad_norm": 6.187535285949707,
      "learning_rate": 1.4785714285714287e-05,
      "loss": 0.4474,
      "step": 5110
    },
    {
      "epoch": 26.122448979591837,
      "grad_norm": 1.9839495420455933,
      "learning_rate": 1.4775510204081633e-05,
      "loss": 0.4127,
      "step": 5120
    },
    {
      "epoch": 26.1734693877551,
      "grad_norm": 1.2240599393844604,
      "learning_rate": 1.476530612244898e-05,
      "loss": 0.3547,
      "step": 5130
    },
    {
      "epoch": 26.224489795918366,
      "grad_norm": 27.300466537475586,
      "learning_rate": 1.4755102040816326e-05,
      "loss": 0.3365,
      "step": 5140
    },
    {
      "epoch": 26.275510204081634,
      "grad_norm": 15.80245304107666,
      "learning_rate": 1.4744897959183676e-05,
      "loss": 0.7081,
      "step": 5150
    },
    {
      "epoch": 26.3265306122449,
      "grad_norm": 1.8434733152389526,
      "learning_rate": 1.4734693877551021e-05,
      "loss": 0.3699,
      "step": 5160
    },
    {
      "epoch": 26.377551020408163,
      "grad_norm": 2.1713342666625977,
      "learning_rate": 1.4724489795918369e-05,
      "loss": 0.5084,
      "step": 5170
    },
    {
      "epoch": 26.428571428571427,
      "grad_norm": 1.8452435731887817,
      "learning_rate": 1.4714285714285716e-05,
      "loss": 0.6403,
      "step": 5180
    },
    {
      "epoch": 26.479591836734695,
      "grad_norm": 22.094799041748047,
      "learning_rate": 1.4704081632653062e-05,
      "loss": 0.5375,
      "step": 5190
    },
    {
      "epoch": 26.53061224489796,
      "grad_norm": 29.28873062133789,
      "learning_rate": 1.469387755102041e-05,
      "loss": 0.4293,
      "step": 5200
    },
    {
      "epoch": 26.581632653061224,
      "grad_norm": 20.11826515197754,
      "learning_rate": 1.4683673469387756e-05,
      "loss": 0.4466,
      "step": 5210
    },
    {
      "epoch": 26.632653061224488,
      "grad_norm": 20.999858856201172,
      "learning_rate": 1.4673469387755103e-05,
      "loss": 0.5414,
      "step": 5220
    },
    {
      "epoch": 26.683673469387756,
      "grad_norm": 1.1674052476882935,
      "learning_rate": 1.4663265306122449e-05,
      "loss": 0.5929,
      "step": 5230
    },
    {
      "epoch": 26.73469387755102,
      "grad_norm": 4.033491134643555,
      "learning_rate": 1.4653061224489798e-05,
      "loss": 0.4083,
      "step": 5240
    },
    {
      "epoch": 26.785714285714285,
      "grad_norm": 26.725027084350586,
      "learning_rate": 1.4642857142857144e-05,
      "loss": 0.6329,
      "step": 5250
    },
    {
      "epoch": 26.836734693877553,
      "grad_norm": 2.0859124660491943,
      "learning_rate": 1.4632653061224491e-05,
      "loss": 0.4774,
      "step": 5260
    },
    {
      "epoch": 26.887755102040817,
      "grad_norm": 4.95167875289917,
      "learning_rate": 1.4622448979591839e-05,
      "loss": 0.5336,
      "step": 5270
    },
    {
      "epoch": 26.93877551020408,
      "grad_norm": 17.27280616760254,
      "learning_rate": 1.4612244897959185e-05,
      "loss": 0.4165,
      "step": 5280
    },
    {
      "epoch": 26.989795918367346,
      "grad_norm": 7.084445476531982,
      "learning_rate": 1.4602040816326532e-05,
      "loss": 0.3207,
      "step": 5290
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.39666947722435,
      "eval_runtime": 0.9504,
      "eval_samples_per_second": 291.469,
      "eval_steps_per_second": 36.828,
      "step": 5292
    },
    {
      "epoch": 27.040816326530614,
      "grad_norm": 2.0203237533569336,
      "learning_rate": 1.4591836734693878e-05,
      "loss": 0.2151,
      "step": 5300
    },
    {
      "epoch": 27.091836734693878,
      "grad_norm": 22.46718978881836,
      "learning_rate": 1.4581632653061227e-05,
      "loss": 0.684,
      "step": 5310
    },
    {
      "epoch": 27.142857142857142,
      "grad_norm": 37.41311264038086,
      "learning_rate": 1.4571428571428573e-05,
      "loss": 0.4967,
      "step": 5320
    },
    {
      "epoch": 27.193877551020407,
      "grad_norm": 5.963098526000977,
      "learning_rate": 1.456122448979592e-05,
      "loss": 0.2481,
      "step": 5330
    },
    {
      "epoch": 27.244897959183675,
      "grad_norm": 2.266493082046509,
      "learning_rate": 1.4551020408163266e-05,
      "loss": 0.6013,
      "step": 5340
    },
    {
      "epoch": 27.29591836734694,
      "grad_norm": 5.027071952819824,
      "learning_rate": 1.4540816326530614e-05,
      "loss": 0.3885,
      "step": 5350
    },
    {
      "epoch": 27.346938775510203,
      "grad_norm": 14.573439598083496,
      "learning_rate": 1.4530612244897961e-05,
      "loss": 0.3566,
      "step": 5360
    },
    {
      "epoch": 27.397959183673468,
      "grad_norm": 5.2061638832092285,
      "learning_rate": 1.4520408163265307e-05,
      "loss": 0.8703,
      "step": 5370
    },
    {
      "epoch": 27.448979591836736,
      "grad_norm": 2.968804359436035,
      "learning_rate": 1.4510204081632654e-05,
      "loss": 0.462,
      "step": 5380
    },
    {
      "epoch": 27.5,
      "grad_norm": 11.394631385803223,
      "learning_rate": 1.45e-05,
      "loss": 0.3824,
      "step": 5390
    },
    {
      "epoch": 27.551020408163264,
      "grad_norm": 42.72261428833008,
      "learning_rate": 1.448979591836735e-05,
      "loss": 0.5008,
      "step": 5400
    },
    {
      "epoch": 27.602040816326532,
      "grad_norm": 18.263545989990234,
      "learning_rate": 1.4479591836734695e-05,
      "loss": 0.3685,
      "step": 5410
    },
    {
      "epoch": 27.653061224489797,
      "grad_norm": 28.853153228759766,
      "learning_rate": 1.4469387755102043e-05,
      "loss": 0.593,
      "step": 5420
    },
    {
      "epoch": 27.70408163265306,
      "grad_norm": 2.4322350025177,
      "learning_rate": 1.4459183673469388e-05,
      "loss": 0.5768,
      "step": 5430
    },
    {
      "epoch": 27.755102040816325,
      "grad_norm": 8.487367630004883,
      "learning_rate": 1.4448979591836736e-05,
      "loss": 0.5639,
      "step": 5440
    },
    {
      "epoch": 27.806122448979593,
      "grad_norm": 5.3088603019714355,
      "learning_rate": 1.4438775510204083e-05,
      "loss": 0.4751,
      "step": 5450
    },
    {
      "epoch": 27.857142857142858,
      "grad_norm": 20.965702056884766,
      "learning_rate": 1.4428571428571429e-05,
      "loss": 0.664,
      "step": 5460
    },
    {
      "epoch": 27.908163265306122,
      "grad_norm": 24.80034828186035,
      "learning_rate": 1.4418367346938778e-05,
      "loss": 0.427,
      "step": 5470
    },
    {
      "epoch": 27.959183673469386,
      "grad_norm": 10.704787254333496,
      "learning_rate": 1.4408163265306122e-05,
      "loss": 0.4569,
      "step": 5480
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.390099436044693,
      "eval_runtime": 0.9654,
      "eval_samples_per_second": 286.918,
      "eval_steps_per_second": 36.253,
      "step": 5488
    },
    {
      "epoch": 28.010204081632654,
      "grad_norm": 25.40770721435547,
      "learning_rate": 1.4397959183673472e-05,
      "loss": 0.5227,
      "step": 5490
    },
    {
      "epoch": 28.06122448979592,
      "grad_norm": 2.0169191360473633,
      "learning_rate": 1.4387755102040817e-05,
      "loss": 0.3189,
      "step": 5500
    },
    {
      "epoch": 28.112244897959183,
      "grad_norm": 41.0941276550293,
      "learning_rate": 1.4377551020408165e-05,
      "loss": 0.5486,
      "step": 5510
    },
    {
      "epoch": 28.163265306122447,
      "grad_norm": 10.877195358276367,
      "learning_rate": 1.436734693877551e-05,
      "loss": 0.4558,
      "step": 5520
    },
    {
      "epoch": 28.214285714285715,
      "grad_norm": 18.04813003540039,
      "learning_rate": 1.4357142857142858e-05,
      "loss": 0.5281,
      "step": 5530
    },
    {
      "epoch": 28.26530612244898,
      "grad_norm": 5.41004753112793,
      "learning_rate": 1.4346938775510206e-05,
      "loss": 0.3105,
      "step": 5540
    },
    {
      "epoch": 28.316326530612244,
      "grad_norm": 4.791204452514648,
      "learning_rate": 1.4336734693877551e-05,
      "loss": 0.3676,
      "step": 5550
    },
    {
      "epoch": 28.367346938775512,
      "grad_norm": 31.52507972717285,
      "learning_rate": 1.43265306122449e-05,
      "loss": 0.3336,
      "step": 5560
    },
    {
      "epoch": 28.418367346938776,
      "grad_norm": 11.759734153747559,
      "learning_rate": 1.4316326530612246e-05,
      "loss": 0.4174,
      "step": 5570
    },
    {
      "epoch": 28.46938775510204,
      "grad_norm": 20.22290802001953,
      "learning_rate": 1.4306122448979594e-05,
      "loss": 0.7025,
      "step": 5580
    },
    {
      "epoch": 28.520408163265305,
      "grad_norm": 15.772194862365723,
      "learning_rate": 1.429591836734694e-05,
      "loss": 0.6655,
      "step": 5590
    },
    {
      "epoch": 28.571428571428573,
      "grad_norm": 3.7224466800689697,
      "learning_rate": 1.4285714285714287e-05,
      "loss": 0.4325,
      "step": 5600
    },
    {
      "epoch": 28.622448979591837,
      "grad_norm": 1.2101025581359863,
      "learning_rate": 1.4275510204081633e-05,
      "loss": 0.4352,
      "step": 5610
    },
    {
      "epoch": 28.6734693877551,
      "grad_norm": 4.751141548156738,
      "learning_rate": 1.426530612244898e-05,
      "loss": 0.7688,
      "step": 5620
    },
    {
      "epoch": 28.724489795918366,
      "grad_norm": 5.642670631408691,
      "learning_rate": 1.425510204081633e-05,
      "loss": 0.5987,
      "step": 5630
    },
    {
      "epoch": 28.775510204081634,
      "grad_norm": 9.376861572265625,
      "learning_rate": 1.4244897959183674e-05,
      "loss": 0.3155,
      "step": 5640
    },
    {
      "epoch": 28.8265306122449,
      "grad_norm": 15.291635513305664,
      "learning_rate": 1.4234693877551023e-05,
      "loss": 0.3938,
      "step": 5650
    },
    {
      "epoch": 28.877551020408163,
      "grad_norm": 5.322267055511475,
      "learning_rate": 1.4224489795918369e-05,
      "loss": 0.3903,
      "step": 5660
    },
    {
      "epoch": 28.928571428571427,
      "grad_norm": 8.922804832458496,
      "learning_rate": 1.4214285714285716e-05,
      "loss": 0.4967,
      "step": 5670
    },
    {
      "epoch": 28.979591836734695,
      "grad_norm": 5.5344743728637695,
      "learning_rate": 1.4204081632653062e-05,
      "loss": 0.6184,
      "step": 5680
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.4114457070827484,
      "eval_runtime": 0.902,
      "eval_samples_per_second": 307.104,
      "eval_steps_per_second": 38.804,
      "step": 5684
    },
    {
      "epoch": 29.03061224489796,
      "grad_norm": 21.212425231933594,
      "learning_rate": 1.419387755102041e-05,
      "loss": 0.3149,
      "step": 5690
    },
    {
      "epoch": 29.081632653061224,
      "grad_norm": 8.748403549194336,
      "learning_rate": 1.4183673469387755e-05,
      "loss": 0.4572,
      "step": 5700
    },
    {
      "epoch": 29.132653061224488,
      "grad_norm": 37.682743072509766,
      "learning_rate": 1.4173469387755103e-05,
      "loss": 0.754,
      "step": 5710
    },
    {
      "epoch": 29.183673469387756,
      "grad_norm": 3.7401018142700195,
      "learning_rate": 1.4163265306122452e-05,
      "loss": 0.3862,
      "step": 5720
    },
    {
      "epoch": 29.23469387755102,
      "grad_norm": 1.966537594795227,
      "learning_rate": 1.4153061224489798e-05,
      "loss": 0.7811,
      "step": 5730
    },
    {
      "epoch": 29.285714285714285,
      "grad_norm": 19.10806655883789,
      "learning_rate": 1.4142857142857145e-05,
      "loss": 0.4212,
      "step": 5740
    },
    {
      "epoch": 29.336734693877553,
      "grad_norm": 2.0474305152893066,
      "learning_rate": 1.4132653061224491e-05,
      "loss": 0.3852,
      "step": 5750
    },
    {
      "epoch": 29.387755102040817,
      "grad_norm": 3.101381540298462,
      "learning_rate": 1.4122448979591838e-05,
      "loss": 0.4641,
      "step": 5760
    },
    {
      "epoch": 29.43877551020408,
      "grad_norm": 14.154816627502441,
      "learning_rate": 1.4112244897959184e-05,
      "loss": 0.4523,
      "step": 5770
    },
    {
      "epoch": 29.489795918367346,
      "grad_norm": 3.0230555534362793,
      "learning_rate": 1.4102040816326532e-05,
      "loss": 0.3237,
      "step": 5780
    },
    {
      "epoch": 29.540816326530614,
      "grad_norm": 1.954687237739563,
      "learning_rate": 1.4091836734693877e-05,
      "loss": 0.4838,
      "step": 5790
    },
    {
      "epoch": 29.591836734693878,
      "grad_norm": 3.253842353820801,
      "learning_rate": 1.4081632653061225e-05,
      "loss": 0.4786,
      "step": 5800
    },
    {
      "epoch": 29.642857142857142,
      "grad_norm": 5.71984338760376,
      "learning_rate": 1.4071428571428574e-05,
      "loss": 0.5819,
      "step": 5810
    },
    {
      "epoch": 29.693877551020407,
      "grad_norm": 5.978304386138916,
      "learning_rate": 1.406122448979592e-05,
      "loss": 0.4846,
      "step": 5820
    },
    {
      "epoch": 29.744897959183675,
      "grad_norm": 45.86204147338867,
      "learning_rate": 1.4051020408163267e-05,
      "loss": 0.4834,
      "step": 5830
    },
    {
      "epoch": 29.79591836734694,
      "grad_norm": 2.8345720767974854,
      "learning_rate": 1.4040816326530613e-05,
      "loss": 0.3336,
      "step": 5840
    },
    {
      "epoch": 29.846938775510203,
      "grad_norm": 6.641727924346924,
      "learning_rate": 1.403061224489796e-05,
      "loss": 0.3754,
      "step": 5850
    },
    {
      "epoch": 29.897959183673468,
      "grad_norm": 7.782125949859619,
      "learning_rate": 1.4020408163265307e-05,
      "loss": 0.3152,
      "step": 5860
    },
    {
      "epoch": 29.948979591836736,
      "grad_norm": 2.2091710567474365,
      "learning_rate": 1.4010204081632654e-05,
      "loss": 0.5933,
      "step": 5870
    },
    {
      "epoch": 30.0,
      "grad_norm": 32.62785339355469,
      "learning_rate": 1.4e-05,
      "loss": 0.6055,
      "step": 5880
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4341871738433838,
      "eval_runtime": 0.9058,
      "eval_samples_per_second": 305.824,
      "eval_steps_per_second": 38.642,
      "step": 5880
    },
    {
      "epoch": 30.051020408163264,
      "grad_norm": 4.8315958976745605,
      "learning_rate": 1.3989795918367349e-05,
      "loss": 0.2948,
      "step": 5890
    },
    {
      "epoch": 30.102040816326532,
      "grad_norm": 11.605244636535645,
      "learning_rate": 1.3979591836734696e-05,
      "loss": 0.5005,
      "step": 5900
    },
    {
      "epoch": 30.153061224489797,
      "grad_norm": 39.62419891357422,
      "learning_rate": 1.3969387755102042e-05,
      "loss": 0.6867,
      "step": 5910
    },
    {
      "epoch": 30.20408163265306,
      "grad_norm": 1.9783368110656738,
      "learning_rate": 1.395918367346939e-05,
      "loss": 0.4521,
      "step": 5920
    },
    {
      "epoch": 30.255102040816325,
      "grad_norm": 7.926155090332031,
      "learning_rate": 1.3948979591836736e-05,
      "loss": 0.7566,
      "step": 5930
    },
    {
      "epoch": 30.306122448979593,
      "grad_norm": 2.2557382583618164,
      "learning_rate": 1.3938775510204083e-05,
      "loss": 0.3634,
      "step": 5940
    },
    {
      "epoch": 30.357142857142858,
      "grad_norm": 9.380593299865723,
      "learning_rate": 1.3928571428571429e-05,
      "loss": 0.4689,
      "step": 5950
    },
    {
      "epoch": 30.408163265306122,
      "grad_norm": 22.11419677734375,
      "learning_rate": 1.3918367346938776e-05,
      "loss": 0.3886,
      "step": 5960
    },
    {
      "epoch": 30.459183673469386,
      "grad_norm": 17.542938232421875,
      "learning_rate": 1.3908163265306122e-05,
      "loss": 0.5163,
      "step": 5970
    },
    {
      "epoch": 30.510204081632654,
      "grad_norm": 24.980541229248047,
      "learning_rate": 1.3897959183673471e-05,
      "loss": 0.5657,
      "step": 5980
    },
    {
      "epoch": 30.56122448979592,
      "grad_norm": 2.6319022178649902,
      "learning_rate": 1.3887755102040819e-05,
      "loss": 0.4391,
      "step": 5990
    },
    {
      "epoch": 30.612244897959183,
      "grad_norm": 4.034119606018066,
      "learning_rate": 1.3877551020408165e-05,
      "loss": 0.3339,
      "step": 6000
    },
    {
      "epoch": 30.663265306122447,
      "grad_norm": 23.766098022460938,
      "learning_rate": 1.3867346938775512e-05,
      "loss": 0.3972,
      "step": 6010
    },
    {
      "epoch": 30.714285714285715,
      "grad_norm": 9.034148216247559,
      "learning_rate": 1.3857142857142858e-05,
      "loss": 0.3989,
      "step": 6020
    },
    {
      "epoch": 30.76530612244898,
      "grad_norm": 2.0116946697235107,
      "learning_rate": 1.3846938775510205e-05,
      "loss": 0.4001,
      "step": 6030
    },
    {
      "epoch": 30.816326530612244,
      "grad_norm": 13.013412475585938,
      "learning_rate": 1.3836734693877551e-05,
      "loss": 0.3508,
      "step": 6040
    },
    {
      "epoch": 30.867346938775512,
      "grad_norm": 22.2415714263916,
      "learning_rate": 1.38265306122449e-05,
      "loss": 0.5704,
      "step": 6050
    },
    {
      "epoch": 30.918367346938776,
      "grad_norm": 20.133655548095703,
      "learning_rate": 1.3816326530612244e-05,
      "loss": 0.5048,
      "step": 6060
    },
    {
      "epoch": 30.96938775510204,
      "grad_norm": 26.30372428894043,
      "learning_rate": 1.3806122448979594e-05,
      "loss": 0.47,
      "step": 6070
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.40708357095718384,
      "eval_runtime": 0.8982,
      "eval_samples_per_second": 308.383,
      "eval_steps_per_second": 38.965,
      "step": 6076
    },
    {
      "epoch": 31.020408163265305,
      "grad_norm": 4.741384029388428,
      "learning_rate": 1.3795918367346941e-05,
      "loss": 0.3179,
      "step": 6080
    },
    {
      "epoch": 31.071428571428573,
      "grad_norm": 2.5907835960388184,
      "learning_rate": 1.3785714285714287e-05,
      "loss": 0.6536,
      "step": 6090
    },
    {
      "epoch": 31.122448979591837,
      "grad_norm": 4.378666400909424,
      "learning_rate": 1.3775510204081634e-05,
      "loss": 0.3608,
      "step": 6100
    },
    {
      "epoch": 31.1734693877551,
      "grad_norm": 19.466083526611328,
      "learning_rate": 1.376530612244898e-05,
      "loss": 0.4303,
      "step": 6110
    },
    {
      "epoch": 31.224489795918366,
      "grad_norm": 10.891500473022461,
      "learning_rate": 1.3755102040816328e-05,
      "loss": 0.3612,
      "step": 6120
    },
    {
      "epoch": 31.275510204081634,
      "grad_norm": 13.144622802734375,
      "learning_rate": 1.3744897959183673e-05,
      "loss": 0.3827,
      "step": 6130
    },
    {
      "epoch": 31.3265306122449,
      "grad_norm": 11.628610610961914,
      "learning_rate": 1.3734693877551023e-05,
      "loss": 0.4299,
      "step": 6140
    },
    {
      "epoch": 31.377551020408163,
      "grad_norm": 30.135356903076172,
      "learning_rate": 1.3724489795918368e-05,
      "loss": 0.6593,
      "step": 6150
    },
    {
      "epoch": 31.428571428571427,
      "grad_norm": 2.574376106262207,
      "learning_rate": 1.3714285714285716e-05,
      "loss": 0.5155,
      "step": 6160
    },
    {
      "epoch": 31.479591836734695,
      "grad_norm": 17.83619499206543,
      "learning_rate": 1.3704081632653062e-05,
      "loss": 0.2904,
      "step": 6170
    },
    {
      "epoch": 31.53061224489796,
      "grad_norm": 17.83592987060547,
      "learning_rate": 1.3693877551020409e-05,
      "loss": 0.413,
      "step": 6180
    },
    {
      "epoch": 31.581632653061224,
      "grad_norm": 11.029420852661133,
      "learning_rate": 1.3683673469387757e-05,
      "loss": 0.5339,
      "step": 6190
    },
    {
      "epoch": 31.632653061224488,
      "grad_norm": 24.41854476928711,
      "learning_rate": 1.3673469387755102e-05,
      "loss": 0.8117,
      "step": 6200
    },
    {
      "epoch": 31.683673469387756,
      "grad_norm": 1.9348738193511963,
      "learning_rate": 1.366326530612245e-05,
      "loss": 0.5911,
      "step": 6210
    },
    {
      "epoch": 31.73469387755102,
      "grad_norm": 11.089919090270996,
      "learning_rate": 1.3653061224489796e-05,
      "loss": 0.3541,
      "step": 6220
    },
    {
      "epoch": 31.785714285714285,
      "grad_norm": 3.0977399349212646,
      "learning_rate": 1.3642857142857145e-05,
      "loss": 0.392,
      "step": 6230
    },
    {
      "epoch": 31.836734693877553,
      "grad_norm": 18.283836364746094,
      "learning_rate": 1.363265306122449e-05,
      "loss": 0.6294,
      "step": 6240
    },
    {
      "epoch": 31.887755102040817,
      "grad_norm": 15.877606391906738,
      "learning_rate": 1.3622448979591838e-05,
      "loss": 0.2799,
      "step": 6250
    },
    {
      "epoch": 31.93877551020408,
      "grad_norm": 14.527666091918945,
      "learning_rate": 1.3612244897959184e-05,
      "loss": 0.3421,
      "step": 6260
    },
    {
      "epoch": 31.989795918367346,
      "grad_norm": 7.122267723083496,
      "learning_rate": 1.3602040816326531e-05,
      "loss": 0.3507,
      "step": 6270
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.38375726342201233,
      "eval_runtime": 0.9074,
      "eval_samples_per_second": 305.284,
      "eval_steps_per_second": 38.574,
      "step": 6272
    },
    {
      "epoch": 32.04081632653061,
      "grad_norm": 1.5485258102416992,
      "learning_rate": 1.3591836734693879e-05,
      "loss": 0.4897,
      "step": 6280
    },
    {
      "epoch": 32.09183673469388,
      "grad_norm": 9.50356674194336,
      "learning_rate": 1.3581632653061225e-05,
      "loss": 0.5363,
      "step": 6290
    },
    {
      "epoch": 32.142857142857146,
      "grad_norm": 56.55535125732422,
      "learning_rate": 1.3571428571428574e-05,
      "loss": 0.5692,
      "step": 6300
    },
    {
      "epoch": 32.19387755102041,
      "grad_norm": 4.0933146476745605,
      "learning_rate": 1.356122448979592e-05,
      "loss": 0.2156,
      "step": 6310
    },
    {
      "epoch": 32.244897959183675,
      "grad_norm": 9.651848793029785,
      "learning_rate": 1.3551020408163267e-05,
      "loss": 0.36,
      "step": 6320
    },
    {
      "epoch": 32.295918367346935,
      "grad_norm": 5.66747522354126,
      "learning_rate": 1.3540816326530613e-05,
      "loss": 0.4777,
      "step": 6330
    },
    {
      "epoch": 32.3469387755102,
      "grad_norm": 44.0312385559082,
      "learning_rate": 1.353061224489796e-05,
      "loss": 0.6802,
      "step": 6340
    },
    {
      "epoch": 32.39795918367347,
      "grad_norm": 26.24411964416504,
      "learning_rate": 1.3520408163265306e-05,
      "loss": 0.488,
      "step": 6350
    },
    {
      "epoch": 32.44897959183673,
      "grad_norm": 1.5114643573760986,
      "learning_rate": 1.3510204081632654e-05,
      "loss": 0.4057,
      "step": 6360
    },
    {
      "epoch": 32.5,
      "grad_norm": 24.863920211791992,
      "learning_rate": 1.3500000000000001e-05,
      "loss": 0.5063,
      "step": 6370
    },
    {
      "epoch": 32.55102040816327,
      "grad_norm": 23.026037216186523,
      "learning_rate": 1.3489795918367347e-05,
      "loss": 0.619,
      "step": 6380
    },
    {
      "epoch": 32.60204081632653,
      "grad_norm": 30.08352279663086,
      "learning_rate": 1.3479591836734696e-05,
      "loss": 0.4813,
      "step": 6390
    },
    {
      "epoch": 32.6530612244898,
      "grad_norm": 3.7820966243743896,
      "learning_rate": 1.3469387755102042e-05,
      "loss": 0.3846,
      "step": 6400
    },
    {
      "epoch": 32.704081632653065,
      "grad_norm": 14.802642822265625,
      "learning_rate": 1.345918367346939e-05,
      "loss": 0.4863,
      "step": 6410
    },
    {
      "epoch": 32.755102040816325,
      "grad_norm": 23.315460205078125,
      "learning_rate": 1.3448979591836735e-05,
      "loss": 0.6968,
      "step": 6420
    },
    {
      "epoch": 32.80612244897959,
      "grad_norm": 18.826732635498047,
      "learning_rate": 1.3438775510204083e-05,
      "loss": 0.4061,
      "step": 6430
    },
    {
      "epoch": 32.857142857142854,
      "grad_norm": 19.371946334838867,
      "learning_rate": 1.3428571428571429e-05,
      "loss": 0.3335,
      "step": 6440
    },
    {
      "epoch": 32.90816326530612,
      "grad_norm": 5.432781219482422,
      "learning_rate": 1.3418367346938776e-05,
      "loss": 0.4473,
      "step": 6450
    },
    {
      "epoch": 32.95918367346939,
      "grad_norm": 21.40169906616211,
      "learning_rate": 1.3408163265306125e-05,
      "loss": 0.4888,
      "step": 6460
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.40056896209716797,
      "eval_runtime": 0.9034,
      "eval_samples_per_second": 306.624,
      "eval_steps_per_second": 38.743,
      "step": 6468
    },
    {
      "epoch": 33.01020408163265,
      "grad_norm": 5.985236644744873,
      "learning_rate": 1.3397959183673471e-05,
      "loss": 0.2854,
      "step": 6470
    },
    {
      "epoch": 33.06122448979592,
      "grad_norm": 2.5211944580078125,
      "learning_rate": 1.3387755102040818e-05,
      "loss": 0.7645,
      "step": 6480
    },
    {
      "epoch": 33.11224489795919,
      "grad_norm": 1.8880703449249268,
      "learning_rate": 1.3377551020408164e-05,
      "loss": 0.5424,
      "step": 6490
    },
    {
      "epoch": 33.16326530612245,
      "grad_norm": 20.99797248840332,
      "learning_rate": 1.3367346938775512e-05,
      "loss": 0.258,
      "step": 6500
    },
    {
      "epoch": 33.214285714285715,
      "grad_norm": 1.4832472801208496,
      "learning_rate": 1.3357142857142858e-05,
      "loss": 0.2964,
      "step": 6510
    },
    {
      "epoch": 33.265306122448976,
      "grad_norm": 25.0822811126709,
      "learning_rate": 1.3346938775510205e-05,
      "loss": 0.469,
      "step": 6520
    },
    {
      "epoch": 33.316326530612244,
      "grad_norm": 7.448490142822266,
      "learning_rate": 1.333673469387755e-05,
      "loss": 0.3086,
      "step": 6530
    },
    {
      "epoch": 33.36734693877551,
      "grad_norm": 5.040726661682129,
      "learning_rate": 1.3326530612244898e-05,
      "loss": 0.2545,
      "step": 6540
    },
    {
      "epoch": 33.41836734693877,
      "grad_norm": 22.96436309814453,
      "learning_rate": 1.3316326530612247e-05,
      "loss": 0.5916,
      "step": 6550
    },
    {
      "epoch": 33.46938775510204,
      "grad_norm": 13.387327194213867,
      "learning_rate": 1.3306122448979593e-05,
      "loss": 0.7134,
      "step": 6560
    },
    {
      "epoch": 33.52040816326531,
      "grad_norm": 4.12027645111084,
      "learning_rate": 1.329591836734694e-05,
      "loss": 0.2273,
      "step": 6570
    },
    {
      "epoch": 33.57142857142857,
      "grad_norm": 4.911895751953125,
      "learning_rate": 1.3285714285714287e-05,
      "loss": 0.6643,
      "step": 6580
    },
    {
      "epoch": 33.62244897959184,
      "grad_norm": 13.619653701782227,
      "learning_rate": 1.3275510204081634e-05,
      "loss": 0.5126,
      "step": 6590
    },
    {
      "epoch": 33.673469387755105,
      "grad_norm": 2.063502311706543,
      "learning_rate": 1.326530612244898e-05,
      "loss": 0.5222,
      "step": 6600
    },
    {
      "epoch": 33.724489795918366,
      "grad_norm": 7.26934289932251,
      "learning_rate": 1.3255102040816327e-05,
      "loss": 0.5558,
      "step": 6610
    },
    {
      "epoch": 33.775510204081634,
      "grad_norm": 14.26215648651123,
      "learning_rate": 1.3244897959183673e-05,
      "loss": 0.3557,
      "step": 6620
    },
    {
      "epoch": 33.826530612244895,
      "grad_norm": 26.988956451416016,
      "learning_rate": 1.323469387755102e-05,
      "loss": 0.3923,
      "step": 6630
    },
    {
      "epoch": 33.87755102040816,
      "grad_norm": 7.665243625640869,
      "learning_rate": 1.322448979591837e-05,
      "loss": 0.4126,
      "step": 6640
    },
    {
      "epoch": 33.92857142857143,
      "grad_norm": 16.26663589477539,
      "learning_rate": 1.3214285714285716e-05,
      "loss": 0.5129,
      "step": 6650
    },
    {
      "epoch": 33.97959183673469,
      "grad_norm": 35.144500732421875,
      "learning_rate": 1.3204081632653063e-05,
      "loss": 0.4276,
      "step": 6660
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3908872604370117,
      "eval_runtime": 0.9804,
      "eval_samples_per_second": 282.549,
      "eval_steps_per_second": 35.701,
      "step": 6664
    },
    {
      "epoch": 34.03061224489796,
      "grad_norm": 27.61546516418457,
      "learning_rate": 1.3193877551020409e-05,
      "loss": 0.5701,
      "step": 6670
    },
    {
      "epoch": 34.08163265306123,
      "grad_norm": 4.894153118133545,
      "learning_rate": 1.3183673469387756e-05,
      "loss": 0.3535,
      "step": 6680
    },
    {
      "epoch": 34.13265306122449,
      "grad_norm": 29.616140365600586,
      "learning_rate": 1.3173469387755102e-05,
      "loss": 0.5627,
      "step": 6690
    },
    {
      "epoch": 34.183673469387756,
      "grad_norm": 4.761234760284424,
      "learning_rate": 1.316326530612245e-05,
      "loss": 0.2769,
      "step": 6700
    },
    {
      "epoch": 34.234693877551024,
      "grad_norm": 1.4051437377929688,
      "learning_rate": 1.3153061224489795e-05,
      "loss": 0.5215,
      "step": 6710
    },
    {
      "epoch": 34.285714285714285,
      "grad_norm": 6.479947090148926,
      "learning_rate": 1.3142857142857145e-05,
      "loss": 0.3133,
      "step": 6720
    },
    {
      "epoch": 34.33673469387755,
      "grad_norm": 1.7566664218902588,
      "learning_rate": 1.3132653061224492e-05,
      "loss": 0.483,
      "step": 6730
    },
    {
      "epoch": 34.38775510204081,
      "grad_norm": 4.833677291870117,
      "learning_rate": 1.3122448979591838e-05,
      "loss": 0.4603,
      "step": 6740
    },
    {
      "epoch": 34.43877551020408,
      "grad_norm": 17.30332374572754,
      "learning_rate": 1.3112244897959185e-05,
      "loss": 0.3914,
      "step": 6750
    },
    {
      "epoch": 34.48979591836735,
      "grad_norm": 3.268165111541748,
      "learning_rate": 1.3102040816326531e-05,
      "loss": 0.2289,
      "step": 6760
    },
    {
      "epoch": 34.54081632653061,
      "grad_norm": 3.491671323776245,
      "learning_rate": 1.3091836734693879e-05,
      "loss": 0.4592,
      "step": 6770
    },
    {
      "epoch": 34.59183673469388,
      "grad_norm": 1.8306870460510254,
      "learning_rate": 1.3081632653061224e-05,
      "loss": 0.3377,
      "step": 6780
    },
    {
      "epoch": 34.642857142857146,
      "grad_norm": 9.834702491760254,
      "learning_rate": 1.3071428571428572e-05,
      "loss": 0.6266,
      "step": 6790
    },
    {
      "epoch": 34.69387755102041,
      "grad_norm": 27.051715850830078,
      "learning_rate": 1.3061224489795918e-05,
      "loss": 0.4121,
      "step": 6800
    },
    {
      "epoch": 34.744897959183675,
      "grad_norm": 28.63006591796875,
      "learning_rate": 1.3051020408163267e-05,
      "loss": 0.5736,
      "step": 6810
    },
    {
      "epoch": 34.795918367346935,
      "grad_norm": 18.212980270385742,
      "learning_rate": 1.3040816326530614e-05,
      "loss": 0.4151,
      "step": 6820
    },
    {
      "epoch": 34.8469387755102,
      "grad_norm": 5.2151288986206055,
      "learning_rate": 1.303061224489796e-05,
      "loss": 0.5174,
      "step": 6830
    },
    {
      "epoch": 34.89795918367347,
      "grad_norm": 4.7978620529174805,
      "learning_rate": 1.3020408163265308e-05,
      "loss": 0.4555,
      "step": 6840
    },
    {
      "epoch": 34.94897959183673,
      "grad_norm": 29.567174911499023,
      "learning_rate": 1.3010204081632653e-05,
      "loss": 0.5916,
      "step": 6850
    },
    {
      "epoch": 35.0,
      "grad_norm": 4.382339000701904,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 0.5371,
      "step": 6860
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.4238155782222748,
      "eval_runtime": 0.9048,
      "eval_samples_per_second": 306.133,
      "eval_steps_per_second": 38.681,
      "step": 6860
    },
    {
      "epoch": 35.05102040816327,
      "grad_norm": 19.28135871887207,
      "learning_rate": 1.2989795918367347e-05,
      "loss": 0.3233,
      "step": 6870
    },
    {
      "epoch": 35.10204081632653,
      "grad_norm": 7.522866249084473,
      "learning_rate": 1.2979591836734696e-05,
      "loss": 0.7029,
      "step": 6880
    },
    {
      "epoch": 35.1530612244898,
      "grad_norm": 6.525254249572754,
      "learning_rate": 1.2969387755102042e-05,
      "loss": 0.383,
      "step": 6890
    },
    {
      "epoch": 35.204081632653065,
      "grad_norm": 8.369150161743164,
      "learning_rate": 1.2959183673469389e-05,
      "loss": 0.377,
      "step": 6900
    },
    {
      "epoch": 35.255102040816325,
      "grad_norm": 2.590940475463867,
      "learning_rate": 1.2948979591836737e-05,
      "loss": 0.2074,
      "step": 6910
    },
    {
      "epoch": 35.30612244897959,
      "grad_norm": 1.6168935298919678,
      "learning_rate": 1.2938775510204082e-05,
      "loss": 0.6141,
      "step": 6920
    },
    {
      "epoch": 35.357142857142854,
      "grad_norm": 32.54901885986328,
      "learning_rate": 1.292857142857143e-05,
      "loss": 0.3988,
      "step": 6930
    },
    {
      "epoch": 35.40816326530612,
      "grad_norm": 4.551273822784424,
      "learning_rate": 1.2918367346938776e-05,
      "loss": 0.4554,
      "step": 6940
    },
    {
      "epoch": 35.45918367346939,
      "grad_norm": 4.356466770172119,
      "learning_rate": 1.2908163265306123e-05,
      "loss": 0.4325,
      "step": 6950
    },
    {
      "epoch": 35.51020408163265,
      "grad_norm": 2.6096131801605225,
      "learning_rate": 1.2897959183673469e-05,
      "loss": 0.4659,
      "step": 6960
    },
    {
      "epoch": 35.56122448979592,
      "grad_norm": 6.681719779968262,
      "learning_rate": 1.2887755102040818e-05,
      "loss": 0.7606,
      "step": 6970
    },
    {
      "epoch": 35.61224489795919,
      "grad_norm": 3.690297842025757,
      "learning_rate": 1.2877551020408164e-05,
      "loss": 0.4368,
      "step": 6980
    },
    {
      "epoch": 35.66326530612245,
      "grad_norm": 14.282360076904297,
      "learning_rate": 1.2867346938775511e-05,
      "loss": 0.4783,
      "step": 6990
    },
    {
      "epoch": 35.714285714285715,
      "grad_norm": 9.62118148803711,
      "learning_rate": 1.2857142857142859e-05,
      "loss": 0.38,
      "step": 7000
    },
    {
      "epoch": 35.765306122448976,
      "grad_norm": 38.1398811340332,
      "learning_rate": 1.2846938775510205e-05,
      "loss": 0.7947,
      "step": 7010
    },
    {
      "epoch": 35.816326530612244,
      "grad_norm": 5.142098903656006,
      "learning_rate": 1.2836734693877552e-05,
      "loss": 0.5624,
      "step": 7020
    },
    {
      "epoch": 35.86734693877551,
      "grad_norm": 4.956911087036133,
      "learning_rate": 1.2826530612244898e-05,
      "loss": 0.3248,
      "step": 7030
    },
    {
      "epoch": 35.91836734693877,
      "grad_norm": 12.56813907623291,
      "learning_rate": 1.2816326530612247e-05,
      "loss": 0.5527,
      "step": 7040
    },
    {
      "epoch": 35.96938775510204,
      "grad_norm": 28.31490707397461,
      "learning_rate": 1.2806122448979591e-05,
      "loss": 0.4826,
      "step": 7050
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.38434070348739624,
      "eval_runtime": 0.9054,
      "eval_samples_per_second": 305.933,
      "eval_steps_per_second": 38.656,
      "step": 7056
    },
    {
      "epoch": 36.02040816326531,
      "grad_norm": 2.446436643600464,
      "learning_rate": 1.279591836734694e-05,
      "loss": 0.2472,
      "step": 7060
    },
    {
      "epoch": 36.07142857142857,
      "grad_norm": 16.54335594177246,
      "learning_rate": 1.2785714285714286e-05,
      "loss": 0.4792,
      "step": 7070
    },
    {
      "epoch": 36.12244897959184,
      "grad_norm": 13.383909225463867,
      "learning_rate": 1.2775510204081634e-05,
      "loss": 0.6604,
      "step": 7080
    },
    {
      "epoch": 36.173469387755105,
      "grad_norm": 32.91097640991211,
      "learning_rate": 1.2765306122448981e-05,
      "loss": 0.4419,
      "step": 7090
    },
    {
      "epoch": 36.224489795918366,
      "grad_norm": 16.472257614135742,
      "learning_rate": 1.2755102040816327e-05,
      "loss": 0.3041,
      "step": 7100
    },
    {
      "epoch": 36.275510204081634,
      "grad_norm": 16.980865478515625,
      "learning_rate": 1.2744897959183674e-05,
      "loss": 0.3672,
      "step": 7110
    },
    {
      "epoch": 36.326530612244895,
      "grad_norm": 2.241811990737915,
      "learning_rate": 1.273469387755102e-05,
      "loss": 0.4306,
      "step": 7120
    },
    {
      "epoch": 36.37755102040816,
      "grad_norm": 8.085173606872559,
      "learning_rate": 1.272448979591837e-05,
      "loss": 0.5269,
      "step": 7130
    },
    {
      "epoch": 36.42857142857143,
      "grad_norm": 3.4792606830596924,
      "learning_rate": 1.2714285714285715e-05,
      "loss": 0.4346,
      "step": 7140
    },
    {
      "epoch": 36.47959183673469,
      "grad_norm": 12.5842924118042,
      "learning_rate": 1.2704081632653063e-05,
      "loss": 0.6491,
      "step": 7150
    },
    {
      "epoch": 36.53061224489796,
      "grad_norm": 22.871631622314453,
      "learning_rate": 1.2693877551020409e-05,
      "loss": 0.396,
      "step": 7160
    },
    {
      "epoch": 36.58163265306123,
      "grad_norm": 9.231959342956543,
      "learning_rate": 1.2683673469387756e-05,
      "loss": 0.1533,
      "step": 7170
    },
    {
      "epoch": 36.63265306122449,
      "grad_norm": 5.857165336608887,
      "learning_rate": 1.2673469387755104e-05,
      "loss": 0.3637,
      "step": 7180
    },
    {
      "epoch": 36.683673469387756,
      "grad_norm": 28.804662704467773,
      "learning_rate": 1.266326530612245e-05,
      "loss": 0.4629,
      "step": 7190
    },
    {
      "epoch": 36.734693877551024,
      "grad_norm": 19.23972511291504,
      "learning_rate": 1.2653061224489798e-05,
      "loss": 0.8169,
      "step": 7200
    },
    {
      "epoch": 36.785714285714285,
      "grad_norm": 6.509462833404541,
      "learning_rate": 1.2642857142857143e-05,
      "loss": 0.5043,
      "step": 7210
    },
    {
      "epoch": 36.83673469387755,
      "grad_norm": 37.736061096191406,
      "learning_rate": 1.2632653061224492e-05,
      "loss": 0.475,
      "step": 7220
    },
    {
      "epoch": 36.88775510204081,
      "grad_norm": 3.5886104106903076,
      "learning_rate": 1.2622448979591838e-05,
      "loss": 0.1918,
      "step": 7230
    },
    {
      "epoch": 36.93877551020408,
      "grad_norm": 29.710908889770508,
      "learning_rate": 1.2612244897959185e-05,
      "loss": 0.603,
      "step": 7240
    },
    {
      "epoch": 36.98979591836735,
      "grad_norm": 3.220376491546631,
      "learning_rate": 1.260204081632653e-05,
      "loss": 0.5119,
      "step": 7250
    },
    {
      "epoch": 37.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3747342824935913,
      "eval_runtime": 0.9052,
      "eval_samples_per_second": 306.001,
      "eval_steps_per_second": 38.664,
      "step": 7252
    },
    {
      "epoch": 37.04081632653061,
      "grad_norm": 1.4245562553405762,
      "learning_rate": 1.2591836734693878e-05,
      "loss": 0.3166,
      "step": 7260
    },
    {
      "epoch": 37.09183673469388,
      "grad_norm": 2.1185219287872314,
      "learning_rate": 1.2581632653061226e-05,
      "loss": 0.4212,
      "step": 7270
    },
    {
      "epoch": 37.142857142857146,
      "grad_norm": 6.521987438201904,
      "learning_rate": 1.2571428571428572e-05,
      "loss": 0.4312,
      "step": 7280
    },
    {
      "epoch": 37.19387755102041,
      "grad_norm": 27.861255645751953,
      "learning_rate": 1.256122448979592e-05,
      "loss": 0.6729,
      "step": 7290
    },
    {
      "epoch": 37.244897959183675,
      "grad_norm": 4.447116374969482,
      "learning_rate": 1.2551020408163267e-05,
      "loss": 0.4174,
      "step": 7300
    },
    {
      "epoch": 37.295918367346935,
      "grad_norm": 11.051045417785645,
      "learning_rate": 1.2540816326530614e-05,
      "loss": 0.5069,
      "step": 7310
    },
    {
      "epoch": 37.3469387755102,
      "grad_norm": 5.27096700668335,
      "learning_rate": 1.253061224489796e-05,
      "loss": 0.4862,
      "step": 7320
    },
    {
      "epoch": 37.39795918367347,
      "grad_norm": 8.538248062133789,
      "learning_rate": 1.2520408163265307e-05,
      "loss": 0.2525,
      "step": 7330
    },
    {
      "epoch": 37.44897959183673,
      "grad_norm": 2.1119608879089355,
      "learning_rate": 1.2510204081632653e-05,
      "loss": 0.3787,
      "step": 7340
    },
    {
      "epoch": 37.5,
      "grad_norm": 22.668697357177734,
      "learning_rate": 1.25e-05,
      "loss": 0.6004,
      "step": 7350
    },
    {
      "epoch": 37.55102040816327,
      "grad_norm": 3.51338791847229,
      "learning_rate": 1.248979591836735e-05,
      "loss": 0.845,
      "step": 7360
    },
    {
      "epoch": 37.60204081632653,
      "grad_norm": 13.404214859008789,
      "learning_rate": 1.2479591836734694e-05,
      "loss": 0.6597,
      "step": 7370
    },
    {
      "epoch": 37.6530612244898,
      "grad_norm": 10.184768676757812,
      "learning_rate": 1.2469387755102043e-05,
      "loss": 0.3122,
      "step": 7380
    },
    {
      "epoch": 37.704081632653065,
      "grad_norm": 28.944150924682617,
      "learning_rate": 1.2459183673469389e-05,
      "loss": 0.4397,
      "step": 7390
    },
    {
      "epoch": 37.755102040816325,
      "grad_norm": 27.85287094116211,
      "learning_rate": 1.2448979591836736e-05,
      "loss": 0.4942,
      "step": 7400
    },
    {
      "epoch": 37.80612244897959,
      "grad_norm": 2.3354456424713135,
      "learning_rate": 1.2438775510204082e-05,
      "loss": 0.3845,
      "step": 7410
    },
    {
      "epoch": 37.857142857142854,
      "grad_norm": 1.585198163986206,
      "learning_rate": 1.242857142857143e-05,
      "loss": 0.6098,
      "step": 7420
    },
    {
      "epoch": 37.90816326530612,
      "grad_norm": 1.9231196641921997,
      "learning_rate": 1.2418367346938775e-05,
      "loss": 0.1954,
      "step": 7430
    },
    {
      "epoch": 37.95918367346939,
      "grad_norm": 20.888561248779297,
      "learning_rate": 1.2408163265306123e-05,
      "loss": 0.4192,
      "step": 7440
    },
    {
      "epoch": 38.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.42317283153533936,
      "eval_runtime": 0.9194,
      "eval_samples_per_second": 301.274,
      "eval_steps_per_second": 38.067,
      "step": 7448
    },
    {
      "epoch": 38.01020408163265,
      "grad_norm": 26.943309783935547,
      "learning_rate": 1.2397959183673472e-05,
      "loss": 0.5958,
      "step": 7450
    },
    {
      "epoch": 38.06122448979592,
      "grad_norm": 22.227128982543945,
      "learning_rate": 1.2387755102040818e-05,
      "loss": 0.5897,
      "step": 7460
    },
    {
      "epoch": 38.11224489795919,
      "grad_norm": 24.14679527282715,
      "learning_rate": 1.2377551020408165e-05,
      "loss": 0.3356,
      "step": 7470
    },
    {
      "epoch": 38.16326530612245,
      "grad_norm": 3.5922718048095703,
      "learning_rate": 1.2367346938775511e-05,
      "loss": 0.3473,
      "step": 7480
    },
    {
      "epoch": 38.214285714285715,
      "grad_norm": 36.377655029296875,
      "learning_rate": 1.2357142857142859e-05,
      "loss": 0.3938,
      "step": 7490
    },
    {
      "epoch": 38.265306122448976,
      "grad_norm": 8.26934814453125,
      "learning_rate": 1.2346938775510204e-05,
      "loss": 0.5575,
      "step": 7500
    },
    {
      "epoch": 38.316326530612244,
      "grad_norm": 16.97991943359375,
      "learning_rate": 1.2336734693877552e-05,
      "loss": 0.3967,
      "step": 7510
    },
    {
      "epoch": 38.36734693877551,
      "grad_norm": 20.048221588134766,
      "learning_rate": 1.2326530612244898e-05,
      "loss": 0.3398,
      "step": 7520
    },
    {
      "epoch": 38.41836734693877,
      "grad_norm": 16.927106857299805,
      "learning_rate": 1.2316326530612245e-05,
      "loss": 0.6628,
      "step": 7530
    },
    {
      "epoch": 38.46938775510204,
      "grad_norm": 40.54994583129883,
      "learning_rate": 1.2306122448979594e-05,
      "loss": 0.5573,
      "step": 7540
    },
    {
      "epoch": 38.52040816326531,
      "grad_norm": 4.725127220153809,
      "learning_rate": 1.229591836734694e-05,
      "loss": 0.3045,
      "step": 7550
    },
    {
      "epoch": 38.57142857142857,
      "grad_norm": 7.398770809173584,
      "learning_rate": 1.2285714285714288e-05,
      "loss": 0.3933,
      "step": 7560
    },
    {
      "epoch": 38.62244897959184,
      "grad_norm": 17.518037796020508,
      "learning_rate": 1.2275510204081633e-05,
      "loss": 0.3763,
      "step": 7570
    },
    {
      "epoch": 38.673469387755105,
      "grad_norm": 7.40964937210083,
      "learning_rate": 1.2265306122448981e-05,
      "loss": 0.466,
      "step": 7580
    },
    {
      "epoch": 38.724489795918366,
      "grad_norm": 5.805058002471924,
      "learning_rate": 1.2255102040816327e-05,
      "loss": 0.5762,
      "step": 7590
    },
    {
      "epoch": 38.775510204081634,
      "grad_norm": 8.530291557312012,
      "learning_rate": 1.2244897959183674e-05,
      "loss": 0.4992,
      "step": 7600
    },
    {
      "epoch": 38.826530612244895,
      "grad_norm": 9.563929557800293,
      "learning_rate": 1.223469387755102e-05,
      "loss": 0.2776,
      "step": 7610
    },
    {
      "epoch": 38.87755102040816,
      "grad_norm": 2.0155272483825684,
      "learning_rate": 1.222448979591837e-05,
      "loss": 0.1261,
      "step": 7620
    },
    {
      "epoch": 38.92857142857143,
      "grad_norm": 5.34351110458374,
      "learning_rate": 1.2214285714285717e-05,
      "loss": 0.3191,
      "step": 7630
    },
    {
      "epoch": 38.97959183673469,
      "grad_norm": 28.43438720703125,
      "learning_rate": 1.2204081632653062e-05,
      "loss": 1.1545,
      "step": 7640
    },
    {
      "epoch": 39.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.44149747490882874,
      "eval_runtime": 0.9362,
      "eval_samples_per_second": 295.864,
      "eval_steps_per_second": 37.384,
      "step": 7644
    },
    {
      "epoch": 39.03061224489796,
      "grad_norm": 5.578425407409668,
      "learning_rate": 1.219387755102041e-05,
      "loss": 0.448,
      "step": 7650
    },
    {
      "epoch": 39.08163265306123,
      "grad_norm": 28.02190399169922,
      "learning_rate": 1.2183673469387756e-05,
      "loss": 0.3081,
      "step": 7660
    },
    {
      "epoch": 39.13265306122449,
      "grad_norm": 20.291093826293945,
      "learning_rate": 1.2173469387755103e-05,
      "loss": 0.4044,
      "step": 7670
    },
    {
      "epoch": 39.183673469387756,
      "grad_norm": 4.61263370513916,
      "learning_rate": 1.2163265306122449e-05,
      "loss": 0.2025,
      "step": 7680
    },
    {
      "epoch": 39.234693877551024,
      "grad_norm": 3.5604095458984375,
      "learning_rate": 1.2153061224489796e-05,
      "loss": 0.6203,
      "step": 7690
    },
    {
      "epoch": 39.285714285714285,
      "grad_norm": 5.348532199859619,
      "learning_rate": 1.2142857142857142e-05,
      "loss": 0.3147,
      "step": 7700
    },
    {
      "epoch": 39.33673469387755,
      "grad_norm": 9.896951675415039,
      "learning_rate": 1.2132653061224491e-05,
      "loss": 0.3453,
      "step": 7710
    },
    {
      "epoch": 39.38775510204081,
      "grad_norm": 29.988794326782227,
      "learning_rate": 1.2122448979591839e-05,
      "loss": 0.5903,
      "step": 7720
    },
    {
      "epoch": 39.43877551020408,
      "grad_norm": 16.454288482666016,
      "learning_rate": 1.2112244897959185e-05,
      "loss": 0.6152,
      "step": 7730
    },
    {
      "epoch": 39.48979591836735,
      "grad_norm": 9.822752952575684,
      "learning_rate": 1.2102040816326532e-05,
      "loss": 0.4482,
      "step": 7740
    },
    {
      "epoch": 39.54081632653061,
      "grad_norm": 24.22960662841797,
      "learning_rate": 1.2091836734693878e-05,
      "loss": 0.5857,
      "step": 7750
    },
    {
      "epoch": 39.59183673469388,
      "grad_norm": 1.3835686445236206,
      "learning_rate": 1.2081632653061225e-05,
      "loss": 0.4003,
      "step": 7760
    },
    {
      "epoch": 39.642857142857146,
      "grad_norm": 5.914495468139648,
      "learning_rate": 1.2071428571428571e-05,
      "loss": 0.4374,
      "step": 7770
    },
    {
      "epoch": 39.69387755102041,
      "grad_norm": 2.331110954284668,
      "learning_rate": 1.206122448979592e-05,
      "loss": 0.5534,
      "step": 7780
    },
    {
      "epoch": 39.744897959183675,
      "grad_norm": 39.777687072753906,
      "learning_rate": 1.2051020408163265e-05,
      "loss": 0.4702,
      "step": 7790
    },
    {
      "epoch": 39.795918367346935,
      "grad_norm": 29.95391082763672,
      "learning_rate": 1.2040816326530614e-05,
      "loss": 0.4343,
      "step": 7800
    },
    {
      "epoch": 39.8469387755102,
      "grad_norm": 31.872413635253906,
      "learning_rate": 1.2030612244897961e-05,
      "loss": 0.6323,
      "step": 7810
    },
    {
      "epoch": 39.89795918367347,
      "grad_norm": 4.840892791748047,
      "learning_rate": 1.2020408163265307e-05,
      "loss": 0.7993,
      "step": 7820
    },
    {
      "epoch": 39.94897959183673,
      "grad_norm": 2.75689697265625,
      "learning_rate": 1.2010204081632655e-05,
      "loss": 0.2631,
      "step": 7830
    },
    {
      "epoch": 40.0,
      "grad_norm": 9.796561241149902,
      "learning_rate": 1.2e-05,
      "loss": 0.3206,
      "step": 7840
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3936585783958435,
      "eval_runtime": 0.9098,
      "eval_samples_per_second": 304.449,
      "eval_steps_per_second": 38.468,
      "step": 7840
    },
    {
      "epoch": 40.05102040816327,
      "grad_norm": 14.077776908874512,
      "learning_rate": 1.1989795918367348e-05,
      "loss": 0.2985,
      "step": 7850
    },
    {
      "epoch": 40.10204081632653,
      "grad_norm": 1.043179988861084,
      "learning_rate": 1.1979591836734694e-05,
      "loss": 0.2438,
      "step": 7860
    },
    {
      "epoch": 40.1530612244898,
      "grad_norm": 14.833849906921387,
      "learning_rate": 1.1969387755102043e-05,
      "loss": 0.4034,
      "step": 7870
    },
    {
      "epoch": 40.204081632653065,
      "grad_norm": 21.791622161865234,
      "learning_rate": 1.1959183673469389e-05,
      "loss": 0.5665,
      "step": 7880
    },
    {
      "epoch": 40.255102040816325,
      "grad_norm": 1.4920231103897095,
      "learning_rate": 1.1948979591836736e-05,
      "loss": 0.1981,
      "step": 7890
    },
    {
      "epoch": 40.30612244897959,
      "grad_norm": 29.602203369140625,
      "learning_rate": 1.1938775510204084e-05,
      "loss": 0.6514,
      "step": 7900
    },
    {
      "epoch": 40.357142857142854,
      "grad_norm": 11.84143352508545,
      "learning_rate": 1.192857142857143e-05,
      "loss": 0.5558,
      "step": 7910
    },
    {
      "epoch": 40.40816326530612,
      "grad_norm": 6.770107269287109,
      "learning_rate": 1.1918367346938777e-05,
      "loss": 0.3864,
      "step": 7920
    },
    {
      "epoch": 40.45918367346939,
      "grad_norm": 6.4577317237854,
      "learning_rate": 1.1908163265306123e-05,
      "loss": 0.5802,
      "step": 7930
    },
    {
      "epoch": 40.51020408163265,
      "grad_norm": 12.703872680664062,
      "learning_rate": 1.189795918367347e-05,
      "loss": 0.4892,
      "step": 7940
    },
    {
      "epoch": 40.56122448979592,
      "grad_norm": 6.873557090759277,
      "learning_rate": 1.1887755102040816e-05,
      "loss": 0.6071,
      "step": 7950
    },
    {
      "epoch": 40.61224489795919,
      "grad_norm": 12.21589469909668,
      "learning_rate": 1.1877551020408165e-05,
      "loss": 0.4371,
      "step": 7960
    },
    {
      "epoch": 40.66326530612245,
      "grad_norm": 10.750988006591797,
      "learning_rate": 1.186734693877551e-05,
      "loss": 0.3176,
      "step": 7970
    },
    {
      "epoch": 40.714285714285715,
      "grad_norm": 2.6887991428375244,
      "learning_rate": 1.1857142857142858e-05,
      "loss": 0.514,
      "step": 7980
    },
    {
      "epoch": 40.765306122448976,
      "grad_norm": 10.595654487609863,
      "learning_rate": 1.1846938775510206e-05,
      "loss": 0.843,
      "step": 7990
    },
    {
      "epoch": 40.816326530612244,
      "grad_norm": 6.879383563995361,
      "learning_rate": 1.1836734693877552e-05,
      "loss": 0.2391,
      "step": 8000
    },
    {
      "epoch": 40.86734693877551,
      "grad_norm": 10.984294891357422,
      "learning_rate": 1.1826530612244899e-05,
      "loss": 0.3944,
      "step": 8010
    },
    {
      "epoch": 40.91836734693877,
      "grad_norm": 32.00795364379883,
      "learning_rate": 1.1816326530612245e-05,
      "loss": 0.495,
      "step": 8020
    },
    {
      "epoch": 40.96938775510204,
      "grad_norm": 27.172143936157227,
      "learning_rate": 1.1806122448979594e-05,
      "loss": 0.3464,
      "step": 8030
    },
    {
      "epoch": 41.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3677619993686676,
      "eval_runtime": 0.9207,
      "eval_samples_per_second": 300.865,
      "eval_steps_per_second": 38.015,
      "step": 8036
    },
    {
      "epoch": 41.02040816326531,
      "grad_norm": 20.98692512512207,
      "learning_rate": 1.179591836734694e-05,
      "loss": 0.9303,
      "step": 8040
    },
    {
      "epoch": 41.07142857142857,
      "grad_norm": 15.81276798248291,
      "learning_rate": 1.1785714285714287e-05,
      "loss": 0.4639,
      "step": 8050
    },
    {
      "epoch": 41.12244897959184,
      "grad_norm": 1.922781229019165,
      "learning_rate": 1.1775510204081633e-05,
      "loss": 0.238,
      "step": 8060
    },
    {
      "epoch": 41.173469387755105,
      "grad_norm": 4.930319309234619,
      "learning_rate": 1.176530612244898e-05,
      "loss": 0.4929,
      "step": 8070
    },
    {
      "epoch": 41.224489795918366,
      "grad_norm": 4.284955024719238,
      "learning_rate": 1.1755102040816328e-05,
      "loss": 0.4453,
      "step": 8080
    },
    {
      "epoch": 41.275510204081634,
      "grad_norm": 23.577640533447266,
      "learning_rate": 1.1744897959183674e-05,
      "loss": 0.4517,
      "step": 8090
    },
    {
      "epoch": 41.326530612244895,
      "grad_norm": 22.245500564575195,
      "learning_rate": 1.1734693877551021e-05,
      "loss": 0.6483,
      "step": 8100
    },
    {
      "epoch": 41.37755102040816,
      "grad_norm": 32.827491760253906,
      "learning_rate": 1.1724489795918367e-05,
      "loss": 0.2796,
      "step": 8110
    },
    {
      "epoch": 41.42857142857143,
      "grad_norm": 4.434024810791016,
      "learning_rate": 1.1714285714285716e-05,
      "loss": 0.4779,
      "step": 8120
    },
    {
      "epoch": 41.47959183673469,
      "grad_norm": 7.064209938049316,
      "learning_rate": 1.1704081632653062e-05,
      "loss": 0.4727,
      "step": 8130
    },
    {
      "epoch": 41.53061224489796,
      "grad_norm": 7.33768367767334,
      "learning_rate": 1.169387755102041e-05,
      "loss": 0.374,
      "step": 8140
    },
    {
      "epoch": 41.58163265306123,
      "grad_norm": 19.57489013671875,
      "learning_rate": 1.1683673469387755e-05,
      "loss": 0.4094,
      "step": 8150
    },
    {
      "epoch": 41.63265306122449,
      "grad_norm": 3.984496831893921,
      "learning_rate": 1.1673469387755103e-05,
      "loss": 0.7175,
      "step": 8160
    },
    {
      "epoch": 41.683673469387756,
      "grad_norm": 6.083134174346924,
      "learning_rate": 1.166326530612245e-05,
      "loss": 0.6522,
      "step": 8170
    },
    {
      "epoch": 41.734693877551024,
      "grad_norm": 10.390658378601074,
      "learning_rate": 1.1653061224489796e-05,
      "loss": 0.2055,
      "step": 8180
    },
    {
      "epoch": 41.785714285714285,
      "grad_norm": 21.878732681274414,
      "learning_rate": 1.1642857142857145e-05,
      "loss": 0.4856,
      "step": 8190
    },
    {
      "epoch": 41.83673469387755,
      "grad_norm": 25.787771224975586,
      "learning_rate": 1.1632653061224491e-05,
      "loss": 0.4484,
      "step": 8200
    },
    {
      "epoch": 41.88775510204081,
      "grad_norm": 3.671684503555298,
      "learning_rate": 1.1622448979591839e-05,
      "loss": 0.4109,
      "step": 8210
    },
    {
      "epoch": 41.93877551020408,
      "grad_norm": 3.7873778343200684,
      "learning_rate": 1.1612244897959184e-05,
      "loss": 0.497,
      "step": 8220
    },
    {
      "epoch": 41.98979591836735,
      "grad_norm": 35.14807891845703,
      "learning_rate": 1.1602040816326532e-05,
      "loss": 0.4016,
      "step": 8230
    },
    {
      "epoch": 42.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3848958909511566,
      "eval_runtime": 0.9167,
      "eval_samples_per_second": 302.17,
      "eval_steps_per_second": 38.18,
      "step": 8232
    },
    {
      "epoch": 42.04081632653061,
      "grad_norm": 17.59366226196289,
      "learning_rate": 1.1591836734693878e-05,
      "loss": 0.4961,
      "step": 8240
    },
    {
      "epoch": 42.09183673469388,
      "grad_norm": 4.936344623565674,
      "learning_rate": 1.1581632653061225e-05,
      "loss": 0.5101,
      "step": 8250
    },
    {
      "epoch": 42.142857142857146,
      "grad_norm": 8.416596412658691,
      "learning_rate": 1.1571428571428573e-05,
      "loss": 0.3662,
      "step": 8260
    },
    {
      "epoch": 42.19387755102041,
      "grad_norm": 2.9903690814971924,
      "learning_rate": 1.1561224489795918e-05,
      "loss": 0.5113,
      "step": 8270
    },
    {
      "epoch": 42.244897959183675,
      "grad_norm": 14.372674942016602,
      "learning_rate": 1.1551020408163268e-05,
      "loss": 0.2513,
      "step": 8280
    },
    {
      "epoch": 42.295918367346935,
      "grad_norm": 1.4601895809173584,
      "learning_rate": 1.1540816326530613e-05,
      "loss": 0.6385,
      "step": 8290
    },
    {
      "epoch": 42.3469387755102,
      "grad_norm": 3.8301546573638916,
      "learning_rate": 1.1530612244897961e-05,
      "loss": 0.4374,
      "step": 8300
    },
    {
      "epoch": 42.39795918367347,
      "grad_norm": 22.35148048400879,
      "learning_rate": 1.1520408163265307e-05,
      "loss": 0.417,
      "step": 8310
    },
    {
      "epoch": 42.44897959183673,
      "grad_norm": 3.8732175827026367,
      "learning_rate": 1.1510204081632654e-05,
      "loss": 0.3005,
      "step": 8320
    },
    {
      "epoch": 42.5,
      "grad_norm": 26.1953067779541,
      "learning_rate": 1.15e-05,
      "loss": 0.4309,
      "step": 8330
    },
    {
      "epoch": 42.55102040816327,
      "grad_norm": 63.95928955078125,
      "learning_rate": 1.1489795918367347e-05,
      "loss": 0.6521,
      "step": 8340
    },
    {
      "epoch": 42.60204081632653,
      "grad_norm": 31.416156768798828,
      "learning_rate": 1.1479591836734697e-05,
      "loss": 0.3505,
      "step": 8350
    },
    {
      "epoch": 42.6530612244898,
      "grad_norm": 6.171205520629883,
      "learning_rate": 1.146938775510204e-05,
      "loss": 0.4437,
      "step": 8360
    },
    {
      "epoch": 42.704081632653065,
      "grad_norm": 24.088422775268555,
      "learning_rate": 1.145918367346939e-05,
      "loss": 0.4317,
      "step": 8370
    },
    {
      "epoch": 42.755102040816325,
      "grad_norm": 20.7968692779541,
      "learning_rate": 1.1448979591836736e-05,
      "loss": 0.5866,
      "step": 8380
    },
    {
      "epoch": 42.80612244897959,
      "grad_norm": 6.851806163787842,
      "learning_rate": 1.1438775510204083e-05,
      "loss": 0.3934,
      "step": 8390
    },
    {
      "epoch": 42.857142857142854,
      "grad_norm": 6.628354549407959,
      "learning_rate": 1.1428571428571429e-05,
      "loss": 0.4628,
      "step": 8400
    },
    {
      "epoch": 42.90816326530612,
      "grad_norm": 9.613076210021973,
      "learning_rate": 1.1418367346938777e-05,
      "loss": 0.596,
      "step": 8410
    },
    {
      "epoch": 42.95918367346939,
      "grad_norm": 2.464944839477539,
      "learning_rate": 1.1408163265306122e-05,
      "loss": 0.2037,
      "step": 8420
    },
    {
      "epoch": 43.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3486926853656769,
      "eval_runtime": 0.93,
      "eval_samples_per_second": 297.845,
      "eval_steps_per_second": 37.634,
      "step": 8428
    },
    {
      "epoch": 43.01020408163265,
      "grad_norm": 25.47903823852539,
      "learning_rate": 1.139795918367347e-05,
      "loss": 0.3284,
      "step": 8430
    },
    {
      "epoch": 43.06122448979592,
      "grad_norm": 24.809425354003906,
      "learning_rate": 1.1387755102040819e-05,
      "loss": 0.4755,
      "step": 8440
    },
    {
      "epoch": 43.11224489795919,
      "grad_norm": 2.5690550804138184,
      "learning_rate": 1.1377551020408165e-05,
      "loss": 0.2633,
      "step": 8450
    },
    {
      "epoch": 43.16326530612245,
      "grad_norm": 8.334878921508789,
      "learning_rate": 1.1367346938775512e-05,
      "loss": 0.4967,
      "step": 8460
    },
    {
      "epoch": 43.214285714285715,
      "grad_norm": 3.3781495094299316,
      "learning_rate": 1.1357142857142858e-05,
      "loss": 0.5641,
      "step": 8470
    },
    {
      "epoch": 43.265306122448976,
      "grad_norm": 10.796682357788086,
      "learning_rate": 1.1346938775510206e-05,
      "loss": 0.1712,
      "step": 8480
    },
    {
      "epoch": 43.316326530612244,
      "grad_norm": 3.2821946144104004,
      "learning_rate": 1.1336734693877551e-05,
      "loss": 0.3748,
      "step": 8490
    },
    {
      "epoch": 43.36734693877551,
      "grad_norm": 20.531801223754883,
      "learning_rate": 1.1326530612244899e-05,
      "loss": 0.3933,
      "step": 8500
    },
    {
      "epoch": 43.41836734693877,
      "grad_norm": 32.56875991821289,
      "learning_rate": 1.1316326530612245e-05,
      "loss": 0.4148,
      "step": 8510
    },
    {
      "epoch": 43.46938775510204,
      "grad_norm": 5.346088409423828,
      "learning_rate": 1.1306122448979592e-05,
      "loss": 0.5442,
      "step": 8520
    },
    {
      "epoch": 43.52040816326531,
      "grad_norm": 12.12336540222168,
      "learning_rate": 1.1295918367346941e-05,
      "loss": 0.558,
      "step": 8530
    },
    {
      "epoch": 43.57142857142857,
      "grad_norm": 8.497865676879883,
      "learning_rate": 1.1285714285714287e-05,
      "loss": 0.261,
      "step": 8540
    },
    {
      "epoch": 43.62244897959184,
      "grad_norm": 4.13885498046875,
      "learning_rate": 1.1275510204081635e-05,
      "loss": 0.4541,
      "step": 8550
    },
    {
      "epoch": 43.673469387755105,
      "grad_norm": 20.07855224609375,
      "learning_rate": 1.126530612244898e-05,
      "loss": 0.5817,
      "step": 8560
    },
    {
      "epoch": 43.724489795918366,
      "grad_norm": 10.426824569702148,
      "learning_rate": 1.1255102040816328e-05,
      "loss": 0.4808,
      "step": 8570
    },
    {
      "epoch": 43.775510204081634,
      "grad_norm": 11.072684288024902,
      "learning_rate": 1.1244897959183674e-05,
      "loss": 0.3885,
      "step": 8580
    },
    {
      "epoch": 43.826530612244895,
      "grad_norm": 4.424574375152588,
      "learning_rate": 1.1234693877551021e-05,
      "loss": 0.4724,
      "step": 8590
    },
    {
      "epoch": 43.87755102040816,
      "grad_norm": 4.315727233886719,
      "learning_rate": 1.1224489795918367e-05,
      "loss": 0.3245,
      "step": 8600
    },
    {
      "epoch": 43.92857142857143,
      "grad_norm": 28.126569747924805,
      "learning_rate": 1.1214285714285716e-05,
      "loss": 0.7592,
      "step": 8610
    },
    {
      "epoch": 43.97959183673469,
      "grad_norm": 16.642793655395508,
      "learning_rate": 1.1204081632653062e-05,
      "loss": 0.3795,
      "step": 8620
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4297995865345001,
      "eval_runtime": 0.9028,
      "eval_samples_per_second": 306.822,
      "eval_steps_per_second": 38.768,
      "step": 8624
    },
    {
      "epoch": 44.03061224489796,
      "grad_norm": 9.673602104187012,
      "learning_rate": 1.119387755102041e-05,
      "loss": 0.3598,
      "step": 8630
    },
    {
      "epoch": 44.08163265306123,
      "grad_norm": 14.637319564819336,
      "learning_rate": 1.1183673469387757e-05,
      "loss": 0.3511,
      "step": 8640
    },
    {
      "epoch": 44.13265306122449,
      "grad_norm": 17.081562042236328,
      "learning_rate": 1.1173469387755103e-05,
      "loss": 0.4352,
      "step": 8650
    },
    {
      "epoch": 44.183673469387756,
      "grad_norm": 40.948875427246094,
      "learning_rate": 1.116326530612245e-05,
      "loss": 0.398,
      "step": 8660
    },
    {
      "epoch": 44.234693877551024,
      "grad_norm": 1.0722763538360596,
      "learning_rate": 1.1153061224489796e-05,
      "loss": 0.5896,
      "step": 8670
    },
    {
      "epoch": 44.285714285714285,
      "grad_norm": 2.289928913116455,
      "learning_rate": 1.1142857142857143e-05,
      "loss": 0.4274,
      "step": 8680
    },
    {
      "epoch": 44.33673469387755,
      "grad_norm": 3.802046298980713,
      "learning_rate": 1.113265306122449e-05,
      "loss": 0.3371,
      "step": 8690
    },
    {
      "epoch": 44.38775510204081,
      "grad_norm": 1.681168794631958,
      "learning_rate": 1.1122448979591838e-05,
      "loss": 0.495,
      "step": 8700
    },
    {
      "epoch": 44.43877551020408,
      "grad_norm": 37.643558502197266,
      "learning_rate": 1.1112244897959184e-05,
      "loss": 0.6192,
      "step": 8710
    },
    {
      "epoch": 44.48979591836735,
      "grad_norm": 21.76677131652832,
      "learning_rate": 1.1102040816326532e-05,
      "loss": 0.5955,
      "step": 8720
    },
    {
      "epoch": 44.54081632653061,
      "grad_norm": 37.92179870605469,
      "learning_rate": 1.1091836734693879e-05,
      "loss": 0.2896,
      "step": 8730
    },
    {
      "epoch": 44.59183673469388,
      "grad_norm": 10.683966636657715,
      "learning_rate": 1.1081632653061225e-05,
      "loss": 0.1666,
      "step": 8740
    },
    {
      "epoch": 44.642857142857146,
      "grad_norm": 5.424938201904297,
      "learning_rate": 1.1071428571428572e-05,
      "loss": 0.4646,
      "step": 8750
    },
    {
      "epoch": 44.69387755102041,
      "grad_norm": 11.846094131469727,
      "learning_rate": 1.1061224489795918e-05,
      "loss": 0.5142,
      "step": 8760
    },
    {
      "epoch": 44.744897959183675,
      "grad_norm": 42.02461624145508,
      "learning_rate": 1.1051020408163267e-05,
      "loss": 0.4285,
      "step": 8770
    },
    {
      "epoch": 44.795918367346935,
      "grad_norm": 9.40854263305664,
      "learning_rate": 1.1040816326530611e-05,
      "loss": 0.3754,
      "step": 8780
    },
    {
      "epoch": 44.8469387755102,
      "grad_norm": 10.086451530456543,
      "learning_rate": 1.103061224489796e-05,
      "loss": 0.5751,
      "step": 8790
    },
    {
      "epoch": 44.89795918367347,
      "grad_norm": 16.38766860961914,
      "learning_rate": 1.1020408163265306e-05,
      "loss": 0.4347,
      "step": 8800
    },
    {
      "epoch": 44.94897959183673,
      "grad_norm": 27.12742042541504,
      "learning_rate": 1.1010204081632654e-05,
      "loss": 0.4193,
      "step": 8810
    },
    {
      "epoch": 45.0,
      "grad_norm": 6.5270280838012695,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 0.403,
      "step": 8820
    },
    {
      "epoch": 45.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.39659854769706726,
      "eval_runtime": 0.9052,
      "eval_samples_per_second": 305.995,
      "eval_steps_per_second": 38.664,
      "step": 8820
    },
    {
      "epoch": 45.05102040816327,
      "grad_norm": 4.069685935974121,
      "learning_rate": 1.0989795918367347e-05,
      "loss": 0.3168,
      "step": 8830
    },
    {
      "epoch": 45.10204081632653,
      "grad_norm": 5.247861385345459,
      "learning_rate": 1.0979591836734695e-05,
      "loss": 0.426,
      "step": 8840
    },
    {
      "epoch": 45.1530612244898,
      "grad_norm": 21.845489501953125,
      "learning_rate": 1.096938775510204e-05,
      "loss": 0.3428,
      "step": 8850
    },
    {
      "epoch": 45.204081632653065,
      "grad_norm": 20.838520050048828,
      "learning_rate": 1.095918367346939e-05,
      "loss": 0.3482,
      "step": 8860
    },
    {
      "epoch": 45.255102040816325,
      "grad_norm": 7.65814208984375,
      "learning_rate": 1.0948979591836735e-05,
      "loss": 0.559,
      "step": 8870
    },
    {
      "epoch": 45.30612244897959,
      "grad_norm": 2.0590715408325195,
      "learning_rate": 1.0938775510204083e-05,
      "loss": 0.5382,
      "step": 8880
    },
    {
      "epoch": 45.357142857142854,
      "grad_norm": 19.061738967895508,
      "learning_rate": 1.0928571428571429e-05,
      "loss": 0.4645,
      "step": 8890
    },
    {
      "epoch": 45.40816326530612,
      "grad_norm": 12.627680778503418,
      "learning_rate": 1.0918367346938776e-05,
      "loss": 0.4173,
      "step": 8900
    },
    {
      "epoch": 45.45918367346939,
      "grad_norm": 1.1311719417572021,
      "learning_rate": 1.0908163265306124e-05,
      "loss": 0.2719,
      "step": 8910
    },
    {
      "epoch": 45.51020408163265,
      "grad_norm": 10.732376098632812,
      "learning_rate": 1.089795918367347e-05,
      "loss": 0.7172,
      "step": 8920
    },
    {
      "epoch": 45.56122448979592,
      "grad_norm": 2.2783522605895996,
      "learning_rate": 1.0887755102040819e-05,
      "loss": 0.4621,
      "step": 8930
    },
    {
      "epoch": 45.61224489795919,
      "grad_norm": 11.26222038269043,
      "learning_rate": 1.0877551020408163e-05,
      "loss": 0.7624,
      "step": 8940
    },
    {
      "epoch": 45.66326530612245,
      "grad_norm": 5.6761932373046875,
      "learning_rate": 1.0867346938775512e-05,
      "loss": 0.4963,
      "step": 8950
    },
    {
      "epoch": 45.714285714285715,
      "grad_norm": 5.1315388679504395,
      "learning_rate": 1.0857142857142858e-05,
      "loss": 0.587,
      "step": 8960
    },
    {
      "epoch": 45.765306122448976,
      "grad_norm": 38.96656799316406,
      "learning_rate": 1.0846938775510205e-05,
      "loss": 0.4307,
      "step": 8970
    },
    {
      "epoch": 45.816326530612244,
      "grad_norm": 1.76622474193573,
      "learning_rate": 1.0836734693877551e-05,
      "loss": 0.346,
      "step": 8980
    },
    {
      "epoch": 45.86734693877551,
      "grad_norm": 3.323472499847412,
      "learning_rate": 1.0826530612244899e-05,
      "loss": 0.2025,
      "step": 8990
    },
    {
      "epoch": 45.91836734693877,
      "grad_norm": 3.3503618240356445,
      "learning_rate": 1.0816326530612246e-05,
      "loss": 0.4204,
      "step": 9000
    },
    {
      "epoch": 45.96938775510204,
      "grad_norm": 51.97248458862305,
      "learning_rate": 1.0806122448979592e-05,
      "loss": 0.2754,
      "step": 9010
    },
    {
      "epoch": 46.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3784868121147156,
      "eval_runtime": 0.9042,
      "eval_samples_per_second": 306.357,
      "eval_steps_per_second": 38.709,
      "step": 9016
    },
    {
      "epoch": 46.02040816326531,
      "grad_norm": 28.718647003173828,
      "learning_rate": 1.0795918367346941e-05,
      "loss": 0.5088,
      "step": 9020
    },
    {
      "epoch": 46.07142857142857,
      "grad_norm": 8.641578674316406,
      "learning_rate": 1.0785714285714287e-05,
      "loss": 0.5945,
      "step": 9030
    },
    {
      "epoch": 46.12244897959184,
      "grad_norm": 22.656614303588867,
      "learning_rate": 1.0775510204081634e-05,
      "loss": 0.4594,
      "step": 9040
    },
    {
      "epoch": 46.173469387755105,
      "grad_norm": 27.270240783691406,
      "learning_rate": 1.076530612244898e-05,
      "loss": 0.3611,
      "step": 9050
    },
    {
      "epoch": 46.224489795918366,
      "grad_norm": 16.184864044189453,
      "learning_rate": 1.0755102040816328e-05,
      "loss": 0.7549,
      "step": 9060
    },
    {
      "epoch": 46.275510204081634,
      "grad_norm": 35.14948654174805,
      "learning_rate": 1.0744897959183673e-05,
      "loss": 0.4699,
      "step": 9070
    },
    {
      "epoch": 46.326530612244895,
      "grad_norm": 4.425411701202393,
      "learning_rate": 1.073469387755102e-05,
      "loss": 0.2457,
      "step": 9080
    },
    {
      "epoch": 46.37755102040816,
      "grad_norm": 15.7594633102417,
      "learning_rate": 1.072448979591837e-05,
      "loss": 0.4199,
      "step": 9090
    },
    {
      "epoch": 46.42857142857143,
      "grad_norm": 5.0771708488464355,
      "learning_rate": 1.0714285714285714e-05,
      "loss": 0.3958,
      "step": 9100
    },
    {
      "epoch": 46.47959183673469,
      "grad_norm": 35.4401969909668,
      "learning_rate": 1.0704081632653063e-05,
      "loss": 0.4411,
      "step": 9110
    },
    {
      "epoch": 46.53061224489796,
      "grad_norm": 15.310371398925781,
      "learning_rate": 1.0693877551020409e-05,
      "loss": 0.3248,
      "step": 9120
    },
    {
      "epoch": 46.58163265306123,
      "grad_norm": 37.93354415893555,
      "learning_rate": 1.0683673469387757e-05,
      "loss": 1.0073,
      "step": 9130
    },
    {
      "epoch": 46.63265306122449,
      "grad_norm": 16.949787139892578,
      "learning_rate": 1.0673469387755102e-05,
      "loss": 0.5368,
      "step": 9140
    },
    {
      "epoch": 46.683673469387756,
      "grad_norm": 12.771772384643555,
      "learning_rate": 1.066326530612245e-05,
      "loss": 0.2607,
      "step": 9150
    },
    {
      "epoch": 46.734693877551024,
      "grad_norm": 15.048412322998047,
      "learning_rate": 1.0653061224489796e-05,
      "loss": 0.3501,
      "step": 9160
    },
    {
      "epoch": 46.785714285714285,
      "grad_norm": 22.218143463134766,
      "learning_rate": 1.0642857142857143e-05,
      "loss": 0.4353,
      "step": 9170
    },
    {
      "epoch": 46.83673469387755,
      "grad_norm": 4.31571102142334,
      "learning_rate": 1.0632653061224492e-05,
      "loss": 0.2771,
      "step": 9180
    },
    {
      "epoch": 46.88775510204081,
      "grad_norm": 9.960770606994629,
      "learning_rate": 1.0622448979591838e-05,
      "loss": 0.3149,
      "step": 9190
    },
    {
      "epoch": 46.93877551020408,
      "grad_norm": 31.54200553894043,
      "learning_rate": 1.0612244897959186e-05,
      "loss": 0.5652,
      "step": 9200
    },
    {
      "epoch": 46.98979591836735,
      "grad_norm": 18.24053192138672,
      "learning_rate": 1.0602040816326531e-05,
      "loss": 0.5228,
      "step": 9210
    },
    {
      "epoch": 47.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4116874039173126,
      "eval_runtime": 0.9132,
      "eval_samples_per_second": 303.335,
      "eval_steps_per_second": 38.327,
      "step": 9212
    },
    {
      "epoch": 47.04081632653061,
      "grad_norm": 17.27345848083496,
      "learning_rate": 1.0591836734693879e-05,
      "loss": 0.5028,
      "step": 9220
    },
    {
      "epoch": 47.09183673469388,
      "grad_norm": 8.657761573791504,
      "learning_rate": 1.0581632653061225e-05,
      "loss": 0.2755,
      "step": 9230
    },
    {
      "epoch": 47.142857142857146,
      "grad_norm": 16.54113006591797,
      "learning_rate": 1.0571428571428572e-05,
      "loss": 0.5853,
      "step": 9240
    },
    {
      "epoch": 47.19387755102041,
      "grad_norm": 4.593121528625488,
      "learning_rate": 1.0561224489795918e-05,
      "loss": 0.3184,
      "step": 9250
    },
    {
      "epoch": 47.244897959183675,
      "grad_norm": 4.966032028198242,
      "learning_rate": 1.0551020408163265e-05,
      "loss": 0.5565,
      "step": 9260
    },
    {
      "epoch": 47.295918367346935,
      "grad_norm": 20.314016342163086,
      "learning_rate": 1.0540816326530615e-05,
      "loss": 0.3743,
      "step": 9270
    },
    {
      "epoch": 47.3469387755102,
      "grad_norm": 20.642478942871094,
      "learning_rate": 1.053061224489796e-05,
      "loss": 0.4853,
      "step": 9280
    },
    {
      "epoch": 47.39795918367347,
      "grad_norm": 12.730716705322266,
      "learning_rate": 1.0520408163265308e-05,
      "loss": 0.2961,
      "step": 9290
    },
    {
      "epoch": 47.44897959183673,
      "grad_norm": 11.859018325805664,
      "learning_rate": 1.0510204081632654e-05,
      "loss": 0.4754,
      "step": 9300
    },
    {
      "epoch": 47.5,
      "grad_norm": 2.035061836242676,
      "learning_rate": 1.0500000000000001e-05,
      "loss": 0.9581,
      "step": 9310
    },
    {
      "epoch": 47.55102040816327,
      "grad_norm": 27.30385971069336,
      "learning_rate": 1.0489795918367347e-05,
      "loss": 0.4804,
      "step": 9320
    },
    {
      "epoch": 47.60204081632653,
      "grad_norm": 9.137168884277344,
      "learning_rate": 1.0479591836734694e-05,
      "loss": 0.4149,
      "step": 9330
    },
    {
      "epoch": 47.6530612244898,
      "grad_norm": 14.227080345153809,
      "learning_rate": 1.046938775510204e-05,
      "loss": 0.3586,
      "step": 9340
    },
    {
      "epoch": 47.704081632653065,
      "grad_norm": 4.199706554412842,
      "learning_rate": 1.045918367346939e-05,
      "loss": 0.4239,
      "step": 9350
    },
    {
      "epoch": 47.755102040816325,
      "grad_norm": 1.975368857383728,
      "learning_rate": 1.0448979591836737e-05,
      "loss": 0.4856,
      "step": 9360
    },
    {
      "epoch": 47.80612244897959,
      "grad_norm": 3.406242609024048,
      "learning_rate": 1.0438775510204083e-05,
      "loss": 0.4178,
      "step": 9370
    },
    {
      "epoch": 47.857142857142854,
      "grad_norm": 15.247715950012207,
      "learning_rate": 1.042857142857143e-05,
      "loss": 0.4376,
      "step": 9380
    },
    {
      "epoch": 47.90816326530612,
      "grad_norm": 5.068487167358398,
      "learning_rate": 1.0418367346938776e-05,
      "loss": 0.1312,
      "step": 9390
    },
    {
      "epoch": 47.95918367346939,
      "grad_norm": 34.53057861328125,
      "learning_rate": 1.0408163265306123e-05,
      "loss": 0.7263,
      "step": 9400
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3726310431957245,
      "eval_runtime": 0.9063,
      "eval_samples_per_second": 305.623,
      "eval_steps_per_second": 38.617,
      "step": 9408
    },
    {
      "epoch": 48.01020408163265,
      "grad_norm": 1.3102651834487915,
      "learning_rate": 1.039795918367347e-05,
      "loss": 0.287,
      "step": 9410
    },
    {
      "epoch": 48.06122448979592,
      "grad_norm": 2.0909171104431152,
      "learning_rate": 1.0387755102040817e-05,
      "loss": 0.5087,
      "step": 9420
    },
    {
      "epoch": 48.11224489795919,
      "grad_norm": 24.21135711669922,
      "learning_rate": 1.0377551020408162e-05,
      "loss": 0.742,
      "step": 9430
    },
    {
      "epoch": 48.16326530612245,
      "grad_norm": 18.370302200317383,
      "learning_rate": 1.0367346938775512e-05,
      "loss": 0.4576,
      "step": 9440
    },
    {
      "epoch": 48.214285714285715,
      "grad_norm": 6.1853766441345215,
      "learning_rate": 1.0357142857142859e-05,
      "loss": 0.3959,
      "step": 9450
    },
    {
      "epoch": 48.265306122448976,
      "grad_norm": 20.6735897064209,
      "learning_rate": 1.0346938775510205e-05,
      "loss": 0.3838,
      "step": 9460
    },
    {
      "epoch": 48.316326530612244,
      "grad_norm": 2.806485652923584,
      "learning_rate": 1.0336734693877552e-05,
      "loss": 0.292,
      "step": 9470
    },
    {
      "epoch": 48.36734693877551,
      "grad_norm": 0.9641644358634949,
      "learning_rate": 1.0326530612244898e-05,
      "loss": 0.308,
      "step": 9480
    },
    {
      "epoch": 48.41836734693877,
      "grad_norm": 12.992085456848145,
      "learning_rate": 1.0316326530612246e-05,
      "loss": 0.2848,
      "step": 9490
    },
    {
      "epoch": 48.46938775510204,
      "grad_norm": 25.490299224853516,
      "learning_rate": 1.0306122448979591e-05,
      "loss": 0.4055,
      "step": 9500
    },
    {
      "epoch": 48.52040816326531,
      "grad_norm": 5.978936195373535,
      "learning_rate": 1.029591836734694e-05,
      "loss": 0.4004,
      "step": 9510
    },
    {
      "epoch": 48.57142857142857,
      "grad_norm": 16.93248176574707,
      "learning_rate": 1.0285714285714285e-05,
      "loss": 0.302,
      "step": 9520
    },
    {
      "epoch": 48.62244897959184,
      "grad_norm": 9.179072380065918,
      "learning_rate": 1.0275510204081634e-05,
      "loss": 0.2855,
      "step": 9530
    },
    {
      "epoch": 48.673469387755105,
      "grad_norm": 13.432941436767578,
      "learning_rate": 1.0265306122448981e-05,
      "loss": 0.4236,
      "step": 9540
    },
    {
      "epoch": 48.724489795918366,
      "grad_norm": 1.8836063146591187,
      "learning_rate": 1.0255102040816327e-05,
      "loss": 0.4895,
      "step": 9550
    },
    {
      "epoch": 48.775510204081634,
      "grad_norm": 36.538028717041016,
      "learning_rate": 1.0244897959183675e-05,
      "loss": 0.5454,
      "step": 9560
    },
    {
      "epoch": 48.826530612244895,
      "grad_norm": 11.921611785888672,
      "learning_rate": 1.023469387755102e-05,
      "loss": 0.4558,
      "step": 9570
    },
    {
      "epoch": 48.87755102040816,
      "grad_norm": 25.453094482421875,
      "learning_rate": 1.0224489795918368e-05,
      "loss": 0.6779,
      "step": 9580
    },
    {
      "epoch": 48.92857142857143,
      "grad_norm": 1.424013376235962,
      "learning_rate": 1.0214285714285714e-05,
      "loss": 0.1732,
      "step": 9590
    },
    {
      "epoch": 48.97959183673469,
      "grad_norm": 39.13131332397461,
      "learning_rate": 1.0204081632653063e-05,
      "loss": 0.8995,
      "step": 9600
    },
    {
      "epoch": 49.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.45593559741973877,
      "eval_runtime": 0.9142,
      "eval_samples_per_second": 303.012,
      "eval_steps_per_second": 38.287,
      "step": 9604
    },
    {
      "epoch": 49.03061224489796,
      "grad_norm": 14.810044288635254,
      "learning_rate": 1.0193877551020409e-05,
      "loss": 0.4221,
      "step": 9610
    },
    {
      "epoch": 49.08163265306123,
      "grad_norm": 31.683349609375,
      "learning_rate": 1.0183673469387756e-05,
      "loss": 0.4703,
      "step": 9620
    },
    {
      "epoch": 49.13265306122449,
      "grad_norm": 30.663442611694336,
      "learning_rate": 1.0173469387755104e-05,
      "loss": 0.5574,
      "step": 9630
    },
    {
      "epoch": 49.183673469387756,
      "grad_norm": 17.252775192260742,
      "learning_rate": 1.016326530612245e-05,
      "loss": 0.4074,
      "step": 9640
    },
    {
      "epoch": 49.234693877551024,
      "grad_norm": 23.178665161132812,
      "learning_rate": 1.0153061224489797e-05,
      "loss": 0.6678,
      "step": 9650
    },
    {
      "epoch": 49.285714285714285,
      "grad_norm": 6.026679515838623,
      "learning_rate": 1.0142857142857143e-05,
      "loss": 0.4906,
      "step": 9660
    },
    {
      "epoch": 49.33673469387755,
      "grad_norm": 3.334510326385498,
      "learning_rate": 1.013265306122449e-05,
      "loss": 0.3543,
      "step": 9670
    },
    {
      "epoch": 49.38775510204081,
      "grad_norm": 0.7751055359840393,
      "learning_rate": 1.0122448979591836e-05,
      "loss": 0.2493,
      "step": 9680
    },
    {
      "epoch": 49.43877551020408,
      "grad_norm": 5.984293460845947,
      "learning_rate": 1.0112244897959185e-05,
      "loss": 0.4793,
      "step": 9690
    },
    {
      "epoch": 49.48979591836735,
      "grad_norm": 3.6375551223754883,
      "learning_rate": 1.0102040816326531e-05,
      "loss": 0.5324,
      "step": 9700
    },
    {
      "epoch": 49.54081632653061,
      "grad_norm": 7.211832046508789,
      "learning_rate": 1.0091836734693879e-05,
      "loss": 0.3013,
      "step": 9710
    },
    {
      "epoch": 49.59183673469388,
      "grad_norm": 26.27135467529297,
      "learning_rate": 1.0081632653061226e-05,
      "loss": 0.6156,
      "step": 9720
    },
    {
      "epoch": 49.642857142857146,
      "grad_norm": 4.4133710861206055,
      "learning_rate": 1.0071428571428572e-05,
      "loss": 0.4432,
      "step": 9730
    },
    {
      "epoch": 49.69387755102041,
      "grad_norm": 26.133302688598633,
      "learning_rate": 1.006122448979592e-05,
      "loss": 0.329,
      "step": 9740
    },
    {
      "epoch": 49.744897959183675,
      "grad_norm": 6.367858409881592,
      "learning_rate": 1.0051020408163265e-05,
      "loss": 0.4362,
      "step": 9750
    },
    {
      "epoch": 49.795918367346935,
      "grad_norm": 3.9923672676086426,
      "learning_rate": 1.0040816326530614e-05,
      "loss": 0.2598,
      "step": 9760
    },
    {
      "epoch": 49.8469387755102,
      "grad_norm": 8.944726943969727,
      "learning_rate": 1.003061224489796e-05,
      "loss": 0.6531,
      "step": 9770
    },
    {
      "epoch": 49.89795918367347,
      "grad_norm": 2.9071571826934814,
      "learning_rate": 1.0020408163265308e-05,
      "loss": 0.2397,
      "step": 9780
    },
    {
      "epoch": 49.94897959183673,
      "grad_norm": 4.856316566467285,
      "learning_rate": 1.0010204081632653e-05,
      "loss": 0.4895,
      "step": 9790
    },
    {
      "epoch": 50.0,
      "grad_norm": 4.088354110717773,
      "learning_rate": 1e-05,
      "loss": 0.6844,
      "step": 9800
    },
    {
      "epoch": 50.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4164339303970337,
      "eval_runtime": 0.9078,
      "eval_samples_per_second": 305.12,
      "eval_steps_per_second": 38.553,
      "step": 9800
    },
    {
      "epoch": 50.05102040816327,
      "grad_norm": 16.651948928833008,
      "learning_rate": 9.989795918367348e-06,
      "loss": 0.5394,
      "step": 9810
    },
    {
      "epoch": 50.10204081632653,
      "grad_norm": 27.915321350097656,
      "learning_rate": 9.979591836734694e-06,
      "loss": 0.4443,
      "step": 9820
    },
    {
      "epoch": 50.1530612244898,
      "grad_norm": 2.7738728523254395,
      "learning_rate": 9.969387755102042e-06,
      "loss": 0.447,
      "step": 9830
    },
    {
      "epoch": 50.204081632653065,
      "grad_norm": 18.691171646118164,
      "learning_rate": 9.959183673469387e-06,
      "loss": 0.4578,
      "step": 9840
    },
    {
      "epoch": 50.255102040816325,
      "grad_norm": 6.255816459655762,
      "learning_rate": 9.948979591836737e-06,
      "loss": 0.417,
      "step": 9850
    },
    {
      "epoch": 50.30612244897959,
      "grad_norm": 1.3739299774169922,
      "learning_rate": 9.938775510204082e-06,
      "loss": 0.4122,
      "step": 9860
    },
    {
      "epoch": 50.357142857142854,
      "grad_norm": 11.653400421142578,
      "learning_rate": 9.92857142857143e-06,
      "loss": 0.262,
      "step": 9870
    },
    {
      "epoch": 50.40816326530612,
      "grad_norm": 1.3562790155410767,
      "learning_rate": 9.918367346938776e-06,
      "loss": 0.2165,
      "step": 9880
    },
    {
      "epoch": 50.45918367346939,
      "grad_norm": 2.7263054847717285,
      "learning_rate": 9.908163265306123e-06,
      "loss": 0.4544,
      "step": 9890
    },
    {
      "epoch": 50.51020408163265,
      "grad_norm": 2.553161859512329,
      "learning_rate": 9.89795918367347e-06,
      "loss": 0.4835,
      "step": 9900
    },
    {
      "epoch": 50.56122448979592,
      "grad_norm": 38.57986831665039,
      "learning_rate": 9.887755102040816e-06,
      "loss": 0.6904,
      "step": 9910
    },
    {
      "epoch": 50.61224489795919,
      "grad_norm": 26.568878173828125,
      "learning_rate": 9.877551020408164e-06,
      "loss": 0.4442,
      "step": 9920
    },
    {
      "epoch": 50.66326530612245,
      "grad_norm": 28.930164337158203,
      "learning_rate": 9.867346938775511e-06,
      "loss": 0.3442,
      "step": 9930
    },
    {
      "epoch": 50.714285714285715,
      "grad_norm": 2.093935489654541,
      "learning_rate": 9.857142857142859e-06,
      "loss": 0.3401,
      "step": 9940
    },
    {
      "epoch": 50.765306122448976,
      "grad_norm": 14.566359519958496,
      "learning_rate": 9.846938775510205e-06,
      "loss": 0.4208,
      "step": 9950
    },
    {
      "epoch": 50.816326530612244,
      "grad_norm": 15.871942520141602,
      "learning_rate": 9.836734693877552e-06,
      "loss": 0.5729,
      "step": 9960
    },
    {
      "epoch": 50.86734693877551,
      "grad_norm": 12.195475578308105,
      "learning_rate": 9.8265306122449e-06,
      "loss": 0.3081,
      "step": 9970
    },
    {
      "epoch": 50.91836734693877,
      "grad_norm": 10.162455558776855,
      "learning_rate": 9.816326530612245e-06,
      "loss": 0.5472,
      "step": 9980
    },
    {
      "epoch": 50.96938775510204,
      "grad_norm": 3.774989366531372,
      "learning_rate": 9.806122448979593e-06,
      "loss": 0.2734,
      "step": 9990
    },
    {
      "epoch": 51.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3861626982688904,
      "eval_runtime": 0.9055,
      "eval_samples_per_second": 305.92,
      "eval_steps_per_second": 38.654,
      "step": 9996
    },
    {
      "epoch": 51.02040816326531,
      "grad_norm": 16.00972557067871,
      "learning_rate": 9.795918367346939e-06,
      "loss": 0.4568,
      "step": 10000
    },
    {
      "epoch": 51.07142857142857,
      "grad_norm": 31.851335525512695,
      "learning_rate": 9.785714285714286e-06,
      "loss": 0.4507,
      "step": 10010
    },
    {
      "epoch": 51.12244897959184,
      "grad_norm": 34.532814025878906,
      "learning_rate": 9.775510204081634e-06,
      "loss": 0.5101,
      "step": 10020
    },
    {
      "epoch": 51.173469387755105,
      "grad_norm": 17.87839126586914,
      "learning_rate": 9.765306122448981e-06,
      "loss": 0.3091,
      "step": 10030
    },
    {
      "epoch": 51.224489795918366,
      "grad_norm": 3.0875766277313232,
      "learning_rate": 9.755102040816327e-06,
      "loss": 0.5099,
      "step": 10040
    },
    {
      "epoch": 51.275510204081634,
      "grad_norm": 2.65871524810791,
      "learning_rate": 9.744897959183674e-06,
      "loss": 0.2077,
      "step": 10050
    },
    {
      "epoch": 51.326530612244895,
      "grad_norm": 17.84648895263672,
      "learning_rate": 9.734693877551022e-06,
      "loss": 0.6781,
      "step": 10060
    },
    {
      "epoch": 51.37755102040816,
      "grad_norm": 1.8811891078948975,
      "learning_rate": 9.724489795918368e-06,
      "loss": 0.4582,
      "step": 10070
    },
    {
      "epoch": 51.42857142857143,
      "grad_norm": 1.9215470552444458,
      "learning_rate": 9.714285714285715e-06,
      "loss": 0.2982,
      "step": 10080
    },
    {
      "epoch": 51.47959183673469,
      "grad_norm": 3.8688910007476807,
      "learning_rate": 9.704081632653061e-06,
      "loss": 0.4022,
      "step": 10090
    },
    {
      "epoch": 51.53061224489796,
      "grad_norm": 54.379737854003906,
      "learning_rate": 9.693877551020408e-06,
      "loss": 0.7501,
      "step": 10100
    },
    {
      "epoch": 51.58163265306123,
      "grad_norm": 30.31291961669922,
      "learning_rate": 9.683673469387756e-06,
      "loss": 0.4118,
      "step": 10110
    },
    {
      "epoch": 51.63265306122449,
      "grad_norm": 42.9095344543457,
      "learning_rate": 9.673469387755103e-06,
      "loss": 0.4437,
      "step": 10120
    },
    {
      "epoch": 51.683673469387756,
      "grad_norm": 1.1933090686798096,
      "learning_rate": 9.663265306122451e-06,
      "loss": 0.2846,
      "step": 10130
    },
    {
      "epoch": 51.734693877551024,
      "grad_norm": 32.9227180480957,
      "learning_rate": 9.653061224489797e-06,
      "loss": 0.245,
      "step": 10140
    },
    {
      "epoch": 51.785714285714285,
      "grad_norm": 1.4265775680541992,
      "learning_rate": 9.642857142857144e-06,
      "loss": 0.436,
      "step": 10150
    },
    {
      "epoch": 51.83673469387755,
      "grad_norm": 20.133106231689453,
      "learning_rate": 9.63265306122449e-06,
      "loss": 0.4959,
      "step": 10160
    },
    {
      "epoch": 51.88775510204081,
      "grad_norm": 2.911975622177124,
      "learning_rate": 9.622448979591837e-06,
      "loss": 0.5106,
      "step": 10170
    },
    {
      "epoch": 51.93877551020408,
      "grad_norm": 3.6339333057403564,
      "learning_rate": 9.612244897959185e-06,
      "loss": 0.5418,
      "step": 10180
    },
    {
      "epoch": 51.98979591836735,
      "grad_norm": 19.89080047607422,
      "learning_rate": 9.60204081632653e-06,
      "loss": 0.4179,
      "step": 10190
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.43861624598503113,
      "eval_runtime": 0.9063,
      "eval_samples_per_second": 305.655,
      "eval_steps_per_second": 38.621,
      "step": 10192
    },
    {
      "epoch": 52.04081632653061,
      "grad_norm": 11.350752830505371,
      "learning_rate": 9.591836734693878e-06,
      "loss": 0.344,
      "step": 10200
    },
    {
      "epoch": 52.09183673469388,
      "grad_norm": 5.092073917388916,
      "learning_rate": 9.581632653061226e-06,
      "loss": 0.4672,
      "step": 10210
    },
    {
      "epoch": 52.142857142857146,
      "grad_norm": 5.87280797958374,
      "learning_rate": 9.571428571428573e-06,
      "loss": 0.6051,
      "step": 10220
    },
    {
      "epoch": 52.19387755102041,
      "grad_norm": 7.281282424926758,
      "learning_rate": 9.561224489795919e-06,
      "loss": 0.4886,
      "step": 10230
    },
    {
      "epoch": 52.244897959183675,
      "grad_norm": 29.675678253173828,
      "learning_rate": 9.551020408163266e-06,
      "loss": 0.3615,
      "step": 10240
    },
    {
      "epoch": 52.295918367346935,
      "grad_norm": 13.073823928833008,
      "learning_rate": 9.540816326530612e-06,
      "loss": 0.399,
      "step": 10250
    },
    {
      "epoch": 52.3469387755102,
      "grad_norm": 16.19719886779785,
      "learning_rate": 9.53061224489796e-06,
      "loss": 0.2447,
      "step": 10260
    },
    {
      "epoch": 52.39795918367347,
      "grad_norm": 3.9726245403289795,
      "learning_rate": 9.520408163265307e-06,
      "loss": 0.3841,
      "step": 10270
    },
    {
      "epoch": 52.44897959183673,
      "grad_norm": 56.4869499206543,
      "learning_rate": 9.510204081632653e-06,
      "loss": 0.8775,
      "step": 10280
    },
    {
      "epoch": 52.5,
      "grad_norm": 28.644453048706055,
      "learning_rate": 9.5e-06,
      "loss": 0.4784,
      "step": 10290
    },
    {
      "epoch": 52.55102040816327,
      "grad_norm": 7.516571044921875,
      "learning_rate": 9.489795918367348e-06,
      "loss": 0.3602,
      "step": 10300
    },
    {
      "epoch": 52.60204081632653,
      "grad_norm": 62.30181121826172,
      "learning_rate": 9.479591836734695e-06,
      "loss": 0.599,
      "step": 10310
    },
    {
      "epoch": 52.6530612244898,
      "grad_norm": 24.907678604125977,
      "learning_rate": 9.469387755102041e-06,
      "loss": 0.4797,
      "step": 10320
    },
    {
      "epoch": 52.704081632653065,
      "grad_norm": 22.267454147338867,
      "learning_rate": 9.459183673469389e-06,
      "loss": 0.4834,
      "step": 10330
    },
    {
      "epoch": 52.755102040816325,
      "grad_norm": 21.194101333618164,
      "learning_rate": 9.448979591836736e-06,
      "loss": 0.4677,
      "step": 10340
    },
    {
      "epoch": 52.80612244897959,
      "grad_norm": 3.076695442199707,
      "learning_rate": 9.438775510204082e-06,
      "loss": 0.4969,
      "step": 10350
    },
    {
      "epoch": 52.857142857142854,
      "grad_norm": 11.421467781066895,
      "learning_rate": 9.42857142857143e-06,
      "loss": 0.5037,
      "step": 10360
    },
    {
      "epoch": 52.90816326530612,
      "grad_norm": 19.292409896850586,
      "learning_rate": 9.418367346938775e-06,
      "loss": 0.6267,
      "step": 10370
    },
    {
      "epoch": 52.95918367346939,
      "grad_norm": 1.1868761777877808,
      "learning_rate": 9.408163265306123e-06,
      "loss": 0.3354,
      "step": 10380
    },
    {
      "epoch": 53.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.39493903517723083,
      "eval_runtime": 0.9218,
      "eval_samples_per_second": 300.508,
      "eval_steps_per_second": 37.97,
      "step": 10388
    },
    {
      "epoch": 53.01020408163265,
      "grad_norm": 1.8361715078353882,
      "learning_rate": 9.39795918367347e-06,
      "loss": 0.594,
      "step": 10390
    },
    {
      "epoch": 53.06122448979592,
      "grad_norm": 29.128379821777344,
      "learning_rate": 9.387755102040818e-06,
      "loss": 0.7499,
      "step": 10400
    },
    {
      "epoch": 53.11224489795919,
      "grad_norm": 7.948155403137207,
      "learning_rate": 9.377551020408164e-06,
      "loss": 0.4841,
      "step": 10410
    },
    {
      "epoch": 53.16326530612245,
      "grad_norm": 11.102055549621582,
      "learning_rate": 9.367346938775511e-06,
      "loss": 0.3338,
      "step": 10420
    },
    {
      "epoch": 53.214285714285715,
      "grad_norm": 9.082210540771484,
      "learning_rate": 9.357142857142859e-06,
      "loss": 0.3324,
      "step": 10430
    },
    {
      "epoch": 53.265306122448976,
      "grad_norm": 6.920600891113281,
      "learning_rate": 9.346938775510204e-06,
      "loss": 0.6161,
      "step": 10440
    },
    {
      "epoch": 53.316326530612244,
      "grad_norm": 10.854144096374512,
      "learning_rate": 9.336734693877552e-06,
      "loss": 0.3697,
      "step": 10450
    },
    {
      "epoch": 53.36734693877551,
      "grad_norm": 15.142805099487305,
      "learning_rate": 9.326530612244898e-06,
      "loss": 0.4141,
      "step": 10460
    },
    {
      "epoch": 53.41836734693877,
      "grad_norm": 3.642432451248169,
      "learning_rate": 9.316326530612245e-06,
      "loss": 0.3303,
      "step": 10470
    },
    {
      "epoch": 53.46938775510204,
      "grad_norm": 4.9224042892456055,
      "learning_rate": 9.306122448979593e-06,
      "loss": 0.4414,
      "step": 10480
    },
    {
      "epoch": 53.52040816326531,
      "grad_norm": 9.21459674835205,
      "learning_rate": 9.29591836734694e-06,
      "loss": 0.4114,
      "step": 10490
    },
    {
      "epoch": 53.57142857142857,
      "grad_norm": 20.462385177612305,
      "learning_rate": 9.285714285714288e-06,
      "loss": 0.3604,
      "step": 10500
    },
    {
      "epoch": 53.62244897959184,
      "grad_norm": 12.372320175170898,
      "learning_rate": 9.275510204081633e-06,
      "loss": 0.4096,
      "step": 10510
    },
    {
      "epoch": 53.673469387755105,
      "grad_norm": 3.924736499786377,
      "learning_rate": 9.26530612244898e-06,
      "loss": 0.3116,
      "step": 10520
    },
    {
      "epoch": 53.724489795918366,
      "grad_norm": 14.811944007873535,
      "learning_rate": 9.255102040816327e-06,
      "loss": 0.4507,
      "step": 10530
    },
    {
      "epoch": 53.775510204081634,
      "grad_norm": 4.339318752288818,
      "learning_rate": 9.244897959183674e-06,
      "loss": 0.3917,
      "step": 10540
    },
    {
      "epoch": 53.826530612244895,
      "grad_norm": 13.415872573852539,
      "learning_rate": 9.234693877551022e-06,
      "loss": 0.3602,
      "step": 10550
    },
    {
      "epoch": 53.87755102040816,
      "grad_norm": 1.9691498279571533,
      "learning_rate": 9.224489795918367e-06,
      "loss": 0.3303,
      "step": 10560
    },
    {
      "epoch": 53.92857142857143,
      "grad_norm": 7.5042243003845215,
      "learning_rate": 9.214285714285715e-06,
      "loss": 0.2415,
      "step": 10570
    },
    {
      "epoch": 53.97959183673469,
      "grad_norm": 19.31800079345703,
      "learning_rate": 9.204081632653062e-06,
      "loss": 0.7031,
      "step": 10580
    },
    {
      "epoch": 54.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.39101043343544006,
      "eval_runtime": 0.9042,
      "eval_samples_per_second": 306.345,
      "eval_steps_per_second": 38.708,
      "step": 10584
    },
    {
      "epoch": 54.03061224489796,
      "grad_norm": 25.39887809753418,
      "learning_rate": 9.19387755102041e-06,
      "loss": 0.4677,
      "step": 10590
    },
    {
      "epoch": 54.08163265306123,
      "grad_norm": 22.934444427490234,
      "learning_rate": 9.183673469387756e-06,
      "loss": 0.3459,
      "step": 10600
    },
    {
      "epoch": 54.13265306122449,
      "grad_norm": 9.820318222045898,
      "learning_rate": 9.173469387755103e-06,
      "loss": 0.4682,
      "step": 10610
    },
    {
      "epoch": 54.183673469387756,
      "grad_norm": 16.967735290527344,
      "learning_rate": 9.163265306122449e-06,
      "loss": 0.3157,
      "step": 10620
    },
    {
      "epoch": 54.234693877551024,
      "grad_norm": 2.220336675643921,
      "learning_rate": 9.153061224489796e-06,
      "loss": 0.2948,
      "step": 10630
    },
    {
      "epoch": 54.285714285714285,
      "grad_norm": 6.097151279449463,
      "learning_rate": 9.142857142857144e-06,
      "loss": 0.4454,
      "step": 10640
    },
    {
      "epoch": 54.33673469387755,
      "grad_norm": 16.538122177124023,
      "learning_rate": 9.13265306122449e-06,
      "loss": 0.6886,
      "step": 10650
    },
    {
      "epoch": 54.38775510204081,
      "grad_norm": 25.27203941345215,
      "learning_rate": 9.122448979591837e-06,
      "loss": 0.4839,
      "step": 10660
    },
    {
      "epoch": 54.43877551020408,
      "grad_norm": 3.3896493911743164,
      "learning_rate": 9.112244897959185e-06,
      "loss": 0.3532,
      "step": 10670
    },
    {
      "epoch": 54.48979591836735,
      "grad_norm": 12.106189727783203,
      "learning_rate": 9.102040816326532e-06,
      "loss": 0.3814,
      "step": 10680
    },
    {
      "epoch": 54.54081632653061,
      "grad_norm": 17.59712791442871,
      "learning_rate": 9.091836734693878e-06,
      "loss": 0.473,
      "step": 10690
    },
    {
      "epoch": 54.59183673469388,
      "grad_norm": 30.343738555908203,
      "learning_rate": 9.081632653061225e-06,
      "loss": 0.5879,
      "step": 10700
    },
    {
      "epoch": 54.642857142857146,
      "grad_norm": 13.109199523925781,
      "learning_rate": 9.071428571428573e-06,
      "loss": 0.6669,
      "step": 10710
    },
    {
      "epoch": 54.69387755102041,
      "grad_norm": 3.2115705013275146,
      "learning_rate": 9.061224489795919e-06,
      "loss": 0.5602,
      "step": 10720
    },
    {
      "epoch": 54.744897959183675,
      "grad_norm": 30.20536231994629,
      "learning_rate": 9.051020408163266e-06,
      "loss": 0.29,
      "step": 10730
    },
    {
      "epoch": 54.795918367346935,
      "grad_norm": 35.769134521484375,
      "learning_rate": 9.040816326530612e-06,
      "loss": 0.4596,
      "step": 10740
    },
    {
      "epoch": 54.8469387755102,
      "grad_norm": 2.920973062515259,
      "learning_rate": 9.03061224489796e-06,
      "loss": 0.3493,
      "step": 10750
    },
    {
      "epoch": 54.89795918367347,
      "grad_norm": 18.162378311157227,
      "learning_rate": 9.020408163265307e-06,
      "loss": 0.4335,
      "step": 10760
    },
    {
      "epoch": 54.94897959183673,
      "grad_norm": 12.9780912399292,
      "learning_rate": 9.010204081632654e-06,
      "loss": 0.2694,
      "step": 10770
    },
    {
      "epoch": 55.0,
      "grad_norm": 40.741310119628906,
      "learning_rate": 9e-06,
      "loss": 0.586,
      "step": 10780
    },
    {
      "epoch": 55.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4216238558292389,
      "eval_runtime": 0.915,
      "eval_samples_per_second": 302.728,
      "eval_steps_per_second": 38.251,
      "step": 10780
    },
    {
      "epoch": 55.05102040816327,
      "grad_norm": 28.544885635375977,
      "learning_rate": 8.989795918367348e-06,
      "loss": 0.401,
      "step": 10790
    },
    {
      "epoch": 55.10204081632653,
      "grad_norm": 11.495813369750977,
      "learning_rate": 8.979591836734695e-06,
      "loss": 0.5669,
      "step": 10800
    },
    {
      "epoch": 55.1530612244898,
      "grad_norm": 26.538227081298828,
      "learning_rate": 8.969387755102041e-06,
      "loss": 0.6947,
      "step": 10810
    },
    {
      "epoch": 55.204081632653065,
      "grad_norm": 34.740169525146484,
      "learning_rate": 8.959183673469388e-06,
      "loss": 0.7696,
      "step": 10820
    },
    {
      "epoch": 55.255102040816325,
      "grad_norm": 4.6652679443359375,
      "learning_rate": 8.948979591836734e-06,
      "loss": 0.4499,
      "step": 10830
    },
    {
      "epoch": 55.30612244897959,
      "grad_norm": 15.993870735168457,
      "learning_rate": 8.938775510204082e-06,
      "loss": 0.2711,
      "step": 10840
    },
    {
      "epoch": 55.357142857142854,
      "grad_norm": 4.897931098937988,
      "learning_rate": 8.92857142857143e-06,
      "loss": 0.3853,
      "step": 10850
    },
    {
      "epoch": 55.40816326530612,
      "grad_norm": 1.075300693511963,
      "learning_rate": 8.918367346938777e-06,
      "loss": 0.3681,
      "step": 10860
    },
    {
      "epoch": 55.45918367346939,
      "grad_norm": 23.208892822265625,
      "learning_rate": 8.908163265306124e-06,
      "loss": 0.4272,
      "step": 10870
    },
    {
      "epoch": 55.51020408163265,
      "grad_norm": 22.226972579956055,
      "learning_rate": 8.89795918367347e-06,
      "loss": 0.3876,
      "step": 10880
    },
    {
      "epoch": 55.56122448979592,
      "grad_norm": 20.210168838500977,
      "learning_rate": 8.887755102040817e-06,
      "loss": 0.5237,
      "step": 10890
    },
    {
      "epoch": 55.61224489795919,
      "grad_norm": 29.606306076049805,
      "learning_rate": 8.877551020408163e-06,
      "loss": 0.3367,
      "step": 10900
    },
    {
      "epoch": 55.66326530612245,
      "grad_norm": 3.9102792739868164,
      "learning_rate": 8.86734693877551e-06,
      "loss": 0.5238,
      "step": 10910
    },
    {
      "epoch": 55.714285714285715,
      "grad_norm": 29.49747657775879,
      "learning_rate": 8.857142857142858e-06,
      "loss": 0.7071,
      "step": 10920
    },
    {
      "epoch": 55.765306122448976,
      "grad_norm": 6.134141445159912,
      "learning_rate": 8.846938775510204e-06,
      "loss": 0.2832,
      "step": 10930
    },
    {
      "epoch": 55.816326530612244,
      "grad_norm": 4.318077087402344,
      "learning_rate": 8.836734693877552e-06,
      "loss": 0.2302,
      "step": 10940
    },
    {
      "epoch": 55.86734693877551,
      "grad_norm": 3.8412907123565674,
      "learning_rate": 8.826530612244899e-06,
      "loss": 0.6439,
      "step": 10950
    },
    {
      "epoch": 55.91836734693877,
      "grad_norm": 18.932077407836914,
      "learning_rate": 8.816326530612247e-06,
      "loss": 0.3468,
      "step": 10960
    },
    {
      "epoch": 55.96938775510204,
      "grad_norm": 23.660390853881836,
      "learning_rate": 8.806122448979592e-06,
      "loss": 0.3601,
      "step": 10970
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.45448747277259827,
      "eval_runtime": 0.9762,
      "eval_samples_per_second": 283.754,
      "eval_steps_per_second": 35.853,
      "step": 10976
    },
    {
      "epoch": 56.02040816326531,
      "grad_norm": 33.27379608154297,
      "learning_rate": 8.79591836734694e-06,
      "loss": 0.5844,
      "step": 10980
    },
    {
      "epoch": 56.07142857142857,
      "grad_norm": 5.075253486633301,
      "learning_rate": 8.785714285714286e-06,
      "loss": 0.2426,
      "step": 10990
    },
    {
      "epoch": 56.12244897959184,
      "grad_norm": 30.119510650634766,
      "learning_rate": 8.775510204081633e-06,
      "loss": 0.5974,
      "step": 11000
    },
    {
      "epoch": 56.173469387755105,
      "grad_norm": 42.2037467956543,
      "learning_rate": 8.76530612244898e-06,
      "loss": 0.5334,
      "step": 11010
    },
    {
      "epoch": 56.224489795918366,
      "grad_norm": 9.586195945739746,
      "learning_rate": 8.755102040816326e-06,
      "loss": 0.367,
      "step": 11020
    },
    {
      "epoch": 56.275510204081634,
      "grad_norm": 4.206007480621338,
      "learning_rate": 8.744897959183676e-06,
      "loss": 0.6012,
      "step": 11030
    },
    {
      "epoch": 56.326530612244895,
      "grad_norm": 1.6724379062652588,
      "learning_rate": 8.734693877551021e-06,
      "loss": 0.5192,
      "step": 11040
    },
    {
      "epoch": 56.37755102040816,
      "grad_norm": 39.632568359375,
      "learning_rate": 8.724489795918369e-06,
      "loss": 0.5159,
      "step": 11050
    },
    {
      "epoch": 56.42857142857143,
      "grad_norm": 9.168890953063965,
      "learning_rate": 8.714285714285715e-06,
      "loss": 0.3129,
      "step": 11060
    },
    {
      "epoch": 56.47959183673469,
      "grad_norm": 21.687847137451172,
      "learning_rate": 8.704081632653062e-06,
      "loss": 0.5601,
      "step": 11070
    },
    {
      "epoch": 56.53061224489796,
      "grad_norm": 1.7012873888015747,
      "learning_rate": 8.69387755102041e-06,
      "loss": 0.648,
      "step": 11080
    },
    {
      "epoch": 56.58163265306123,
      "grad_norm": 18.68694496154785,
      "learning_rate": 8.683673469387755e-06,
      "loss": 0.282,
      "step": 11090
    },
    {
      "epoch": 56.63265306122449,
      "grad_norm": 33.442832946777344,
      "learning_rate": 8.673469387755103e-06,
      "loss": 0.4234,
      "step": 11100
    },
    {
      "epoch": 56.683673469387756,
      "grad_norm": 8.391700744628906,
      "learning_rate": 8.663265306122449e-06,
      "loss": 0.625,
      "step": 11110
    },
    {
      "epoch": 56.734693877551024,
      "grad_norm": 43.84245681762695,
      "learning_rate": 8.653061224489798e-06,
      "loss": 0.2911,
      "step": 11120
    },
    {
      "epoch": 56.785714285714285,
      "grad_norm": 13.276944160461426,
      "learning_rate": 8.642857142857144e-06,
      "loss": 0.7208,
      "step": 11130
    },
    {
      "epoch": 56.83673469387755,
      "grad_norm": 13.23916244506836,
      "learning_rate": 8.632653061224491e-06,
      "loss": 0.4071,
      "step": 11140
    },
    {
      "epoch": 56.88775510204081,
      "grad_norm": 5.3249711990356445,
      "learning_rate": 8.622448979591837e-06,
      "loss": 0.4309,
      "step": 11150
    },
    {
      "epoch": 56.93877551020408,
      "grad_norm": 26.168912887573242,
      "learning_rate": 8.612244897959184e-06,
      "loss": 0.4808,
      "step": 11160
    },
    {
      "epoch": 56.98979591836735,
      "grad_norm": 1.1187759637832642,
      "learning_rate": 8.602040816326532e-06,
      "loss": 0.362,
      "step": 11170
    },
    {
      "epoch": 57.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3760127127170563,
      "eval_runtime": 0.9827,
      "eval_samples_per_second": 281.885,
      "eval_steps_per_second": 35.617,
      "step": 11172
    },
    {
      "epoch": 57.04081632653061,
      "grad_norm": 33.2888069152832,
      "learning_rate": 8.591836734693878e-06,
      "loss": 0.4573,
      "step": 11180
    },
    {
      "epoch": 57.09183673469388,
      "grad_norm": 19.854984283447266,
      "learning_rate": 8.581632653061225e-06,
      "loss": 0.4054,
      "step": 11190
    },
    {
      "epoch": 57.142857142857146,
      "grad_norm": 51.56621170043945,
      "learning_rate": 8.571428571428571e-06,
      "loss": 0.4188,
      "step": 11200
    },
    {
      "epoch": 57.19387755102041,
      "grad_norm": 16.06450653076172,
      "learning_rate": 8.56122448979592e-06,
      "loss": 0.5255,
      "step": 11210
    },
    {
      "epoch": 57.244897959183675,
      "grad_norm": 19.5677433013916,
      "learning_rate": 8.551020408163266e-06,
      "loss": 0.7166,
      "step": 11220
    },
    {
      "epoch": 57.295918367346935,
      "grad_norm": 22.139720916748047,
      "learning_rate": 8.540816326530613e-06,
      "loss": 0.7273,
      "step": 11230
    },
    {
      "epoch": 57.3469387755102,
      "grad_norm": 7.517763137817383,
      "learning_rate": 8.530612244897961e-06,
      "loss": 0.1942,
      "step": 11240
    },
    {
      "epoch": 57.39795918367347,
      "grad_norm": 6.2518229484558105,
      "learning_rate": 8.520408163265307e-06,
      "loss": 0.3223,
      "step": 11250
    },
    {
      "epoch": 57.44897959183673,
      "grad_norm": 13.204375267028809,
      "learning_rate": 8.510204081632654e-06,
      "loss": 0.3708,
      "step": 11260
    },
    {
      "epoch": 57.5,
      "grad_norm": 10.609617233276367,
      "learning_rate": 8.5e-06,
      "loss": 0.2795,
      "step": 11270
    },
    {
      "epoch": 57.55102040816327,
      "grad_norm": 19.558298110961914,
      "learning_rate": 8.489795918367347e-06,
      "loss": 0.2788,
      "step": 11280
    },
    {
      "epoch": 57.60204081632653,
      "grad_norm": 19.46819305419922,
      "learning_rate": 8.479591836734695e-06,
      "loss": 0.3884,
      "step": 11290
    },
    {
      "epoch": 57.6530612244898,
      "grad_norm": 9.780394554138184,
      "learning_rate": 8.469387755102042e-06,
      "loss": 0.437,
      "step": 11300
    },
    {
      "epoch": 57.704081632653065,
      "grad_norm": 23.124317169189453,
      "learning_rate": 8.459183673469388e-06,
      "loss": 0.633,
      "step": 11310
    },
    {
      "epoch": 57.755102040816325,
      "grad_norm": 2.891223669052124,
      "learning_rate": 8.448979591836736e-06,
      "loss": 0.2202,
      "step": 11320
    },
    {
      "epoch": 57.80612244897959,
      "grad_norm": 56.571678161621094,
      "learning_rate": 8.438775510204083e-06,
      "loss": 0.523,
      "step": 11330
    },
    {
      "epoch": 57.857142857142854,
      "grad_norm": 21.737211227416992,
      "learning_rate": 8.428571428571429e-06,
      "loss": 0.4379,
      "step": 11340
    },
    {
      "epoch": 57.90816326530612,
      "grad_norm": 30.469579696655273,
      "learning_rate": 8.418367346938776e-06,
      "loss": 0.3869,
      "step": 11350
    },
    {
      "epoch": 57.95918367346939,
      "grad_norm": 1.7688140869140625,
      "learning_rate": 8.408163265306122e-06,
      "loss": 0.6132,
      "step": 11360
    },
    {
      "epoch": 58.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.42582541704177856,
      "eval_runtime": 0.9378,
      "eval_samples_per_second": 295.364,
      "eval_steps_per_second": 37.32,
      "step": 11368
    },
    {
      "epoch": 58.01020408163265,
      "grad_norm": 17.9947566986084,
      "learning_rate": 8.39795918367347e-06,
      "loss": 0.6757,
      "step": 11370
    },
    {
      "epoch": 58.06122448979592,
      "grad_norm": 7.358990669250488,
      "learning_rate": 8.387755102040817e-06,
      "loss": 0.4046,
      "step": 11380
    },
    {
      "epoch": 58.11224489795919,
      "grad_norm": 12.979079246520996,
      "learning_rate": 8.377551020408165e-06,
      "loss": 0.4863,
      "step": 11390
    },
    {
      "epoch": 58.16326530612245,
      "grad_norm": 10.11755084991455,
      "learning_rate": 8.36734693877551e-06,
      "loss": 0.3853,
      "step": 11400
    },
    {
      "epoch": 58.214285714285715,
      "grad_norm": 14.439085960388184,
      "learning_rate": 8.357142857142858e-06,
      "loss": 0.3158,
      "step": 11410
    },
    {
      "epoch": 58.265306122448976,
      "grad_norm": 14.536481857299805,
      "learning_rate": 8.346938775510205e-06,
      "loss": 0.5995,
      "step": 11420
    },
    {
      "epoch": 58.316326530612244,
      "grad_norm": 11.088846206665039,
      "learning_rate": 8.336734693877551e-06,
      "loss": 0.5365,
      "step": 11430
    },
    {
      "epoch": 58.36734693877551,
      "grad_norm": 12.533463478088379,
      "learning_rate": 8.326530612244899e-06,
      "loss": 0.1935,
      "step": 11440
    },
    {
      "epoch": 58.41836734693877,
      "grad_norm": 3.4408249855041504,
      "learning_rate": 8.316326530612246e-06,
      "loss": 0.8401,
      "step": 11450
    },
    {
      "epoch": 58.46938775510204,
      "grad_norm": 15.622066497802734,
      "learning_rate": 8.306122448979592e-06,
      "loss": 0.4266,
      "step": 11460
    },
    {
      "epoch": 58.52040816326531,
      "grad_norm": 18.85696029663086,
      "learning_rate": 8.29591836734694e-06,
      "loss": 0.7197,
      "step": 11470
    },
    {
      "epoch": 58.57142857142857,
      "grad_norm": 18.614065170288086,
      "learning_rate": 8.285714285714287e-06,
      "loss": 0.5277,
      "step": 11480
    },
    {
      "epoch": 58.62244897959184,
      "grad_norm": 18.479345321655273,
      "learning_rate": 8.275510204081634e-06,
      "loss": 0.5967,
      "step": 11490
    },
    {
      "epoch": 58.673469387755105,
      "grad_norm": 1.2239654064178467,
      "learning_rate": 8.26530612244898e-06,
      "loss": 0.2205,
      "step": 11500
    },
    {
      "epoch": 58.724489795918366,
      "grad_norm": 2.2218174934387207,
      "learning_rate": 8.255102040816328e-06,
      "loss": 0.295,
      "step": 11510
    },
    {
      "epoch": 58.775510204081634,
      "grad_norm": 1.3693525791168213,
      "learning_rate": 8.244897959183674e-06,
      "loss": 0.5302,
      "step": 11520
    },
    {
      "epoch": 58.826530612244895,
      "grad_norm": 10.013443946838379,
      "learning_rate": 8.234693877551021e-06,
      "loss": 0.6818,
      "step": 11530
    },
    {
      "epoch": 58.87755102040816,
      "grad_norm": 6.388862609863281,
      "learning_rate": 8.224489795918369e-06,
      "loss": 0.2991,
      "step": 11540
    },
    {
      "epoch": 58.92857142857143,
      "grad_norm": 19.64919090270996,
      "learning_rate": 8.214285714285714e-06,
      "loss": 0.3878,
      "step": 11550
    },
    {
      "epoch": 58.97959183673469,
      "grad_norm": 20.29793930053711,
      "learning_rate": 8.204081632653062e-06,
      "loss": 0.5605,
      "step": 11560
    },
    {
      "epoch": 59.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.39720389246940613,
      "eval_runtime": 0.9131,
      "eval_samples_per_second": 303.352,
      "eval_steps_per_second": 38.33,
      "step": 11564
    },
    {
      "epoch": 59.03061224489796,
      "grad_norm": 5.14730167388916,
      "learning_rate": 8.19387755102041e-06,
      "loss": 0.268,
      "step": 11570
    },
    {
      "epoch": 59.08163265306123,
      "grad_norm": 2.224532127380371,
      "learning_rate": 8.183673469387757e-06,
      "loss": 0.3255,
      "step": 11580
    },
    {
      "epoch": 59.13265306122449,
      "grad_norm": 20.514404296875,
      "learning_rate": 8.173469387755103e-06,
      "loss": 0.3602,
      "step": 11590
    },
    {
      "epoch": 59.183673469387756,
      "grad_norm": 4.635699272155762,
      "learning_rate": 8.16326530612245e-06,
      "loss": 0.3854,
      "step": 11600
    },
    {
      "epoch": 59.234693877551024,
      "grad_norm": 26.900461196899414,
      "learning_rate": 8.153061224489796e-06,
      "loss": 0.3732,
      "step": 11610
    },
    {
      "epoch": 59.285714285714285,
      "grad_norm": 50.38056945800781,
      "learning_rate": 8.142857142857143e-06,
      "loss": 0.7561,
      "step": 11620
    },
    {
      "epoch": 59.33673469387755,
      "grad_norm": 7.740988731384277,
      "learning_rate": 8.13265306122449e-06,
      "loss": 0.3416,
      "step": 11630
    },
    {
      "epoch": 59.38775510204081,
      "grad_norm": 10.064671516418457,
      "learning_rate": 8.122448979591837e-06,
      "loss": 0.3935,
      "step": 11640
    },
    {
      "epoch": 59.43877551020408,
      "grad_norm": 30.936662673950195,
      "learning_rate": 8.112244897959184e-06,
      "loss": 0.3446,
      "step": 11650
    },
    {
      "epoch": 59.48979591836735,
      "grad_norm": 16.562604904174805,
      "learning_rate": 8.102040816326532e-06,
      "loss": 0.2766,
      "step": 11660
    },
    {
      "epoch": 59.54081632653061,
      "grad_norm": 9.024683952331543,
      "learning_rate": 8.091836734693879e-06,
      "loss": 0.3552,
      "step": 11670
    },
    {
      "epoch": 59.59183673469388,
      "grad_norm": 2.820068120956421,
      "learning_rate": 8.081632653061225e-06,
      "loss": 0.2778,
      "step": 11680
    },
    {
      "epoch": 59.642857142857146,
      "grad_norm": 24.18437385559082,
      "learning_rate": 8.071428571428572e-06,
      "loss": 0.527,
      "step": 11690
    },
    {
      "epoch": 59.69387755102041,
      "grad_norm": 3.623166799545288,
      "learning_rate": 8.06122448979592e-06,
      "loss": 0.6019,
      "step": 11700
    },
    {
      "epoch": 59.744897959183675,
      "grad_norm": 2.609820604324341,
      "learning_rate": 8.051020408163266e-06,
      "loss": 0.3275,
      "step": 11710
    },
    {
      "epoch": 59.795918367346935,
      "grad_norm": 25.415992736816406,
      "learning_rate": 8.040816326530613e-06,
      "loss": 0.3507,
      "step": 11720
    },
    {
      "epoch": 59.8469387755102,
      "grad_norm": 2.549072265625,
      "learning_rate": 8.030612244897959e-06,
      "loss": 0.7139,
      "step": 11730
    },
    {
      "epoch": 59.89795918367347,
      "grad_norm": 2.922114849090576,
      "learning_rate": 8.020408163265306e-06,
      "loss": 0.3882,
      "step": 11740
    },
    {
      "epoch": 59.94897959183673,
      "grad_norm": 18.055191040039062,
      "learning_rate": 8.010204081632654e-06,
      "loss": 0.6672,
      "step": 11750
    },
    {
      "epoch": 60.0,
      "grad_norm": 22.129451751708984,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.5071,
      "step": 11760
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.38732603192329407,
      "eval_runtime": 0.9313,
      "eval_samples_per_second": 297.422,
      "eval_steps_per_second": 37.58,
      "step": 11760
    },
    {
      "epoch": 60.05102040816327,
      "grad_norm": 8.42258358001709,
      "learning_rate": 7.989795918367347e-06,
      "loss": 0.2318,
      "step": 11770
    },
    {
      "epoch": 60.10204081632653,
      "grad_norm": 5.760580062866211,
      "learning_rate": 7.979591836734695e-06,
      "loss": 0.402,
      "step": 11780
    },
    {
      "epoch": 60.1530612244898,
      "grad_norm": 15.33799934387207,
      "learning_rate": 7.969387755102042e-06,
      "loss": 0.5852,
      "step": 11790
    },
    {
      "epoch": 60.204081632653065,
      "grad_norm": 18.68668556213379,
      "learning_rate": 7.959183673469388e-06,
      "loss": 0.295,
      "step": 11800
    },
    {
      "epoch": 60.255102040816325,
      "grad_norm": 46.335548400878906,
      "learning_rate": 7.948979591836735e-06,
      "loss": 0.6081,
      "step": 11810
    },
    {
      "epoch": 60.30612244897959,
      "grad_norm": 25.123493194580078,
      "learning_rate": 7.938775510204081e-06,
      "loss": 0.4594,
      "step": 11820
    },
    {
      "epoch": 60.357142857142854,
      "grad_norm": 30.859508514404297,
      "learning_rate": 7.928571428571429e-06,
      "loss": 0.6319,
      "step": 11830
    },
    {
      "epoch": 60.40816326530612,
      "grad_norm": 9.866668701171875,
      "learning_rate": 7.918367346938776e-06,
      "loss": 0.4679,
      "step": 11840
    },
    {
      "epoch": 60.45918367346939,
      "grad_norm": 1.408829927444458,
      "learning_rate": 7.908163265306124e-06,
      "loss": 0.4203,
      "step": 11850
    },
    {
      "epoch": 60.51020408163265,
      "grad_norm": 6.734253406524658,
      "learning_rate": 7.897959183673471e-06,
      "loss": 0.4313,
      "step": 11860
    },
    {
      "epoch": 60.56122448979592,
      "grad_norm": 0.8806014657020569,
      "learning_rate": 7.887755102040817e-06,
      "loss": 0.5021,
      "step": 11870
    },
    {
      "epoch": 60.61224489795919,
      "grad_norm": 8.543678283691406,
      "learning_rate": 7.877551020408164e-06,
      "loss": 0.3146,
      "step": 11880
    },
    {
      "epoch": 60.66326530612245,
      "grad_norm": 26.592641830444336,
      "learning_rate": 7.86734693877551e-06,
      "loss": 0.2627,
      "step": 11890
    },
    {
      "epoch": 60.714285714285715,
      "grad_norm": 8.198649406433105,
      "learning_rate": 7.857142857142858e-06,
      "loss": 0.3751,
      "step": 11900
    },
    {
      "epoch": 60.765306122448976,
      "grad_norm": 34.529815673828125,
      "learning_rate": 7.846938775510205e-06,
      "loss": 0.3144,
      "step": 11910
    },
    {
      "epoch": 60.816326530612244,
      "grad_norm": 14.286245346069336,
      "learning_rate": 7.836734693877551e-06,
      "loss": 0.3473,
      "step": 11920
    },
    {
      "epoch": 60.86734693877551,
      "grad_norm": 11.517146110534668,
      "learning_rate": 7.826530612244898e-06,
      "loss": 0.6074,
      "step": 11930
    },
    {
      "epoch": 60.91836734693877,
      "grad_norm": 39.80740737915039,
      "learning_rate": 7.816326530612246e-06,
      "loss": 0.577,
      "step": 11940
    },
    {
      "epoch": 60.96938775510204,
      "grad_norm": 18.003307342529297,
      "learning_rate": 7.806122448979593e-06,
      "loss": 0.458,
      "step": 11950
    },
    {
      "epoch": 61.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4098130762577057,
      "eval_runtime": 0.9266,
      "eval_samples_per_second": 298.94,
      "eval_steps_per_second": 37.772,
      "step": 11956
    },
    {
      "epoch": 61.02040816326531,
      "grad_norm": 15.443989753723145,
      "learning_rate": 7.79591836734694e-06,
      "loss": 0.2677,
      "step": 11960
    },
    {
      "epoch": 61.07142857142857,
      "grad_norm": 2.1003103256225586,
      "learning_rate": 7.785714285714287e-06,
      "loss": 0.263,
      "step": 11970
    },
    {
      "epoch": 61.12244897959184,
      "grad_norm": 2.49524188041687,
      "learning_rate": 7.775510204081632e-06,
      "loss": 0.4112,
      "step": 11980
    },
    {
      "epoch": 61.173469387755105,
      "grad_norm": 41.94017028808594,
      "learning_rate": 7.76530612244898e-06,
      "loss": 0.5024,
      "step": 11990
    },
    {
      "epoch": 61.224489795918366,
      "grad_norm": 3.993579387664795,
      "learning_rate": 7.755102040816327e-06,
      "loss": 0.5205,
      "step": 12000
    },
    {
      "epoch": 61.275510204081634,
      "grad_norm": 14.233716011047363,
      "learning_rate": 7.744897959183673e-06,
      "loss": 0.484,
      "step": 12010
    },
    {
      "epoch": 61.326530612244895,
      "grad_norm": 10.043803215026855,
      "learning_rate": 7.73469387755102e-06,
      "loss": 0.2406,
      "step": 12020
    },
    {
      "epoch": 61.37755102040816,
      "grad_norm": 4.045070171356201,
      "learning_rate": 7.724489795918368e-06,
      "loss": 0.3364,
      "step": 12030
    },
    {
      "epoch": 61.42857142857143,
      "grad_norm": 8.947868347167969,
      "learning_rate": 7.714285714285716e-06,
      "loss": 0.553,
      "step": 12040
    },
    {
      "epoch": 61.47959183673469,
      "grad_norm": 1.1673444509506226,
      "learning_rate": 7.704081632653061e-06,
      "loss": 0.2891,
      "step": 12050
    },
    {
      "epoch": 61.53061224489796,
      "grad_norm": 15.785124778747559,
      "learning_rate": 7.693877551020409e-06,
      "loss": 0.2572,
      "step": 12060
    },
    {
      "epoch": 61.58163265306123,
      "grad_norm": 10.131063461303711,
      "learning_rate": 7.683673469387756e-06,
      "loss": 0.4308,
      "step": 12070
    },
    {
      "epoch": 61.63265306122449,
      "grad_norm": 28.525943756103516,
      "learning_rate": 7.673469387755102e-06,
      "loss": 0.5489,
      "step": 12080
    },
    {
      "epoch": 61.683673469387756,
      "grad_norm": 34.87237548828125,
      "learning_rate": 7.66326530612245e-06,
      "loss": 0.6708,
      "step": 12090
    },
    {
      "epoch": 61.734693877551024,
      "grad_norm": 3.8234333992004395,
      "learning_rate": 7.653061224489796e-06,
      "loss": 0.3514,
      "step": 12100
    },
    {
      "epoch": 61.785714285714285,
      "grad_norm": 5.460179328918457,
      "learning_rate": 7.642857142857143e-06,
      "loss": 0.5767,
      "step": 12110
    },
    {
      "epoch": 61.83673469387755,
      "grad_norm": 5.709933280944824,
      "learning_rate": 7.63265306122449e-06,
      "loss": 0.3994,
      "step": 12120
    },
    {
      "epoch": 61.88775510204081,
      "grad_norm": 4.034653663635254,
      "learning_rate": 7.622448979591838e-06,
      "loss": 0.7343,
      "step": 12130
    },
    {
      "epoch": 61.93877551020408,
      "grad_norm": 29.166467666625977,
      "learning_rate": 7.612244897959185e-06,
      "loss": 0.3296,
      "step": 12140
    },
    {
      "epoch": 61.98979591836735,
      "grad_norm": 27.9022159576416,
      "learning_rate": 7.602040816326531e-06,
      "loss": 0.4401,
      "step": 12150
    },
    {
      "epoch": 62.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3859264850616455,
      "eval_runtime": 0.9197,
      "eval_samples_per_second": 301.171,
      "eval_steps_per_second": 38.054,
      "step": 12152
    },
    {
      "epoch": 62.04081632653061,
      "grad_norm": 13.36914348602295,
      "learning_rate": 7.591836734693878e-06,
      "loss": 0.3099,
      "step": 12160
    },
    {
      "epoch": 62.09183673469388,
      "grad_norm": 1.341185450553894,
      "learning_rate": 7.581632653061225e-06,
      "loss": 0.2873,
      "step": 12170
    },
    {
      "epoch": 62.142857142857146,
      "grad_norm": 17.029726028442383,
      "learning_rate": 7.571428571428572e-06,
      "loss": 0.2529,
      "step": 12180
    },
    {
      "epoch": 62.19387755102041,
      "grad_norm": 19.962177276611328,
      "learning_rate": 7.561224489795919e-06,
      "loss": 0.5826,
      "step": 12190
    },
    {
      "epoch": 62.244897959183675,
      "grad_norm": 30.833736419677734,
      "learning_rate": 7.551020408163265e-06,
      "loss": 0.5175,
      "step": 12200
    },
    {
      "epoch": 62.295918367346935,
      "grad_norm": 15.270604133605957,
      "learning_rate": 7.540816326530614e-06,
      "loss": 0.3759,
      "step": 12210
    },
    {
      "epoch": 62.3469387755102,
      "grad_norm": 20.392480850219727,
      "learning_rate": 7.53061224489796e-06,
      "loss": 0.6396,
      "step": 12220
    },
    {
      "epoch": 62.39795918367347,
      "grad_norm": 1.4265961647033691,
      "learning_rate": 7.520408163265307e-06,
      "loss": 0.474,
      "step": 12230
    },
    {
      "epoch": 62.44897959183673,
      "grad_norm": 3.7736427783966064,
      "learning_rate": 7.5102040816326536e-06,
      "loss": 0.3863,
      "step": 12240
    },
    {
      "epoch": 62.5,
      "grad_norm": 2.8620593547821045,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.4425,
      "step": 12250
    },
    {
      "epoch": 62.55102040816327,
      "grad_norm": 1.8127299547195435,
      "learning_rate": 7.489795918367348e-06,
      "loss": 0.2368,
      "step": 12260
    },
    {
      "epoch": 62.60204081632653,
      "grad_norm": 15.869767189025879,
      "learning_rate": 7.479591836734694e-06,
      "loss": 0.407,
      "step": 12270
    },
    {
      "epoch": 62.6530612244898,
      "grad_norm": 23.684011459350586,
      "learning_rate": 7.469387755102041e-06,
      "loss": 0.5423,
      "step": 12280
    },
    {
      "epoch": 62.704081632653065,
      "grad_norm": 3.433673858642578,
      "learning_rate": 7.459183673469388e-06,
      "loss": 0.2844,
      "step": 12290
    },
    {
      "epoch": 62.755102040816325,
      "grad_norm": 3.2639057636260986,
      "learning_rate": 7.448979591836736e-06,
      "loss": 0.2024,
      "step": 12300
    },
    {
      "epoch": 62.80612244897959,
      "grad_norm": 7.275591850280762,
      "learning_rate": 7.4387755102040826e-06,
      "loss": 0.503,
      "step": 12310
    },
    {
      "epoch": 62.857142857142854,
      "grad_norm": 2.1849124431610107,
      "learning_rate": 7.428571428571429e-06,
      "loss": 0.3471,
      "step": 12320
    },
    {
      "epoch": 62.90816326530612,
      "grad_norm": 11.518275260925293,
      "learning_rate": 7.418367346938776e-06,
      "loss": 0.422,
      "step": 12330
    },
    {
      "epoch": 62.95918367346939,
      "grad_norm": 1.7636146545410156,
      "learning_rate": 7.408163265306123e-06,
      "loss": 0.5439,
      "step": 12340
    },
    {
      "epoch": 63.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.4142112731933594,
      "eval_runtime": 0.9141,
      "eval_samples_per_second": 303.014,
      "eval_steps_per_second": 38.287,
      "step": 12348
    },
    {
      "epoch": 63.01020408163265,
      "grad_norm": 19.491777420043945,
      "learning_rate": 7.39795918367347e-06,
      "loss": 0.472,
      "step": 12350
    },
    {
      "epoch": 63.06122448979592,
      "grad_norm": 5.957282543182373,
      "learning_rate": 7.387755102040817e-06,
      "loss": 0.2654,
      "step": 12360
    },
    {
      "epoch": 63.11224489795919,
      "grad_norm": 12.232156753540039,
      "learning_rate": 7.377551020408163e-06,
      "loss": 0.4992,
      "step": 12370
    },
    {
      "epoch": 63.16326530612245,
      "grad_norm": 9.45632266998291,
      "learning_rate": 7.367346938775511e-06,
      "loss": 0.3274,
      "step": 12380
    },
    {
      "epoch": 63.214285714285715,
      "grad_norm": 23.206445693969727,
      "learning_rate": 7.357142857142858e-06,
      "loss": 0.5036,
      "step": 12390
    },
    {
      "epoch": 63.265306122448976,
      "grad_norm": 14.7930326461792,
      "learning_rate": 7.346938775510205e-06,
      "loss": 0.2287,
      "step": 12400
    },
    {
      "epoch": 63.316326530612244,
      "grad_norm": 16.846181869506836,
      "learning_rate": 7.3367346938775515e-06,
      "loss": 0.3271,
      "step": 12410
    },
    {
      "epoch": 63.36734693877551,
      "grad_norm": 37.3301887512207,
      "learning_rate": 7.326530612244899e-06,
      "loss": 0.6876,
      "step": 12420
    },
    {
      "epoch": 63.41836734693877,
      "grad_norm": 7.613165855407715,
      "learning_rate": 7.316326530612246e-06,
      "loss": 0.3025,
      "step": 12430
    },
    {
      "epoch": 63.46938775510204,
      "grad_norm": 19.24701690673828,
      "learning_rate": 7.306122448979592e-06,
      "loss": 0.5283,
      "step": 12440
    },
    {
      "epoch": 63.52040816326531,
      "grad_norm": 6.001375675201416,
      "learning_rate": 7.295918367346939e-06,
      "loss": 0.4903,
      "step": 12450
    },
    {
      "epoch": 63.57142857142857,
      "grad_norm": 7.366612434387207,
      "learning_rate": 7.285714285714286e-06,
      "loss": 0.4522,
      "step": 12460
    },
    {
      "epoch": 63.62244897959184,
      "grad_norm": 2.0327224731445312,
      "learning_rate": 7.275510204081633e-06,
      "loss": 0.4625,
      "step": 12470
    },
    {
      "epoch": 63.673469387755105,
      "grad_norm": 1.5448942184448242,
      "learning_rate": 7.2653061224489805e-06,
      "loss": 0.326,
      "step": 12480
    },
    {
      "epoch": 63.724489795918366,
      "grad_norm": 22.82720947265625,
      "learning_rate": 7.255102040816327e-06,
      "loss": 0.4847,
      "step": 12490
    },
    {
      "epoch": 63.775510204081634,
      "grad_norm": 4.1679487228393555,
      "learning_rate": 7.244897959183675e-06,
      "loss": 0.5024,
      "step": 12500
    },
    {
      "epoch": 63.826530612244895,
      "grad_norm": 3.0290064811706543,
      "learning_rate": 7.234693877551021e-06,
      "loss": 0.2596,
      "step": 12510
    },
    {
      "epoch": 63.87755102040816,
      "grad_norm": 5.844661235809326,
      "learning_rate": 7.224489795918368e-06,
      "loss": 0.5051,
      "step": 12520
    },
    {
      "epoch": 63.92857142857143,
      "grad_norm": 18.45241928100586,
      "learning_rate": 7.2142857142857145e-06,
      "loss": 0.4384,
      "step": 12530
    },
    {
      "epoch": 63.97959183673469,
      "grad_norm": 4.700395107269287,
      "learning_rate": 7.204081632653061e-06,
      "loss": 0.6099,
      "step": 12540
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.396985799074173,
      "eval_runtime": 0.9103,
      "eval_samples_per_second": 304.29,
      "eval_steps_per_second": 38.448,
      "step": 12544
    },
    {
      "epoch": 64.03061224489795,
      "grad_norm": 4.025498867034912,
      "learning_rate": 7.193877551020409e-06,
      "loss": 0.2545,
      "step": 12550
    },
    {
      "epoch": 64.08163265306122,
      "grad_norm": 27.04808235168457,
      "learning_rate": 7.183673469387755e-06,
      "loss": 0.34,
      "step": 12560
    },
    {
      "epoch": 64.13265306122449,
      "grad_norm": 8.93595027923584,
      "learning_rate": 7.173469387755103e-06,
      "loss": 0.4932,
      "step": 12570
    },
    {
      "epoch": 64.18367346938776,
      "grad_norm": 16.93226432800293,
      "learning_rate": 7.16326530612245e-06,
      "loss": 0.445,
      "step": 12580
    },
    {
      "epoch": 64.23469387755102,
      "grad_norm": 2.383619785308838,
      "learning_rate": 7.153061224489797e-06,
      "loss": 0.3294,
      "step": 12590
    },
    {
      "epoch": 64.28571428571429,
      "grad_norm": 27.69258689880371,
      "learning_rate": 7.1428571428571436e-06,
      "loss": 0.3096,
      "step": 12600
    },
    {
      "epoch": 64.33673469387755,
      "grad_norm": 12.22577953338623,
      "learning_rate": 7.13265306122449e-06,
      "loss": 0.4474,
      "step": 12610
    },
    {
      "epoch": 64.38775510204081,
      "grad_norm": 19.30575942993164,
      "learning_rate": 7.122448979591837e-06,
      "loss": 0.3161,
      "step": 12620
    },
    {
      "epoch": 64.43877551020408,
      "grad_norm": 2.7305848598480225,
      "learning_rate": 7.112244897959184e-06,
      "loss": 0.3181,
      "step": 12630
    },
    {
      "epoch": 64.48979591836735,
      "grad_norm": 14.057703018188477,
      "learning_rate": 7.102040816326531e-06,
      "loss": 0.4707,
      "step": 12640
    },
    {
      "epoch": 64.54081632653062,
      "grad_norm": 1.3778642416000366,
      "learning_rate": 7.091836734693878e-06,
      "loss": 0.5179,
      "step": 12650
    },
    {
      "epoch": 64.59183673469387,
      "grad_norm": 51.5407600402832,
      "learning_rate": 7.081632653061226e-06,
      "loss": 0.5549,
      "step": 12660
    },
    {
      "epoch": 64.64285714285714,
      "grad_norm": 11.222049713134766,
      "learning_rate": 7.0714285714285726e-06,
      "loss": 0.4354,
      "step": 12670
    },
    {
      "epoch": 64.6938775510204,
      "grad_norm": 18.45073890686035,
      "learning_rate": 7.061224489795919e-06,
      "loss": 0.6583,
      "step": 12680
    },
    {
      "epoch": 64.74489795918367,
      "grad_norm": 37.57154846191406,
      "learning_rate": 7.051020408163266e-06,
      "loss": 0.7004,
      "step": 12690
    },
    {
      "epoch": 64.79591836734694,
      "grad_norm": 15.542320251464844,
      "learning_rate": 7.0408163265306125e-06,
      "loss": 0.3624,
      "step": 12700
    },
    {
      "epoch": 64.84693877551021,
      "grad_norm": 15.71733570098877,
      "learning_rate": 7.03061224489796e-06,
      "loss": 0.4092,
      "step": 12710
    },
    {
      "epoch": 64.89795918367346,
      "grad_norm": 3.874824047088623,
      "learning_rate": 7.020408163265307e-06,
      "loss": 0.4858,
      "step": 12720
    },
    {
      "epoch": 64.94897959183673,
      "grad_norm": 12.208005905151367,
      "learning_rate": 7.010204081632653e-06,
      "loss": 0.2479,
      "step": 12730
    },
    {
      "epoch": 65.0,
      "grad_norm": 29.842241287231445,
      "learning_rate": 7e-06,
      "loss": 0.2749,
      "step": 12740
    },
    {
      "epoch": 65.0,
      "eval_accuracy": 0.8808664259927798,
      "eval_loss": 0.3655768632888794,
      "eval_runtime": 0.9069,
      "eval_samples_per_second": 305.438,
      "eval_steps_per_second": 38.593,
      "step": 12740
    },
    {
      "epoch": 65.05102040816327,
      "grad_norm": 2.2178704738616943,
      "learning_rate": 6.989795918367348e-06,
      "loss": 0.2224,
      "step": 12750
    },
    {
      "epoch": 65.10204081632654,
      "grad_norm": 1.493355631828308,
      "learning_rate": 6.979591836734695e-06,
      "loss": 0.3693,
      "step": 12760
    },
    {
      "epoch": 65.15306122448979,
      "grad_norm": 3.9687933921813965,
      "learning_rate": 6.9693877551020415e-06,
      "loss": 0.2396,
      "step": 12770
    },
    {
      "epoch": 65.20408163265306,
      "grad_norm": 0.9195407629013062,
      "learning_rate": 6.959183673469388e-06,
      "loss": 0.5815,
      "step": 12780
    },
    {
      "epoch": 65.25510204081633,
      "grad_norm": 30.219438552856445,
      "learning_rate": 6.948979591836736e-06,
      "loss": 0.4583,
      "step": 12790
    },
    {
      "epoch": 65.3061224489796,
      "grad_norm": 16.40726661682129,
      "learning_rate": 6.938775510204082e-06,
      "loss": 0.4841,
      "step": 12800
    },
    {
      "epoch": 65.35714285714286,
      "grad_norm": 17.38709831237793,
      "learning_rate": 6.928571428571429e-06,
      "loss": 0.4643,
      "step": 12810
    },
    {
      "epoch": 65.40816326530613,
      "grad_norm": 4.663102626800537,
      "learning_rate": 6.9183673469387755e-06,
      "loss": 0.5123,
      "step": 12820
    },
    {
      "epoch": 65.45918367346938,
      "grad_norm": 6.2293701171875,
      "learning_rate": 6.908163265306122e-06,
      "loss": 0.3518,
      "step": 12830
    },
    {
      "epoch": 65.51020408163265,
      "grad_norm": 28.9666748046875,
      "learning_rate": 6.8979591836734705e-06,
      "loss": 0.6698,
      "step": 12840
    },
    {
      "epoch": 65.56122448979592,
      "grad_norm": 41.51514434814453,
      "learning_rate": 6.887755102040817e-06,
      "loss": 0.317,
      "step": 12850
    },
    {
      "epoch": 65.61224489795919,
      "grad_norm": 6.9237189292907715,
      "learning_rate": 6.877551020408164e-06,
      "loss": 0.3116,
      "step": 12860
    },
    {
      "epoch": 65.66326530612245,
      "grad_norm": 28.95307159423828,
      "learning_rate": 6.867346938775511e-06,
      "loss": 0.3637,
      "step": 12870
    },
    {
      "epoch": 65.71428571428571,
      "grad_norm": 19.958431243896484,
      "learning_rate": 6.857142857142858e-06,
      "loss": 0.4228,
      "step": 12880
    },
    {
      "epoch": 65.76530612244898,
      "grad_norm": 32.71405792236328,
      "learning_rate": 6.8469387755102046e-06,
      "loss": 0.5345,
      "step": 12890
    },
    {
      "epoch": 65.81632653061224,
      "grad_norm": 8.09709644317627,
      "learning_rate": 6.836734693877551e-06,
      "loss": 0.2363,
      "step": 12900
    },
    {
      "epoch": 65.86734693877551,
      "grad_norm": 31.92318344116211,
      "learning_rate": 6.826530612244898e-06,
      "loss": 0.4236,
      "step": 12910
    },
    {
      "epoch": 65.91836734693878,
      "grad_norm": 11.221346855163574,
      "learning_rate": 6.816326530612245e-06,
      "loss": 0.4923,
      "step": 12920
    },
    {
      "epoch": 65.96938775510205,
      "grad_norm": 31.64308738708496,
      "learning_rate": 6.806122448979592e-06,
      "loss": 0.581,
      "step": 12930
    },
    {
      "epoch": 66.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4202628433704376,
      "eval_runtime": 0.9116,
      "eval_samples_per_second": 303.867,
      "eval_steps_per_second": 38.395,
      "step": 12936
    },
    {
      "epoch": 66.0204081632653,
      "grad_norm": 3.3771097660064697,
      "learning_rate": 6.7959183673469394e-06,
      "loss": 0.4243,
      "step": 12940
    },
    {
      "epoch": 66.07142857142857,
      "grad_norm": 11.125716209411621,
      "learning_rate": 6.785714285714287e-06,
      "loss": 0.4586,
      "step": 12950
    },
    {
      "epoch": 66.12244897959184,
      "grad_norm": 3.6384854316711426,
      "learning_rate": 6.7755102040816336e-06,
      "loss": 0.4548,
      "step": 12960
    },
    {
      "epoch": 66.1734693877551,
      "grad_norm": 44.351898193359375,
      "learning_rate": 6.76530612244898e-06,
      "loss": 0.589,
      "step": 12970
    },
    {
      "epoch": 66.22448979591837,
      "grad_norm": 7.696669578552246,
      "learning_rate": 6.755102040816327e-06,
      "loss": 0.4248,
      "step": 12980
    },
    {
      "epoch": 66.27551020408163,
      "grad_norm": 1.4467685222625732,
      "learning_rate": 6.7448979591836735e-06,
      "loss": 0.3361,
      "step": 12990
    },
    {
      "epoch": 66.3265306122449,
      "grad_norm": 51.170631408691406,
      "learning_rate": 6.734693877551021e-06,
      "loss": 0.6296,
      "step": 13000
    },
    {
      "epoch": 66.37755102040816,
      "grad_norm": 31.353612899780273,
      "learning_rate": 6.724489795918368e-06,
      "loss": 0.4462,
      "step": 13010
    },
    {
      "epoch": 66.42857142857143,
      "grad_norm": 14.99590015411377,
      "learning_rate": 6.714285714285714e-06,
      "loss": 0.4615,
      "step": 13020
    },
    {
      "epoch": 66.4795918367347,
      "grad_norm": 33.3046875,
      "learning_rate": 6.704081632653063e-06,
      "loss": 0.4468,
      "step": 13030
    },
    {
      "epoch": 66.53061224489795,
      "grad_norm": 1.6509982347488403,
      "learning_rate": 6.693877551020409e-06,
      "loss": 0.3707,
      "step": 13040
    },
    {
      "epoch": 66.58163265306122,
      "grad_norm": 13.704632759094238,
      "learning_rate": 6.683673469387756e-06,
      "loss": 0.3498,
      "step": 13050
    },
    {
      "epoch": 66.63265306122449,
      "grad_norm": 21.040090560913086,
      "learning_rate": 6.6734693877551025e-06,
      "loss": 0.2865,
      "step": 13060
    },
    {
      "epoch": 66.68367346938776,
      "grad_norm": 12.851129531860352,
      "learning_rate": 6.663265306122449e-06,
      "loss": 0.3796,
      "step": 13070
    },
    {
      "epoch": 66.73469387755102,
      "grad_norm": 19.095895767211914,
      "learning_rate": 6.653061224489797e-06,
      "loss": 0.429,
      "step": 13080
    },
    {
      "epoch": 66.78571428571429,
      "grad_norm": 3.5883562564849854,
      "learning_rate": 6.642857142857143e-06,
      "loss": 0.5265,
      "step": 13090
    },
    {
      "epoch": 66.83673469387755,
      "grad_norm": 1.9991250038146973,
      "learning_rate": 6.63265306122449e-06,
      "loss": 0.2877,
      "step": 13100
    },
    {
      "epoch": 66.88775510204081,
      "grad_norm": 5.389362335205078,
      "learning_rate": 6.6224489795918365e-06,
      "loss": 0.223,
      "step": 13110
    },
    {
      "epoch": 66.93877551020408,
      "grad_norm": 10.979981422424316,
      "learning_rate": 6.612244897959185e-06,
      "loss": 0.3862,
      "step": 13120
    },
    {
      "epoch": 66.98979591836735,
      "grad_norm": 0.7376320362091064,
      "learning_rate": 6.6020408163265315e-06,
      "loss": 0.6009,
      "step": 13130
    },
    {
      "epoch": 67.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.4073604345321655,
      "eval_runtime": 0.91,
      "eval_samples_per_second": 304.405,
      "eval_steps_per_second": 38.463,
      "step": 13132
    },
    {
      "epoch": 67.04081632653062,
      "grad_norm": 12.95833969116211,
      "learning_rate": 6.591836734693878e-06,
      "loss": 0.2868,
      "step": 13140
    },
    {
      "epoch": 67.09183673469387,
      "grad_norm": 35.145263671875,
      "learning_rate": 6.581632653061225e-06,
      "loss": 0.5821,
      "step": 13150
    },
    {
      "epoch": 67.14285714285714,
      "grad_norm": 21.808069229125977,
      "learning_rate": 6.571428571428572e-06,
      "loss": 0.4634,
      "step": 13160
    },
    {
      "epoch": 67.1938775510204,
      "grad_norm": 9.647603034973145,
      "learning_rate": 6.561224489795919e-06,
      "loss": 0.4481,
      "step": 13170
    },
    {
      "epoch": 67.24489795918367,
      "grad_norm": 15.558512687683105,
      "learning_rate": 6.5510204081632656e-06,
      "loss": 0.2071,
      "step": 13180
    },
    {
      "epoch": 67.29591836734694,
      "grad_norm": 24.11736297607422,
      "learning_rate": 6.540816326530612e-06,
      "loss": 0.5297,
      "step": 13190
    },
    {
      "epoch": 67.34693877551021,
      "grad_norm": 21.10464859008789,
      "learning_rate": 6.530612244897959e-06,
      "loss": 0.4342,
      "step": 13200
    },
    {
      "epoch": 67.39795918367346,
      "grad_norm": 43.24857711791992,
      "learning_rate": 6.520408163265307e-06,
      "loss": 0.6183,
      "step": 13210
    },
    {
      "epoch": 67.44897959183673,
      "grad_norm": 11.030354499816895,
      "learning_rate": 6.510204081632654e-06,
      "loss": 0.4073,
      "step": 13220
    },
    {
      "epoch": 67.5,
      "grad_norm": 2.468348979949951,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 0.3184,
      "step": 13230
    },
    {
      "epoch": 67.55102040816327,
      "grad_norm": 12.733707427978516,
      "learning_rate": 6.489795918367348e-06,
      "loss": 0.5846,
      "step": 13240
    },
    {
      "epoch": 67.60204081632654,
      "grad_norm": 7.86130952835083,
      "learning_rate": 6.4795918367346946e-06,
      "loss": 0.3365,
      "step": 13250
    },
    {
      "epoch": 67.65306122448979,
      "grad_norm": 7.591355323791504,
      "learning_rate": 6.469387755102041e-06,
      "loss": 0.5366,
      "step": 13260
    },
    {
      "epoch": 67.70408163265306,
      "grad_norm": 14.835479736328125,
      "learning_rate": 6.459183673469388e-06,
      "loss": 0.3515,
      "step": 13270
    },
    {
      "epoch": 67.75510204081633,
      "grad_norm": 22.857473373413086,
      "learning_rate": 6.4489795918367345e-06,
      "loss": 0.6004,
      "step": 13280
    },
    {
      "epoch": 67.8061224489796,
      "grad_norm": 3.796682596206665,
      "learning_rate": 6.438775510204082e-06,
      "loss": 0.6529,
      "step": 13290
    },
    {
      "epoch": 67.85714285714286,
      "grad_norm": 12.208576202392578,
      "learning_rate": 6.4285714285714295e-06,
      "loss": 0.4294,
      "step": 13300
    },
    {
      "epoch": 67.90816326530613,
      "grad_norm": 18.725189208984375,
      "learning_rate": 6.418367346938776e-06,
      "loss": 0.3519,
      "step": 13310
    },
    {
      "epoch": 67.95918367346938,
      "grad_norm": 28.024595260620117,
      "learning_rate": 6.408163265306124e-06,
      "loss": 0.2388,
      "step": 13320
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3594415783882141,
      "eval_runtime": 0.9022,
      "eval_samples_per_second": 307.016,
      "eval_steps_per_second": 38.793,
      "step": 13328
    },
    {
      "epoch": 68.01020408163265,
      "grad_norm": 1.4740101099014282,
      "learning_rate": 6.39795918367347e-06,
      "loss": 0.3155,
      "step": 13330
    },
    {
      "epoch": 68.06122448979592,
      "grad_norm": 36.393680572509766,
      "learning_rate": 6.387755102040817e-06,
      "loss": 0.4957,
      "step": 13340
    },
    {
      "epoch": 68.11224489795919,
      "grad_norm": 13.405777931213379,
      "learning_rate": 6.3775510204081635e-06,
      "loss": 0.4838,
      "step": 13350
    },
    {
      "epoch": 68.16326530612245,
      "grad_norm": 44.739898681640625,
      "learning_rate": 6.36734693877551e-06,
      "loss": 0.5662,
      "step": 13360
    },
    {
      "epoch": 68.21428571428571,
      "grad_norm": 21.203454971313477,
      "learning_rate": 6.357142857142858e-06,
      "loss": 0.4631,
      "step": 13370
    },
    {
      "epoch": 68.26530612244898,
      "grad_norm": 11.550604820251465,
      "learning_rate": 6.346938775510204e-06,
      "loss": 0.343,
      "step": 13380
    },
    {
      "epoch": 68.31632653061224,
      "grad_norm": 2.8519372940063477,
      "learning_rate": 6.336734693877552e-06,
      "loss": 0.4289,
      "step": 13390
    },
    {
      "epoch": 68.36734693877551,
      "grad_norm": 30.800371170043945,
      "learning_rate": 6.326530612244899e-06,
      "loss": 0.4485,
      "step": 13400
    },
    {
      "epoch": 68.41836734693878,
      "grad_norm": 46.463809967041016,
      "learning_rate": 6.316326530612246e-06,
      "loss": 0.585,
      "step": 13410
    },
    {
      "epoch": 68.46938775510205,
      "grad_norm": 31.63224220275879,
      "learning_rate": 6.3061224489795925e-06,
      "loss": 0.3549,
      "step": 13420
    },
    {
      "epoch": 68.5204081632653,
      "grad_norm": 15.951464653015137,
      "learning_rate": 6.295918367346939e-06,
      "loss": 0.324,
      "step": 13430
    },
    {
      "epoch": 68.57142857142857,
      "grad_norm": 8.032065391540527,
      "learning_rate": 6.285714285714286e-06,
      "loss": 0.254,
      "step": 13440
    },
    {
      "epoch": 68.62244897959184,
      "grad_norm": 6.766757011413574,
      "learning_rate": 6.275510204081633e-06,
      "loss": 0.2214,
      "step": 13450
    },
    {
      "epoch": 68.6734693877551,
      "grad_norm": 4.351552486419678,
      "learning_rate": 6.26530612244898e-06,
      "loss": 0.3638,
      "step": 13460
    },
    {
      "epoch": 68.72448979591837,
      "grad_norm": 7.514270305633545,
      "learning_rate": 6.2551020408163266e-06,
      "loss": 0.5512,
      "step": 13470
    },
    {
      "epoch": 68.77551020408163,
      "grad_norm": 10.685770988464355,
      "learning_rate": 6.244897959183675e-06,
      "loss": 0.4353,
      "step": 13480
    },
    {
      "epoch": 68.8265306122449,
      "grad_norm": 8.468605995178223,
      "learning_rate": 6.2346938775510215e-06,
      "loss": 0.277,
      "step": 13490
    },
    {
      "epoch": 68.87755102040816,
      "grad_norm": 8.152555465698242,
      "learning_rate": 6.224489795918368e-06,
      "loss": 0.4454,
      "step": 13500
    },
    {
      "epoch": 68.92857142857143,
      "grad_norm": 0.8976050019264221,
      "learning_rate": 6.214285714285715e-06,
      "loss": 0.4642,
      "step": 13510
    },
    {
      "epoch": 68.9795918367347,
      "grad_norm": 4.631603240966797,
      "learning_rate": 6.2040816326530614e-06,
      "loss": 0.6006,
      "step": 13520
    },
    {
      "epoch": 69.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.40451499819755554,
      "eval_runtime": 0.9056,
      "eval_samples_per_second": 305.88,
      "eval_steps_per_second": 38.649,
      "step": 13524
    },
    {
      "epoch": 69.03061224489795,
      "grad_norm": 30.674327850341797,
      "learning_rate": 6.193877551020409e-06,
      "loss": 0.437,
      "step": 13530
    },
    {
      "epoch": 69.08163265306122,
      "grad_norm": 11.031425476074219,
      "learning_rate": 6.1836734693877556e-06,
      "loss": 0.3138,
      "step": 13540
    },
    {
      "epoch": 69.13265306122449,
      "grad_norm": 10.326911926269531,
      "learning_rate": 6.173469387755102e-06,
      "loss": 0.319,
      "step": 13550
    },
    {
      "epoch": 69.18367346938776,
      "grad_norm": 2.734036445617676,
      "learning_rate": 6.163265306122449e-06,
      "loss": 0.3994,
      "step": 13560
    },
    {
      "epoch": 69.23469387755102,
      "grad_norm": 16.440942764282227,
      "learning_rate": 6.153061224489797e-06,
      "loss": 0.4285,
      "step": 13570
    },
    {
      "epoch": 69.28571428571429,
      "grad_norm": 26.091279983520508,
      "learning_rate": 6.142857142857144e-06,
      "loss": 0.6106,
      "step": 13580
    },
    {
      "epoch": 69.33673469387755,
      "grad_norm": 7.706754684448242,
      "learning_rate": 6.1326530612244905e-06,
      "loss": 0.3125,
      "step": 13590
    },
    {
      "epoch": 69.38775510204081,
      "grad_norm": 16.43853187561035,
      "learning_rate": 6.122448979591837e-06,
      "loss": 0.3469,
      "step": 13600
    },
    {
      "epoch": 69.43877551020408,
      "grad_norm": 2.662837505340576,
      "learning_rate": 6.112244897959185e-06,
      "loss": 0.7596,
      "step": 13610
    },
    {
      "epoch": 69.48979591836735,
      "grad_norm": 4.047677993774414,
      "learning_rate": 6.102040816326531e-06,
      "loss": 0.5864,
      "step": 13620
    },
    {
      "epoch": 69.54081632653062,
      "grad_norm": 1.6949793100357056,
      "learning_rate": 6.091836734693878e-06,
      "loss": 0.4415,
      "step": 13630
    },
    {
      "epoch": 69.59183673469387,
      "grad_norm": 19.61130714416504,
      "learning_rate": 6.0816326530612245e-06,
      "loss": 0.3713,
      "step": 13640
    },
    {
      "epoch": 69.64285714285714,
      "grad_norm": 12.855934143066406,
      "learning_rate": 6.071428571428571e-06,
      "loss": 0.3299,
      "step": 13650
    },
    {
      "epoch": 69.6938775510204,
      "grad_norm": 12.303732872009277,
      "learning_rate": 6.0612244897959195e-06,
      "loss": 0.2516,
      "step": 13660
    },
    {
      "epoch": 69.74489795918367,
      "grad_norm": 13.712385177612305,
      "learning_rate": 6.051020408163266e-06,
      "loss": 0.4171,
      "step": 13670
    },
    {
      "epoch": 69.79591836734694,
      "grad_norm": 29.656221389770508,
      "learning_rate": 6.040816326530613e-06,
      "loss": 0.437,
      "step": 13680
    },
    {
      "epoch": 69.84693877551021,
      "grad_norm": 2.9822819232940674,
      "learning_rate": 6.03061224489796e-06,
      "loss": 0.1682,
      "step": 13690
    },
    {
      "epoch": 69.89795918367346,
      "grad_norm": 13.011587142944336,
      "learning_rate": 6.020408163265307e-06,
      "loss": 0.603,
      "step": 13700
    },
    {
      "epoch": 69.94897959183673,
      "grad_norm": 3.850140333175659,
      "learning_rate": 6.0102040816326535e-06,
      "loss": 0.2494,
      "step": 13710
    },
    {
      "epoch": 70.0,
      "grad_norm": 46.05774688720703,
      "learning_rate": 6e-06,
      "loss": 0.388,
      "step": 13720
    },
    {
      "epoch": 70.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.37169820070266724,
      "eval_runtime": 0.903,
      "eval_samples_per_second": 306.755,
      "eval_steps_per_second": 38.76,
      "step": 13720
    },
    {
      "epoch": 70.05102040816327,
      "grad_norm": 56.4871940612793,
      "learning_rate": 5.989795918367347e-06,
      "loss": 0.5959,
      "step": 13730
    },
    {
      "epoch": 70.10204081632654,
      "grad_norm": 3.1578357219696045,
      "learning_rate": 5.979591836734694e-06,
      "loss": 0.3128,
      "step": 13740
    },
    {
      "epoch": 70.15306122448979,
      "grad_norm": 23.63370704650879,
      "learning_rate": 5.969387755102042e-06,
      "loss": 0.397,
      "step": 13750
    },
    {
      "epoch": 70.20408163265306,
      "grad_norm": 16.240798950195312,
      "learning_rate": 5.959183673469388e-06,
      "loss": 0.3666,
      "step": 13760
    },
    {
      "epoch": 70.25510204081633,
      "grad_norm": 7.925266742706299,
      "learning_rate": 5.948979591836735e-06,
      "loss": 0.3302,
      "step": 13770
    },
    {
      "epoch": 70.3061224489796,
      "grad_norm": 2.638017177581787,
      "learning_rate": 5.9387755102040825e-06,
      "loss": 0.3082,
      "step": 13780
    },
    {
      "epoch": 70.35714285714286,
      "grad_norm": 4.7538042068481445,
      "learning_rate": 5.928571428571429e-06,
      "loss": 0.2332,
      "step": 13790
    },
    {
      "epoch": 70.40816326530613,
      "grad_norm": 18.383663177490234,
      "learning_rate": 5.918367346938776e-06,
      "loss": 0.3339,
      "step": 13800
    },
    {
      "epoch": 70.45918367346938,
      "grad_norm": 11.873844146728516,
      "learning_rate": 5.9081632653061224e-06,
      "loss": 0.4031,
      "step": 13810
    },
    {
      "epoch": 70.51020408163265,
      "grad_norm": 14.102581977844238,
      "learning_rate": 5.89795918367347e-06,
      "loss": 0.4747,
      "step": 13820
    },
    {
      "epoch": 70.56122448979592,
      "grad_norm": 25.53624153137207,
      "learning_rate": 5.8877551020408166e-06,
      "loss": 0.4771,
      "step": 13830
    },
    {
      "epoch": 70.61224489795919,
      "grad_norm": 5.007789611816406,
      "learning_rate": 5.877551020408164e-06,
      "loss": 0.6206,
      "step": 13840
    },
    {
      "epoch": 70.66326530612245,
      "grad_norm": 6.762694358825684,
      "learning_rate": 5.867346938775511e-06,
      "loss": 0.5237,
      "step": 13850
    },
    {
      "epoch": 70.71428571428571,
      "grad_norm": 34.533687591552734,
      "learning_rate": 5.857142857142858e-06,
      "loss": 0.435,
      "step": 13860
    },
    {
      "epoch": 70.76530612244898,
      "grad_norm": 34.12938690185547,
      "learning_rate": 5.846938775510205e-06,
      "loss": 0.4617,
      "step": 13870
    },
    {
      "epoch": 70.81632653061224,
      "grad_norm": 10.198846817016602,
      "learning_rate": 5.8367346938775515e-06,
      "loss": 0.4406,
      "step": 13880
    },
    {
      "epoch": 70.86734693877551,
      "grad_norm": 1.8150938749313354,
      "learning_rate": 5.826530612244898e-06,
      "loss": 0.181,
      "step": 13890
    },
    {
      "epoch": 70.91836734693878,
      "grad_norm": 11.077047348022461,
      "learning_rate": 5.816326530612246e-06,
      "loss": 0.4488,
      "step": 13900
    },
    {
      "epoch": 70.96938775510205,
      "grad_norm": 34.77924346923828,
      "learning_rate": 5.806122448979592e-06,
      "loss": 0.552,
      "step": 13910
    },
    {
      "epoch": 71.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.42387306690216064,
      "eval_runtime": 0.9774,
      "eval_samples_per_second": 283.416,
      "eval_steps_per_second": 35.811,
      "step": 13916
    },
    {
      "epoch": 71.0204081632653,
      "grad_norm": 48.881507873535156,
      "learning_rate": 5.795918367346939e-06,
      "loss": 0.5751,
      "step": 13920
    },
    {
      "epoch": 71.07142857142857,
      "grad_norm": 1.1506679058074951,
      "learning_rate": 5.785714285714286e-06,
      "loss": 0.3794,
      "step": 13930
    },
    {
      "epoch": 71.12244897959184,
      "grad_norm": 9.8695707321167,
      "learning_rate": 5.775510204081634e-06,
      "loss": 0.5385,
      "step": 13940
    },
    {
      "epoch": 71.1734693877551,
      "grad_norm": 6.155259132385254,
      "learning_rate": 5.7653061224489805e-06,
      "loss": 0.3736,
      "step": 13950
    },
    {
      "epoch": 71.22448979591837,
      "grad_norm": 1.4553375244140625,
      "learning_rate": 5.755102040816327e-06,
      "loss": 0.2951,
      "step": 13960
    },
    {
      "epoch": 71.27551020408163,
      "grad_norm": 14.495243072509766,
      "learning_rate": 5.744897959183674e-06,
      "loss": 0.3023,
      "step": 13970
    },
    {
      "epoch": 71.3265306122449,
      "grad_norm": 5.348748683929443,
      "learning_rate": 5.73469387755102e-06,
      "loss": 0.408,
      "step": 13980
    },
    {
      "epoch": 71.37755102040816,
      "grad_norm": 26.133975982666016,
      "learning_rate": 5.724489795918368e-06,
      "loss": 0.3896,
      "step": 13990
    },
    {
      "epoch": 71.42857142857143,
      "grad_norm": 8.534056663513184,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 0.585,
      "step": 14000
    },
    {
      "epoch": 71.4795918367347,
      "grad_norm": 29.10352325439453,
      "learning_rate": 5.704081632653061e-06,
      "loss": 0.644,
      "step": 14010
    },
    {
      "epoch": 71.53061224489795,
      "grad_norm": 2.8666675090789795,
      "learning_rate": 5.6938775510204095e-06,
      "loss": 0.4174,
      "step": 14020
    },
    {
      "epoch": 71.58163265306122,
      "grad_norm": 2.6917402744293213,
      "learning_rate": 5.683673469387756e-06,
      "loss": 0.2998,
      "step": 14030
    },
    {
      "epoch": 71.63265306122449,
      "grad_norm": 6.74077844619751,
      "learning_rate": 5.673469387755103e-06,
      "loss": 0.2052,
      "step": 14040
    },
    {
      "epoch": 71.68367346938776,
      "grad_norm": 12.309537887573242,
      "learning_rate": 5.663265306122449e-06,
      "loss": 0.502,
      "step": 14050
    },
    {
      "epoch": 71.73469387755102,
      "grad_norm": 3.6300408840179443,
      "learning_rate": 5.653061224489796e-06,
      "loss": 0.5311,
      "step": 14060
    },
    {
      "epoch": 71.78571428571429,
      "grad_norm": 14.722428321838379,
      "learning_rate": 5.6428571428571435e-06,
      "loss": 0.3061,
      "step": 14070
    },
    {
      "epoch": 71.83673469387755,
      "grad_norm": 17.458337783813477,
      "learning_rate": 5.63265306122449e-06,
      "loss": 0.4724,
      "step": 14080
    },
    {
      "epoch": 71.88775510204081,
      "grad_norm": 21.25011444091797,
      "learning_rate": 5.622448979591837e-06,
      "loss": 0.2475,
      "step": 14090
    },
    {
      "epoch": 71.93877551020408,
      "grad_norm": 17.224708557128906,
      "learning_rate": 5.6122448979591834e-06,
      "loss": 0.3791,
      "step": 14100
    },
    {
      "epoch": 71.98979591836735,
      "grad_norm": 10.33446979522705,
      "learning_rate": 5.602040816326531e-06,
      "loss": 0.3875,
      "step": 14110
    },
    {
      "epoch": 72.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.37306922674179077,
      "eval_runtime": 0.9077,
      "eval_samples_per_second": 305.181,
      "eval_steps_per_second": 38.561,
      "step": 14112
    },
    {
      "epoch": 72.04081632653062,
      "grad_norm": 4.534785270690918,
      "learning_rate": 5.591836734693878e-06,
      "loss": 0.45,
      "step": 14120
    },
    {
      "epoch": 72.09183673469387,
      "grad_norm": 13.95346736907959,
      "learning_rate": 5.581632653061225e-06,
      "loss": 0.2579,
      "step": 14130
    },
    {
      "epoch": 72.14285714285714,
      "grad_norm": 20.051780700683594,
      "learning_rate": 5.571428571428572e-06,
      "loss": 0.392,
      "step": 14140
    },
    {
      "epoch": 72.1938775510204,
      "grad_norm": 4.7796125411987305,
      "learning_rate": 5.561224489795919e-06,
      "loss": 0.5133,
      "step": 14150
    },
    {
      "epoch": 72.24489795918367,
      "grad_norm": 1.092968463897705,
      "learning_rate": 5.551020408163266e-06,
      "loss": 0.3716,
      "step": 14160
    },
    {
      "epoch": 72.29591836734694,
      "grad_norm": 13.955184936523438,
      "learning_rate": 5.5408163265306125e-06,
      "loss": 0.4386,
      "step": 14170
    },
    {
      "epoch": 72.34693877551021,
      "grad_norm": 8.27902889251709,
      "learning_rate": 5.530612244897959e-06,
      "loss": 0.191,
      "step": 14180
    },
    {
      "epoch": 72.39795918367346,
      "grad_norm": 8.806344985961914,
      "learning_rate": 5.520408163265306e-06,
      "loss": 0.1982,
      "step": 14190
    },
    {
      "epoch": 72.44897959183673,
      "grad_norm": 52.71881866455078,
      "learning_rate": 5.510204081632653e-06,
      "loss": 0.6083,
      "step": 14200
    },
    {
      "epoch": 72.5,
      "grad_norm": 9.449934005737305,
      "learning_rate": 5.500000000000001e-06,
      "loss": 0.4449,
      "step": 14210
    },
    {
      "epoch": 72.55102040816327,
      "grad_norm": 2.98433780670166,
      "learning_rate": 5.489795918367347e-06,
      "loss": 0.3933,
      "step": 14220
    },
    {
      "epoch": 72.60204081632654,
      "grad_norm": 18.770971298217773,
      "learning_rate": 5.479591836734695e-06,
      "loss": 1.0007,
      "step": 14230
    },
    {
      "epoch": 72.65306122448979,
      "grad_norm": 15.297608375549316,
      "learning_rate": 5.4693877551020415e-06,
      "loss": 0.402,
      "step": 14240
    },
    {
      "epoch": 72.70408163265306,
      "grad_norm": 5.1268792152404785,
      "learning_rate": 5.459183673469388e-06,
      "loss": 0.4461,
      "step": 14250
    },
    {
      "epoch": 72.75510204081633,
      "grad_norm": 1.6132981777191162,
      "learning_rate": 5.448979591836735e-06,
      "loss": 0.4221,
      "step": 14260
    },
    {
      "epoch": 72.8061224489796,
      "grad_norm": 35.814430236816406,
      "learning_rate": 5.438775510204081e-06,
      "loss": 0.4869,
      "step": 14270
    },
    {
      "epoch": 72.85714285714286,
      "grad_norm": 15.589097023010254,
      "learning_rate": 5.428571428571429e-06,
      "loss": 0.5398,
      "step": 14280
    },
    {
      "epoch": 72.90816326530613,
      "grad_norm": 3.248788833618164,
      "learning_rate": 5.4183673469387755e-06,
      "loss": 0.2926,
      "step": 14290
    },
    {
      "epoch": 72.95918367346938,
      "grad_norm": 5.577876091003418,
      "learning_rate": 5.408163265306123e-06,
      "loss": 0.3105,
      "step": 14300
    },
    {
      "epoch": 73.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3434131145477295,
      "eval_runtime": 0.9201,
      "eval_samples_per_second": 301.039,
      "eval_steps_per_second": 38.037,
      "step": 14308
    },
    {
      "epoch": 73.01020408163265,
      "grad_norm": 5.259240627288818,
      "learning_rate": 5.3979591836734705e-06,
      "loss": 0.2729,
      "step": 14310
    },
    {
      "epoch": 73.06122448979592,
      "grad_norm": 6.338513374328613,
      "learning_rate": 5.387755102040817e-06,
      "loss": 0.5347,
      "step": 14320
    },
    {
      "epoch": 73.11224489795919,
      "grad_norm": 16.02904510498047,
      "learning_rate": 5.377551020408164e-06,
      "loss": 0.4895,
      "step": 14330
    },
    {
      "epoch": 73.16326530612245,
      "grad_norm": 38.21782684326172,
      "learning_rate": 5.36734693877551e-06,
      "loss": 0.4496,
      "step": 14340
    },
    {
      "epoch": 73.21428571428571,
      "grad_norm": 8.033892631530762,
      "learning_rate": 5.357142857142857e-06,
      "loss": 0.2991,
      "step": 14350
    },
    {
      "epoch": 73.26530612244898,
      "grad_norm": 32.43523406982422,
      "learning_rate": 5.3469387755102045e-06,
      "loss": 0.4034,
      "step": 14360
    },
    {
      "epoch": 73.31632653061224,
      "grad_norm": 10.682982444763184,
      "learning_rate": 5.336734693877551e-06,
      "loss": 0.5657,
      "step": 14370
    },
    {
      "epoch": 73.36734693877551,
      "grad_norm": 2.031707286834717,
      "learning_rate": 5.326530612244898e-06,
      "loss": 0.3929,
      "step": 14380
    },
    {
      "epoch": 73.41836734693878,
      "grad_norm": 18.680744171142578,
      "learning_rate": 5.316326530612246e-06,
      "loss": 0.5796,
      "step": 14390
    },
    {
      "epoch": 73.46938775510205,
      "grad_norm": 14.781634330749512,
      "learning_rate": 5.306122448979593e-06,
      "loss": 0.7471,
      "step": 14400
    },
    {
      "epoch": 73.5204081632653,
      "grad_norm": 20.925090789794922,
      "learning_rate": 5.295918367346939e-06,
      "loss": 0.3529,
      "step": 14410
    },
    {
      "epoch": 73.57142857142857,
      "grad_norm": 25.474132537841797,
      "learning_rate": 5.285714285714286e-06,
      "loss": 0.4856,
      "step": 14420
    },
    {
      "epoch": 73.62244897959184,
      "grad_norm": 8.594855308532715,
      "learning_rate": 5.275510204081633e-06,
      "loss": 0.5078,
      "step": 14430
    },
    {
      "epoch": 73.6734693877551,
      "grad_norm": 21.379119873046875,
      "learning_rate": 5.26530612244898e-06,
      "loss": 0.5204,
      "step": 14440
    },
    {
      "epoch": 73.72448979591837,
      "grad_norm": 46.08794021606445,
      "learning_rate": 5.255102040816327e-06,
      "loss": 0.3648,
      "step": 14450
    },
    {
      "epoch": 73.77551020408163,
      "grad_norm": 18.980558395385742,
      "learning_rate": 5.2448979591836735e-06,
      "loss": 0.629,
      "step": 14460
    },
    {
      "epoch": 73.8265306122449,
      "grad_norm": 4.562716484069824,
      "learning_rate": 5.23469387755102e-06,
      "loss": 0.3263,
      "step": 14470
    },
    {
      "epoch": 73.87755102040816,
      "grad_norm": 15.528979301452637,
      "learning_rate": 5.2244897959183684e-06,
      "loss": 0.1201,
      "step": 14480
    },
    {
      "epoch": 73.92857142857143,
      "grad_norm": 13.451543807983398,
      "learning_rate": 5.214285714285715e-06,
      "loss": 0.3436,
      "step": 14490
    },
    {
      "epoch": 73.9795918367347,
      "grad_norm": 30.578283309936523,
      "learning_rate": 5.204081632653062e-06,
      "loss": 0.4627,
      "step": 14500
    },
    {
      "epoch": 74.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3945842981338501,
      "eval_runtime": 0.9035,
      "eval_samples_per_second": 306.598,
      "eval_steps_per_second": 38.74,
      "step": 14504
    },
    {
      "epoch": 74.03061224489795,
      "grad_norm": 16.971466064453125,
      "learning_rate": 5.193877551020408e-06,
      "loss": 0.3925,
      "step": 14510
    },
    {
      "epoch": 74.08163265306122,
      "grad_norm": 33.4650764465332,
      "learning_rate": 5.183673469387756e-06,
      "loss": 0.3064,
      "step": 14520
    },
    {
      "epoch": 74.13265306122449,
      "grad_norm": 9.119837760925293,
      "learning_rate": 5.1734693877551025e-06,
      "loss": 0.4387,
      "step": 14530
    },
    {
      "epoch": 74.18367346938776,
      "grad_norm": 15.377849578857422,
      "learning_rate": 5.163265306122449e-06,
      "loss": 0.3117,
      "step": 14540
    },
    {
      "epoch": 74.23469387755102,
      "grad_norm": 20.725906372070312,
      "learning_rate": 5.153061224489796e-06,
      "loss": 0.5248,
      "step": 14550
    },
    {
      "epoch": 74.28571428571429,
      "grad_norm": 8.881811141967773,
      "learning_rate": 5.142857142857142e-06,
      "loss": 0.2848,
      "step": 14560
    },
    {
      "epoch": 74.33673469387755,
      "grad_norm": 53.89242935180664,
      "learning_rate": 5.132653061224491e-06,
      "loss": 0.5341,
      "step": 14570
    },
    {
      "epoch": 74.38775510204081,
      "grad_norm": 10.905284881591797,
      "learning_rate": 5.122448979591837e-06,
      "loss": 0.6472,
      "step": 14580
    },
    {
      "epoch": 74.43877551020408,
      "grad_norm": 4.547750473022461,
      "learning_rate": 5.112244897959184e-06,
      "loss": 0.4276,
      "step": 14590
    },
    {
      "epoch": 74.48979591836735,
      "grad_norm": 19.033706665039062,
      "learning_rate": 5.1020408163265315e-06,
      "loss": 0.2759,
      "step": 14600
    },
    {
      "epoch": 74.54081632653062,
      "grad_norm": 17.927839279174805,
      "learning_rate": 5.091836734693878e-06,
      "loss": 0.4102,
      "step": 14610
    },
    {
      "epoch": 74.59183673469387,
      "grad_norm": 14.467072486877441,
      "learning_rate": 5.081632653061225e-06,
      "loss": 0.174,
      "step": 14620
    },
    {
      "epoch": 74.64285714285714,
      "grad_norm": 20.20602798461914,
      "learning_rate": 5.071428571428571e-06,
      "loss": 0.4969,
      "step": 14630
    },
    {
      "epoch": 74.6938775510204,
      "grad_norm": 8.186942100524902,
      "learning_rate": 5.061224489795918e-06,
      "loss": 0.4221,
      "step": 14640
    },
    {
      "epoch": 74.74489795918367,
      "grad_norm": 5.633518695831299,
      "learning_rate": 5.0510204081632655e-06,
      "loss": 0.5161,
      "step": 14650
    },
    {
      "epoch": 74.79591836734694,
      "grad_norm": 13.105382919311523,
      "learning_rate": 5.040816326530613e-06,
      "loss": 0.4771,
      "step": 14660
    },
    {
      "epoch": 74.84693877551021,
      "grad_norm": 10.992642402648926,
      "learning_rate": 5.03061224489796e-06,
      "loss": 0.2799,
      "step": 14670
    },
    {
      "epoch": 74.89795918367346,
      "grad_norm": 4.085998058319092,
      "learning_rate": 5.020408163265307e-06,
      "loss": 0.378,
      "step": 14680
    },
    {
      "epoch": 74.94897959183673,
      "grad_norm": 19.676191329956055,
      "learning_rate": 5.010204081632654e-06,
      "loss": 0.4431,
      "step": 14690
    },
    {
      "epoch": 75.0,
      "grad_norm": 1.7546740770339966,
      "learning_rate": 5e-06,
      "loss": 0.2931,
      "step": 14700
    },
    {
      "epoch": 75.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.39497262239456177,
      "eval_runtime": 0.9741,
      "eval_samples_per_second": 284.361,
      "eval_steps_per_second": 35.93,
      "step": 14700
    },
    {
      "epoch": 75.05102040816327,
      "grad_norm": 8.102276802062988,
      "learning_rate": 4.989795918367347e-06,
      "loss": 0.3648,
      "step": 14710
    },
    {
      "epoch": 75.10204081632654,
      "grad_norm": 4.042459011077881,
      "learning_rate": 4.979591836734694e-06,
      "loss": 0.6422,
      "step": 14720
    },
    {
      "epoch": 75.15306122448979,
      "grad_norm": 12.414658546447754,
      "learning_rate": 4.969387755102041e-06,
      "loss": 0.3112,
      "step": 14730
    },
    {
      "epoch": 75.20408163265306,
      "grad_norm": 28.23199462890625,
      "learning_rate": 4.959183673469388e-06,
      "loss": 0.499,
      "step": 14740
    },
    {
      "epoch": 75.25510204081633,
      "grad_norm": 8.486944198608398,
      "learning_rate": 4.948979591836735e-06,
      "loss": 0.51,
      "step": 14750
    },
    {
      "epoch": 75.3061224489796,
      "grad_norm": 22.205982208251953,
      "learning_rate": 4.938775510204082e-06,
      "loss": 0.3894,
      "step": 14760
    },
    {
      "epoch": 75.35714285714286,
      "grad_norm": 6.09186315536499,
      "learning_rate": 4.928571428571429e-06,
      "loss": 0.5001,
      "step": 14770
    },
    {
      "epoch": 75.40816326530613,
      "grad_norm": 27.20181655883789,
      "learning_rate": 4.918367346938776e-06,
      "loss": 0.6208,
      "step": 14780
    },
    {
      "epoch": 75.45918367346938,
      "grad_norm": 5.650221824645996,
      "learning_rate": 4.908163265306123e-06,
      "loss": 0.3252,
      "step": 14790
    },
    {
      "epoch": 75.51020408163265,
      "grad_norm": 25.86785125732422,
      "learning_rate": 4.897959183673469e-06,
      "loss": 0.3527,
      "step": 14800
    },
    {
      "epoch": 75.56122448979592,
      "grad_norm": 10.997345924377441,
      "learning_rate": 4.887755102040817e-06,
      "loss": 0.4613,
      "step": 14810
    },
    {
      "epoch": 75.61224489795919,
      "grad_norm": 2.7746198177337646,
      "learning_rate": 4.8775510204081635e-06,
      "loss": 0.3743,
      "step": 14820
    },
    {
      "epoch": 75.66326530612245,
      "grad_norm": 11.245863914489746,
      "learning_rate": 4.867346938775511e-06,
      "loss": 0.2985,
      "step": 14830
    },
    {
      "epoch": 75.71428571428571,
      "grad_norm": 15.146750450134277,
      "learning_rate": 4.857142857142858e-06,
      "loss": 0.5201,
      "step": 14840
    },
    {
      "epoch": 75.76530612244898,
      "grad_norm": 15.607956886291504,
      "learning_rate": 4.846938775510204e-06,
      "loss": 0.5631,
      "step": 14850
    },
    {
      "epoch": 75.81632653061224,
      "grad_norm": 22.85636329650879,
      "learning_rate": 4.836734693877552e-06,
      "loss": 0.3169,
      "step": 14860
    },
    {
      "epoch": 75.86734693877551,
      "grad_norm": 3.3726863861083984,
      "learning_rate": 4.826530612244898e-06,
      "loss": 0.41,
      "step": 14870
    },
    {
      "epoch": 75.91836734693878,
      "grad_norm": 17.01909828186035,
      "learning_rate": 4.816326530612245e-06,
      "loss": 0.3869,
      "step": 14880
    },
    {
      "epoch": 75.96938775510205,
      "grad_norm": 68.2822265625,
      "learning_rate": 4.8061224489795925e-06,
      "loss": 0.4639,
      "step": 14890
    },
    {
      "epoch": 76.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.38747766613960266,
      "eval_runtime": 0.9076,
      "eval_samples_per_second": 305.184,
      "eval_steps_per_second": 38.561,
      "step": 14896
    },
    {
      "epoch": 76.0204081632653,
      "grad_norm": 13.855009078979492,
      "learning_rate": 4.795918367346939e-06,
      "loss": 0.7756,
      "step": 14900
    },
    {
      "epoch": 76.07142857142857,
      "grad_norm": 13.457080841064453,
      "learning_rate": 4.785714285714287e-06,
      "loss": 0.3719,
      "step": 14910
    },
    {
      "epoch": 76.12244897959184,
      "grad_norm": 18.41807746887207,
      "learning_rate": 4.775510204081633e-06,
      "loss": 0.2213,
      "step": 14920
    },
    {
      "epoch": 76.1734693877551,
      "grad_norm": 5.711772918701172,
      "learning_rate": 4.76530612244898e-06,
      "loss": 0.3074,
      "step": 14930
    },
    {
      "epoch": 76.22448979591837,
      "grad_norm": 23.175092697143555,
      "learning_rate": 4.7551020408163265e-06,
      "loss": 0.3831,
      "step": 14940
    },
    {
      "epoch": 76.27551020408163,
      "grad_norm": 21.131732940673828,
      "learning_rate": 4.744897959183674e-06,
      "loss": 0.5544,
      "step": 14950
    },
    {
      "epoch": 76.3265306122449,
      "grad_norm": 2.536851167678833,
      "learning_rate": 4.734693877551021e-06,
      "loss": 0.3251,
      "step": 14960
    },
    {
      "epoch": 76.37755102040816,
      "grad_norm": 20.364194869995117,
      "learning_rate": 4.724489795918368e-06,
      "loss": 0.4953,
      "step": 14970
    },
    {
      "epoch": 76.42857142857143,
      "grad_norm": 17.399188995361328,
      "learning_rate": 4.714285714285715e-06,
      "loss": 0.5634,
      "step": 14980
    },
    {
      "epoch": 76.4795918367347,
      "grad_norm": 1.7918046712875366,
      "learning_rate": 4.704081632653061e-06,
      "loss": 0.197,
      "step": 14990
    },
    {
      "epoch": 76.53061224489795,
      "grad_norm": 7.041476726531982,
      "learning_rate": 4.693877551020409e-06,
      "loss": 0.3231,
      "step": 15000
    },
    {
      "epoch": 76.58163265306122,
      "grad_norm": 16.600597381591797,
      "learning_rate": 4.6836734693877555e-06,
      "loss": 0.4816,
      "step": 15010
    },
    {
      "epoch": 76.63265306122449,
      "grad_norm": 0.9028152823448181,
      "learning_rate": 4.673469387755102e-06,
      "loss": 0.4973,
      "step": 15020
    },
    {
      "epoch": 76.68367346938776,
      "grad_norm": 28.068819046020508,
      "learning_rate": 4.663265306122449e-06,
      "loss": 0.305,
      "step": 15030
    },
    {
      "epoch": 76.73469387755102,
      "grad_norm": 2.1055450439453125,
      "learning_rate": 4.653061224489796e-06,
      "loss": 0.437,
      "step": 15040
    },
    {
      "epoch": 76.78571428571429,
      "grad_norm": 24.438491821289062,
      "learning_rate": 4.642857142857144e-06,
      "loss": 0.4353,
      "step": 15050
    },
    {
      "epoch": 76.83673469387755,
      "grad_norm": 3.877204179763794,
      "learning_rate": 4.63265306122449e-06,
      "loss": 0.3433,
      "step": 15060
    },
    {
      "epoch": 76.88775510204081,
      "grad_norm": 2.2981579303741455,
      "learning_rate": 4.622448979591837e-06,
      "loss": 0.372,
      "step": 15070
    },
    {
      "epoch": 76.93877551020408,
      "grad_norm": 7.636298656463623,
      "learning_rate": 4.612244897959184e-06,
      "loss": 0.5847,
      "step": 15080
    },
    {
      "epoch": 76.98979591836735,
      "grad_norm": 5.407724380493164,
      "learning_rate": 4.602040816326531e-06,
      "loss": 0.3534,
      "step": 15090
    },
    {
      "epoch": 77.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.40087977051734924,
      "eval_runtime": 0.972,
      "eval_samples_per_second": 284.987,
      "eval_steps_per_second": 36.009,
      "step": 15092
    },
    {
      "epoch": 77.04081632653062,
      "grad_norm": 1.350639820098877,
      "learning_rate": 4.591836734693878e-06,
      "loss": 0.465,
      "step": 15100
    },
    {
      "epoch": 77.09183673469387,
      "grad_norm": 13.352662086486816,
      "learning_rate": 4.5816326530612245e-06,
      "loss": 0.4068,
      "step": 15110
    },
    {
      "epoch": 77.14285714285714,
      "grad_norm": 10.201356887817383,
      "learning_rate": 4.571428571428572e-06,
      "loss": 0.5254,
      "step": 15120
    },
    {
      "epoch": 77.1938775510204,
      "grad_norm": 26.589826583862305,
      "learning_rate": 4.561224489795919e-06,
      "loss": 0.3868,
      "step": 15130
    },
    {
      "epoch": 77.24489795918367,
      "grad_norm": 5.43177604675293,
      "learning_rate": 4.551020408163266e-06,
      "loss": 0.2145,
      "step": 15140
    },
    {
      "epoch": 77.29591836734694,
      "grad_norm": 10.410971641540527,
      "learning_rate": 4.540816326530613e-06,
      "loss": 0.4004,
      "step": 15150
    },
    {
      "epoch": 77.34693877551021,
      "grad_norm": 3.63741135597229,
      "learning_rate": 4.530612244897959e-06,
      "loss": 0.4187,
      "step": 15160
    },
    {
      "epoch": 77.39795918367346,
      "grad_norm": 35.084754943847656,
      "learning_rate": 4.520408163265306e-06,
      "loss": 0.4516,
      "step": 15170
    },
    {
      "epoch": 77.44897959183673,
      "grad_norm": 15.036014556884766,
      "learning_rate": 4.5102040816326535e-06,
      "loss": 0.4926,
      "step": 15180
    },
    {
      "epoch": 77.5,
      "grad_norm": 34.739112854003906,
      "learning_rate": 4.5e-06,
      "loss": 0.8338,
      "step": 15190
    },
    {
      "epoch": 77.55102040816327,
      "grad_norm": 9.563858985900879,
      "learning_rate": 4.489795918367348e-06,
      "loss": 0.344,
      "step": 15200
    },
    {
      "epoch": 77.60204081632654,
      "grad_norm": 10.582917213439941,
      "learning_rate": 4.479591836734694e-06,
      "loss": 0.419,
      "step": 15210
    },
    {
      "epoch": 77.65306122448979,
      "grad_norm": 1.9081370830535889,
      "learning_rate": 4.469387755102041e-06,
      "loss": 0.4495,
      "step": 15220
    },
    {
      "epoch": 77.70408163265306,
      "grad_norm": 1.7250034809112549,
      "learning_rate": 4.459183673469388e-06,
      "loss": 0.239,
      "step": 15230
    },
    {
      "epoch": 77.75510204081633,
      "grad_norm": 7.4475860595703125,
      "learning_rate": 4.448979591836735e-06,
      "loss": 0.4126,
      "step": 15240
    },
    {
      "epoch": 77.8061224489796,
      "grad_norm": 16.56342887878418,
      "learning_rate": 4.438775510204082e-06,
      "loss": 0.3325,
      "step": 15250
    },
    {
      "epoch": 77.85714285714286,
      "grad_norm": 18.33742904663086,
      "learning_rate": 4.428571428571429e-06,
      "loss": 0.4059,
      "step": 15260
    },
    {
      "epoch": 77.90816326530613,
      "grad_norm": 6.041954040527344,
      "learning_rate": 4.418367346938776e-06,
      "loss": 0.5435,
      "step": 15270
    },
    {
      "epoch": 77.95918367346938,
      "grad_norm": 22.62730598449707,
      "learning_rate": 4.408163265306123e-06,
      "loss": 0.3175,
      "step": 15280
    },
    {
      "epoch": 78.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.4108659327030182,
      "eval_runtime": 0.9017,
      "eval_samples_per_second": 307.191,
      "eval_steps_per_second": 38.815,
      "step": 15288
    },
    {
      "epoch": 78.01020408163265,
      "grad_norm": 11.026968002319336,
      "learning_rate": 4.39795918367347e-06,
      "loss": 0.4655,
      "step": 15290
    },
    {
      "epoch": 78.06122448979592,
      "grad_norm": 8.944518089294434,
      "learning_rate": 4.3877551020408165e-06,
      "loss": 0.4207,
      "step": 15300
    },
    {
      "epoch": 78.11224489795919,
      "grad_norm": 22.339962005615234,
      "learning_rate": 4.377551020408163e-06,
      "loss": 0.4212,
      "step": 15310
    },
    {
      "epoch": 78.16326530612245,
      "grad_norm": 1.802740454673767,
      "learning_rate": 4.367346938775511e-06,
      "loss": 0.4725,
      "step": 15320
    },
    {
      "epoch": 78.21428571428571,
      "grad_norm": 7.492072582244873,
      "learning_rate": 4.357142857142857e-06,
      "loss": 0.4622,
      "step": 15330
    },
    {
      "epoch": 78.26530612244898,
      "grad_norm": 18.05306053161621,
      "learning_rate": 4.346938775510205e-06,
      "loss": 0.441,
      "step": 15340
    },
    {
      "epoch": 78.31632653061224,
      "grad_norm": 21.13393783569336,
      "learning_rate": 4.336734693877551e-06,
      "loss": 0.2721,
      "step": 15350
    },
    {
      "epoch": 78.36734693877551,
      "grad_norm": 16.703645706176758,
      "learning_rate": 4.326530612244899e-06,
      "loss": 0.4918,
      "step": 15360
    },
    {
      "epoch": 78.41836734693878,
      "grad_norm": 9.697341918945312,
      "learning_rate": 4.3163265306122455e-06,
      "loss": 0.4457,
      "step": 15370
    },
    {
      "epoch": 78.46938775510205,
      "grad_norm": 2.9035732746124268,
      "learning_rate": 4.306122448979592e-06,
      "loss": 0.4004,
      "step": 15380
    },
    {
      "epoch": 78.5204081632653,
      "grad_norm": 9.191766738891602,
      "learning_rate": 4.295918367346939e-06,
      "loss": 0.5477,
      "step": 15390
    },
    {
      "epoch": 78.57142857142857,
      "grad_norm": 6.577059745788574,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 0.462,
      "step": 15400
    },
    {
      "epoch": 78.62244897959184,
      "grad_norm": 1.6094504594802856,
      "learning_rate": 4.275510204081633e-06,
      "loss": 0.4268,
      "step": 15410
    },
    {
      "epoch": 78.6734693877551,
      "grad_norm": 16.289249420166016,
      "learning_rate": 4.2653061224489804e-06,
      "loss": 0.2352,
      "step": 15420
    },
    {
      "epoch": 78.72448979591837,
      "grad_norm": 19.53223419189453,
      "learning_rate": 4.255102040816327e-06,
      "loss": 0.5349,
      "step": 15430
    },
    {
      "epoch": 78.77551020408163,
      "grad_norm": 21.40446662902832,
      "learning_rate": 4.244897959183674e-06,
      "loss": 0.3618,
      "step": 15440
    },
    {
      "epoch": 78.8265306122449,
      "grad_norm": 2.9884426593780518,
      "learning_rate": 4.234693877551021e-06,
      "loss": 0.2114,
      "step": 15450
    },
    {
      "epoch": 78.87755102040816,
      "grad_norm": 9.227190971374512,
      "learning_rate": 4.224489795918368e-06,
      "loss": 0.3576,
      "step": 15460
    },
    {
      "epoch": 78.92857142857143,
      "grad_norm": 3.1370465755462646,
      "learning_rate": 4.2142857142857145e-06,
      "loss": 0.3884,
      "step": 15470
    },
    {
      "epoch": 78.9795918367347,
      "grad_norm": 14.496454238891602,
      "learning_rate": 4.204081632653061e-06,
      "loss": 0.5334,
      "step": 15480
    },
    {
      "epoch": 79.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3918144702911377,
      "eval_runtime": 0.9045,
      "eval_samples_per_second": 306.254,
      "eval_steps_per_second": 38.696,
      "step": 15484
    },
    {
      "epoch": 79.03061224489795,
      "grad_norm": 2.8747096061706543,
      "learning_rate": 4.193877551020409e-06,
      "loss": 0.3174,
      "step": 15490
    },
    {
      "epoch": 79.08163265306122,
      "grad_norm": 8.774703979492188,
      "learning_rate": 4.183673469387755e-06,
      "loss": 0.4816,
      "step": 15500
    },
    {
      "epoch": 79.13265306122449,
      "grad_norm": 44.24391555786133,
      "learning_rate": 4.173469387755103e-06,
      "loss": 0.3657,
      "step": 15510
    },
    {
      "epoch": 79.18367346938776,
      "grad_norm": 8.056575775146484,
      "learning_rate": 4.163265306122449e-06,
      "loss": 0.3041,
      "step": 15520
    },
    {
      "epoch": 79.23469387755102,
      "grad_norm": 16.712915420532227,
      "learning_rate": 4.153061224489796e-06,
      "loss": 0.3163,
      "step": 15530
    },
    {
      "epoch": 79.28571428571429,
      "grad_norm": 1.8756932020187378,
      "learning_rate": 4.1428571428571435e-06,
      "loss": 0.4031,
      "step": 15540
    },
    {
      "epoch": 79.33673469387755,
      "grad_norm": 45.27180099487305,
      "learning_rate": 4.13265306122449e-06,
      "loss": 0.5662,
      "step": 15550
    },
    {
      "epoch": 79.38775510204081,
      "grad_norm": 27.332788467407227,
      "learning_rate": 4.122448979591837e-06,
      "loss": 0.5348,
      "step": 15560
    },
    {
      "epoch": 79.43877551020408,
      "grad_norm": 37.23391342163086,
      "learning_rate": 4.112244897959184e-06,
      "loss": 0.3922,
      "step": 15570
    },
    {
      "epoch": 79.48979591836735,
      "grad_norm": 12.597293853759766,
      "learning_rate": 4.102040816326531e-06,
      "loss": 0.5553,
      "step": 15580
    },
    {
      "epoch": 79.54081632653062,
      "grad_norm": 6.769608974456787,
      "learning_rate": 4.091836734693878e-06,
      "loss": 0.4602,
      "step": 15590
    },
    {
      "epoch": 79.59183673469387,
      "grad_norm": 12.53944206237793,
      "learning_rate": 4.081632653061225e-06,
      "loss": 0.2345,
      "step": 15600
    },
    {
      "epoch": 79.64285714285714,
      "grad_norm": 5.2335524559021,
      "learning_rate": 4.071428571428572e-06,
      "loss": 0.3685,
      "step": 15610
    },
    {
      "epoch": 79.6938775510204,
      "grad_norm": 9.488624572753906,
      "learning_rate": 4.061224489795918e-06,
      "loss": 0.3706,
      "step": 15620
    },
    {
      "epoch": 79.74489795918367,
      "grad_norm": 6.221753120422363,
      "learning_rate": 4.051020408163266e-06,
      "loss": 0.443,
      "step": 15630
    },
    {
      "epoch": 79.79591836734694,
      "grad_norm": 30.12897300720215,
      "learning_rate": 4.040816326530612e-06,
      "loss": 0.5148,
      "step": 15640
    },
    {
      "epoch": 79.84693877551021,
      "grad_norm": 27.07642364501953,
      "learning_rate": 4.03061224489796e-06,
      "loss": 0.2859,
      "step": 15650
    },
    {
      "epoch": 79.89795918367346,
      "grad_norm": 9.229447364807129,
      "learning_rate": 4.0204081632653065e-06,
      "loss": 0.3758,
      "step": 15660
    },
    {
      "epoch": 79.94897959183673,
      "grad_norm": 7.860888957977295,
      "learning_rate": 4.010204081632653e-06,
      "loss": 0.4932,
      "step": 15670
    },
    {
      "epoch": 80.0,
      "grad_norm": 1.739975929260254,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.4827,
      "step": 15680
    },
    {
      "epoch": 80.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3806876540184021,
      "eval_runtime": 0.9083,
      "eval_samples_per_second": 304.958,
      "eval_steps_per_second": 38.533,
      "step": 15680
    },
    {
      "epoch": 80.05102040816327,
      "grad_norm": 34.97610092163086,
      "learning_rate": 3.989795918367347e-06,
      "loss": 0.5639,
      "step": 15690
    },
    {
      "epoch": 80.10204081632654,
      "grad_norm": 10.888726234436035,
      "learning_rate": 3.979591836734694e-06,
      "loss": 0.3379,
      "step": 15700
    },
    {
      "epoch": 80.15306122448979,
      "grad_norm": 10.041668891906738,
      "learning_rate": 3.969387755102041e-06,
      "loss": 0.1775,
      "step": 15710
    },
    {
      "epoch": 80.20408163265306,
      "grad_norm": 7.886096477508545,
      "learning_rate": 3.959183673469388e-06,
      "loss": 0.3892,
      "step": 15720
    },
    {
      "epoch": 80.25510204081633,
      "grad_norm": 42.52606964111328,
      "learning_rate": 3.9489795918367356e-06,
      "loss": 0.4214,
      "step": 15730
    },
    {
      "epoch": 80.3061224489796,
      "grad_norm": 2.7182626724243164,
      "learning_rate": 3.938775510204082e-06,
      "loss": 0.4261,
      "step": 15740
    },
    {
      "epoch": 80.35714285714286,
      "grad_norm": 6.39992094039917,
      "learning_rate": 3.928571428571429e-06,
      "loss": 0.4417,
      "step": 15750
    },
    {
      "epoch": 80.40816326530613,
      "grad_norm": 1.691892147064209,
      "learning_rate": 3.9183673469387755e-06,
      "loss": 0.3184,
      "step": 15760
    },
    {
      "epoch": 80.45918367346938,
      "grad_norm": 24.089345932006836,
      "learning_rate": 3.908163265306123e-06,
      "loss": 0.3878,
      "step": 15770
    },
    {
      "epoch": 80.51020408163265,
      "grad_norm": 19.07234001159668,
      "learning_rate": 3.89795918367347e-06,
      "loss": 0.3029,
      "step": 15780
    },
    {
      "epoch": 80.56122448979592,
      "grad_norm": 2.3979434967041016,
      "learning_rate": 3.887755102040816e-06,
      "loss": 0.6448,
      "step": 15790
    },
    {
      "epoch": 80.61224489795919,
      "grad_norm": 9.897544860839844,
      "learning_rate": 3.877551020408164e-06,
      "loss": 0.2474,
      "step": 15800
    },
    {
      "epoch": 80.66326530612245,
      "grad_norm": 28.378501892089844,
      "learning_rate": 3.86734693877551e-06,
      "loss": 0.5593,
      "step": 15810
    },
    {
      "epoch": 80.71428571428571,
      "grad_norm": 4.519187927246094,
      "learning_rate": 3.857142857142858e-06,
      "loss": 0.3871,
      "step": 15820
    },
    {
      "epoch": 80.76530612244898,
      "grad_norm": 2.819807767868042,
      "learning_rate": 3.8469387755102045e-06,
      "loss": 0.3931,
      "step": 15830
    },
    {
      "epoch": 80.81632653061224,
      "grad_norm": 4.0635151863098145,
      "learning_rate": 3.836734693877551e-06,
      "loss": 0.3367,
      "step": 15840
    },
    {
      "epoch": 80.86734693877551,
      "grad_norm": 5.930593967437744,
      "learning_rate": 3.826530612244898e-06,
      "loss": 0.4657,
      "step": 15850
    },
    {
      "epoch": 80.91836734693878,
      "grad_norm": 5.44573974609375,
      "learning_rate": 3.816326530612245e-06,
      "loss": 0.406,
      "step": 15860
    },
    {
      "epoch": 80.96938775510205,
      "grad_norm": 5.287220001220703,
      "learning_rate": 3.8061224489795923e-06,
      "loss": 0.5162,
      "step": 15870
    },
    {
      "epoch": 81.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.362394243478775,
      "eval_runtime": 0.958,
      "eval_samples_per_second": 289.147,
      "eval_steps_per_second": 36.535,
      "step": 15876
    },
    {
      "epoch": 81.0204081632653,
      "grad_norm": 23.364187240600586,
      "learning_rate": 3.795918367346939e-06,
      "loss": 0.4562,
      "step": 15880
    },
    {
      "epoch": 81.07142857142857,
      "grad_norm": 11.667214393615723,
      "learning_rate": 3.785714285714286e-06,
      "loss": 0.9114,
      "step": 15890
    },
    {
      "epoch": 81.12244897959184,
      "grad_norm": 24.81093978881836,
      "learning_rate": 3.7755102040816327e-06,
      "loss": 0.4576,
      "step": 15900
    },
    {
      "epoch": 81.1734693877551,
      "grad_norm": 0.6063504815101624,
      "learning_rate": 3.76530612244898e-06,
      "loss": 0.2636,
      "step": 15910
    },
    {
      "epoch": 81.22448979591837,
      "grad_norm": 10.222855567932129,
      "learning_rate": 3.7551020408163268e-06,
      "loss": 0.403,
      "step": 15920
    },
    {
      "epoch": 81.27551020408163,
      "grad_norm": 2.0537495613098145,
      "learning_rate": 3.744897959183674e-06,
      "loss": 0.2546,
      "step": 15930
    },
    {
      "epoch": 81.3265306122449,
      "grad_norm": 4.051932334899902,
      "learning_rate": 3.7346938775510205e-06,
      "loss": 0.6202,
      "step": 15940
    },
    {
      "epoch": 81.37755102040816,
      "grad_norm": 0.48124757409095764,
      "learning_rate": 3.724489795918368e-06,
      "loss": 0.2549,
      "step": 15950
    },
    {
      "epoch": 81.42857142857143,
      "grad_norm": 16.56534194946289,
      "learning_rate": 3.7142857142857146e-06,
      "loss": 0.4265,
      "step": 15960
    },
    {
      "epoch": 81.4795918367347,
      "grad_norm": 7.831731796264648,
      "learning_rate": 3.7040816326530617e-06,
      "loss": 0.5227,
      "step": 15970
    },
    {
      "epoch": 81.53061224489795,
      "grad_norm": 14.595847129821777,
      "learning_rate": 3.6938775510204083e-06,
      "loss": 0.209,
      "step": 15980
    },
    {
      "epoch": 81.58163265306122,
      "grad_norm": 11.52236270904541,
      "learning_rate": 3.6836734693877554e-06,
      "loss": 0.7313,
      "step": 15990
    },
    {
      "epoch": 81.63265306122449,
      "grad_norm": 6.8824076652526855,
      "learning_rate": 3.6734693877551024e-06,
      "loss": 0.5723,
      "step": 16000
    },
    {
      "epoch": 81.68367346938776,
      "grad_norm": 3.7000932693481445,
      "learning_rate": 3.6632653061224495e-06,
      "loss": 0.3059,
      "step": 16010
    },
    {
      "epoch": 81.73469387755102,
      "grad_norm": 21.292383193969727,
      "learning_rate": 3.653061224489796e-06,
      "loss": 0.2848,
      "step": 16020
    },
    {
      "epoch": 81.78571428571429,
      "grad_norm": 6.999866008758545,
      "learning_rate": 3.642857142857143e-06,
      "loss": 0.2618,
      "step": 16030
    },
    {
      "epoch": 81.83673469387755,
      "grad_norm": 2.281949281692505,
      "learning_rate": 3.6326530612244903e-06,
      "loss": 0.5477,
      "step": 16040
    },
    {
      "epoch": 81.88775510204081,
      "grad_norm": 3.5689549446105957,
      "learning_rate": 3.6224489795918373e-06,
      "loss": 0.417,
      "step": 16050
    },
    {
      "epoch": 81.93877551020408,
      "grad_norm": 5.575857162475586,
      "learning_rate": 3.612244897959184e-06,
      "loss": 0.2093,
      "step": 16060
    },
    {
      "epoch": 81.98979591836735,
      "grad_norm": 20.58912467956543,
      "learning_rate": 3.6020408163265306e-06,
      "loss": 0.4377,
      "step": 16070
    },
    {
      "epoch": 82.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3729492127895355,
      "eval_runtime": 0.9641,
      "eval_samples_per_second": 287.303,
      "eval_steps_per_second": 36.302,
      "step": 16072
    },
    {
      "epoch": 82.04081632653062,
      "grad_norm": 12.04570484161377,
      "learning_rate": 3.5918367346938777e-06,
      "loss": 0.5201,
      "step": 16080
    },
    {
      "epoch": 82.09183673469387,
      "grad_norm": 8.80511474609375,
      "learning_rate": 3.581632653061225e-06,
      "loss": 0.4264,
      "step": 16090
    },
    {
      "epoch": 82.14285714285714,
      "grad_norm": 25.351408004760742,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 0.2587,
      "step": 16100
    },
    {
      "epoch": 82.1938775510204,
      "grad_norm": 3.461965799331665,
      "learning_rate": 3.5612244897959184e-06,
      "loss": 0.342,
      "step": 16110
    },
    {
      "epoch": 82.24489795918367,
      "grad_norm": 54.579437255859375,
      "learning_rate": 3.5510204081632655e-06,
      "loss": 0.6379,
      "step": 16120
    },
    {
      "epoch": 82.29591836734694,
      "grad_norm": 3.223581552505493,
      "learning_rate": 3.540816326530613e-06,
      "loss": 0.2438,
      "step": 16130
    },
    {
      "epoch": 82.34693877551021,
      "grad_norm": 22.034629821777344,
      "learning_rate": 3.5306122448979596e-06,
      "loss": 0.3872,
      "step": 16140
    },
    {
      "epoch": 82.39795918367346,
      "grad_norm": 4.7752909660339355,
      "learning_rate": 3.5204081632653062e-06,
      "loss": 0.4742,
      "step": 16150
    },
    {
      "epoch": 82.44897959183673,
      "grad_norm": 24.328065872192383,
      "learning_rate": 3.5102040816326533e-06,
      "loss": 0.4151,
      "step": 16160
    },
    {
      "epoch": 82.5,
      "grad_norm": 4.752197265625,
      "learning_rate": 3.5e-06,
      "loss": 0.1991,
      "step": 16170
    },
    {
      "epoch": 82.55102040816327,
      "grad_norm": 26.95965003967285,
      "learning_rate": 3.4897959183673474e-06,
      "loss": 0.469,
      "step": 16180
    },
    {
      "epoch": 82.60204081632654,
      "grad_norm": 11.63065242767334,
      "learning_rate": 3.479591836734694e-06,
      "loss": 0.451,
      "step": 16190
    },
    {
      "epoch": 82.65306122448979,
      "grad_norm": 26.397214889526367,
      "learning_rate": 3.469387755102041e-06,
      "loss": 0.3268,
      "step": 16200
    },
    {
      "epoch": 82.70408163265306,
      "grad_norm": 23.932096481323242,
      "learning_rate": 3.4591836734693878e-06,
      "loss": 0.5335,
      "step": 16210
    },
    {
      "epoch": 82.75510204081633,
      "grad_norm": 14.76322078704834,
      "learning_rate": 3.4489795918367353e-06,
      "loss": 0.6678,
      "step": 16220
    },
    {
      "epoch": 82.8061224489796,
      "grad_norm": 2.3216769695281982,
      "learning_rate": 3.438775510204082e-06,
      "loss": 0.3133,
      "step": 16230
    },
    {
      "epoch": 82.85714285714286,
      "grad_norm": 2.1351118087768555,
      "learning_rate": 3.428571428571429e-06,
      "loss": 0.2336,
      "step": 16240
    },
    {
      "epoch": 82.90816326530613,
      "grad_norm": 16.965871810913086,
      "learning_rate": 3.4183673469387756e-06,
      "loss": 0.2853,
      "step": 16250
    },
    {
      "epoch": 82.95918367346938,
      "grad_norm": 9.578276634216309,
      "learning_rate": 3.4081632653061227e-06,
      "loss": 0.4487,
      "step": 16260
    },
    {
      "epoch": 83.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.39810070395469666,
      "eval_runtime": 0.9871,
      "eval_samples_per_second": 280.617,
      "eval_steps_per_second": 35.457,
      "step": 16268
    },
    {
      "epoch": 83.01020408163265,
      "grad_norm": 22.839662551879883,
      "learning_rate": 3.3979591836734697e-06,
      "loss": 0.3303,
      "step": 16270
    },
    {
      "epoch": 83.06122448979592,
      "grad_norm": 2.0950934886932373,
      "learning_rate": 3.3877551020408168e-06,
      "loss": 0.2325,
      "step": 16280
    },
    {
      "epoch": 83.11224489795919,
      "grad_norm": 5.742408275604248,
      "learning_rate": 3.3775510204081634e-06,
      "loss": 0.4998,
      "step": 16290
    },
    {
      "epoch": 83.16326530612245,
      "grad_norm": 3.7770371437072754,
      "learning_rate": 3.3673469387755105e-06,
      "loss": 0.3407,
      "step": 16300
    },
    {
      "epoch": 83.21428571428571,
      "grad_norm": 9.646605491638184,
      "learning_rate": 3.357142857142857e-06,
      "loss": 0.3943,
      "step": 16310
    },
    {
      "epoch": 83.26530612244898,
      "grad_norm": 3.4349703788757324,
      "learning_rate": 3.3469387755102046e-06,
      "loss": 0.3416,
      "step": 16320
    },
    {
      "epoch": 83.31632653061224,
      "grad_norm": 2.3338637351989746,
      "learning_rate": 3.3367346938775513e-06,
      "loss": 0.4352,
      "step": 16330
    },
    {
      "epoch": 83.36734693877551,
      "grad_norm": 30.34683609008789,
      "learning_rate": 3.3265306122448983e-06,
      "loss": 0.5715,
      "step": 16340
    },
    {
      "epoch": 83.41836734693878,
      "grad_norm": 17.504085540771484,
      "learning_rate": 3.316326530612245e-06,
      "loss": 0.4321,
      "step": 16350
    },
    {
      "epoch": 83.46938775510205,
      "grad_norm": 18.27973747253418,
      "learning_rate": 3.3061224489795924e-06,
      "loss": 0.2246,
      "step": 16360
    },
    {
      "epoch": 83.5204081632653,
      "grad_norm": 13.517559051513672,
      "learning_rate": 3.295918367346939e-06,
      "loss": 0.5558,
      "step": 16370
    },
    {
      "epoch": 83.57142857142857,
      "grad_norm": 10.381741523742676,
      "learning_rate": 3.285714285714286e-06,
      "loss": 0.495,
      "step": 16380
    },
    {
      "epoch": 83.62244897959184,
      "grad_norm": 3.9927868843078613,
      "learning_rate": 3.2755102040816328e-06,
      "loss": 0.5864,
      "step": 16390
    },
    {
      "epoch": 83.6734693877551,
      "grad_norm": 10.201730728149414,
      "learning_rate": 3.2653061224489794e-06,
      "loss": 0.3697,
      "step": 16400
    },
    {
      "epoch": 83.72448979591837,
      "grad_norm": 18.021324157714844,
      "learning_rate": 3.255102040816327e-06,
      "loss": 0.3752,
      "step": 16410
    },
    {
      "epoch": 83.77551020408163,
      "grad_norm": 1.8400534391403198,
      "learning_rate": 3.244897959183674e-06,
      "loss": 0.3561,
      "step": 16420
    },
    {
      "epoch": 83.8265306122449,
      "grad_norm": 32.164127349853516,
      "learning_rate": 3.2346938775510206e-06,
      "loss": 0.5509,
      "step": 16430
    },
    {
      "epoch": 83.87755102040816,
      "grad_norm": 2.862616539001465,
      "learning_rate": 3.2244897959183672e-06,
      "loss": 0.2914,
      "step": 16440
    },
    {
      "epoch": 83.92857142857143,
      "grad_norm": 2.96185040473938,
      "learning_rate": 3.2142857142857147e-06,
      "loss": 0.3571,
      "step": 16450
    },
    {
      "epoch": 83.9795918367347,
      "grad_norm": 2.446099281311035,
      "learning_rate": 3.204081632653062e-06,
      "loss": 0.5057,
      "step": 16460
    },
    {
      "epoch": 84.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.39953112602233887,
      "eval_runtime": 0.9181,
      "eval_samples_per_second": 301.702,
      "eval_steps_per_second": 38.121,
      "step": 16464
    },
    {
      "epoch": 84.03061224489795,
      "grad_norm": 10.608993530273438,
      "learning_rate": 3.1938775510204084e-06,
      "loss": 0.3268,
      "step": 16470
    },
    {
      "epoch": 84.08163265306122,
      "grad_norm": 16.541515350341797,
      "learning_rate": 3.183673469387755e-06,
      "loss": 0.3534,
      "step": 16480
    },
    {
      "epoch": 84.13265306122449,
      "grad_norm": 6.30885124206543,
      "learning_rate": 3.173469387755102e-06,
      "loss": 0.4867,
      "step": 16490
    },
    {
      "epoch": 84.18367346938776,
      "grad_norm": 23.49003028869629,
      "learning_rate": 3.1632653061224496e-06,
      "loss": 0.3519,
      "step": 16500
    },
    {
      "epoch": 84.23469387755102,
      "grad_norm": 2.5659539699554443,
      "learning_rate": 3.1530612244897963e-06,
      "loss": 0.5715,
      "step": 16510
    },
    {
      "epoch": 84.28571428571429,
      "grad_norm": 22.444561004638672,
      "learning_rate": 3.142857142857143e-06,
      "loss": 0.3915,
      "step": 16520
    },
    {
      "epoch": 84.33673469387755,
      "grad_norm": 10.584693908691406,
      "learning_rate": 3.13265306122449e-06,
      "loss": 0.4748,
      "step": 16530
    },
    {
      "epoch": 84.38775510204081,
      "grad_norm": 6.0705246925354,
      "learning_rate": 3.1224489795918374e-06,
      "loss": 0.3762,
      "step": 16540
    },
    {
      "epoch": 84.43877551020408,
      "grad_norm": 26.056787490844727,
      "learning_rate": 3.112244897959184e-06,
      "loss": 0.5042,
      "step": 16550
    },
    {
      "epoch": 84.48979591836735,
      "grad_norm": 4.086847305297852,
      "learning_rate": 3.1020408163265307e-06,
      "loss": 0.6595,
      "step": 16560
    },
    {
      "epoch": 84.54081632653062,
      "grad_norm": 25.299968719482422,
      "learning_rate": 3.0918367346938778e-06,
      "loss": 0.4335,
      "step": 16570
    },
    {
      "epoch": 84.59183673469387,
      "grad_norm": 1.3678854703903198,
      "learning_rate": 3.0816326530612244e-06,
      "loss": 0.448,
      "step": 16580
    },
    {
      "epoch": 84.64285714285714,
      "grad_norm": 8.832656860351562,
      "learning_rate": 3.071428571428572e-06,
      "loss": 0.4535,
      "step": 16590
    },
    {
      "epoch": 84.6938775510204,
      "grad_norm": 12.246307373046875,
      "learning_rate": 3.0612244897959185e-06,
      "loss": 0.3626,
      "step": 16600
    },
    {
      "epoch": 84.74489795918367,
      "grad_norm": 5.314432144165039,
      "learning_rate": 3.0510204081632656e-06,
      "loss": 0.3976,
      "step": 16610
    },
    {
      "epoch": 84.79591836734694,
      "grad_norm": 17.165077209472656,
      "learning_rate": 3.0408163265306122e-06,
      "loss": 0.3844,
      "step": 16620
    },
    {
      "epoch": 84.84693877551021,
      "grad_norm": 2.6279444694519043,
      "learning_rate": 3.0306122448979597e-06,
      "loss": 0.3608,
      "step": 16630
    },
    {
      "epoch": 84.89795918367346,
      "grad_norm": 8.630874633789062,
      "learning_rate": 3.0204081632653064e-06,
      "loss": 0.4082,
      "step": 16640
    },
    {
      "epoch": 84.94897959183673,
      "grad_norm": 3.8272078037261963,
      "learning_rate": 3.0102040816326534e-06,
      "loss": 0.3863,
      "step": 16650
    },
    {
      "epoch": 85.0,
      "grad_norm": 29.0062313079834,
      "learning_rate": 3e-06,
      "loss": 0.3421,
      "step": 16660
    },
    {
      "epoch": 85.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.35544726252555847,
      "eval_runtime": 0.9085,
      "eval_samples_per_second": 304.889,
      "eval_steps_per_second": 38.524,
      "step": 16660
    },
    {
      "epoch": 85.05102040816327,
      "grad_norm": 8.775385856628418,
      "learning_rate": 2.989795918367347e-06,
      "loss": 0.3646,
      "step": 16670
    },
    {
      "epoch": 85.10204081632654,
      "grad_norm": 12.55631160736084,
      "learning_rate": 2.979591836734694e-06,
      "loss": 0.3533,
      "step": 16680
    },
    {
      "epoch": 85.15306122448979,
      "grad_norm": 2.8192479610443115,
      "learning_rate": 2.9693877551020413e-06,
      "loss": 0.5212,
      "step": 16690
    },
    {
      "epoch": 85.20408163265306,
      "grad_norm": 9.226512908935547,
      "learning_rate": 2.959183673469388e-06,
      "loss": 0.3402,
      "step": 16700
    },
    {
      "epoch": 85.25510204081633,
      "grad_norm": 5.162266254425049,
      "learning_rate": 2.948979591836735e-06,
      "loss": 0.481,
      "step": 16710
    },
    {
      "epoch": 85.3061224489796,
      "grad_norm": 4.3640289306640625,
      "learning_rate": 2.938775510204082e-06,
      "loss": 0.2973,
      "step": 16720
    },
    {
      "epoch": 85.35714285714286,
      "grad_norm": 43.56928634643555,
      "learning_rate": 2.928571428571429e-06,
      "loss": 0.4252,
      "step": 16730
    },
    {
      "epoch": 85.40816326530613,
      "grad_norm": 10.528129577636719,
      "learning_rate": 2.9183673469387757e-06,
      "loss": 0.3221,
      "step": 16740
    },
    {
      "epoch": 85.45918367346938,
      "grad_norm": 5.32432222366333,
      "learning_rate": 2.908163265306123e-06,
      "loss": 0.3178,
      "step": 16750
    },
    {
      "epoch": 85.51020408163265,
      "grad_norm": 19.49081039428711,
      "learning_rate": 2.8979591836734694e-06,
      "loss": 0.2477,
      "step": 16760
    },
    {
      "epoch": 85.56122448979592,
      "grad_norm": 45.51627731323242,
      "learning_rate": 2.887755102040817e-06,
      "loss": 0.4164,
      "step": 16770
    },
    {
      "epoch": 85.61224489795919,
      "grad_norm": 2.5020499229431152,
      "learning_rate": 2.8775510204081636e-06,
      "loss": 0.8765,
      "step": 16780
    },
    {
      "epoch": 85.66326530612245,
      "grad_norm": 5.380728721618652,
      "learning_rate": 2.86734693877551e-06,
      "loss": 0.4819,
      "step": 16790
    },
    {
      "epoch": 85.71428571428571,
      "grad_norm": 15.728395462036133,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 0.4696,
      "step": 16800
    },
    {
      "epoch": 85.76530612244898,
      "grad_norm": 2.3356149196624756,
      "learning_rate": 2.8469387755102047e-06,
      "loss": 0.4679,
      "step": 16810
    },
    {
      "epoch": 85.81632653061224,
      "grad_norm": 31.62234878540039,
      "learning_rate": 2.8367346938775514e-06,
      "loss": 0.4836,
      "step": 16820
    },
    {
      "epoch": 85.86734693877551,
      "grad_norm": 12.294305801391602,
      "learning_rate": 2.826530612244898e-06,
      "loss": 0.1725,
      "step": 16830
    },
    {
      "epoch": 85.91836734693878,
      "grad_norm": 23.652421951293945,
      "learning_rate": 2.816326530612245e-06,
      "loss": 0.4443,
      "step": 16840
    },
    {
      "epoch": 85.96938775510205,
      "grad_norm": 33.02007293701172,
      "learning_rate": 2.8061224489795917e-06,
      "loss": 0.4083,
      "step": 16850
    },
    {
      "epoch": 86.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.36336541175842285,
      "eval_runtime": 0.9088,
      "eval_samples_per_second": 304.794,
      "eval_steps_per_second": 38.512,
      "step": 16856
    },
    {
      "epoch": 86.0204081632653,
      "grad_norm": 9.722105026245117,
      "learning_rate": 2.795918367346939e-06,
      "loss": 0.3654,
      "step": 16860
    },
    {
      "epoch": 86.07142857142857,
      "grad_norm": 22.516874313354492,
      "learning_rate": 2.785714285714286e-06,
      "loss": 0.4785,
      "step": 16870
    },
    {
      "epoch": 86.12244897959184,
      "grad_norm": 27.164230346679688,
      "learning_rate": 2.775510204081633e-06,
      "loss": 0.2596,
      "step": 16880
    },
    {
      "epoch": 86.1734693877551,
      "grad_norm": 33.64569091796875,
      "learning_rate": 2.7653061224489795e-06,
      "loss": 0.3811,
      "step": 16890
    },
    {
      "epoch": 86.22448979591837,
      "grad_norm": 14.705650329589844,
      "learning_rate": 2.7551020408163266e-06,
      "loss": 0.3003,
      "step": 16900
    },
    {
      "epoch": 86.27551020408163,
      "grad_norm": 4.7942938804626465,
      "learning_rate": 2.7448979591836737e-06,
      "loss": 0.2823,
      "step": 16910
    },
    {
      "epoch": 86.3265306122449,
      "grad_norm": 13.33407211303711,
      "learning_rate": 2.7346938775510207e-06,
      "loss": 0.4375,
      "step": 16920
    },
    {
      "epoch": 86.37755102040816,
      "grad_norm": 4.125268936157227,
      "learning_rate": 2.7244897959183674e-06,
      "loss": 0.2835,
      "step": 16930
    },
    {
      "epoch": 86.42857142857143,
      "grad_norm": 10.645001411437988,
      "learning_rate": 2.7142857142857144e-06,
      "loss": 0.4266,
      "step": 16940
    },
    {
      "epoch": 86.4795918367347,
      "grad_norm": 24.158552169799805,
      "learning_rate": 2.7040816326530615e-06,
      "loss": 0.3506,
      "step": 16950
    },
    {
      "epoch": 86.53061224489795,
      "grad_norm": 11.772558212280273,
      "learning_rate": 2.6938775510204086e-06,
      "loss": 0.421,
      "step": 16960
    },
    {
      "epoch": 86.58163265306122,
      "grad_norm": 2.826885223388672,
      "learning_rate": 2.683673469387755e-06,
      "loss": 0.7357,
      "step": 16970
    },
    {
      "epoch": 86.63265306122449,
      "grad_norm": 20.701171875,
      "learning_rate": 2.6734693877551023e-06,
      "loss": 0.4802,
      "step": 16980
    },
    {
      "epoch": 86.68367346938776,
      "grad_norm": 2.661121129989624,
      "learning_rate": 2.663265306122449e-06,
      "loss": 0.3438,
      "step": 16990
    },
    {
      "epoch": 86.73469387755102,
      "grad_norm": 1.7190595865249634,
      "learning_rate": 2.6530612244897964e-06,
      "loss": 0.4715,
      "step": 17000
    },
    {
      "epoch": 86.78571428571429,
      "grad_norm": 6.14939546585083,
      "learning_rate": 2.642857142857143e-06,
      "loss": 0.4922,
      "step": 17010
    },
    {
      "epoch": 86.83673469387755,
      "grad_norm": 9.6795654296875,
      "learning_rate": 2.63265306122449e-06,
      "loss": 0.2796,
      "step": 17020
    },
    {
      "epoch": 86.88775510204081,
      "grad_norm": 6.401210784912109,
      "learning_rate": 2.6224489795918367e-06,
      "loss": 0.3381,
      "step": 17030
    },
    {
      "epoch": 86.93877551020408,
      "grad_norm": 10.354711532592773,
      "learning_rate": 2.6122448979591842e-06,
      "loss": 0.2636,
      "step": 17040
    },
    {
      "epoch": 86.98979591836735,
      "grad_norm": 43.53529357910156,
      "learning_rate": 2.602040816326531e-06,
      "loss": 0.7634,
      "step": 17050
    },
    {
      "epoch": 87.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3970089256763458,
      "eval_runtime": 0.9032,
      "eval_samples_per_second": 306.68,
      "eval_steps_per_second": 38.75,
      "step": 17052
    },
    {
      "epoch": 87.04081632653062,
      "grad_norm": 8.805875778198242,
      "learning_rate": 2.591836734693878e-06,
      "loss": 0.4498,
      "step": 17060
    },
    {
      "epoch": 87.09183673469387,
      "grad_norm": 0.6131561398506165,
      "learning_rate": 2.5816326530612246e-06,
      "loss": 0.3447,
      "step": 17070
    },
    {
      "epoch": 87.14285714285714,
      "grad_norm": 34.264766693115234,
      "learning_rate": 2.571428571428571e-06,
      "loss": 0.602,
      "step": 17080
    },
    {
      "epoch": 87.1938775510204,
      "grad_norm": 6.236386775970459,
      "learning_rate": 2.5612244897959187e-06,
      "loss": 0.5291,
      "step": 17090
    },
    {
      "epoch": 87.24489795918367,
      "grad_norm": 23.812767028808594,
      "learning_rate": 2.5510204081632657e-06,
      "loss": 0.7738,
      "step": 17100
    },
    {
      "epoch": 87.29591836734694,
      "grad_norm": 39.168392181396484,
      "learning_rate": 2.5408163265306124e-06,
      "loss": 0.5689,
      "step": 17110
    },
    {
      "epoch": 87.34693877551021,
      "grad_norm": 2.5605485439300537,
      "learning_rate": 2.530612244897959e-06,
      "loss": 0.2129,
      "step": 17120
    },
    {
      "epoch": 87.39795918367346,
      "grad_norm": 1.311331033706665,
      "learning_rate": 2.5204081632653065e-06,
      "loss": 0.1981,
      "step": 17130
    },
    {
      "epoch": 87.44897959183673,
      "grad_norm": 3.9180777072906494,
      "learning_rate": 2.5102040816326536e-06,
      "loss": 0.2849,
      "step": 17140
    },
    {
      "epoch": 87.5,
      "grad_norm": 5.037756443023682,
      "learning_rate": 2.5e-06,
      "loss": 0.4236,
      "step": 17150
    },
    {
      "epoch": 87.55102040816327,
      "grad_norm": 12.407039642333984,
      "learning_rate": 2.489795918367347e-06,
      "loss": 0.3711,
      "step": 17160
    },
    {
      "epoch": 87.60204081632654,
      "grad_norm": 11.59742546081543,
      "learning_rate": 2.479591836734694e-06,
      "loss": 0.4362,
      "step": 17170
    },
    {
      "epoch": 87.65306122448979,
      "grad_norm": 41.6197509765625,
      "learning_rate": 2.469387755102041e-06,
      "loss": 0.3772,
      "step": 17180
    },
    {
      "epoch": 87.70408163265306,
      "grad_norm": 0.9934547543525696,
      "learning_rate": 2.459183673469388e-06,
      "loss": 0.3936,
      "step": 17190
    },
    {
      "epoch": 87.75510204081633,
      "grad_norm": 2.515122413635254,
      "learning_rate": 2.4489795918367347e-06,
      "loss": 0.2077,
      "step": 17200
    },
    {
      "epoch": 87.8061224489796,
      "grad_norm": 26.949485778808594,
      "learning_rate": 2.4387755102040817e-06,
      "loss": 0.4342,
      "step": 17210
    },
    {
      "epoch": 87.85714285714286,
      "grad_norm": 8.357209205627441,
      "learning_rate": 2.428571428571429e-06,
      "loss": 0.5074,
      "step": 17220
    },
    {
      "epoch": 87.90816326530613,
      "grad_norm": 15.716058731079102,
      "learning_rate": 2.418367346938776e-06,
      "loss": 0.207,
      "step": 17230
    },
    {
      "epoch": 87.95918367346938,
      "grad_norm": 1.3409724235534668,
      "learning_rate": 2.4081632653061225e-06,
      "loss": 0.2588,
      "step": 17240
    },
    {
      "epoch": 88.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.4121416509151459,
      "eval_runtime": 0.9087,
      "eval_samples_per_second": 304.831,
      "eval_steps_per_second": 38.517,
      "step": 17248
    },
    {
      "epoch": 88.01020408163265,
      "grad_norm": 3.9224095344543457,
      "learning_rate": 2.3979591836734696e-06,
      "loss": 0.5165,
      "step": 17250
    },
    {
      "epoch": 88.06122448979592,
      "grad_norm": 14.236187934875488,
      "learning_rate": 2.3877551020408166e-06,
      "loss": 0.2119,
      "step": 17260
    },
    {
      "epoch": 88.11224489795919,
      "grad_norm": 12.086106300354004,
      "learning_rate": 2.3775510204081633e-06,
      "loss": 0.3762,
      "step": 17270
    },
    {
      "epoch": 88.16326530612245,
      "grad_norm": 20.56262969970703,
      "learning_rate": 2.3673469387755103e-06,
      "loss": 0.6071,
      "step": 17280
    },
    {
      "epoch": 88.21428571428571,
      "grad_norm": 13.59850788116455,
      "learning_rate": 2.3571428571428574e-06,
      "loss": 0.2901,
      "step": 17290
    },
    {
      "epoch": 88.26530612244898,
      "grad_norm": 13.611496925354004,
      "learning_rate": 2.3469387755102044e-06,
      "loss": 0.3457,
      "step": 17300
    },
    {
      "epoch": 88.31632653061224,
      "grad_norm": 3.5244667530059814,
      "learning_rate": 2.336734693877551e-06,
      "loss": 0.4358,
      "step": 17310
    },
    {
      "epoch": 88.36734693877551,
      "grad_norm": 1.0056344270706177,
      "learning_rate": 2.326530612244898e-06,
      "loss": 0.4221,
      "step": 17320
    },
    {
      "epoch": 88.41836734693878,
      "grad_norm": 5.958067417144775,
      "learning_rate": 2.316326530612245e-06,
      "loss": 0.2887,
      "step": 17330
    },
    {
      "epoch": 88.46938775510205,
      "grad_norm": 6.032614707946777,
      "learning_rate": 2.306122448979592e-06,
      "loss": 0.9031,
      "step": 17340
    },
    {
      "epoch": 88.5204081632653,
      "grad_norm": 9.229166030883789,
      "learning_rate": 2.295918367346939e-06,
      "loss": 0.5348,
      "step": 17350
    },
    {
      "epoch": 88.57142857142857,
      "grad_norm": 19.48055648803711,
      "learning_rate": 2.285714285714286e-06,
      "loss": 0.1901,
      "step": 17360
    },
    {
      "epoch": 88.62244897959184,
      "grad_norm": 13.146219253540039,
      "learning_rate": 2.275510204081633e-06,
      "loss": 0.4945,
      "step": 17370
    },
    {
      "epoch": 88.6734693877551,
      "grad_norm": 11.14034366607666,
      "learning_rate": 2.2653061224489797e-06,
      "loss": 0.536,
      "step": 17380
    },
    {
      "epoch": 88.72448979591837,
      "grad_norm": 37.27104568481445,
      "learning_rate": 2.2551020408163267e-06,
      "loss": 0.5382,
      "step": 17390
    },
    {
      "epoch": 88.77551020408163,
      "grad_norm": 2.2158312797546387,
      "learning_rate": 2.244897959183674e-06,
      "loss": 0.2914,
      "step": 17400
    },
    {
      "epoch": 88.8265306122449,
      "grad_norm": 1.9374654293060303,
      "learning_rate": 2.2346938775510204e-06,
      "loss": 0.423,
      "step": 17410
    },
    {
      "epoch": 88.87755102040816,
      "grad_norm": 6.743443012237549,
      "learning_rate": 2.2244897959183675e-06,
      "loss": 0.5625,
      "step": 17420
    },
    {
      "epoch": 88.92857142857143,
      "grad_norm": 0.8757683038711548,
      "learning_rate": 2.2142857142857146e-06,
      "loss": 0.2238,
      "step": 17430
    },
    {
      "epoch": 88.9795918367347,
      "grad_norm": 13.449472427368164,
      "learning_rate": 2.2040816326530616e-06,
      "loss": 0.1584,
      "step": 17440
    },
    {
      "epoch": 89.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.371072381734848,
      "eval_runtime": 0.9053,
      "eval_samples_per_second": 305.979,
      "eval_steps_per_second": 38.662,
      "step": 17444
    },
    {
      "epoch": 89.03061224489795,
      "grad_norm": 23.36796760559082,
      "learning_rate": 2.1938775510204083e-06,
      "loss": 0.3611,
      "step": 17450
    },
    {
      "epoch": 89.08163265306122,
      "grad_norm": 4.293680191040039,
      "learning_rate": 2.1836734693877553e-06,
      "loss": 0.3258,
      "step": 17460
    },
    {
      "epoch": 89.13265306122449,
      "grad_norm": 3.3213436603546143,
      "learning_rate": 2.1734693877551024e-06,
      "loss": 0.7065,
      "step": 17470
    },
    {
      "epoch": 89.18367346938776,
      "grad_norm": 12.719229698181152,
      "learning_rate": 2.1632653061224495e-06,
      "loss": 0.2983,
      "step": 17480
    },
    {
      "epoch": 89.23469387755102,
      "grad_norm": 14.98957633972168,
      "learning_rate": 2.153061224489796e-06,
      "loss": 0.4483,
      "step": 17490
    },
    {
      "epoch": 89.28571428571429,
      "grad_norm": 6.893589973449707,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 0.4679,
      "step": 17500
    },
    {
      "epoch": 89.33673469387755,
      "grad_norm": 1.5510993003845215,
      "learning_rate": 2.1326530612244902e-06,
      "loss": 0.2888,
      "step": 17510
    },
    {
      "epoch": 89.38775510204081,
      "grad_norm": 4.274447441101074,
      "learning_rate": 2.122448979591837e-06,
      "loss": 0.4538,
      "step": 17520
    },
    {
      "epoch": 89.43877551020408,
      "grad_norm": 6.590041160583496,
      "learning_rate": 2.112244897959184e-06,
      "loss": 0.6725,
      "step": 17530
    },
    {
      "epoch": 89.48979591836735,
      "grad_norm": 47.811702728271484,
      "learning_rate": 2.1020408163265306e-06,
      "loss": 0.5402,
      "step": 17540
    },
    {
      "epoch": 89.54081632653062,
      "grad_norm": 33.73549270629883,
      "learning_rate": 2.0918367346938776e-06,
      "loss": 0.5067,
      "step": 17550
    },
    {
      "epoch": 89.59183673469387,
      "grad_norm": 13.792366027832031,
      "learning_rate": 2.0816326530612247e-06,
      "loss": 0.3697,
      "step": 17560
    },
    {
      "epoch": 89.64285714285714,
      "grad_norm": 20.00983238220215,
      "learning_rate": 2.0714285714285717e-06,
      "loss": 0.4521,
      "step": 17570
    },
    {
      "epoch": 89.6938775510204,
      "grad_norm": 27.755332946777344,
      "learning_rate": 2.0612244897959184e-06,
      "loss": 0.2471,
      "step": 17580
    },
    {
      "epoch": 89.74489795918367,
      "grad_norm": 9.351463317871094,
      "learning_rate": 2.0510204081632654e-06,
      "loss": 0.2483,
      "step": 17590
    },
    {
      "epoch": 89.79591836734694,
      "grad_norm": 5.2608537673950195,
      "learning_rate": 2.0408163265306125e-06,
      "loss": 0.3606,
      "step": 17600
    },
    {
      "epoch": 89.84693877551021,
      "grad_norm": 15.893848419189453,
      "learning_rate": 2.030612244897959e-06,
      "loss": 0.4748,
      "step": 17610
    },
    {
      "epoch": 89.89795918367346,
      "grad_norm": 3.278534173965454,
      "learning_rate": 2.020408163265306e-06,
      "loss": 0.6047,
      "step": 17620
    },
    {
      "epoch": 89.94897959183673,
      "grad_norm": 5.137085437774658,
      "learning_rate": 2.0102040816326533e-06,
      "loss": 0.3839,
      "step": 17630
    },
    {
      "epoch": 90.0,
      "grad_norm": 31.07586097717285,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.2643,
      "step": 17640
    },
    {
      "epoch": 90.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.37431222200393677,
      "eval_runtime": 0.913,
      "eval_samples_per_second": 303.396,
      "eval_steps_per_second": 38.335,
      "step": 17640
    },
    {
      "epoch": 90.05102040816327,
      "grad_norm": 3.8181581497192383,
      "learning_rate": 1.989795918367347e-06,
      "loss": 0.3058,
      "step": 17650
    },
    {
      "epoch": 90.10204081632654,
      "grad_norm": 3.249666929244995,
      "learning_rate": 1.979591836734694e-06,
      "loss": 0.577,
      "step": 17660
    },
    {
      "epoch": 90.15306122448979,
      "grad_norm": 5.041921138763428,
      "learning_rate": 1.969387755102041e-06,
      "loss": 0.543,
      "step": 17670
    },
    {
      "epoch": 90.20408163265306,
      "grad_norm": 14.540714263916016,
      "learning_rate": 1.9591836734693877e-06,
      "loss": 0.4122,
      "step": 17680
    },
    {
      "epoch": 90.25510204081633,
      "grad_norm": 10.29068660736084,
      "learning_rate": 1.948979591836735e-06,
      "loss": 0.2574,
      "step": 17690
    },
    {
      "epoch": 90.3061224489796,
      "grad_norm": 16.466691970825195,
      "learning_rate": 1.938775510204082e-06,
      "loss": 0.1931,
      "step": 17700
    },
    {
      "epoch": 90.35714285714286,
      "grad_norm": 16.604248046875,
      "learning_rate": 1.928571428571429e-06,
      "loss": 0.7036,
      "step": 17710
    },
    {
      "epoch": 90.40816326530613,
      "grad_norm": 15.495392799377441,
      "learning_rate": 1.9183673469387756e-06,
      "loss": 0.273,
      "step": 17720
    },
    {
      "epoch": 90.45918367346938,
      "grad_norm": 7.022304058074951,
      "learning_rate": 1.9081632653061226e-06,
      "loss": 0.1989,
      "step": 17730
    },
    {
      "epoch": 90.51020408163265,
      "grad_norm": 2.505086660385132,
      "learning_rate": 1.8979591836734695e-06,
      "loss": 0.5291,
      "step": 17740
    },
    {
      "epoch": 90.56122448979592,
      "grad_norm": 2.5110280513763428,
      "learning_rate": 1.8877551020408163e-06,
      "loss": 0.3173,
      "step": 17750
    },
    {
      "epoch": 90.61224489795919,
      "grad_norm": 6.997274875640869,
      "learning_rate": 1.8775510204081634e-06,
      "loss": 0.4498,
      "step": 17760
    },
    {
      "epoch": 90.66326530612245,
      "grad_norm": 2.285280704498291,
      "learning_rate": 1.8673469387755102e-06,
      "loss": 0.5786,
      "step": 17770
    },
    {
      "epoch": 90.71428571428571,
      "grad_norm": 24.14156723022461,
      "learning_rate": 1.8571428571428573e-06,
      "loss": 0.3667,
      "step": 17780
    },
    {
      "epoch": 90.76530612244898,
      "grad_norm": 1.4902750253677368,
      "learning_rate": 1.8469387755102042e-06,
      "loss": 0.3983,
      "step": 17790
    },
    {
      "epoch": 90.81632653061224,
      "grad_norm": 7.659579753875732,
      "learning_rate": 1.8367346938775512e-06,
      "loss": 0.3717,
      "step": 17800
    },
    {
      "epoch": 90.86734693877551,
      "grad_norm": 1.5566917657852173,
      "learning_rate": 1.826530612244898e-06,
      "loss": 0.6034,
      "step": 17810
    },
    {
      "epoch": 90.91836734693878,
      "grad_norm": 24.169919967651367,
      "learning_rate": 1.8163265306122451e-06,
      "loss": 0.4193,
      "step": 17820
    },
    {
      "epoch": 90.96938775510205,
      "grad_norm": 24.66104507446289,
      "learning_rate": 1.806122448979592e-06,
      "loss": 0.2771,
      "step": 17830
    },
    {
      "epoch": 91.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3725649118423462,
      "eval_runtime": 0.9078,
      "eval_samples_per_second": 305.148,
      "eval_steps_per_second": 38.557,
      "step": 17836
    },
    {
      "epoch": 91.0204081632653,
      "grad_norm": 12.890436172485352,
      "learning_rate": 1.7959183673469388e-06,
      "loss": 0.2367,
      "step": 17840
    },
    {
      "epoch": 91.07142857142857,
      "grad_norm": 11.080464363098145,
      "learning_rate": 1.7857142857142859e-06,
      "loss": 0.3025,
      "step": 17850
    },
    {
      "epoch": 91.12244897959184,
      "grad_norm": 4.145611763000488,
      "learning_rate": 1.7755102040816327e-06,
      "loss": 0.5881,
      "step": 17860
    },
    {
      "epoch": 91.1734693877551,
      "grad_norm": 22.543291091918945,
      "learning_rate": 1.7653061224489798e-06,
      "loss": 0.1983,
      "step": 17870
    },
    {
      "epoch": 91.22448979591837,
      "grad_norm": 9.745610237121582,
      "learning_rate": 1.7551020408163267e-06,
      "loss": 0.4388,
      "step": 17880
    },
    {
      "epoch": 91.27551020408163,
      "grad_norm": 16.198583602905273,
      "learning_rate": 1.7448979591836737e-06,
      "loss": 0.4088,
      "step": 17890
    },
    {
      "epoch": 91.3265306122449,
      "grad_norm": 23.797870635986328,
      "learning_rate": 1.7346938775510206e-06,
      "loss": 0.5939,
      "step": 17900
    },
    {
      "epoch": 91.37755102040816,
      "grad_norm": 1.3904322385787964,
      "learning_rate": 1.7244897959183676e-06,
      "loss": 0.4332,
      "step": 17910
    },
    {
      "epoch": 91.42857142857143,
      "grad_norm": 7.961409091949463,
      "learning_rate": 1.7142857142857145e-06,
      "loss": 0.3341,
      "step": 17920
    },
    {
      "epoch": 91.4795918367347,
      "grad_norm": 8.423089981079102,
      "learning_rate": 1.7040816326530613e-06,
      "loss": 0.5241,
      "step": 17930
    },
    {
      "epoch": 91.53061224489795,
      "grad_norm": 6.314434051513672,
      "learning_rate": 1.6938775510204084e-06,
      "loss": 0.2361,
      "step": 17940
    },
    {
      "epoch": 91.58163265306122,
      "grad_norm": 18.64877700805664,
      "learning_rate": 1.6836734693877552e-06,
      "loss": 0.3815,
      "step": 17950
    },
    {
      "epoch": 91.63265306122449,
      "grad_norm": 5.557832717895508,
      "learning_rate": 1.6734693877551023e-06,
      "loss": 0.2751,
      "step": 17960
    },
    {
      "epoch": 91.68367346938776,
      "grad_norm": 7.632160663604736,
      "learning_rate": 1.6632653061224492e-06,
      "loss": 0.4113,
      "step": 17970
    },
    {
      "epoch": 91.73469387755102,
      "grad_norm": 1.0553274154663086,
      "learning_rate": 1.6530612244897962e-06,
      "loss": 0.2638,
      "step": 17980
    },
    {
      "epoch": 91.78571428571429,
      "grad_norm": 2.335313320159912,
      "learning_rate": 1.642857142857143e-06,
      "loss": 0.2486,
      "step": 17990
    },
    {
      "epoch": 91.83673469387755,
      "grad_norm": 30.0079345703125,
      "learning_rate": 1.6326530612244897e-06,
      "loss": 0.7437,
      "step": 18000
    },
    {
      "epoch": 91.88775510204081,
      "grad_norm": 52.244659423828125,
      "learning_rate": 1.622448979591837e-06,
      "loss": 0.3825,
      "step": 18010
    },
    {
      "epoch": 91.93877551020408,
      "grad_norm": 12.539506912231445,
      "learning_rate": 1.6122448979591836e-06,
      "loss": 0.3114,
      "step": 18020
    },
    {
      "epoch": 91.98979591836735,
      "grad_norm": 4.706314563751221,
      "learning_rate": 1.602040816326531e-06,
      "loss": 0.336,
      "step": 18030
    },
    {
      "epoch": 92.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3757860064506531,
      "eval_runtime": 0.9042,
      "eval_samples_per_second": 306.341,
      "eval_steps_per_second": 38.707,
      "step": 18032
    },
    {
      "epoch": 92.04081632653062,
      "grad_norm": 1.655601143836975,
      "learning_rate": 1.5918367346938775e-06,
      "loss": 0.3828,
      "step": 18040
    },
    {
      "epoch": 92.09183673469387,
      "grad_norm": 35.32265090942383,
      "learning_rate": 1.5816326530612248e-06,
      "loss": 0.4159,
      "step": 18050
    },
    {
      "epoch": 92.14285714285714,
      "grad_norm": 3.195277690887451,
      "learning_rate": 1.5714285714285714e-06,
      "loss": 0.4503,
      "step": 18060
    },
    {
      "epoch": 92.1938775510204,
      "grad_norm": 10.302865982055664,
      "learning_rate": 1.5612244897959187e-06,
      "loss": 0.3341,
      "step": 18070
    },
    {
      "epoch": 92.24489795918367,
      "grad_norm": 3.330888032913208,
      "learning_rate": 1.5510204081632654e-06,
      "loss": 0.4067,
      "step": 18080
    },
    {
      "epoch": 92.29591836734694,
      "grad_norm": 28.099985122680664,
      "learning_rate": 1.5408163265306122e-06,
      "loss": 0.4376,
      "step": 18090
    },
    {
      "epoch": 92.34693877551021,
      "grad_norm": 2.8426589965820312,
      "learning_rate": 1.5306122448979593e-06,
      "loss": 0.3277,
      "step": 18100
    },
    {
      "epoch": 92.39795918367346,
      "grad_norm": 3.9396212100982666,
      "learning_rate": 1.5204081632653061e-06,
      "loss": 0.4043,
      "step": 18110
    },
    {
      "epoch": 92.44897959183673,
      "grad_norm": 4.805219650268555,
      "learning_rate": 1.5102040816326532e-06,
      "loss": 0.2554,
      "step": 18120
    },
    {
      "epoch": 92.5,
      "grad_norm": 3.3083367347717285,
      "learning_rate": 1.5e-06,
      "loss": 0.3763,
      "step": 18130
    },
    {
      "epoch": 92.55102040816327,
      "grad_norm": 14.602006912231445,
      "learning_rate": 1.489795918367347e-06,
      "loss": 0.5707,
      "step": 18140
    },
    {
      "epoch": 92.60204081632654,
      "grad_norm": 16.9274845123291,
      "learning_rate": 1.479591836734694e-06,
      "loss": 0.419,
      "step": 18150
    },
    {
      "epoch": 92.65306122448979,
      "grad_norm": 19.32662010192871,
      "learning_rate": 1.469387755102041e-06,
      "loss": 0.7059,
      "step": 18160
    },
    {
      "epoch": 92.70408163265306,
      "grad_norm": 3.1367154121398926,
      "learning_rate": 1.4591836734693879e-06,
      "loss": 0.2682,
      "step": 18170
    },
    {
      "epoch": 92.75510204081633,
      "grad_norm": 21.822072982788086,
      "learning_rate": 1.4489795918367347e-06,
      "loss": 0.5786,
      "step": 18180
    },
    {
      "epoch": 92.8061224489796,
      "grad_norm": 7.972349643707275,
      "learning_rate": 1.4387755102040818e-06,
      "loss": 0.5554,
      "step": 18190
    },
    {
      "epoch": 92.85714285714286,
      "grad_norm": 3.0027341842651367,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 0.3403,
      "step": 18200
    },
    {
      "epoch": 92.90816326530613,
      "grad_norm": 3.637498617172241,
      "learning_rate": 1.4183673469387757e-06,
      "loss": 0.4239,
      "step": 18210
    },
    {
      "epoch": 92.95918367346938,
      "grad_norm": 55.039615631103516,
      "learning_rate": 1.4081632653061225e-06,
      "loss": 0.3283,
      "step": 18220
    },
    {
      "epoch": 93.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.43969953060150146,
      "eval_runtime": 0.9097,
      "eval_samples_per_second": 304.489,
      "eval_steps_per_second": 38.473,
      "step": 18228
    },
    {
      "epoch": 93.01020408163265,
      "grad_norm": 8.497344017028809,
      "learning_rate": 1.3979591836734696e-06,
      "loss": 0.8227,
      "step": 18230
    },
    {
      "epoch": 93.06122448979592,
      "grad_norm": 9.907525062561035,
      "learning_rate": 1.3877551020408165e-06,
      "loss": 0.6094,
      "step": 18240
    },
    {
      "epoch": 93.11224489795919,
      "grad_norm": 23.769611358642578,
      "learning_rate": 1.3775510204081633e-06,
      "loss": 0.3768,
      "step": 18250
    },
    {
      "epoch": 93.16326530612245,
      "grad_norm": 28.33507537841797,
      "learning_rate": 1.3673469387755104e-06,
      "loss": 0.2864,
      "step": 18260
    },
    {
      "epoch": 93.21428571428571,
      "grad_norm": 26.788179397583008,
      "learning_rate": 1.3571428571428572e-06,
      "loss": 0.3312,
      "step": 18270
    },
    {
      "epoch": 93.26530612244898,
      "grad_norm": 14.709131240844727,
      "learning_rate": 1.3469387755102043e-06,
      "loss": 0.3854,
      "step": 18280
    },
    {
      "epoch": 93.31632653061224,
      "grad_norm": 10.133686065673828,
      "learning_rate": 1.3367346938775511e-06,
      "loss": 0.6282,
      "step": 18290
    },
    {
      "epoch": 93.36734693877551,
      "grad_norm": 5.089693069458008,
      "learning_rate": 1.3265306122448982e-06,
      "loss": 0.4909,
      "step": 18300
    },
    {
      "epoch": 93.41836734693878,
      "grad_norm": 2.1057288646698,
      "learning_rate": 1.316326530612245e-06,
      "loss": 0.3211,
      "step": 18310
    },
    {
      "epoch": 93.46938775510205,
      "grad_norm": 0.9731934666633606,
      "learning_rate": 1.3061224489795921e-06,
      "loss": 0.3283,
      "step": 18320
    },
    {
      "epoch": 93.5204081632653,
      "grad_norm": 2.9392619132995605,
      "learning_rate": 1.295918367346939e-06,
      "loss": 0.4712,
      "step": 18330
    },
    {
      "epoch": 93.57142857142857,
      "grad_norm": 22.36528778076172,
      "learning_rate": 1.2857142857142856e-06,
      "loss": 0.4642,
      "step": 18340
    },
    {
      "epoch": 93.62244897959184,
      "grad_norm": 4.2044806480407715,
      "learning_rate": 1.2755102040816329e-06,
      "loss": 0.4709,
      "step": 18350
    },
    {
      "epoch": 93.6734693877551,
      "grad_norm": 1.6687308549880981,
      "learning_rate": 1.2653061224489795e-06,
      "loss": 0.4171,
      "step": 18360
    },
    {
      "epoch": 93.72448979591837,
      "grad_norm": 7.465827941894531,
      "learning_rate": 1.2551020408163268e-06,
      "loss": 0.2857,
      "step": 18370
    },
    {
      "epoch": 93.77551020408163,
      "grad_norm": 40.8412971496582,
      "learning_rate": 1.2448979591836734e-06,
      "loss": 0.5551,
      "step": 18380
    },
    {
      "epoch": 93.8265306122449,
      "grad_norm": 3.689354181289673,
      "learning_rate": 1.2346938775510205e-06,
      "loss": 0.412,
      "step": 18390
    },
    {
      "epoch": 93.87755102040816,
      "grad_norm": 0.7821308374404907,
      "learning_rate": 1.2244897959183673e-06,
      "loss": 0.3066,
      "step": 18400
    },
    {
      "epoch": 93.92857142857143,
      "grad_norm": 8.274382591247559,
      "learning_rate": 1.2142857142857144e-06,
      "loss": 0.2429,
      "step": 18410
    },
    {
      "epoch": 93.9795918367347,
      "grad_norm": 38.39374542236328,
      "learning_rate": 1.2040816326530612e-06,
      "loss": 0.7224,
      "step": 18420
    },
    {
      "epoch": 94.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.3868664801120758,
      "eval_runtime": 0.9099,
      "eval_samples_per_second": 304.442,
      "eval_steps_per_second": 38.467,
      "step": 18424
    },
    {
      "epoch": 94.03061224489795,
      "grad_norm": 5.187108993530273,
      "learning_rate": 1.1938775510204083e-06,
      "loss": 0.3627,
      "step": 18430
    },
    {
      "epoch": 94.08163265306122,
      "grad_norm": 7.573700428009033,
      "learning_rate": 1.1836734693877552e-06,
      "loss": 0.3241,
      "step": 18440
    },
    {
      "epoch": 94.13265306122449,
      "grad_norm": 23.580524444580078,
      "learning_rate": 1.1734693877551022e-06,
      "loss": 0.2863,
      "step": 18450
    },
    {
      "epoch": 94.18367346938776,
      "grad_norm": 24.911394119262695,
      "learning_rate": 1.163265306122449e-06,
      "loss": 0.5275,
      "step": 18460
    },
    {
      "epoch": 94.23469387755102,
      "grad_norm": 18.009044647216797,
      "learning_rate": 1.153061224489796e-06,
      "loss": 0.4667,
      "step": 18470
    },
    {
      "epoch": 94.28571428571429,
      "grad_norm": 13.02916145324707,
      "learning_rate": 1.142857142857143e-06,
      "loss": 0.2652,
      "step": 18480
    },
    {
      "epoch": 94.33673469387755,
      "grad_norm": 16.920124053955078,
      "learning_rate": 1.1326530612244898e-06,
      "loss": 0.4826,
      "step": 18490
    },
    {
      "epoch": 94.38775510204081,
      "grad_norm": 1.501177191734314,
      "learning_rate": 1.122448979591837e-06,
      "loss": 0.4221,
      "step": 18500
    },
    {
      "epoch": 94.43877551020408,
      "grad_norm": 8.203688621520996,
      "learning_rate": 1.1122448979591838e-06,
      "loss": 0.4049,
      "step": 18510
    },
    {
      "epoch": 94.48979591836735,
      "grad_norm": 24.716327667236328,
      "learning_rate": 1.1020408163265308e-06,
      "loss": 0.4551,
      "step": 18520
    },
    {
      "epoch": 94.54081632653062,
      "grad_norm": 2.705120801925659,
      "learning_rate": 1.0918367346938777e-06,
      "loss": 0.2844,
      "step": 18530
    },
    {
      "epoch": 94.59183673469387,
      "grad_norm": 47.395816802978516,
      "learning_rate": 1.0816326530612247e-06,
      "loss": 0.2963,
      "step": 18540
    },
    {
      "epoch": 94.64285714285714,
      "grad_norm": 24.11406135559082,
      "learning_rate": 1.0714285714285714e-06,
      "loss": 0.5297,
      "step": 18550
    },
    {
      "epoch": 94.6938775510204,
      "grad_norm": 19.914203643798828,
      "learning_rate": 1.0612244897959184e-06,
      "loss": 0.527,
      "step": 18560
    },
    {
      "epoch": 94.74489795918367,
      "grad_norm": 2.1630876064300537,
      "learning_rate": 1.0510204081632653e-06,
      "loss": 0.5728,
      "step": 18570
    },
    {
      "epoch": 94.79591836734694,
      "grad_norm": 26.519960403442383,
      "learning_rate": 1.0408163265306123e-06,
      "loss": 0.7087,
      "step": 18580
    },
    {
      "epoch": 94.84693877551021,
      "grad_norm": 10.622270584106445,
      "learning_rate": 1.0306122448979592e-06,
      "loss": 0.4942,
      "step": 18590
    },
    {
      "epoch": 94.89795918367346,
      "grad_norm": 3.079957962036133,
      "learning_rate": 1.0204081632653063e-06,
      "loss": 0.3596,
      "step": 18600
    },
    {
      "epoch": 94.94897959183673,
      "grad_norm": 23.56779670715332,
      "learning_rate": 1.010204081632653e-06,
      "loss": 0.473,
      "step": 18610
    },
    {
      "epoch": 95.0,
      "grad_norm": 8.441141128540039,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.1575,
      "step": 18620
    },
    {
      "epoch": 95.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.338119238615036,
      "eval_runtime": 0.9078,
      "eval_samples_per_second": 305.128,
      "eval_steps_per_second": 38.554,
      "step": 18620
    },
    {
      "epoch": 95.05102040816327,
      "grad_norm": 1.2802636623382568,
      "learning_rate": 9.89795918367347e-07,
      "loss": 0.1615,
      "step": 18630
    },
    {
      "epoch": 95.10204081632654,
      "grad_norm": 16.361331939697266,
      "learning_rate": 9.795918367346939e-07,
      "loss": 0.5559,
      "step": 18640
    },
    {
      "epoch": 95.15306122448979,
      "grad_norm": 23.27166175842285,
      "learning_rate": 9.69387755102041e-07,
      "loss": 0.433,
      "step": 18650
    },
    {
      "epoch": 95.20408163265306,
      "grad_norm": 4.894129753112793,
      "learning_rate": 9.591836734693878e-07,
      "loss": 0.3337,
      "step": 18660
    },
    {
      "epoch": 95.25510204081633,
      "grad_norm": 3.229078769683838,
      "learning_rate": 9.489795918367347e-07,
      "loss": 0.3804,
      "step": 18670
    },
    {
      "epoch": 95.3061224489796,
      "grad_norm": 0.46901872754096985,
      "learning_rate": 9.387755102040817e-07,
      "loss": 0.4047,
      "step": 18680
    },
    {
      "epoch": 95.35714285714286,
      "grad_norm": 9.963590621948242,
      "learning_rate": 9.285714285714287e-07,
      "loss": 0.2555,
      "step": 18690
    },
    {
      "epoch": 95.40816326530613,
      "grad_norm": 10.177775382995605,
      "learning_rate": 9.183673469387756e-07,
      "loss": 0.5139,
      "step": 18700
    },
    {
      "epoch": 95.45918367346938,
      "grad_norm": 31.641511917114258,
      "learning_rate": 9.081632653061226e-07,
      "loss": 0.6335,
      "step": 18710
    },
    {
      "epoch": 95.51020408163265,
      "grad_norm": 6.1539411544799805,
      "learning_rate": 8.979591836734694e-07,
      "loss": 0.3632,
      "step": 18720
    },
    {
      "epoch": 95.56122448979592,
      "grad_norm": 10.207945823669434,
      "learning_rate": 8.877551020408164e-07,
      "loss": 0.3,
      "step": 18730
    },
    {
      "epoch": 95.61224489795919,
      "grad_norm": 26.38075828552246,
      "learning_rate": 8.775510204081633e-07,
      "loss": 0.5904,
      "step": 18740
    },
    {
      "epoch": 95.66326530612245,
      "grad_norm": 16.044788360595703,
      "learning_rate": 8.673469387755103e-07,
      "loss": 0.3219,
      "step": 18750
    },
    {
      "epoch": 95.71428571428571,
      "grad_norm": 36.95567321777344,
      "learning_rate": 8.571428571428572e-07,
      "loss": 0.4043,
      "step": 18760
    },
    {
      "epoch": 95.76530612244898,
      "grad_norm": 1.4687215089797974,
      "learning_rate": 8.469387755102042e-07,
      "loss": 0.4419,
      "step": 18770
    },
    {
      "epoch": 95.81632653061224,
      "grad_norm": 31.920452117919922,
      "learning_rate": 8.367346938775512e-07,
      "loss": 0.6732,
      "step": 18780
    },
    {
      "epoch": 95.86734693877551,
      "grad_norm": 4.183306694030762,
      "learning_rate": 8.265306122448981e-07,
      "loss": 0.4413,
      "step": 18790
    },
    {
      "epoch": 95.91836734693878,
      "grad_norm": 6.47857666015625,
      "learning_rate": 8.163265306122449e-07,
      "loss": 0.2347,
      "step": 18800
    },
    {
      "epoch": 95.96938775510205,
      "grad_norm": 16.653963088989258,
      "learning_rate": 8.061224489795918e-07,
      "loss": 0.4062,
      "step": 18810
    },
    {
      "epoch": 96.0,
      "eval_accuracy": 0.8844765342960289,
      "eval_loss": 0.3683736026287079,
      "eval_runtime": 0.9195,
      "eval_samples_per_second": 301.235,
      "eval_steps_per_second": 38.062,
      "step": 18816
    },
    {
      "epoch": 96.0204081632653,
      "grad_norm": 2.7943241596221924,
      "learning_rate": 7.959183673469388e-07,
      "loss": 0.2008,
      "step": 18820
    },
    {
      "epoch": 96.07142857142857,
      "grad_norm": 3.1280901432037354,
      "learning_rate": 7.857142857142857e-07,
      "loss": 0.2164,
      "step": 18830
    },
    {
      "epoch": 96.12244897959184,
      "grad_norm": 18.044187545776367,
      "learning_rate": 7.755102040816327e-07,
      "loss": 0.4044,
      "step": 18840
    },
    {
      "epoch": 96.1734693877551,
      "grad_norm": 2.8734850883483887,
      "learning_rate": 7.653061224489796e-07,
      "loss": 0.6739,
      "step": 18850
    },
    {
      "epoch": 96.22448979591837,
      "grad_norm": 1.483971357345581,
      "learning_rate": 7.551020408163266e-07,
      "loss": 0.4837,
      "step": 18860
    },
    {
      "epoch": 96.27551020408163,
      "grad_norm": 6.835214614868164,
      "learning_rate": 7.448979591836736e-07,
      "loss": 0.4448,
      "step": 18870
    },
    {
      "epoch": 96.3265306122449,
      "grad_norm": 7.798044204711914,
      "learning_rate": 7.346938775510205e-07,
      "loss": 0.1659,
      "step": 18880
    },
    {
      "epoch": 96.37755102040816,
      "grad_norm": 13.98720932006836,
      "learning_rate": 7.244897959183674e-07,
      "loss": 0.1837,
      "step": 18890
    },
    {
      "epoch": 96.42857142857143,
      "grad_norm": 1.638170838356018,
      "learning_rate": 7.142857142857143e-07,
      "loss": 0.5702,
      "step": 18900
    },
    {
      "epoch": 96.4795918367347,
      "grad_norm": 14.554649353027344,
      "learning_rate": 7.040816326530613e-07,
      "loss": 0.421,
      "step": 18910
    },
    {
      "epoch": 96.53061224489795,
      "grad_norm": 19.640411376953125,
      "learning_rate": 6.938775510204082e-07,
      "loss": 0.2714,
      "step": 18920
    },
    {
      "epoch": 96.58163265306122,
      "grad_norm": 26.670129776000977,
      "learning_rate": 6.836734693877552e-07,
      "loss": 0.4065,
      "step": 18930
    },
    {
      "epoch": 96.63265306122449,
      "grad_norm": 8.721132278442383,
      "learning_rate": 6.734693877551021e-07,
      "loss": 0.5093,
      "step": 18940
    },
    {
      "epoch": 96.68367346938776,
      "grad_norm": 4.193913459777832,
      "learning_rate": 6.632653061224491e-07,
      "loss": 0.4977,
      "step": 18950
    },
    {
      "epoch": 96.73469387755102,
      "grad_norm": 5.50108528137207,
      "learning_rate": 6.530612244897961e-07,
      "loss": 0.4199,
      "step": 18960
    },
    {
      "epoch": 96.78571428571429,
      "grad_norm": 2.2309250831604004,
      "learning_rate": 6.428571428571428e-07,
      "loss": 0.5571,
      "step": 18970
    },
    {
      "epoch": 96.83673469387755,
      "grad_norm": 11.408172607421875,
      "learning_rate": 6.326530612244898e-07,
      "loss": 0.4606,
      "step": 18980
    },
    {
      "epoch": 96.88775510204081,
      "grad_norm": 5.532620429992676,
      "learning_rate": 6.224489795918367e-07,
      "loss": 0.8004,
      "step": 18990
    },
    {
      "epoch": 96.93877551020408,
      "grad_norm": 14.62442398071289,
      "learning_rate": 6.122448979591837e-07,
      "loss": 0.3474,
      "step": 19000
    },
    {
      "epoch": 96.98979591836735,
      "grad_norm": 1.6155661344528198,
      "learning_rate": 6.020408163265306e-07,
      "loss": 0.3849,
      "step": 19010
    },
    {
      "epoch": 97.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.38869842886924744,
      "eval_runtime": 0.9078,
      "eval_samples_per_second": 305.125,
      "eval_steps_per_second": 38.554,
      "step": 19012
    },
    {
      "epoch": 97.04081632653062,
      "grad_norm": 11.677519798278809,
      "learning_rate": 5.918367346938776e-07,
      "loss": 0.443,
      "step": 19020
    },
    {
      "epoch": 97.09183673469387,
      "grad_norm": 6.782283782958984,
      "learning_rate": 5.816326530612245e-07,
      "loss": 0.1999,
      "step": 19030
    },
    {
      "epoch": 97.14285714285714,
      "grad_norm": 0.7547392249107361,
      "learning_rate": 5.714285714285715e-07,
      "loss": 0.3242,
      "step": 19040
    },
    {
      "epoch": 97.1938775510204,
      "grad_norm": 3.3280558586120605,
      "learning_rate": 5.612244897959184e-07,
      "loss": 0.3953,
      "step": 19050
    },
    {
      "epoch": 97.24489795918367,
      "grad_norm": 8.464253425598145,
      "learning_rate": 5.510204081632654e-07,
      "loss": 0.2275,
      "step": 19060
    },
    {
      "epoch": 97.29591836734694,
      "grad_norm": 11.897926330566406,
      "learning_rate": 5.408163265306124e-07,
      "loss": 0.3188,
      "step": 19070
    },
    {
      "epoch": 97.34693877551021,
      "grad_norm": 14.954797744750977,
      "learning_rate": 5.306122448979592e-07,
      "loss": 0.3675,
      "step": 19080
    },
    {
      "epoch": 97.39795918367346,
      "grad_norm": 11.454732894897461,
      "learning_rate": 5.204081632653062e-07,
      "loss": 0.3254,
      "step": 19090
    },
    {
      "epoch": 97.44897959183673,
      "grad_norm": 44.88743591308594,
      "learning_rate": 5.102040816326531e-07,
      "loss": 0.4128,
      "step": 19100
    },
    {
      "epoch": 97.5,
      "grad_norm": 24.717849731445312,
      "learning_rate": 5.000000000000001e-07,
      "loss": 0.566,
      "step": 19110
    },
    {
      "epoch": 97.55102040816327,
      "grad_norm": 16.14191436767578,
      "learning_rate": 4.897959183673469e-07,
      "loss": 0.4588,
      "step": 19120
    },
    {
      "epoch": 97.60204081632654,
      "grad_norm": 18.801467895507812,
      "learning_rate": 4.795918367346939e-07,
      "loss": 0.6226,
      "step": 19130
    },
    {
      "epoch": 97.65306122448979,
      "grad_norm": 9.996084213256836,
      "learning_rate": 4.6938775510204085e-07,
      "loss": 0.7641,
      "step": 19140
    },
    {
      "epoch": 97.70408163265306,
      "grad_norm": 27.051815032958984,
      "learning_rate": 4.591836734693878e-07,
      "loss": 0.3903,
      "step": 19150
    },
    {
      "epoch": 97.75510204081633,
      "grad_norm": 0.7544854283332825,
      "learning_rate": 4.489795918367347e-07,
      "loss": 0.5564,
      "step": 19160
    },
    {
      "epoch": 97.8061224489796,
      "grad_norm": 11.421246528625488,
      "learning_rate": 4.3877551020408166e-07,
      "loss": 0.6786,
      "step": 19170
    },
    {
      "epoch": 97.85714285714286,
      "grad_norm": 20.902254104614258,
      "learning_rate": 4.285714285714286e-07,
      "loss": 0.2394,
      "step": 19180
    },
    {
      "epoch": 97.90816326530613,
      "grad_norm": 21.33318328857422,
      "learning_rate": 4.183673469387756e-07,
      "loss": 0.5158,
      "step": 19190
    },
    {
      "epoch": 97.95918367346938,
      "grad_norm": 45.75426483154297,
      "learning_rate": 4.0816326530612243e-07,
      "loss": 0.2755,
      "step": 19200
    },
    {
      "epoch": 98.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.3725394308567047,
      "eval_runtime": 0.9134,
      "eval_samples_per_second": 303.261,
      "eval_steps_per_second": 38.318,
      "step": 19208
    },
    {
      "epoch": 98.01020408163265,
      "grad_norm": 5.093604564666748,
      "learning_rate": 3.979591836734694e-07,
      "loss": 0.2503,
      "step": 19210
    },
    {
      "epoch": 98.06122448979592,
      "grad_norm": 4.45082950592041,
      "learning_rate": 3.8775510204081634e-07,
      "loss": 0.535,
      "step": 19220
    },
    {
      "epoch": 98.11224489795919,
      "grad_norm": 31.554441452026367,
      "learning_rate": 3.775510204081633e-07,
      "loss": 0.2577,
      "step": 19230
    },
    {
      "epoch": 98.16326530612245,
      "grad_norm": 14.079654693603516,
      "learning_rate": 3.6734693877551025e-07,
      "loss": 0.3223,
      "step": 19240
    },
    {
      "epoch": 98.21428571428571,
      "grad_norm": 23.61026382446289,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 0.3331,
      "step": 19250
    },
    {
      "epoch": 98.26530612244898,
      "grad_norm": 2.4970054626464844,
      "learning_rate": 3.469387755102041e-07,
      "loss": 0.3517,
      "step": 19260
    },
    {
      "epoch": 98.31632653061224,
      "grad_norm": 12.217981338500977,
      "learning_rate": 3.3673469387755107e-07,
      "loss": 0.7588,
      "step": 19270
    },
    {
      "epoch": 98.36734693877551,
      "grad_norm": 3.9738245010375977,
      "learning_rate": 3.2653061224489803e-07,
      "loss": 0.3367,
      "step": 19280
    },
    {
      "epoch": 98.41836734693878,
      "grad_norm": 16.238603591918945,
      "learning_rate": 3.163265306122449e-07,
      "loss": 0.3216,
      "step": 19290
    },
    {
      "epoch": 98.46938775510205,
      "grad_norm": 5.552829742431641,
      "learning_rate": 3.0612244897959183e-07,
      "loss": 0.4789,
      "step": 19300
    },
    {
      "epoch": 98.5204081632653,
      "grad_norm": 19.406475067138672,
      "learning_rate": 2.959183673469388e-07,
      "loss": 0.3421,
      "step": 19310
    },
    {
      "epoch": 98.57142857142857,
      "grad_norm": 3.6920390129089355,
      "learning_rate": 2.8571428571428575e-07,
      "loss": 0.2705,
      "step": 19320
    },
    {
      "epoch": 98.62244897959184,
      "grad_norm": 1.3698042631149292,
      "learning_rate": 2.755102040816327e-07,
      "loss": 0.2507,
      "step": 19330
    },
    {
      "epoch": 98.6734693877551,
      "grad_norm": 29.55255699157715,
      "learning_rate": 2.653061224489796e-07,
      "loss": 0.4512,
      "step": 19340
    },
    {
      "epoch": 98.72448979591837,
      "grad_norm": 6.361649513244629,
      "learning_rate": 2.5510204081632656e-07,
      "loss": 0.4344,
      "step": 19350
    },
    {
      "epoch": 98.77551020408163,
      "grad_norm": 11.554396629333496,
      "learning_rate": 2.4489795918367347e-07,
      "loss": 0.4396,
      "step": 19360
    },
    {
      "epoch": 98.8265306122449,
      "grad_norm": 18.369464874267578,
      "learning_rate": 2.3469387755102042e-07,
      "loss": 0.3599,
      "step": 19370
    },
    {
      "epoch": 98.87755102040816,
      "grad_norm": 56.52093505859375,
      "learning_rate": 2.2448979591836735e-07,
      "loss": 0.5804,
      "step": 19380
    },
    {
      "epoch": 98.92857142857143,
      "grad_norm": 3.523587703704834,
      "learning_rate": 2.142857142857143e-07,
      "loss": 0.4542,
      "step": 19390
    },
    {
      "epoch": 98.9795918367347,
      "grad_norm": 25.363040924072266,
      "learning_rate": 2.0408163265306121e-07,
      "loss": 0.4952,
      "step": 19400
    },
    {
      "epoch": 99.0,
      "eval_accuracy": 0.8916967509025271,
      "eval_loss": 0.4137440025806427,
      "eval_runtime": 0.9026,
      "eval_samples_per_second": 306.899,
      "eval_steps_per_second": 38.778,
      "step": 19404
    },
    {
      "epoch": 99.03061224489795,
      "grad_norm": 18.58416748046875,
      "learning_rate": 1.9387755102040817e-07,
      "loss": 0.3996,
      "step": 19410
    },
    {
      "epoch": 99.08163265306122,
      "grad_norm": 6.078371524810791,
      "learning_rate": 1.8367346938775513e-07,
      "loss": 0.5306,
      "step": 19420
    },
    {
      "epoch": 99.13265306122449,
      "grad_norm": 10.163142204284668,
      "learning_rate": 1.7346938775510206e-07,
      "loss": 0.4868,
      "step": 19430
    },
    {
      "epoch": 99.18367346938776,
      "grad_norm": 12.992356300354004,
      "learning_rate": 1.6326530612244901e-07,
      "loss": 0.849,
      "step": 19440
    },
    {
      "epoch": 99.23469387755102,
      "grad_norm": 14.593941688537598,
      "learning_rate": 1.5306122448979592e-07,
      "loss": 0.4867,
      "step": 19450
    },
    {
      "epoch": 99.28571428571429,
      "grad_norm": 20.921184539794922,
      "learning_rate": 1.4285714285714287e-07,
      "loss": 0.2932,
      "step": 19460
    },
    {
      "epoch": 99.33673469387755,
      "grad_norm": 10.434928894042969,
      "learning_rate": 1.326530612244898e-07,
      "loss": 0.4576,
      "step": 19470
    },
    {
      "epoch": 99.38775510204081,
      "grad_norm": 11.675522804260254,
      "learning_rate": 1.2244897959183673e-07,
      "loss": 0.3523,
      "step": 19480
    },
    {
      "epoch": 99.43877551020408,
      "grad_norm": 13.867977142333984,
      "learning_rate": 1.1224489795918368e-07,
      "loss": 0.587,
      "step": 19490
    },
    {
      "epoch": 99.48979591836735,
      "grad_norm": 1.4196150302886963,
      "learning_rate": 1.0204081632653061e-07,
      "loss": 0.5092,
      "step": 19500
    },
    {
      "epoch": 99.54081632653062,
      "grad_norm": 6.11002779006958,
      "learning_rate": 9.183673469387756e-08,
      "loss": 0.3685,
      "step": 19510
    },
    {
      "epoch": 99.59183673469387,
      "grad_norm": 1.221116542816162,
      "learning_rate": 8.163265306122451e-08,
      "loss": 0.305,
      "step": 19520
    },
    {
      "epoch": 99.64285714285714,
      "grad_norm": 42.10247039794922,
      "learning_rate": 7.142857142857144e-08,
      "loss": 0.62,
      "step": 19530
    },
    {
      "epoch": 99.6938775510204,
      "grad_norm": 2.9818308353424072,
      "learning_rate": 6.122448979591837e-08,
      "loss": 0.5174,
      "step": 19540
    },
    {
      "epoch": 99.74489795918367,
      "grad_norm": 6.204902172088623,
      "learning_rate": 5.1020408163265303e-08,
      "loss": 0.1628,
      "step": 19550
    },
    {
      "epoch": 99.79591836734694,
      "grad_norm": 14.913897514343262,
      "learning_rate": 4.0816326530612253e-08,
      "loss": 0.3499,
      "step": 19560
    },
    {
      "epoch": 99.84693877551021,
      "grad_norm": 13.28757095336914,
      "learning_rate": 3.0612244897959183e-08,
      "loss": 0.5302,
      "step": 19570
    },
    {
      "epoch": 99.89795918367346,
      "grad_norm": 9.481237411499023,
      "learning_rate": 2.0408163265306127e-08,
      "loss": 0.286,
      "step": 19580
    },
    {
      "epoch": 99.94897959183673,
      "grad_norm": 11.252531051635742,
      "learning_rate": 1.0204081632653063e-08,
      "loss": 0.3711,
      "step": 19590
    },
    {
      "epoch": 100.0,
      "grad_norm": 3.820070266723633,
      "learning_rate": 0.0,
      "loss": 0.3807,
      "step": 19600
    },
    {
      "epoch": 100.0,
      "eval_accuracy": 0.8880866425992779,
      "eval_loss": 0.39232808351516724,
      "eval_runtime": 0.9161,
      "eval_samples_per_second": 302.378,
      "eval_steps_per_second": 38.207,
      "step": 19600
    },
    {
      "epoch": 100.0,
      "step": 19600,
      "total_flos": 3.326623387147469e+18,
      "train_loss": 0.47958247925554004,
      "train_runtime": 906.5623,
      "train_samples_per_second": 172.74,
      "train_steps_per_second": 21.62
    }
  ],
  "logging_steps": 10,
  "max_steps": 19600,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.326623387147469e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}