{
  "best_metric": 6.544273760459599,
  "best_model_checkpoint": "./checkpoint-19500",
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 20000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00125,
      "grad_norm": 10.480854034423828,
      "learning_rate": 1.0499999999999999e-07,
      "loss": 1.4117,
      "step": 25
    },
    {
      "epoch": 0.0025,
      "grad_norm": 9.908479690551758,
      "learning_rate": 2.1437499999999999e-07,
      "loss": 1.4142,
      "step": 50
    },
    {
      "epoch": 0.00375,
      "grad_norm": 7.737735748291016,
      "learning_rate": 3.2374999999999997e-07,
      "loss": 1.2755,
      "step": 75
    },
    {
      "epoch": 0.005,
      "grad_norm": 5.847314834594727,
      "learning_rate": 4.33125e-07,
      "loss": 0.8497,
      "step": 100
    },
    {
      "epoch": 0.00625,
      "grad_norm": 5.064878463745117,
      "learning_rate": 5.425e-07,
      "loss": 0.5289,
      "step": 125
    },
    {
      "epoch": 0.0075,
      "grad_norm": 4.789758205413818,
      "learning_rate": 6.518749999999999e-07,
      "loss": 0.5181,
      "step": 150
    },
    {
      "epoch": 0.00875,
      "grad_norm": 4.744896411895752,
      "learning_rate": 7.612499999999999e-07,
      "loss": 0.3765,
      "step": 175
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.427361965179443,
      "learning_rate": 8.706249999999999e-07,
      "loss": 0.3585,
      "step": 200
    },
    {
      "epoch": 0.01125,
      "grad_norm": 4.670985698699951,
      "learning_rate": 9.8e-07,
      "loss": 0.3219,
      "step": 225
    },
    {
      "epoch": 0.0125,
      "grad_norm": 3.8691747188568115,
      "learning_rate": 1.0893749999999998e-06,
      "loss": 0.3409,
      "step": 250
    },
    {
      "epoch": 0.01375,
      "grad_norm": 4.622318267822266,
      "learning_rate": 1.19875e-06,
      "loss": 0.2899,
      "step": 275
    },
    {
      "epoch": 0.015,
      "grad_norm": 3.7900593280792236,
      "learning_rate": 1.3081249999999999e-06,
      "loss": 0.2834,
      "step": 300
    },
    {
      "epoch": 0.01625,
      "grad_norm": 3.9323770999908447,
      "learning_rate": 1.4175e-06,
      "loss": 0.2643,
      "step": 325
    },
    {
      "epoch": 0.0175,
      "grad_norm": 3.708969831466675,
      "learning_rate": 1.5268749999999997e-06,
      "loss": 0.2827,
      "step": 350
    },
    {
      "epoch": 0.01875,
      "grad_norm": 3.707580804824829,
      "learning_rate": 1.6362499999999998e-06,
      "loss": 0.274,
      "step": 375
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.8519480228424072,
      "learning_rate": 1.745625e-06,
      "loss": 0.2568,
      "step": 400
    },
    {
      "epoch": 0.02125,
      "grad_norm": 4.571149826049805,
      "learning_rate": 1.8549999999999998e-06,
      "loss": 0.2376,
      "step": 425
    },
    {
      "epoch": 0.0225,
      "grad_norm": 3.2112503051757812,
      "learning_rate": 1.9643749999999997e-06,
      "loss": 0.2212,
      "step": 450
    },
    {
      "epoch": 0.02375,
      "grad_norm": 6.173221588134766,
      "learning_rate": 2.07375e-06,
      "loss": 0.2238,
      "step": 475
    },
    {
      "epoch": 0.025,
      "grad_norm": 4.781201362609863,
      "learning_rate": 2.183125e-06,
      "loss": 0.2854,
      "step": 500
    },
    {
      "epoch": 0.025,
      "eval_loss": 0.41938766837120056,
      "eval_runtime": 531.5621,
      "eval_samples_per_second": 3.181,
      "eval_steps_per_second": 0.399,
      "eval_wer": 25.88984638441364,
      "step": 500
    },
    {
      "epoch": 0.02625,
      "grad_norm": 4.559605598449707,
      "learning_rate": 2.2925e-06,
      "loss": 0.2996,
      "step": 525
    },
    {
      "epoch": 0.0275,
      "grad_norm": 5.1446852684021,
      "learning_rate": 2.401875e-06,
      "loss": 0.2791,
      "step": 550
    },
    {
      "epoch": 0.02875,
      "grad_norm": 4.178796768188477,
      "learning_rate": 2.5112499999999995e-06,
      "loss": 0.3061,
      "step": 575
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.030816555023193,
      "learning_rate": 2.6206249999999996e-06,
      "loss": 0.2768,
      "step": 600
    },
    {
      "epoch": 0.03125,
      "grad_norm": 4.405904769897461,
      "learning_rate": 2.7299999999999997e-06,
      "loss": 0.2678,
      "step": 625
    },
    {
      "epoch": 0.0325,
      "grad_norm": 3.5179622173309326,
      "learning_rate": 2.839375e-06,
      "loss": 0.2363,
      "step": 650
    },
    {
      "epoch": 0.03375,
      "grad_norm": 3.767529010772705,
      "learning_rate": 2.94875e-06,
      "loss": 0.219,
      "step": 675
    },
    {
      "epoch": 0.035,
      "grad_norm": 2.898439645767212,
      "learning_rate": 3.0581249999999996e-06,
      "loss": 0.1913,
      "step": 700
    },
    {
      "epoch": 0.03625,
      "grad_norm": 3.3581595420837402,
      "learning_rate": 3.1674999999999997e-06,
      "loss": 0.173,
      "step": 725
    },
    {
      "epoch": 0.0375,
      "grad_norm": 2.872340202331543,
      "learning_rate": 3.276875e-06,
      "loss": 0.176,
      "step": 750
    },
    {
      "epoch": 0.03875,
      "grad_norm": 3.1199734210968018,
      "learning_rate": 3.38625e-06,
      "loss": 0.1808,
      "step": 775
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.626908779144287,
      "learning_rate": 3.495625e-06,
      "loss": 0.1802,
      "step": 800
    },
    {
      "epoch": 0.04125,
      "grad_norm": 2.776141881942749,
      "learning_rate": 3.6049999999999994e-06,
      "loss": 0.1761,
      "step": 825
    },
    {
      "epoch": 0.0425,
      "grad_norm": 3.149322509765625,
      "learning_rate": 3.7143749999999995e-06,
      "loss": 0.1569,
      "step": 850
    },
    {
      "epoch": 0.04375,
      "grad_norm": 2.776301145553589,
      "learning_rate": 3.82375e-06,
      "loss": 0.1607,
      "step": 875
    },
    {
      "epoch": 0.045,
      "grad_norm": 2.8884706497192383,
      "learning_rate": 3.933125e-06,
      "loss": 0.1582,
      "step": 900
    },
    {
      "epoch": 0.04625,
      "grad_norm": 3.991647720336914,
      "learning_rate": 4.0425e-06,
      "loss": 0.1511,
      "step": 925
    },
    {
      "epoch": 0.0475,
      "grad_norm": 2.892364740371704,
      "learning_rate": 4.151874999999999e-06,
      "loss": 0.1434,
      "step": 950
    },
    {
      "epoch": 0.04875,
      "grad_norm": 3.7825698852539062,
      "learning_rate": 4.261249999999999e-06,
      "loss": 0.148,
      "step": 975
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.511293649673462,
      "learning_rate": 4.370624999999999e-06,
      "loss": 0.1425,
      "step": 1000
    },
    {
      "epoch": 0.05,
      "eval_loss": 0.39225178956985474,
      "eval_runtime": 528.4404,
      "eval_samples_per_second": 3.2,
      "eval_steps_per_second": 0.401,
      "eval_wer": 20.507056325715002,
      "step": 1000
    },
    {
      "epoch": 0.05125,
      "grad_norm": 1.8921111822128296,
      "learning_rate": 4.369473684210526e-06,
      "loss": 0.1395,
      "step": 1025
    },
    {
      "epoch": 0.0525,
      "grad_norm": 3.18829607963562,
      "learning_rate": 4.363717105263158e-06,
      "loss": 0.1294,
      "step": 1050
    },
    {
      "epoch": 0.05375,
      "grad_norm": 2.508878231048584,
      "learning_rate": 4.357960526315789e-06,
      "loss": 0.1366,
      "step": 1075
    },
    {
      "epoch": 0.055,
      "grad_norm": 2.201958179473877,
      "learning_rate": 4.352203947368421e-06,
      "loss": 0.14,
      "step": 1100
    },
    {
      "epoch": 0.05625,
      "grad_norm": 2.756673574447632,
      "learning_rate": 4.346447368421052e-06,
      "loss": 0.1355,
      "step": 1125
    },
    {
      "epoch": 0.0575,
      "grad_norm": 3.084169864654541,
      "learning_rate": 4.340690789473684e-06,
      "loss": 0.1278,
      "step": 1150
    },
    {
      "epoch": 0.05875,
      "grad_norm": 2.486377239227295,
      "learning_rate": 4.334934210526315e-06,
      "loss": 0.1298,
      "step": 1175
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.5559706687927246,
      "learning_rate": 4.329177631578947e-06,
      "loss": 0.1352,
      "step": 1200
    },
    {
      "epoch": 0.06125,
      "grad_norm": 2.6353018283843994,
      "learning_rate": 4.323421052631579e-06,
      "loss": 0.1163,
      "step": 1225
    },
    {
      "epoch": 0.0625,
      "grad_norm": 2.8629567623138428,
      "learning_rate": 4.31766447368421e-06,
      "loss": 0.1199,
      "step": 1250
    },
    {
      "epoch": 0.06375,
      "grad_norm": 2.9020206928253174,
      "learning_rate": 4.311907894736842e-06,
      "loss": 0.1206,
      "step": 1275
    },
    {
      "epoch": 0.065,
      "grad_norm": 2.4626991748809814,
      "learning_rate": 4.306151315789473e-06,
      "loss": 0.1395,
      "step": 1300
    },
    {
      "epoch": 0.06625,
      "grad_norm": 2.9234840869903564,
      "learning_rate": 4.300394736842105e-06,
      "loss": 0.1269,
      "step": 1325
    },
    {
      "epoch": 0.0675,
      "grad_norm": 3.017625570297241,
      "learning_rate": 4.294638157894737e-06,
      "loss": 0.1228,
      "step": 1350
    },
    {
      "epoch": 0.06875,
      "grad_norm": 2.5392937660217285,
      "learning_rate": 4.288881578947368e-06,
      "loss": 0.1273,
      "step": 1375
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.2523694038391113,
      "learning_rate": 4.283125e-06,
      "loss": 0.1242,
      "step": 1400
    },
    {
      "epoch": 0.07125,
      "grad_norm": 2.633652448654175,
      "learning_rate": 4.277368421052632e-06,
      "loss": 0.1341,
      "step": 1425
    },
    {
      "epoch": 0.0725,
      "grad_norm": 3.952681064605713,
      "learning_rate": 4.271611842105263e-06,
      "loss": 0.1588,
      "step": 1450
    },
    {
      "epoch": 0.07375,
      "grad_norm": 3.9815685749053955,
      "learning_rate": 4.265855263157895e-06,
      "loss": 0.1879,
      "step": 1475
    },
    {
      "epoch": 0.075,
      "grad_norm": 3.197030544281006,
      "learning_rate": 4.260098684210526e-06,
      "loss": 0.2199,
      "step": 1500
    },
    {
      "epoch": 0.075,
      "eval_loss": 0.3290639817714691,
      "eval_runtime": 535.231,
      "eval_samples_per_second": 3.159,
      "eval_steps_per_second": 0.396,
      "eval_wer": 17.478456350693143,
      "step": 1500
    },
    {
      "epoch": 0.07625,
      "grad_norm": 3.8294057846069336,
      "learning_rate": 4.254342105263158e-06,
      "loss": 0.205,
      "step": 1525
    },
    {
      "epoch": 0.0775,
      "grad_norm": 3.339564085006714,
      "learning_rate": 4.248585526315789e-06,
      "loss": 0.1793,
      "step": 1550
    },
    {
      "epoch": 0.07875,
      "grad_norm": 4.41719913482666,
      "learning_rate": 4.242828947368421e-06,
      "loss": 0.1903,
      "step": 1575
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.329945087432861,
      "learning_rate": 4.237072368421052e-06,
      "loss": 0.2487,
      "step": 1600
    },
    {
      "epoch": 0.08125,
      "grad_norm": 2.858635425567627,
      "learning_rate": 4.231315789473684e-06,
      "loss": 0.16,
      "step": 1625
    },
    {
      "epoch": 0.0825,
      "grad_norm": 2.6474554538726807,
      "learning_rate": 4.225559210526316e-06,
      "loss": 0.1294,
      "step": 1650
    },
    {
      "epoch": 0.08375,
      "grad_norm": 2.6311450004577637,
      "learning_rate": 4.219802631578947e-06,
      "loss": 0.1199,
      "step": 1675
    },
    {
      "epoch": 0.085,
      "grad_norm": 2.472925901412964,
      "learning_rate": 4.214046052631579e-06,
      "loss": 0.1106,
      "step": 1700
    },
    {
      "epoch": 0.08625,
      "grad_norm": 2.1684815883636475,
      "learning_rate": 4.20828947368421e-06,
      "loss": 0.1081,
      "step": 1725
    },
    {
      "epoch": 0.0875,
      "grad_norm": 2.2405142784118652,
      "learning_rate": 4.202532894736842e-06,
      "loss": 0.1024,
      "step": 1750
    },
    {
      "epoch": 0.08875,
      "grad_norm": 3.28480863571167,
      "learning_rate": 4.196776315789474e-06,
      "loss": 0.1395,
      "step": 1775
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.734311819076538,
      "learning_rate": 4.191019736842105e-06,
      "loss": 0.1685,
      "step": 1800
    },
    {
      "epoch": 0.09125,
      "grad_norm": 3.3384852409362793,
      "learning_rate": 4.185263157894737e-06,
      "loss": 0.179,
      "step": 1825
    },
    {
      "epoch": 0.0925,
      "grad_norm": 4.151054859161377,
      "learning_rate": 4.1795065789473686e-06,
      "loss": 0.1863,
      "step": 1850
    },
    {
      "epoch": 0.09375,
      "grad_norm": 3.854214668273926,
      "learning_rate": 4.17375e-06,
      "loss": 0.1753,
      "step": 1875
    },
    {
      "epoch": 0.095,
      "grad_norm": 3.3321709632873535,
      "learning_rate": 4.1679934210526316e-06,
      "loss": 0.1684,
      "step": 1900
    },
    {
      "epoch": 0.09625,
      "grad_norm": 2.8302998542785645,
      "learning_rate": 4.162236842105263e-06,
      "loss": 0.1818,
      "step": 1925
    },
    {
      "epoch": 0.0975,
      "grad_norm": 5.4296555519104,
      "learning_rate": 4.156480263157895e-06,
      "loss": 0.5523,
      "step": 1950
    },
    {
      "epoch": 0.09875,
      "grad_norm": 3.8675997257232666,
      "learning_rate": 4.1507236842105265e-06,
      "loss": 0.3352,
      "step": 1975
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.9055581092834473,
      "learning_rate": 4.144967105263158e-06,
      "loss": 0.2343,
      "step": 2000
    },
    {
      "epoch": 0.1,
      "eval_loss": 0.2860749065876007,
      "eval_runtime": 530.1633,
      "eval_samples_per_second": 3.19,
      "eval_steps_per_second": 0.4,
      "eval_wer": 14.13138503809167,
      "step": 2000
    },
    {
      "epoch": 0.10125,
      "grad_norm": 3.413243293762207,
      "learning_rate": 4.1392105263157895e-06,
      "loss": 0.2233,
      "step": 2025
    },
    {
      "epoch": 0.1025,
      "grad_norm": 3.1129419803619385,
      "learning_rate": 4.133453947368421e-06,
      "loss": 0.2076,
      "step": 2050
    },
    {
      "epoch": 0.10375,
      "grad_norm": 3.0855767726898193,
      "learning_rate": 4.1276973684210525e-06,
      "loss": 0.1675,
      "step": 2075
    },
    {
      "epoch": 0.105,
      "grad_norm": 2.5053539276123047,
      "learning_rate": 4.121940789473684e-06,
      "loss": 0.1291,
      "step": 2100
    },
    {
      "epoch": 0.10625,
      "grad_norm": 2.078958511352539,
      "learning_rate": 4.1161842105263155e-06,
      "loss": 0.1036,
      "step": 2125
    },
    {
      "epoch": 0.1075,
      "grad_norm": 2.436898708343506,
      "learning_rate": 4.110427631578947e-06,
      "loss": 0.1153,
      "step": 2150
    },
    {
      "epoch": 0.10875,
      "grad_norm": 2.3834900856018066,
      "learning_rate": 4.1046710526315786e-06,
      "loss": 0.0943,
      "step": 2175
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.070406913757324,
      "learning_rate": 4.09891447368421e-06,
      "loss": 0.0898,
      "step": 2200
    },
    {
      "epoch": 0.11125,
      "grad_norm": 2.0004026889801025,
      "learning_rate": 4.0931578947368416e-06,
      "loss": 0.0912,
      "step": 2225
    },
    {
      "epoch": 0.1125,
      "grad_norm": 2.4464359283447266,
      "learning_rate": 4.0874013157894735e-06,
      "loss": 0.0907,
      "step": 2250
    },
    {
      "epoch": 0.11375,
      "grad_norm": 2.8847742080688477,
      "learning_rate": 4.081644736842105e-06,
      "loss": 0.0978,
      "step": 2275
    },
    {
      "epoch": 0.115,
      "grad_norm": 2.167893171310425,
      "learning_rate": 4.0758881578947365e-06,
      "loss": 0.0968,
      "step": 2300
    },
    {
      "epoch": 0.11625,
      "grad_norm": 1.575804352760315,
      "learning_rate": 4.0701315789473684e-06,
      "loss": 0.0976,
      "step": 2325
    },
    {
      "epoch": 0.1175,
      "grad_norm": 2.3064370155334473,
      "learning_rate": 4.0643749999999995e-06,
      "loss": 0.0966,
      "step": 2350
    },
    {
      "epoch": 0.11875,
      "grad_norm": 1.9859708547592163,
      "learning_rate": 4.0586184210526314e-06,
      "loss": 0.0958,
      "step": 2375
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7534265518188477,
      "learning_rate": 4.052861842105263e-06,
      "loss": 0.0966,
      "step": 2400
    },
    {
      "epoch": 0.12125,
      "grad_norm": 3.8807549476623535,
      "learning_rate": 4.0471052631578945e-06,
      "loss": 0.1367,
      "step": 2425
    },
    {
      "epoch": 0.1225,
      "grad_norm": 3.933382987976074,
      "learning_rate": 4.041348684210526e-06,
      "loss": 0.1445,
      "step": 2450
    },
    {
      "epoch": 0.12375,
      "grad_norm": 3.3107643127441406,
      "learning_rate": 4.0355921052631575e-06,
      "loss": 0.1486,
      "step": 2475
    },
    {
      "epoch": 0.125,
      "grad_norm": 2.699190139770508,
      "learning_rate": 4.029835526315789e-06,
      "loss": 0.1391,
      "step": 2500
    },
    {
      "epoch": 0.125,
      "eval_loss": 0.2906411290168762,
      "eval_runtime": 531.8376,
      "eval_samples_per_second": 3.18,
      "eval_steps_per_second": 0.399,
      "eval_wer": 13.31335081803422,
      "step": 2500
    },
    {
      "epoch": 0.12625,
      "grad_norm": 3.5841128826141357,
      "learning_rate": 4.0240789473684205e-06,
      "loss": 0.1628,
      "step": 2525
    },
    {
      "epoch": 0.1275,
      "grad_norm": 3.2463104724884033,
      "learning_rate": 4.018322368421052e-06,
      "loss": 0.1705,
      "step": 2550
    },
    {
      "epoch": 0.12875,
      "grad_norm": 5.094871520996094,
      "learning_rate": 4.0125657894736835e-06,
      "loss": 0.1663,
      "step": 2575
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.0208804607391357,
      "learning_rate": 4.0068092105263154e-06,
      "loss": 0.1712,
      "step": 2600
    },
    {
      "epoch": 0.13125,
      "grad_norm": 3.4919967651367188,
      "learning_rate": 4.0010526315789465e-06,
      "loss": 0.1498,
      "step": 2625
    },
    {
      "epoch": 0.1325,
      "grad_norm": 3.4352219104766846,
      "learning_rate": 3.9952960526315784e-06,
      "loss": 0.1423,
      "step": 2650
    },
    {
      "epoch": 0.13375,
      "grad_norm": 3.63608455657959,
      "learning_rate": 3.98953947368421e-06,
      "loss": 0.1565,
      "step": 2675
    },
    {
      "epoch": 0.135,
      "grad_norm": 3.6155622005462646,
      "learning_rate": 3.9837828947368414e-06,
      "loss": 0.1553,
      "step": 2700
    },
    {
      "epoch": 0.13625,
      "grad_norm": 3.4833076000213623,
      "learning_rate": 3.978026315789473e-06,
      "loss": 0.1416,
      "step": 2725
    },
    {
      "epoch": 0.1375,
      "grad_norm": 3.147080421447754,
      "learning_rate": 3.9722697368421045e-06,
      "loss": 0.1469,
      "step": 2750
    },
    {
      "epoch": 0.13875,
      "grad_norm": 2.891146659851074,
      "learning_rate": 3.966513157894736e-06,
      "loss": 0.128,
      "step": 2775
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.1411890983581543,
      "learning_rate": 3.960756578947368e-06,
      "loss": 0.1372,
      "step": 2800
    },
    {
      "epoch": 0.14125,
      "grad_norm": 3.836360216140747,
      "learning_rate": 3.954999999999999e-06,
      "loss": 0.149,
      "step": 2825
    },
    {
      "epoch": 0.1425,
      "grad_norm": 4.1377339363098145,
      "learning_rate": 3.949243421052631e-06,
      "loss": 0.1383,
      "step": 2850
    },
    {
      "epoch": 0.14375,
      "grad_norm": 3.7640268802642822,
      "learning_rate": 3.943486842105263e-06,
      "loss": 0.1492,
      "step": 2875
    },
    {
      "epoch": 0.145,
      "grad_norm": 3.452561855316162,
      "learning_rate": 3.937730263157894e-06,
      "loss": 0.1288,
      "step": 2900
    },
    {
      "epoch": 0.14625,
      "grad_norm": 1.9712022542953491,
      "learning_rate": 3.931973684210526e-06,
      "loss": 0.1137,
      "step": 2925
    },
    {
      "epoch": 0.1475,
      "grad_norm": 2.0524768829345703,
      "learning_rate": 3.926217105263157e-06,
      "loss": 0.0973,
      "step": 2950
    },
    {
      "epoch": 0.14875,
      "grad_norm": 2.3722898960113525,
      "learning_rate": 3.920460526315789e-06,
      "loss": 0.0915,
      "step": 2975
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.5048534870147705,
      "learning_rate": 3.914703947368421e-06,
      "loss": 0.0853,
      "step": 3000
    },
    {
      "epoch": 0.15,
      "eval_loss": 0.26879894733428955,
      "eval_runtime": 531.192,
      "eval_samples_per_second": 3.183,
      "eval_steps_per_second": 0.399,
      "eval_wer": 12.045710003746722,
      "step": 3000
    },
    {
      "epoch": 0.15125,
      "grad_norm": 2.009464740753174,
      "learning_rate": 3.908947368421052e-06,
      "loss": 0.1037,
      "step": 3025
    },
    {
      "epoch": 0.1525,
      "grad_norm": 2.3635034561157227,
      "learning_rate": 3.903190789473684e-06,
      "loss": 0.0889,
      "step": 3050
    },
    {
      "epoch": 0.15375,
      "grad_norm": 3.131683111190796,
      "learning_rate": 3.897434210526315e-06,
      "loss": 0.0895,
      "step": 3075
    },
    {
      "epoch": 0.155,
      "grad_norm": 2.2032673358917236,
      "learning_rate": 3.891677631578947e-06,
      "loss": 0.0955,
      "step": 3100
    },
    {
      "epoch": 0.15625,
      "grad_norm": 1.8079180717468262,
      "learning_rate": 3.885921052631578e-06,
      "loss": 0.0785,
      "step": 3125
    },
    {
      "epoch": 0.1575,
      "grad_norm": 2.2879910469055176,
      "learning_rate": 3.88016447368421e-06,
      "loss": 0.0721,
      "step": 3150
    },
    {
      "epoch": 0.15875,
      "grad_norm": 2.491487979888916,
      "learning_rate": 3.874407894736841e-06,
      "loss": 0.0817,
      "step": 3175
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.996129035949707,
      "learning_rate": 3.868651315789473e-06,
      "loss": 0.0877,
      "step": 3200
    },
    {
      "epoch": 0.16125,
      "grad_norm": 2.9992258548736572,
      "learning_rate": 3.862894736842104e-06,
      "loss": 0.1011,
      "step": 3225
    },
    {
      "epoch": 0.1625,
      "grad_norm": 2.5464529991149902,
      "learning_rate": 3.857138157894736e-06,
      "loss": 0.1385,
      "step": 3250
    },
    {
      "epoch": 0.16375,
      "grad_norm": 2.853933095932007,
      "learning_rate": 3.851381578947368e-06,
      "loss": 0.1223,
      "step": 3275
    },
    {
      "epoch": 0.165,
      "grad_norm": 2.3290011882781982,
      "learning_rate": 3.845624999999999e-06,
      "loss": 0.1236,
      "step": 3300
    },
    {
      "epoch": 0.16625,
      "grad_norm": 2.61714768409729,
      "learning_rate": 3.839868421052631e-06,
      "loss": 0.1167,
      "step": 3325
    },
    {
      "epoch": 0.1675,
      "grad_norm": 3.926612377166748,
      "learning_rate": 3.834111842105263e-06,
      "loss": 0.1306,
      "step": 3350
    },
    {
      "epoch": 0.16875,
      "grad_norm": 2.9979617595672607,
      "learning_rate": 3.828355263157894e-06,
      "loss": 0.1383,
      "step": 3375
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.879436492919922,
      "learning_rate": 3.822598684210526e-06,
      "loss": 0.1112,
      "step": 3400
    },
    {
      "epoch": 0.17125,
      "grad_norm": 2.706355571746826,
      "learning_rate": 3.816842105263158e-06,
      "loss": 0.1006,
      "step": 3425
    },
    {
      "epoch": 0.1725,
      "grad_norm": 2.263953685760498,
      "learning_rate": 3.811085526315789e-06,
      "loss": 0.089,
      "step": 3450
    },
    {
      "epoch": 0.17375,
      "grad_norm": 3.070748805999756,
      "learning_rate": 3.8053289473684207e-06,
      "loss": 0.0801,
      "step": 3475
    },
    {
      "epoch": 0.175,
      "grad_norm": 2.202629566192627,
      "learning_rate": 3.799572368421052e-06,
      "loss": 0.0866,
      "step": 3500
    },
    {
      "epoch": 0.175,
      "eval_loss": 0.2575243413448334,
      "eval_runtime": 531.9323,
      "eval_samples_per_second": 3.179,
      "eval_steps_per_second": 0.399,
      "eval_wer": 11.471212688897214,
      "step": 3500
    },
    {
      "epoch": 0.17625,
      "grad_norm": 2.1003735065460205,
      "learning_rate": 3.793815789473684e-06,
      "loss": 0.0794,
      "step": 3525
    },
    {
      "epoch": 0.1775,
      "grad_norm": 2.4936602115631104,
      "learning_rate": 3.788059210526315e-06,
      "loss": 0.0754,
      "step": 3550
    },
    {
      "epoch": 0.17875,
      "grad_norm": 2.2320945262908936,
      "learning_rate": 3.782302631578947e-06,
      "loss": 0.0906,
      "step": 3575
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4985826015472412,
      "learning_rate": 3.7765460526315786e-06,
      "loss": 0.0872,
      "step": 3600
    },
    {
      "epoch": 0.18125,
      "grad_norm": 1.6096969842910767,
      "learning_rate": 3.77078947368421e-06,
      "loss": 0.0783,
      "step": 3625
    },
    {
      "epoch": 0.1825,
      "grad_norm": 1.8306738138198853,
      "learning_rate": 3.7650328947368416e-06,
      "loss": 0.0783,
      "step": 3650
    },
    {
      "epoch": 0.18375,
      "grad_norm": 1.972235918045044,
      "learning_rate": 3.759276315789473e-06,
      "loss": 0.0789,
      "step": 3675
    },
    {
      "epoch": 0.185,
      "grad_norm": 2.0266051292419434,
      "learning_rate": 3.753519736842105e-06,
      "loss": 0.0708,
      "step": 3700
    },
    {
      "epoch": 0.18625,
      "grad_norm": 1.6395690441131592,
      "learning_rate": 3.7477631578947366e-06,
      "loss": 0.0768,
      "step": 3725
    },
    {
      "epoch": 0.1875,
      "grad_norm": 1.8886572122573853,
      "learning_rate": 3.742006578947368e-06,
      "loss": 0.0745,
      "step": 3750
    },
    {
      "epoch": 0.18875,
      "grad_norm": 3.0105178356170654,
      "learning_rate": 3.7362499999999996e-06,
      "loss": 0.0816,
      "step": 3775
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8376508951187134,
      "learning_rate": 3.7304934210526315e-06,
      "loss": 0.082,
      "step": 3800
    },
    {
      "epoch": 0.19125,
      "grad_norm": 1.758370041847229,
      "learning_rate": 3.7247368421052626e-06,
      "loss": 0.0798,
      "step": 3825
    },
    {
      "epoch": 0.1925,
      "grad_norm": 1.2405736446380615,
      "learning_rate": 3.7189802631578945e-06,
      "loss": 0.0773,
      "step": 3850
    },
    {
      "epoch": 0.19375,
      "grad_norm": 1.8085663318634033,
      "learning_rate": 3.713223684210526e-06,
      "loss": 0.0861,
      "step": 3875
    },
    {
      "epoch": 0.195,
      "grad_norm": 3.838613986968994,
      "learning_rate": 3.7074671052631575e-06,
      "loss": 0.1032,
      "step": 3900
    },
    {
      "epoch": 0.19625,
      "grad_norm": 3.087472438812256,
      "learning_rate": 3.701710526315789e-06,
      "loss": 0.133,
      "step": 3925
    },
    {
      "epoch": 0.1975,
      "grad_norm": 2.3854024410247803,
      "learning_rate": 3.6959539473684206e-06,
      "loss": 0.1366,
      "step": 3950
    },
    {
      "epoch": 0.19875,
      "grad_norm": 3.235400676727295,
      "learning_rate": 3.690197368421052e-06,
      "loss": 0.1275,
      "step": 3975
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.7316720485687256,
      "learning_rate": 3.684440789473684e-06,
      "loss": 0.1311,
      "step": 4000
    },
    {
      "epoch": 0.2,
      "eval_loss": 0.24720044434070587,
      "eval_runtime": 536.8744,
      "eval_samples_per_second": 3.15,
      "eval_steps_per_second": 0.395,
      "eval_wer": 12.482827525914825,
      "step": 4000
    },
    {
      "epoch": 0.20125,
      "grad_norm": 2.4120874404907227,
      "learning_rate": 3.6786842105263155e-06,
      "loss": 0.1215,
      "step": 4025
    },
    {
      "epoch": 0.2025,
      "grad_norm": 2.5485270023345947,
      "learning_rate": 3.672927631578947e-06,
      "loss": 0.0983,
      "step": 4050
    },
    {
      "epoch": 0.20375,
      "grad_norm": 2.2741594314575195,
      "learning_rate": 3.667171052631579e-06,
      "loss": 0.0764,
      "step": 4075
    },
    {
      "epoch": 0.205,
      "grad_norm": 1.875857949256897,
      "learning_rate": 3.66141447368421e-06,
      "loss": 0.0733,
      "step": 4100
    },
    {
      "epoch": 0.20625,
      "grad_norm": 1.8897082805633545,
      "learning_rate": 3.655657894736842e-06,
      "loss": 0.0797,
      "step": 4125
    },
    {
      "epoch": 0.2075,
      "grad_norm": 1.5462270975112915,
      "learning_rate": 3.6499013157894735e-06,
      "loss": 0.0772,
      "step": 4150
    },
    {
      "epoch": 0.20875,
      "grad_norm": 2.1055002212524414,
      "learning_rate": 3.644144736842105e-06,
      "loss": 0.079,
      "step": 4175
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.8036248683929443,
      "learning_rate": 3.6383881578947365e-06,
      "loss": 0.0828,
      "step": 4200
    },
    {
      "epoch": 0.21125,
      "grad_norm": 1.496777892112732,
      "learning_rate": 3.6326315789473684e-06,
      "loss": 0.0658,
      "step": 4225
    },
    {
      "epoch": 0.2125,
      "grad_norm": 2.213822364807129,
      "learning_rate": 3.6268749999999995e-06,
      "loss": 0.0722,
      "step": 4250
    },
    {
      "epoch": 0.21375,
      "grad_norm": 1.4431771039962769,
      "learning_rate": 3.6211184210526314e-06,
      "loss": 0.061,
      "step": 4275
    },
    {
      "epoch": 0.215,
      "grad_norm": 1.6346482038497925,
      "learning_rate": 3.6153618421052625e-06,
      "loss": 0.0641,
      "step": 4300
    },
    {
      "epoch": 0.21625,
      "grad_norm": 1.5905380249023438,
      "learning_rate": 3.6096052631578944e-06,
      "loss": 0.0633,
      "step": 4325
    },
    {
      "epoch": 0.2175,
      "grad_norm": 2.4848458766937256,
      "learning_rate": 3.6038486842105263e-06,
      "loss": 0.0738,
      "step": 4350
    },
    {
      "epoch": 0.21875,
      "grad_norm": 2.568466901779175,
      "learning_rate": 3.5980921052631574e-06,
      "loss": 0.1123,
      "step": 4375
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.5104339122772217,
      "learning_rate": 3.5923355263157894e-06,
      "loss": 0.1179,
      "step": 4400
    },
    {
      "epoch": 0.22125,
      "grad_norm": 3.769829273223877,
      "learning_rate": 3.586578947368421e-06,
      "loss": 0.1221,
      "step": 4425
    },
    {
      "epoch": 0.2225,
      "grad_norm": 2.850048542022705,
      "learning_rate": 3.5808223684210524e-06,
      "loss": 0.1115,
      "step": 4450
    },
    {
      "epoch": 0.22375,
      "grad_norm": 2.0328500270843506,
      "learning_rate": 3.575065789473684e-06,
      "loss": 0.1274,
      "step": 4475
    },
    {
      "epoch": 0.225,
      "grad_norm": 2.765300750732422,
      "learning_rate": 3.569309210526316e-06,
      "loss": 0.1338,
      "step": 4500
    },
    {
      "epoch": 0.225,
      "eval_loss": 0.24367325007915497,
      "eval_runtime": 531.4688,
      "eval_samples_per_second": 3.182,
      "eval_steps_per_second": 0.399,
      "eval_wer": 10.990383414512301,
      "step": 4500
    },
    {
      "epoch": 0.22625,
      "grad_norm": 1.4456897974014282,
      "learning_rate": 3.563552631578947e-06,
      "loss": 0.0921,
      "step": 4525
    },
    {
      "epoch": 0.2275,
      "grad_norm": 2.357384443283081,
      "learning_rate": 3.557796052631579e-06,
      "loss": 0.0728,
      "step": 4550
    },
    {
      "epoch": 0.22875,
      "grad_norm": 2.2841663360595703,
      "learning_rate": 3.55203947368421e-06,
      "loss": 0.0703,
      "step": 4575
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.8975858688354492,
      "learning_rate": 3.546282894736842e-06,
      "loss": 0.0595,
      "step": 4600
    },
    {
      "epoch": 0.23125,
      "grad_norm": 1.6614043712615967,
      "learning_rate": 3.5405263157894733e-06,
      "loss": 0.0684,
      "step": 4625
    },
    {
      "epoch": 0.2325,
      "grad_norm": 3.0987887382507324,
      "learning_rate": 3.534769736842105e-06,
      "loss": 0.0643,
      "step": 4650
    },
    {
      "epoch": 0.23375,
      "grad_norm": 1.869446873664856,
      "learning_rate": 3.5290131578947363e-06,
      "loss": 0.0612,
      "step": 4675
    },
    {
      "epoch": 0.235,
      "grad_norm": 1.6360236406326294,
      "learning_rate": 3.5232565789473683e-06,
      "loss": 0.0627,
      "step": 4700
    },
    {
      "epoch": 0.23625,
      "grad_norm": 2.188901424407959,
      "learning_rate": 3.5174999999999998e-06,
      "loss": 0.068,
      "step": 4725
    },
    {
      "epoch": 0.2375,
      "grad_norm": 1.5851141214370728,
      "learning_rate": 3.5117434210526313e-06,
      "loss": 0.0702,
      "step": 4750
    },
    {
      "epoch": 0.23875,
      "grad_norm": 1.9303579330444336,
      "learning_rate": 3.5059868421052632e-06,
      "loss": 0.0683,
      "step": 4775
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.8640798330307007,
      "learning_rate": 3.5002302631578943e-06,
      "loss": 0.0637,
      "step": 4800
    },
    {
      "epoch": 0.24125,
      "grad_norm": 2.395669937133789,
      "learning_rate": 3.4944736842105262e-06,
      "loss": 0.0626,
      "step": 4825
    },
    {
      "epoch": 0.2425,
      "grad_norm": 1.5368024110794067,
      "learning_rate": 3.4887171052631573e-06,
      "loss": 0.0694,
      "step": 4850
    },
    {
      "epoch": 0.24375,
      "grad_norm": 2.1346402168273926,
      "learning_rate": 3.4829605263157892e-06,
      "loss": 0.0734,
      "step": 4875
    },
    {
      "epoch": 0.245,
      "grad_norm": 2.0883893966674805,
      "learning_rate": 3.4772039473684207e-06,
      "loss": 0.0659,
      "step": 4900
    },
    {
      "epoch": 0.24625,
      "grad_norm": 1.6861238479614258,
      "learning_rate": 3.4714473684210523e-06,
      "loss": 0.0656,
      "step": 4925
    },
    {
      "epoch": 0.2475,
      "grad_norm": 1.5790470838546753,
      "learning_rate": 3.4656907894736838e-06,
      "loss": 0.0801,
      "step": 4950
    },
    {
      "epoch": 0.24875,
      "grad_norm": 1.3223644495010376,
      "learning_rate": 3.4599342105263157e-06,
      "loss": 0.0806,
      "step": 4975
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.6931387186050415,
      "learning_rate": 3.4541776315789468e-06,
      "loss": 0.0748,
      "step": 5000
    },
    {
      "epoch": 0.25,
      "eval_loss": 0.2556721270084381,
      "eval_runtime": 534.5469,
      "eval_samples_per_second": 3.163,
      "eval_steps_per_second": 0.397,
      "eval_wer": 10.709379293118522,
      "step": 5000
    },
    {
      "epoch": 0.25125,
      "grad_norm": 1.5327143669128418,
      "learning_rate": 3.4484210526315787e-06,
      "loss": 0.0968,
      "step": 5025
    },
    {
      "epoch": 0.2525,
      "grad_norm": 1.988226294517517,
      "learning_rate": 3.4426644736842106e-06,
      "loss": 0.0921,
      "step": 5050
    },
    {
      "epoch": 0.25375,
      "grad_norm": 2.179086446762085,
      "learning_rate": 3.4369078947368417e-06,
      "loss": 0.093,
      "step": 5075
    },
    {
      "epoch": 0.255,
      "grad_norm": 2.4304797649383545,
      "learning_rate": 3.4311513157894736e-06,
      "loss": 0.0909,
      "step": 5100
    },
    {
      "epoch": 0.25625,
      "grad_norm": 2.498908281326294,
      "learning_rate": 3.4253947368421047e-06,
      "loss": 0.1225,
      "step": 5125
    },
    {
      "epoch": 0.2575,
      "grad_norm": 2.018110752105713,
      "learning_rate": 3.4196381578947367e-06,
      "loss": 0.1199,
      "step": 5150
    },
    {
      "epoch": 0.25875,
      "grad_norm": 1.8156744241714478,
      "learning_rate": 3.413881578947368e-06,
      "loss": 0.1032,
      "step": 5175
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.395634651184082,
      "learning_rate": 3.4081249999999997e-06,
      "loss": 0.0842,
      "step": 5200
    },
    {
      "epoch": 0.26125,
      "grad_norm": 1.8604170083999634,
      "learning_rate": 3.402368421052631e-06,
      "loss": 0.0753,
      "step": 5225
    },
    {
      "epoch": 0.2625,
      "grad_norm": 2.186006784439087,
      "learning_rate": 3.396611842105263e-06,
      "loss": 0.0693,
      "step": 5250
    },
    {
      "epoch": 0.26375,
      "grad_norm": 2.117950201034546,
      "learning_rate": 3.390855263157894e-06,
      "loss": 0.0731,
      "step": 5275
    },
    {
      "epoch": 0.265,
      "grad_norm": 1.442688226699829,
      "learning_rate": 3.385098684210526e-06,
      "loss": 0.0607,
      "step": 5300
    },
    {
      "epoch": 0.26625,
      "grad_norm": 2.0623013973236084,
      "learning_rate": 3.379342105263157e-06,
      "loss": 0.0598,
      "step": 5325
    },
    {
      "epoch": 0.2675,
      "grad_norm": 1.6096211671829224,
      "learning_rate": 3.373585526315789e-06,
      "loss": 0.0687,
      "step": 5350
    },
    {
      "epoch": 0.26875,
      "grad_norm": 1.2381603717803955,
      "learning_rate": 3.367828947368421e-06,
      "loss": 0.0646,
      "step": 5375
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.6694140434265137,
      "learning_rate": 3.362072368421052e-06,
      "loss": 0.0595,
      "step": 5400
    },
    {
      "epoch": 0.27125,
      "grad_norm": 2.486950159072876,
      "learning_rate": 3.356315789473684e-06,
      "loss": 0.074,
      "step": 5425
    },
    {
      "epoch": 0.2725,
      "grad_norm": 1.2931033372879028,
      "learning_rate": 3.3505592105263156e-06,
      "loss": 0.08,
      "step": 5450
    },
    {
      "epoch": 0.27375,
      "grad_norm": 2.314680337905884,
      "learning_rate": 3.344802631578947e-06,
      "loss": 0.0662,
      "step": 5475
    },
    {
      "epoch": 0.275,
      "grad_norm": 2.413079261779785,
      "learning_rate": 3.3390460526315786e-06,
      "loss": 0.0821,
      "step": 5500
    },
    {
      "epoch": 0.275,
      "eval_loss": 0.2597045302391052,
      "eval_runtime": 532.1724,
      "eval_samples_per_second": 3.178,
      "eval_steps_per_second": 0.398,
      "eval_wer": 10.247283626826526,
      "step": 5500
    },
    {
      "epoch": 0.27625,
      "grad_norm": 2.8475470542907715,
      "learning_rate": 3.3332894736842105e-06,
      "loss": 0.1317,
      "step": 5525
    },
    {
      "epoch": 0.2775,
      "grad_norm": 2.919682025909424,
      "learning_rate": 3.3275328947368416e-06,
      "loss": 0.1323,
      "step": 5550
    },
    {
      "epoch": 0.27875,
      "grad_norm": 3.0585904121398926,
      "learning_rate": 3.3217763157894735e-06,
      "loss": 0.1332,
      "step": 5575
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.4418559074401855,
      "learning_rate": 3.3160197368421046e-06,
      "loss": 0.1126,
      "step": 5600
    },
    {
      "epoch": 0.28125,
      "grad_norm": 2.9454727172851562,
      "learning_rate": 3.3102631578947365e-06,
      "loss": 0.0991,
      "step": 5625
    },
    {
      "epoch": 0.2825,
      "grad_norm": 2.472628593444824,
      "learning_rate": 3.304506578947368e-06,
      "loss": 0.1106,
      "step": 5650
    },
    {
      "epoch": 0.28375,
      "grad_norm": 2.1178548336029053,
      "learning_rate": 3.2987499999999995e-06,
      "loss": 0.1027,
      "step": 5675
    },
    {
      "epoch": 0.285,
      "grad_norm": 2.5170726776123047,
      "learning_rate": 3.2929934210526315e-06,
      "loss": 0.1027,
      "step": 5700
    },
    {
      "epoch": 0.28625,
      "grad_norm": 2.9180397987365723,
      "learning_rate": 3.287236842105263e-06,
      "loss": 0.1045,
      "step": 5725
    },
    {
      "epoch": 0.2875,
      "grad_norm": 2.6896932125091553,
      "learning_rate": 3.2814802631578945e-06,
      "loss": 0.1069,
      "step": 5750
    },
    {
      "epoch": 0.28875,
      "grad_norm": 3.1297285556793213,
      "learning_rate": 3.275723684210526e-06,
      "loss": 0.1003,
      "step": 5775
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4746246337890625,
      "learning_rate": 3.269967105263158e-06,
      "loss": 0.1084,
      "step": 5800
    },
    {
      "epoch": 0.29125,
      "grad_norm": 1.7318406105041504,
      "learning_rate": 3.264210526315789e-06,
      "loss": 0.0846,
      "step": 5825
    },
    {
      "epoch": 0.2925,
      "grad_norm": 2.190168857574463,
      "learning_rate": 3.258453947368421e-06,
      "loss": 0.082,
      "step": 5850
    },
    {
      "epoch": 0.29375,
      "grad_norm": 1.5366681814193726,
      "learning_rate": 3.252697368421052e-06,
      "loss": 0.0656,
      "step": 5875
    },
    {
      "epoch": 0.295,
      "grad_norm": 1.8261510133743286,
      "learning_rate": 3.246940789473684e-06,
      "loss": 0.0646,
      "step": 5900
    },
    {
      "epoch": 0.29625,
      "grad_norm": 1.9088908433914185,
      "learning_rate": 3.2411842105263155e-06,
      "loss": 0.0662,
      "step": 5925
    },
    {
      "epoch": 0.2975,
      "grad_norm": 1.3404430150985718,
      "learning_rate": 3.235427631578947e-06,
      "loss": 0.0712,
      "step": 5950
    },
    {
      "epoch": 0.29875,
      "grad_norm": 1.7546651363372803,
      "learning_rate": 3.2296710526315785e-06,
      "loss": 0.084,
      "step": 5975
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.7727612257003784,
      "learning_rate": 3.2239144736842104e-06,
      "loss": 0.0988,
      "step": 6000
    },
    {
      "epoch": 0.3,
      "eval_loss": 0.2406572848558426,
      "eval_runtime": 535.6321,
      "eval_samples_per_second": 3.157,
      "eval_steps_per_second": 0.396,
      "eval_wer": 9.447983014861997,
      "step": 6000
    },
    {
      "epoch": 0.30125,
      "grad_norm": 2.477670907974243,
      "learning_rate": 3.2181578947368415e-06,
      "loss": 0.1013,
      "step": 6025
    },
    {
      "epoch": 0.3025,
      "grad_norm": 4.175459384918213,
      "learning_rate": 3.2124013157894734e-06,
      "loss": 0.1199,
      "step": 6050
    },
    {
      "epoch": 0.30375,
      "grad_norm": 2.4588561058044434,
      "learning_rate": 3.2066447368421053e-06,
      "loss": 0.1203,
      "step": 6075
    },
    {
      "epoch": 0.305,
      "grad_norm": 3.759526491165161,
      "learning_rate": 3.2008881578947364e-06,
      "loss": 0.1261,
      "step": 6100
    },
    {
      "epoch": 0.30625,
      "grad_norm": 3.186166524887085,
      "learning_rate": 3.1951315789473683e-06,
      "loss": 0.0946,
      "step": 6125
    },
    {
      "epoch": 0.3075,
      "grad_norm": 1.874886155128479,
      "learning_rate": 3.1893749999999994e-06,
      "loss": 0.0707,
      "step": 6150
    },
    {
      "epoch": 0.30875,
      "grad_norm": 1.673767328262329,
      "learning_rate": 3.1836184210526314e-06,
      "loss": 0.0605,
      "step": 6175
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.6728780269622803,
      "learning_rate": 3.177861842105263e-06,
      "loss": 0.064,
      "step": 6200
    },
    {
      "epoch": 0.31125,
      "grad_norm": 1.245354175567627,
      "learning_rate": 3.1721052631578944e-06,
      "loss": 0.0603,
      "step": 6225
    },
    {
      "epoch": 0.3125,
      "grad_norm": 1.3173916339874268,
      "learning_rate": 3.166348684210526e-06,
      "loss": 0.067,
      "step": 6250
    },
    {
      "epoch": 0.31375,
      "grad_norm": 1.9218686819076538,
      "learning_rate": 3.160592105263158e-06,
      "loss": 0.0723,
      "step": 6275
    },
    {
      "epoch": 0.315,
      "grad_norm": 1.822493314743042,
      "learning_rate": 3.154835526315789e-06,
      "loss": 0.0772,
      "step": 6300
    },
    {
      "epoch": 0.31625,
      "grad_norm": 2.4955074787139893,
      "learning_rate": 3.149078947368421e-06,
      "loss": 0.1124,
      "step": 6325
    },
    {
      "epoch": 0.3175,
      "grad_norm": 2.448274612426758,
      "learning_rate": 3.1433223684210523e-06,
      "loss": 0.1144,
      "step": 6350
    },
    {
      "epoch": 0.31875,
      "grad_norm": 2.732297658920288,
      "learning_rate": 3.137565789473684e-06,
      "loss": 0.0983,
      "step": 6375
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.261770248413086,
      "learning_rate": 3.1318092105263158e-06,
      "loss": 0.11,
      "step": 6400
    },
    {
      "epoch": 0.32125,
      "grad_norm": 2.367335319519043,
      "learning_rate": 3.1260526315789473e-06,
      "loss": 0.1129,
      "step": 6425
    },
    {
      "epoch": 0.3225,
      "grad_norm": 2.4930291175842285,
      "learning_rate": 3.1202960526315788e-06,
      "loss": 0.1106,
      "step": 6450
    },
    {
      "epoch": 0.32375,
      "grad_norm": 1.8275959491729736,
      "learning_rate": 3.1145394736842103e-06,
      "loss": 0.0814,
      "step": 6475
    },
    {
      "epoch": 0.325,
      "grad_norm": 3.6453261375427246,
      "learning_rate": 3.1087828947368418e-06,
      "loss": 0.0824,
      "step": 6500
    },
    {
      "epoch": 0.325,
      "eval_loss": 0.24250419437885284,
      "eval_runtime": 531.4087,
      "eval_samples_per_second": 3.182,
      "eval_steps_per_second": 0.399,
      "eval_wer": 9.223179717746971,
      "step": 6500
    },
    {
      "epoch": 0.32625,
      "grad_norm": 2.3996527194976807,
      "learning_rate": 3.1030263157894733e-06,
      "loss": 0.0913,
      "step": 6525
    },
    {
      "epoch": 0.3275,
      "grad_norm": 3.106403350830078,
      "learning_rate": 3.0972697368421052e-06,
      "loss": 0.0969,
      "step": 6550
    },
    {
      "epoch": 0.32875,
      "grad_norm": 3.741685628890991,
      "learning_rate": 3.0915131578947363e-06,
      "loss": 0.1091,
      "step": 6575
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6008243560791016,
      "learning_rate": 3.0859868421052626e-06,
      "loss": 0.0984,
      "step": 6600
    },
    {
      "epoch": 0.33125,
      "grad_norm": 2.268734931945801,
      "learning_rate": 3.0802302631578945e-06,
      "loss": 0.0968,
      "step": 6625
    },
    {
      "epoch": 0.3325,
      "grad_norm": 2.442617654800415,
      "learning_rate": 3.074473684210526e-06,
      "loss": 0.0716,
      "step": 6650
    },
    {
      "epoch": 0.33375,
      "grad_norm": 1.9763257503509521,
      "learning_rate": 3.0687171052631575e-06,
      "loss": 0.0674,
      "step": 6675
    },
    {
      "epoch": 0.335,
      "grad_norm": 1.828474998474121,
      "learning_rate": 3.0629605263157894e-06,
      "loss": 0.0654,
      "step": 6700
    },
    {
      "epoch": 0.33625,
      "grad_norm": 1.5649821758270264,
      "learning_rate": 3.0572039473684205e-06,
      "loss": 0.057,
      "step": 6725
    },
    {
      "epoch": 0.3375,
      "grad_norm": 1.911927580833435,
      "learning_rate": 3.0514473684210525e-06,
      "loss": 0.0532,
      "step": 6750
    },
    {
      "epoch": 0.33875,
      "grad_norm": 1.3287229537963867,
      "learning_rate": 3.045690789473684e-06,
      "loss": 0.0623,
      "step": 6775
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.7754572629928589,
      "learning_rate": 3.0399342105263155e-06,
      "loss": 0.0635,
      "step": 6800
    },
    {
      "epoch": 0.34125,
      "grad_norm": 1.9900065660476685,
      "learning_rate": 3.034177631578947e-06,
      "loss": 0.0678,
      "step": 6825
    },
    {
      "epoch": 0.3425,
      "grad_norm": 1.714850664138794,
      "learning_rate": 3.028421052631579e-06,
      "loss": 0.0654,
      "step": 6850
    },
    {
      "epoch": 0.34375,
      "grad_norm": 1.6401875019073486,
      "learning_rate": 3.02266447368421e-06,
      "loss": 0.0662,
      "step": 6875
    },
    {
      "epoch": 0.345,
      "grad_norm": 1.0171102285385132,
      "learning_rate": 3.016907894736842e-06,
      "loss": 0.0573,
      "step": 6900
    },
    {
      "epoch": 0.34625,
      "grad_norm": 1.4662336111068726,
      "learning_rate": 3.0111513157894734e-06,
      "loss": 0.0556,
      "step": 6925
    },
    {
      "epoch": 0.3475,
      "grad_norm": 1.7531720399856567,
      "learning_rate": 3.005394736842105e-06,
      "loss": 0.0501,
      "step": 6950
    },
    {
      "epoch": 0.34875,
      "grad_norm": 2.6019067764282227,
      "learning_rate": 2.9996381578947364e-06,
      "loss": 0.0629,
      "step": 6975
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0052170753479004,
      "learning_rate": 2.9938815789473684e-06,
      "loss": 0.0678,
      "step": 7000
    },
    {
      "epoch": 0.35,
      "eval_loss": 0.23009631037712097,
      "eval_runtime": 530.6679,
      "eval_samples_per_second": 3.187,
      "eval_steps_per_second": 0.399,
      "eval_wer": 9.13575621331335,
      "step": 7000
    },
    {
      "epoch": 0.35125,
      "grad_norm": 2.00034761428833,
      "learning_rate": 2.988125e-06,
      "loss": 0.0582,
      "step": 7025
    },
    {
      "epoch": 0.3525,
      "grad_norm": 1.7806837558746338,
      "learning_rate": 2.9823684210526314e-06,
      "loss": 0.058,
      "step": 7050
    },
    {
      "epoch": 0.35375,
      "grad_norm": 1.4306073188781738,
      "learning_rate": 2.976611842105263e-06,
      "loss": 0.0555,
      "step": 7075
    },
    {
      "epoch": 0.355,
      "grad_norm": 1.8648333549499512,
      "learning_rate": 2.9708552631578944e-06,
      "loss": 0.0662,
      "step": 7100
    },
    {
      "epoch": 0.35625,
      "grad_norm": 2.046255350112915,
      "learning_rate": 2.9650986842105263e-06,
      "loss": 0.0873,
      "step": 7125
    },
    {
      "epoch": 0.3575,
      "grad_norm": 1.928809404373169,
      "learning_rate": 2.9593421052631574e-06,
      "loss": 0.0948,
      "step": 7150
    },
    {
      "epoch": 0.35875,
      "grad_norm": 2.6892471313476562,
      "learning_rate": 2.9535855263157893e-06,
      "loss": 0.1043,
      "step": 7175
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.9739983081817627,
      "learning_rate": 2.947828947368421e-06,
      "loss": 0.1037,
      "step": 7200
    },
    {
      "epoch": 0.36125,
      "grad_norm": 3.5157880783081055,
      "learning_rate": 2.9420723684210523e-06,
      "loss": 0.1139,
      "step": 7225
    },
    {
      "epoch": 0.3625,
      "grad_norm": 2.140559673309326,
      "learning_rate": 2.936315789473684e-06,
      "loss": 0.0912,
      "step": 7250
    },
    {
      "epoch": 0.36375,
      "grad_norm": 2.24043607711792,
      "learning_rate": 2.9305592105263158e-06,
      "loss": 0.0555,
      "step": 7275
    },
    {
      "epoch": 0.365,
      "grad_norm": 1.5429259538650513,
      "learning_rate": 2.924802631578947e-06,
      "loss": 0.059,
      "step": 7300
    },
    {
      "epoch": 0.36625,
      "grad_norm": 1.9133890867233276,
      "learning_rate": 2.919046052631579e-06,
      "loss": 0.0576,
      "step": 7325
    },
    {
      "epoch": 0.3675,
      "grad_norm": 1.585777759552002,
      "learning_rate": 2.9132894736842103e-06,
      "loss": 0.0497,
      "step": 7350
    },
    {
      "epoch": 0.36875,
      "grad_norm": 1.5571388006210327,
      "learning_rate": 2.907532894736842e-06,
      "loss": 0.0604,
      "step": 7375
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2344049215316772,
      "learning_rate": 2.9017763157894737e-06,
      "loss": 0.0621,
      "step": 7400
    },
    {
      "epoch": 0.37125,
      "grad_norm": 1.7708073854446411,
      "learning_rate": 2.896019736842105e-06,
      "loss": 0.0713,
      "step": 7425
    },
    {
      "epoch": 0.3725,
      "grad_norm": 2.126579999923706,
      "learning_rate": 2.8902631578947367e-06,
      "loss": 0.0661,
      "step": 7450
    },
    {
      "epoch": 0.37375,
      "grad_norm": 1.9544090032577515,
      "learning_rate": 2.8845065789473682e-06,
      "loss": 0.0626,
      "step": 7475
    },
    {
      "epoch": 0.375,
      "grad_norm": 2.478142499923706,
      "learning_rate": 2.8787499999999998e-06,
      "loss": 0.1124,
      "step": 7500
    },
    {
      "epoch": 0.375,
      "eval_loss": 0.2558789849281311,
      "eval_runtime": 531.6323,
      "eval_samples_per_second": 3.181,
      "eval_steps_per_second": 0.399,
      "eval_wer": 9.323092294242539,
      "step": 7500
    },
    {
      "epoch": 0.37625,
      "grad_norm": 2.722101926803589,
      "learning_rate": 2.8729934210526313e-06,
      "loss": 0.1143,
      "step": 7525
    },
    {
      "epoch": 0.3775,
      "grad_norm": 2.3424594402313232,
      "learning_rate": 2.867236842105263e-06,
      "loss": 0.0968,
      "step": 7550
    },
    {
      "epoch": 0.37875,
      "grad_norm": 2.566340208053589,
      "learning_rate": 2.8614802631578943e-06,
      "loss": 0.0932,
      "step": 7575
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.2237472534179688,
      "learning_rate": 2.855723684210526e-06,
      "loss": 0.1155,
      "step": 7600
    },
    {
      "epoch": 0.38125,
      "grad_norm": 3.058669090270996,
      "learning_rate": 2.8499671052631573e-06,
      "loss": 0.103,
      "step": 7625
    },
    {
      "epoch": 0.3825,
      "grad_norm": 4.729414463043213,
      "learning_rate": 2.8442105263157892e-06,
      "loss": 0.0922,
      "step": 7650
    },
    {
      "epoch": 0.38375,
      "grad_norm": 2.140126943588257,
      "learning_rate": 2.8384539473684207e-06,
      "loss": 0.0982,
      "step": 7675
    },
    {
      "epoch": 0.385,
      "grad_norm": 2.778568983078003,
      "learning_rate": 2.8326973684210522e-06,
      "loss": 0.0993,
      "step": 7700
    },
    {
      "epoch": 0.38625,
      "grad_norm": 2.6681206226348877,
      "learning_rate": 2.826940789473684e-06,
      "loss": 0.1018,
      "step": 7725
    },
    {
      "epoch": 0.3875,
      "grad_norm": 1.5673187971115112,
      "learning_rate": 2.8211842105263157e-06,
      "loss": 0.0854,
      "step": 7750
    },
    {
      "epoch": 0.38875,
      "grad_norm": 1.3890910148620605,
      "learning_rate": 2.815427631578947e-06,
      "loss": 0.0703,
      "step": 7775
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.176023483276367,
      "learning_rate": 2.8096710526315787e-06,
      "loss": 0.0672,
      "step": 7800
    },
    {
      "epoch": 0.39125,
      "grad_norm": 1.2905758619308472,
      "learning_rate": 2.8039144736842106e-06,
      "loss": 0.0615,
      "step": 7825
    },
    {
      "epoch": 0.3925,
      "grad_norm": 1.3446353673934937,
      "learning_rate": 2.7981578947368417e-06,
      "loss": 0.0637,
      "step": 7850
    },
    {
      "epoch": 0.39375,
      "grad_norm": 2.1519501209259033,
      "learning_rate": 2.7924013157894736e-06,
      "loss": 0.056,
      "step": 7875
    },
    {
      "epoch": 0.395,
      "grad_norm": 1.8618980646133423,
      "learning_rate": 2.7866447368421047e-06,
      "loss": 0.0573,
      "step": 7900
    },
    {
      "epoch": 0.39625,
      "grad_norm": 2.5565106868743896,
      "learning_rate": 2.7808881578947366e-06,
      "loss": 0.0882,
      "step": 7925
    },
    {
      "epoch": 0.3975,
      "grad_norm": 3.98923397064209,
      "learning_rate": 2.775131578947368e-06,
      "loss": 0.0981,
      "step": 7950
    },
    {
      "epoch": 0.39875,
      "grad_norm": 3.326756477355957,
      "learning_rate": 2.7693749999999996e-06,
      "loss": 0.147,
      "step": 7975
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.8089091777801514,
      "learning_rate": 2.763618421052631e-06,
      "loss": 0.1122,
      "step": 8000
    },
    {
      "epoch": 0.4,
      "eval_loss": 0.22397179901599884,
      "eval_runtime": 531.6557,
      "eval_samples_per_second": 3.181,
      "eval_steps_per_second": 0.399,
      "eval_wer": 8.523791682278006,
      "step": 8000
    },
    {
      "epoch": 0.40125,
      "grad_norm": 1.8123100996017456,
      "learning_rate": 2.757861842105263e-06,
      "loss": 0.0967,
      "step": 8025
    },
    {
      "epoch": 0.4025,
      "grad_norm": 2.1731700897216797,
      "learning_rate": 2.7521052631578946e-06,
      "loss": 0.0927,
      "step": 8050
    },
    {
      "epoch": 0.40375,
      "grad_norm": 2.9888458251953125,
      "learning_rate": 2.746348684210526e-06,
      "loss": 0.1061,
      "step": 8075
    },
    {
      "epoch": 0.405,
      "grad_norm": 3.51106595993042,
      "learning_rate": 2.740592105263158e-06,
      "loss": 0.158,
      "step": 8100
    },
    {
      "epoch": 0.40625,
      "grad_norm": 3.410916805267334,
      "learning_rate": 2.734835526315789e-06,
      "loss": 0.1011,
      "step": 8125
    },
    {
      "epoch": 0.4075,
      "grad_norm": 2.426023006439209,
      "learning_rate": 2.729078947368421e-06,
      "loss": 0.0864,
      "step": 8150
    },
    {
      "epoch": 0.40875,
      "grad_norm": 2.8296170234680176,
      "learning_rate": 2.723322368421052e-06,
      "loss": 0.0929,
      "step": 8175
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.028474807739258,
      "learning_rate": 2.717565789473684e-06,
      "loss": 0.0848,
      "step": 8200
    },
    {
      "epoch": 0.41125,
      "grad_norm": 2.4663166999816895,
      "learning_rate": 2.7118092105263155e-06,
      "loss": 0.0698,
      "step": 8225
    },
    {
      "epoch": 0.4125,
      "grad_norm": 1.7618118524551392,
      "learning_rate": 2.706052631578947e-06,
      "loss": 0.058,
      "step": 8250
    },
    {
      "epoch": 0.41375,
      "grad_norm": 2.2708559036254883,
      "learning_rate": 2.7002960526315786e-06,
      "loss": 0.0607,
      "step": 8275
    },
    {
      "epoch": 0.415,
      "grad_norm": 1.6543164253234863,
      "learning_rate": 2.6945394736842105e-06,
      "loss": 0.0556,
      "step": 8300
    },
    {
      "epoch": 0.41625,
      "grad_norm": 2.5951287746429443,
      "learning_rate": 2.6887828947368416e-06,
      "loss": 0.0576,
      "step": 8325
    },
    {
      "epoch": 0.4175,
      "grad_norm": 1.1910465955734253,
      "learning_rate": 2.6830263157894735e-06,
      "loss": 0.059,
      "step": 8350
    },
    {
      "epoch": 0.41875,
      "grad_norm": 1.667228102684021,
      "learning_rate": 2.6772697368421054e-06,
      "loss": 0.0521,
      "step": 8375
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.1288628578186035,
      "learning_rate": 2.6715131578947365e-06,
      "loss": 0.0557,
      "step": 8400
    },
    {
      "epoch": 0.42125,
      "grad_norm": 2.0485122203826904,
      "learning_rate": 2.6657565789473684e-06,
      "loss": 0.0493,
      "step": 8425
    },
    {
      "epoch": 0.4225,
      "grad_norm": 1.8512142896652222,
      "learning_rate": 2.6599999999999995e-06,
      "loss": 0.056,
      "step": 8450
    },
    {
      "epoch": 0.42375,
      "grad_norm": 1.8958942890167236,
      "learning_rate": 2.6542434210526314e-06,
      "loss": 0.059,
      "step": 8475
    },
    {
      "epoch": 0.425,
      "grad_norm": 1.2833645343780518,
      "learning_rate": 2.648486842105263e-06,
      "loss": 0.0477,
      "step": 8500
    },
    {
      "epoch": 0.425,
      "eval_loss": 0.23789365589618683,
      "eval_runtime": 530.7286,
      "eval_samples_per_second": 3.186,
      "eval_steps_per_second": 0.399,
      "eval_wer": 8.317721993255901,
      "step": 8500
    },
    {
      "epoch": 0.42625,
      "grad_norm": 1.2612178325653076,
      "learning_rate": 2.6427302631578945e-06,
      "loss": 0.05,
      "step": 8525
    },
    {
      "epoch": 0.4275,
      "grad_norm": 2.100247621536255,
      "learning_rate": 2.636973684210526e-06,
      "loss": 0.0626,
      "step": 8550
    },
    {
      "epoch": 0.42875,
      "grad_norm": 2.7199559211730957,
      "learning_rate": 2.631217105263158e-06,
      "loss": 0.0906,
      "step": 8575
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.267314910888672,
      "learning_rate": 2.625460526315789e-06,
      "loss": 0.1068,
      "step": 8600
    },
    {
      "epoch": 0.43125,
      "grad_norm": 3.2623515129089355,
      "learning_rate": 2.619703947368421e-06,
      "loss": 0.0849,
      "step": 8625
    },
    {
      "epoch": 0.4325,
      "grad_norm": 1.8294329643249512,
      "learning_rate": 2.613947368421052e-06,
      "loss": 0.0776,
      "step": 8650
    },
    {
      "epoch": 0.43375,
      "grad_norm": 3.3888967037200928,
      "learning_rate": 2.608190789473684e-06,
      "loss": 0.0869,
      "step": 8675
    },
    {
      "epoch": 0.435,
      "grad_norm": 2.5059332847595215,
      "learning_rate": 2.602434210526316e-06,
      "loss": 0.0781,
      "step": 8700
    },
    {
      "epoch": 0.43625,
      "grad_norm": 1.8527718782424927,
      "learning_rate": 2.596677631578947e-06,
      "loss": 0.0513,
      "step": 8725
    },
    {
      "epoch": 0.4375,
      "grad_norm": 1.4375104904174805,
      "learning_rate": 2.590921052631579e-06,
      "loss": 0.053,
      "step": 8750
    },
    {
      "epoch": 0.43875,
      "grad_norm": 1.923519253730774,
      "learning_rate": 2.5851644736842104e-06,
      "loss": 0.0487,
      "step": 8775
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6237260103225708,
      "learning_rate": 2.579407894736842e-06,
      "loss": 0.0499,
      "step": 8800
    },
    {
      "epoch": 0.44125,
      "grad_norm": 1.7452889680862427,
      "learning_rate": 2.5736513157894734e-06,
      "loss": 0.0538,
      "step": 8825
    },
    {
      "epoch": 0.4425,
      "grad_norm": 1.7012261152267456,
      "learning_rate": 2.5678947368421053e-06,
      "loss": 0.0529,
      "step": 8850
    },
    {
      "epoch": 0.44375,
      "grad_norm": 1.8288905620574951,
      "learning_rate": 2.5621381578947364e-06,
      "loss": 0.0473,
      "step": 8875
    },
    {
      "epoch": 0.445,
      "grad_norm": 1.9288239479064941,
      "learning_rate": 2.5563815789473683e-06,
      "loss": 0.0683,
      "step": 8900
    },
    {
      "epoch": 0.44625,
      "grad_norm": 1.3186031579971313,
      "learning_rate": 2.5506249999999994e-06,
      "loss": 0.065,
      "step": 8925
    },
    {
      "epoch": 0.4475,
      "grad_norm": 1.340890645980835,
      "learning_rate": 2.5448684210526313e-06,
      "loss": 0.0617,
      "step": 8950
    },
    {
      "epoch": 0.44875,
      "grad_norm": 2.7007381916046143,
      "learning_rate": 2.539111842105263e-06,
      "loss": 0.0512,
      "step": 8975
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.688952922821045,
      "learning_rate": 2.5333552631578943e-06,
      "loss": 0.0638,
      "step": 9000
    },
    {
      "epoch": 0.45,
      "eval_loss": 0.23539182543754578,
      "eval_runtime": 531.3204,
      "eval_samples_per_second": 3.183,
      "eval_steps_per_second": 0.399,
      "eval_wer": 8.948420132384163,
      "step": 9000
    },
    {
      "epoch": 0.45125,
      "grad_norm": 3.06502103805542,
      "learning_rate": 2.527598684210526e-06,
      "loss": 0.0691,
      "step": 9025
    },
    {
      "epoch": 0.4525,
      "grad_norm": 2.2699365615844727,
      "learning_rate": 2.5218421052631578e-06,
      "loss": 0.0765,
      "step": 9050
    },
    {
      "epoch": 0.45375,
      "grad_norm": 3.057246208190918,
      "learning_rate": 2.5160855263157893e-06,
      "loss": 0.0874,
      "step": 9075
    },
    {
      "epoch": 0.455,
      "grad_norm": 2.452810764312744,
      "learning_rate": 2.5105592105263156e-06,
      "loss": 0.0992,
      "step": 9100
    },
    {
      "epoch": 0.45625,
      "grad_norm": 1.8321553468704224,
      "learning_rate": 2.504802631578947e-06,
      "loss": 0.091,
      "step": 9125
    },
    {
      "epoch": 0.4575,
      "grad_norm": 2.1675491333007812,
      "learning_rate": 2.499046052631579e-06,
      "loss": 0.0968,
      "step": 9150
    },
    {
      "epoch": 0.45875,
      "grad_norm": 2.440648317337036,
      "learning_rate": 2.49328947368421e-06,
      "loss": 0.094,
      "step": 9175
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.3630011081695557,
      "learning_rate": 2.487532894736842e-06,
      "loss": 0.0934,
      "step": 9200
    },
    {
      "epoch": 0.46125,
      "grad_norm": 3.1267924308776855,
      "learning_rate": 2.481776315789473e-06,
      "loss": 0.095,
      "step": 9225
    },
    {
      "epoch": 0.4625,
      "grad_norm": 2.791846752166748,
      "learning_rate": 2.476019736842105e-06,
      "loss": 0.0988,
      "step": 9250
    },
    {
      "epoch": 0.46375,
      "grad_norm": 1.883380651473999,
      "learning_rate": 2.4702631578947365e-06,
      "loss": 0.089,
      "step": 9275
    },
    {
      "epoch": 0.465,
      "grad_norm": 2.572441577911377,
      "learning_rate": 2.464506578947368e-06,
      "loss": 0.0933,
      "step": 9300
    },
    {
      "epoch": 0.46625,
      "grad_norm": 3.08231258392334,
      "learning_rate": 2.45875e-06,
      "loss": 0.0856,
      "step": 9325
    },
    {
      "epoch": 0.4675,
      "grad_norm": 2.208491563796997,
      "learning_rate": 2.4529934210526315e-06,
      "loss": 0.0795,
      "step": 9350
    },
    {
      "epoch": 0.46875,
      "grad_norm": 2.896657943725586,
      "learning_rate": 2.447236842105263e-06,
      "loss": 0.0625,
      "step": 9375
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3465672731399536,
      "learning_rate": 2.4414802631578945e-06,
      "loss": 0.0822,
      "step": 9400
    },
    {
      "epoch": 0.47125,
      "grad_norm": 3.4039506912231445,
      "learning_rate": 2.4357236842105264e-06,
      "loss": 0.0813,
      "step": 9425
    },
    {
      "epoch": 0.4725,
      "grad_norm": 2.213761568069458,
      "learning_rate": 2.4299671052631575e-06,
      "loss": 0.075,
      "step": 9450
    },
    {
      "epoch": 0.47375,
      "grad_norm": 1.693393588066101,
      "learning_rate": 2.4242105263157894e-06,
      "loss": 0.0819,
      "step": 9475
    },
    {
      "epoch": 0.475,
      "grad_norm": 3.1261212825775146,
      "learning_rate": 2.4184539473684205e-06,
      "loss": 0.0735,
      "step": 9500
    },
    {
      "epoch": 0.475,
      "eval_loss": 0.22311098873615265,
      "eval_runtime": 530.3307,
      "eval_samples_per_second": 3.189,
      "eval_steps_per_second": 0.4,
      "eval_wer": 8.39890096165855,
      "step": 9500
    },
    {
      "epoch": 0.47625,
      "grad_norm": 2.6011083126068115,
      "learning_rate": 2.4126973684210524e-06,
      "loss": 0.0557,
      "step": 9525
    },
    {
      "epoch": 0.4775,
      "grad_norm": 1.4606833457946777,
      "learning_rate": 2.406940789473684e-06,
      "loss": 0.0518,
      "step": 9550
    },
    {
      "epoch": 0.47875,
      "grad_norm": 3.201547145843506,
      "learning_rate": 2.4011842105263154e-06,
      "loss": 0.0616,
      "step": 9575
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.470755696296692,
      "learning_rate": 2.395427631578947e-06,
      "loss": 0.0566,
      "step": 9600
    },
    {
      "epoch": 0.48125,
      "grad_norm": 1.0501068830490112,
      "learning_rate": 2.389671052631579e-06,
      "loss": 0.0482,
      "step": 9625
    },
    {
      "epoch": 0.4825,
      "grad_norm": 1.7576944828033447,
      "learning_rate": 2.38391447368421e-06,
      "loss": 0.0487,
      "step": 9650
    },
    {
      "epoch": 0.48375,
      "grad_norm": 2.6596386432647705,
      "learning_rate": 2.378157894736842e-06,
      "loss": 0.0548,
      "step": 9675
    },
    {
      "epoch": 0.485,
      "grad_norm": 2.2998361587524414,
      "learning_rate": 2.372401315789474e-06,
      "loss": 0.0755,
      "step": 9700
    },
    {
      "epoch": 0.48625,
      "grad_norm": 1.885953426361084,
      "learning_rate": 2.366644736842105e-06,
      "loss": 0.0635,
      "step": 9725
    },
    {
      "epoch": 0.4875,
      "grad_norm": 1.686090111732483,
      "learning_rate": 2.360888157894737e-06,
      "loss": 0.0664,
      "step": 9750
    },
    {
      "epoch": 0.48875,
      "grad_norm": 1.487586259841919,
      "learning_rate": 2.3551315789473683e-06,
      "loss": 0.0723,
      "step": 9775
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5484004020690918,
      "learning_rate": 2.349375e-06,
      "loss": 0.0697,
      "step": 9800
    },
    {
      "epoch": 0.49125,
      "grad_norm": 1.6730592250823975,
      "learning_rate": 2.3436184210526314e-06,
      "loss": 0.0726,
      "step": 9825
    },
    {
      "epoch": 0.4925,
      "grad_norm": 1.549166202545166,
      "learning_rate": 2.337861842105263e-06,
      "loss": 0.0599,
      "step": 9850
    },
    {
      "epoch": 0.49375,
      "grad_norm": 2.127182960510254,
      "learning_rate": 2.3321052631578944e-06,
      "loss": 0.0552,
      "step": 9875
    },
    {
      "epoch": 0.495,
      "grad_norm": 1.5453063249588013,
      "learning_rate": 2.3263486842105263e-06,
      "loss": 0.0647,
      "step": 9900
    },
    {
      "epoch": 0.49625,
      "grad_norm": 2.2514312267303467,
      "learning_rate": 2.3205921052631574e-06,
      "loss": 0.0543,
      "step": 9925
    },
    {
      "epoch": 0.4975,
      "grad_norm": 1.5466394424438477,
      "learning_rate": 2.3148355263157893e-06,
      "loss": 0.0576,
      "step": 9950
    },
    {
      "epoch": 0.49875,
      "grad_norm": 1.1446313858032227,
      "learning_rate": 2.309078947368421e-06,
      "loss": 0.0581,
      "step": 9975
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7810652256011963,
      "learning_rate": 2.3033223684210523e-06,
      "loss": 0.0548,
      "step": 10000
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.23302312195301056,
      "eval_runtime": 531.2942,
      "eval_samples_per_second": 3.183,
      "eval_steps_per_second": 0.399,
      "eval_wer": 8.57374797052579,
      "step": 10000
    },
    {
      "epoch": 0.50125,
      "grad_norm": 1.8410784006118774,
      "learning_rate": 2.2975657894736842e-06,
      "loss": 0.0818,
      "step": 10025
    },
    {
      "epoch": 0.5025,
      "grad_norm": 2.0660974979400635,
      "learning_rate": 2.2918092105263158e-06,
      "loss": 0.0839,
      "step": 10050
    },
    {
      "epoch": 0.50375,
      "grad_norm": 0.7626898288726807,
      "learning_rate": 2.2860526315789473e-06,
      "loss": 0.0717,
      "step": 10075
    },
    {
      "epoch": 0.505,
      "grad_norm": 3.819746971130371,
      "learning_rate": 2.2802960526315788e-06,
      "loss": 0.0696,
      "step": 10100
    },
    {
      "epoch": 0.50625,
      "grad_norm": 1.8556462526321411,
      "learning_rate": 2.2745394736842103e-06,
      "loss": 0.0776,
      "step": 10125
    },
    {
      "epoch": 0.5075,
      "grad_norm": 2.1852500438690186,
      "learning_rate": 2.2687828947368418e-06,
      "loss": 0.1228,
      "step": 10150
    },
    {
      "epoch": 0.50875,
      "grad_norm": 2.6284213066101074,
      "learning_rate": 2.2630263157894737e-06,
      "loss": 0.1121,
      "step": 10175
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.840794801712036,
      "learning_rate": 2.2572697368421048e-06,
      "loss": 0.087,
      "step": 10200
    },
    {
      "epoch": 0.51125,
      "grad_norm": 1.920469045639038,
      "learning_rate": 2.2515131578947367e-06,
      "loss": 0.0876,
      "step": 10225
    },
    {
      "epoch": 0.5125,
      "grad_norm": 2.9199891090393066,
      "learning_rate": 2.2457565789473682e-06,
      "loss": 0.0812,
      "step": 10250
    },
    {
      "epoch": 0.51375,
      "grad_norm": 2.7151129245758057,
      "learning_rate": 2.2399999999999997e-06,
      "loss": 0.0733,
      "step": 10275
    },
    {
      "epoch": 0.515,
      "grad_norm": 3.474050760269165,
      "learning_rate": 2.2342434210526312e-06,
      "loss": 0.0934,
      "step": 10300
    },
    {
      "epoch": 0.51625,
      "grad_norm": 1.5654582977294922,
      "learning_rate": 2.228486842105263e-06,
      "loss": 0.0762,
      "step": 10325
    },
    {
      "epoch": 0.5175,
      "grad_norm": 1.0436935424804688,
      "learning_rate": 2.2227302631578947e-06,
      "loss": 0.0727,
      "step": 10350
    },
    {
      "epoch": 0.51875,
      "grad_norm": 0.8793361186981201,
      "learning_rate": 2.216973684210526e-06,
      "loss": 0.0471,
      "step": 10375
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7731598019599915,
      "learning_rate": 2.211217105263158e-06,
      "loss": 0.0467,
      "step": 10400
    },
    {
      "epoch": 0.52125,
      "grad_norm": 1.2689337730407715,
      "learning_rate": 2.205460526315789e-06,
      "loss": 0.0485,
      "step": 10425
    },
    {
      "epoch": 0.5225,
      "grad_norm": 1.4495617151260376,
      "learning_rate": 2.199703947368421e-06,
      "loss": 0.0541,
      "step": 10450
    },
    {
      "epoch": 0.52375,
      "grad_norm": 1.4262604713439941,
      "learning_rate": 2.193947368421052e-06,
      "loss": 0.0539,
      "step": 10475
    },
    {
      "epoch": 0.525,
      "grad_norm": 1.8088651895523071,
      "learning_rate": 2.188190789473684e-06,
      "loss": 0.0557,
      "step": 10500
    },
    {
      "epoch": 0.525,
      "eval_loss": 0.2133007049560547,
      "eval_runtime": 530.2894,
      "eval_samples_per_second": 3.189,
      "eval_steps_per_second": 0.4,
      "eval_wer": 8.361433745472711,
      "step": 10500
    },
    {
      "epoch": 0.52625,
      "grad_norm": 1.178223967552185,
      "learning_rate": 2.1824342105263156e-06,
      "loss": 0.0549,
      "step": 10525
    },
    {
      "epoch": 0.5275,
      "grad_norm": 1.7510823011398315,
      "learning_rate": 2.176677631578947e-06,
      "loss": 0.0557,
      "step": 10550
    },
    {
      "epoch": 0.52875,
      "grad_norm": 0.9500125050544739,
      "learning_rate": 2.1709210526315786e-06,
      "loss": 0.0553,
      "step": 10575
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.060792922973633,
      "learning_rate": 2.1651644736842106e-06,
      "loss": 0.0596,
      "step": 10600
    },
    {
      "epoch": 0.53125,
      "grad_norm": 2.1061859130859375,
      "learning_rate": 2.159407894736842e-06,
      "loss": 0.0539,
      "step": 10625
    },
    {
      "epoch": 0.5325,
      "grad_norm": 1.6122857332229614,
      "learning_rate": 2.1536513157894736e-06,
      "loss": 0.053,
      "step": 10650
    },
    {
      "epoch": 0.53375,
      "grad_norm": 2.2909045219421387,
      "learning_rate": 2.147894736842105e-06,
      "loss": 0.0614,
      "step": 10675
    },
    {
      "epoch": 0.535,
      "grad_norm": 3.2241578102111816,
      "learning_rate": 2.1421381578947366e-06,
      "loss": 0.0829,
      "step": 10700
    },
    {
      "epoch": 0.53625,
      "grad_norm": 2.7384145259857178,
      "learning_rate": 2.136611842105263e-06,
      "loss": 0.0817,
      "step": 10725
    },
    {
      "epoch": 0.5375,
      "grad_norm": 1.8319401741027832,
      "learning_rate": 2.1308552631578944e-06,
      "loss": 0.0823,
      "step": 10750
    },
    {
      "epoch": 0.53875,
      "grad_norm": 2.4007859230041504,
      "learning_rate": 2.125098684210526e-06,
      "loss": 0.0733,
      "step": 10775
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.042520046234131,
      "learning_rate": 2.119342105263158e-06,
      "loss": 0.0838,
      "step": 10800
    },
    {
      "epoch": 0.54125,
      "grad_norm": 2.0478389263153076,
      "learning_rate": 2.1135855263157893e-06,
      "loss": 0.0831,
      "step": 10825
    },
    {
      "epoch": 0.5425,
      "grad_norm": 2.357926607131958,
      "learning_rate": 2.107828947368421e-06,
      "loss": 0.0728,
      "step": 10850
    },
    {
      "epoch": 0.54375,
      "grad_norm": 2.214553117752075,
      "learning_rate": 2.1020723684210523e-06,
      "loss": 0.0804,
      "step": 10875
    },
    {
      "epoch": 0.545,
      "grad_norm": 3.484598398208618,
      "learning_rate": 2.0963157894736843e-06,
      "loss": 0.0592,
      "step": 10900
    },
    {
      "epoch": 0.54625,
      "grad_norm": 1.5546646118164062,
      "learning_rate": 2.0905592105263158e-06,
      "loss": 0.0577,
      "step": 10925
    },
    {
      "epoch": 0.5475,
      "grad_norm": 2.218691349029541,
      "learning_rate": 2.0848026315789473e-06,
      "loss": 0.053,
      "step": 10950
    },
    {
      "epoch": 0.54875,
      "grad_norm": 2.9559834003448486,
      "learning_rate": 2.0790460526315788e-06,
      "loss": 0.0543,
      "step": 10975
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6290831565856934,
      "learning_rate": 2.0732894736842103e-06,
      "loss": 0.0626,
      "step": 11000
    },
    {
      "epoch": 0.55,
      "eval_loss": 0.2083810567855835,
      "eval_runtime": 531.6457,
      "eval_samples_per_second": 3.181,
      "eval_steps_per_second": 0.399,
      "eval_wer": 8.286499313101036,
      "step": 11000
    },
    {
      "epoch": 0.55125,
      "grad_norm": 2.2507994174957275,
      "learning_rate": 2.067532894736842e-06,
      "loss": 0.0645,
      "step": 11025
    },
    {
      "epoch": 0.5525,
      "grad_norm": 3.930997133255005,
      "learning_rate": 2.0617763157894733e-06,
      "loss": 0.0699,
      "step": 11050
    },
    {
      "epoch": 0.55375,
      "grad_norm": 3.1073126792907715,
      "learning_rate": 2.056019736842105e-06,
      "loss": 0.0852,
      "step": 11075
    },
    {
      "epoch": 0.555,
      "grad_norm": 2.5678088665008545,
      "learning_rate": 2.0502631578947367e-06,
      "loss": 0.0863,
      "step": 11100
    },
    {
      "epoch": 0.55625,
      "grad_norm": 2.97763729095459,
      "learning_rate": 2.0445065789473682e-06,
      "loss": 0.0718,
      "step": 11125
    },
    {
      "epoch": 0.5575,
      "grad_norm": 1.2580708265304565,
      "learning_rate": 2.0387499999999998e-06,
      "loss": 0.0462,
      "step": 11150
    },
    {
      "epoch": 0.55875,
      "grad_norm": 1.804002285003662,
      "learning_rate": 2.0329934210526317e-06,
      "loss": 0.0364,
      "step": 11175
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.492600679397583,
      "learning_rate": 2.027236842105263e-06,
      "loss": 0.0438,
      "step": 11200
    },
    {
      "epoch": 0.56125,
      "grad_norm": 2.423004627227783,
      "learning_rate": 2.0214802631578947e-06,
      "loss": 0.031,
      "step": 11225
    },
    {
      "epoch": 0.5625,
      "grad_norm": 1.5198426246643066,
      "learning_rate": 2.015723684210526e-06,
      "loss": 0.0324,
      "step": 11250
    },
    {
      "epoch": 0.56375,
      "grad_norm": 0.9852400422096252,
      "learning_rate": 2.0099671052631577e-06,
      "loss": 0.029,
      "step": 11275
    },
    {
      "epoch": 0.565,
      "grad_norm": 1.2327955961227417,
      "learning_rate": 2.004210526315789e-06,
      "loss": 0.0406,
      "step": 11300
    },
    {
      "epoch": 0.56625,
      "grad_norm": 1.455636978149414,
      "learning_rate": 1.9984539473684207e-06,
      "loss": 0.047,
      "step": 11325
    },
    {
      "epoch": 0.5675,
      "grad_norm": 1.4720903635025024,
      "learning_rate": 1.9926973684210522e-06,
      "loss": 0.0444,
      "step": 11350
    },
    {
      "epoch": 0.56875,
      "grad_norm": 1.7255401611328125,
      "learning_rate": 1.986940789473684e-06,
      "loss": 0.0514,
      "step": 11375
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3503352403640747,
      "learning_rate": 1.9811842105263157e-06,
      "loss": 0.0533,
      "step": 11400
    },
    {
      "epoch": 0.57125,
      "grad_norm": 1.5066325664520264,
      "learning_rate": 1.975427631578947e-06,
      "loss": 0.0524,
      "step": 11425
    },
    {
      "epoch": 0.5725,
      "grad_norm": 1.877842903137207,
      "learning_rate": 1.9696710526315787e-06,
      "loss": 0.0519,
      "step": 11450
    },
    {
      "epoch": 0.57375,
      "grad_norm": 1.4466218948364258,
      "learning_rate": 1.9639144736842106e-06,
      "loss": 0.0548,
      "step": 11475
    },
    {
      "epoch": 0.575,
      "grad_norm": 1.3053616285324097,
      "learning_rate": 1.958157894736842e-06,
      "loss": 0.0472,
      "step": 11500
    },
    {
      "epoch": 0.575,
      "eval_loss": 0.23307645320892334,
      "eval_runtime": 536.26,
      "eval_samples_per_second": 3.153,
      "eval_steps_per_second": 0.395,
      "eval_wer": 8.074185088047958,
      "step": 11500
    },
    {
      "epoch": 0.57625,
      "grad_norm": 1.172753930091858,
      "learning_rate": 1.9524013157894736e-06,
      "loss": 0.0506,
      "step": 11525
    },
    {
      "epoch": 0.5775,
      "grad_norm": 1.700363039970398,
      "learning_rate": 1.946644736842105e-06,
      "loss": 0.0585,
      "step": 11550
    },
    {
      "epoch": 0.57875,
      "grad_norm": 1.3203791379928589,
      "learning_rate": 1.9408881578947366e-06,
      "loss": 0.0499,
      "step": 11575
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4109314680099487,
      "learning_rate": 1.935131578947368e-06,
      "loss": 0.0433,
      "step": 11600
    },
    {
      "epoch": 0.58125,
      "grad_norm": 1.3247355222702026,
      "learning_rate": 1.929375e-06,
      "loss": 0.0378,
      "step": 11625
    },
    {
      "epoch": 0.5825,
      "grad_norm": 0.9325533509254456,
      "learning_rate": 1.9236184210526316e-06,
      "loss": 0.0442,
      "step": 11650
    },
    {
      "epoch": 0.58375,
      "grad_norm": 1.8996745347976685,
      "learning_rate": 1.917861842105263e-06,
      "loss": 0.049,
      "step": 11675
    },
    {
      "epoch": 0.585,
      "grad_norm": 1.7976350784301758,
      "learning_rate": 1.9121052631578946e-06,
      "loss": 0.0467,
      "step": 11700
    },
    {
      "epoch": 0.58625,
      "grad_norm": 2.180805206298828,
      "learning_rate": 1.906348684210526e-06,
      "loss": 0.0493,
      "step": 11725
    },
    {
      "epoch": 0.5875,
      "grad_norm": 1.2519850730895996,
      "learning_rate": 1.9005921052631576e-06,
      "loss": 0.0486,
      "step": 11750
    },
    {
      "epoch": 0.58875,
      "grad_norm": 2.3758866786956787,
      "learning_rate": 1.8948355263157893e-06,
      "loss": 0.0584,
      "step": 11775
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.0312483310699463,
      "learning_rate": 1.8890789473684208e-06,
      "loss": 0.0702,
      "step": 11800
    },
    {
      "epoch": 0.59125,
      "grad_norm": 2.017726182937622,
      "learning_rate": 1.8833223684210525e-06,
      "loss": 0.0822,
      "step": 11825
    },
    {
      "epoch": 0.5925,
      "grad_norm": 2.159196138381958,
      "learning_rate": 1.8775657894736842e-06,
      "loss": 0.0918,
      "step": 11850
    },
    {
      "epoch": 0.59375,
      "grad_norm": 2.8051164150238037,
      "learning_rate": 1.8718092105263158e-06,
      "loss": 0.0927,
      "step": 11875
    },
    {
      "epoch": 0.595,
      "grad_norm": 1.9617701768875122,
      "learning_rate": 1.8660526315789473e-06,
      "loss": 0.0762,
      "step": 11900
    },
    {
      "epoch": 0.59625,
      "grad_norm": 1.4993948936462402,
      "learning_rate": 1.8602960526315788e-06,
      "loss": 0.0768,
      "step": 11925
    },
    {
      "epoch": 0.5975,
      "grad_norm": 2.1341333389282227,
      "learning_rate": 1.8545394736842105e-06,
      "loss": 0.0647,
      "step": 11950
    },
    {
      "epoch": 0.59875,
      "grad_norm": 1.5004290342330933,
      "learning_rate": 1.848782894736842e-06,
      "loss": 0.0669,
      "step": 11975
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.0987565517425537,
      "learning_rate": 1.8430263157894735e-06,
      "loss": 0.0636,
      "step": 12000
    },
    {
      "epoch": 0.6,
      "eval_loss": 0.2118152379989624,
      "eval_runtime": 536.0484,
      "eval_samples_per_second": 3.155,
      "eval_steps_per_second": 0.395,
      "eval_wer": 7.961783439490445,
      "step": 12000
    },
    {
      "epoch": 0.60125,
      "grad_norm": 1.6456586122512817,
      "learning_rate": 1.837269736842105e-06,
      "loss": 0.0701,
      "step": 12025
    },
    {
      "epoch": 0.6025,
      "grad_norm": 2.0990679264068604,
      "learning_rate": 1.8315131578947367e-06,
      "loss": 0.0573,
      "step": 12050
    },
    {
      "epoch": 0.60375,
      "grad_norm": 1.8728748559951782,
      "learning_rate": 1.8257565789473682e-06,
      "loss": 0.054,
      "step": 12075
    },
    {
      "epoch": 0.605,
      "grad_norm": 1.2849019765853882,
      "learning_rate": 1.8199999999999997e-06,
      "loss": 0.0522,
      "step": 12100
    },
    {
      "epoch": 0.60625,
      "grad_norm": 1.6803030967712402,
      "learning_rate": 1.8142434210526312e-06,
      "loss": 0.0492,
      "step": 12125
    },
    {
      "epoch": 0.6075,
      "grad_norm": 1.9102485179901123,
      "learning_rate": 1.808486842105263e-06,
      "loss": 0.0482,
      "step": 12150
    },
    {
      "epoch": 0.60875,
      "grad_norm": 1.1118731498718262,
      "learning_rate": 1.8027302631578947e-06,
      "loss": 0.0422,
      "step": 12175
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1670501232147217,
      "learning_rate": 1.7969736842105262e-06,
      "loss": 0.0515,
      "step": 12200
    },
    {
      "epoch": 0.61125,
      "grad_norm": 2.522876739501953,
      "learning_rate": 1.7912171052631579e-06,
      "loss": 0.0412,
      "step": 12225
    },
    {
      "epoch": 0.6125,
      "grad_norm": 1.2704464197158813,
      "learning_rate": 1.7854605263157894e-06,
      "loss": 0.0508,
      "step": 12250
    },
    {
      "epoch": 0.61375,
      "grad_norm": 2.399094343185425,
      "learning_rate": 1.779703947368421e-06,
      "loss": 0.0547,
      "step": 12275
    },
    {
      "epoch": 0.615,
      "grad_norm": 2.2606582641601562,
      "learning_rate": 1.7739473684210524e-06,
      "loss": 0.0562,
      "step": 12300
    },
    {
      "epoch": 0.61625,
      "grad_norm": 0.5112090110778809,
      "learning_rate": 1.7681907894736841e-06,
      "loss": 0.0513,
      "step": 12325
    },
    {
      "epoch": 0.6175,
      "grad_norm": 1.1044148206710815,
      "learning_rate": 1.7624342105263156e-06,
      "loss": 0.0544,
      "step": 12350
    },
    {
      "epoch": 0.61875,
      "grad_norm": 1.2760109901428223,
      "learning_rate": 1.7566776315789471e-06,
      "loss": 0.0512,
      "step": 12375
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3780227899551392,
      "learning_rate": 1.7509210526315786e-06,
      "loss": 0.0546,
      "step": 12400
    },
    {
      "epoch": 0.62125,
      "grad_norm": 1.0981767177581787,
      "learning_rate": 1.7451644736842104e-06,
      "loss": 0.041,
      "step": 12425
    },
    {
      "epoch": 0.6225,
      "grad_norm": 2.353482484817505,
      "learning_rate": 1.7394078947368419e-06,
      "loss": 0.0479,
      "step": 12450
    },
    {
      "epoch": 0.62375,
      "grad_norm": 1.3375900983810425,
      "learning_rate": 1.7336513157894734e-06,
      "loss": 0.0522,
      "step": 12475
    },
    {
      "epoch": 0.625,
      "grad_norm": 2.1002514362335205,
      "learning_rate": 1.7278947368421053e-06,
      "loss": 0.0466,
      "step": 12500
    },
    {
      "epoch": 0.625,
      "eval_loss": 0.21263667941093445,
      "eval_runtime": 535.5066,
      "eval_samples_per_second": 3.158,
      "eval_steps_per_second": 0.396,
      "eval_wer": 7.468465093043587,
      "step": 12500
    },
    {
      "epoch": 0.62625,
      "grad_norm": 1.5551177263259888,
      "learning_rate": 1.7221381578947368e-06,
      "loss": 0.0584,
      "step": 12525
    },
    {
      "epoch": 0.6275,
      "grad_norm": 2.234121322631836,
      "learning_rate": 1.7163815789473683e-06,
      "loss": 0.061,
      "step": 12550
    },
    {
      "epoch": 0.62875,
      "grad_norm": 2.269101619720459,
      "learning_rate": 1.7106249999999998e-06,
      "loss": 0.0607,
      "step": 12575
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.8848202228546143,
      "learning_rate": 1.7048684210526315e-06,
      "loss": 0.0675,
      "step": 12600
    },
    {
      "epoch": 0.63125,
      "grad_norm": 2.2159249782562256,
      "learning_rate": 1.699111842105263e-06,
      "loss": 0.0783,
      "step": 12625
    },
    {
      "epoch": 0.6325,
      "grad_norm": 1.5829565525054932,
      "learning_rate": 1.6933552631578946e-06,
      "loss": 0.0834,
      "step": 12650
    },
    {
      "epoch": 0.63375,
      "grad_norm": 1.9816817045211792,
      "learning_rate": 1.687598684210526e-06,
      "loss": 0.0727,
      "step": 12675
    },
    {
      "epoch": 0.635,
      "grad_norm": 2.8434395790100098,
      "learning_rate": 1.6818421052631578e-06,
      "loss": 0.0778,
      "step": 12700
    },
    {
      "epoch": 0.63625,
      "grad_norm": 2.4956297874450684,
      "learning_rate": 1.6760855263157893e-06,
      "loss": 0.0731,
      "step": 12725
    },
    {
      "epoch": 0.6375,
      "grad_norm": 1.7429981231689453,
      "learning_rate": 1.6703289473684208e-06,
      "loss": 0.0637,
      "step": 12750
    },
    {
      "epoch": 0.63875,
      "grad_norm": 2.3022801876068115,
      "learning_rate": 1.6645723684210525e-06,
      "loss": 0.0708,
      "step": 12775
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.621469497680664,
      "learning_rate": 1.658815789473684e-06,
      "loss": 0.0466,
      "step": 12800
    },
    {
      "epoch": 0.64125,
      "grad_norm": 1.7762545347213745,
      "learning_rate": 1.6530592105263155e-06,
      "loss": 0.0544,
      "step": 12825
    },
    {
      "epoch": 0.6425,
      "grad_norm": 1.568123698234558,
      "learning_rate": 1.6473026315789472e-06,
      "loss": 0.0457,
      "step": 12850
    },
    {
      "epoch": 0.64375,
      "grad_norm": 0.5994829535484314,
      "learning_rate": 1.641546052631579e-06,
      "loss": 0.0487,
      "step": 12875
    },
    {
      "epoch": 0.645,
      "grad_norm": 1.9480714797973633,
      "learning_rate": 1.6357894736842105e-06,
      "loss": 0.0503,
      "step": 12900
    },
    {
      "epoch": 0.64625,
      "grad_norm": 2.2603769302368164,
      "learning_rate": 1.630032894736842e-06,
      "loss": 0.0705,
      "step": 12925
    },
    {
      "epoch": 0.6475,
      "grad_norm": 2.2942919731140137,
      "learning_rate": 1.6242763157894737e-06,
      "loss": 0.0666,
      "step": 12950
    },
    {
      "epoch": 0.64875,
      "grad_norm": 2.819730758666992,
      "learning_rate": 1.6185197368421052e-06,
      "loss": 0.0736,
      "step": 12975
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8207030296325684,
      "learning_rate": 1.6127631578947367e-06,
      "loss": 0.0604,
      "step": 13000
    },
    {
      "epoch": 0.65,
      "eval_loss": 0.21604977548122406,
      "eval_runtime": 534.676,
      "eval_samples_per_second": 3.163,
      "eval_steps_per_second": 0.397,
      "eval_wer": 7.655801173972773,
      "step": 13000
    },
    {
      "epoch": 0.65125,
      "grad_norm": 2.0296692848205566,
      "learning_rate": 1.6070065789473682e-06,
      "loss": 0.0745,
      "step": 13025
    },
    {
      "epoch": 0.6525,
      "grad_norm": 3.9246408939361572,
      "learning_rate": 1.60125e-06,
      "loss": 0.0862,
      "step": 13050
    },
    {
      "epoch": 0.65375,
      "grad_norm": 1.9909517765045166,
      "learning_rate": 1.5954934210526314e-06,
      "loss": 0.0676,
      "step": 13075
    },
    {
      "epoch": 0.655,
      "grad_norm": 2.652264356613159,
      "learning_rate": 1.589736842105263e-06,
      "loss": 0.0823,
      "step": 13100
    },
    {
      "epoch": 0.65625,
      "grad_norm": 2.1940698623657227,
      "learning_rate": 1.5839802631578944e-06,
      "loss": 0.0775,
      "step": 13125
    },
    {
      "epoch": 0.6575,
      "grad_norm": 3.084667444229126,
      "learning_rate": 1.5782236842105262e-06,
      "loss": 0.0779,
      "step": 13150
    },
    {
      "epoch": 0.65875,
      "grad_norm": 2.134045124053955,
      "learning_rate": 1.5724671052631579e-06,
      "loss": 0.0756,
      "step": 13175
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.4405481815338135,
      "learning_rate": 1.5667105263157894e-06,
      "loss": 0.075,
      "step": 13200
    },
    {
      "epoch": 0.66125,
      "grad_norm": 2.251408100128174,
      "learning_rate": 1.560953947368421e-06,
      "loss": 0.0668,
      "step": 13225
    },
    {
      "epoch": 0.6625,
      "grad_norm": 2.21307635307312,
      "learning_rate": 1.5551973684210526e-06,
      "loss": 0.076,
      "step": 13250
    },
    {
      "epoch": 0.66375,
      "grad_norm": 3.1692416667938232,
      "learning_rate": 1.549440789473684e-06,
      "loss": 0.0841,
      "step": 13275
    },
    {
      "epoch": 0.665,
      "grad_norm": 2.4879300594329834,
      "learning_rate": 1.5436842105263156e-06,
      "loss": 0.0785,
      "step": 13300
    },
    {
      "epoch": 0.66625,
      "grad_norm": 1.6188695430755615,
      "learning_rate": 1.5379276315789473e-06,
      "loss": 0.0698,
      "step": 13325
    },
    {
      "epoch": 0.6675,
      "grad_norm": 2.258192300796509,
      "learning_rate": 1.5321710526315788e-06,
      "loss": 0.0682,
      "step": 13350
    },
    {
      "epoch": 0.66875,
      "grad_norm": 1.7001844644546509,
      "learning_rate": 1.5264144736842103e-06,
      "loss": 0.0728,
      "step": 13375
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.0650229454040527,
      "learning_rate": 1.5206578947368418e-06,
      "loss": 0.0608,
      "step": 13400
    },
    {
      "epoch": 0.67125,
      "grad_norm": 1.0384840965270996,
      "learning_rate": 1.5149013157894736e-06,
      "loss": 0.0521,
      "step": 13425
    },
    {
      "epoch": 0.6725,
      "grad_norm": 1.458274483680725,
      "learning_rate": 1.509144736842105e-06,
      "loss": 0.0544,
      "step": 13450
    },
    {
      "epoch": 0.67375,
      "grad_norm": 1.678476095199585,
      "learning_rate": 1.5033881578947366e-06,
      "loss": 0.0478,
      "step": 13475
    },
    {
      "epoch": 0.675,
      "grad_norm": 2.1401052474975586,
      "learning_rate": 1.497631578947368e-06,
      "loss": 0.0544,
      "step": 13500
    },
    {
      "epoch": 0.675,
      "eval_loss": 0.21870100498199463,
      "eval_runtime": 534.1154,
      "eval_samples_per_second": 3.166,
      "eval_steps_per_second": 0.397,
      "eval_wer": 7.999250655676284,
      "step": 13500
    },
    {
      "epoch": 0.67625,
      "grad_norm": 1.387534737586975,
      "learning_rate": 1.491875e-06,
      "loss": 0.0497,
      "step": 13525
    },
    {
      "epoch": 0.6775,
      "grad_norm": 2.2233715057373047,
      "learning_rate": 1.4861184210526315e-06,
      "loss": 0.0628,
      "step": 13550
    },
    {
      "epoch": 0.67875,
      "grad_norm": 2.775345802307129,
      "learning_rate": 1.480361842105263e-06,
      "loss": 0.0883,
      "step": 13575
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.7996487617492676,
      "learning_rate": 1.4746052631578947e-06,
      "loss": 0.0895,
      "step": 13600
    },
    {
      "epoch": 0.68125,
      "grad_norm": 2.4933836460113525,
      "learning_rate": 1.4688486842105262e-06,
      "loss": 0.0876,
      "step": 13625
    },
    {
      "epoch": 0.6825,
      "grad_norm": 3.253474712371826,
      "learning_rate": 1.4630921052631578e-06,
      "loss": 0.0725,
      "step": 13650
    },
    {
      "epoch": 0.68375,
      "grad_norm": 2.5821990966796875,
      "learning_rate": 1.4573355263157893e-06,
      "loss": 0.088,
      "step": 13675
    },
    {
      "epoch": 0.685,
      "grad_norm": 3.219723701477051,
      "learning_rate": 1.451578947368421e-06,
      "loss": 0.079,
      "step": 13700
    },
    {
      "epoch": 0.68625,
      "grad_norm": 2.1482114791870117,
      "learning_rate": 1.4458223684210525e-06,
      "loss": 0.0715,
      "step": 13725
    },
    {
      "epoch": 0.6875,
      "grad_norm": 3.403439521789551,
      "learning_rate": 1.440065789473684e-06,
      "loss": 0.0731,
      "step": 13750
    },
    {
      "epoch": 0.68875,
      "grad_norm": 2.0612175464630127,
      "learning_rate": 1.4343092105263155e-06,
      "loss": 0.0669,
      "step": 13775
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.5637385845184326,
      "learning_rate": 1.4285526315789472e-06,
      "loss": 0.0766,
      "step": 13800
    },
    {
      "epoch": 0.69125,
      "grad_norm": 1.8747389316558838,
      "learning_rate": 1.4227960526315787e-06,
      "loss": 0.0723,
      "step": 13825
    },
    {
      "epoch": 0.6925,
      "grad_norm": 2.6436047554016113,
      "learning_rate": 1.4170394736842104e-06,
      "loss": 0.0694,
      "step": 13850
    },
    {
      "epoch": 0.69375,
      "grad_norm": 2.300952911376953,
      "learning_rate": 1.4112828947368422e-06,
      "loss": 0.0711,
      "step": 13875
    },
    {
      "epoch": 0.695,
      "grad_norm": 2.480396032333374,
      "learning_rate": 1.4055263157894737e-06,
      "loss": 0.0695,
      "step": 13900
    },
    {
      "epoch": 0.69625,
      "grad_norm": 3.047656536102295,
      "learning_rate": 1.3997697368421052e-06,
      "loss": 0.0827,
      "step": 13925
    },
    {
      "epoch": 0.6975,
      "grad_norm": 1.8521438837051392,
      "learning_rate": 1.3940131578947367e-06,
      "loss": 0.0799,
      "step": 13950
    },
    {
      "epoch": 0.69875,
      "grad_norm": 3.52673602104187,
      "learning_rate": 1.3882565789473684e-06,
      "loss": 0.0819,
      "step": 13975
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.5274155139923096,
      "learning_rate": 1.3824999999999999e-06,
      "loss": 0.07,
      "step": 14000
    },
    {
      "epoch": 0.7,
      "eval_loss": 0.21170927584171295,
      "eval_runtime": 534.7374,
      "eval_samples_per_second": 3.162,
      "eval_steps_per_second": 0.396,
      "eval_wer": 7.437242412888723,
      "step": 14000
    },
    {
      "epoch": 0.70125,
      "grad_norm": 3.9497313499450684,
      "learning_rate": 1.3767434210526314e-06,
      "loss": 0.0977,
      "step": 14025
    },
    {
      "epoch": 0.7025,
      "grad_norm": 5.4897284507751465,
      "learning_rate": 1.3709868421052631e-06,
      "loss": 0.1658,
      "step": 14050
    },
    {
      "epoch": 0.70375,
      "grad_norm": 3.0957064628601074,
      "learning_rate": 1.3652302631578946e-06,
      "loss": 0.1823,
      "step": 14075
    },
    {
      "epoch": 0.705,
      "grad_norm": 3.2891457080841064,
      "learning_rate": 1.3594736842105261e-06,
      "loss": 0.1777,
      "step": 14100
    },
    {
      "epoch": 0.70625,
      "grad_norm": 3.642838954925537,
      "learning_rate": 1.3537171052631576e-06,
      "loss": 0.177,
      "step": 14125
    },
    {
      "epoch": 0.7075,
      "grad_norm": 4.022505760192871,
      "learning_rate": 1.3479605263157894e-06,
      "loss": 0.1773,
      "step": 14150
    },
    {
      "epoch": 0.70875,
      "grad_norm": 3.632260799407959,
      "learning_rate": 1.3422039473684209e-06,
      "loss": 0.138,
      "step": 14175
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6560989618301392,
      "learning_rate": 1.3364473684210526e-06,
      "loss": 0.1163,
      "step": 14200
    },
    {
      "epoch": 0.71125,
      "grad_norm": 1.4849154949188232,
      "learning_rate": 1.3306907894736843e-06,
      "loss": 0.1001,
      "step": 14225
    },
    {
      "epoch": 0.7125,
      "grad_norm": 2.3382551670074463,
      "learning_rate": 1.3249342105263158e-06,
      "loss": 0.0748,
      "step": 14250
    },
    {
      "epoch": 0.71375,
      "grad_norm": 3.0243709087371826,
      "learning_rate": 1.3191776315789473e-06,
      "loss": 0.0699,
      "step": 14275
    },
    {
      "epoch": 0.715,
      "grad_norm": 3.4510324001312256,
      "learning_rate": 1.3134210526315788e-06,
      "loss": 0.0822,
      "step": 14300
    },
    {
      "epoch": 0.71625,
      "grad_norm": 1.71156907081604,
      "learning_rate": 1.3076644736842105e-06,
      "loss": 0.0817,
      "step": 14325
    },
    {
      "epoch": 0.7175,
      "grad_norm": 1.4711543321609497,
      "learning_rate": 1.301907894736842e-06,
      "loss": 0.0573,
      "step": 14350
    },
    {
      "epoch": 0.71875,
      "grad_norm": 1.4108855724334717,
      "learning_rate": 1.2961513157894735e-06,
      "loss": 0.0518,
      "step": 14375
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4882175922393799,
      "learning_rate": 1.290394736842105e-06,
      "loss": 0.0585,
      "step": 14400
    },
    {
      "epoch": 0.72125,
      "grad_norm": 1.6964808702468872,
      "learning_rate": 1.2846381578947368e-06,
      "loss": 0.0562,
      "step": 14425
    },
    {
      "epoch": 0.7225,
      "grad_norm": 1.7226653099060059,
      "learning_rate": 1.2788815789473683e-06,
      "loss": 0.0574,
      "step": 14450
    },
    {
      "epoch": 0.72375,
      "grad_norm": 2.7214572429656982,
      "learning_rate": 1.2731249999999998e-06,
      "loss": 0.0629,
      "step": 14475
    },
    {
      "epoch": 0.725,
      "grad_norm": 1.1752701997756958,
      "learning_rate": 1.2673684210526313e-06,
      "loss": 0.0534,
      "step": 14500
    },
    {
      "epoch": 0.725,
      "eval_loss": 0.13807399570941925,
      "eval_runtime": 533.693,
      "eval_samples_per_second": 3.168,
      "eval_steps_per_second": 0.397,
      "eval_wer": 7.04383664293743,
      "step": 14500
    },
    {
      "epoch": 0.72625,
      "grad_norm": 5.266875267028809,
      "learning_rate": 1.261611842105263e-06,
      "loss": 0.0553,
      "step": 14525
    },
    {
      "epoch": 0.7275,
      "grad_norm": 2.1979897022247314,
      "learning_rate": 1.2558552631578947e-06,
      "loss": 0.0498,
      "step": 14550
    },
    {
      "epoch": 0.72875,
      "grad_norm": 1.445584774017334,
      "learning_rate": 1.2500986842105262e-06,
      "loss": 0.0432,
      "step": 14575
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.985780656337738,
      "learning_rate": 1.244342105263158e-06,
      "loss": 0.0398,
      "step": 14600
    },
    {
      "epoch": 0.73125,
      "grad_norm": 1.4595451354980469,
      "learning_rate": 1.2385855263157894e-06,
      "loss": 0.0472,
      "step": 14625
    },
    {
      "epoch": 0.7325,
      "grad_norm": 1.6958725452423096,
      "learning_rate": 1.232828947368421e-06,
      "loss": 0.0451,
      "step": 14650
    },
    {
      "epoch": 0.73375,
      "grad_norm": 1.4922881126403809,
      "learning_rate": 1.2270723684210525e-06,
      "loss": 0.0483,
      "step": 14675
    },
    {
      "epoch": 0.735,
      "grad_norm": 2.243989944458008,
      "learning_rate": 1.2213157894736842e-06,
      "loss": 0.0691,
      "step": 14700
    },
    {
      "epoch": 0.73625,
      "grad_norm": 3.160104513168335,
      "learning_rate": 1.2155592105263157e-06,
      "loss": 0.0814,
      "step": 14725
    },
    {
      "epoch": 0.7375,
      "grad_norm": 2.0205318927764893,
      "learning_rate": 1.2098026315789472e-06,
      "loss": 0.0693,
      "step": 14750
    },
    {
      "epoch": 0.73875,
      "grad_norm": 1.519434928894043,
      "learning_rate": 1.2040460526315787e-06,
      "loss": 0.0589,
      "step": 14775
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.59538197517395,
      "learning_rate": 1.1982894736842104e-06,
      "loss": 0.0546,
      "step": 14800
    },
    {
      "epoch": 0.74125,
      "grad_norm": 2.137489080429077,
      "learning_rate": 1.192532894736842e-06,
      "loss": 0.0679,
      "step": 14825
    },
    {
      "epoch": 0.7425,
      "grad_norm": 1.5184602737426758,
      "learning_rate": 1.1867763157894734e-06,
      "loss": 0.0685,
      "step": 14850
    },
    {
      "epoch": 0.74375,
      "grad_norm": 2.101884365081787,
      "learning_rate": 1.1810197368421054e-06,
      "loss": 0.0526,
      "step": 14875
    },
    {
      "epoch": 0.745,
      "grad_norm": 1.778254508972168,
      "learning_rate": 1.1752631578947369e-06,
      "loss": 0.0463,
      "step": 14900
    },
    {
      "epoch": 0.74625,
      "grad_norm": 2.073361873626709,
      "learning_rate": 1.1695065789473684e-06,
      "loss": 0.0542,
      "step": 14925
    },
    {
      "epoch": 0.7475,
      "grad_norm": 2.091325283050537,
      "learning_rate": 1.1637499999999999e-06,
      "loss": 0.0456,
      "step": 14950
    },
    {
      "epoch": 0.74875,
      "grad_norm": 1.7418571710586548,
      "learning_rate": 1.1579934210526316e-06,
      "loss": 0.0435,
      "step": 14975
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8316125869750977,
      "learning_rate": 1.152236842105263e-06,
      "loss": 0.046,
      "step": 15000
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.14957565069198608,
      "eval_runtime": 534.2678,
      "eval_samples_per_second": 3.165,
      "eval_steps_per_second": 0.397,
      "eval_wer": 7.081303859123267,
      "step": 15000
    },
    {
      "epoch": 0.75125,
      "grad_norm": 2.781534433364868,
      "learning_rate": 1.1467105263157894e-06,
      "loss": 0.0728,
      "step": 15025
    },
    {
      "epoch": 0.7525,
      "grad_norm": 2.0675017833709717,
      "learning_rate": 1.1409539473684209e-06,
      "loss": 0.095,
      "step": 15050
    },
    {
      "epoch": 0.75375,
      "grad_norm": 3.430636167526245,
      "learning_rate": 1.1351973684210524e-06,
      "loss": 0.0966,
      "step": 15075
    },
    {
      "epoch": 0.755,
      "grad_norm": 3.50378680229187,
      "learning_rate": 1.129440789473684e-06,
      "loss": 0.1087,
      "step": 15100
    },
    {
      "epoch": 0.75625,
      "grad_norm": 2.9562337398529053,
      "learning_rate": 1.1236842105263156e-06,
      "loss": 0.1098,
      "step": 15125
    },
    {
      "epoch": 0.7575,
      "grad_norm": 2.7388198375701904,
      "learning_rate": 1.1179276315789471e-06,
      "loss": 0.1328,
      "step": 15150
    },
    {
      "epoch": 0.75875,
      "grad_norm": 3.3490402698516846,
      "learning_rate": 1.112171052631579e-06,
      "loss": 0.097,
      "step": 15175
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3750718832015991,
      "learning_rate": 1.1064144736842105e-06,
      "loss": 0.0722,
      "step": 15200
    },
    {
      "epoch": 0.76125,
      "grad_norm": 1.7064391374588013,
      "learning_rate": 1.100657894736842e-06,
      "loss": 0.0588,
      "step": 15225
    },
    {
      "epoch": 0.7625,
      "grad_norm": 1.8604276180267334,
      "learning_rate": 1.0949013157894736e-06,
      "loss": 0.0557,
      "step": 15250
    },
    {
      "epoch": 0.76375,
      "grad_norm": 1.2240312099456787,
      "learning_rate": 1.0891447368421053e-06,
      "loss": 0.0438,
      "step": 15275
    },
    {
      "epoch": 0.765,
      "grad_norm": 1.5873894691467285,
      "learning_rate": 1.0833881578947368e-06,
      "loss": 0.0471,
      "step": 15300
    },
    {
      "epoch": 0.76625,
      "grad_norm": 1.645041823387146,
      "learning_rate": 1.0776315789473683e-06,
      "loss": 0.0586,
      "step": 15325
    },
    {
      "epoch": 0.7675,
      "grad_norm": 2.3403167724609375,
      "learning_rate": 1.0718749999999998e-06,
      "loss": 0.0698,
      "step": 15350
    },
    {
      "epoch": 0.76875,
      "grad_norm": 2.5629897117614746,
      "learning_rate": 1.0661184210526315e-06,
      "loss": 0.068,
      "step": 15375
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.1160974502563477,
      "learning_rate": 1.060361842105263e-06,
      "loss": 0.0771,
      "step": 15400
    },
    {
      "epoch": 0.77125,
      "grad_norm": 2.094522714614868,
      "learning_rate": 1.0546052631578947e-06,
      "loss": 0.0882,
      "step": 15425
    },
    {
      "epoch": 0.7725,
      "grad_norm": 2.3391168117523193,
      "learning_rate": 1.0488486842105262e-06,
      "loss": 0.0746,
      "step": 15450
    },
    {
      "epoch": 0.77375,
      "grad_norm": 2.208967924118042,
      "learning_rate": 1.0430921052631577e-06,
      "loss": 0.0725,
      "step": 15475
    },
    {
      "epoch": 0.775,
      "grad_norm": 2.7758445739746094,
      "learning_rate": 1.0373355263157895e-06,
      "loss": 0.066,
      "step": 15500
    },
    {
      "epoch": 0.775,
      "eval_loss": 0.1524539738893509,
      "eval_runtime": 533.899,
      "eval_samples_per_second": 3.167,
      "eval_steps_per_second": 0.397,
      "eval_wer": 7.00012489072062,
      "step": 15500
    },
    {
      "epoch": 0.77625,
      "grad_norm": 1.5453675985336304,
      "learning_rate": 1.031578947368421e-06,
      "loss": 0.0511,
      "step": 15525
    },
    {
      "epoch": 0.7775,
      "grad_norm": 2.0205094814300537,
      "learning_rate": 1.0258223684210525e-06,
      "loss": 0.05,
      "step": 15550
    },
    {
      "epoch": 0.77875,
      "grad_norm": 1.2804875373840332,
      "learning_rate": 1.020065789473684e-06,
      "loss": 0.0598,
      "step": 15575
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.22847843170166,
      "learning_rate": 1.0143092105263157e-06,
      "loss": 0.0686,
      "step": 15600
    },
    {
      "epoch": 0.78125,
      "grad_norm": 2.523324489593506,
      "learning_rate": 1.0085526315789472e-06,
      "loss": 0.1251,
      "step": 15625
    },
    {
      "epoch": 0.7825,
      "grad_norm": 1.8177152872085571,
      "learning_rate": 1.002796052631579e-06,
      "loss": 0.1014,
      "step": 15650
    },
    {
      "epoch": 0.78375,
      "grad_norm": 1.9223369359970093,
      "learning_rate": 9.970394736842104e-07,
      "loss": 0.0604,
      "step": 15675
    },
    {
      "epoch": 0.785,
      "grad_norm": 1.9404890537261963,
      "learning_rate": 9.91282894736842e-07,
      "loss": 0.0556,
      "step": 15700
    },
    {
      "epoch": 0.78625,
      "grad_norm": 1.354697823524475,
      "learning_rate": 9.855263157894737e-07,
      "loss": 0.0452,
      "step": 15725
    },
    {
      "epoch": 0.7875,
      "grad_norm": 0.9245623350143433,
      "learning_rate": 9.797697368421052e-07,
      "loss": 0.0536,
      "step": 15750
    },
    {
      "epoch": 0.78875,
      "grad_norm": 1.3286716938018799,
      "learning_rate": 9.740131578947369e-07,
      "loss": 0.0402,
      "step": 15775
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.337540626525879,
      "learning_rate": 9.682565789473684e-07,
      "loss": 0.0619,
      "step": 15800
    },
    {
      "epoch": 0.79125,
      "grad_norm": 1.3047797679901123,
      "learning_rate": 9.624999999999999e-07,
      "loss": 0.0582,
      "step": 15825
    },
    {
      "epoch": 0.7925,
      "grad_norm": 1.5523693561553955,
      "learning_rate": 9.567434210526314e-07,
      "loss": 0.0461,
      "step": 15850
    },
    {
      "epoch": 0.79375,
      "grad_norm": 0.8749285340309143,
      "learning_rate": 9.50986842105263e-07,
      "loss": 0.0458,
      "step": 15875
    },
    {
      "epoch": 0.795,
      "grad_norm": 1.0452526807785034,
      "learning_rate": 9.452302631578946e-07,
      "loss": 0.0419,
      "step": 15900
    },
    {
      "epoch": 0.79625,
      "grad_norm": 1.9379664659500122,
      "learning_rate": 9.394736842105263e-07,
      "loss": 0.0566,
      "step": 15925
    },
    {
      "epoch": 0.7975,
      "grad_norm": 1.316031575202942,
      "learning_rate": 9.337171052631578e-07,
      "loss": 0.0473,
      "step": 15950
    },
    {
      "epoch": 0.79875,
      "grad_norm": 1.216234564781189,
      "learning_rate": 9.279605263157895e-07,
      "loss": 0.0567,
      "step": 15975
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7266921997070312,
      "learning_rate": 9.22203947368421e-07,
      "loss": 0.0632,
      "step": 16000
    },
    {
      "epoch": 0.8,
      "eval_loss": 0.14084434509277344,
      "eval_runtime": 535.4097,
      "eval_samples_per_second": 3.158,
      "eval_steps_per_second": 0.396,
      "eval_wer": 6.681653553141001,
      "step": 16000
    },
    {
      "epoch": 0.80125,
      "grad_norm": 1.8532096147537231,
      "learning_rate": 9.164473684210526e-07,
      "loss": 0.0579,
      "step": 16025
    },
    {
      "epoch": 0.8025,
      "grad_norm": 2.181915044784546,
      "learning_rate": 9.106907894736841e-07,
      "loss": 0.0757,
      "step": 16050
    },
    {
      "epoch": 0.80375,
      "grad_norm": 2.2596707344055176,
      "learning_rate": 9.049342105263157e-07,
      "loss": 0.0729,
      "step": 16075
    },
    {
      "epoch": 0.805,
      "grad_norm": 1.2219024896621704,
      "learning_rate": 8.991776315789473e-07,
      "loss": 0.0666,
      "step": 16100
    },
    {
      "epoch": 0.80625,
      "grad_norm": 1.135261058807373,
      "learning_rate": 8.934210526315789e-07,
      "loss": 0.0627,
      "step": 16125
    },
    {
      "epoch": 0.8075,
      "grad_norm": 1.6599974632263184,
      "learning_rate": 8.876644736842104e-07,
      "loss": 0.0477,
      "step": 16150
    },
    {
      "epoch": 0.80875,
      "grad_norm": 1.7189278602600098,
      "learning_rate": 8.81907894736842e-07,
      "loss": 0.049,
      "step": 16175
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.837539553642273,
      "learning_rate": 8.761513157894735e-07,
      "loss": 0.0489,
      "step": 16200
    },
    {
      "epoch": 0.81125,
      "grad_norm": 1.5122978687286377,
      "learning_rate": 8.703947368421051e-07,
      "loss": 0.0389,
      "step": 16225
    },
    {
      "epoch": 0.8125,
      "grad_norm": 1.7276921272277832,
      "learning_rate": 8.646381578947368e-07,
      "loss": 0.0449,
      "step": 16250
    },
    {
      "epoch": 0.81375,
      "grad_norm": 2.028928756713867,
      "learning_rate": 8.588815789473684e-07,
      "loss": 0.045,
      "step": 16275
    },
    {
      "epoch": 0.815,
      "grad_norm": 1.258401870727539,
      "learning_rate": 8.53125e-07,
      "loss": 0.0413,
      "step": 16300
    },
    {
      "epoch": 0.81625,
      "grad_norm": 1.2878379821777344,
      "learning_rate": 8.473684210526315e-07,
      "loss": 0.0454,
      "step": 16325
    },
    {
      "epoch": 0.8175,
      "grad_norm": 0.9309024810791016,
      "learning_rate": 8.416118421052631e-07,
      "loss": 0.0389,
      "step": 16350
    },
    {
      "epoch": 0.81875,
      "grad_norm": 0.6321396231651306,
      "learning_rate": 8.358552631578946e-07,
      "loss": 0.0282,
      "step": 16375
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8799151182174683,
      "learning_rate": 8.300986842105262e-07,
      "loss": 0.0316,
      "step": 16400
    },
    {
      "epoch": 0.82125,
      "grad_norm": 0.642666220664978,
      "learning_rate": 8.243421052631577e-07,
      "loss": 0.0415,
      "step": 16425
    },
    {
      "epoch": 0.8225,
      "grad_norm": 1.199803352355957,
      "learning_rate": 8.185855263157894e-07,
      "loss": 0.0503,
      "step": 16450
    },
    {
      "epoch": 0.82375,
      "grad_norm": 1.517521858215332,
      "learning_rate": 8.128289473684211e-07,
      "loss": 0.0342,
      "step": 16475
    },
    {
      "epoch": 0.825,
      "grad_norm": 1.683922290802002,
      "learning_rate": 8.070723684210526e-07,
      "loss": 0.0437,
      "step": 16500
    },
    {
      "epoch": 0.825,
      "eval_loss": 0.1474502831697464,
      "eval_runtime": 533.549,
      "eval_samples_per_second": 3.169,
      "eval_steps_per_second": 0.397,
      "eval_wer": 6.594230048707381,
      "step": 16500
    },
    {
      "epoch": 0.82625,
      "grad_norm": 2.0518248081207275,
      "learning_rate": 8.013157894736842e-07,
      "loss": 0.0411,
      "step": 16525
    },
    {
      "epoch": 0.8275,
      "grad_norm": 1.139129638671875,
      "learning_rate": 7.955592105263157e-07,
      "loss": 0.0426,
      "step": 16550
    },
    {
      "epoch": 0.82875,
      "grad_norm": 0.7436901926994324,
      "learning_rate": 7.898026315789473e-07,
      "loss": 0.0413,
      "step": 16575
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8292795419692993,
      "learning_rate": 7.840460526315789e-07,
      "loss": 0.0456,
      "step": 16600
    },
    {
      "epoch": 0.83125,
      "grad_norm": 2.60646390914917,
      "learning_rate": 7.782894736842105e-07,
      "loss": 0.0459,
      "step": 16625
    },
    {
      "epoch": 0.8325,
      "grad_norm": 2.15118408203125,
      "learning_rate": 7.72532894736842e-07,
      "loss": 0.0653,
      "step": 16650
    },
    {
      "epoch": 0.83375,
      "grad_norm": 1.8501421213150024,
      "learning_rate": 7.667763157894736e-07,
      "loss": 0.0702,
      "step": 16675
    },
    {
      "epoch": 0.835,
      "grad_norm": 1.579913854598999,
      "learning_rate": 7.610197368421051e-07,
      "loss": 0.0693,
      "step": 16700
    },
    {
      "epoch": 0.83625,
      "grad_norm": 2.4913477897644043,
      "learning_rate": 7.552631578947367e-07,
      "loss": 0.0874,
      "step": 16725
    },
    {
      "epoch": 0.8375,
      "grad_norm": 2.489863634109497,
      "learning_rate": 7.495065789473683e-07,
      "loss": 0.0642,
      "step": 16750
    },
    {
      "epoch": 0.83875,
      "grad_norm": 4.630337715148926,
      "learning_rate": 7.4375e-07,
      "loss": 0.0728,
      "step": 16775
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.708297848701477,
      "learning_rate": 7.379934210526316e-07,
      "loss": 0.056,
      "step": 16800
    },
    {
      "epoch": 0.84125,
      "grad_norm": 1.7515946626663208,
      "learning_rate": 7.322368421052631e-07,
      "loss": 0.0477,
      "step": 16825
    },
    {
      "epoch": 0.8425,
      "grad_norm": 1.6641236543655396,
      "learning_rate": 7.264802631578947e-07,
      "loss": 0.0508,
      "step": 16850
    },
    {
      "epoch": 0.84375,
      "grad_norm": 1.693472146987915,
      "learning_rate": 7.207236842105262e-07,
      "loss": 0.0457,
      "step": 16875
    },
    {
      "epoch": 0.845,
      "grad_norm": 0.845664381980896,
      "learning_rate": 7.149671052631578e-07,
      "loss": 0.0415,
      "step": 16900
    },
    {
      "epoch": 0.84625,
      "grad_norm": 1.8824065923690796,
      "learning_rate": 7.092105263157893e-07,
      "loss": 0.0481,
      "step": 16925
    },
    {
      "epoch": 0.8475,
      "grad_norm": 1.9034583568572998,
      "learning_rate": 7.03453947368421e-07,
      "loss": 0.0496,
      "step": 16950
    },
    {
      "epoch": 0.84875,
      "grad_norm": 2.6840953826904297,
      "learning_rate": 6.976973684210525e-07,
      "loss": 0.0574,
      "step": 16975
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8385533094406128,
      "learning_rate": 6.919407894736842e-07,
      "loss": 0.0478,
      "step": 17000
    },
    {
      "epoch": 0.85,
      "eval_loss": 0.15727710723876953,
      "eval_runtime": 534.9573,
      "eval_samples_per_second": 3.161,
      "eval_steps_per_second": 0.396,
      "eval_wer": 6.794055201698514,
      "step": 17000
    },
    {
      "epoch": 0.85125,
      "grad_norm": 1.590932011604309,
      "learning_rate": 6.864144736842104e-07,
      "loss": 0.0589,
      "step": 17025
    },
    {
      "epoch": 0.8525,
      "grad_norm": 1.005034327507019,
      "learning_rate": 6.806578947368419e-07,
      "loss": 0.0554,
      "step": 17050
    },
    {
      "epoch": 0.85375,
      "grad_norm": 3.3872015476226807,
      "learning_rate": 6.749013157894737e-07,
      "loss": 0.0572,
      "step": 17075
    },
    {
      "epoch": 0.855,
      "grad_norm": 3.8093373775482178,
      "learning_rate": 6.691447368421053e-07,
      "loss": 0.1078,
      "step": 17100
    },
    {
      "epoch": 0.85625,
      "grad_norm": 2.587963581085205,
      "learning_rate": 6.633881578947368e-07,
      "loss": 0.1426,
      "step": 17125
    },
    {
      "epoch": 0.8575,
      "grad_norm": 3.9271957874298096,
      "learning_rate": 6.576315789473684e-07,
      "loss": 0.1496,
      "step": 17150
    },
    {
      "epoch": 0.85875,
      "grad_norm": 3.7258965969085693,
      "learning_rate": 6.518749999999999e-07,
      "loss": 0.1852,
      "step": 17175
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.298374652862549,
      "learning_rate": 6.461184210526315e-07,
      "loss": 0.2419,
      "step": 17200
    },
    {
      "epoch": 0.86125,
      "grad_norm": 6.419559478759766,
      "learning_rate": 6.403618421052631e-07,
      "loss": 0.225,
      "step": 17225
    },
    {
      "epoch": 0.8625,
      "grad_norm": 4.669430732727051,
      "learning_rate": 6.346052631578947e-07,
      "loss": 0.297,
      "step": 17250
    },
    {
      "epoch": 0.86375,
      "grad_norm": 4.676415920257568,
      "learning_rate": 6.288486842105262e-07,
      "loss": 0.2001,
      "step": 17275
    },
    {
      "epoch": 0.865,
      "grad_norm": 1.519974708557129,
      "learning_rate": 6.230921052631579e-07,
      "loss": 0.1029,
      "step": 17300
    },
    {
      "epoch": 0.86625,
      "grad_norm": 2.9553279876708984,
      "learning_rate": 6.173355263157894e-07,
      "loss": 0.0917,
      "step": 17325
    },
    {
      "epoch": 0.8675,
      "grad_norm": 1.5657232999801636,
      "learning_rate": 6.11578947368421e-07,
      "loss": 0.088,
      "step": 17350
    },
    {
      "epoch": 0.86875,
      "grad_norm": 3.1620709896087646,
      "learning_rate": 6.058223684210525e-07,
      "loss": 0.1046,
      "step": 17375
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.469240188598633,
      "learning_rate": 6.000657894736842e-07,
      "loss": 0.1004,
      "step": 17400
    },
    {
      "epoch": 0.87125,
      "grad_norm": 1.9016904830932617,
      "learning_rate": 5.943092105263158e-07,
      "loss": 0.0875,
      "step": 17425
    },
    {
      "epoch": 0.8725,
      "grad_norm": 3.1401467323303223,
      "learning_rate": 5.885526315789473e-07,
      "loss": 0.0593,
      "step": 17450
    },
    {
      "epoch": 0.87375,
      "grad_norm": 1.1564242839813232,
      "learning_rate": 5.827960526315789e-07,
      "loss": 0.0444,
      "step": 17475
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.9873404502868652,
      "learning_rate": 5.770394736842104e-07,
      "loss": 0.0418,
      "step": 17500
    },
    {
      "epoch": 0.875,
      "eval_loss": 0.156468465924263,
      "eval_runtime": 534.8937,
      "eval_samples_per_second": 3.161,
      "eval_steps_per_second": 0.396,
      "eval_wer": 6.650430872986138,
      "step": 17500
    },
    {
      "epoch": 0.87625,
      "grad_norm": 1.499561071395874,
      "learning_rate": 5.71282894736842e-07,
      "loss": 0.0423,
      "step": 17525
    },
    {
      "epoch": 0.8775,
      "grad_norm": 1.0905530452728271,
      "learning_rate": 5.655263157894735e-07,
      "loss": 0.0496,
      "step": 17550
    },
    {
      "epoch": 0.87875,
      "grad_norm": 1.6048545837402344,
      "learning_rate": 5.597697368421053e-07,
      "loss": 0.0437,
      "step": 17575
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5219619274139404,
      "learning_rate": 5.540131578947369e-07,
      "loss": 0.0676,
      "step": 17600
    },
    {
      "epoch": 0.88125,
      "grad_norm": 1.8919825553894043,
      "learning_rate": 5.482565789473684e-07,
      "loss": 0.0647,
      "step": 17625
    },
    {
      "epoch": 0.8825,
      "grad_norm": 2.4546618461608887,
      "learning_rate": 5.425e-07,
      "loss": 0.0625,
      "step": 17650
    },
    {
      "epoch": 0.88375,
      "grad_norm": 1.7209670543670654,
      "learning_rate": 5.367434210526315e-07,
      "loss": 0.0661,
      "step": 17675
    },
    {
      "epoch": 0.885,
      "grad_norm": 2.5535149574279785,
      "learning_rate": 5.309868421052631e-07,
      "loss": 0.0691,
      "step": 17700
    },
    {
      "epoch": 0.88625,
      "grad_norm": 3.5450563430786133,
      "learning_rate": 5.252302631578947e-07,
      "loss": 0.0603,
      "step": 17725
    },
    {
      "epoch": 0.8875,
      "grad_norm": 1.4123398065567017,
      "learning_rate": 5.194736842105262e-07,
      "loss": 0.0666,
      "step": 17750
    },
    {
      "epoch": 0.88875,
      "grad_norm": 1.427933931350708,
      "learning_rate": 5.137171052631578e-07,
      "loss": 0.0428,
      "step": 17775
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3647822141647339,
      "learning_rate": 5.079605263157895e-07,
      "loss": 0.0382,
      "step": 17800
    },
    {
      "epoch": 0.89125,
      "grad_norm": 1.1601825952529907,
      "learning_rate": 5.02203947368421e-07,
      "loss": 0.0485,
      "step": 17825
    },
    {
      "epoch": 0.8925,
      "grad_norm": 1.2409619092941284,
      "learning_rate": 4.964473684210526e-07,
      "loss": 0.0439,
      "step": 17850
    },
    {
      "epoch": 0.89375,
      "grad_norm": 2.1224701404571533,
      "learning_rate": 4.906907894736842e-07,
      "loss": 0.0463,
      "step": 17875
    },
    {
      "epoch": 0.895,
      "grad_norm": 1.7053598165512085,
      "learning_rate": 4.849342105263158e-07,
      "loss": 0.0419,
      "step": 17900
    },
    {
      "epoch": 0.89625,
      "grad_norm": 1.2734942436218262,
      "learning_rate": 4.791776315789473e-07,
      "loss": 0.0385,
      "step": 17925
    },
    {
      "epoch": 0.8975,
      "grad_norm": 1.448438048362732,
      "learning_rate": 4.734210526315789e-07,
      "loss": 0.0397,
      "step": 17950
    },
    {
      "epoch": 0.89875,
      "grad_norm": 1.1724251508712769,
      "learning_rate": 4.6766447368421047e-07,
      "loss": 0.0454,
      "step": 17975
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4745044708251953,
      "learning_rate": 4.6190789473684203e-07,
      "loss": 0.0382,
      "step": 18000
    },
    {
      "epoch": 0.9,
      "eval_loss": 0.15590737760066986,
      "eval_runtime": 533.3825,
      "eval_samples_per_second": 3.17,
      "eval_steps_per_second": 0.397,
      "eval_wer": 6.563007368552516,
      "step": 18000
    },
    {
      "epoch": 0.90125,
      "grad_norm": 1.3046791553497314,
      "learning_rate": 4.5615131578947364e-07,
      "loss": 0.0497,
      "step": 18025
    },
    {
      "epoch": 0.9025,
      "grad_norm": 2.052855968475342,
      "learning_rate": 4.5039473684210525e-07,
      "loss": 0.0542,
      "step": 18050
    },
    {
      "epoch": 0.90375,
      "grad_norm": 1.6691333055496216,
      "learning_rate": 4.446381578947368e-07,
      "loss": 0.0503,
      "step": 18075
    },
    {
      "epoch": 0.905,
      "grad_norm": 3.4304769039154053,
      "learning_rate": 4.3888157894736837e-07,
      "loss": 0.0572,
      "step": 18100
    },
    {
      "epoch": 0.90625,
      "grad_norm": 1.5289900302886963,
      "learning_rate": 4.33125e-07,
      "loss": 0.07,
      "step": 18125
    },
    {
      "epoch": 0.9075,
      "grad_norm": 2.5705385208129883,
      "learning_rate": 4.2736842105263154e-07,
      "loss": 0.0778,
      "step": 18150
    },
    {
      "epoch": 0.90875,
      "grad_norm": 2.34914493560791,
      "learning_rate": 4.216118421052631e-07,
      "loss": 0.0739,
      "step": 18175
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.6740806102752686,
      "learning_rate": 4.158552631578947e-07,
      "loss": 0.0621,
      "step": 18200
    },
    {
      "epoch": 0.91125,
      "grad_norm": 0.931742787361145,
      "learning_rate": 4.1009868421052627e-07,
      "loss": 0.0636,
      "step": 18225
    },
    {
      "epoch": 0.9125,
      "grad_norm": 1.7513364553451538,
      "learning_rate": 4.0434210526315783e-07,
      "loss": 0.0526,
      "step": 18250
    },
    {
      "epoch": 0.91375,
      "grad_norm": 1.3136606216430664,
      "learning_rate": 3.985855263157894e-07,
      "loss": 0.0469,
      "step": 18275
    },
    {
      "epoch": 0.915,
      "grad_norm": 1.2674484252929688,
      "learning_rate": 3.9282894736842105e-07,
      "loss": 0.0569,
      "step": 18300
    },
    {
      "epoch": 0.91625,
      "grad_norm": 2.0879714488983154,
      "learning_rate": 3.870723684210526e-07,
      "loss": 0.056,
      "step": 18325
    },
    {
      "epoch": 0.9175,
      "grad_norm": 1.6177654266357422,
      "learning_rate": 3.8131578947368417e-07,
      "loss": 0.0496,
      "step": 18350
    },
    {
      "epoch": 0.91875,
      "grad_norm": 1.267562985420227,
      "learning_rate": 3.755592105263158e-07,
      "loss": 0.0474,
      "step": 18375
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9628887176513672,
      "learning_rate": 3.6980263157894734e-07,
      "loss": 0.0523,
      "step": 18400
    },
    {
      "epoch": 0.92125,
      "grad_norm": 2.450678586959839,
      "learning_rate": 3.640460526315789e-07,
      "loss": 0.0571,
      "step": 18425
    },
    {
      "epoch": 0.9225,
      "grad_norm": 3.2376692295074463,
      "learning_rate": 3.5828947368421046e-07,
      "loss": 0.0726,
      "step": 18450
    },
    {
      "epoch": 0.92375,
      "grad_norm": 1.718723177909851,
      "learning_rate": 3.5253289473684207e-07,
      "loss": 0.0759,
      "step": 18475
    },
    {
      "epoch": 0.925,
      "grad_norm": 1.7278677225112915,
      "learning_rate": 3.4677631578947363e-07,
      "loss": 0.0658,
      "step": 18500
    },
    {
      "epoch": 0.925,
      "eval_loss": 0.145228311419487,
      "eval_runtime": 537.5559,
      "eval_samples_per_second": 3.146,
      "eval_steps_per_second": 0.394,
      "eval_wer": 6.563007368552516,
      "step": 18500
    },
    {
      "epoch": 0.92625,
      "grad_norm": 2.314218044281006,
      "learning_rate": 3.410197368421052e-07,
      "loss": 0.083,
      "step": 18525
    },
    {
      "epoch": 0.9275,
      "grad_norm": 2.6032817363739014,
      "learning_rate": 3.3526315789473685e-07,
      "loss": 0.0796,
      "step": 18550
    },
    {
      "epoch": 0.92875,
      "grad_norm": 1.2821646928787231,
      "learning_rate": 3.295065789473684e-07,
      "loss": 0.0475,
      "step": 18575
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2048566341400146,
      "learning_rate": 3.2374999999999997e-07,
      "loss": 0.0441,
      "step": 18600
    },
    {
      "epoch": 0.93125,
      "grad_norm": 2.205629348754883,
      "learning_rate": 3.179934210526316e-07,
      "loss": 0.0529,
      "step": 18625
    },
    {
      "epoch": 0.9325,
      "grad_norm": 0.948354959487915,
      "learning_rate": 3.1223684210526314e-07,
      "loss": 0.0491,
      "step": 18650
    },
    {
      "epoch": 0.93375,
      "grad_norm": 0.8600139617919922,
      "learning_rate": 3.064802631578947e-07,
      "loss": 0.0397,
      "step": 18675
    },
    {
      "epoch": 0.935,
      "grad_norm": 1.5570470094680786,
      "learning_rate": 3.0072368421052626e-07,
      "loss": 0.0479,
      "step": 18700
    },
    {
      "epoch": 0.93625,
      "grad_norm": 1.6737167835235596,
      "learning_rate": 2.9496710526315787e-07,
      "loss": 0.053,
      "step": 18725
    },
    {
      "epoch": 0.9375,
      "grad_norm": 1.7217572927474976,
      "learning_rate": 2.8921052631578943e-07,
      "loss": 0.0551,
      "step": 18750
    },
    {
      "epoch": 0.93875,
      "grad_norm": 2.207542896270752,
      "learning_rate": 2.83453947368421e-07,
      "loss": 0.0618,
      "step": 18775
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6761177778244019,
      "learning_rate": 2.7769736842105265e-07,
      "loss": 0.0652,
      "step": 18800
    },
    {
      "epoch": 0.94125,
      "grad_norm": 2.9946813583374023,
      "learning_rate": 2.719407894736842e-07,
      "loss": 0.0738,
      "step": 18825
    },
    {
      "epoch": 0.9425,
      "grad_norm": 2.3663125038146973,
      "learning_rate": 2.6618421052631577e-07,
      "loss": 0.0629,
      "step": 18850
    },
    {
      "epoch": 0.94375,
      "grad_norm": 2.5888278484344482,
      "learning_rate": 2.6042763157894733e-07,
      "loss": 0.2007,
      "step": 18875
    },
    {
      "epoch": 0.945,
      "grad_norm": 1.5639821290969849,
      "learning_rate": 2.5467105263157894e-07,
      "loss": 0.2028,
      "step": 18900
    },
    {
      "epoch": 0.94625,
      "grad_norm": 1.5892317295074463,
      "learning_rate": 2.489144736842105e-07,
      "loss": 0.1062,
      "step": 18925
    },
    {
      "epoch": 0.9475,
      "grad_norm": 2.5038766860961914,
      "learning_rate": 2.431578947368421e-07,
      "loss": 0.06,
      "step": 18950
    },
    {
      "epoch": 0.94875,
      "grad_norm": 2.531886577606201,
      "learning_rate": 2.3740131578947364e-07,
      "loss": 0.0553,
      "step": 18975
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.5510354042053223,
      "learning_rate": 2.3164473684210526e-07,
      "loss": 0.0531,
      "step": 19000
    },
    {
      "epoch": 0.95,
      "eval_loss": 0.15760228037834167,
      "eval_runtime": 534.6809,
      "eval_samples_per_second": 3.163,
      "eval_steps_per_second": 0.396,
      "eval_wer": 6.662919945048083,
      "step": 19000
    },
    {
      "epoch": 0.95125,
      "grad_norm": 3.058936357498169,
      "learning_rate": 2.2588815789473684e-07,
      "loss": 0.061,
      "step": 19025
    },
    {
      "epoch": 0.9525,
      "grad_norm": 4.343925476074219,
      "learning_rate": 2.201315789473684e-07,
      "loss": 0.0775,
      "step": 19050
    },
    {
      "epoch": 0.95375,
      "grad_norm": 3.271355628967285,
      "learning_rate": 2.1437499999999999e-07,
      "loss": 0.0762,
      "step": 19075
    },
    {
      "epoch": 0.955,
      "grad_norm": 1.7924737930297852,
      "learning_rate": 2.0861842105263154e-07,
      "loss": 0.0733,
      "step": 19100
    },
    {
      "epoch": 0.95625,
      "grad_norm": 2.034940719604492,
      "learning_rate": 2.0286184210526313e-07,
      "loss": 0.0747,
      "step": 19125
    },
    {
      "epoch": 0.9575,
      "grad_norm": 3.0561563968658447,
      "learning_rate": 1.9733552631578946e-07,
      "loss": 0.0841,
      "step": 19150
    },
    {
      "epoch": 0.95875,
      "grad_norm": 1.5333133935928345,
      "learning_rate": 1.9157894736842102e-07,
      "loss": 0.0656,
      "step": 19175
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5307198762893677,
      "learning_rate": 1.858223684210526e-07,
      "loss": 0.0532,
      "step": 19200
    },
    {
      "epoch": 0.96125,
      "grad_norm": 1.5663795471191406,
      "learning_rate": 1.8006578947368422e-07,
      "loss": 0.0485,
      "step": 19225
    },
    {
      "epoch": 0.9625,
      "grad_norm": 1.8204154968261719,
      "learning_rate": 1.7430921052631578e-07,
      "loss": 0.0506,
      "step": 19250
    },
    {
      "epoch": 0.96375,
      "grad_norm": 0.6307218074798584,
      "learning_rate": 1.6855263157894736e-07,
      "loss": 0.0412,
      "step": 19275
    },
    {
      "epoch": 0.965,
      "grad_norm": 1.2638368606567383,
      "learning_rate": 1.6279605263157892e-07,
      "loss": 0.0367,
      "step": 19300
    },
    {
      "epoch": 0.96625,
      "grad_norm": 1.448020100593567,
      "learning_rate": 1.570394736842105e-07,
      "loss": 0.0461,
      "step": 19325
    },
    {
      "epoch": 0.9675,
      "grad_norm": 1.148501992225647,
      "learning_rate": 1.5128289473684207e-07,
      "loss": 0.0321,
      "step": 19350
    },
    {
      "epoch": 0.96875,
      "grad_norm": 1.24919593334198,
      "learning_rate": 1.4552631578947368e-07,
      "loss": 0.0442,
      "step": 19375
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.437836766242981,
      "learning_rate": 1.3976973684210526e-07,
      "loss": 0.0418,
      "step": 19400
    },
    {
      "epoch": 0.97125,
      "grad_norm": 1.7176451683044434,
      "learning_rate": 1.3401315789473682e-07,
      "loss": 0.0423,
      "step": 19425
    },
    {
      "epoch": 0.9725,
      "grad_norm": 0.6188969016075134,
      "learning_rate": 1.282565789473684e-07,
      "loss": 0.0372,
      "step": 19450
    },
    {
      "epoch": 0.97375,
      "grad_norm": 0.7245228886604309,
      "learning_rate": 1.225e-07,
      "loss": 0.0447,
      "step": 19475
    },
    {
      "epoch": 0.975,
      "grad_norm": 1.1836830377578735,
      "learning_rate": 1.1674342105263156e-07,
      "loss": 0.0416,
      "step": 19500
    },
    {
      "epoch": 0.975,
      "eval_loss": 0.1550171822309494,
      "eval_runtime": 533.135,
      "eval_samples_per_second": 3.172,
      "eval_steps_per_second": 0.398,
      "eval_wer": 6.544273760459599,
      "step": 19500
    },
    {
      "epoch": 0.97625,
      "grad_norm": 2.7617335319519043,
      "learning_rate": 1.1098684210526315e-07,
      "loss": 0.0481,
      "step": 19525
    },
    {
      "epoch": 0.9775,
      "grad_norm": 1.8646786212921143,
      "learning_rate": 1.0523026315789472e-07,
      "loss": 0.0479,
      "step": 19550
    },
    {
      "epoch": 0.97875,
      "grad_norm": 3.3118820190429688,
      "learning_rate": 9.947368421052632e-08,
      "loss": 0.0622,
      "step": 19575
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3400448560714722,
      "learning_rate": 9.371710526315789e-08,
      "loss": 0.0727,
      "step": 19600
    },
    {
      "epoch": 0.98125,
      "grad_norm": 3.044895648956299,
      "learning_rate": 8.796052631578946e-08,
      "loss": 0.0613,
      "step": 19625
    },
    {
      "epoch": 0.9825,
      "grad_norm": 3.217283248901367,
      "learning_rate": 8.220394736842105e-08,
      "loss": 0.0814,
      "step": 19650
    },
    {
      "epoch": 0.98375,
      "grad_norm": 1.3824083805084229,
      "learning_rate": 7.644736842105262e-08,
      "loss": 0.0598,
      "step": 19675
    },
    {
      "epoch": 0.985,
      "grad_norm": 1.3852965831756592,
      "learning_rate": 7.069078947368419e-08,
      "loss": 0.0504,
      "step": 19700
    },
    {
      "epoch": 0.98625,
      "grad_norm": 2.5811800956726074,
      "learning_rate": 6.493421052631578e-08,
      "loss": 0.0643,
      "step": 19725
    },
    {
      "epoch": 0.9875,
      "grad_norm": 1.2770925760269165,
      "learning_rate": 5.9177631578947364e-08,
      "loss": 0.0586,
      "step": 19750
    },
    {
      "epoch": 0.98875,
      "grad_norm": 2.8050851821899414,
      "learning_rate": 5.342105263157894e-08,
      "loss": 0.0623,
      "step": 19775
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.1270270347595215,
      "learning_rate": 4.766447368421052e-08,
      "loss": 0.1128,
      "step": 19800
    },
    {
      "epoch": 0.99125,
      "grad_norm": 2.787506103515625,
      "learning_rate": 4.1907894736842107e-08,
      "loss": 0.0945,
      "step": 19825
    },
    {
      "epoch": 0.9925,
      "grad_norm": 2.0053322315216064,
      "learning_rate": 3.615131578947368e-08,
      "loss": 0.0676,
      "step": 19850
    },
    {
      "epoch": 0.99375,
      "grad_norm": 2.319840669631958,
      "learning_rate": 3.0394736842105264e-08,
      "loss": 0.0434,
      "step": 19875
    },
    {
      "epoch": 0.995,
      "grad_norm": 1.3756728172302246,
      "learning_rate": 2.463815789473684e-08,
      "loss": 0.0458,
      "step": 19900
    },
    {
      "epoch": 0.99625,
      "grad_norm": 1.3499048948287964,
      "learning_rate": 1.8881578947368418e-08,
      "loss": 0.0426,
      "step": 19925
    },
    {
      "epoch": 0.9975,
      "grad_norm": 1.0059881210327148,
      "learning_rate": 1.3124999999999998e-08,
      "loss": 0.0543,
      "step": 19950
    },
    {
      "epoch": 0.99875,
      "grad_norm": 1.247534155845642,
      "learning_rate": 7.368421052631579e-09,
      "loss": 0.0526,
      "step": 19975
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3380235433578491,
      "learning_rate": 1.6118421052631579e-09,
      "loss": 0.0435,
      "step": 20000
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.15491345524787903,
      "eval_runtime": 532.2586,
      "eval_samples_per_second": 3.177,
      "eval_steps_per_second": 0.398,
      "eval_wer": 6.544273760459599,
      "step": 20000
    },
    {
      "epoch": 1.0,
      "step": 20000,
      "total_flos": 1.0871994580992e+21,
      "train_loss": 0.0028733723163604737,
      "train_runtime": 7510.0544,
      "train_samples_per_second": 42.61,
      "train_steps_per_second": 2.663
    }
  ],
  "logging_steps": 25,
  "max_steps": 20000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0871994580992e+21,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}