{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.8555111364934325,
  "eval_steps": 1000,
  "global_step": 5000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.014277555682467162,
      "grad_norm": 7.571424961090088,
      "learning_rate": 5.000000000000001e-07,
      "loss": 1.5088,
      "step": 25
    },
    {
      "epoch": 0.028555111364934323,
      "grad_norm": 5.992729187011719,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 1.2038,
      "step": 50
    },
    {
      "epoch": 0.04283266704740148,
      "grad_norm": 5.949503421783447,
      "learning_rate": 1.5e-06,
      "loss": 0.8879,
      "step": 75
    },
    {
      "epoch": 0.05711022272986865,
      "grad_norm": 4.452832221984863,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.7647,
      "step": 100
    },
    {
      "epoch": 0.0713877784123358,
      "grad_norm": 4.690545558929443,
      "learning_rate": 2.5e-06,
      "loss": 0.6792,
      "step": 125
    },
    {
      "epoch": 0.08566533409480297,
      "grad_norm": 4.969720840454102,
      "learning_rate": 3e-06,
      "loss": 0.6549,
      "step": 150
    },
    {
      "epoch": 0.09994288977727013,
      "grad_norm": 5.184281349182129,
      "learning_rate": 3.5e-06,
      "loss": 0.6376,
      "step": 175
    },
    {
      "epoch": 0.1142204454597373,
      "grad_norm": 5.00349235534668,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.5982,
      "step": 200
    },
    {
      "epoch": 0.12849800114220444,
      "grad_norm": 4.239490032196045,
      "learning_rate": 4.5e-06,
      "loss": 0.6084,
      "step": 225
    },
    {
      "epoch": 0.1427755568246716,
      "grad_norm": 4.2740068435668945,
      "learning_rate": 5e-06,
      "loss": 0.58,
      "step": 250
    },
    {
      "epoch": 0.15705311250713877,
      "grad_norm": 4.718848705291748,
      "learning_rate": 5.500000000000001e-06,
      "loss": 0.5759,
      "step": 275
    },
    {
      "epoch": 0.17133066818960593,
      "grad_norm": 4.2935638427734375,
      "learning_rate": 6e-06,
      "loss": 0.5625,
      "step": 300
    },
    {
      "epoch": 0.1856082238720731,
      "grad_norm": 4.917020797729492,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 0.5621,
      "step": 325
    },
    {
      "epoch": 0.19988577955454026,
      "grad_norm": 3.9521942138671875,
      "learning_rate": 7e-06,
      "loss": 0.5644,
      "step": 350
    },
    {
      "epoch": 0.21416333523700742,
      "grad_norm": 4.506232738494873,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.5508,
      "step": 375
    },
    {
      "epoch": 0.2284408909194746,
      "grad_norm": 4.1483540534973145,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.5244,
      "step": 400
    },
    {
      "epoch": 0.24271844660194175,
      "grad_norm": 4.077396392822266,
      "learning_rate": 8.5e-06,
      "loss": 0.5051,
      "step": 425
    },
    {
      "epoch": 0.2569960022844089,
      "grad_norm": 4.375626087188721,
      "learning_rate": 9e-06,
      "loss": 0.5222,
      "step": 450
    },
    {
      "epoch": 0.2712735579668761,
      "grad_norm": 3.5698530673980713,
      "learning_rate": 9.5e-06,
      "loss": 0.5038,
      "step": 475
    },
    {
      "epoch": 0.2855511136493432,
      "grad_norm": 4.99509859085083,
      "learning_rate": 1e-05,
      "loss": 0.5196,
      "step": 500
    },
    {
      "epoch": 0.2998286693318104,
      "grad_norm": 3.666332721710205,
      "learning_rate": 9.944444444444445e-06,
      "loss": 0.5066,
      "step": 525
    },
    {
      "epoch": 0.31410622501427754,
      "grad_norm": 3.9203736782073975,
      "learning_rate": 9.88888888888889e-06,
      "loss": 0.4822,
      "step": 550
    },
    {
      "epoch": 0.32838378069674473,
      "grad_norm": 3.5677530765533447,
      "learning_rate": 9.833333333333333e-06,
      "loss": 0.519,
      "step": 575
    },
    {
      "epoch": 0.34266133637921187,
      "grad_norm": 3.3873414993286133,
      "learning_rate": 9.777777777777779e-06,
      "loss": 0.5205,
      "step": 600
    },
    {
      "epoch": 0.35693889206167906,
      "grad_norm": 3.9527816772460938,
      "learning_rate": 9.722222222222223e-06,
      "loss": 0.4769,
      "step": 625
    },
    {
      "epoch": 0.3712164477441462,
      "grad_norm": 3.3437490463256836,
      "learning_rate": 9.666666666666667e-06,
      "loss": 0.4629,
      "step": 650
    },
    {
      "epoch": 0.3854940034266134,
      "grad_norm": 3.7754790782928467,
      "learning_rate": 9.611111111111112e-06,
      "loss": 0.4812,
      "step": 675
    },
    {
      "epoch": 0.3997715591090805,
      "grad_norm": 3.744267225265503,
      "learning_rate": 9.555555555555556e-06,
      "loss": 0.467,
      "step": 700
    },
    {
      "epoch": 0.4140491147915477,
      "grad_norm": 3.5076072216033936,
      "learning_rate": 9.5e-06,
      "loss": 0.4454,
      "step": 725
    },
    {
      "epoch": 0.42832667047401485,
      "grad_norm": 3.556335687637329,
      "learning_rate": 9.444444444444445e-06,
      "loss": 0.4447,
      "step": 750
    },
    {
      "epoch": 0.442604226156482,
      "grad_norm": 4.256951332092285,
      "learning_rate": 9.38888888888889e-06,
      "loss": 0.4809,
      "step": 775
    },
    {
      "epoch": 0.4568817818389492,
      "grad_norm": 3.533447742462158,
      "learning_rate": 9.333333333333334e-06,
      "loss": 0.4425,
      "step": 800
    },
    {
      "epoch": 0.4711593375214163,
      "grad_norm": 4.324098587036133,
      "learning_rate": 9.277777777777778e-06,
      "loss": 0.424,
      "step": 825
    },
    {
      "epoch": 0.4854368932038835,
      "grad_norm": 2.913189649581909,
      "learning_rate": 9.222222222222224e-06,
      "loss": 0.4314,
      "step": 850
    },
    {
      "epoch": 0.49971444888635064,
      "grad_norm": 3.432490825653076,
      "learning_rate": 9.166666666666666e-06,
      "loss": 0.4355,
      "step": 875
    },
    {
      "epoch": 0.5139920045688178,
      "grad_norm": 3.645869255065918,
      "learning_rate": 9.111111111111112e-06,
      "loss": 0.4395,
      "step": 900
    },
    {
      "epoch": 0.528269560251285,
      "grad_norm": 3.2094240188598633,
      "learning_rate": 9.055555555555556e-06,
      "loss": 0.4144,
      "step": 925
    },
    {
      "epoch": 0.5425471159337522,
      "grad_norm": 3.4623546600341797,
      "learning_rate": 9e-06,
      "loss": 0.4277,
      "step": 950
    },
    {
      "epoch": 0.5568246716162193,
      "grad_norm": 3.640333414077759,
      "learning_rate": 8.944444444444446e-06,
      "loss": 0.4246,
      "step": 975
    },
    {
      "epoch": 0.5711022272986864,
      "grad_norm": 3.0283167362213135,
      "learning_rate": 8.888888888888888e-06,
      "loss": 0.4047,
      "step": 1000
    },
    {
      "epoch": 0.5711022272986864,
      "eval_loss": 0.4848648011684418,
      "eval_runtime": 1825.4203,
      "eval_samples_per_second": 2.137,
      "eval_steps_per_second": 0.134,
      "eval_wer": 0.35052641746353713,
      "step": 1000
    },
    {
      "epoch": 0.5853797829811537,
      "grad_norm": 3.7762739658355713,
      "learning_rate": 8.833333333333334e-06,
      "loss": 0.4218,
      "step": 1025
    },
    {
      "epoch": 0.5996573386636208,
      "grad_norm": 3.495347023010254,
      "learning_rate": 8.777777777777778e-06,
      "loss": 0.3968,
      "step": 1050
    },
    {
      "epoch": 0.613934894346088,
      "grad_norm": 3.5088939666748047,
      "learning_rate": 8.722222222222224e-06,
      "loss": 0.4108,
      "step": 1075
    },
    {
      "epoch": 0.6282124500285551,
      "grad_norm": 3.555328845977783,
      "learning_rate": 8.666666666666668e-06,
      "loss": 0.4063,
      "step": 1100
    },
    {
      "epoch": 0.6424900057110223,
      "grad_norm": 2.9576587677001953,
      "learning_rate": 8.611111111111112e-06,
      "loss": 0.4116,
      "step": 1125
    },
    {
      "epoch": 0.6567675613934895,
      "grad_norm": 3.280855178833008,
      "learning_rate": 8.555555555555556e-06,
      "loss": 0.4083,
      "step": 1150
    },
    {
      "epoch": 0.6710451170759566,
      "grad_norm": 3.903722047805786,
      "learning_rate": 8.5e-06,
      "loss": 0.411,
      "step": 1175
    },
    {
      "epoch": 0.6853226727584237,
      "grad_norm": 3.519038438796997,
      "learning_rate": 8.444444444444446e-06,
      "loss": 0.3964,
      "step": 1200
    },
    {
      "epoch": 0.6996002284408909,
      "grad_norm": 3.3553972244262695,
      "learning_rate": 8.38888888888889e-06,
      "loss": 0.4049,
      "step": 1225
    },
    {
      "epoch": 0.7138777841233581,
      "grad_norm": 3.3820197582244873,
      "learning_rate": 8.333333333333334e-06,
      "loss": 0.4159,
      "step": 1250
    },
    {
      "epoch": 0.7281553398058253,
      "grad_norm": 2.782127857208252,
      "learning_rate": 8.277777777777778e-06,
      "loss": 0.3859,
      "step": 1275
    },
    {
      "epoch": 0.7424328954882924,
      "grad_norm": 3.5839345455169678,
      "learning_rate": 8.222222222222222e-06,
      "loss": 0.392,
      "step": 1300
    },
    {
      "epoch": 0.7567104511707595,
      "grad_norm": 3.0308761596679688,
      "learning_rate": 8.166666666666668e-06,
      "loss": 0.3899,
      "step": 1325
    },
    {
      "epoch": 0.7709880068532268,
      "grad_norm": 3.136904001235962,
      "learning_rate": 8.111111111111112e-06,
      "loss": 0.3907,
      "step": 1350
    },
    {
      "epoch": 0.7852655625356939,
      "grad_norm": 3.3192756175994873,
      "learning_rate": 8.055555555555557e-06,
      "loss": 0.3941,
      "step": 1375
    },
    {
      "epoch": 0.799543118218161,
      "grad_norm": 4.766107082366943,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.3887,
      "step": 1400
    },
    {
      "epoch": 0.8138206739006282,
      "grad_norm": 4.241744041442871,
      "learning_rate": 7.944444444444445e-06,
      "loss": 0.4033,
      "step": 1425
    },
    {
      "epoch": 0.8280982295830954,
      "grad_norm": 3.1559460163116455,
      "learning_rate": 7.88888888888889e-06,
      "loss": 0.3567,
      "step": 1450
    },
    {
      "epoch": 0.8423757852655626,
      "grad_norm": 3.142645835876465,
      "learning_rate": 7.833333333333333e-06,
      "loss": 0.3731,
      "step": 1475
    },
    {
      "epoch": 0.8566533409480297,
      "grad_norm": 3.1183199882507324,
      "learning_rate": 7.77777777777778e-06,
      "loss": 0.3668,
      "step": 1500
    },
    {
      "epoch": 0.8709308966304968,
      "grad_norm": 2.7859325408935547,
      "learning_rate": 7.722222222222223e-06,
      "loss": 0.3965,
      "step": 1525
    },
    {
      "epoch": 0.885208452312964,
      "grad_norm": 3.191088914871216,
      "learning_rate": 7.666666666666667e-06,
      "loss": 0.3574,
      "step": 1550
    },
    {
      "epoch": 0.8994860079954312,
      "grad_norm": 3.0640053749084473,
      "learning_rate": 7.611111111111111e-06,
      "loss": 0.3811,
      "step": 1575
    },
    {
      "epoch": 0.9137635636778983,
      "grad_norm": 3.0769450664520264,
      "learning_rate": 7.555555555555556e-06,
      "loss": 0.3788,
      "step": 1600
    },
    {
      "epoch": 0.9280411193603655,
      "grad_norm": 3.1407933235168457,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.3698,
      "step": 1625
    },
    {
      "epoch": 0.9423186750428326,
      "grad_norm": 3.410187244415283,
      "learning_rate": 7.444444444444445e-06,
      "loss": 0.3907,
      "step": 1650
    },
    {
      "epoch": 0.9565962307252999,
      "grad_norm": 3.3382880687713623,
      "learning_rate": 7.38888888888889e-06,
      "loss": 0.3368,
      "step": 1675
    },
    {
      "epoch": 0.970873786407767,
      "grad_norm": 3.194368600845337,
      "learning_rate": 7.333333333333333e-06,
      "loss": 0.369,
      "step": 1700
    },
    {
      "epoch": 0.9851513420902341,
      "grad_norm": 3.089852809906006,
      "learning_rate": 7.277777777777778e-06,
      "loss": 0.3765,
      "step": 1725
    },
    {
      "epoch": 0.9994288977727013,
      "grad_norm": 3.0002810955047607,
      "learning_rate": 7.222222222222223e-06,
      "loss": 0.3705,
      "step": 1750
    },
    {
      "epoch": 1.0137064534551685,
      "grad_norm": 2.3977696895599365,
      "learning_rate": 7.166666666666667e-06,
      "loss": 0.2584,
      "step": 1775
    },
    {
      "epoch": 1.0279840091376355,
      "grad_norm": 2.3220465183258057,
      "learning_rate": 7.111111111111112e-06,
      "loss": 0.2538,
      "step": 1800
    },
    {
      "epoch": 1.0422615648201028,
      "grad_norm": 2.819687843322754,
      "learning_rate": 7.055555555555557e-06,
      "loss": 0.2571,
      "step": 1825
    },
    {
      "epoch": 1.05653912050257,
      "grad_norm": 2.514644145965576,
      "learning_rate": 7e-06,
      "loss": 0.2806,
      "step": 1850
    },
    {
      "epoch": 1.070816676185037,
      "grad_norm": 2.1887128353118896,
      "learning_rate": 6.944444444444445e-06,
      "loss": 0.2626,
      "step": 1875
    },
    {
      "epoch": 1.0850942318675043,
      "grad_norm": 2.592247486114502,
      "learning_rate": 6.88888888888889e-06,
      "loss": 0.2509,
      "step": 1900
    },
    {
      "epoch": 1.0993717875499716,
      "grad_norm": 2.371534824371338,
      "learning_rate": 6.833333333333334e-06,
      "loss": 0.2605,
      "step": 1925
    },
    {
      "epoch": 1.1136493432324386,
      "grad_norm": 3.1825778484344482,
      "learning_rate": 6.777777777777779e-06,
      "loss": 0.2495,
      "step": 1950
    },
    {
      "epoch": 1.1279268989149058,
      "grad_norm": 2.901749849319458,
      "learning_rate": 6.7222222222222235e-06,
      "loss": 0.261,
      "step": 1975
    },
    {
      "epoch": 1.1422044545973729,
      "grad_norm": 2.658766984939575,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.2476,
      "step": 2000
    },
    {
      "epoch": 1.1422044545973729,
      "eval_loss": 0.41870468854904175,
      "eval_runtime": 1722.2575,
      "eval_samples_per_second": 2.265,
      "eval_steps_per_second": 0.142,
      "eval_wer": 0.3136771950159374,
      "step": 2000
    },
    {
      "epoch": 1.15648201027984,
      "grad_norm": 2.711312770843506,
      "learning_rate": 6.6111111111111115e-06,
      "loss": 0.2414,
      "step": 2025
    },
    {
      "epoch": 1.1707595659623073,
      "grad_norm": 2.9044759273529053,
      "learning_rate": 6.555555555555556e-06,
      "loss": 0.2502,
      "step": 2050
    },
    {
      "epoch": 1.1850371216447744,
      "grad_norm": 2.549725294113159,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 0.2511,
      "step": 2075
    },
    {
      "epoch": 1.1993146773272416,
      "grad_norm": 2.95792555809021,
      "learning_rate": 6.444444444444445e-06,
      "loss": 0.2427,
      "step": 2100
    },
    {
      "epoch": 1.2135922330097086,
      "grad_norm": 2.686870574951172,
      "learning_rate": 6.3888888888888885e-06,
      "loss": 0.2637,
      "step": 2125
    },
    {
      "epoch": 1.227869788692176,
      "grad_norm": 3.7834455966949463,
      "learning_rate": 6.333333333333333e-06,
      "loss": 0.2554,
      "step": 2150
    },
    {
      "epoch": 1.2421473443746431,
      "grad_norm": 3.0891430377960205,
      "learning_rate": 6.277777777777778e-06,
      "loss": 0.2467,
      "step": 2175
    },
    {
      "epoch": 1.2564249000571102,
      "grad_norm": 2.771472930908203,
      "learning_rate": 6.222222222222223e-06,
      "loss": 0.2467,
      "step": 2200
    },
    {
      "epoch": 1.2707024557395774,
      "grad_norm": 2.6807925701141357,
      "learning_rate": 6.166666666666667e-06,
      "loss": 0.2682,
      "step": 2225
    },
    {
      "epoch": 1.2849800114220447,
      "grad_norm": 2.2320196628570557,
      "learning_rate": 6.111111111111112e-06,
      "loss": 0.2408,
      "step": 2250
    },
    {
      "epoch": 1.2992575671045117,
      "grad_norm": 3.066009759902954,
      "learning_rate": 6.055555555555555e-06,
      "loss": 0.2363,
      "step": 2275
    },
    {
      "epoch": 1.313535122786979,
      "grad_norm": 2.6043167114257812,
      "learning_rate": 6e-06,
      "loss": 0.2483,
      "step": 2300
    },
    {
      "epoch": 1.327812678469446,
      "grad_norm": 2.6250624656677246,
      "learning_rate": 5.944444444444445e-06,
      "loss": 0.2563,
      "step": 2325
    },
    {
      "epoch": 1.3420902341519132,
      "grad_norm": 2.508998394012451,
      "learning_rate": 5.88888888888889e-06,
      "loss": 0.2581,
      "step": 2350
    },
    {
      "epoch": 1.3563677898343802,
      "grad_norm": 2.872715473175049,
      "learning_rate": 5.833333333333334e-06,
      "loss": 0.2371,
      "step": 2375
    },
    {
      "epoch": 1.3706453455168475,
      "grad_norm": 3.1910557746887207,
      "learning_rate": 5.777777777777778e-06,
      "loss": 0.2515,
      "step": 2400
    },
    {
      "epoch": 1.3849229011993147,
      "grad_norm": 2.7466485500335693,
      "learning_rate": 5.722222222222222e-06,
      "loss": 0.2578,
      "step": 2425
    },
    {
      "epoch": 1.3992004568817817,
      "grad_norm": 2.388066530227661,
      "learning_rate": 5.666666666666667e-06,
      "loss": 0.2541,
      "step": 2450
    },
    {
      "epoch": 1.413478012564249,
      "grad_norm": 2.688497304916382,
      "learning_rate": 5.611111111111112e-06,
      "loss": 0.2514,
      "step": 2475
    },
    {
      "epoch": 1.4277555682467162,
      "grad_norm": 2.710899591445923,
      "learning_rate": 5.555555555555557e-06,
      "loss": 0.2765,
      "step": 2500
    },
    {
      "epoch": 1.4420331239291833,
      "grad_norm": 2.296635389328003,
      "learning_rate": 5.500000000000001e-06,
      "loss": 0.2487,
      "step": 2525
    },
    {
      "epoch": 1.4563106796116505,
      "grad_norm": 2.7988133430480957,
      "learning_rate": 5.444444444444445e-06,
      "loss": 0.2499,
      "step": 2550
    },
    {
      "epoch": 1.4705882352941178,
      "grad_norm": 3.1988582611083984,
      "learning_rate": 5.388888888888889e-06,
      "loss": 0.2456,
      "step": 2575
    },
    {
      "epoch": 1.4848657909765848,
      "grad_norm": 2.657517910003662,
      "learning_rate": 5.333333333333334e-06,
      "loss": 0.2613,
      "step": 2600
    },
    {
      "epoch": 1.499143346659052,
      "grad_norm": 2.5517725944519043,
      "learning_rate": 5.2777777777777785e-06,
      "loss": 0.2528,
      "step": 2625
    },
    {
      "epoch": 1.5134209023415193,
      "grad_norm": 2.7166850566864014,
      "learning_rate": 5.2222222222222226e-06,
      "loss": 0.2476,
      "step": 2650
    },
    {
      "epoch": 1.5276984580239863,
      "grad_norm": 2.7338292598724365,
      "learning_rate": 5.1666666666666675e-06,
      "loss": 0.2489,
      "step": 2675
    },
    {
      "epoch": 1.5419760137064533,
      "grad_norm": 2.1498470306396484,
      "learning_rate": 5.1111111111111115e-06,
      "loss": 0.2388,
      "step": 2700
    },
    {
      "epoch": 1.5562535693889206,
      "grad_norm": 2.595247745513916,
      "learning_rate": 5.0555555555555555e-06,
      "loss": 0.2566,
      "step": 2725
    },
    {
      "epoch": 1.5705311250713878,
      "grad_norm": 2.652132987976074,
      "learning_rate": 5e-06,
      "loss": 0.239,
      "step": 2750
    },
    {
      "epoch": 1.5848086807538548,
      "grad_norm": 2.436605930328369,
      "learning_rate": 4.944444444444445e-06,
      "loss": 0.2419,
      "step": 2775
    },
    {
      "epoch": 1.599086236436322,
      "grad_norm": 2.618035316467285,
      "learning_rate": 4.888888888888889e-06,
      "loss": 0.2295,
      "step": 2800
    },
    {
      "epoch": 1.6133637921187893,
      "grad_norm": 2.2901298999786377,
      "learning_rate": 4.833333333333333e-06,
      "loss": 0.2446,
      "step": 2825
    },
    {
      "epoch": 1.6276413478012564,
      "grad_norm": 2.899315595626831,
      "learning_rate": 4.777777777777778e-06,
      "loss": 0.2628,
      "step": 2850
    },
    {
      "epoch": 1.6419189034837236,
      "grad_norm": 2.616224527359009,
      "learning_rate": 4.722222222222222e-06,
      "loss": 0.2273,
      "step": 2875
    },
    {
      "epoch": 1.6561964591661908,
      "grad_norm": 2.43113112449646,
      "learning_rate": 4.666666666666667e-06,
      "loss": 0.2362,
      "step": 2900
    },
    {
      "epoch": 1.6704740148486579,
      "grad_norm": 2.5203065872192383,
      "learning_rate": 4.611111111111112e-06,
      "loss": 0.2428,
      "step": 2925
    },
    {
      "epoch": 1.6847515705311251,
      "grad_norm": 2.3064985275268555,
      "learning_rate": 4.555555555555556e-06,
      "loss": 0.2441,
      "step": 2950
    },
    {
      "epoch": 1.6990291262135924,
      "grad_norm": 2.201695680618286,
      "learning_rate": 4.5e-06,
      "loss": 0.2324,
      "step": 2975
    },
    {
      "epoch": 1.7133066818960594,
      "grad_norm": 2.442471981048584,
      "learning_rate": 4.444444444444444e-06,
      "loss": 0.2527,
      "step": 3000
    },
    {
      "epoch": 1.7133066818960594,
      "eval_loss": 0.3882293701171875,
      "eval_runtime": 1749.1422,
      "eval_samples_per_second": 2.23,
      "eval_steps_per_second": 0.139,
      "eval_wer": 0.2901091471071187,
      "step": 3000
    },
    {
      "epoch": 1.7275842375785264,
      "grad_norm": 2.77786922454834,
      "learning_rate": 4.388888888888889e-06,
      "loss": 0.2492,
      "step": 3025
    },
    {
      "epoch": 1.7418617932609937,
      "grad_norm": 2.5009052753448486,
      "learning_rate": 4.333333333333334e-06,
      "loss": 0.2341,
      "step": 3050
    },
    {
      "epoch": 1.756139348943461,
      "grad_norm": 2.780186176300049,
      "learning_rate": 4.277777777777778e-06,
      "loss": 0.2407,
      "step": 3075
    },
    {
      "epoch": 1.770416904625928,
      "grad_norm": 1.9574618339538574,
      "learning_rate": 4.222222222222223e-06,
      "loss": 0.2437,
      "step": 3100
    },
    {
      "epoch": 1.7846944603083952,
      "grad_norm": 2.151125907897949,
      "learning_rate": 4.166666666666667e-06,
      "loss": 0.2341,
      "step": 3125
    },
    {
      "epoch": 1.7989720159908624,
      "grad_norm": 2.170015811920166,
      "learning_rate": 4.111111111111111e-06,
      "loss": 0.2373,
      "step": 3150
    },
    {
      "epoch": 1.8132495716733295,
      "grad_norm": 3.0467231273651123,
      "learning_rate": 4.055555555555556e-06,
      "loss": 0.2317,
      "step": 3175
    },
    {
      "epoch": 1.8275271273557967,
      "grad_norm": 3.0150015354156494,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.228,
      "step": 3200
    },
    {
      "epoch": 1.841804683038264,
      "grad_norm": 3.275949001312256,
      "learning_rate": 3.944444444444445e-06,
      "loss": 0.2438,
      "step": 3225
    },
    {
      "epoch": 1.856082238720731,
      "grad_norm": 3.0381839275360107,
      "learning_rate": 3.88888888888889e-06,
      "loss": 0.2478,
      "step": 3250
    },
    {
      "epoch": 1.8703597944031982,
      "grad_norm": 2.770716428756714,
      "learning_rate": 3.833333333333334e-06,
      "loss": 0.2312,
      "step": 3275
    },
    {
      "epoch": 1.8846373500856655,
      "grad_norm": 2.6976678371429443,
      "learning_rate": 3.777777777777778e-06,
      "loss": 0.2284,
      "step": 3300
    },
    {
      "epoch": 1.8989149057681325,
      "grad_norm": 2.8799102306365967,
      "learning_rate": 3.7222222222222225e-06,
      "loss": 0.2484,
      "step": 3325
    },
    {
      "epoch": 1.9131924614505995,
      "grad_norm": 2.574629545211792,
      "learning_rate": 3.6666666666666666e-06,
      "loss": 0.2295,
      "step": 3350
    },
    {
      "epoch": 1.927470017133067,
      "grad_norm": 2.4746835231781006,
      "learning_rate": 3.6111111111111115e-06,
      "loss": 0.2335,
      "step": 3375
    },
    {
      "epoch": 1.941747572815534,
      "grad_norm": 3.084383964538574,
      "learning_rate": 3.555555555555556e-06,
      "loss": 0.212,
      "step": 3400
    },
    {
      "epoch": 1.956025128498001,
      "grad_norm": 2.4441068172454834,
      "learning_rate": 3.5e-06,
      "loss": 0.221,
      "step": 3425
    },
    {
      "epoch": 1.9703026841804683,
      "grad_norm": 3.031568765640259,
      "learning_rate": 3.444444444444445e-06,
      "loss": 0.2341,
      "step": 3450
    },
    {
      "epoch": 1.9845802398629355,
      "grad_norm": 2.3584327697753906,
      "learning_rate": 3.3888888888888893e-06,
      "loss": 0.2431,
      "step": 3475
    },
    {
      "epoch": 1.9988577955454025,
      "grad_norm": 2.1590421199798584,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.2357,
      "step": 3500
    },
    {
      "epoch": 2.0131353512278696,
      "grad_norm": 2.2845587730407715,
      "learning_rate": 3.277777777777778e-06,
      "loss": 0.1576,
      "step": 3525
    },
    {
      "epoch": 2.027412906910337,
      "grad_norm": 2.033133029937744,
      "learning_rate": 3.2222222222222227e-06,
      "loss": 0.1422,
      "step": 3550
    },
    {
      "epoch": 2.041690462592804,
      "grad_norm": 2.2549259662628174,
      "learning_rate": 3.1666666666666667e-06,
      "loss": 0.1473,
      "step": 3575
    },
    {
      "epoch": 2.055968018275271,
      "grad_norm": 1.5837754011154175,
      "learning_rate": 3.1111111111111116e-06,
      "loss": 0.143,
      "step": 3600
    },
    {
      "epoch": 2.0702455739577386,
      "grad_norm": 1.9988360404968262,
      "learning_rate": 3.055555555555556e-06,
      "loss": 0.1416,
      "step": 3625
    },
    {
      "epoch": 2.0845231296402056,
      "grad_norm": 2.148613929748535,
      "learning_rate": 3e-06,
      "loss": 0.1338,
      "step": 3650
    },
    {
      "epoch": 2.0988006853226726,
      "grad_norm": 1.8176393508911133,
      "learning_rate": 2.944444444444445e-06,
      "loss": 0.1514,
      "step": 3675
    },
    {
      "epoch": 2.11307824100514,
      "grad_norm": 2.60271954536438,
      "learning_rate": 2.888888888888889e-06,
      "loss": 0.1533,
      "step": 3700
    },
    {
      "epoch": 2.127355796687607,
      "grad_norm": 2.120281457901001,
      "learning_rate": 2.8333333333333335e-06,
      "loss": 0.1404,
      "step": 3725
    },
    {
      "epoch": 2.141633352370074,
      "grad_norm": 2.3522286415100098,
      "learning_rate": 2.7777777777777783e-06,
      "loss": 0.1511,
      "step": 3750
    },
    {
      "epoch": 2.1559109080525416,
      "grad_norm": 1.8738924264907837,
      "learning_rate": 2.7222222222222224e-06,
      "loss": 0.1417,
      "step": 3775
    },
    {
      "epoch": 2.1701884637350086,
      "grad_norm": 2.255291223526001,
      "learning_rate": 2.666666666666667e-06,
      "loss": 0.1437,
      "step": 3800
    },
    {
      "epoch": 2.1844660194174756,
      "grad_norm": 1.7046154737472534,
      "learning_rate": 2.6111111111111113e-06,
      "loss": 0.1446,
      "step": 3825
    },
    {
      "epoch": 2.198743575099943,
      "grad_norm": 2.0543861389160156,
      "learning_rate": 2.5555555555555557e-06,
      "loss": 0.1504,
      "step": 3850
    },
    {
      "epoch": 2.21302113078241,
      "grad_norm": 2.139716863632202,
      "learning_rate": 2.5e-06,
      "loss": 0.1345,
      "step": 3875
    },
    {
      "epoch": 2.227298686464877,
      "grad_norm": 1.7999951839447021,
      "learning_rate": 2.4444444444444447e-06,
      "loss": 0.1389,
      "step": 3900
    },
    {
      "epoch": 2.241576242147344,
      "grad_norm": 1.7282090187072754,
      "learning_rate": 2.388888888888889e-06,
      "loss": 0.1324,
      "step": 3925
    },
    {
      "epoch": 2.2558537978298117,
      "grad_norm": 2.6271605491638184,
      "learning_rate": 2.3333333333333336e-06,
      "loss": 0.1551,
      "step": 3950
    },
    {
      "epoch": 2.2701313535122787,
      "grad_norm": 2.170382022857666,
      "learning_rate": 2.277777777777778e-06,
      "loss": 0.144,
      "step": 3975
    },
    {
      "epoch": 2.2844089091947457,
      "grad_norm": 1.796635627746582,
      "learning_rate": 2.222222222222222e-06,
      "loss": 0.1568,
      "step": 4000
    },
    {
      "epoch": 2.2844089091947457,
      "eval_loss": 0.3901652991771698,
      "eval_runtime": 1765.3609,
      "eval_samples_per_second": 2.21,
      "eval_steps_per_second": 0.138,
      "eval_wer": 0.28160919540229884,
      "step": 4000
    },
    {
      "epoch": 2.298686464877213,
      "grad_norm": 2.0357980728149414,
      "learning_rate": 2.166666666666667e-06,
      "loss": 0.161,
      "step": 4025
    },
    {
      "epoch": 2.31296402055968,
      "grad_norm": 2.027215003967285,
      "learning_rate": 2.1111111111111114e-06,
      "loss": 0.1353,
      "step": 4050
    },
    {
      "epoch": 2.3272415762421472,
      "grad_norm": 2.8169405460357666,
      "learning_rate": 2.0555555555555555e-06,
      "loss": 0.1449,
      "step": 4075
    },
    {
      "epoch": 2.3415191319246147,
      "grad_norm": 1.9528751373291016,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.1376,
      "step": 4100
    },
    {
      "epoch": 2.3557966876070817,
      "grad_norm": 2.5781335830688477,
      "learning_rate": 1.944444444444445e-06,
      "loss": 0.1383,
      "step": 4125
    },
    {
      "epoch": 2.3700742432895487,
      "grad_norm": 2.083077907562256,
      "learning_rate": 1.888888888888889e-06,
      "loss": 0.1362,
      "step": 4150
    },
    {
      "epoch": 2.384351798972016,
      "grad_norm": 2.431272029876709,
      "learning_rate": 1.8333333333333333e-06,
      "loss": 0.1329,
      "step": 4175
    },
    {
      "epoch": 2.3986293546544832,
      "grad_norm": 2.157139539718628,
      "learning_rate": 1.777777777777778e-06,
      "loss": 0.1377,
      "step": 4200
    },
    {
      "epoch": 2.4129069103369503,
      "grad_norm": 2.5328071117401123,
      "learning_rate": 1.7222222222222224e-06,
      "loss": 0.1361,
      "step": 4225
    },
    {
      "epoch": 2.4271844660194173,
      "grad_norm": 2.433239459991455,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 0.157,
      "step": 4250
    },
    {
      "epoch": 2.4414620217018848,
      "grad_norm": 2.5167510509490967,
      "learning_rate": 1.6111111111111113e-06,
      "loss": 0.132,
      "step": 4275
    },
    {
      "epoch": 2.455739577384352,
      "grad_norm": 1.9507442712783813,
      "learning_rate": 1.5555555555555558e-06,
      "loss": 0.1625,
      "step": 4300
    },
    {
      "epoch": 2.470017133066819,
      "grad_norm": 2.2467007637023926,
      "learning_rate": 1.5e-06,
      "loss": 0.1333,
      "step": 4325
    },
    {
      "epoch": 2.4842946887492863,
      "grad_norm": 2.4816768169403076,
      "learning_rate": 1.4444444444444445e-06,
      "loss": 0.1499,
      "step": 4350
    },
    {
      "epoch": 2.4985722444317533,
      "grad_norm": 2.0616416931152344,
      "learning_rate": 1.3888888888888892e-06,
      "loss": 0.1508,
      "step": 4375
    },
    {
      "epoch": 2.5128498001142203,
      "grad_norm": 2.089355230331421,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 0.1344,
      "step": 4400
    },
    {
      "epoch": 2.5271273557966873,
      "grad_norm": 2.2235498428344727,
      "learning_rate": 1.28e-06,
      "loss": 0.1717,
      "step": 4425
    },
    {
      "epoch": 2.541404911479155,
      "grad_norm": 1.9268138408660889,
      "learning_rate": 1.2244444444444445e-06,
      "loss": 0.143,
      "step": 4450
    },
    {
      "epoch": 2.555682467161622,
      "grad_norm": 1.8911551237106323,
      "learning_rate": 1.168888888888889e-06,
      "loss": 0.1439,
      "step": 4475
    },
    {
      "epoch": 2.5699600228440893,
      "grad_norm": 2.5078868865966797,
      "learning_rate": 1.1133333333333334e-06,
      "loss": 0.1341,
      "step": 4500
    },
    {
      "epoch": 2.5842375785265563,
      "grad_norm": 2.1232492923736572,
      "learning_rate": 1.0577777777777779e-06,
      "loss": 0.1415,
      "step": 4525
    },
    {
      "epoch": 2.5985151342090234,
      "grad_norm": 1.9214311838150024,
      "learning_rate": 1.0022222222222223e-06,
      "loss": 0.1301,
      "step": 4550
    },
    {
      "epoch": 2.6127926898914904,
      "grad_norm": 2.4226858615875244,
      "learning_rate": 9.466666666666667e-07,
      "loss": 0.1438,
      "step": 4575
    },
    {
      "epoch": 2.627070245573958,
      "grad_norm": 2.324777126312256,
      "learning_rate": 8.911111111111112e-07,
      "loss": 0.1306,
      "step": 4600
    },
    {
      "epoch": 2.641347801256425,
      "grad_norm": 2.427114486694336,
      "learning_rate": 8.355555555555556e-07,
      "loss": 0.1359,
      "step": 4625
    },
    {
      "epoch": 2.655625356938892,
      "grad_norm": 1.989882469177246,
      "learning_rate": 7.8e-07,
      "loss": 0.1386,
      "step": 4650
    },
    {
      "epoch": 2.6699029126213594,
      "grad_norm": 2.6079118251800537,
      "learning_rate": 7.244444444444446e-07,
      "loss": 0.135,
      "step": 4675
    },
    {
      "epoch": 2.6841804683038264,
      "grad_norm": 2.3429243564605713,
      "learning_rate": 6.68888888888889e-07,
      "loss": 0.1356,
      "step": 4700
    },
    {
      "epoch": 2.6984580239862934,
      "grad_norm": 2.3358540534973145,
      "learning_rate": 6.133333333333333e-07,
      "loss": 0.1304,
      "step": 4725
    },
    {
      "epoch": 2.7127355796687604,
      "grad_norm": 1.917809247970581,
      "learning_rate": 5.577777777777779e-07,
      "loss": 0.1395,
      "step": 4750
    },
    {
      "epoch": 2.727013135351228,
      "grad_norm": 2.0677952766418457,
      "learning_rate": 5.022222222222222e-07,
      "loss": 0.1309,
      "step": 4775
    },
    {
      "epoch": 2.741290691033695,
      "grad_norm": 2.135127305984497,
      "learning_rate": 4.466666666666667e-07,
      "loss": 0.1424,
      "step": 4800
    },
    {
      "epoch": 2.7555682467161624,
      "grad_norm": 2.3306682109832764,
      "learning_rate": 3.9111111111111115e-07,
      "loss": 0.1318,
      "step": 4825
    },
    {
      "epoch": 2.7698458023986294,
      "grad_norm": 2.0700454711914062,
      "learning_rate": 3.3555555555555556e-07,
      "loss": 0.1566,
      "step": 4850
    },
    {
      "epoch": 2.7841233580810965,
      "grad_norm": 1.8561683893203735,
      "learning_rate": 2.8e-07,
      "loss": 0.1453,
      "step": 4875
    },
    {
      "epoch": 2.7984009137635635,
      "grad_norm": 2.2682347297668457,
      "learning_rate": 2.2444444444444445e-07,
      "loss": 0.1415,
      "step": 4900
    },
    {
      "epoch": 2.812678469446031,
      "grad_norm": 2.2898778915405273,
      "learning_rate": 1.6888888888888888e-07,
      "loss": 0.1427,
      "step": 4925
    },
    {
      "epoch": 2.826956025128498,
      "grad_norm": 2.328401803970337,
      "learning_rate": 1.1333333333333336e-07,
      "loss": 0.1357,
      "step": 4950
    },
    {
      "epoch": 2.841233580810965,
      "grad_norm": 2.2169013023376465,
      "learning_rate": 5.777777777777778e-08,
      "loss": 0.1343,
      "step": 4975
    },
    {
      "epoch": 2.8555111364934325,
      "grad_norm": 2.42340350151062,
      "learning_rate": 2.2222222222222225e-09,
      "loss": 0.1313,
      "step": 5000
    },
    {
      "epoch": 2.8555111364934325,
      "eval_loss": 0.38383349776268005,
      "eval_runtime": 1820.062,
      "eval_samples_per_second": 2.143,
      "eval_steps_per_second": 0.134,
      "eval_wer": 0.27318168646769053,
      "step": 5000
    },
    {
      "epoch": 2.8555111364934325,
      "step": 5000,
      "total_flos": 5.435589590699213e+20,
      "train_loss": 0.3002769865989685,
      "train_runtime": 59305.2217,
      "train_samples_per_second": 2.698,
      "train_steps_per_second": 0.084
    }
  ],
  "logging_steps": 25,
  "max_steps": 5000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.435589590699213e+20,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}