{ "best_metric": 0.13504766902825155, "best_model_checkpoint": "results3_3\\checkpoint-108000", "epoch": 1.2463306666666667, "eval_steps": 12000, "global_step": 108000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0005333333333333334, "grad_norm": 12.682685852050781, "learning_rate": 1.8800000000000002e-06, "loss": 1.7624, "step": 100 }, { "epoch": 0.0010666666666666667, "grad_norm": 9.673599243164062, "learning_rate": 3.88e-06, "loss": 0.9302, "step": 200 }, { "epoch": 0.0016, "grad_norm": 12.075459480285645, "learning_rate": 5.8800000000000005e-06, "loss": 0.4712, "step": 300 }, { "epoch": 0.0021333333333333334, "grad_norm": 9.02074909210205, "learning_rate": 7.88e-06, "loss": 0.3364, "step": 400 }, { "epoch": 0.0026666666666666666, "grad_norm": 15.298815727233887, "learning_rate": 9.88e-06, "loss": 0.4066, "step": 500 }, { "epoch": 0.0032, "grad_norm": 23.20745849609375, "learning_rate": 9.994973262032086e-06, "loss": 0.3955, "step": 600 }, { "epoch": 0.0037333333333333333, "grad_norm": 12.026681900024414, "learning_rate": 9.989625668449198e-06, "loss": 0.3638, "step": 700 }, { "epoch": 0.004266666666666667, "grad_norm": 7.112119674682617, "learning_rate": 9.984278074866312e-06, "loss": 0.364, "step": 800 }, { "epoch": 0.0048, "grad_norm": 15.019401550292969, "learning_rate": 9.978930481283423e-06, "loss": 0.4006, "step": 900 }, { "epoch": 0.005333333333333333, "grad_norm": 6.491704940795898, "learning_rate": 9.973582887700535e-06, "loss": 0.3714, "step": 1000 }, { "epoch": 0.005866666666666667, "grad_norm": 9.685382843017578, "learning_rate": 9.968235294117647e-06, "loss": 0.3845, "step": 1100 }, { "epoch": 0.0064, "grad_norm": 7.1199517250061035, "learning_rate": 9.96288770053476e-06, "loss": 0.3577, "step": 1200 }, { "epoch": 0.006933333333333333, "grad_norm": 7.018744945526123, "learning_rate": 9.957540106951872e-06, "loss": 0.3518, "step": 1300 }, { "epoch": 0.007466666666666667, "grad_norm": 12.106159210205078, "learning_rate": 9.952192513368984e-06, "loss": 0.355, "step": 1400 }, { "epoch": 0.008, "grad_norm": 8.18734359741211, "learning_rate": 9.946844919786098e-06, "loss": 0.366, "step": 1500 }, { "epoch": 0.008533333333333334, "grad_norm": 10.047822952270508, "learning_rate": 9.94149732620321e-06, "loss": 0.3424, "step": 1600 }, { "epoch": 0.009066666666666667, "grad_norm": 11.106707572937012, "learning_rate": 9.936149732620321e-06, "loss": 0.3527, "step": 1700 }, { "epoch": 0.0096, "grad_norm": 10.13370132446289, "learning_rate": 9.930802139037435e-06, "loss": 0.3588, "step": 1800 }, { "epoch": 0.010133333333333333, "grad_norm": 6.995693683624268, "learning_rate": 9.925454545454547e-06, "loss": 0.3575, "step": 1900 }, { "epoch": 0.010666666666666666, "grad_norm": 11.376134872436523, "learning_rate": 9.920106951871658e-06, "loss": 0.3649, "step": 2000 }, { "epoch": 0.0112, "grad_norm": 14.864072799682617, "learning_rate": 9.914759358288772e-06, "loss": 0.378, "step": 2100 }, { "epoch": 0.011733333333333333, "grad_norm": 11.829797744750977, "learning_rate": 9.909411764705884e-06, "loss": 0.358, "step": 2200 }, { "epoch": 0.012266666666666667, "grad_norm": 11.30088996887207, "learning_rate": 9.904064171122995e-06, "loss": 0.3439, "step": 2300 }, { "epoch": 0.0128, "grad_norm": 7.860215187072754, "learning_rate": 9.898716577540107e-06, "loss": 0.3411, "step": 2400 }, { "epoch": 0.013333333333333334, "grad_norm": 11.937601089477539, "learning_rate": 9.89336898395722e-06, "loss": 0.3311, "step": 2500 }, { "epoch": 0.013866666666666666, "grad_norm": 7.4068193435668945, "learning_rate": 9.888021390374333e-06, "loss": 0.368, "step": 2600 }, { "epoch": 0.0144, "grad_norm": 10.59372329711914, "learning_rate": 9.882673796791444e-06, "loss": 0.358, "step": 2700 }, { "epoch": 0.014933333333333333, "grad_norm": 10.110426902770996, "learning_rate": 9.877326203208558e-06, "loss": 0.348, "step": 2800 }, { "epoch": 0.015466666666666667, "grad_norm": 12.541438102722168, "learning_rate": 9.87197860962567e-06, "loss": 0.3523, "step": 2900 }, { "epoch": 0.016, "grad_norm": 14.14297866821289, "learning_rate": 9.866631016042781e-06, "loss": 0.3498, "step": 3000 }, { "epoch": 0.016533333333333334, "grad_norm": 14.616842269897461, "learning_rate": 9.861283422459893e-06, "loss": 0.3392, "step": 3100 }, { "epoch": 0.017066666666666667, "grad_norm": 7.4896345138549805, "learning_rate": 9.855935828877005e-06, "loss": 0.3409, "step": 3200 }, { "epoch": 0.0176, "grad_norm": 7.518580913543701, "learning_rate": 9.850588235294119e-06, "loss": 0.353, "step": 3300 }, { "epoch": 0.018133333333333335, "grad_norm": 14.476628303527832, "learning_rate": 9.84524064171123e-06, "loss": 0.3514, "step": 3400 }, { "epoch": 0.018666666666666668, "grad_norm": 10.313743591308594, "learning_rate": 9.839893048128342e-06, "loss": 0.3479, "step": 3500 }, { "epoch": 0.0192, "grad_norm": 8.568981170654297, "learning_rate": 9.834545454545456e-06, "loss": 0.3249, "step": 3600 }, { "epoch": 0.019733333333333332, "grad_norm": 7.058041572570801, "learning_rate": 9.829197860962568e-06, "loss": 0.3231, "step": 3700 }, { "epoch": 0.020266666666666665, "grad_norm": 10.430354118347168, "learning_rate": 9.82385026737968e-06, "loss": 0.3316, "step": 3800 }, { "epoch": 0.0208, "grad_norm": 15.494534492492676, "learning_rate": 9.818502673796793e-06, "loss": 0.3552, "step": 3900 }, { "epoch": 0.021333333333333333, "grad_norm": 4.254530429840088, "learning_rate": 9.813155080213905e-06, "loss": 0.3357, "step": 4000 }, { "epoch": 0.021866666666666666, "grad_norm": 14.817956924438477, "learning_rate": 9.807807486631016e-06, "loss": 0.3386, "step": 4100 }, { "epoch": 0.0224, "grad_norm": 7.910586833953857, "learning_rate": 9.80245989304813e-06, "loss": 0.3675, "step": 4200 }, { "epoch": 0.022933333333333333, "grad_norm": 7.62361478805542, "learning_rate": 9.797112299465242e-06, "loss": 0.3378, "step": 4300 }, { "epoch": 0.023466666666666667, "grad_norm": 9.862504959106445, "learning_rate": 9.791764705882354e-06, "loss": 0.3449, "step": 4400 }, { "epoch": 0.024, "grad_norm": 12.023858070373535, "learning_rate": 9.786417112299465e-06, "loss": 0.3319, "step": 4500 }, { "epoch": 0.024533333333333334, "grad_norm": 5.009961128234863, "learning_rate": 9.781069518716579e-06, "loss": 0.3728, "step": 4600 }, { "epoch": 0.025066666666666668, "grad_norm": 12.042765617370605, "learning_rate": 9.77572192513369e-06, "loss": 0.3447, "step": 4700 }, { "epoch": 0.0256, "grad_norm": 10.970171928405762, "learning_rate": 9.770374331550802e-06, "loss": 0.3571, "step": 4800 }, { "epoch": 0.026133333333333335, "grad_norm": 9.50147819519043, "learning_rate": 9.765026737967916e-06, "loss": 0.3252, "step": 4900 }, { "epoch": 0.02666666666666667, "grad_norm": 9.836638450622559, "learning_rate": 9.759679144385028e-06, "loss": 0.3473, "step": 5000 }, { "epoch": 0.0272, "grad_norm": 10.238117218017578, "learning_rate": 9.75433155080214e-06, "loss": 0.3464, "step": 5100 }, { "epoch": 0.027733333333333332, "grad_norm": 4.740981101989746, "learning_rate": 9.748983957219253e-06, "loss": 0.3268, "step": 5200 }, { "epoch": 0.028266666666666666, "grad_norm": 11.421891212463379, "learning_rate": 9.743636363636363e-06, "loss": 0.3499, "step": 5300 }, { "epoch": 0.0288, "grad_norm": 8.68069076538086, "learning_rate": 9.738288770053477e-06, "loss": 0.3354, "step": 5400 }, { "epoch": 0.029333333333333333, "grad_norm": 12.214832305908203, "learning_rate": 9.73294117647059e-06, "loss": 0.3232, "step": 5500 }, { "epoch": 0.029866666666666666, "grad_norm": 8.141294479370117, "learning_rate": 9.7275935828877e-06, "loss": 0.3321, "step": 5600 }, { "epoch": 0.0304, "grad_norm": 10.102989196777344, "learning_rate": 9.722245989304814e-06, "loss": 0.3423, "step": 5700 }, { "epoch": 0.030933333333333334, "grad_norm": 7.996029853820801, "learning_rate": 9.716898395721926e-06, "loss": 0.3404, "step": 5800 }, { "epoch": 0.031466666666666664, "grad_norm": 8.540441513061523, "learning_rate": 9.711550802139037e-06, "loss": 0.3301, "step": 5900 }, { "epoch": 0.032, "grad_norm": 9.5405912399292, "learning_rate": 9.706203208556151e-06, "loss": 0.3415, "step": 6000 }, { "epoch": 0.03253333333333333, "grad_norm": 13.04266357421875, "learning_rate": 9.700855614973263e-06, "loss": 0.3332, "step": 6100 }, { "epoch": 0.03306666666666667, "grad_norm": 10.254107475280762, "learning_rate": 9.695508021390375e-06, "loss": 0.3211, "step": 6200 }, { "epoch": 0.0336, "grad_norm": 6.799915790557861, "learning_rate": 9.690160427807488e-06, "loss": 0.3287, "step": 6300 }, { "epoch": 0.034133333333333335, "grad_norm": 8.072012901306152, "learning_rate": 9.6848128342246e-06, "loss": 0.3474, "step": 6400 }, { "epoch": 0.034666666666666665, "grad_norm": 13.688739776611328, "learning_rate": 9.679465240641712e-06, "loss": 0.3234, "step": 6500 }, { "epoch": 0.0352, "grad_norm": 6.636716365814209, "learning_rate": 9.674117647058823e-06, "loss": 0.3585, "step": 6600 }, { "epoch": 0.03573333333333333, "grad_norm": 14.078845024108887, "learning_rate": 9.668770053475937e-06, "loss": 0.3234, "step": 6700 }, { "epoch": 0.03626666666666667, "grad_norm": 5.768551826477051, "learning_rate": 9.663422459893049e-06, "loss": 0.3559, "step": 6800 }, { "epoch": 0.0368, "grad_norm": 12.134847640991211, "learning_rate": 9.65807486631016e-06, "loss": 0.3075, "step": 6900 }, { "epoch": 0.037333333333333336, "grad_norm": 9.488847732543945, "learning_rate": 9.652727272727274e-06, "loss": 0.3172, "step": 7000 }, { "epoch": 0.037866666666666667, "grad_norm": 10.902628898620605, "learning_rate": 9.647379679144386e-06, "loss": 0.3523, "step": 7100 }, { "epoch": 0.0384, "grad_norm": 11.071891784667969, "learning_rate": 9.642032085561498e-06, "loss": 0.3324, "step": 7200 }, { "epoch": 0.038933333333333334, "grad_norm": 11.16884708404541, "learning_rate": 9.636684491978611e-06, "loss": 0.3085, "step": 7300 }, { "epoch": 0.039466666666666664, "grad_norm": 7.358479022979736, "learning_rate": 9.631336898395723e-06, "loss": 0.3082, "step": 7400 }, { "epoch": 0.04, "grad_norm": 11.693734169006348, "learning_rate": 9.625989304812835e-06, "loss": 0.336, "step": 7500 }, { "epoch": 0.04053333333333333, "grad_norm": 11.842214584350586, "learning_rate": 9.620641711229948e-06, "loss": 0.3515, "step": 7600 }, { "epoch": 0.04106666666666667, "grad_norm": 6.59236478805542, "learning_rate": 9.61529411764706e-06, "loss": 0.3, "step": 7700 }, { "epoch": 0.0416, "grad_norm": 10.550555229187012, "learning_rate": 9.609946524064172e-06, "loss": 0.2965, "step": 7800 }, { "epoch": 0.042133333333333335, "grad_norm": 15.540199279785156, "learning_rate": 9.604598930481284e-06, "loss": 0.3183, "step": 7900 }, { "epoch": 0.042666666666666665, "grad_norm": 14.629020690917969, "learning_rate": 9.599251336898396e-06, "loss": 0.3327, "step": 8000 }, { "epoch": 0.0432, "grad_norm": 8.822857856750488, "learning_rate": 9.593903743315509e-06, "loss": 0.3358, "step": 8100 }, { "epoch": 0.04373333333333333, "grad_norm": 7.702023983001709, "learning_rate": 9.588556149732621e-06, "loss": 0.3271, "step": 8200 }, { "epoch": 0.04426666666666667, "grad_norm": 20.20534896850586, "learning_rate": 9.583208556149733e-06, "loss": 0.3115, "step": 8300 }, { "epoch": 0.0448, "grad_norm": 10.3837251663208, "learning_rate": 9.577860962566846e-06, "loss": 0.3212, "step": 8400 }, { "epoch": 0.04533333333333334, "grad_norm": 7.677608489990234, "learning_rate": 9.572513368983958e-06, "loss": 0.3333, "step": 8500 }, { "epoch": 0.04586666666666667, "grad_norm": 8.203088760375977, "learning_rate": 9.56716577540107e-06, "loss": 0.3038, "step": 8600 }, { "epoch": 0.0464, "grad_norm": 6.146180152893066, "learning_rate": 9.561818181818182e-06, "loss": 0.316, "step": 8700 }, { "epoch": 0.046933333333333334, "grad_norm": 17.6888427734375, "learning_rate": 9.556470588235295e-06, "loss": 0.3545, "step": 8800 }, { "epoch": 0.047466666666666664, "grad_norm": 6.254221439361572, "learning_rate": 9.551122994652407e-06, "loss": 0.2936, "step": 8900 }, { "epoch": 0.048, "grad_norm": 9.450068473815918, "learning_rate": 9.545775401069519e-06, "loss": 0.3299, "step": 9000 }, { "epoch": 0.04853333333333333, "grad_norm": 5.22484827041626, "learning_rate": 9.540427807486632e-06, "loss": 0.3076, "step": 9100 }, { "epoch": 0.04906666666666667, "grad_norm": 11.477136611938477, "learning_rate": 9.535080213903744e-06, "loss": 0.33, "step": 9200 }, { "epoch": 0.0496, "grad_norm": 14.33831787109375, "learning_rate": 9.529732620320856e-06, "loss": 0.338, "step": 9300 }, { "epoch": 0.050133333333333335, "grad_norm": 6.946934700012207, "learning_rate": 9.52438502673797e-06, "loss": 0.3282, "step": 9400 }, { "epoch": 0.050666666666666665, "grad_norm": 7.85734748840332, "learning_rate": 9.519037433155081e-06, "loss": 0.3162, "step": 9500 }, { "epoch": 0.0512, "grad_norm": 12.215442657470703, "learning_rate": 9.513689839572193e-06, "loss": 0.3286, "step": 9600 }, { "epoch": 0.05173333333333333, "grad_norm": 16.859296798706055, "learning_rate": 9.508342245989306e-06, "loss": 0.3148, "step": 9700 }, { "epoch": 0.05226666666666667, "grad_norm": 15.90843391418457, "learning_rate": 9.502994652406418e-06, "loss": 0.3492, "step": 9800 }, { "epoch": 0.0528, "grad_norm": 6.754197597503662, "learning_rate": 9.49764705882353e-06, "loss": 0.3251, "step": 9900 }, { "epoch": 0.05333333333333334, "grad_norm": 7.828423023223877, "learning_rate": 9.492299465240642e-06, "loss": 0.3112, "step": 10000 }, { "epoch": 0.05386666666666667, "grad_norm": 5.814265251159668, "learning_rate": 9.487005347593585e-06, "loss": 0.3145, "step": 10100 }, { "epoch": 0.0544, "grad_norm": 8.992554664611816, "learning_rate": 9.481657754010696e-06, "loss": 0.3534, "step": 10200 }, { "epoch": 0.054933333333333334, "grad_norm": 2.707108974456787, "learning_rate": 9.476310160427808e-06, "loss": 0.3091, "step": 10300 }, { "epoch": 0.055466666666666664, "grad_norm": 6.719486236572266, "learning_rate": 9.47096256684492e-06, "loss": 0.3065, "step": 10400 }, { "epoch": 0.056, "grad_norm": 6.975130558013916, "learning_rate": 9.465614973262034e-06, "loss": 0.3387, "step": 10500 }, { "epoch": 0.05653333333333333, "grad_norm": 7.222239017486572, "learning_rate": 9.460267379679145e-06, "loss": 0.2903, "step": 10600 }, { "epoch": 0.05706666666666667, "grad_norm": 8.861376762390137, "learning_rate": 9.454919786096257e-06, "loss": 0.3039, "step": 10700 }, { "epoch": 0.0576, "grad_norm": 3.8790180683135986, "learning_rate": 9.44957219251337e-06, "loss": 0.326, "step": 10800 }, { "epoch": 0.058133333333333335, "grad_norm": 5.9464216232299805, "learning_rate": 9.444278074866312e-06, "loss": 0.3235, "step": 10900 }, { "epoch": 0.058666666666666666, "grad_norm": 13.298794746398926, "learning_rate": 9.438930481283423e-06, "loss": 0.3344, "step": 11000 }, { "epoch": 0.0592, "grad_norm": 9.65287971496582, "learning_rate": 9.433582887700535e-06, "loss": 0.3313, "step": 11100 }, { "epoch": 0.05973333333333333, "grad_norm": 6.684828281402588, "learning_rate": 9.428235294117649e-06, "loss": 0.3124, "step": 11200 }, { "epoch": 0.06026666666666667, "grad_norm": 12.06175708770752, "learning_rate": 9.422887700534759e-06, "loss": 0.3392, "step": 11300 }, { "epoch": 0.0608, "grad_norm": 11.010705947875977, "learning_rate": 9.417540106951872e-06, "loss": 0.3069, "step": 11400 }, { "epoch": 0.06133333333333333, "grad_norm": 10.140491485595703, "learning_rate": 9.412192513368986e-06, "loss": 0.3058, "step": 11500 }, { "epoch": 0.06186666666666667, "grad_norm": 10.447724342346191, "learning_rate": 9.406844919786096e-06, "loss": 0.3028, "step": 11600 }, { "epoch": 0.0624, "grad_norm": 9.439563751220703, "learning_rate": 9.40149732620321e-06, "loss": 0.3082, "step": 11700 }, { "epoch": 0.06293333333333333, "grad_norm": 12.6246919631958, "learning_rate": 9.396149732620321e-06, "loss": 0.3063, "step": 11800 }, { "epoch": 0.06346666666666667, "grad_norm": 7.701294898986816, "learning_rate": 9.390802139037433e-06, "loss": 0.3073, "step": 11900 }, { "epoch": 0.064, "grad_norm": 6.799566268920898, "learning_rate": 9.385454545454547e-06, "loss": 0.3079, "step": 12000 }, { "epoch": 0.064, "eval_test1_cer": 0.07394596310404063, "eval_test1_cer_norm": 0.05342041443561361, "eval_test1_loss": 0.2363676279783249, "eval_test1_runtime": 3493.0306, "eval_test1_samples_per_second": 0.716, "eval_test1_steps_per_second": 0.179, "eval_test1_wer": 0.2097145689378699, "eval_test1_wer_norm": 0.14430579502615506, "step": 12000 }, { "epoch": 0.064, "eval_test2_cer": 0.16905588531750476, "eval_test2_cer_norm": 0.12996300743724823, "eval_test2_loss": 0.3965984880924225, "eval_test2_runtime": 3621.2985, "eval_test2_samples_per_second": 0.69, "eval_test2_steps_per_second": 0.173, "eval_test2_wer": 0.3331998168917372, "eval_test2_wer_norm": 0.26257735503094204, "step": 12000 }, { "epoch": 0.06453333333333333, "grad_norm": 6.89504861831665, "learning_rate": 9.380106951871658e-06, "loss": 0.3254, "step": 12100 }, { "epoch": 0.06506666666666666, "grad_norm": 10.308484077453613, "learning_rate": 9.37475935828877e-06, "loss": 0.3023, "step": 12200 }, { "epoch": 0.0656, "grad_norm": 12.176148414611816, "learning_rate": 9.369411764705884e-06, "loss": 0.3042, "step": 12300 }, { "epoch": 0.06613333333333334, "grad_norm": 11.045821189880371, "learning_rate": 9.364064171122996e-06, "loss": 0.3054, "step": 12400 }, { "epoch": 0.06666666666666667, "grad_norm": 6.078316688537598, "learning_rate": 9.358716577540107e-06, "loss": 0.2774, "step": 12500 }, { "epoch": 0.0672, "grad_norm": 6.855229377746582, "learning_rate": 9.353368983957219e-06, "loss": 0.3138, "step": 12600 }, { "epoch": 0.06773333333333334, "grad_norm": 7.834438800811768, "learning_rate": 9.348021390374333e-06, "loss": 0.3248, "step": 12700 }, { "epoch": 0.06826666666666667, "grad_norm": 6.273947715759277, "learning_rate": 9.342673796791444e-06, "loss": 0.3081, "step": 12800 }, { "epoch": 0.0688, "grad_norm": 9.909603118896484, "learning_rate": 9.337326203208556e-06, "loss": 0.3062, "step": 12900 }, { "epoch": 0.06933333333333333, "grad_norm": 8.648843765258789, "learning_rate": 9.33197860962567e-06, "loss": 0.296, "step": 13000 }, { "epoch": 0.06986666666666666, "grad_norm": 18.481542587280273, "learning_rate": 9.326631016042782e-06, "loss": 0.3216, "step": 13100 }, { "epoch": 0.0704, "grad_norm": 8.06287956237793, "learning_rate": 9.321283422459893e-06, "loss": 0.3264, "step": 13200 }, { "epoch": 0.07093333333333333, "grad_norm": 6.104379177093506, "learning_rate": 9.315935828877007e-06, "loss": 0.2907, "step": 13300 }, { "epoch": 0.07146666666666666, "grad_norm": 5.05776834487915, "learning_rate": 9.310588235294119e-06, "loss": 0.3172, "step": 13400 }, { "epoch": 0.072, "grad_norm": 10.694443702697754, "learning_rate": 9.30524064171123e-06, "loss": 0.3137, "step": 13500 }, { "epoch": 0.07253333333333334, "grad_norm": 9.1295747756958, "learning_rate": 9.299893048128344e-06, "loss": 0.3059, "step": 13600 }, { "epoch": 0.07306666666666667, "grad_norm": 14.171150207519531, "learning_rate": 9.294545454545456e-06, "loss": 0.3161, "step": 13700 }, { "epoch": 0.0736, "grad_norm": 4.371847629547119, "learning_rate": 9.289197860962568e-06, "loss": 0.2742, "step": 13800 }, { "epoch": 0.07413333333333333, "grad_norm": 5.861475467681885, "learning_rate": 9.283850267379681e-06, "loss": 0.2969, "step": 13900 }, { "epoch": 0.07466666666666667, "grad_norm": 6.731687068939209, "learning_rate": 9.278502673796791e-06, "loss": 0.3348, "step": 14000 }, { "epoch": 0.0752, "grad_norm": 7.6385297775268555, "learning_rate": 9.273155080213905e-06, "loss": 0.3214, "step": 14100 }, { "epoch": 0.07573333333333333, "grad_norm": 11.56203842163086, "learning_rate": 9.267807486631017e-06, "loss": 0.3168, "step": 14200 }, { "epoch": 0.07626666666666666, "grad_norm": 12.223224639892578, "learning_rate": 9.262459893048128e-06, "loss": 0.2837, "step": 14300 }, { "epoch": 0.0768, "grad_norm": 7.101698875427246, "learning_rate": 9.257112299465242e-06, "loss": 0.3215, "step": 14400 }, { "epoch": 0.07733333333333334, "grad_norm": 6.637581825256348, "learning_rate": 9.251764705882354e-06, "loss": 0.3339, "step": 14500 }, { "epoch": 0.07786666666666667, "grad_norm": 7.6208038330078125, "learning_rate": 9.246417112299465e-06, "loss": 0.3089, "step": 14600 }, { "epoch": 0.0784, "grad_norm": 6.840024948120117, "learning_rate": 9.241069518716577e-06, "loss": 0.3025, "step": 14700 }, { "epoch": 0.07893333333333333, "grad_norm": 7.576569080352783, "learning_rate": 9.23572192513369e-06, "loss": 0.283, "step": 14800 }, { "epoch": 0.07946666666666667, "grad_norm": 10.964497566223145, "learning_rate": 9.230427807486632e-06, "loss": 0.3147, "step": 14900 }, { "epoch": 0.08, "grad_norm": 7.626828670501709, "learning_rate": 9.225080213903744e-06, "loss": 0.2961, "step": 15000 }, { "epoch": 0.08053333333333333, "grad_norm": 11.547073364257812, "learning_rate": 9.219732620320855e-06, "loss": 0.2821, "step": 15100 }, { "epoch": 0.08106666666666666, "grad_norm": 8.551331520080566, "learning_rate": 9.214385026737969e-06, "loss": 0.2887, "step": 15200 }, { "epoch": 0.0816, "grad_norm": 6.346571922302246, "learning_rate": 9.20903743315508e-06, "loss": 0.3126, "step": 15300 }, { "epoch": 0.08213333333333334, "grad_norm": 8.737421989440918, "learning_rate": 9.203689839572193e-06, "loss": 0.3095, "step": 15400 }, { "epoch": 0.08266666666666667, "grad_norm": 7.823000431060791, "learning_rate": 9.198342245989306e-06, "loss": 0.3318, "step": 15500 }, { "epoch": 0.0832, "grad_norm": 10.868834495544434, "learning_rate": 9.192994652406418e-06, "loss": 0.2819, "step": 15600 }, { "epoch": 0.08373333333333334, "grad_norm": 11.724994659423828, "learning_rate": 9.18764705882353e-06, "loss": 0.308, "step": 15700 }, { "epoch": 0.08426666666666667, "grad_norm": 12.090059280395508, "learning_rate": 9.18235294117647e-06, "loss": 0.2893, "step": 15800 }, { "epoch": 0.0848, "grad_norm": 9.195568084716797, "learning_rate": 9.177005347593584e-06, "loss": 0.3003, "step": 15900 }, { "epoch": 0.08533333333333333, "grad_norm": 7.414088249206543, "learning_rate": 9.171657754010696e-06, "loss": 0.2851, "step": 16000 }, { "epoch": 0.08586666666666666, "grad_norm": 9.123306274414062, "learning_rate": 9.166310160427808e-06, "loss": 0.2859, "step": 16100 }, { "epoch": 0.0864, "grad_norm": 8.737271308898926, "learning_rate": 9.160962566844921e-06, "loss": 0.2932, "step": 16200 }, { "epoch": 0.08693333333333333, "grad_norm": 14.485941886901855, "learning_rate": 9.155614973262033e-06, "loss": 0.2983, "step": 16300 }, { "epoch": 0.08746666666666666, "grad_norm": 6.459070205688477, "learning_rate": 9.150267379679145e-06, "loss": 0.29, "step": 16400 }, { "epoch": 0.088, "grad_norm": 9.596070289611816, "learning_rate": 9.144919786096258e-06, "loss": 0.3382, "step": 16500 }, { "epoch": 0.08853333333333334, "grad_norm": 7.359094619750977, "learning_rate": 9.13957219251337e-06, "loss": 0.2913, "step": 16600 }, { "epoch": 0.08906666666666667, "grad_norm": 12.854063987731934, "learning_rate": 9.134224598930482e-06, "loss": 0.3053, "step": 16700 }, { "epoch": 0.0896, "grad_norm": 6.775805473327637, "learning_rate": 9.128877005347594e-06, "loss": 0.2967, "step": 16800 }, { "epoch": 0.09013333333333333, "grad_norm": 8.06552791595459, "learning_rate": 9.123529411764707e-06, "loss": 0.3087, "step": 16900 }, { "epoch": 0.09066666666666667, "grad_norm": 11.01732063293457, "learning_rate": 9.118181818181819e-06, "loss": 0.2923, "step": 17000 }, { "epoch": 0.0912, "grad_norm": 6.7579450607299805, "learning_rate": 9.112834224598931e-06, "loss": 0.2923, "step": 17100 }, { "epoch": 0.09173333333333333, "grad_norm": 13.407238006591797, "learning_rate": 9.107486631016044e-06, "loss": 0.3188, "step": 17200 }, { "epoch": 0.09226666666666666, "grad_norm": 11.711687088012695, "learning_rate": 9.102139037433155e-06, "loss": 0.3148, "step": 17300 }, { "epoch": 0.0928, "grad_norm": 12.918648719787598, "learning_rate": 9.096791443850268e-06, "loss": 0.2916, "step": 17400 }, { "epoch": 0.09333333333333334, "grad_norm": 5.458356857299805, "learning_rate": 9.091443850267382e-06, "loss": 0.2891, "step": 17500 }, { "epoch": 0.09386666666666667, "grad_norm": 12.215410232543945, "learning_rate": 9.086096256684492e-06, "loss": 0.3274, "step": 17600 }, { "epoch": 0.0944, "grad_norm": 7.538832664489746, "learning_rate": 9.080748663101605e-06, "loss": 0.2962, "step": 17700 }, { "epoch": 0.09493333333333333, "grad_norm": 12.217591285705566, "learning_rate": 9.075401069518717e-06, "loss": 0.3179, "step": 17800 }, { "epoch": 0.09546666666666667, "grad_norm": 9.152289390563965, "learning_rate": 9.070053475935829e-06, "loss": 0.3116, "step": 17900 }, { "epoch": 0.096, "grad_norm": 11.746953964233398, "learning_rate": 9.064705882352942e-06, "loss": 0.3198, "step": 18000 }, { "epoch": 0.09653333333333333, "grad_norm": 17.57948875427246, "learning_rate": 9.059358288770054e-06, "loss": 0.2982, "step": 18100 }, { "epoch": 0.09706666666666666, "grad_norm": 8.564026832580566, "learning_rate": 9.054010695187166e-06, "loss": 0.2832, "step": 18200 }, { "epoch": 0.0976, "grad_norm": 14.246106147766113, "learning_rate": 9.04866310160428e-06, "loss": 0.2744, "step": 18300 }, { "epoch": 0.09813333333333334, "grad_norm": 10.425728797912598, "learning_rate": 9.043315508021391e-06, "loss": 0.2967, "step": 18400 }, { "epoch": 0.09866666666666667, "grad_norm": 8.130317687988281, "learning_rate": 9.037967914438503e-06, "loss": 0.2825, "step": 18500 }, { "epoch": 0.0992, "grad_norm": 11.564924240112305, "learning_rate": 9.032620320855617e-06, "loss": 0.2942, "step": 18600 }, { "epoch": 0.09973333333333333, "grad_norm": 10.375117301940918, "learning_rate": 9.027272727272728e-06, "loss": 0.2911, "step": 18700 }, { "epoch": 0.10026666666666667, "grad_norm": 7.555624961853027, "learning_rate": 9.02192513368984e-06, "loss": 0.2822, "step": 18800 }, { "epoch": 0.1008, "grad_norm": 12.56221866607666, "learning_rate": 9.016577540106952e-06, "loss": 0.2949, "step": 18900 }, { "epoch": 0.10133333333333333, "grad_norm": 5.384222030639648, "learning_rate": 9.011229946524065e-06, "loss": 0.2813, "step": 19000 }, { "epoch": 0.10186666666666666, "grad_norm": 5.165426254272461, "learning_rate": 9.005882352941177e-06, "loss": 0.2858, "step": 19100 }, { "epoch": 0.1024, "grad_norm": 8.68776798248291, "learning_rate": 9.000534759358289e-06, "loss": 0.2712, "step": 19200 }, { "epoch": 0.10293333333333334, "grad_norm": 9.408143043518066, "learning_rate": 8.995187165775403e-06, "loss": 0.3068, "step": 19300 }, { "epoch": 0.10346666666666667, "grad_norm": 7.019859313964844, "learning_rate": 8.989839572192514e-06, "loss": 0.2953, "step": 19400 }, { "epoch": 0.104, "grad_norm": 7.276281833648682, "learning_rate": 8.984491978609626e-06, "loss": 0.2883, "step": 19500 }, { "epoch": 0.10453333333333334, "grad_norm": 5.113330364227295, "learning_rate": 8.97914438502674e-06, "loss": 0.2971, "step": 19600 }, { "epoch": 0.10506666666666667, "grad_norm": 7.30579948425293, "learning_rate": 8.973796791443851e-06, "loss": 0.2899, "step": 19700 }, { "epoch": 0.1056, "grad_norm": 6.333628177642822, "learning_rate": 8.968502673796792e-06, "loss": 0.2904, "step": 19800 }, { "epoch": 0.10613333333333333, "grad_norm": 13.259885787963867, "learning_rate": 8.963155080213904e-06, "loss": 0.2824, "step": 19900 }, { "epoch": 0.10666666666666667, "grad_norm": 9.42149543762207, "learning_rate": 8.957807486631018e-06, "loss": 0.3131, "step": 20000 }, { "epoch": 0.1072, "grad_norm": 9.709293365478516, "learning_rate": 8.95245989304813e-06, "loss": 0.2832, "step": 20100 }, { "epoch": 0.10773333333333333, "grad_norm": 7.735283374786377, "learning_rate": 8.947112299465241e-06, "loss": 0.2878, "step": 20200 }, { "epoch": 0.10826666666666666, "grad_norm": 10.948144912719727, "learning_rate": 8.941764705882353e-06, "loss": 0.3114, "step": 20300 }, { "epoch": 0.1088, "grad_norm": 9.456254959106445, "learning_rate": 8.936417112299465e-06, "loss": 0.2828, "step": 20400 }, { "epoch": 0.10933333333333334, "grad_norm": 16.510723114013672, "learning_rate": 8.931069518716579e-06, "loss": 0.2885, "step": 20500 }, { "epoch": 0.10986666666666667, "grad_norm": 9.235220909118652, "learning_rate": 8.92577540106952e-06, "loss": 0.2818, "step": 20600 }, { "epoch": 0.1104, "grad_norm": 5.817870140075684, "learning_rate": 8.920427807486631e-06, "loss": 0.2837, "step": 20700 }, { "epoch": 0.11093333333333333, "grad_norm": 19.72788429260254, "learning_rate": 8.915080213903743e-06, "loss": 0.2917, "step": 20800 }, { "epoch": 0.11146666666666667, "grad_norm": 8.344571113586426, "learning_rate": 8.909732620320857e-06, "loss": 0.2824, "step": 20900 }, { "epoch": 0.112, "grad_norm": 4.659718036651611, "learning_rate": 8.904385026737968e-06, "loss": 0.2938, "step": 21000 }, { "epoch": 0.11253333333333333, "grad_norm": 6.766632080078125, "learning_rate": 8.89903743315508e-06, "loss": 0.2819, "step": 21100 }, { "epoch": 0.11306666666666666, "grad_norm": 12.202324867248535, "learning_rate": 8.893689839572194e-06, "loss": 0.3104, "step": 21200 }, { "epoch": 0.1136, "grad_norm": 5.588136196136475, "learning_rate": 8.888342245989306e-06, "loss": 0.2805, "step": 21300 }, { "epoch": 0.11413333333333334, "grad_norm": 5.664605140686035, "learning_rate": 8.882994652406417e-06, "loss": 0.2708, "step": 21400 }, { "epoch": 0.11466666666666667, "grad_norm": 8.890693664550781, "learning_rate": 8.87764705882353e-06, "loss": 0.3072, "step": 21500 }, { "epoch": 0.1152, "grad_norm": 6.507345199584961, "learning_rate": 8.872299465240643e-06, "loss": 0.2763, "step": 21600 }, { "epoch": 0.11573333333333333, "grad_norm": 10.62752628326416, "learning_rate": 8.866951871657755e-06, "loss": 0.2846, "step": 21700 }, { "epoch": 0.11626666666666667, "grad_norm": 8.774591445922852, "learning_rate": 8.861604278074866e-06, "loss": 0.2676, "step": 21800 }, { "epoch": 0.1168, "grad_norm": 8.119235038757324, "learning_rate": 8.85625668449198e-06, "loss": 0.2912, "step": 21900 }, { "epoch": 0.11733333333333333, "grad_norm": 7.337321758270264, "learning_rate": 8.850909090909092e-06, "loss": 0.2659, "step": 22000 }, { "epoch": 0.11786666666666666, "grad_norm": 6.945666790008545, "learning_rate": 8.845561497326203e-06, "loss": 0.3035, "step": 22100 }, { "epoch": 0.1184, "grad_norm": 5.8747382164001465, "learning_rate": 8.840213903743317e-06, "loss": 0.2646, "step": 22200 }, { "epoch": 0.11893333333333334, "grad_norm": 17.606157302856445, "learning_rate": 8.834866310160429e-06, "loss": 0.3014, "step": 22300 }, { "epoch": 0.11946666666666667, "grad_norm": 7.643381118774414, "learning_rate": 8.82951871657754e-06, "loss": 0.2825, "step": 22400 }, { "epoch": 0.12, "grad_norm": 6.041701793670654, "learning_rate": 8.824171122994654e-06, "loss": 0.3014, "step": 22500 }, { "epoch": 0.12053333333333334, "grad_norm": 7.059661865234375, "learning_rate": 8.818823529411766e-06, "loss": 0.2972, "step": 22600 }, { "epoch": 0.12106666666666667, "grad_norm": 8.363951683044434, "learning_rate": 8.813475935828878e-06, "loss": 0.2842, "step": 22700 }, { "epoch": 0.1216, "grad_norm": 3.5356202125549316, "learning_rate": 8.80812834224599e-06, "loss": 0.2786, "step": 22800 }, { "epoch": 0.12213333333333333, "grad_norm": 6.391851425170898, "learning_rate": 8.802780748663103e-06, "loss": 0.2895, "step": 22900 }, { "epoch": 0.12266666666666666, "grad_norm": 5.002861499786377, "learning_rate": 8.797433155080215e-06, "loss": 0.2768, "step": 23000 }, { "epoch": 0.1232, "grad_norm": 6.241265773773193, "learning_rate": 8.792085561497327e-06, "loss": 0.298, "step": 23100 }, { "epoch": 0.12373333333333333, "grad_norm": 6.658164978027344, "learning_rate": 8.78673796791444e-06, "loss": 0.2973, "step": 23200 }, { "epoch": 0.12426666666666666, "grad_norm": 12.678783416748047, "learning_rate": 8.781390374331552e-06, "loss": 0.2818, "step": 23300 }, { "epoch": 0.1248, "grad_norm": 2.670001745223999, "learning_rate": 8.776042780748664e-06, "loss": 0.2702, "step": 23400 }, { "epoch": 0.12533333333333332, "grad_norm": 3.68219256401062, "learning_rate": 8.770695187165777e-06, "loss": 0.2837, "step": 23500 }, { "epoch": 0.12586666666666665, "grad_norm": 5.860738754272461, "learning_rate": 8.765347593582887e-06, "loss": 0.2788, "step": 23600 }, { "epoch": 0.1264, "grad_norm": 15.789499282836914, "learning_rate": 8.76e-06, "loss": 0.2646, "step": 23700 }, { "epoch": 0.12693333333333334, "grad_norm": 7.953620433807373, "learning_rate": 8.754652406417113e-06, "loss": 0.3039, "step": 23800 }, { "epoch": 0.12746666666666667, "grad_norm": 13.38109302520752, "learning_rate": 8.749304812834224e-06, "loss": 0.2858, "step": 23900 }, { "epoch": 0.128, "grad_norm": 7.885402202606201, "learning_rate": 8.743957219251338e-06, "loss": 0.3064, "step": 24000 }, { "epoch": 0.128, "eval_test1_cer": 0.056688326237956534, "eval_test1_cer_norm": 0.04170768602780513, "eval_test1_loss": 0.2189711630344391, "eval_test1_runtime": 3403.4454, "eval_test1_samples_per_second": 0.735, "eval_test1_steps_per_second": 0.184, "eval_test1_wer": 0.17166681244351148, "eval_test1_wer_norm": 0.11253981706069727, "step": 24000 }, { "epoch": 0.128, "eval_test2_cer": 0.11683372531451823, "eval_test2_cer_norm": 0.0943019832661915, "eval_test2_loss": 0.3656894564628601, "eval_test2_runtime": 3472.1039, "eval_test2_samples_per_second": 0.72, "eval_test2_steps_per_second": 0.18, "eval_test2_wer": 0.25806820782787826, "eval_test2_wer_norm": 0.18980632592253036, "step": 24000 }, { "epoch": 0.12853333333333333, "grad_norm": 7.2635040283203125, "learning_rate": 8.73860962566845e-06, "loss": 0.276, "step": 24100 }, { "epoch": 0.12906666666666666, "grad_norm": 8.451517105102539, "learning_rate": 8.733262032085562e-06, "loss": 0.2904, "step": 24200 }, { "epoch": 0.1296, "grad_norm": 5.333487033843994, "learning_rate": 8.727914438502675e-06, "loss": 0.2712, "step": 24300 }, { "epoch": 0.13013333333333332, "grad_norm": 17.85532569885254, "learning_rate": 8.722566844919787e-06, "loss": 0.2805, "step": 24400 }, { "epoch": 0.13066666666666665, "grad_norm": 7.6419758796691895, "learning_rate": 8.717219251336899e-06, "loss": 0.269, "step": 24500 }, { "epoch": 0.1312, "grad_norm": 7.9910078048706055, "learning_rate": 8.711871657754012e-06, "loss": 0.2876, "step": 24600 }, { "epoch": 0.13173333333333334, "grad_norm": 10.937655448913574, "learning_rate": 8.706577540106953e-06, "loss": 0.2878, "step": 24700 }, { "epoch": 0.13226666666666667, "grad_norm": 7.8148345947265625, "learning_rate": 8.701229946524065e-06, "loss": 0.2803, "step": 24800 }, { "epoch": 0.1328, "grad_norm": 4.953359127044678, "learning_rate": 8.695882352941177e-06, "loss": 0.286, "step": 24900 }, { "epoch": 0.13333333333333333, "grad_norm": 7.3458991050720215, "learning_rate": 8.690534759358289e-06, "loss": 0.3046, "step": 25000 }, { "epoch": 0.13386666666666666, "grad_norm": 7.674342155456543, "learning_rate": 8.685187165775402e-06, "loss": 0.2593, "step": 25100 }, { "epoch": 0.1344, "grad_norm": 12.090248107910156, "learning_rate": 8.679839572192514e-06, "loss": 0.2935, "step": 25200 }, { "epoch": 0.13493333333333332, "grad_norm": 7.752098083496094, "learning_rate": 8.674491978609626e-06, "loss": 0.2768, "step": 25300 }, { "epoch": 0.13546666666666668, "grad_norm": 6.8453474044799805, "learning_rate": 8.66914438502674e-06, "loss": 0.2781, "step": 25400 }, { "epoch": 0.136, "grad_norm": 9.425925254821777, "learning_rate": 8.663796791443851e-06, "loss": 0.2765, "step": 25500 }, { "epoch": 0.13653333333333334, "grad_norm": 6.801234245300293, "learning_rate": 8.658449197860963e-06, "loss": 0.2769, "step": 25600 }, { "epoch": 0.13706666666666667, "grad_norm": 12.158049583435059, "learning_rate": 8.653101604278076e-06, "loss": 0.3139, "step": 25700 }, { "epoch": 0.1376, "grad_norm": 12.670071601867676, "learning_rate": 8.647754010695188e-06, "loss": 0.2759, "step": 25800 }, { "epoch": 0.13813333333333333, "grad_norm": 8.58122730255127, "learning_rate": 8.6424064171123e-06, "loss": 0.2911, "step": 25900 }, { "epoch": 0.13866666666666666, "grad_norm": 13.413337707519531, "learning_rate": 8.637058823529413e-06, "loss": 0.2859, "step": 26000 }, { "epoch": 0.1392, "grad_norm": 8.85180377960205, "learning_rate": 8.631711229946525e-06, "loss": 0.2774, "step": 26100 }, { "epoch": 0.13973333333333332, "grad_norm": 7.0328369140625, "learning_rate": 8.626363636363637e-06, "loss": 0.303, "step": 26200 }, { "epoch": 0.14026666666666668, "grad_norm": 5.400185585021973, "learning_rate": 8.62101604278075e-06, "loss": 0.2982, "step": 26300 }, { "epoch": 0.1408, "grad_norm": 7.797464847564697, "learning_rate": 8.61566844919786e-06, "loss": 0.2612, "step": 26400 }, { "epoch": 0.14133333333333334, "grad_norm": 3.955246925354004, "learning_rate": 8.610320855614974e-06, "loss": 0.2726, "step": 26500 }, { "epoch": 0.14186666666666667, "grad_norm": 7.731278896331787, "learning_rate": 8.604973262032086e-06, "loss": 0.3041, "step": 26600 }, { "epoch": 0.1424, "grad_norm": 8.174906730651855, "learning_rate": 8.599625668449198e-06, "loss": 0.283, "step": 26700 }, { "epoch": 0.14293333333333333, "grad_norm": 10.54250717163086, "learning_rate": 8.594331550802139e-06, "loss": 0.2933, "step": 26800 }, { "epoch": 0.14346666666666666, "grad_norm": 11.229060173034668, "learning_rate": 8.588983957219252e-06, "loss": 0.2924, "step": 26900 }, { "epoch": 0.144, "grad_norm": 8.028762817382812, "learning_rate": 8.583636363636364e-06, "loss": 0.2665, "step": 27000 }, { "epoch": 0.14453333333333335, "grad_norm": 6.858413219451904, "learning_rate": 8.578288770053476e-06, "loss": 0.2815, "step": 27100 }, { "epoch": 0.14506666666666668, "grad_norm": 9.571020126342773, "learning_rate": 8.57294117647059e-06, "loss": 0.2875, "step": 27200 }, { "epoch": 0.1456, "grad_norm": 8.27050495147705, "learning_rate": 8.567593582887701e-06, "loss": 0.2878, "step": 27300 }, { "epoch": 0.14613333333333334, "grad_norm": 7.658331394195557, "learning_rate": 8.562245989304813e-06, "loss": 0.256, "step": 27400 }, { "epoch": 0.14666666666666667, "grad_norm": 6.4952545166015625, "learning_rate": 8.556898395721925e-06, "loss": 0.2982, "step": 27500 }, { "epoch": 0.1472, "grad_norm": 17.4111328125, "learning_rate": 8.551550802139038e-06, "loss": 0.2782, "step": 27600 }, { "epoch": 0.14773333333333333, "grad_norm": 9.349753379821777, "learning_rate": 8.54620320855615e-06, "loss": 0.2846, "step": 27700 }, { "epoch": 0.14826666666666666, "grad_norm": 8.046141624450684, "learning_rate": 8.540855614973262e-06, "loss": 0.2577, "step": 27800 }, { "epoch": 0.1488, "grad_norm": 10.290559768676758, "learning_rate": 8.535508021390376e-06, "loss": 0.2699, "step": 27900 }, { "epoch": 0.14933333333333335, "grad_norm": 8.05453872680664, "learning_rate": 8.530160427807487e-06, "loss": 0.2502, "step": 28000 }, { "epoch": 0.14986666666666668, "grad_norm": 8.037001609802246, "learning_rate": 8.524812834224599e-06, "loss": 0.2764, "step": 28100 }, { "epoch": 0.1504, "grad_norm": 9.668282508850098, "learning_rate": 8.519465240641713e-06, "loss": 0.2885, "step": 28200 }, { "epoch": 0.15093333333333334, "grad_norm": 12.611298561096191, "learning_rate": 8.514117647058824e-06, "loss": 0.2873, "step": 28300 }, { "epoch": 0.15146666666666667, "grad_norm": 10.143949508666992, "learning_rate": 8.508770053475936e-06, "loss": 0.3002, "step": 28400 }, { "epoch": 0.152, "grad_norm": 6.071731090545654, "learning_rate": 8.50342245989305e-06, "loss": 0.2791, "step": 28500 }, { "epoch": 0.15253333333333333, "grad_norm": 4.4905476570129395, "learning_rate": 8.498074866310162e-06, "loss": 0.2635, "step": 28600 }, { "epoch": 0.15306666666666666, "grad_norm": 15.34849739074707, "learning_rate": 8.492727272727273e-06, "loss": 0.2652, "step": 28700 }, { "epoch": 0.1536, "grad_norm": 11.22714900970459, "learning_rate": 8.487433155080214e-06, "loss": 0.2722, "step": 28800 }, { "epoch": 0.15413333333333334, "grad_norm": 9.875467300415039, "learning_rate": 8.482085561497328e-06, "loss": 0.2535, "step": 28900 }, { "epoch": 0.15466666666666667, "grad_norm": 6.6169209480285645, "learning_rate": 8.47673796791444e-06, "loss": 0.2635, "step": 29000 }, { "epoch": 0.1552, "grad_norm": 5.392930507659912, "learning_rate": 8.471390374331551e-06, "loss": 0.2721, "step": 29100 }, { "epoch": 0.15573333333333333, "grad_norm": 8.03115177154541, "learning_rate": 8.466042780748663e-06, "loss": 0.2616, "step": 29200 }, { "epoch": 0.15626666666666666, "grad_norm": 19.12259864807129, "learning_rate": 8.460695187165777e-06, "loss": 0.3001, "step": 29300 }, { "epoch": 0.1568, "grad_norm": 12.231781959533691, "learning_rate": 8.455347593582889e-06, "loss": 0.2785, "step": 29400 }, { "epoch": 0.15733333333333333, "grad_norm": 7.679755210876465, "learning_rate": 8.45e-06, "loss": 0.2549, "step": 29500 }, { "epoch": 0.15786666666666666, "grad_norm": 3.551255702972412, "learning_rate": 8.444652406417114e-06, "loss": 0.2805, "step": 29600 }, { "epoch": 0.1584, "grad_norm": 4.727227687835693, "learning_rate": 8.439304812834224e-06, "loss": 0.2878, "step": 29700 }, { "epoch": 0.15893333333333334, "grad_norm": 6.836880683898926, "learning_rate": 8.433957219251338e-06, "loss": 0.2751, "step": 29800 }, { "epoch": 0.15946666666666667, "grad_norm": 5.805592060089111, "learning_rate": 8.428609625668451e-06, "loss": 0.2778, "step": 29900 }, { "epoch": 0.16, "grad_norm": 9.587907791137695, "learning_rate": 8.423262032085561e-06, "loss": 0.264, "step": 30000 }, { "epoch": 0.16053333333333333, "grad_norm": 7.757845401763916, "learning_rate": 8.417914438502675e-06, "loss": 0.2832, "step": 30100 }, { "epoch": 0.16106666666666666, "grad_norm": 10.424938201904297, "learning_rate": 8.412566844919786e-06, "loss": 0.2775, "step": 30200 }, { "epoch": 0.1616, "grad_norm": 7.460334300994873, "learning_rate": 8.407219251336898e-06, "loss": 0.2647, "step": 30300 }, { "epoch": 0.16213333333333332, "grad_norm": 11.868377685546875, "learning_rate": 8.401871657754012e-06, "loss": 0.2967, "step": 30400 }, { "epoch": 0.16266666666666665, "grad_norm": 7.605123996734619, "learning_rate": 8.396524064171124e-06, "loss": 0.2786, "step": 30500 }, { "epoch": 0.1632, "grad_norm": 11.032571792602539, "learning_rate": 8.391176470588235e-06, "loss": 0.2905, "step": 30600 }, { "epoch": 0.16373333333333334, "grad_norm": 6.505698204040527, "learning_rate": 8.385828877005349e-06, "loss": 0.26, "step": 30700 }, { "epoch": 0.16426666666666667, "grad_norm": 21.82847785949707, "learning_rate": 8.38053475935829e-06, "loss": 0.276, "step": 30800 }, { "epoch": 0.1648, "grad_norm": 7.524346828460693, "learning_rate": 8.375187165775402e-06, "loss": 0.2545, "step": 30900 }, { "epoch": 0.16533333333333333, "grad_norm": 8.151107788085938, "learning_rate": 8.369839572192514e-06, "loss": 0.2599, "step": 31000 }, { "epoch": 0.16586666666666666, "grad_norm": 7.730149745941162, "learning_rate": 8.364491978609627e-06, "loss": 0.2635, "step": 31100 }, { "epoch": 0.1664, "grad_norm": 15.542197227478027, "learning_rate": 8.359144385026739e-06, "loss": 0.2994, "step": 31200 }, { "epoch": 0.16693333333333332, "grad_norm": 10.223877906799316, "learning_rate": 8.35379679144385e-06, "loss": 0.2672, "step": 31300 }, { "epoch": 0.16746666666666668, "grad_norm": 11.557316780090332, "learning_rate": 8.348449197860962e-06, "loss": 0.2682, "step": 31400 }, { "epoch": 0.168, "grad_norm": 6.820634841918945, "learning_rate": 8.343101604278076e-06, "loss": 0.2639, "step": 31500 }, { "epoch": 0.16853333333333334, "grad_norm": 5.330442428588867, "learning_rate": 8.337754010695188e-06, "loss": 0.2787, "step": 31600 }, { "epoch": 0.16906666666666667, "grad_norm": 6.809030055999756, "learning_rate": 8.3324064171123e-06, "loss": 0.2797, "step": 31700 }, { "epoch": 0.1696, "grad_norm": 9.49699592590332, "learning_rate": 8.327058823529413e-06, "loss": 0.2712, "step": 31800 }, { "epoch": 0.17013333333333333, "grad_norm": 7.521222114562988, "learning_rate": 8.321711229946525e-06, "loss": 0.2624, "step": 31900 }, { "epoch": 0.17066666666666666, "grad_norm": 7.700057506561279, "learning_rate": 8.316363636363637e-06, "loss": 0.2585, "step": 32000 }, { "epoch": 0.1712, "grad_norm": 12.368854522705078, "learning_rate": 8.31101604278075e-06, "loss": 0.2913, "step": 32100 }, { "epoch": 0.17173333333333332, "grad_norm": 6.247579097747803, "learning_rate": 8.305668449197862e-06, "loss": 0.2683, "step": 32200 }, { "epoch": 0.17226666666666668, "grad_norm": 7.382602214813232, "learning_rate": 8.300320855614974e-06, "loss": 0.2884, "step": 32300 }, { "epoch": 0.1728, "grad_norm": 11.26830768585205, "learning_rate": 8.294973262032087e-06, "loss": 0.2627, "step": 32400 }, { "epoch": 0.17333333333333334, "grad_norm": 9.605709075927734, "learning_rate": 8.289625668449199e-06, "loss": 0.2521, "step": 32500 }, { "epoch": 0.17386666666666667, "grad_norm": 7.965850353240967, "learning_rate": 8.284278074866311e-06, "loss": 0.2863, "step": 32600 }, { "epoch": 0.1744, "grad_norm": 4.432257652282715, "learning_rate": 8.278930481283423e-06, "loss": 0.2791, "step": 32700 }, { "epoch": 0.17493333333333333, "grad_norm": 9.002232551574707, "learning_rate": 8.273582887700535e-06, "loss": 0.2985, "step": 32800 }, { "epoch": 0.17546666666666666, "grad_norm": 7.131585121154785, "learning_rate": 8.268288770053477e-06, "loss": 0.2853, "step": 32900 }, { "epoch": 0.176, "grad_norm": 7.467723369598389, "learning_rate": 8.262941176470589e-06, "loss": 0.2757, "step": 33000 }, { "epoch": 0.17653333333333332, "grad_norm": 16.1607608795166, "learning_rate": 8.257593582887701e-06, "loss": 0.2767, "step": 33100 }, { "epoch": 0.17706666666666668, "grad_norm": 4.987593173980713, "learning_rate": 8.252245989304813e-06, "loss": 0.2656, "step": 33200 }, { "epoch": 0.1776, "grad_norm": 10.976223945617676, "learning_rate": 8.246898395721926e-06, "loss": 0.2904, "step": 33300 }, { "epoch": 0.17813333333333334, "grad_norm": 4.487320899963379, "learning_rate": 8.241550802139038e-06, "loss": 0.2948, "step": 33400 }, { "epoch": 0.17866666666666667, "grad_norm": 7.877579689025879, "learning_rate": 8.23620320855615e-06, "loss": 0.2569, "step": 33500 }, { "epoch": 0.1792, "grad_norm": 5.502078056335449, "learning_rate": 8.230855614973263e-06, "loss": 0.2598, "step": 33600 }, { "epoch": 0.17973333333333333, "grad_norm": 7.97207498550415, "learning_rate": 8.225508021390375e-06, "loss": 0.3035, "step": 33700 }, { "epoch": 0.18026666666666666, "grad_norm": 5.51037073135376, "learning_rate": 8.220160427807487e-06, "loss": 0.3264, "step": 33800 }, { "epoch": 0.1808, "grad_norm": 7.9695916175842285, "learning_rate": 8.214812834224599e-06, "loss": 0.3119, "step": 33900 }, { "epoch": 0.18133333333333335, "grad_norm": 10.134864807128906, "learning_rate": 8.209465240641712e-06, "loss": 0.2653, "step": 34000 }, { "epoch": 0.18186666666666668, "grad_norm": 9.577049255371094, "learning_rate": 8.204117647058824e-06, "loss": 0.2446, "step": 34100 }, { "epoch": 0.1824, "grad_norm": 7.078160762786865, "learning_rate": 8.198770053475936e-06, "loss": 0.2704, "step": 34200 }, { "epoch": 0.18293333333333334, "grad_norm": 9.570262908935547, "learning_rate": 8.19342245989305e-06, "loss": 0.3154, "step": 34300 }, { "epoch": 0.18346666666666667, "grad_norm": 6.36837100982666, "learning_rate": 8.188074866310161e-06, "loss": 0.2573, "step": 34400 }, { "epoch": 0.184, "grad_norm": 8.495996475219727, "learning_rate": 8.182727272727273e-06, "loss": 0.2571, "step": 34500 }, { "epoch": 0.18453333333333333, "grad_norm": 7.449936866760254, "learning_rate": 8.177379679144386e-06, "loss": 0.267, "step": 34600 }, { "epoch": 0.18506666666666666, "grad_norm": 6.637203693389893, "learning_rate": 8.172032085561498e-06, "loss": 0.2804, "step": 34700 }, { "epoch": 0.1856, "grad_norm": 6.406391620635986, "learning_rate": 8.16668449197861e-06, "loss": 0.2601, "step": 34800 }, { "epoch": 0.18613333333333335, "grad_norm": 10.608270645141602, "learning_rate": 8.161390374331551e-06, "loss": 0.2597, "step": 34900 }, { "epoch": 0.18666666666666668, "grad_norm": 5.937348365783691, "learning_rate": 8.156042780748665e-06, "loss": 0.3085, "step": 35000 }, { "epoch": 0.1872, "grad_norm": 9.441184997558594, "learning_rate": 8.150695187165776e-06, "loss": 0.2715, "step": 35100 }, { "epoch": 0.18773333333333334, "grad_norm": 9.651723861694336, "learning_rate": 8.145347593582888e-06, "loss": 0.2574, "step": 35200 }, { "epoch": 0.18826666666666667, "grad_norm": 4.383264064788818, "learning_rate": 8.14e-06, "loss": 0.2742, "step": 35300 }, { "epoch": 0.1888, "grad_norm": 8.176637649536133, "learning_rate": 8.134652406417113e-06, "loss": 0.2828, "step": 35400 }, { "epoch": 0.18933333333333333, "grad_norm": 9.936506271362305, "learning_rate": 8.129304812834225e-06, "loss": 0.2595, "step": 35500 }, { "epoch": 0.18986666666666666, "grad_norm": 10.968295097351074, "learning_rate": 8.123957219251337e-06, "loss": 0.2655, "step": 35600 }, { "epoch": 0.1904, "grad_norm": 7.786266326904297, "learning_rate": 8.11860962566845e-06, "loss": 0.2553, "step": 35700 }, { "epoch": 0.19093333333333334, "grad_norm": 10.690455436706543, "learning_rate": 8.113262032085562e-06, "loss": 0.2688, "step": 35800 }, { "epoch": 0.19146666666666667, "grad_norm": 5.9381303787231445, "learning_rate": 8.107914438502674e-06, "loss": 0.2506, "step": 35900 }, { "epoch": 0.192, "grad_norm": 7.713047027587891, "learning_rate": 8.102566844919788e-06, "loss": 0.2627, "step": 36000 }, { "epoch": 0.192, "eval_test1_cer": 0.06722869519755023, "eval_test1_cer_norm": 0.048579729632386486, "eval_test1_loss": 0.21224865317344666, "eval_test1_runtime": 3451.8535, "eval_test1_samples_per_second": 0.724, "eval_test1_steps_per_second": 0.181, "eval_test1_wer": 0.18181288084200706, "eval_test1_wer_norm": 0.12060551155790643, "step": 36000 }, { "epoch": 0.192, "eval_test2_cer": 0.11298391010564826, "eval_test2_cer_norm": 0.08924697861791138, "eval_test2_loss": 0.3581894040107727, "eval_test2_runtime": 2533.4413, "eval_test2_samples_per_second": 0.987, "eval_test2_steps_per_second": 0.247, "eval_test2_wer": 0.2504005493247883, "eval_test2_wer_norm": 0.18121132248452898, "step": 36000 }, { "epoch": 0.19253333333333333, "grad_norm": 8.989605903625488, "learning_rate": 8.097326203208556e-06, "loss": 0.2684, "step": 36100 }, { "epoch": 0.19306666666666666, "grad_norm": 6.126492500305176, "learning_rate": 8.09197860962567e-06, "loss": 0.2525, "step": 36200 }, { "epoch": 0.1936, "grad_norm": 7.977939605712891, "learning_rate": 8.086631016042782e-06, "loss": 0.2571, "step": 36300 }, { "epoch": 0.19413333333333332, "grad_norm": 7.411888599395752, "learning_rate": 8.081283422459893e-06, "loss": 0.2794, "step": 36400 }, { "epoch": 0.19466666666666665, "grad_norm": 5.520147323608398, "learning_rate": 8.075935828877007e-06, "loss": 0.2784, "step": 36500 }, { "epoch": 0.1952, "grad_norm": 12.398720741271973, "learning_rate": 8.070588235294117e-06, "loss": 0.2725, "step": 36600 }, { "epoch": 0.19573333333333334, "grad_norm": 8.083142280578613, "learning_rate": 8.06524064171123e-06, "loss": 0.2697, "step": 36700 }, { "epoch": 0.19626666666666667, "grad_norm": 8.488286018371582, "learning_rate": 8.059893048128344e-06, "loss": 0.2637, "step": 36800 }, { "epoch": 0.1968, "grad_norm": 5.34746789932251, "learning_rate": 8.054545454545454e-06, "loss": 0.2303, "step": 36900 }, { "epoch": 0.19733333333333333, "grad_norm": 10.905135154724121, "learning_rate": 8.049197860962568e-06, "loss": 0.2808, "step": 37000 }, { "epoch": 0.19786666666666666, "grad_norm": 37.82217788696289, "learning_rate": 8.043850267379681e-06, "loss": 0.2689, "step": 37100 }, { "epoch": 0.1984, "grad_norm": 5.379877090454102, "learning_rate": 8.038502673796791e-06, "loss": 0.2736, "step": 37200 }, { "epoch": 0.19893333333333332, "grad_norm": 9.249605178833008, "learning_rate": 8.033155080213905e-06, "loss": 0.2983, "step": 37300 }, { "epoch": 0.19946666666666665, "grad_norm": 6.685795307159424, "learning_rate": 8.027807486631017e-06, "loss": 0.2679, "step": 37400 }, { "epoch": 0.2, "grad_norm": 12.158673286437988, "learning_rate": 8.022459893048128e-06, "loss": 0.2548, "step": 37500 }, { "epoch": 0.20053333333333334, "grad_norm": 4.999497890472412, "learning_rate": 8.017112299465242e-06, "loss": 0.2855, "step": 37600 }, { "epoch": 0.20106666666666667, "grad_norm": 4.816391944885254, "learning_rate": 8.011764705882354e-06, "loss": 0.2618, "step": 37700 }, { "epoch": 0.2016, "grad_norm": 5.326049327850342, "learning_rate": 8.006417112299465e-06, "loss": 0.2499, "step": 37800 }, { "epoch": 0.20213333333333333, "grad_norm": 5.829368591308594, "learning_rate": 8.001069518716577e-06, "loss": 0.2591, "step": 37900 }, { "epoch": 0.20266666666666666, "grad_norm": 4.144918441772461, "learning_rate": 7.99572192513369e-06, "loss": 0.2849, "step": 38000 }, { "epoch": 0.2032, "grad_norm": 7.482222557067871, "learning_rate": 7.990427807486632e-06, "loss": 0.2746, "step": 38100 }, { "epoch": 0.20373333333333332, "grad_norm": 9.600530624389648, "learning_rate": 7.985080213903744e-06, "loss": 0.2601, "step": 38200 }, { "epoch": 0.20426666666666668, "grad_norm": 13.560813903808594, "learning_rate": 7.979732620320855e-06, "loss": 0.2648, "step": 38300 }, { "epoch": 0.2048, "grad_norm": 5.258291244506836, "learning_rate": 7.974385026737969e-06, "loss": 0.2659, "step": 38400 }, { "epoch": 0.20533333333333334, "grad_norm": 11.634020805358887, "learning_rate": 7.96903743315508e-06, "loss": 0.2756, "step": 38500 }, { "epoch": 0.20586666666666667, "grad_norm": 8.456674575805664, "learning_rate": 7.963689839572193e-06, "loss": 0.2656, "step": 38600 }, { "epoch": 0.2064, "grad_norm": 6.592522144317627, "learning_rate": 7.958342245989306e-06, "loss": 0.2794, "step": 38700 }, { "epoch": 0.20693333333333333, "grad_norm": 7.008397579193115, "learning_rate": 7.952994652406418e-06, "loss": 0.2704, "step": 38800 }, { "epoch": 0.20746666666666666, "grad_norm": 10.186330795288086, "learning_rate": 7.94764705882353e-06, "loss": 0.2594, "step": 38900 }, { "epoch": 0.208, "grad_norm": 4.801316738128662, "learning_rate": 7.942299465240643e-06, "loss": 0.2805, "step": 39000 }, { "epoch": 0.20853333333333332, "grad_norm": 10.436062812805176, "learning_rate": 7.937005347593584e-06, "loss": 0.25, "step": 39100 }, { "epoch": 0.20906666666666668, "grad_norm": 8.204721450805664, "learning_rate": 7.931657754010696e-06, "loss": 0.2602, "step": 39200 }, { "epoch": 0.2096, "grad_norm": 3.6361401081085205, "learning_rate": 7.926310160427808e-06, "loss": 0.2784, "step": 39300 }, { "epoch": 0.21013333333333334, "grad_norm": 11.787166595458984, "learning_rate": 7.920962566844921e-06, "loss": 0.2349, "step": 39400 }, { "epoch": 0.21066666666666667, "grad_norm": 7.302659034729004, "learning_rate": 7.915614973262033e-06, "loss": 0.2693, "step": 39500 }, { "epoch": 0.2112, "grad_norm": 5.914216995239258, "learning_rate": 7.910267379679145e-06, "loss": 0.262, "step": 39600 }, { "epoch": 0.21173333333333333, "grad_norm": 6.580228805541992, "learning_rate": 7.904919786096258e-06, "loss": 0.2625, "step": 39700 }, { "epoch": 0.21226666666666666, "grad_norm": 5.3296895027160645, "learning_rate": 7.89957219251337e-06, "loss": 0.3096, "step": 39800 }, { "epoch": 0.2128, "grad_norm": 5.3993611335754395, "learning_rate": 7.894224598930482e-06, "loss": 0.2748, "step": 39900 }, { "epoch": 0.21333333333333335, "grad_norm": 7.423980712890625, "learning_rate": 7.888877005347594e-06, "loss": 0.2645, "step": 40000 }, { "epoch": 0.21386666666666668, "grad_norm": 6.928915500640869, "learning_rate": 7.883529411764707e-06, "loss": 0.2645, "step": 40100 }, { "epoch": 0.2144, "grad_norm": 5.3842926025390625, "learning_rate": 7.878181818181819e-06, "loss": 0.2756, "step": 40200 }, { "epoch": 0.21493333333333334, "grad_norm": 8.132807731628418, "learning_rate": 7.872834224598931e-06, "loss": 0.2909, "step": 40300 }, { "epoch": 0.21546666666666667, "grad_norm": 6.687395095825195, "learning_rate": 7.867486631016043e-06, "loss": 0.2496, "step": 40400 }, { "epoch": 0.216, "grad_norm": 7.171559810638428, "learning_rate": 7.862139037433155e-06, "loss": 0.2699, "step": 40500 }, { "epoch": 0.21653333333333333, "grad_norm": 6.284967422485352, "learning_rate": 7.856791443850268e-06, "loss": 0.2927, "step": 40600 }, { "epoch": 0.21706666666666666, "grad_norm": 11.112295150756836, "learning_rate": 7.85144385026738e-06, "loss": 0.259, "step": 40700 }, { "epoch": 0.2176, "grad_norm": 4.101443767547607, "learning_rate": 7.846096256684492e-06, "loss": 0.2513, "step": 40800 }, { "epoch": 0.21813333333333335, "grad_norm": 4.001233100891113, "learning_rate": 7.840748663101605e-06, "loss": 0.239, "step": 40900 }, { "epoch": 0.21866666666666668, "grad_norm": 6.338074684143066, "learning_rate": 7.835401069518717e-06, "loss": 0.268, "step": 41000 }, { "epoch": 0.2192, "grad_norm": 10.399909019470215, "learning_rate": 7.830053475935829e-06, "loss": 0.2728, "step": 41100 }, { "epoch": 0.21973333333333334, "grad_norm": 7.166001319885254, "learning_rate": 7.824705882352942e-06, "loss": 0.2638, "step": 41200 }, { "epoch": 0.22026666666666667, "grad_norm": 10.088705062866211, "learning_rate": 7.819358288770054e-06, "loss": 0.2718, "step": 41300 }, { "epoch": 0.2208, "grad_norm": 7.588458061218262, "learning_rate": 7.814010695187166e-06, "loss": 0.2637, "step": 41400 }, { "epoch": 0.22133333333333333, "grad_norm": 4.587561130523682, "learning_rate": 7.80866310160428e-06, "loss": 0.2531, "step": 41500 }, { "epoch": 0.22186666666666666, "grad_norm": 8.545364379882812, "learning_rate": 7.803315508021391e-06, "loss": 0.2621, "step": 41600 }, { "epoch": 0.2224, "grad_norm": 11.028148651123047, "learning_rate": 7.797967914438503e-06, "loss": 0.2478, "step": 41700 }, { "epoch": 0.22293333333333334, "grad_norm": 8.601099014282227, "learning_rate": 7.792620320855617e-06, "loss": 0.2509, "step": 41800 }, { "epoch": 0.22346666666666667, "grad_norm": 11.704299926757812, "learning_rate": 7.787272727272728e-06, "loss": 0.266, "step": 41900 }, { "epoch": 0.224, "grad_norm": 5.130448818206787, "learning_rate": 7.78192513368984e-06, "loss": 0.239, "step": 42000 }, { "epoch": 0.22453333333333333, "grad_norm": 13.525137901306152, "learning_rate": 7.776577540106952e-06, "loss": 0.2577, "step": 42100 }, { "epoch": 0.22506666666666666, "grad_norm": 4.291294097900391, "learning_rate": 7.771229946524065e-06, "loss": 0.2621, "step": 42200 }, { "epoch": 0.2256, "grad_norm": 8.920354843139648, "learning_rate": 7.765882352941177e-06, "loss": 0.2734, "step": 42300 }, { "epoch": 0.22613333333333333, "grad_norm": 7.21345329284668, "learning_rate": 7.760534759358289e-06, "loss": 0.2455, "step": 42400 }, { "epoch": 0.22666666666666666, "grad_norm": 5.777073860168457, "learning_rate": 7.755187165775403e-06, "loss": 0.2431, "step": 42500 }, { "epoch": 0.2272, "grad_norm": 3.1440110206604004, "learning_rate": 7.749839572192513e-06, "loss": 0.289, "step": 42600 }, { "epoch": 0.22773333333333334, "grad_norm": 8.806645393371582, "learning_rate": 7.744491978609626e-06, "loss": 0.2611, "step": 42700 }, { "epoch": 0.22826666666666667, "grad_norm": 6.029832363128662, "learning_rate": 7.73914438502674e-06, "loss": 0.2395, "step": 42800 }, { "epoch": 0.2288, "grad_norm": 4.202763080596924, "learning_rate": 7.73379679144385e-06, "loss": 0.2827, "step": 42900 }, { "epoch": 0.22933333333333333, "grad_norm": 4.311319828033447, "learning_rate": 7.728449197860963e-06, "loss": 0.2626, "step": 43000 }, { "epoch": 0.22986666666666666, "grad_norm": 6.745094299316406, "learning_rate": 7.723155080213904e-06, "loss": 0.2647, "step": 43100 }, { "epoch": 0.2304, "grad_norm": 5.881346702575684, "learning_rate": 7.717807486631018e-06, "loss": 0.2589, "step": 43200 }, { "epoch": 0.23093333333333332, "grad_norm": 10.707880020141602, "learning_rate": 7.712459893048128e-06, "loss": 0.2731, "step": 43300 }, { "epoch": 0.23146666666666665, "grad_norm": 9.339863777160645, "learning_rate": 7.707112299465241e-06, "loss": 0.2621, "step": 43400 }, { "epoch": 0.232, "grad_norm": 6.621342182159424, "learning_rate": 7.701764705882353e-06, "loss": 0.2576, "step": 43500 }, { "epoch": 0.23253333333333334, "grad_norm": 8.916592597961426, "learning_rate": 7.696417112299465e-06, "loss": 0.2634, "step": 43600 }, { "epoch": 0.23306666666666667, "grad_norm": 8.767768859863281, "learning_rate": 7.691122994652406e-06, "loss": 0.2491, "step": 43700 }, { "epoch": 0.2336, "grad_norm": 6.982480049133301, "learning_rate": 7.68577540106952e-06, "loss": 0.2484, "step": 43800 }, { "epoch": 0.23413333333333333, "grad_norm": 4.885166645050049, "learning_rate": 7.680427807486631e-06, "loss": 0.2526, "step": 43900 }, { "epoch": 0.23466666666666666, "grad_norm": 5.634835720062256, "learning_rate": 7.675080213903743e-06, "loss": 0.2609, "step": 44000 }, { "epoch": 0.2352, "grad_norm": 7.136926651000977, "learning_rate": 7.669732620320857e-06, "loss": 0.2624, "step": 44100 }, { "epoch": 0.23573333333333332, "grad_norm": 9.312456130981445, "learning_rate": 7.664385026737969e-06, "loss": 0.2499, "step": 44200 }, { "epoch": 0.23626666666666668, "grad_norm": 4.304506301879883, "learning_rate": 7.65903743315508e-06, "loss": 0.2753, "step": 44300 }, { "epoch": 0.2368, "grad_norm": 8.639429092407227, "learning_rate": 7.653689839572194e-06, "loss": 0.2337, "step": 44400 }, { "epoch": 0.23733333333333334, "grad_norm": 4.497452735900879, "learning_rate": 7.648342245989306e-06, "loss": 0.2637, "step": 44500 }, { "epoch": 0.23786666666666667, "grad_norm": 6.968878746032715, "learning_rate": 7.642994652406417e-06, "loss": 0.2645, "step": 44600 }, { "epoch": 0.2384, "grad_norm": 9.0714111328125, "learning_rate": 7.63764705882353e-06, "loss": 0.267, "step": 44700 }, { "epoch": 0.23893333333333333, "grad_norm": 7.511080265045166, "learning_rate": 7.632299465240643e-06, "loss": 0.2824, "step": 44800 }, { "epoch": 0.23946666666666666, "grad_norm": 12.698909759521484, "learning_rate": 7.626951871657755e-06, "loss": 0.2597, "step": 44900 }, { "epoch": 0.24, "grad_norm": 4.6719231605529785, "learning_rate": 7.621604278074866e-06, "loss": 0.2567, "step": 45000 }, { "epoch": 0.24053333333333332, "grad_norm": 10.959760665893555, "learning_rate": 7.616256684491979e-06, "loss": 0.2644, "step": 45100 }, { "epoch": 0.24106666666666668, "grad_norm": 11.713591575622559, "learning_rate": 7.610909090909091e-06, "loss": 0.2699, "step": 45200 }, { "epoch": 0.2416, "grad_norm": 9.173677444458008, "learning_rate": 7.6055614973262035e-06, "loss": 0.2638, "step": 45300 }, { "epoch": 0.24213333333333334, "grad_norm": 3.990912437438965, "learning_rate": 7.600213903743316e-06, "loss": 0.2692, "step": 45400 }, { "epoch": 0.24266666666666667, "grad_norm": 4.965495586395264, "learning_rate": 7.594866310160428e-06, "loss": 0.2733, "step": 45500 }, { "epoch": 0.2432, "grad_norm": 6.309865474700928, "learning_rate": 7.589518716577541e-06, "loss": 0.2627, "step": 45600 }, { "epoch": 0.24373333333333333, "grad_norm": 9.450363159179688, "learning_rate": 7.584171122994653e-06, "loss": 0.2411, "step": 45700 }, { "epoch": 0.24426666666666666, "grad_norm": 7.514124870300293, "learning_rate": 7.578823529411765e-06, "loss": 0.2635, "step": 45800 }, { "epoch": 0.2448, "grad_norm": 8.38068675994873, "learning_rate": 7.573475935828878e-06, "loss": 0.2546, "step": 45900 }, { "epoch": 0.24533333333333332, "grad_norm": 6.333799839019775, "learning_rate": 7.5681283422459895e-06, "loss": 0.2621, "step": 46000 }, { "epoch": 0.24586666666666668, "grad_norm": 4.770801067352295, "learning_rate": 7.562780748663102e-06, "loss": 0.2536, "step": 46100 }, { "epoch": 0.2464, "grad_norm": 9.277158737182617, "learning_rate": 7.557433155080215e-06, "loss": 0.2488, "step": 46200 }, { "epoch": 0.24693333333333334, "grad_norm": 6.849668025970459, "learning_rate": 7.552085561497327e-06, "loss": 0.2442, "step": 46300 }, { "epoch": 0.24746666666666667, "grad_norm": 6.742866039276123, "learning_rate": 7.546737967914439e-06, "loss": 0.2532, "step": 46400 }, { "epoch": 0.248, "grad_norm": 5.20062255859375, "learning_rate": 7.541390374331552e-06, "loss": 0.2324, "step": 46500 }, { "epoch": 0.24853333333333333, "grad_norm": 7.082762241363525, "learning_rate": 7.536042780748664e-06, "loss": 0.2389, "step": 46600 }, { "epoch": 0.24906666666666666, "grad_norm": 6.580595016479492, "learning_rate": 7.530748663101605e-06, "loss": 0.2404, "step": 46700 }, { "epoch": 0.2496, "grad_norm": 6.02461576461792, "learning_rate": 7.525401069518717e-06, "loss": 0.2311, "step": 46800 }, { "epoch": 0.2501333333333333, "grad_norm": 9.128799438476562, "learning_rate": 7.520053475935829e-06, "loss": 0.2671, "step": 46900 }, { "epoch": 0.25066666666666665, "grad_norm": 7.6499176025390625, "learning_rate": 7.514705882352942e-06, "loss": 0.2827, "step": 47000 }, { "epoch": 0.2512, "grad_norm": 5.189141750335693, "learning_rate": 7.5093582887700545e-06, "loss": 0.2772, "step": 47100 }, { "epoch": 0.2517333333333333, "grad_norm": 2.921614646911621, "learning_rate": 7.504010695187166e-06, "loss": 0.2529, "step": 47200 }, { "epoch": 0.25226666666666664, "grad_norm": 5.379766464233398, "learning_rate": 7.498663101604279e-06, "loss": 0.2686, "step": 47300 }, { "epoch": 0.2528, "grad_norm": 8.935833930969238, "learning_rate": 7.493315508021392e-06, "loss": 0.2749, "step": 47400 }, { "epoch": 0.25333333333333335, "grad_norm": 3.2737069129943848, "learning_rate": 7.4879679144385035e-06, "loss": 0.2568, "step": 47500 }, { "epoch": 0.2538666666666667, "grad_norm": 5.399988174438477, "learning_rate": 7.482620320855616e-06, "loss": 0.2486, "step": 47600 }, { "epoch": 0.2544, "grad_norm": 3.295328140258789, "learning_rate": 7.477272727272727e-06, "loss": 0.2491, "step": 47700 }, { "epoch": 0.25493333333333335, "grad_norm": 7.704295635223389, "learning_rate": 7.4719251336898406e-06, "loss": 0.2614, "step": 47800 }, { "epoch": 0.2554666666666667, "grad_norm": 8.313345909118652, "learning_rate": 7.466577540106953e-06, "loss": 0.2443, "step": 47900 }, { "epoch": 0.256, "grad_norm": 10.263618469238281, "learning_rate": 7.461229946524064e-06, "loss": 0.2598, "step": 48000 }, { "epoch": 0.256, "eval_test1_cer": 0.06406845171409366, "eval_test1_cer_norm": 0.046389896030926595, "eval_test1_loss": 0.20114459097385406, "eval_test1_runtime": 1160.7245, "eval_test1_samples_per_second": 2.154, "eval_test1_steps_per_second": 0.538, "eval_test1_wer": 0.1776145077115951, "eval_test1_wer_norm": 0.11590052310120108, "step": 48000 }, { "epoch": 0.256, "eval_test2_cer": 0.10878877813864934, "eval_test2_cer_norm": 0.08511678803842579, "eval_test2_loss": 0.3450477719306946, "eval_test2_runtime": 1169.2086, "eval_test2_samples_per_second": 2.138, "eval_test2_steps_per_second": 0.535, "eval_test2_wer": 0.24336232547493705, "eval_test2_wer_norm": 0.17462181984872793, "step": 48000 }, { "epoch": 0.25653333333333334, "grad_norm": 8.79861068725586, "learning_rate": 7.455882352941177e-06, "loss": 0.2572, "step": 48100 }, { "epoch": 0.25706666666666667, "grad_norm": 6.643956661224365, "learning_rate": 7.450534759358289e-06, "loss": 0.2631, "step": 48200 }, { "epoch": 0.2576, "grad_norm": 8.30817699432373, "learning_rate": 7.445187165775401e-06, "loss": 0.232, "step": 48300 }, { "epoch": 0.2581333333333333, "grad_norm": 9.270723342895508, "learning_rate": 7.439839572192514e-06, "loss": 0.2518, "step": 48400 }, { "epoch": 0.25866666666666666, "grad_norm": 6.706698894500732, "learning_rate": 7.434491978609626e-06, "loss": 0.2299, "step": 48500 }, { "epoch": 0.2592, "grad_norm": 7.701857566833496, "learning_rate": 7.429144385026738e-06, "loss": 0.2723, "step": 48600 }, { "epoch": 0.2597333333333333, "grad_norm": 6.604699611663818, "learning_rate": 7.423796791443851e-06, "loss": 0.2209, "step": 48700 }, { "epoch": 0.26026666666666665, "grad_norm": 11.027405738830566, "learning_rate": 7.418449197860963e-06, "loss": 0.228, "step": 48800 }, { "epoch": 0.2608, "grad_norm": 10.258379936218262, "learning_rate": 7.4131016042780755e-06, "loss": 0.2519, "step": 48900 }, { "epoch": 0.2613333333333333, "grad_norm": 6.314127445220947, "learning_rate": 7.407754010695187e-06, "loss": 0.2724, "step": 49000 }, { "epoch": 0.2618666666666667, "grad_norm": 6.4135823249816895, "learning_rate": 7.4024064171123e-06, "loss": 0.2556, "step": 49100 }, { "epoch": 0.2624, "grad_norm": 6.787198543548584, "learning_rate": 7.397058823529413e-06, "loss": 0.2452, "step": 49200 }, { "epoch": 0.26293333333333335, "grad_norm": 7.479311466217041, "learning_rate": 7.3917112299465244e-06, "loss": 0.2475, "step": 49300 }, { "epoch": 0.2634666666666667, "grad_norm": 5.069461822509766, "learning_rate": 7.386363636363637e-06, "loss": 0.2495, "step": 49400 }, { "epoch": 0.264, "grad_norm": 8.77762222290039, "learning_rate": 7.38101604278075e-06, "loss": 0.2497, "step": 49500 }, { "epoch": 0.26453333333333334, "grad_norm": 10.837051391601562, "learning_rate": 7.3756684491978616e-06, "loss": 0.2545, "step": 49600 }, { "epoch": 0.2650666666666667, "grad_norm": 7.840383052825928, "learning_rate": 7.370320855614974e-06, "loss": 0.2522, "step": 49700 }, { "epoch": 0.2656, "grad_norm": 6.503177642822266, "learning_rate": 7.364973262032086e-06, "loss": 0.2401, "step": 49800 }, { "epoch": 0.26613333333333333, "grad_norm": 7.438494682312012, "learning_rate": 7.359625668449199e-06, "loss": 0.257, "step": 49900 }, { "epoch": 0.26666666666666666, "grad_norm": 4.887816905975342, "learning_rate": 7.354278074866311e-06, "loss": 0.2616, "step": 50000 }, { "epoch": 0.2672, "grad_norm": 9.560140609741211, "learning_rate": 7.348930481283423e-06, "loss": 0.2309, "step": 50100 }, { "epoch": 0.2677333333333333, "grad_norm": 9.565762519836426, "learning_rate": 7.343582887700536e-06, "loss": 0.2476, "step": 50200 }, { "epoch": 0.26826666666666665, "grad_norm": 9.311938285827637, "learning_rate": 7.338288770053477e-06, "loss": 0.245, "step": 50300 }, { "epoch": 0.2688, "grad_norm": 7.0116119384765625, "learning_rate": 7.3329411764705895e-06, "loss": 0.2708, "step": 50400 }, { "epoch": 0.2693333333333333, "grad_norm": 2.5207176208496094, "learning_rate": 7.327593582887701e-06, "loss": 0.2557, "step": 50500 }, { "epoch": 0.26986666666666664, "grad_norm": 9.331365585327148, "learning_rate": 7.322245989304814e-06, "loss": 0.2452, "step": 50600 }, { "epoch": 0.2704, "grad_norm": 16.145307540893555, "learning_rate": 7.316898395721925e-06, "loss": 0.2487, "step": 50700 }, { "epoch": 0.27093333333333336, "grad_norm": 6.651644229888916, "learning_rate": 7.311550802139038e-06, "loss": 0.2451, "step": 50800 }, { "epoch": 0.2714666666666667, "grad_norm": 4.046923637390137, "learning_rate": 7.306203208556151e-06, "loss": 0.2547, "step": 50900 }, { "epoch": 0.272, "grad_norm": 6.595029354095459, "learning_rate": 7.300855614973262e-06, "loss": 0.2605, "step": 51000 }, { "epoch": 0.27253333333333335, "grad_norm": 9.400179862976074, "learning_rate": 7.295508021390375e-06, "loss": 0.226, "step": 51100 }, { "epoch": 0.2730666666666667, "grad_norm": 8.574236869812012, "learning_rate": 7.2901604278074865e-06, "loss": 0.2544, "step": 51200 }, { "epoch": 0.2736, "grad_norm": 11.143009185791016, "learning_rate": 7.284812834224599e-06, "loss": 0.2583, "step": 51300 }, { "epoch": 0.27413333333333334, "grad_norm": 8.641215324401855, "learning_rate": 7.279465240641712e-06, "loss": 0.2349, "step": 51400 }, { "epoch": 0.27466666666666667, "grad_norm": 5.847901821136475, "learning_rate": 7.274117647058824e-06, "loss": 0.2597, "step": 51500 }, { "epoch": 0.2752, "grad_norm": 8.239785194396973, "learning_rate": 7.268770053475936e-06, "loss": 0.2544, "step": 51600 }, { "epoch": 0.27573333333333333, "grad_norm": 6.208276748657227, "learning_rate": 7.263422459893049e-06, "loss": 0.2939, "step": 51700 }, { "epoch": 0.27626666666666666, "grad_norm": 6.770753860473633, "learning_rate": 7.258074866310161e-06, "loss": 0.2718, "step": 51800 }, { "epoch": 0.2768, "grad_norm": 6.003368854522705, "learning_rate": 7.252727272727273e-06, "loss": 0.2755, "step": 51900 }, { "epoch": 0.2773333333333333, "grad_norm": 8.666582107543945, "learning_rate": 7.247379679144385e-06, "loss": 0.2386, "step": 52000 }, { "epoch": 0.27786666666666665, "grad_norm": 12.490738868713379, "learning_rate": 7.242032085561498e-06, "loss": 0.2509, "step": 52100 }, { "epoch": 0.2784, "grad_norm": 5.208159446716309, "learning_rate": 7.2366844919786105e-06, "loss": 0.2452, "step": 52200 }, { "epoch": 0.2789333333333333, "grad_norm": 6.100143909454346, "learning_rate": 7.231336898395722e-06, "loss": 0.2617, "step": 52300 }, { "epoch": 0.27946666666666664, "grad_norm": 6.9679951667785645, "learning_rate": 7.225989304812835e-06, "loss": 0.2573, "step": 52400 }, { "epoch": 0.28, "grad_norm": 8.46786117553711, "learning_rate": 7.220641711229948e-06, "loss": 0.2663, "step": 52500 }, { "epoch": 0.28053333333333336, "grad_norm": 7.7983927726745605, "learning_rate": 7.215294117647059e-06, "loss": 0.2531, "step": 52600 }, { "epoch": 0.2810666666666667, "grad_norm": 10.462095260620117, "learning_rate": 7.209946524064172e-06, "loss": 0.2522, "step": 52700 }, { "epoch": 0.2816, "grad_norm": 9.7152681350708, "learning_rate": 7.204598930481284e-06, "loss": 0.2628, "step": 52800 }, { "epoch": 0.28213333333333335, "grad_norm": 9.503886222839355, "learning_rate": 7.1992513368983965e-06, "loss": 0.2434, "step": 52900 }, { "epoch": 0.2826666666666667, "grad_norm": 13.274681091308594, "learning_rate": 7.193903743315509e-06, "loss": 0.2499, "step": 53000 }, { "epoch": 0.2832, "grad_norm": 4.296961784362793, "learning_rate": 7.188556149732621e-06, "loss": 0.2292, "step": 53100 }, { "epoch": 0.28373333333333334, "grad_norm": 10.433600425720215, "learning_rate": 7.183208556149734e-06, "loss": 0.2657, "step": 53200 }, { "epoch": 0.28426666666666667, "grad_norm": 10.863750457763672, "learning_rate": 7.177914438502675e-06, "loss": 0.2367, "step": 53300 }, { "epoch": 0.2848, "grad_norm": 6.769160747528076, "learning_rate": 7.172566844919787e-06, "loss": 0.2495, "step": 53400 }, { "epoch": 0.2853333333333333, "grad_norm": 6.283715724945068, "learning_rate": 7.167219251336899e-06, "loss": 0.2363, "step": 53500 }, { "epoch": 0.28586666666666666, "grad_norm": 7.838467121124268, "learning_rate": 7.161871657754012e-06, "loss": 0.2467, "step": 53600 }, { "epoch": 0.2864, "grad_norm": 4.911136627197266, "learning_rate": 7.156524064171123e-06, "loss": 0.2169, "step": 53700 }, { "epoch": 0.2869333333333333, "grad_norm": 7.034232139587402, "learning_rate": 7.151176470588236e-06, "loss": 0.2364, "step": 53800 }, { "epoch": 0.28746666666666665, "grad_norm": 7.0632147789001465, "learning_rate": 7.145828877005349e-06, "loss": 0.2448, "step": 53900 }, { "epoch": 0.288, "grad_norm": 6.306436061859131, "learning_rate": 7.14048128342246e-06, "loss": 0.2575, "step": 54000 }, { "epoch": 0.2885333333333333, "grad_norm": 6.6800336837768555, "learning_rate": 7.1351336898395725e-06, "loss": 0.2445, "step": 54100 }, { "epoch": 0.2890666666666667, "grad_norm": 7.888618469238281, "learning_rate": 7.129786096256686e-06, "loss": 0.2564, "step": 54200 }, { "epoch": 0.2896, "grad_norm": 7.319005012512207, "learning_rate": 7.124438502673797e-06, "loss": 0.2677, "step": 54300 }, { "epoch": 0.29013333333333335, "grad_norm": 5.805268287658691, "learning_rate": 7.11909090909091e-06, "loss": 0.2664, "step": 54400 }, { "epoch": 0.2906666666666667, "grad_norm": 9.880657196044922, "learning_rate": 7.1137433155080214e-06, "loss": 0.2345, "step": 54500 }, { "epoch": 0.2912, "grad_norm": 5.412465572357178, "learning_rate": 7.108395721925134e-06, "loss": 0.2684, "step": 54600 }, { "epoch": 0.29173333333333334, "grad_norm": 12.703360557556152, "learning_rate": 7.103048128342247e-06, "loss": 0.3045, "step": 54700 }, { "epoch": 0.2922666666666667, "grad_norm": 7.6480841636657715, "learning_rate": 7.0977005347593585e-06, "loss": 0.2593, "step": 54800 }, { "epoch": 0.2928, "grad_norm": 7.836216449737549, "learning_rate": 7.092352941176471e-06, "loss": 0.2557, "step": 54900 }, { "epoch": 0.29333333333333333, "grad_norm": 10.35806655883789, "learning_rate": 7.087005347593583e-06, "loss": 0.2728, "step": 55000 }, { "epoch": 0.29386666666666666, "grad_norm": 14.247247695922852, "learning_rate": 7.081657754010696e-06, "loss": 0.246, "step": 55100 }, { "epoch": 0.2944, "grad_norm": 10.058664321899414, "learning_rate": 7.076310160427808e-06, "loss": 0.2505, "step": 55200 }, { "epoch": 0.2949333333333333, "grad_norm": 9.4829683303833, "learning_rate": 7.07096256684492e-06, "loss": 0.2541, "step": 55300 }, { "epoch": 0.29546666666666666, "grad_norm": 7.295975685119629, "learning_rate": 7.065614973262033e-06, "loss": 0.2481, "step": 55400 }, { "epoch": 0.296, "grad_norm": 5.038114547729492, "learning_rate": 7.0602673796791454e-06, "loss": 0.2438, "step": 55500 }, { "epoch": 0.2965333333333333, "grad_norm": 9.174761772155762, "learning_rate": 7.054919786096257e-06, "loss": 0.2692, "step": 55600 }, { "epoch": 0.29706666666666665, "grad_norm": 3.4096121788024902, "learning_rate": 7.04957219251337e-06, "loss": 0.244, "step": 55700 }, { "epoch": 0.2976, "grad_norm": 8.78859806060791, "learning_rate": 7.044224598930482e-06, "loss": 0.224, "step": 55800 }, { "epoch": 0.2981333333333333, "grad_norm": 12.2011137008667, "learning_rate": 7.038877005347594e-06, "loss": 0.2403, "step": 55900 }, { "epoch": 0.2986666666666667, "grad_norm": 10.609244346618652, "learning_rate": 7.033529411764707e-06, "loss": 0.2464, "step": 56000 }, { "epoch": 0.2992, "grad_norm": 12.020284652709961, "learning_rate": 7.028181818181819e-06, "loss": 0.2527, "step": 56100 }, { "epoch": 0.29973333333333335, "grad_norm": 7.508892059326172, "learning_rate": 7.0228342245989315e-06, "loss": 0.2342, "step": 56200 }, { "epoch": 0.3002666666666667, "grad_norm": 4.887277603149414, "learning_rate": 7.017486631016044e-06, "loss": 0.2361, "step": 56300 }, { "epoch": 0.3008, "grad_norm": 10.341975212097168, "learning_rate": 7.012139037433155e-06, "loss": 0.2454, "step": 56400 }, { "epoch": 0.30133333333333334, "grad_norm": 5.686004638671875, "learning_rate": 7.006791443850269e-06, "loss": 0.2393, "step": 56500 }, { "epoch": 0.30186666666666667, "grad_norm": 11.266525268554688, "learning_rate": 7.0014438502673795e-06, "loss": 0.2569, "step": 56600 }, { "epoch": 0.3024, "grad_norm": 12.224029541015625, "learning_rate": 6.996096256684492e-06, "loss": 0.2746, "step": 56700 }, { "epoch": 0.30293333333333333, "grad_norm": 5.364162445068359, "learning_rate": 6.990802139037434e-06, "loss": 0.2399, "step": 56800 }, { "epoch": 0.30346666666666666, "grad_norm": 5.059126853942871, "learning_rate": 6.985454545454547e-06, "loss": 0.2482, "step": 56900 }, { "epoch": 0.304, "grad_norm": 6.582889080047607, "learning_rate": 6.980106951871658e-06, "loss": 0.2685, "step": 57000 }, { "epoch": 0.3045333333333333, "grad_norm": 5.066258907318115, "learning_rate": 6.97475935828877e-06, "loss": 0.2198, "step": 57100 }, { "epoch": 0.30506666666666665, "grad_norm": 2.832533597946167, "learning_rate": 6.969411764705884e-06, "loss": 0.2526, "step": 57200 }, { "epoch": 0.3056, "grad_norm": 11.934916496276855, "learning_rate": 6.964064171122995e-06, "loss": 0.2365, "step": 57300 }, { "epoch": 0.3061333333333333, "grad_norm": 7.094815254211426, "learning_rate": 6.9587165775401075e-06, "loss": 0.2477, "step": 57400 }, { "epoch": 0.30666666666666664, "grad_norm": 4.003622055053711, "learning_rate": 6.953368983957219e-06, "loss": 0.2455, "step": 57500 }, { "epoch": 0.3072, "grad_norm": 10.96635627746582, "learning_rate": 6.948021390374332e-06, "loss": 0.2655, "step": 57600 }, { "epoch": 0.30773333333333336, "grad_norm": 9.02900218963623, "learning_rate": 6.9426737967914446e-06, "loss": 0.2497, "step": 57700 }, { "epoch": 0.3082666666666667, "grad_norm": 6.688266754150391, "learning_rate": 6.937326203208556e-06, "loss": 0.2301, "step": 57800 }, { "epoch": 0.3088, "grad_norm": 7.6436638832092285, "learning_rate": 6.931978609625669e-06, "loss": 0.2401, "step": 57900 }, { "epoch": 0.30933333333333335, "grad_norm": 7.076822757720947, "learning_rate": 6.926631016042781e-06, "loss": 0.2721, "step": 58000 }, { "epoch": 0.3098666666666667, "grad_norm": 6.032080173492432, "learning_rate": 6.9212834224598935e-06, "loss": 0.2794, "step": 58100 }, { "epoch": 0.3104, "grad_norm": 11.018205642700195, "learning_rate": 6.915935828877006e-06, "loss": 0.2545, "step": 58200 }, { "epoch": 0.31093333333333334, "grad_norm": 4.746645927429199, "learning_rate": 6.910588235294118e-06, "loss": 0.2356, "step": 58300 }, { "epoch": 0.31146666666666667, "grad_norm": 8.983436584472656, "learning_rate": 6.905240641711231e-06, "loss": 0.2351, "step": 58400 }, { "epoch": 0.312, "grad_norm": 5.190935134887695, "learning_rate": 6.899893048128343e-06, "loss": 0.2661, "step": 58500 }, { "epoch": 0.31253333333333333, "grad_norm": 5.2552008628845215, "learning_rate": 6.894545454545455e-06, "loss": 0.2579, "step": 58600 }, { "epoch": 0.31306666666666666, "grad_norm": 2.627960443496704, "learning_rate": 6.889251336898396e-06, "loss": 0.2478, "step": 58700 }, { "epoch": 0.3136, "grad_norm": 12.640631675720215, "learning_rate": 6.883903743315509e-06, "loss": 0.2348, "step": 58800 }, { "epoch": 0.3141333333333333, "grad_norm": 6.499292373657227, "learning_rate": 6.878556149732621e-06, "loss": 0.2496, "step": 58900 }, { "epoch": 0.31466666666666665, "grad_norm": 117.55598449707031, "learning_rate": 6.873208556149733e-06, "loss": 0.254, "step": 59000 }, { "epoch": 0.3152, "grad_norm": 12.794759750366211, "learning_rate": 6.867860962566846e-06, "loss": 0.233, "step": 59100 }, { "epoch": 0.3157333333333333, "grad_norm": 4.160928726196289, "learning_rate": 6.862513368983958e-06, "loss": 0.2401, "step": 59200 }, { "epoch": 0.31626666666666664, "grad_norm": 6.997635364532471, "learning_rate": 6.85716577540107e-06, "loss": 0.2418, "step": 59300 }, { "epoch": 0.3168, "grad_norm": 7.203141212463379, "learning_rate": 6.851818181818183e-06, "loss": 0.2624, "step": 59400 }, { "epoch": 0.31733333333333336, "grad_norm": 5.288658618927002, "learning_rate": 6.846470588235295e-06, "loss": 0.2423, "step": 59500 }, { "epoch": 0.3178666666666667, "grad_norm": 6.444352626800537, "learning_rate": 6.8411229946524074e-06, "loss": 0.2612, "step": 59600 }, { "epoch": 0.3184, "grad_norm": 6.58238410949707, "learning_rate": 6.835775401069518e-06, "loss": 0.259, "step": 59700 }, { "epoch": 0.31893333333333335, "grad_norm": 10.595877647399902, "learning_rate": 6.830427807486632e-06, "loss": 0.2389, "step": 59800 }, { "epoch": 0.3194666666666667, "grad_norm": 5.130499362945557, "learning_rate": 6.8250802139037446e-06, "loss": 0.2214, "step": 59900 }, { "epoch": 0.32, "grad_norm": 8.522345542907715, "learning_rate": 6.8197326203208555e-06, "loss": 0.2546, "step": 60000 }, { "epoch": 0.32, "eval_test1_cer": 0.04629733363208604, "eval_test1_cer_norm": 0.031694960021129974, "eval_test1_loss": 0.19169434905052185, "eval_test1_runtime": 1141.3432, "eval_test1_samples_per_second": 2.19, "eval_test1_steps_per_second": 0.548, "eval_test1_wer": 0.14420245488206654, "eval_test1_wer_norm": 0.08664776878342441, "step": 60000 }, { "epoch": 0.32, "eval_test2_cer": 0.11031003845148767, "eval_test2_cer_norm": 0.08745545398202666, "eval_test2_loss": 0.3317379653453827, "eval_test2_runtime": 1151.6102, "eval_test2_samples_per_second": 2.171, "eval_test2_steps_per_second": 0.543, "eval_test2_wer": 0.23806935225452047, "eval_test2_wer_norm": 0.17422071968828787, "step": 60000 }, { "epoch": 0.32053333333333334, "grad_norm": 1.469024658203125, "learning_rate": 6.814491978609627e-06, "loss": 0.245, "step": 60100 }, { "epoch": 0.32106666666666667, "grad_norm": 5.9161224365234375, "learning_rate": 6.809144385026738e-06, "loss": 0.227, "step": 60200 }, { "epoch": 0.3216, "grad_norm": 5.523306846618652, "learning_rate": 6.803796791443851e-06, "loss": 0.2415, "step": 60300 }, { "epoch": 0.3221333333333333, "grad_norm": 11.091049194335938, "learning_rate": 6.798449197860964e-06, "loss": 0.2628, "step": 60400 }, { "epoch": 0.32266666666666666, "grad_norm": 9.78979206085205, "learning_rate": 6.793101604278075e-06, "loss": 0.2347, "step": 60500 }, { "epoch": 0.3232, "grad_norm": 7.720283031463623, "learning_rate": 6.787754010695188e-06, "loss": 0.2293, "step": 60600 }, { "epoch": 0.3237333333333333, "grad_norm": 7.49715518951416, "learning_rate": 6.782406417112301e-06, "loss": 0.2373, "step": 60700 }, { "epoch": 0.32426666666666665, "grad_norm": 6.097120761871338, "learning_rate": 6.777058823529412e-06, "loss": 0.2661, "step": 60800 }, { "epoch": 0.3248, "grad_norm": 12.36463737487793, "learning_rate": 6.7717112299465245e-06, "loss": 0.2537, "step": 60900 }, { "epoch": 0.3253333333333333, "grad_norm": 7.395144939422607, "learning_rate": 6.766363636363636e-06, "loss": 0.2336, "step": 61000 }, { "epoch": 0.3258666666666667, "grad_norm": 4.125186920166016, "learning_rate": 6.761069518716577e-06, "loss": 0.2496, "step": 61100 }, { "epoch": 0.3264, "grad_norm": 12.303833961486816, "learning_rate": 6.75572192513369e-06, "loss": 0.234, "step": 61200 }, { "epoch": 0.32693333333333335, "grad_norm": 8.502795219421387, "learning_rate": 6.750374331550803e-06, "loss": 0.2601, "step": 61300 }, { "epoch": 0.3274666666666667, "grad_norm": 7.169192314147949, "learning_rate": 6.745026737967914e-06, "loss": 0.2442, "step": 61400 }, { "epoch": 0.328, "grad_norm": 4.478709697723389, "learning_rate": 6.739679144385027e-06, "loss": 0.2383, "step": 61500 }, { "epoch": 0.32853333333333334, "grad_norm": 4.977025032043457, "learning_rate": 6.73433155080214e-06, "loss": 0.2191, "step": 61600 }, { "epoch": 0.3290666666666667, "grad_norm": 11.403064727783203, "learning_rate": 6.7289839572192515e-06, "loss": 0.2473, "step": 61700 }, { "epoch": 0.3296, "grad_norm": 7.222422122955322, "learning_rate": 6.723636363636364e-06, "loss": 0.2379, "step": 61800 }, { "epoch": 1.000464, "grad_norm": 4.08281135559082, "learning_rate": 6.718288770053476e-06, "loss": 0.2207, "step": 61900 }, { "epoch": 1.0009973333333333, "grad_norm": 12.52001953125, "learning_rate": 6.712941176470589e-06, "loss": 0.2172, "step": 62000 }, { "epoch": 1.0015306666666666, "grad_norm": 4.108199119567871, "learning_rate": 6.707593582887701e-06, "loss": 0.2133, "step": 62100 }, { "epoch": 1.002064, "grad_norm": 7.380706310272217, "learning_rate": 6.702245989304813e-06, "loss": 0.189, "step": 62200 }, { "epoch": 1.0025973333333333, "grad_norm": 7.367397785186768, "learning_rate": 6.696898395721926e-06, "loss": 0.1948, "step": 62300 }, { "epoch": 1.0031306666666666, "grad_norm": 6.267475605010986, "learning_rate": 6.691550802139038e-06, "loss": 0.2065, "step": 62400 }, { "epoch": 1.003664, "grad_norm": 6.7060041427612305, "learning_rate": 6.68620320855615e-06, "loss": 0.1804, "step": 62500 }, { "epoch": 1.0041973333333334, "grad_norm": 6.581772327423096, "learning_rate": 6.680855614973263e-06, "loss": 0.1921, "step": 62600 }, { "epoch": 1.0047306666666667, "grad_norm": 6.239491939544678, "learning_rate": 6.675508021390375e-06, "loss": 0.2145, "step": 62700 }, { "epoch": 1.005264, "grad_norm": 3.3783535957336426, "learning_rate": 6.670160427807487e-06, "loss": 0.1981, "step": 62800 }, { "epoch": 1.0057973333333334, "grad_norm": 6.713562965393066, "learning_rate": 6.6648128342246e-06, "loss": 0.1916, "step": 62900 }, { "epoch": 1.0063306666666667, "grad_norm": 5.058563709259033, "learning_rate": 6.659465240641712e-06, "loss": 0.1794, "step": 63000 }, { "epoch": 1.006864, "grad_norm": 5.847950458526611, "learning_rate": 6.6541176470588244e-06, "loss": 0.1825, "step": 63100 }, { "epoch": 1.0073973333333333, "grad_norm": 5.4399333000183105, "learning_rate": 6.648770053475936e-06, "loss": 0.1748, "step": 63200 }, { "epoch": 1.0079306666666668, "grad_norm": 9.016236305236816, "learning_rate": 6.643422459893049e-06, "loss": 0.1742, "step": 63300 }, { "epoch": 1.008464, "grad_norm": 5.033236980438232, "learning_rate": 6.6380748663101616e-06, "loss": 0.1679, "step": 63400 }, { "epoch": 1.0089973333333333, "grad_norm": 11.004158020019531, "learning_rate": 6.6327272727272725e-06, "loss": 0.1929, "step": 63500 }, { "epoch": 1.0095306666666666, "grad_norm": 5.353547096252441, "learning_rate": 6.627379679144386e-06, "loss": 0.1836, "step": 63600 }, { "epoch": 1.010064, "grad_norm": 2.581364631652832, "learning_rate": 6.622032085561499e-06, "loss": 0.1924, "step": 63700 }, { "epoch": 1.0105973333333333, "grad_norm": 4.691516399383545, "learning_rate": 6.61668449197861e-06, "loss": 0.1842, "step": 63800 }, { "epoch": 1.0111306666666666, "grad_norm": 6.421941757202148, "learning_rate": 6.611336898395722e-06, "loss": 0.2009, "step": 63900 }, { "epoch": 1.011664, "grad_norm": 4.9533915519714355, "learning_rate": 6.605989304812834e-06, "loss": 0.1757, "step": 64000 }, { "epoch": 1.0121973333333334, "grad_norm": 7.035982131958008, "learning_rate": 6.600641711229947e-06, "loss": 0.1766, "step": 64100 }, { "epoch": 1.0127306666666667, "grad_norm": 5.154856204986572, "learning_rate": 6.595294117647059e-06, "loss": 0.171, "step": 64200 }, { "epoch": 1.013264, "grad_norm": 3.7718982696533203, "learning_rate": 6.589946524064171e-06, "loss": 0.1804, "step": 64300 }, { "epoch": 1.0137973333333334, "grad_norm": 6.664084434509277, "learning_rate": 6.584598930481284e-06, "loss": 0.1823, "step": 64400 }, { "epoch": 1.0143306666666667, "grad_norm": 11.87662124633789, "learning_rate": 6.5792513368983965e-06, "loss": 0.1789, "step": 64500 }, { "epoch": 1.014864, "grad_norm": 7.553431987762451, "learning_rate": 6.573903743315508e-06, "loss": 0.1736, "step": 64600 }, { "epoch": 1.0153973333333333, "grad_norm": 6.404135704040527, "learning_rate": 6.568556149732621e-06, "loss": 0.1712, "step": 64700 }, { "epoch": 1.0159306666666668, "grad_norm": 8.307944297790527, "learning_rate": 6.563208556149733e-06, "loss": 0.1852, "step": 64800 }, { "epoch": 1.016464, "grad_norm": 7.255639553070068, "learning_rate": 6.5578609625668454e-06, "loss": 0.1703, "step": 64900 }, { "epoch": 1.0169973333333333, "grad_norm": 5.942869186401367, "learning_rate": 6.552513368983958e-06, "loss": 0.1667, "step": 65000 }, { "epoch": 1.0175306666666666, "grad_norm": 8.815537452697754, "learning_rate": 6.547219251336899e-06, "loss": 0.1759, "step": 65100 }, { "epoch": 1.018064, "grad_norm": 6.1545257568359375, "learning_rate": 6.541871657754011e-06, "loss": 0.1889, "step": 65200 }, { "epoch": 1.0185973333333334, "grad_norm": 6.4734063148498535, "learning_rate": 6.536524064171124e-06, "loss": 0.1754, "step": 65300 }, { "epoch": 1.0191306666666666, "grad_norm": 2.381598472595215, "learning_rate": 6.531176470588236e-06, "loss": 0.1696, "step": 65400 }, { "epoch": 1.019664, "grad_norm": 5.761627197265625, "learning_rate": 6.525828877005348e-06, "loss": 0.1754, "step": 65500 }, { "epoch": 1.0201973333333334, "grad_norm": 9.871030807495117, "learning_rate": 6.520481283422461e-06, "loss": 0.1649, "step": 65600 }, { "epoch": 1.0207306666666667, "grad_norm": 3.50299072265625, "learning_rate": 6.5151336898395725e-06, "loss": 0.1828, "step": 65700 }, { "epoch": 1.021264, "grad_norm": 5.632349014282227, "learning_rate": 6.509786096256685e-06, "loss": 0.1857, "step": 65800 }, { "epoch": 1.0217973333333332, "grad_norm": 9.746537208557129, "learning_rate": 6.504438502673798e-06, "loss": 0.1739, "step": 65900 }, { "epoch": 1.0223306666666667, "grad_norm": 10.220690727233887, "learning_rate": 6.49909090909091e-06, "loss": 0.1914, "step": 66000 }, { "epoch": 1.022864, "grad_norm": 6.883199214935303, "learning_rate": 6.493743315508022e-06, "loss": 0.1922, "step": 66100 }, { "epoch": 1.0233973333333333, "grad_norm": 16.8372859954834, "learning_rate": 6.488395721925134e-06, "loss": 0.1817, "step": 66200 }, { "epoch": 1.0239306666666668, "grad_norm": 4.768618583679199, "learning_rate": 6.483048128342247e-06, "loss": 0.1738, "step": 66300 }, { "epoch": 1.024464, "grad_norm": 8.322490692138672, "learning_rate": 6.477700534759359e-06, "loss": 0.1865, "step": 66400 }, { "epoch": 1.0249973333333333, "grad_norm": 5.923746109008789, "learning_rate": 6.47235294117647e-06, "loss": 0.1992, "step": 66500 }, { "epoch": 1.0255306666666666, "grad_norm": 7.384121894836426, "learning_rate": 6.467005347593584e-06, "loss": 0.1801, "step": 66600 }, { "epoch": 1.026064, "grad_norm": 5.392059326171875, "learning_rate": 6.4616577540106965e-06, "loss": 0.167, "step": 66700 }, { "epoch": 1.0265973333333334, "grad_norm": 4.482821941375732, "learning_rate": 6.4563101604278075e-06, "loss": 0.1827, "step": 66800 }, { "epoch": 1.0271306666666666, "grad_norm": 7.086289405822754, "learning_rate": 6.45096256684492e-06, "loss": 0.2001, "step": 66900 }, { "epoch": 1.027664, "grad_norm": 6.783627033233643, "learning_rate": 6.445614973262032e-06, "loss": 0.1766, "step": 67000 }, { "epoch": 1.0281973333333334, "grad_norm": 6.994729995727539, "learning_rate": 6.440267379679145e-06, "loss": 0.1692, "step": 67100 }, { "epoch": 1.0287306666666667, "grad_norm": 3.28629469871521, "learning_rate": 6.434973262032086e-06, "loss": 0.1762, "step": 67200 }, { "epoch": 1.029264, "grad_norm": 5.687538146972656, "learning_rate": 6.429679144385027e-06, "loss": 0.1703, "step": 67300 }, { "epoch": 1.0297973333333332, "grad_norm": 6.609568119049072, "learning_rate": 6.42433155080214e-06, "loss": 0.1804, "step": 67400 }, { "epoch": 1.0303306666666667, "grad_norm": 3.4827024936676025, "learning_rate": 6.418983957219251e-06, "loss": 0.1778, "step": 67500 }, { "epoch": 1.030864, "grad_norm": 7.567587852478027, "learning_rate": 6.413636363636364e-06, "loss": 0.1829, "step": 67600 }, { "epoch": 1.0313973333333333, "grad_norm": 10.528592109680176, "learning_rate": 6.408288770053476e-06, "loss": 0.1707, "step": 67700 }, { "epoch": 1.0319306666666668, "grad_norm": 11.17098331451416, "learning_rate": 6.402941176470588e-06, "loss": 0.1765, "step": 67800 }, { "epoch": 1.032464, "grad_norm": 3.866119861602783, "learning_rate": 6.397593582887701e-06, "loss": 0.1774, "step": 67900 }, { "epoch": 1.0329973333333333, "grad_norm": 4.920225143432617, "learning_rate": 6.3922459893048135e-06, "loss": 0.166, "step": 68000 }, { "epoch": 1.0335306666666666, "grad_norm": 5.048612117767334, "learning_rate": 6.386898395721925e-06, "loss": 0.1622, "step": 68100 }, { "epoch": 1.034064, "grad_norm": 7.091610908508301, "learning_rate": 6.381550802139038e-06, "loss": 0.1779, "step": 68200 }, { "epoch": 1.0345973333333334, "grad_norm": 11.285551071166992, "learning_rate": 6.37620320855615e-06, "loss": 0.177, "step": 68300 }, { "epoch": 1.0351306666666666, "grad_norm": 3.6785097122192383, "learning_rate": 6.3708556149732624e-06, "loss": 0.1905, "step": 68400 }, { "epoch": 1.035664, "grad_norm": 8.192794799804688, "learning_rate": 6.365508021390375e-06, "loss": 0.1655, "step": 68500 }, { "epoch": 1.0361973333333334, "grad_norm": 6.420079231262207, "learning_rate": 6.360160427807487e-06, "loss": 0.1915, "step": 68600 }, { "epoch": 1.0367306666666667, "grad_norm": 6.224587440490723, "learning_rate": 6.3548128342245996e-06, "loss": 0.1533, "step": 68700 }, { "epoch": 1.037264, "grad_norm": 6.207516193389893, "learning_rate": 6.349465240641711e-06, "loss": 0.1611, "step": 68800 }, { "epoch": 1.0377973333333332, "grad_norm": 2.9005069732666016, "learning_rate": 6.344117647058824e-06, "loss": 0.1876, "step": 68900 }, { "epoch": 1.0383306666666667, "grad_norm": 4.304932117462158, "learning_rate": 6.338770053475937e-06, "loss": 0.1818, "step": 69000 }, { "epoch": 1.038864, "grad_norm": 2.9166297912597656, "learning_rate": 6.3334224598930485e-06, "loss": 0.1596, "step": 69100 }, { "epoch": 1.0393973333333333, "grad_norm": 5.795602321624756, "learning_rate": 6.328074866310161e-06, "loss": 0.1742, "step": 69200 }, { "epoch": 1.0399306666666668, "grad_norm": 5.272345542907715, "learning_rate": 6.322727272727274e-06, "loss": 0.1685, "step": 69300 }, { "epoch": 1.040464, "grad_norm": 10.112629890441895, "learning_rate": 6.317379679144386e-06, "loss": 0.1837, "step": 69400 }, { "epoch": 1.0409973333333333, "grad_norm": 8.132367134094238, "learning_rate": 6.312032085561498e-06, "loss": 0.1704, "step": 69500 }, { "epoch": 1.0415306666666666, "grad_norm": 6.09276819229126, "learning_rate": 6.30668449197861e-06, "loss": 0.1579, "step": 69600 }, { "epoch": 1.042064, "grad_norm": 7.052643299102783, "learning_rate": 6.301336898395723e-06, "loss": 0.1686, "step": 69700 }, { "epoch": 1.0425973333333334, "grad_norm": 5.686822891235352, "learning_rate": 6.295989304812835e-06, "loss": 0.1732, "step": 69800 }, { "epoch": 1.0431306666666667, "grad_norm": 6.859396457672119, "learning_rate": 6.290641711229946e-06, "loss": 0.1792, "step": 69900 }, { "epoch": 1.043664, "grad_norm": 12.517112731933594, "learning_rate": 6.285347593582888e-06, "loss": 0.1659, "step": 70000 }, { "epoch": 1.0441973333333334, "grad_norm": 4.30474853515625, "learning_rate": 6.280000000000001e-06, "loss": 0.1685, "step": 70100 }, { "epoch": 1.0447306666666667, "grad_norm": 4.921939849853516, "learning_rate": 6.2746524064171135e-06, "loss": 0.173, "step": 70200 }, { "epoch": 1.045264, "grad_norm": 4.9057936668396, "learning_rate": 6.2693048128342245e-06, "loss": 0.181, "step": 70300 }, { "epoch": 1.0457973333333332, "grad_norm": 4.876357555389404, "learning_rate": 6.263957219251338e-06, "loss": 0.1491, "step": 70400 }, { "epoch": 1.0463306666666667, "grad_norm": 0.7171691656112671, "learning_rate": 6.258609625668449e-06, "loss": 0.1656, "step": 70500 }, { "epoch": 1.046864, "grad_norm": 8.597054481506348, "learning_rate": 6.253262032085562e-06, "loss": 0.1877, "step": 70600 }, { "epoch": 1.0473973333333333, "grad_norm": 5.971155643463135, "learning_rate": 6.247914438502674e-06, "loss": 0.1608, "step": 70700 }, { "epoch": 1.0479306666666666, "grad_norm": 13.862071990966797, "learning_rate": 6.242566844919786e-06, "loss": 0.1685, "step": 70800 }, { "epoch": 1.048464, "grad_norm": 15.772274017333984, "learning_rate": 6.237219251336899e-06, "loss": 0.167, "step": 70900 }, { "epoch": 1.0489973333333333, "grad_norm": 6.1462016105651855, "learning_rate": 6.231871657754011e-06, "loss": 0.1749, "step": 71000 }, { "epoch": 1.0495306666666666, "grad_norm": 4.6446075439453125, "learning_rate": 6.226524064171123e-06, "loss": 0.1782, "step": 71100 }, { "epoch": 1.0500639999999999, "grad_norm": 5.1733198165893555, "learning_rate": 6.221176470588236e-06, "loss": 0.1685, "step": 71200 }, { "epoch": 1.0505973333333334, "grad_norm": 11.278282165527344, "learning_rate": 6.215828877005348e-06, "loss": 0.1729, "step": 71300 }, { "epoch": 1.0511306666666667, "grad_norm": 4.501044273376465, "learning_rate": 6.21048128342246e-06, "loss": 0.1704, "step": 71400 }, { "epoch": 1.051664, "grad_norm": 6.578692436218262, "learning_rate": 6.205133689839573e-06, "loss": 0.1692, "step": 71500 }, { "epoch": 1.0521973333333334, "grad_norm": 13.557869911193848, "learning_rate": 6.199786096256685e-06, "loss": 0.1761, "step": 71600 }, { "epoch": 1.0527306666666667, "grad_norm": 3.7196428775787354, "learning_rate": 6.194438502673797e-06, "loss": 0.1797, "step": 71700 }, { "epoch": 1.053264, "grad_norm": 3.521423816680908, "learning_rate": 6.18909090909091e-06, "loss": 0.1605, "step": 71800 }, { "epoch": 1.0537973333333333, "grad_norm": 9.50042724609375, "learning_rate": 6.183743315508022e-06, "loss": 0.1667, "step": 71900 }, { "epoch": 1.0543306666666667, "grad_norm": 6.853938579559326, "learning_rate": 6.1783957219251345e-06, "loss": 0.1905, "step": 72000 }, { "epoch": 1.0543306666666667, "eval_test1_cer": 0.05506385839121667, "eval_test1_cer_norm": 0.03751050495834034, "eval_test1_loss": 0.19665080308914185, "eval_test1_runtime": 1913.1254, "eval_test1_samples_per_second": 1.307, "eval_test1_steps_per_second": 0.327, "eval_test1_wer": 0.155835447097583, "eval_test1_wer_norm": 0.09503492211929045, "step": 72000 }, { "epoch": 1.0543306666666667, "eval_test2_cer": 0.11136932093926158, "eval_test2_cer_norm": 0.08492310969941122, "eval_test2_loss": 0.33756396174430847, "eval_test2_runtime": 1974.1509, "eval_test2_samples_per_second": 1.266, "eval_test2_steps_per_second": 0.317, "eval_test2_wer": 0.23434996566720073, "eval_test2_wer_norm": 0.16671441668576667, "step": 72000 }, { "epoch": 1.054864, "grad_norm": 18.085174560546875, "learning_rate": 6.173048128342246e-06, "loss": 0.1689, "step": 72100 }, { "epoch": 1.0553973333333333, "grad_norm": 7.237306594848633, "learning_rate": 6.167700534759359e-06, "loss": 0.1581, "step": 72200 }, { "epoch": 1.0559306666666666, "grad_norm": 7.642820835113525, "learning_rate": 6.162352941176472e-06, "loss": 0.1787, "step": 72300 }, { "epoch": 1.056464, "grad_norm": 7.688032150268555, "learning_rate": 6.1570053475935834e-06, "loss": 0.143, "step": 72400 }, { "epoch": 1.0569973333333333, "grad_norm": 3.176499366760254, "learning_rate": 6.151657754010696e-06, "loss": 0.1741, "step": 72500 }, { "epoch": 1.0575306666666666, "grad_norm": 5.119462013244629, "learning_rate": 6.146310160427808e-06, "loss": 0.1696, "step": 72600 }, { "epoch": 1.058064, "grad_norm": 2.0155978202819824, "learning_rate": 6.14101604278075e-06, "loss": 0.1723, "step": 72700 }, { "epoch": 1.0585973333333334, "grad_norm": 5.0914130210876465, "learning_rate": 6.135668449197862e-06, "loss": 0.1703, "step": 72800 }, { "epoch": 1.0591306666666667, "grad_norm": 4.7342753410339355, "learning_rate": 6.130320855614974e-06, "loss": 0.1632, "step": 72900 }, { "epoch": 1.059664, "grad_norm": 4.886206150054932, "learning_rate": 6.124973262032086e-06, "loss": 0.1703, "step": 73000 }, { "epoch": 1.0601973333333334, "grad_norm": 5.850493431091309, "learning_rate": 6.119625668449199e-06, "loss": 0.1765, "step": 73100 }, { "epoch": 1.0607306666666667, "grad_norm": 2.968691825866699, "learning_rate": 6.114278074866311e-06, "loss": 0.1684, "step": 73200 }, { "epoch": 1.061264, "grad_norm": 5.920744895935059, "learning_rate": 6.108930481283422e-06, "loss": 0.1657, "step": 73300 }, { "epoch": 1.0617973333333333, "grad_norm": 4.3772873878479, "learning_rate": 6.103582887700536e-06, "loss": 0.1638, "step": 73400 }, { "epoch": 1.0623306666666668, "grad_norm": 4.621192455291748, "learning_rate": 6.098235294117647e-06, "loss": 0.1567, "step": 73500 }, { "epoch": 1.062864, "grad_norm": 3.081610918045044, "learning_rate": 6.092887700534759e-06, "loss": 0.1481, "step": 73600 }, { "epoch": 1.0633973333333333, "grad_norm": 7.522069454193115, "learning_rate": 6.087540106951872e-06, "loss": 0.1709, "step": 73700 }, { "epoch": 1.0639306666666666, "grad_norm": 10.748175621032715, "learning_rate": 6.082192513368984e-06, "loss": 0.1613, "step": 73800 }, { "epoch": 1.064464, "grad_norm": 1.0733730792999268, "learning_rate": 6.0768449197860965e-06, "loss": 0.1659, "step": 73900 }, { "epoch": 1.0649973333333334, "grad_norm": 16.084978103637695, "learning_rate": 6.071497326203209e-06, "loss": 0.1578, "step": 74000 }, { "epoch": 1.0655306666666666, "grad_norm": 6.435259819030762, "learning_rate": 6.066149732620321e-06, "loss": 0.158, "step": 74100 }, { "epoch": 1.066064, "grad_norm": 7.779673099517822, "learning_rate": 6.060802139037434e-06, "loss": 0.1695, "step": 74200 }, { "epoch": 1.0665973333333334, "grad_norm": 5.419847011566162, "learning_rate": 6.0554545454545455e-06, "loss": 0.1509, "step": 74300 }, { "epoch": 1.0671306666666667, "grad_norm": 6.55660343170166, "learning_rate": 6.050106951871658e-06, "loss": 0.1634, "step": 74400 }, { "epoch": 1.067664, "grad_norm": 6.30554723739624, "learning_rate": 6.044759358288771e-06, "loss": 0.1649, "step": 74500 }, { "epoch": 1.0681973333333334, "grad_norm": 4.373483657836914, "learning_rate": 6.0394117647058826e-06, "loss": 0.1726, "step": 74600 }, { "epoch": 1.0687306666666667, "grad_norm": 4.948339462280273, "learning_rate": 6.034064171122995e-06, "loss": 0.1643, "step": 74700 }, { "epoch": 1.069264, "grad_norm": 4.757360458374023, "learning_rate": 6.028716577540108e-06, "loss": 0.1619, "step": 74800 }, { "epoch": 1.0697973333333333, "grad_norm": 6.871695518493652, "learning_rate": 6.02336898395722e-06, "loss": 0.1627, "step": 74900 }, { "epoch": 1.0703306666666668, "grad_norm": 6.932568073272705, "learning_rate": 6.018021390374332e-06, "loss": 0.1844, "step": 75000 }, { "epoch": 1.070864, "grad_norm": 9.405072212219238, "learning_rate": 6.012727272727273e-06, "loss": 0.1568, "step": 75100 }, { "epoch": 1.0713973333333333, "grad_norm": 4.448215961456299, "learning_rate": 6.007379679144385e-06, "loss": 0.1691, "step": 75200 }, { "epoch": 1.0719306666666666, "grad_norm": 8.613408088684082, "learning_rate": 6.002032085561498e-06, "loss": 0.1648, "step": 75300 }, { "epoch": 1.072464, "grad_norm": 2.5020225048065186, "learning_rate": 5.9966844919786105e-06, "loss": 0.1619, "step": 75400 }, { "epoch": 1.0729973333333334, "grad_norm": 3.2884554862976074, "learning_rate": 5.991336898395722e-06, "loss": 0.1697, "step": 75500 }, { "epoch": 1.0735306666666666, "grad_norm": 12.251060485839844, "learning_rate": 5.985989304812835e-06, "loss": 0.1442, "step": 75600 }, { "epoch": 1.074064, "grad_norm": 4.120378494262695, "learning_rate": 5.980641711229948e-06, "loss": 0.1537, "step": 75700 }, { "epoch": 1.0745973333333334, "grad_norm": 4.801280498504639, "learning_rate": 5.975294117647059e-06, "loss": 0.1782, "step": 75800 }, { "epoch": 1.0751306666666667, "grad_norm": 10.266385078430176, "learning_rate": 5.969946524064172e-06, "loss": 0.1684, "step": 75900 }, { "epoch": 1.075664, "grad_norm": 3.69321346282959, "learning_rate": 5.964598930481284e-06, "loss": 0.1675, "step": 76000 }, { "epoch": 1.0761973333333335, "grad_norm": 4.796375274658203, "learning_rate": 5.9592513368983965e-06, "loss": 0.139, "step": 76100 }, { "epoch": 1.0767306666666667, "grad_norm": 4.809170246124268, "learning_rate": 5.953903743315509e-06, "loss": 0.1731, "step": 76200 }, { "epoch": 1.077264, "grad_norm": 13.710062980651855, "learning_rate": 5.94855614973262e-06, "loss": 0.1736, "step": 76300 }, { "epoch": 1.0777973333333333, "grad_norm": 2.9642364978790283, "learning_rate": 5.943208556149734e-06, "loss": 0.1726, "step": 76400 }, { "epoch": 1.0783306666666668, "grad_norm": 3.6394166946411133, "learning_rate": 5.937860962566845e-06, "loss": 0.1661, "step": 76500 }, { "epoch": 1.078864, "grad_norm": 3.411573648452759, "learning_rate": 5.932513368983957e-06, "loss": 0.1423, "step": 76600 }, { "epoch": 1.0793973333333333, "grad_norm": 3.2618765830993652, "learning_rate": 5.92716577540107e-06, "loss": 0.1668, "step": 76700 }, { "epoch": 1.0799306666666666, "grad_norm": 5.8128342628479, "learning_rate": 5.921818181818182e-06, "loss": 0.1615, "step": 76800 }, { "epoch": 1.080464, "grad_norm": 5.543856143951416, "learning_rate": 5.916470588235294e-06, "loss": 0.147, "step": 76900 }, { "epoch": 1.0809973333333334, "grad_norm": 1.566781759262085, "learning_rate": 5.911122994652407e-06, "loss": 0.1431, "step": 77000 }, { "epoch": 1.0815306666666666, "grad_norm": 10.594528198242188, "learning_rate": 5.905775401069519e-06, "loss": 0.1791, "step": 77100 }, { "epoch": 1.082064, "grad_norm": 5.833106517791748, "learning_rate": 5.9004278074866315e-06, "loss": 0.1615, "step": 77200 }, { "epoch": 1.0825973333333334, "grad_norm": 1.5213392972946167, "learning_rate": 5.895080213903743e-06, "loss": 0.1774, "step": 77300 }, { "epoch": 1.0831306666666667, "grad_norm": 14.895548820495605, "learning_rate": 5.889732620320856e-06, "loss": 0.1502, "step": 77400 }, { "epoch": 1.083664, "grad_norm": 4.457591533660889, "learning_rate": 5.884385026737969e-06, "loss": 0.156, "step": 77500 }, { "epoch": 1.0841973333333332, "grad_norm": 4.563498020172119, "learning_rate": 5.87903743315508e-06, "loss": 0.1555, "step": 77600 }, { "epoch": 1.0847306666666667, "grad_norm": 4.014594554901123, "learning_rate": 5.873689839572193e-06, "loss": 0.1459, "step": 77700 }, { "epoch": 1.085264, "grad_norm": 11.847341537475586, "learning_rate": 5.868342245989306e-06, "loss": 0.1493, "step": 77800 }, { "epoch": 1.0857973333333333, "grad_norm": 7.746066093444824, "learning_rate": 5.8629946524064175e-06, "loss": 0.1491, "step": 77900 }, { "epoch": 1.0863306666666666, "grad_norm": 3.1629085540771484, "learning_rate": 5.85764705882353e-06, "loss": 0.1557, "step": 78000 }, { "epoch": 1.086864, "grad_norm": 5.428091049194336, "learning_rate": 5.852299465240642e-06, "loss": 0.1586, "step": 78100 }, { "epoch": 1.0873973333333333, "grad_norm": 4.486416339874268, "learning_rate": 5.846951871657755e-06, "loss": 0.1601, "step": 78200 }, { "epoch": 1.0879306666666666, "grad_norm": 8.020925521850586, "learning_rate": 5.841604278074867e-06, "loss": 0.1741, "step": 78300 }, { "epoch": 1.088464, "grad_norm": 5.805937767028809, "learning_rate": 5.836256684491979e-06, "loss": 0.1553, "step": 78400 }, { "epoch": 1.0889973333333334, "grad_norm": 5.283725261688232, "learning_rate": 5.830909090909092e-06, "loss": 0.1617, "step": 78500 }, { "epoch": 1.0895306666666666, "grad_norm": 4.392330169677734, "learning_rate": 5.825561497326203e-06, "loss": 0.153, "step": 78600 }, { "epoch": 1.090064, "grad_norm": 2.2509894371032715, "learning_rate": 5.820213903743316e-06, "loss": 0.1506, "step": 78700 }, { "epoch": 1.0905973333333334, "grad_norm": 4.042706489562988, "learning_rate": 5.814866310160429e-06, "loss": 0.1624, "step": 78800 }, { "epoch": 1.0911306666666667, "grad_norm": 9.516753196716309, "learning_rate": 5.80951871657754e-06, "loss": 0.1529, "step": 78900 }, { "epoch": 1.091664, "grad_norm": 2.703686475753784, "learning_rate": 5.8041711229946525e-06, "loss": 0.1634, "step": 79000 }, { "epoch": 1.0921973333333332, "grad_norm": 5.896278381347656, "learning_rate": 5.798823529411766e-06, "loss": 0.173, "step": 79100 }, { "epoch": 1.0927306666666667, "grad_norm": 5.982407093048096, "learning_rate": 5.793475935828877e-06, "loss": 0.1511, "step": 79200 }, { "epoch": 1.093264, "grad_norm": 3.1643097400665283, "learning_rate": 5.788181818181818e-06, "loss": 0.1558, "step": 79300 }, { "epoch": 1.0937973333333333, "grad_norm": 10.075718879699707, "learning_rate": 5.7828342245989315e-06, "loss": 0.1679, "step": 79400 }, { "epoch": 1.0943306666666666, "grad_norm": 3.450530767440796, "learning_rate": 5.777486631016044e-06, "loss": 0.1529, "step": 79500 }, { "epoch": 1.094864, "grad_norm": 4.166381359100342, "learning_rate": 5.772139037433155e-06, "loss": 0.1554, "step": 79600 }, { "epoch": 1.0953973333333333, "grad_norm": 7.432328701019287, "learning_rate": 5.766791443850268e-06, "loss": 0.1741, "step": 79700 }, { "epoch": 1.0959306666666666, "grad_norm": 6.161530017852783, "learning_rate": 5.7614438502673796e-06, "loss": 0.1675, "step": 79800 }, { "epoch": 1.096464, "grad_norm": 15.867928504943848, "learning_rate": 5.756096256684492e-06, "loss": 0.151, "step": 79900 }, { "epoch": 1.0969973333333334, "grad_norm": 5.0718770027160645, "learning_rate": 5.750748663101605e-06, "loss": 0.1451, "step": 80000 }, { "epoch": 1.0975306666666667, "grad_norm": 5.595295429229736, "learning_rate": 5.745401069518717e-06, "loss": 0.1392, "step": 80100 }, { "epoch": 1.098064, "grad_norm": 5.558518409729004, "learning_rate": 5.740106951871658e-06, "loss": 0.1413, "step": 80200 }, { "epoch": 1.0985973333333334, "grad_norm": 6.6420392990112305, "learning_rate": 5.73475935828877e-06, "loss": 0.165, "step": 80300 }, { "epoch": 1.0991306666666667, "grad_norm": 3.0524938106536865, "learning_rate": 5.729411764705883e-06, "loss": 0.1645, "step": 80400 }, { "epoch": 1.099664, "grad_norm": 4.812023639678955, "learning_rate": 5.724064171122995e-06, "loss": 0.1496, "step": 80500 }, { "epoch": 1.1001973333333332, "grad_norm": 2.8649067878723145, "learning_rate": 5.7187165775401075e-06, "loss": 0.1416, "step": 80600 }, { "epoch": 1.1007306666666667, "grad_norm": 5.3140130043029785, "learning_rate": 5.713368983957219e-06, "loss": 0.1501, "step": 80700 }, { "epoch": 1.101264, "grad_norm": 7.904541492462158, "learning_rate": 5.708021390374332e-06, "loss": 0.146, "step": 80800 }, { "epoch": 1.1017973333333333, "grad_norm": 4.964197158813477, "learning_rate": 5.702673796791445e-06, "loss": 0.1573, "step": 80900 }, { "epoch": 1.1023306666666666, "grad_norm": 6.015676498413086, "learning_rate": 5.697326203208556e-06, "loss": 0.1418, "step": 81000 }, { "epoch": 1.102864, "grad_norm": 5.729245185852051, "learning_rate": 5.691978609625669e-06, "loss": 0.1635, "step": 81100 }, { "epoch": 1.1033973333333333, "grad_norm": 4.860830783843994, "learning_rate": 5.686631016042781e-06, "loss": 0.1568, "step": 81200 }, { "epoch": 1.1039306666666666, "grad_norm": 4.703693866729736, "learning_rate": 5.6812834224598935e-06, "loss": 0.1541, "step": 81300 }, { "epoch": 1.1044640000000001, "grad_norm": 6.809398174285889, "learning_rate": 5.675935828877006e-06, "loss": 0.1594, "step": 81400 }, { "epoch": 1.1049973333333334, "grad_norm": 4.561946392059326, "learning_rate": 5.670588235294118e-06, "loss": 0.1584, "step": 81500 }, { "epoch": 1.1055306666666667, "grad_norm": 2.569387197494507, "learning_rate": 5.665240641711231e-06, "loss": 0.1505, "step": 81600 }, { "epoch": 1.106064, "grad_norm": 6.170706272125244, "learning_rate": 5.659893048128343e-06, "loss": 0.1533, "step": 81700 }, { "epoch": 1.1065973333333334, "grad_norm": 5.539713382720947, "learning_rate": 5.654545454545455e-06, "loss": 0.1582, "step": 81800 }, { "epoch": 1.1071306666666667, "grad_norm": 7.629022598266602, "learning_rate": 5.649197860962568e-06, "loss": 0.1573, "step": 81900 }, { "epoch": 1.107664, "grad_norm": 9.117705345153809, "learning_rate": 5.643850267379679e-06, "loss": 0.1523, "step": 82000 }, { "epoch": 1.1081973333333333, "grad_norm": 6.6390461921691895, "learning_rate": 5.638502673796792e-06, "loss": 0.161, "step": 82100 }, { "epoch": 1.1087306666666668, "grad_norm": 4.19552755355835, "learning_rate": 5.633155080213905e-06, "loss": 0.1535, "step": 82200 }, { "epoch": 1.109264, "grad_norm": 2.929837465286255, "learning_rate": 5.627807486631016e-06, "loss": 0.1554, "step": 82300 }, { "epoch": 1.1097973333333333, "grad_norm": 3.6588587760925293, "learning_rate": 5.622459893048129e-06, "loss": 0.1473, "step": 82400 }, { "epoch": 1.1103306666666666, "grad_norm": 8.284588813781738, "learning_rate": 5.617112299465242e-06, "loss": 0.1538, "step": 82500 }, { "epoch": 1.110864, "grad_norm": 7.380801677703857, "learning_rate": 5.611764705882353e-06, "loss": 0.1619, "step": 82600 }, { "epoch": 1.1113973333333333, "grad_norm": 3.2879726886749268, "learning_rate": 5.606417112299466e-06, "loss": 0.1322, "step": 82700 }, { "epoch": 1.1119306666666666, "grad_norm": 5.414794921875, "learning_rate": 5.601069518716577e-06, "loss": 0.1707, "step": 82800 }, { "epoch": 1.112464, "grad_norm": 6.273069381713867, "learning_rate": 5.59572192513369e-06, "loss": 0.141, "step": 82900 }, { "epoch": 1.1129973333333334, "grad_norm": 7.463016033172607, "learning_rate": 5.590374331550803e-06, "loss": 0.1612, "step": 83000 }, { "epoch": 1.1135306666666667, "grad_norm": 7.93972110748291, "learning_rate": 5.5850267379679145e-06, "loss": 0.161, "step": 83100 }, { "epoch": 1.114064, "grad_norm": 6.828721523284912, "learning_rate": 5.579679144385027e-06, "loss": 0.1572, "step": 83200 }, { "epoch": 1.1145973333333332, "grad_norm": 6.53476619720459, "learning_rate": 5.574331550802139e-06, "loss": 0.159, "step": 83300 }, { "epoch": 1.1151306666666667, "grad_norm": 6.319201946258545, "learning_rate": 5.568983957219252e-06, "loss": 0.149, "step": 83400 }, { "epoch": 1.115664, "grad_norm": 5.9614176750183105, "learning_rate": 5.563636363636364e-06, "loss": 0.1532, "step": 83500 }, { "epoch": 1.1161973333333333, "grad_norm": 4.077332019805908, "learning_rate": 5.558288770053476e-06, "loss": 0.1417, "step": 83600 }, { "epoch": 1.1167306666666668, "grad_norm": 2.315136432647705, "learning_rate": 5.552941176470589e-06, "loss": 0.1607, "step": 83700 }, { "epoch": 1.117264, "grad_norm": 5.843647003173828, "learning_rate": 5.547593582887701e-06, "loss": 0.137, "step": 83800 }, { "epoch": 1.1177973333333333, "grad_norm": 5.98655366897583, "learning_rate": 5.542245989304813e-06, "loss": 0.163, "step": 83900 }, { "epoch": 1.1183306666666666, "grad_norm": 3.8818185329437256, "learning_rate": 5.536898395721926e-06, "loss": 0.1249, "step": 84000 }, { "epoch": 1.1183306666666666, "eval_test1_cer": 0.048444618716857124, "eval_test1_cer_norm": 0.033116430955410954, "eval_test1_loss": 0.1987341046333313, "eval_test1_runtime": 2124.9461, "eval_test1_samples_per_second": 1.177, "eval_test1_steps_per_second": 0.294, "eval_test1_wer": 0.14729292399195312, "eval_test1_wer_norm": 0.08699845115286829, "step": 84000 }, { "epoch": 1.1183306666666666, "eval_test2_cer": 0.09303020121700825, "eval_test2_cer_norm": 0.07234370158041524, "eval_test2_loss": 0.3435490131378174, "eval_test2_runtime": 2145.6131, "eval_test2_samples_per_second": 1.165, "eval_test2_steps_per_second": 0.291, "eval_test2_wer": 0.212949187457084, "eval_test2_wer_norm": 0.14697455878982352, "step": 84000 }, { "epoch": 1.118864, "grad_norm": 40.67521667480469, "learning_rate": 5.531550802139038e-06, "loss": 0.1651, "step": 84100 }, { "epoch": 1.1193973333333334, "grad_norm": 5.205287456512451, "learning_rate": 5.52620320855615e-06, "loss": 0.1524, "step": 84200 }, { "epoch": 1.1199306666666666, "grad_norm": 6.6449103355407715, "learning_rate": 5.520909090909091e-06, "loss": 0.1564, "step": 84300 }, { "epoch": 1.120464, "grad_norm": 9.717949867248535, "learning_rate": 5.515561497326204e-06, "loss": 0.1533, "step": 84400 }, { "epoch": 1.1209973333333334, "grad_norm": 3.964747428894043, "learning_rate": 5.510213903743316e-06, "loss": 0.143, "step": 84500 }, { "epoch": 1.1215306666666667, "grad_norm": 3.801544427871704, "learning_rate": 5.5048663101604285e-06, "loss": 0.1587, "step": 84600 }, { "epoch": 1.122064, "grad_norm": 4.241644859313965, "learning_rate": 5.499518716577541e-06, "loss": 0.1569, "step": 84700 }, { "epoch": 1.1225973333333332, "grad_norm": 4.932116985321045, "learning_rate": 5.494171122994653e-06, "loss": 0.1434, "step": 84800 }, { "epoch": 1.1231306666666667, "grad_norm": 10.861743927001953, "learning_rate": 5.4888235294117656e-06, "loss": 0.1504, "step": 84900 }, { "epoch": 1.123664, "grad_norm": 5.011098861694336, "learning_rate": 5.4834759358288765e-06, "loss": 0.1676, "step": 85000 }, { "epoch": 1.1241973333333333, "grad_norm": 3.0942485332489014, "learning_rate": 5.47812834224599e-06, "loss": 0.1473, "step": 85100 }, { "epoch": 1.1247306666666668, "grad_norm": 5.231477737426758, "learning_rate": 5.472780748663103e-06, "loss": 0.1483, "step": 85200 }, { "epoch": 1.125264, "grad_norm": 4.106387138366699, "learning_rate": 5.467433155080214e-06, "loss": 0.1334, "step": 85300 }, { "epoch": 1.1257973333333333, "grad_norm": 4.477576732635498, "learning_rate": 5.462085561497326e-06, "loss": 0.1467, "step": 85400 }, { "epoch": 1.1263306666666666, "grad_norm": 5.523581027984619, "learning_rate": 5.45673796791444e-06, "loss": 0.1383, "step": 85500 }, { "epoch": 1.126864, "grad_norm": 5.863260746002197, "learning_rate": 5.451390374331551e-06, "loss": 0.1697, "step": 85600 }, { "epoch": 1.1273973333333334, "grad_norm": 9.997591972351074, "learning_rate": 5.446042780748663e-06, "loss": 0.1481, "step": 85700 }, { "epoch": 1.1279306666666666, "grad_norm": 3.379844903945923, "learning_rate": 5.440695187165775e-06, "loss": 0.1637, "step": 85800 }, { "epoch": 1.128464, "grad_norm": 9.490504264831543, "learning_rate": 5.435347593582888e-06, "loss": 0.1529, "step": 85900 }, { "epoch": 1.1289973333333334, "grad_norm": 4.500365734100342, "learning_rate": 5.4300000000000005e-06, "loss": 0.1552, "step": 86000 }, { "epoch": 1.1295306666666667, "grad_norm": 3.6494979858398438, "learning_rate": 5.424652406417112e-06, "loss": 0.1405, "step": 86100 }, { "epoch": 1.130064, "grad_norm": 2.615013837814331, "learning_rate": 5.419304812834225e-06, "loss": 0.1467, "step": 86200 }, { "epoch": 1.1305973333333332, "grad_norm": 5.893428325653076, "learning_rate": 5.413957219251338e-06, "loss": 0.1409, "step": 86300 }, { "epoch": 1.1311306666666667, "grad_norm": 4.639662742614746, "learning_rate": 5.4086096256684494e-06, "loss": 0.149, "step": 86400 }, { "epoch": 1.131664, "grad_norm": 10.171916007995605, "learning_rate": 5.403262032085562e-06, "loss": 0.1539, "step": 86500 }, { "epoch": 1.1321973333333333, "grad_norm": 3.7675387859344482, "learning_rate": 5.397914438502674e-06, "loss": 0.1539, "step": 86600 }, { "epoch": 1.1327306666666668, "grad_norm": 2.8298020362854004, "learning_rate": 5.3925668449197866e-06, "loss": 0.1484, "step": 86700 }, { "epoch": 1.133264, "grad_norm": 7.889842987060547, "learning_rate": 5.387272727272728e-06, "loss": 0.1477, "step": 86800 }, { "epoch": 1.1337973333333333, "grad_norm": 5.947166442871094, "learning_rate": 5.38192513368984e-06, "loss": 0.1524, "step": 86900 }, { "epoch": 1.1343306666666666, "grad_norm": 5.8902692794799805, "learning_rate": 5.376577540106952e-06, "loss": 0.1516, "step": 87000 }, { "epoch": 1.134864, "grad_norm": 2.210515022277832, "learning_rate": 5.371229946524065e-06, "loss": 0.1514, "step": 87100 }, { "epoch": 1.1353973333333334, "grad_norm": 4.232455253601074, "learning_rate": 5.365882352941177e-06, "loss": 0.1485, "step": 87200 }, { "epoch": 1.1359306666666666, "grad_norm": 4.455716133117676, "learning_rate": 5.360534759358289e-06, "loss": 0.1406, "step": 87300 }, { "epoch": 1.136464, "grad_norm": 4.463954925537109, "learning_rate": 5.355187165775402e-06, "loss": 0.1447, "step": 87400 }, { "epoch": 1.1369973333333334, "grad_norm": 4.620913028717041, "learning_rate": 5.349839572192514e-06, "loss": 0.1766, "step": 87500 }, { "epoch": 1.1375306666666667, "grad_norm": 3.975593328475952, "learning_rate": 5.344491978609626e-06, "loss": 0.1479, "step": 87600 }, { "epoch": 1.138064, "grad_norm": 4.236740589141846, "learning_rate": 5.339144385026739e-06, "loss": 0.1607, "step": 87700 }, { "epoch": 1.1385973333333332, "grad_norm": 10.003177642822266, "learning_rate": 5.333796791443851e-06, "loss": 0.1449, "step": 87800 }, { "epoch": 1.1391306666666667, "grad_norm": 5.598151683807373, "learning_rate": 5.328449197860963e-06, "loss": 0.1525, "step": 87900 }, { "epoch": 1.139664, "grad_norm": 11.532898902893066, "learning_rate": 5.323101604278074e-06, "loss": 0.1622, "step": 88000 }, { "epoch": 1.1401973333333333, "grad_norm": 7.378108978271484, "learning_rate": 5.317754010695188e-06, "loss": 0.1746, "step": 88100 }, { "epoch": 1.1407306666666668, "grad_norm": 4.173070430755615, "learning_rate": 5.3124064171123005e-06, "loss": 0.1358, "step": 88200 }, { "epoch": 1.141264, "grad_norm": 5.982913494110107, "learning_rate": 5.3070588235294115e-06, "loss": 0.1418, "step": 88300 }, { "epoch": 1.1417973333333333, "grad_norm": 3.658906936645508, "learning_rate": 5.301711229946524e-06, "loss": 0.166, "step": 88400 }, { "epoch": 1.1423306666666666, "grad_norm": 5.014578819274902, "learning_rate": 5.296363636363638e-06, "loss": 0.1525, "step": 88500 }, { "epoch": 1.1428639999999999, "grad_norm": 3.264373779296875, "learning_rate": 5.291016042780749e-06, "loss": 0.1549, "step": 88600 }, { "epoch": 1.1433973333333334, "grad_norm": 4.393270492553711, "learning_rate": 5.285668449197861e-06, "loss": 0.157, "step": 88700 }, { "epoch": 1.1439306666666667, "grad_norm": 5.189852237701416, "learning_rate": 5.280374331550803e-06, "loss": 0.1466, "step": 88800 }, { "epoch": 1.144464, "grad_norm": 5.295141696929932, "learning_rate": 5.275026737967916e-06, "loss": 0.146, "step": 88900 }, { "epoch": 1.1449973333333334, "grad_norm": 6.3149237632751465, "learning_rate": 5.269679144385027e-06, "loss": 0.1541, "step": 89000 }, { "epoch": 1.1455306666666667, "grad_norm": 4.621565818786621, "learning_rate": 5.264331550802139e-06, "loss": 0.1509, "step": 89100 }, { "epoch": 1.146064, "grad_norm": 6.199880123138428, "learning_rate": 5.258983957219251e-06, "loss": 0.1453, "step": 89200 }, { "epoch": 1.1465973333333332, "grad_norm": 5.544088840484619, "learning_rate": 5.253636363636364e-06, "loss": 0.1548, "step": 89300 }, { "epoch": 1.1471306666666667, "grad_norm": 2.598500967025757, "learning_rate": 5.2482887700534765e-06, "loss": 0.1427, "step": 89400 }, { "epoch": 1.147664, "grad_norm": 5.825984954833984, "learning_rate": 5.242941176470588e-06, "loss": 0.1465, "step": 89500 }, { "epoch": 1.1481973333333333, "grad_norm": 8.207324028015137, "learning_rate": 5.237593582887701e-06, "loss": 0.1377, "step": 89600 }, { "epoch": 1.1487306666666668, "grad_norm": 5.7945780754089355, "learning_rate": 5.232245989304813e-06, "loss": 0.1393, "step": 89700 }, { "epoch": 1.149264, "grad_norm": 4.425704479217529, "learning_rate": 5.2268983957219254e-06, "loss": 0.1319, "step": 89800 }, { "epoch": 1.1497973333333333, "grad_norm": 5.2009735107421875, "learning_rate": 5.221550802139038e-06, "loss": 0.1473, "step": 89900 }, { "epoch": 1.1503306666666666, "grad_norm": 4.980434417724609, "learning_rate": 5.21620320855615e-06, "loss": 0.1655, "step": 90000 }, { "epoch": 1.1508639999999999, "grad_norm": 6.4824628829956055, "learning_rate": 5.2108556149732625e-06, "loss": 0.144, "step": 90100 }, { "epoch": 1.1513973333333334, "grad_norm": 9.230437278747559, "learning_rate": 5.205508021390375e-06, "loss": 0.1763, "step": 90200 }, { "epoch": 1.1519306666666667, "grad_norm": 5.614940166473389, "learning_rate": 5.200160427807487e-06, "loss": 0.1369, "step": 90300 }, { "epoch": 1.152464, "grad_norm": 6.480221748352051, "learning_rate": 5.1948128342246e-06, "loss": 0.1432, "step": 90400 }, { "epoch": 1.1529973333333334, "grad_norm": 9.40231990814209, "learning_rate": 5.1894652406417115e-06, "loss": 0.1387, "step": 90500 }, { "epoch": 1.1535306666666667, "grad_norm": 4.913603782653809, "learning_rate": 5.184117647058824e-06, "loss": 0.1449, "step": 90600 }, { "epoch": 1.154064, "grad_norm": 3.3521041870117188, "learning_rate": 5.178770053475937e-06, "loss": 0.1317, "step": 90700 }, { "epoch": 1.1545973333333333, "grad_norm": 6.823641300201416, "learning_rate": 5.173422459893049e-06, "loss": 0.138, "step": 90800 }, { "epoch": 1.1551306666666667, "grad_norm": 5.608401298522949, "learning_rate": 5.168074866310161e-06, "loss": 0.1393, "step": 90900 }, { "epoch": 1.155664, "grad_norm": 6.811581134796143, "learning_rate": 5.162727272727274e-06, "loss": 0.1333, "step": 91000 }, { "epoch": 1.1561973333333333, "grad_norm": 10.15778636932373, "learning_rate": 5.157433155080215e-06, "loss": 0.1476, "step": 91100 }, { "epoch": 1.1567306666666666, "grad_norm": 8.289910316467285, "learning_rate": 5.152085561497327e-06, "loss": 0.1477, "step": 91200 }, { "epoch": 1.157264, "grad_norm": 6.290119171142578, "learning_rate": 5.146737967914439e-06, "loss": 0.1349, "step": 91300 }, { "epoch": 1.1577973333333333, "grad_norm": 1.6220190525054932, "learning_rate": 5.14139037433155e-06, "loss": 0.1486, "step": 91400 }, { "epoch": 1.1583306666666666, "grad_norm": 6.113744735717773, "learning_rate": 5.136042780748664e-06, "loss": 0.1548, "step": 91500 }, { "epoch": 1.158864, "grad_norm": 10.585214614868164, "learning_rate": 5.1306951871657765e-06, "loss": 0.1449, "step": 91600 }, { "epoch": 1.1593973333333334, "grad_norm": 2.5166122913360596, "learning_rate": 5.1253475935828875e-06, "loss": 0.1444, "step": 91700 }, { "epoch": 1.1599306666666667, "grad_norm": 9.606341361999512, "learning_rate": 5.12e-06, "loss": 0.1424, "step": 91800 }, { "epoch": 1.160464, "grad_norm": 4.247699737548828, "learning_rate": 5.114652406417114e-06, "loss": 0.1403, "step": 91900 }, { "epoch": 1.1609973333333334, "grad_norm": 8.157188415527344, "learning_rate": 5.1093048128342246e-06, "loss": 0.1537, "step": 92000 }, { "epoch": 1.1615306666666667, "grad_norm": 5.707554817199707, "learning_rate": 5.103957219251337e-06, "loss": 0.1403, "step": 92100 }, { "epoch": 1.162064, "grad_norm": 4.530880928039551, "learning_rate": 5.098609625668449e-06, "loss": 0.1539, "step": 92200 }, { "epoch": 1.1625973333333333, "grad_norm": 6.606838226318359, "learning_rate": 5.093262032085562e-06, "loss": 0.159, "step": 92300 }, { "epoch": 1.1631306666666668, "grad_norm": 4.760306358337402, "learning_rate": 5.087914438502674e-06, "loss": 0.1444, "step": 92400 }, { "epoch": 1.163664, "grad_norm": 4.329047679901123, "learning_rate": 5.082566844919786e-06, "loss": 0.153, "step": 92500 }, { "epoch": 1.1641973333333333, "grad_norm": 6.385410785675049, "learning_rate": 5.077219251336899e-06, "loss": 0.1355, "step": 92600 }, { "epoch": 1.1647306666666666, "grad_norm": 5.001590251922607, "learning_rate": 5.071871657754011e-06, "loss": 0.129, "step": 92700 }, { "epoch": 1.165264, "grad_norm": 7.542405605316162, "learning_rate": 5.066524064171123e-06, "loss": 0.1422, "step": 92800 }, { "epoch": 1.1657973333333334, "grad_norm": 4.104416847229004, "learning_rate": 5.061176470588236e-06, "loss": 0.1399, "step": 92900 }, { "epoch": 1.1663306666666666, "grad_norm": 11.559596061706543, "learning_rate": 5.055828877005348e-06, "loss": 0.162, "step": 93000 }, { "epoch": 1.166864, "grad_norm": 5.248695373535156, "learning_rate": 5.05048128342246e-06, "loss": 0.1446, "step": 93100 }, { "epoch": 1.1673973333333334, "grad_norm": 3.1657233238220215, "learning_rate": 5.045187165775401e-06, "loss": 0.1364, "step": 93200 }, { "epoch": 1.1679306666666667, "grad_norm": 5.518548011779785, "learning_rate": 5.039839572192514e-06, "loss": 0.1438, "step": 93300 }, { "epoch": 1.168464, "grad_norm": 5.633777618408203, "learning_rate": 5.034491978609626e-06, "loss": 0.1445, "step": 93400 }, { "epoch": 1.1689973333333334, "grad_norm": 2.13727068901062, "learning_rate": 5.0291443850267385e-06, "loss": 0.1372, "step": 93500 }, { "epoch": 1.1695306666666667, "grad_norm": 5.25443696975708, "learning_rate": 5.02379679144385e-06, "loss": 0.1469, "step": 93600 }, { "epoch": 1.170064, "grad_norm": 4.035547733306885, "learning_rate": 5.018449197860963e-06, "loss": 0.144, "step": 93700 }, { "epoch": 1.1705973333333333, "grad_norm": 6.450521469116211, "learning_rate": 5.013101604278076e-06, "loss": 0.1328, "step": 93800 }, { "epoch": 1.1711306666666665, "grad_norm": 8.927046775817871, "learning_rate": 5.0077540106951874e-06, "loss": 0.151, "step": 93900 }, { "epoch": 1.171664, "grad_norm": 2.8760769367218018, "learning_rate": 5.0024064171123e-06, "loss": 0.1391, "step": 94000 }, { "epoch": 1.1721973333333333, "grad_norm": 2.482056140899658, "learning_rate": 4.997058823529412e-06, "loss": 0.1595, "step": 94100 }, { "epoch": 1.1727306666666666, "grad_norm": 4.498416900634766, "learning_rate": 4.9917112299465246e-06, "loss": 0.1453, "step": 94200 }, { "epoch": 1.173264, "grad_norm": 2.8342511653900146, "learning_rate": 4.986363636363637e-06, "loss": 0.1338, "step": 94300 }, { "epoch": 1.1737973333333334, "grad_norm": 17.421430587768555, "learning_rate": 4.981016042780749e-06, "loss": 0.1416, "step": 94400 }, { "epoch": 1.1743306666666666, "grad_norm": 2.549630880355835, "learning_rate": 4.975668449197862e-06, "loss": 0.1534, "step": 94500 }, { "epoch": 1.174864, "grad_norm": 6.585552215576172, "learning_rate": 4.9703208556149735e-06, "loss": 0.1569, "step": 94600 }, { "epoch": 1.1753973333333334, "grad_norm": 4.437183856964111, "learning_rate": 4.964973262032086e-06, "loss": 0.1569, "step": 94700 }, { "epoch": 1.1759306666666667, "grad_norm": 9.079911231994629, "learning_rate": 4.959625668449198e-06, "loss": 0.1539, "step": 94800 }, { "epoch": 1.176464, "grad_norm": 6.08033561706543, "learning_rate": 4.954278074866311e-06, "loss": 0.1488, "step": 94900 }, { "epoch": 1.1769973333333335, "grad_norm": 6.012932300567627, "learning_rate": 4.948930481283422e-06, "loss": 0.1415, "step": 95000 }, { "epoch": 1.1775306666666667, "grad_norm": 5.424774646759033, "learning_rate": 4.943582887700535e-06, "loss": 0.144, "step": 95100 }, { "epoch": 1.178064, "grad_norm": 3.0930702686309814, "learning_rate": 4.938235294117648e-06, "loss": 0.1661, "step": 95200 }, { "epoch": 1.1785973333333333, "grad_norm": 3.7023885250091553, "learning_rate": 4.9328877005347595e-06, "loss": 0.1328, "step": 95300 }, { "epoch": 1.1791306666666665, "grad_norm": 5.709500789642334, "learning_rate": 4.927540106951872e-06, "loss": 0.1456, "step": 95400 }, { "epoch": 1.179664, "grad_norm": 20.10743522644043, "learning_rate": 4.922192513368985e-06, "loss": 0.1652, "step": 95500 }, { "epoch": 1.1801973333333333, "grad_norm": 10.560723304748535, "learning_rate": 4.916898395721926e-06, "loss": 0.1902, "step": 95600 }, { "epoch": 1.1807306666666666, "grad_norm": 2.6477322578430176, "learning_rate": 4.911550802139038e-06, "loss": 0.1733, "step": 95700 }, { "epoch": 1.181264, "grad_norm": 8.090988159179688, "learning_rate": 4.90620320855615e-06, "loss": 0.1387, "step": 95800 }, { "epoch": 1.1817973333333334, "grad_norm": 4.8703813552856445, "learning_rate": 4.900855614973262e-06, "loss": 0.1165, "step": 95900 }, { "epoch": 1.1823306666666666, "grad_norm": 2.08231258392334, "learning_rate": 4.895508021390375e-06, "loss": 0.1467, "step": 96000 }, { "epoch": 1.1823306666666666, "eval_test1_cer": 0.04731029203077153, "eval_test1_cer_norm": 0.032967560688645044, "eval_test1_loss": 0.19079577922821045, "eval_test1_runtime": 2142.3109, "eval_test1_samples_per_second": 1.167, "eval_test1_steps_per_second": 0.292, "eval_test1_wer": 0.14461063004752325, "eval_test1_wer_norm": 0.0858295099213887, "step": 96000 }, { "epoch": 1.1823306666666666, "eval_test2_cer": 0.09162093552842797, "eval_test2_cer_norm": 0.07124941896498295, "eval_test2_loss": 0.3367946147918701, "eval_test2_runtime": 2151.5621, "eval_test2_samples_per_second": 1.162, "eval_test2_steps_per_second": 0.29, "eval_test2_wer": 0.2130064087891966, "eval_test2_wer_norm": 0.14648750859500345, "step": 96000 }, { "epoch": 1.182864, "grad_norm": 5.135793209075928, "learning_rate": 4.8901604278074874e-06, "loss": 0.164, "step": 96100 }, { "epoch": 1.1833973333333334, "grad_norm": 4.244722366333008, "learning_rate": 4.884812834224599e-06, "loss": 0.1524, "step": 96200 }, { "epoch": 1.1839306666666667, "grad_norm": 4.589010715484619, "learning_rate": 4.879465240641711e-06, "loss": 0.125, "step": 96300 }, { "epoch": 1.184464, "grad_norm": 8.201160430908203, "learning_rate": 4.8741176470588245e-06, "loss": 0.1489, "step": 96400 }, { "epoch": 1.1849973333333335, "grad_norm": 6.3101420402526855, "learning_rate": 4.868770053475936e-06, "loss": 0.1442, "step": 96500 }, { "epoch": 1.1855306666666667, "grad_norm": 6.8027472496032715, "learning_rate": 4.863422459893048e-06, "loss": 0.1405, "step": 96600 }, { "epoch": 1.186064, "grad_norm": 3.6359167098999023, "learning_rate": 4.858074866310161e-06, "loss": 0.1314, "step": 96700 }, { "epoch": 1.1865973333333333, "grad_norm": 10.224267959594727, "learning_rate": 4.8527272727272735e-06, "loss": 0.1672, "step": 96800 }, { "epoch": 1.1871306666666666, "grad_norm": 8.587698936462402, "learning_rate": 4.847379679144385e-06, "loss": 0.1493, "step": 96900 }, { "epoch": 1.187664, "grad_norm": 2.6412084102630615, "learning_rate": 4.842032085561498e-06, "loss": 0.135, "step": 97000 }, { "epoch": 1.1881973333333333, "grad_norm": 3.8747661113739014, "learning_rate": 4.83668449197861e-06, "loss": 0.1489, "step": 97100 }, { "epoch": 1.1887306666666666, "grad_norm": 10.398863792419434, "learning_rate": 4.831336898395722e-06, "loss": 0.1534, "step": 97200 }, { "epoch": 1.189264, "grad_norm": 5.210137367248535, "learning_rate": 4.825989304812835e-06, "loss": 0.1388, "step": 97300 }, { "epoch": 1.1897973333333334, "grad_norm": 5.457757949829102, "learning_rate": 4.820641711229947e-06, "loss": 0.1365, "step": 97400 }, { "epoch": 1.1903306666666666, "grad_norm": 6.749108791351318, "learning_rate": 4.8152941176470595e-06, "loss": 0.1304, "step": 97500 }, { "epoch": 1.190864, "grad_norm": 4.512848854064941, "learning_rate": 4.809946524064171e-06, "loss": 0.1432, "step": 97600 }, { "epoch": 1.1913973333333334, "grad_norm": 5.969982624053955, "learning_rate": 4.804652406417113e-06, "loss": 0.1257, "step": 97700 }, { "epoch": 1.1919306666666667, "grad_norm": 7.111292362213135, "learning_rate": 4.799304812834225e-06, "loss": 0.1303, "step": 97800 }, { "epoch": 1.192464, "grad_norm": 8.217161178588867, "learning_rate": 4.793957219251338e-06, "loss": 0.1536, "step": 97900 }, { "epoch": 1.1929973333333332, "grad_norm": 8.835061073303223, "learning_rate": 4.7886096256684495e-06, "loss": 0.1265, "step": 98000 }, { "epoch": 1.1935306666666667, "grad_norm": 3.51847243309021, "learning_rate": 4.783262032085561e-06, "loss": 0.1317, "step": 98100 }, { "epoch": 1.194064, "grad_norm": 8.751964569091797, "learning_rate": 4.777914438502674e-06, "loss": 0.1531, "step": 98200 }, { "epoch": 1.1945973333333333, "grad_norm": 6.674391269683838, "learning_rate": 4.7725668449197866e-06, "loss": 0.1539, "step": 98300 }, { "epoch": 1.1951306666666666, "grad_norm": 5.250070095062256, "learning_rate": 4.767219251336898e-06, "loss": 0.1319, "step": 98400 }, { "epoch": 1.195664, "grad_norm": 4.121079921722412, "learning_rate": 4.761871657754011e-06, "loss": 0.1491, "step": 98500 }, { "epoch": 1.1961973333333333, "grad_norm": 2.42029070854187, "learning_rate": 4.756524064171124e-06, "loss": 0.1444, "step": 98600 }, { "epoch": 1.1967306666666666, "grad_norm": 6.06485652923584, "learning_rate": 4.7511764705882355e-06, "loss": 0.1195, "step": 98700 }, { "epoch": 1.197264, "grad_norm": 5.080596446990967, "learning_rate": 4.745828877005348e-06, "loss": 0.1373, "step": 98800 }, { "epoch": 1.1977973333333334, "grad_norm": 8.494025230407715, "learning_rate": 4.74048128342246e-06, "loss": 0.1324, "step": 98900 }, { "epoch": 1.1983306666666667, "grad_norm": 3.6615583896636963, "learning_rate": 4.735133689839573e-06, "loss": 0.1504, "step": 99000 }, { "epoch": 1.198864, "grad_norm": 6.227556228637695, "learning_rate": 4.729786096256685e-06, "loss": 0.1638, "step": 99100 }, { "epoch": 1.1993973333333334, "grad_norm": 5.369767189025879, "learning_rate": 4.724438502673797e-06, "loss": 0.1408, "step": 99200 }, { "epoch": 1.1999306666666667, "grad_norm": 4.8275957107543945, "learning_rate": 4.719090909090909e-06, "loss": 0.1376, "step": 99300 }, { "epoch": 1.200464, "grad_norm": 7.644768238067627, "learning_rate": 4.713743315508022e-06, "loss": 0.1503, "step": 99400 }, { "epoch": 1.2009973333333333, "grad_norm": 4.966317176818848, "learning_rate": 4.708395721925134e-06, "loss": 0.1372, "step": 99500 }, { "epoch": 1.2015306666666667, "grad_norm": 5.881084442138672, "learning_rate": 4.703048128342246e-06, "loss": 0.1371, "step": 99600 }, { "epoch": 1.202064, "grad_norm": 4.857972621917725, "learning_rate": 4.697700534759359e-06, "loss": 0.1395, "step": 99700 }, { "epoch": 1.2025973333333333, "grad_norm": 6.1291961669921875, "learning_rate": 4.6924064171123e-06, "loss": 0.1534, "step": 99800 }, { "epoch": 1.2031306666666666, "grad_norm": 5.6414923667907715, "learning_rate": 4.687058823529412e-06, "loss": 0.1455, "step": 99900 }, { "epoch": 1.203664, "grad_norm": 3.112164258956909, "learning_rate": 4.681711229946524e-06, "loss": 0.134, "step": 100000 }, { "epoch": 1.2041973333333333, "grad_norm": 8.959375381469727, "learning_rate": 4.676363636363637e-06, "loss": 0.1443, "step": 100100 }, { "epoch": 1.2047306666666666, "grad_norm": 12.206531524658203, "learning_rate": 4.671016042780749e-06, "loss": 0.1375, "step": 100200 }, { "epoch": 1.2052640000000001, "grad_norm": 4.698019027709961, "learning_rate": 4.665668449197861e-06, "loss": 0.1441, "step": 100300 }, { "epoch": 1.2057973333333334, "grad_norm": 6.094674110412598, "learning_rate": 4.660320855614974e-06, "loss": 0.1485, "step": 100400 }, { "epoch": 1.2063306666666667, "grad_norm": 2.648688316345215, "learning_rate": 4.654973262032086e-06, "loss": 0.147, "step": 100500 }, { "epoch": 1.206864, "grad_norm": 6.178513050079346, "learning_rate": 4.649625668449198e-06, "loss": 0.1442, "step": 100600 }, { "epoch": 1.2073973333333332, "grad_norm": 4.106546401977539, "learning_rate": 4.644278074866311e-06, "loss": 0.1366, "step": 100700 }, { "epoch": 1.2079306666666667, "grad_norm": 8.09306812286377, "learning_rate": 4.638930481283423e-06, "loss": 0.1474, "step": 100800 }, { "epoch": 1.208464, "grad_norm": 6.716427803039551, "learning_rate": 4.633636363636364e-06, "loss": 0.1281, "step": 100900 }, { "epoch": 1.2089973333333333, "grad_norm": 1.818036437034607, "learning_rate": 4.6282887700534765e-06, "loss": 0.1393, "step": 101000 }, { "epoch": 1.2095306666666668, "grad_norm": 2.1341774463653564, "learning_rate": 4.622941176470588e-06, "loss": 0.1422, "step": 101100 }, { "epoch": 1.210064, "grad_norm": 5.999019622802734, "learning_rate": 4.617593582887701e-06, "loss": 0.1151, "step": 101200 }, { "epoch": 1.2105973333333333, "grad_norm": 8.68145751953125, "learning_rate": 4.612245989304814e-06, "loss": 0.1397, "step": 101300 }, { "epoch": 1.2111306666666666, "grad_norm": 4.503642559051514, "learning_rate": 4.6068983957219254e-06, "loss": 0.1394, "step": 101400 }, { "epoch": 1.211664, "grad_norm": 4.624106407165527, "learning_rate": 4.601550802139037e-06, "loss": 0.1271, "step": 101500 }, { "epoch": 1.2121973333333333, "grad_norm": 8.10131549835205, "learning_rate": 4.596203208556151e-06, "loss": 0.1761, "step": 101600 }, { "epoch": 1.2127306666666666, "grad_norm": 1.4735500812530518, "learning_rate": 4.5908556149732625e-06, "loss": 0.1447, "step": 101700 }, { "epoch": 1.2132640000000001, "grad_norm": 5.942348480224609, "learning_rate": 4.585508021390374e-06, "loss": 0.1381, "step": 101800 }, { "epoch": 1.2137973333333334, "grad_norm": 6.857357978820801, "learning_rate": 4.580160427807487e-06, "loss": 0.145, "step": 101900 }, { "epoch": 1.2143306666666667, "grad_norm": 7.160444259643555, "learning_rate": 4.5748128342246e-06, "loss": 0.1535, "step": 102000 }, { "epoch": 1.214864, "grad_norm": 5.929485321044922, "learning_rate": 4.5694652406417115e-06, "loss": 0.149, "step": 102100 }, { "epoch": 1.2153973333333332, "grad_norm": 4.391348361968994, "learning_rate": 4.564117647058824e-06, "loss": 0.14, "step": 102200 }, { "epoch": 1.2159306666666667, "grad_norm": 0.8175415992736816, "learning_rate": 4.558770053475936e-06, "loss": 0.1329, "step": 102300 }, { "epoch": 1.216464, "grad_norm": 7.916337013244629, "learning_rate": 4.553422459893049e-06, "loss": 0.1553, "step": 102400 }, { "epoch": 1.2169973333333333, "grad_norm": 4.7575836181640625, "learning_rate": 4.548074866310161e-06, "loss": 0.137, "step": 102500 }, { "epoch": 1.2175306666666668, "grad_norm": 6.931032657623291, "learning_rate": 4.542727272727273e-06, "loss": 0.1342, "step": 102600 }, { "epoch": 1.218064, "grad_norm": 5.136956214904785, "learning_rate": 4.537379679144385e-06, "loss": 0.1311, "step": 102700 }, { "epoch": 1.2185973333333333, "grad_norm": 6.551979064941406, "learning_rate": 4.5320320855614975e-06, "loss": 0.1382, "step": 102800 }, { "epoch": 1.2191306666666666, "grad_norm": 3.974525213241577, "learning_rate": 4.52668449197861e-06, "loss": 0.1475, "step": 102900 }, { "epoch": 1.219664, "grad_norm": 5.757751941680908, "learning_rate": 4.521336898395722e-06, "loss": 0.1436, "step": 103000 }, { "epoch": 1.2201973333333334, "grad_norm": 5.243391036987305, "learning_rate": 4.515989304812835e-06, "loss": 0.1242, "step": 103100 }, { "epoch": 1.2207306666666666, "grad_norm": 5.355340957641602, "learning_rate": 4.5106417112299464e-06, "loss": 0.1451, "step": 103200 }, { "epoch": 1.221264, "grad_norm": 6.3384222984313965, "learning_rate": 4.505294117647059e-06, "loss": 0.1361, "step": 103300 }, { "epoch": 1.2217973333333334, "grad_norm": 7.357839107513428, "learning_rate": 4.499946524064172e-06, "loss": 0.137, "step": 103400 }, { "epoch": 1.2223306666666667, "grad_norm": 7.657467842102051, "learning_rate": 4.4945989304812835e-06, "loss": 0.1349, "step": 103500 }, { "epoch": 1.222864, "grad_norm": 5.005768775939941, "learning_rate": 4.489251336898396e-06, "loss": 0.1296, "step": 103600 }, { "epoch": 1.2233973333333332, "grad_norm": 8.394399642944336, "learning_rate": 4.483903743315509e-06, "loss": 0.14, "step": 103700 }, { "epoch": 1.2239306666666667, "grad_norm": 7.510332107543945, "learning_rate": 4.478556149732621e-06, "loss": 0.1288, "step": 103800 }, { "epoch": 1.224464, "grad_norm": 7.382374286651611, "learning_rate": 4.473208556149733e-06, "loss": 0.1319, "step": 103900 }, { "epoch": 1.2249973333333333, "grad_norm": 1.9202516078948975, "learning_rate": 4.467860962566845e-06, "loss": 0.1307, "step": 104000 }, { "epoch": 1.2255306666666668, "grad_norm": 5.342925548553467, "learning_rate": 4.462513368983958e-06, "loss": 0.1451, "step": 104100 }, { "epoch": 1.226064, "grad_norm": 3.894153118133545, "learning_rate": 4.45716577540107e-06, "loss": 0.1309, "step": 104200 }, { "epoch": 1.2265973333333333, "grad_norm": 2.822234869003296, "learning_rate": 4.451818181818182e-06, "loss": 0.1255, "step": 104300 }, { "epoch": 1.2271306666666666, "grad_norm": 6.261260986328125, "learning_rate": 4.446470588235294e-06, "loss": 0.1547, "step": 104400 }, { "epoch": 1.227664, "grad_norm": 7.672061443328857, "learning_rate": 4.441122994652407e-06, "loss": 0.1433, "step": 104500 }, { "epoch": 1.2281973333333334, "grad_norm": 4.56577730178833, "learning_rate": 4.435775401069519e-06, "loss": 0.1254, "step": 104600 }, { "epoch": 1.2287306666666666, "grad_norm": 6.631402492523193, "learning_rate": 4.430427807486631e-06, "loss": 0.1492, "step": 104700 }, { "epoch": 1.229264, "grad_norm": 5.153712272644043, "learning_rate": 4.425080213903744e-06, "loss": 0.1403, "step": 104800 }, { "epoch": 1.2297973333333334, "grad_norm": 5.3576178550720215, "learning_rate": 4.419786096256685e-06, "loss": 0.1494, "step": 104900 }, { "epoch": 1.2303306666666667, "grad_norm": 2.1277267932891846, "learning_rate": 4.4144385026737975e-06, "loss": 0.1368, "step": 105000 }, { "epoch": 1.230864, "grad_norm": 6.326502799987793, "learning_rate": 4.409090909090909e-06, "loss": 0.143, "step": 105100 }, { "epoch": 1.2313973333333332, "grad_norm": 10.990684509277344, "learning_rate": 4.403743315508022e-06, "loss": 0.1507, "step": 105200 }, { "epoch": 1.2319306666666667, "grad_norm": 4.10306453704834, "learning_rate": 4.398395721925134e-06, "loss": 0.1377, "step": 105300 }, { "epoch": 1.232464, "grad_norm": 9.385236740112305, "learning_rate": 4.393048128342246e-06, "loss": 0.1363, "step": 105400 }, { "epoch": 1.2329973333333333, "grad_norm": 1.1995395421981812, "learning_rate": 4.387700534759359e-06, "loss": 0.1333, "step": 105500 }, { "epoch": 1.2335306666666668, "grad_norm": 12.861162185668945, "learning_rate": 4.382352941176471e-06, "loss": 0.1285, "step": 105600 }, { "epoch": 1.234064, "grad_norm": 3.6938436031341553, "learning_rate": 4.377005347593583e-06, "loss": 0.1353, "step": 105700 }, { "epoch": 1.2345973333333333, "grad_norm": 4.026907444000244, "learning_rate": 4.371657754010696e-06, "loss": 0.1442, "step": 105800 }, { "epoch": 1.2351306666666666, "grad_norm": 2.208775043487549, "learning_rate": 4.366310160427808e-06, "loss": 0.1385, "step": 105900 }, { "epoch": 1.235664, "grad_norm": 5.015665054321289, "learning_rate": 4.36096256684492e-06, "loss": 0.1329, "step": 106000 }, { "epoch": 1.2361973333333334, "grad_norm": 3.1480512619018555, "learning_rate": 4.3556149732620325e-06, "loss": 0.153, "step": 106100 }, { "epoch": 1.2367306666666666, "grad_norm": 3.1722629070281982, "learning_rate": 4.350267379679144e-06, "loss": 0.1173, "step": 106200 }, { "epoch": 1.237264, "grad_norm": 4.148550033569336, "learning_rate": 4.344919786096257e-06, "loss": 0.14, "step": 106300 }, { "epoch": 1.2377973333333334, "grad_norm": 3.0238513946533203, "learning_rate": 4.3395721925133696e-06, "loss": 0.13, "step": 106400 }, { "epoch": 1.2383306666666667, "grad_norm": 7.950381278991699, "learning_rate": 4.334224598930481e-06, "loss": 0.1426, "step": 106500 }, { "epoch": 1.238864, "grad_norm": 3.2357594966888428, "learning_rate": 4.328877005347594e-06, "loss": 0.1484, "step": 106600 }, { "epoch": 1.2393973333333332, "grad_norm": 9.556913375854492, "learning_rate": 4.323529411764707e-06, "loss": 0.1403, "step": 106700 }, { "epoch": 1.2399306666666667, "grad_norm": 4.141242027282715, "learning_rate": 4.3181818181818185e-06, "loss": 0.1407, "step": 106800 }, { "epoch": 1.240464, "grad_norm": 3.695250988006592, "learning_rate": 4.312834224598931e-06, "loss": 0.1354, "step": 106900 }, { "epoch": 1.2409973333333333, "grad_norm": 6.783448696136475, "learning_rate": 4.307486631016043e-06, "loss": 0.149, "step": 107000 }, { "epoch": 1.2415306666666668, "grad_norm": 7.09694766998291, "learning_rate": 4.302139037433156e-06, "loss": 0.1411, "step": 107100 }, { "epoch": 1.242064, "grad_norm": 2.6681997776031494, "learning_rate": 4.296791443850267e-06, "loss": 0.1415, "step": 107200 }, { "epoch": 1.2425973333333333, "grad_norm": 3.970362424850464, "learning_rate": 4.291497326203209e-06, "loss": 0.1377, "step": 107300 }, { "epoch": 1.2431306666666666, "grad_norm": 4.157347679138184, "learning_rate": 4.286149732620321e-06, "loss": 0.1391, "step": 107400 }, { "epoch": 1.2436639999999999, "grad_norm": 4.654667377471924, "learning_rate": 4.280802139037433e-06, "loss": 0.1286, "step": 107500 }, { "epoch": 1.2441973333333334, "grad_norm": 6.353745460510254, "learning_rate": 4.2754545454545456e-06, "loss": 0.1412, "step": 107600 }, { "epoch": 1.2447306666666667, "grad_norm": 5.653110504150391, "learning_rate": 4.270106951871658e-06, "loss": 0.1414, "step": 107700 }, { "epoch": 1.245264, "grad_norm": 6.330296993255615, "learning_rate": 4.26475935828877e-06, "loss": 0.1481, "step": 107800 }, { "epoch": 1.2457973333333334, "grad_norm": 5.6205549240112305, "learning_rate": 4.259411764705883e-06, "loss": 0.1331, "step": 107900 }, { "epoch": 1.2463306666666667, "grad_norm": 8.861085891723633, "learning_rate": 4.254064171122995e-06, "loss": 0.1224, "step": 108000 }, { "epoch": 1.2463306666666667, "eval_test1_cer": 0.041624654567182014, "eval_test1_cer_norm": 0.027478569884985714, "eval_test1_loss": 0.19036027789115906, "eval_test1_runtime": 2029.4341, "eval_test1_samples_per_second": 1.232, "eval_test1_steps_per_second": 0.308, "eval_test1_wer": 0.13504766902825155, "eval_test1_wer_norm": 0.0753674858996464, "step": 108000 }, { "epoch": 1.2463306666666667, "eval_test2_cer": 0.08976835778549297, "eval_test2_cer_norm": 0.07038270839789278, "eval_test2_loss": 0.3368709087371826, "eval_test2_runtime": 2084.3352, "eval_test2_samples_per_second": 1.199, "eval_test2_steps_per_second": 0.3, "eval_test2_wer": 0.20591096360723277, "eval_test2_wer_norm": 0.13918175567270227, "step": 108000 } ], "logging_steps": 100, "max_steps": 187500, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 12000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 4.4089825823391744e+20, "train_batch_size": 4, "trial_name": null, "trial_params": null }