diff --git "a/trainer_state.json" "b/trainer_state.json" --- "a/trainer_state.json" +++ "b/trainer_state.json" @@ -1,13707 +1,6867 @@ { - "best_metric": 0.4892176389694214, - "best_model_checkpoint": "vit-base-kidney-stone-Michel_Daudon_-w256_1k_v1-_MIX\\checkpoint-1900", - "epoch": 30.0, + "best_metric": 0.49404826760292053, + "best_model_checkpoint": "vit-base-kidney-stone-Michel_Daudon_-w256_1k_v1-_MIX\\checkpoint-100", + "epoch": 15.0, "eval_steps": 100, - "global_step": 9000, + "global_step": 4500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.016666666666666666, - "grad_norm": 1.7575280666351318, - "learning_rate": 0.0001998888888888889, - "loss": 1.6537, + "grad_norm": 1.9064857959747314, + "learning_rate": 0.0001997777777777778, + "loss": 1.7094, "step": 5 }, { "epoch": 0.03333333333333333, - "grad_norm": 2.239774465560913, - "learning_rate": 0.0001997777777777778, - "loss": 1.3428, + "grad_norm": 2.7905783653259277, + "learning_rate": 0.00019955555555555558, + "loss": 1.4593, "step": 10 }, { "epoch": 0.05, - "grad_norm": 2.6088061332702637, - "learning_rate": 0.00019966666666666668, - "loss": 1.067, + "grad_norm": 1.8204519748687744, + "learning_rate": 0.00019933333333333334, + "loss": 1.1462, "step": 15 }, { "epoch": 0.06666666666666667, - "grad_norm": 2.2520010471343994, - "learning_rate": 0.00019955555555555558, - "loss": 0.9642, + "grad_norm": 1.706943154335022, + "learning_rate": 0.00019911111111111111, + "loss": 0.9582, "step": 20 }, { "epoch": 0.08333333333333333, - "grad_norm": 3.0229618549346924, - "learning_rate": 0.00019944444444444445, - "loss": 0.7568, + "grad_norm": 3.0309908390045166, + "learning_rate": 0.0001988888888888889, + "loss": 0.7536, "step": 25 }, { "epoch": 0.1, - "grad_norm": 2.241093873977661, - "learning_rate": 0.00019933333333333334, - "loss": 0.7595, + "grad_norm": 1.9617438316345215, + "learning_rate": 0.00019866666666666668, + "loss": 0.676, "step": 30 }, { "epoch": 0.11666666666666667, - "grad_norm": 2.076584577560425, - "learning_rate": 0.00019922222222222222, - "loss": 0.7373, + "grad_norm": 1.9273114204406738, + "learning_rate": 0.00019844444444444445, + "loss": 0.5552, "step": 35 }, { "epoch": 0.13333333333333333, - "grad_norm": 2.7718095779418945, - "learning_rate": 0.00019911111111111111, - "loss": 0.6494, + "grad_norm": 3.4164087772369385, + "learning_rate": 0.00019822222222222225, + "loss": 0.6516, "step": 40 }, { "epoch": 0.15, - "grad_norm": 2.384659767150879, - "learning_rate": 0.000199, - "loss": 0.4462, + "grad_norm": 3.5544183254241943, + "learning_rate": 0.00019800000000000002, + "loss": 0.5647, "step": 45 }, { "epoch": 0.16666666666666666, - "grad_norm": 3.0616390705108643, - "learning_rate": 0.0001988888888888889, - "loss": 0.4696, + "grad_norm": 3.6793570518493652, + "learning_rate": 0.00019777777777777778, + "loss": 0.486, "step": 50 }, { "epoch": 0.18333333333333332, - "grad_norm": 2.308093786239624, - "learning_rate": 0.0001987777777777778, - "loss": 0.3844, + "grad_norm": 2.249004364013672, + "learning_rate": 0.00019755555555555555, + "loss": 0.3747, "step": 55 }, { "epoch": 0.2, - "grad_norm": 1.1798769235610962, - "learning_rate": 0.00019866666666666668, - "loss": 0.3304, + "grad_norm": 3.5101637840270996, + "learning_rate": 0.00019733333333333335, + "loss": 0.47, "step": 60 }, { "epoch": 0.21666666666666667, - "grad_norm": 4.37687349319458, - "learning_rate": 0.00019855555555555555, - "loss": 0.3106, + "grad_norm": 1.7197117805480957, + "learning_rate": 0.00019711111111111112, + "loss": 0.3378, "step": 65 }, { "epoch": 0.23333333333333334, - "grad_norm": 2.5567283630371094, - "learning_rate": 0.00019844444444444445, - "loss": 0.3691, + "grad_norm": 2.20279598236084, + "learning_rate": 0.0001968888888888889, + "loss": 0.3737, "step": 70 }, { "epoch": 0.25, - "grad_norm": 1.4980002641677856, - "learning_rate": 0.00019833333333333335, - "loss": 0.2298, + "grad_norm": 1.9954789876937866, + "learning_rate": 0.00019666666666666666, + "loss": 0.2932, "step": 75 }, { "epoch": 0.26666666666666666, - "grad_norm": 3.9859678745269775, - "learning_rate": 0.00019822222222222225, - "loss": 0.3213, + "grad_norm": 3.8087406158447266, + "learning_rate": 0.00019644444444444445, + "loss": 0.4012, "step": 80 }, { "epoch": 0.2833333333333333, - "grad_norm": 1.6726502180099487, - "learning_rate": 0.00019811111111111112, - "loss": 0.3258, + "grad_norm": 2.9667723178863525, + "learning_rate": 0.00019622222222222225, + "loss": 0.3963, "step": 85 }, { "epoch": 0.3, - "grad_norm": 3.702517509460449, - "learning_rate": 0.00019800000000000002, - "loss": 0.2331, + "grad_norm": 1.8624991178512573, + "learning_rate": 0.000196, + "loss": 0.2989, "step": 90 }, { "epoch": 0.31666666666666665, - "grad_norm": 0.5436533093452454, - "learning_rate": 0.0001978888888888889, - "loss": 0.2113, + "grad_norm": 1.9633820056915283, + "learning_rate": 0.0001957777777777778, + "loss": 0.2265, "step": 95 }, { "epoch": 0.3333333333333333, - "grad_norm": 3.0394375324249268, - "learning_rate": 0.00019777777777777778, - "loss": 0.3419, + "grad_norm": 3.80328106880188, + "learning_rate": 0.00019555555555555556, + "loss": 0.1919, "step": 100 }, { "epoch": 0.3333333333333333, - "eval_accuracy": 0.8104166666666667, - "eval_f1": 0.8037348597648912, - "eval_loss": 0.5920196771621704, - "eval_precision": 0.8329260666124263, - "eval_recall": 0.8104166666666667, - "eval_runtime": 19.3414, - "eval_samples_per_second": 124.086, - "eval_steps_per_second": 15.511, + "eval_accuracy": 0.83375, + "eval_f1": 0.8355968544321966, + "eval_loss": 0.49404826760292053, + "eval_precision": 0.8588680878951838, + "eval_recall": 0.83375, + "eval_runtime": 19.6143, + "eval_samples_per_second": 122.36, + "eval_steps_per_second": 15.295, "step": 100 }, { "epoch": 0.35, - "grad_norm": 1.8970186710357666, - "learning_rate": 0.00019766666666666666, - "loss": 0.2765, + "grad_norm": 5.658657073974609, + "learning_rate": 0.00019533333333333336, + "loss": 0.2803, "step": 105 }, { "epoch": 0.36666666666666664, - "grad_norm": 1.5360679626464844, - "learning_rate": 0.00019755555555555555, - "loss": 0.2353, + "grad_norm": 3.1921985149383545, + "learning_rate": 0.0001951111111111111, + "loss": 0.3077, "step": 110 }, { "epoch": 0.38333333333333336, - "grad_norm": 3.6116840839385986, - "learning_rate": 0.00019744444444444445, - "loss": 0.2738, + "grad_norm": 3.844204902648926, + "learning_rate": 0.0001948888888888889, + "loss": 0.2994, "step": 115 }, { "epoch": 0.4, - "grad_norm": 3.6358067989349365, - "learning_rate": 0.00019733333333333335, - "loss": 0.2935, + "grad_norm": 4.315810203552246, + "learning_rate": 0.0001946666666666667, + "loss": 0.1864, "step": 120 }, { "epoch": 0.4166666666666667, - "grad_norm": 3.661120653152466, - "learning_rate": 0.00019722222222222225, - "loss": 0.2425, + "grad_norm": 5.215671539306641, + "learning_rate": 0.00019444444444444446, + "loss": 0.2488, "step": 125 }, { "epoch": 0.43333333333333335, - "grad_norm": 3.818962574005127, - "learning_rate": 0.00019711111111111112, - "loss": 0.2794, + "grad_norm": 3.103822708129883, + "learning_rate": 0.00019422222222222223, + "loss": 0.3068, "step": 130 }, { "epoch": 0.45, - "grad_norm": 3.4926016330718994, - "learning_rate": 0.00019700000000000002, - "loss": 0.2348, + "grad_norm": 0.7061305642127991, + "learning_rate": 0.000194, + "loss": 0.1777, "step": 135 }, { "epoch": 0.4666666666666667, - "grad_norm": 3.391545295715332, - "learning_rate": 0.0001968888888888889, - "loss": 0.2721, + "grad_norm": 2.6940581798553467, + "learning_rate": 0.0001937777777777778, + "loss": 0.2376, "step": 140 }, { "epoch": 0.48333333333333334, - "grad_norm": 2.5546278953552246, - "learning_rate": 0.0001967777777777778, - "loss": 0.2702, + "grad_norm": 1.1854926347732544, + "learning_rate": 0.00019355555555555557, + "loss": 0.2264, "step": 145 }, { "epoch": 0.5, - "grad_norm": 2.7241134643554688, - "learning_rate": 0.00019666666666666666, - "loss": 0.1186, + "grad_norm": 3.0454626083374023, + "learning_rate": 0.00019333333333333333, + "loss": 0.132, "step": 150 }, { "epoch": 0.5166666666666667, - "grad_norm": 3.302971124649048, - "learning_rate": 0.00019655555555555556, - "loss": 0.2457, + "grad_norm": 1.9664143323898315, + "learning_rate": 0.0001931111111111111, + "loss": 0.1079, "step": 155 }, { "epoch": 0.5333333333333333, - "grad_norm": 1.8170207738876343, - "learning_rate": 0.00019644444444444445, - "loss": 0.1694, + "grad_norm": 1.7733229398727417, + "learning_rate": 0.0001928888888888889, + "loss": 0.1218, "step": 160 }, { "epoch": 0.55, - "grad_norm": 3.637444257736206, - "learning_rate": 0.00019633333333333335, - "loss": 0.1459, + "grad_norm": 1.5969592332839966, + "learning_rate": 0.0001926666666666667, + "loss": 0.1428, "step": 165 }, { "epoch": 0.5666666666666667, - "grad_norm": 5.878379821777344, - "learning_rate": 0.00019622222222222225, - "loss": 0.2476, + "grad_norm": 5.696412563323975, + "learning_rate": 0.00019244444444444444, + "loss": 0.1614, "step": 170 }, { "epoch": 0.5833333333333334, - "grad_norm": 0.23280678689479828, - "learning_rate": 0.00019611111111111112, - "loss": 0.1386, + "grad_norm": 2.1628549098968506, + "learning_rate": 0.00019222222222222224, + "loss": 0.1757, "step": 175 }, { "epoch": 0.6, - "grad_norm": 3.800858974456787, - "learning_rate": 0.000196, - "loss": 0.1907, + "grad_norm": 2.9628496170043945, + "learning_rate": 0.000192, + "loss": 0.2107, "step": 180 }, { "epoch": 0.6166666666666667, - "grad_norm": 2.076817274093628, - "learning_rate": 0.0001958888888888889, - "loss": 0.1731, + "grad_norm": 2.077115535736084, + "learning_rate": 0.0001917777777777778, + "loss": 0.1429, "step": 185 }, { "epoch": 0.6333333333333333, - "grad_norm": 5.865987777709961, - "learning_rate": 0.0001957777777777778, - "loss": 0.3662, + "grad_norm": 3.4383513927459717, + "learning_rate": 0.00019155555555555554, + "loss": 0.1408, "step": 190 }, { "epoch": 0.65, - "grad_norm": 0.6317228674888611, - "learning_rate": 0.0001956666666666667, - "loss": 0.2164, + "grad_norm": 1.9439654350280762, + "learning_rate": 0.00019133333333333334, + "loss": 0.2277, "step": 195 }, { "epoch": 0.6666666666666666, - "grad_norm": 3.592862606048584, - "learning_rate": 0.00019555555555555556, - "loss": 0.1693, + "grad_norm": 3.0688512325286865, + "learning_rate": 0.00019111111111111114, + "loss": 0.1697, "step": 200 }, { "epoch": 0.6666666666666666, - "eval_accuracy": 0.8054166666666667, - "eval_f1": 0.8085017430590019, - "eval_loss": 0.6791102290153503, - "eval_precision": 0.8274404713362377, - "eval_recall": 0.8054166666666667, - "eval_runtime": 16.4158, - "eval_samples_per_second": 146.201, - "eval_steps_per_second": 18.275, + "eval_accuracy": 0.8091666666666667, + "eval_f1": 0.8058565506725107, + "eval_loss": 0.6992664337158203, + "eval_precision": 0.8484515744733175, + "eval_recall": 0.8091666666666667, + "eval_runtime": 16.2767, + "eval_samples_per_second": 147.45, + "eval_steps_per_second": 18.431, "step": 200 }, { "epoch": 0.6833333333333333, - "grad_norm": 1.3022174835205078, - "learning_rate": 0.00019544444444444446, - "loss": 0.1451, + "grad_norm": 2.3009352684020996, + "learning_rate": 0.0001908888888888889, + "loss": 0.182, "step": 205 }, { "epoch": 0.7, - "grad_norm": 1.6777466535568237, - "learning_rate": 0.00019533333333333336, - "loss": 0.1191, + "grad_norm": 2.4892539978027344, + "learning_rate": 0.00019066666666666668, + "loss": 0.1905, "step": 210 }, { "epoch": 0.7166666666666667, - "grad_norm": 9.961943626403809, - "learning_rate": 0.00019522222222222223, - "loss": 0.2022, + "grad_norm": 4.452750205993652, + "learning_rate": 0.00019044444444444444, + "loss": 0.1919, "step": 215 }, { "epoch": 0.7333333333333333, - "grad_norm": 5.279577255249023, - "learning_rate": 0.0001951111111111111, - "loss": 0.2409, + "grad_norm": 5.22628116607666, + "learning_rate": 0.00019022222222222224, + "loss": 0.2431, "step": 220 }, { "epoch": 0.75, - "grad_norm": 4.718049049377441, - "learning_rate": 0.000195, - "loss": 0.18, + "grad_norm": 0.6624262928962708, + "learning_rate": 0.00019, + "loss": 0.1524, "step": 225 }, { "epoch": 0.7666666666666667, - "grad_norm": 3.50532603263855, - "learning_rate": 0.0001948888888888889, - "loss": 0.1734, + "grad_norm": 2.029726505279541, + "learning_rate": 0.00018977777777777778, + "loss": 0.1629, "step": 230 }, { "epoch": 0.7833333333333333, - "grad_norm": 4.378666877746582, - "learning_rate": 0.0001947777777777778, - "loss": 0.1661, + "grad_norm": 5.0926432609558105, + "learning_rate": 0.00018955555555555558, + "loss": 0.2157, "step": 235 }, { "epoch": 0.8, - "grad_norm": 2.3236806392669678, - "learning_rate": 0.0001946666666666667, - "loss": 0.1863, + "grad_norm": 8.236963272094727, + "learning_rate": 0.00018933333333333335, + "loss": 0.3344, "step": 240 }, { "epoch": 0.8166666666666667, - "grad_norm": 0.8682406544685364, - "learning_rate": 0.00019455555555555556, - "loss": 0.0993, + "grad_norm": 7.307300567626953, + "learning_rate": 0.00018911111111111112, + "loss": 0.2596, "step": 245 }, { "epoch": 0.8333333333333334, - "grad_norm": 2.807497262954712, - "learning_rate": 0.00019444444444444446, - "loss": 0.1905, + "grad_norm": 2.3130578994750977, + "learning_rate": 0.00018888888888888888, + "loss": 0.2115, "step": 250 }, { "epoch": 0.85, - "grad_norm": 0.17561952769756317, - "learning_rate": 0.00019433333333333333, - "loss": 0.2684, + "grad_norm": 0.5068075060844421, + "learning_rate": 0.00018866666666666668, + "loss": 0.2243, "step": 255 }, { "epoch": 0.8666666666666667, - "grad_norm": 0.3161854147911072, - "learning_rate": 0.00019422222222222223, - "loss": 0.2887, + "grad_norm": 2.3893234729766846, + "learning_rate": 0.00018844444444444445, + "loss": 0.1137, "step": 260 }, { "epoch": 0.8833333333333333, - "grad_norm": 4.627614498138428, - "learning_rate": 0.0001941111111111111, - "loss": 0.2264, + "grad_norm": 0.2729203402996063, + "learning_rate": 0.00018822222222222222, + "loss": 0.1274, "step": 265 }, { "epoch": 0.9, - "grad_norm": 0.9844505786895752, - "learning_rate": 0.000194, - "loss": 0.1595, + "grad_norm": 1.9677048921585083, + "learning_rate": 0.000188, + "loss": 0.0976, "step": 270 }, { "epoch": 0.9166666666666666, - "grad_norm": 1.0909786224365234, - "learning_rate": 0.0001938888888888889, - "loss": 0.1181, + "grad_norm": 3.91174578666687, + "learning_rate": 0.00018777777777777779, + "loss": 0.1093, "step": 275 }, { "epoch": 0.9333333333333333, - "grad_norm": 0.2937873899936676, - "learning_rate": 0.0001937777777777778, - "loss": 0.1832, + "grad_norm": 5.099088668823242, + "learning_rate": 0.00018755555555555558, + "loss": 0.1828, "step": 280 }, { "epoch": 0.95, - "grad_norm": 0.8012539744377136, - "learning_rate": 0.0001936666666666667, - "loss": 0.1029, + "grad_norm": 0.11100547760725021, + "learning_rate": 0.00018733333333333335, + "loss": 0.1379, "step": 285 }, { "epoch": 0.9666666666666667, - "grad_norm": 0.6252049207687378, - "learning_rate": 0.00019355555555555557, - "loss": 0.1341, + "grad_norm": 3.4891722202301025, + "learning_rate": 0.00018711111111111112, + "loss": 0.1675, "step": 290 }, { "epoch": 0.9833333333333333, - "grad_norm": 4.394129753112793, - "learning_rate": 0.00019344444444444446, - "loss": 0.1562, + "grad_norm": 1.8972853422164917, + "learning_rate": 0.0001868888888888889, + "loss": 0.113, "step": 295 }, { "epoch": 1.0, - "grad_norm": 3.52641224861145, - "learning_rate": 0.00019333333333333333, - "loss": 0.1732, + "grad_norm": 1.0424381494522095, + "learning_rate": 0.0001866666666666667, + "loss": 0.1514, "step": 300 }, { "epoch": 1.0, - "eval_accuracy": 0.7979166666666667, - "eval_f1": 0.7981486548781239, - "eval_loss": 0.7756109833717346, - "eval_precision": 0.8414897792253007, - "eval_recall": 0.7979166666666667, - "eval_runtime": 16.1962, - "eval_samples_per_second": 148.183, - "eval_steps_per_second": 18.523, + "eval_accuracy": 0.8441666666666666, + "eval_f1": 0.8442861914822136, + "eval_loss": 0.5554845333099365, + "eval_precision": 0.8565221700627794, + "eval_recall": 0.8441666666666666, + "eval_runtime": 16.2163, + "eval_samples_per_second": 147.999, + "eval_steps_per_second": 18.5, "step": 300 }, { "epoch": 1.0166666666666666, - "grad_norm": 1.3813756704330444, - "learning_rate": 0.00019322222222222223, - "loss": 0.0591, + "grad_norm": 2.4335975646972656, + "learning_rate": 0.00018644444444444446, + "loss": 0.1182, "step": 305 }, { "epoch": 1.0333333333333334, - "grad_norm": 4.474184989929199, - "learning_rate": 0.0001931111111111111, - "loss": 0.1352, + "grad_norm": 1.7020270824432373, + "learning_rate": 0.00018622222222222223, + "loss": 0.0787, "step": 310 }, { "epoch": 1.05, - "grad_norm": 5.625171184539795, - "learning_rate": 0.000193, - "loss": 0.097, + "grad_norm": 1.561579704284668, + "learning_rate": 0.00018600000000000002, + "loss": 0.1003, "step": 315 }, { "epoch": 1.0666666666666667, - "grad_norm": 3.8796048164367676, - "learning_rate": 0.0001928888888888889, - "loss": 0.075, + "grad_norm": 4.530466556549072, + "learning_rate": 0.0001857777777777778, + "loss": 0.1934, "step": 320 }, { "epoch": 1.0833333333333333, - "grad_norm": 1.0892186164855957, - "learning_rate": 0.0001927777777777778, - "loss": 0.0852, + "grad_norm": 0.5621032118797302, + "learning_rate": 0.00018555555555555556, + "loss": 0.0552, "step": 325 }, { "epoch": 1.1, - "grad_norm": 4.347273349761963, - "learning_rate": 0.0001926666666666667, - "loss": 0.0828, + "grad_norm": 2.3908560276031494, + "learning_rate": 0.00018533333333333333, + "loss": 0.0584, "step": 330 }, { "epoch": 1.1166666666666667, - "grad_norm": 5.047768592834473, - "learning_rate": 0.00019255555555555557, - "loss": 0.1083, + "grad_norm": 0.051260460168123245, + "learning_rate": 0.00018511111111111113, + "loss": 0.0557, "step": 335 }, { "epoch": 1.1333333333333333, - "grad_norm": 5.478116512298584, - "learning_rate": 0.00019244444444444444, - "loss": 0.0999, + "grad_norm": 3.336754322052002, + "learning_rate": 0.0001848888888888889, + "loss": 0.0478, "step": 340 }, { "epoch": 1.15, - "grad_norm": 3.4530398845672607, - "learning_rate": 0.00019233333333333334, - "loss": 0.0427, + "grad_norm": 2.0402088165283203, + "learning_rate": 0.00018466666666666666, + "loss": 0.0697, "step": 345 }, { "epoch": 1.1666666666666667, - "grad_norm": 4.7983927726745605, - "learning_rate": 0.00019222222222222224, - "loss": 0.0982, + "grad_norm": 0.07167880982160568, + "learning_rate": 0.00018444444444444446, + "loss": 0.0657, "step": 350 }, { "epoch": 1.1833333333333333, - "grad_norm": 0.7118657231330872, - "learning_rate": 0.00019211111111111113, - "loss": 0.1383, + "grad_norm": 0.1843060851097107, + "learning_rate": 0.00018422222222222223, + "loss": 0.051, "step": 355 }, { "epoch": 1.2, - "grad_norm": 0.7196682095527649, - "learning_rate": 0.000192, - "loss": 0.0796, + "grad_norm": 1.968123435974121, + "learning_rate": 0.00018400000000000003, + "loss": 0.0749, "step": 360 }, { "epoch": 1.2166666666666668, - "grad_norm": 0.4793323576450348, - "learning_rate": 0.0001918888888888889, - "loss": 0.0629, + "grad_norm": 0.06399338692426682, + "learning_rate": 0.00018377777777777777, + "loss": 0.0238, "step": 365 }, { "epoch": 1.2333333333333334, - "grad_norm": 0.6793131828308105, - "learning_rate": 0.0001917777777777778, - "loss": 0.1197, + "grad_norm": 1.6411094665527344, + "learning_rate": 0.00018355555555555557, + "loss": 0.1656, "step": 370 }, { "epoch": 1.25, - "grad_norm": 0.21413554251194, - "learning_rate": 0.00019166666666666667, - "loss": 0.0664, + "grad_norm": 0.09286128729581833, + "learning_rate": 0.00018333333333333334, + "loss": 0.1165, "step": 375 }, { "epoch": 1.2666666666666666, - "grad_norm": 1.7877485752105713, - "learning_rate": 0.00019155555555555554, - "loss": 0.143, + "grad_norm": 3.0926060676574707, + "learning_rate": 0.00018311111111111113, + "loss": 0.0651, "step": 380 }, { "epoch": 1.2833333333333332, - "grad_norm": 6.370367527008057, - "learning_rate": 0.00019144444444444444, - "loss": 0.2054, + "grad_norm": 5.042904376983643, + "learning_rate": 0.00018288888888888887, + "loss": 0.0755, "step": 385 }, { "epoch": 1.3, - "grad_norm": 0.28719836473464966, - "learning_rate": 0.00019133333333333334, - "loss": 0.138, + "grad_norm": 2.9012796878814697, + "learning_rate": 0.00018266666666666667, + "loss": 0.156, "step": 390 }, { "epoch": 1.3166666666666667, - "grad_norm": 3.242438316345215, - "learning_rate": 0.00019122222222222224, - "loss": 0.1403, + "grad_norm": 3.0070407390594482, + "learning_rate": 0.00018244444444444447, + "loss": 0.0835, "step": 395 }, { "epoch": 1.3333333333333333, - "grad_norm": 0.3408154249191284, - "learning_rate": 0.00019111111111111114, - "loss": 0.0691, + "grad_norm": 0.43113213777542114, + "learning_rate": 0.00018222222222222224, + "loss": 0.0991, "step": 400 }, { "epoch": 1.3333333333333333, - "eval_accuracy": 0.8158333333333333, - "eval_f1": 0.818791034241064, - "eval_loss": 0.7157689332962036, - "eval_precision": 0.8508201435729894, - "eval_recall": 0.8158333333333333, - "eval_runtime": 16.4091, - "eval_samples_per_second": 146.26, - "eval_steps_per_second": 18.283, + "eval_accuracy": 0.8466666666666667, + "eval_f1": 0.8452871413747736, + "eval_loss": 0.5917803049087524, + "eval_precision": 0.8740985832209479, + "eval_recall": 0.8466666666666667, + "eval_runtime": 16.2452, + "eval_samples_per_second": 147.736, + "eval_steps_per_second": 18.467, "step": 400 }, { "epoch": 1.35, - "grad_norm": 0.3010420501232147, - "learning_rate": 0.000191, - "loss": 0.0488, + "grad_norm": 2.517106533050537, + "learning_rate": 0.000182, + "loss": 0.0486, "step": 405 }, { "epoch": 1.3666666666666667, - "grad_norm": 2.1333274841308594, - "learning_rate": 0.0001908888888888889, - "loss": 0.0994, + "grad_norm": 0.1869000792503357, + "learning_rate": 0.00018177777777777778, + "loss": 0.0563, "step": 410 }, { "epoch": 1.3833333333333333, - "grad_norm": 0.04511966556310654, - "learning_rate": 0.00019077777777777778, - "loss": 0.0823, + "grad_norm": 0.7783178091049194, + "learning_rate": 0.00018155555555555557, + "loss": 0.0826, "step": 415 }, { "epoch": 1.4, - "grad_norm": 1.2672332525253296, - "learning_rate": 0.00019066666666666668, - "loss": 0.0859, + "grad_norm": 3.3294942378997803, + "learning_rate": 0.00018133333333333334, + "loss": 0.0831, "step": 420 }, { "epoch": 1.4166666666666667, - "grad_norm": 1.1415125131607056, - "learning_rate": 0.00019055555555555555, - "loss": 0.1502, + "grad_norm": 3.404653787612915, + "learning_rate": 0.0001811111111111111, + "loss": 0.1035, "step": 425 }, { "epoch": 1.4333333333333333, - "grad_norm": 2.681697368621826, - "learning_rate": 0.00019044444444444444, - "loss": 0.1071, + "grad_norm": 0.4671889841556549, + "learning_rate": 0.0001808888888888889, + "loss": 0.0932, "step": 430 }, { "epoch": 1.45, - "grad_norm": 2.7002527713775635, - "learning_rate": 0.00019033333333333334, - "loss": 0.0784, + "grad_norm": 2.1595776081085205, + "learning_rate": 0.00018066666666666668, + "loss": 0.2025, "step": 435 }, { "epoch": 1.4666666666666668, - "grad_norm": 0.444049209356308, - "learning_rate": 0.00019022222222222224, - "loss": 0.0912, + "grad_norm": 4.700916290283203, + "learning_rate": 0.00018044444444444447, + "loss": 0.0901, "step": 440 }, { "epoch": 1.4833333333333334, - "grad_norm": 3.072381019592285, - "learning_rate": 0.00019011111111111114, - "loss": 0.0711, + "grad_norm": 1.5004734992980957, + "learning_rate": 0.00018022222222222221, + "loss": 0.1482, "step": 445 }, { "epoch": 1.5, - "grad_norm": 0.38654211163520813, - "learning_rate": 0.00019, - "loss": 0.0562, + "grad_norm": 3.7114951610565186, + "learning_rate": 0.00018, + "loss": 0.0692, "step": 450 }, { "epoch": 1.5166666666666666, - "grad_norm": 7.993372917175293, - "learning_rate": 0.00018988888888888888, - "loss": 0.1665, + "grad_norm": 0.04959668591618538, + "learning_rate": 0.00017977777777777778, + "loss": 0.1148, "step": 455 }, { "epoch": 1.5333333333333332, - "grad_norm": 0.9832102656364441, - "learning_rate": 0.00018977777777777778, - "loss": 0.0924, + "grad_norm": 1.0318381786346436, + "learning_rate": 0.00017955555555555558, + "loss": 0.1147, "step": 460 }, { "epoch": 1.55, - "grad_norm": 1.8267433643341064, - "learning_rate": 0.00018966666666666668, - "loss": 0.0928, + "grad_norm": 1.9109596014022827, + "learning_rate": 0.00017933333333333332, + "loss": 0.0536, "step": 465 }, { "epoch": 1.5666666666666667, - "grad_norm": 0.08047886192798615, - "learning_rate": 0.00018955555555555558, - "loss": 0.0532, + "grad_norm": 5.839930057525635, + "learning_rate": 0.00017911111111111112, + "loss": 0.0835, "step": 470 }, { "epoch": 1.5833333333333335, - "grad_norm": 1.1710773706436157, - "learning_rate": 0.00018944444444444445, - "loss": 0.051, + "grad_norm": 5.867558002471924, + "learning_rate": 0.0001788888888888889, + "loss": 0.0561, "step": 475 }, { "epoch": 1.6, - "grad_norm": 0.06582245975732803, - "learning_rate": 0.00018933333333333335, - "loss": 0.0369, + "grad_norm": 1.1940624713897705, + "learning_rate": 0.00017866666666666668, + "loss": 0.0418, "step": 480 }, { "epoch": 1.6166666666666667, - "grad_norm": 0.11815045773983002, - "learning_rate": 0.00018922222222222224, - "loss": 0.0328, + "grad_norm": 1.6862461566925049, + "learning_rate": 0.00017844444444444445, + "loss": 0.041, "step": 485 }, { "epoch": 1.6333333333333333, - "grad_norm": 2.978722333908081, - "learning_rate": 0.00018911111111111112, - "loss": 0.0729, + "grad_norm": 0.31286120414733887, + "learning_rate": 0.00017822222222222222, + "loss": 0.0752, "step": 490 }, { "epoch": 1.65, - "grad_norm": 0.19941926002502441, - "learning_rate": 0.00018899999999999999, - "loss": 0.0677, + "grad_norm": 2.0851168632507324, + "learning_rate": 0.00017800000000000002, + "loss": 0.1608, "step": 495 }, { "epoch": 1.6666666666666665, - "grad_norm": 0.6372964382171631, - "learning_rate": 0.00018888888888888888, - "loss": 0.0714, + "grad_norm": 2.748857021331787, + "learning_rate": 0.00017777777777777779, + "loss": 0.0415, "step": 500 }, { "epoch": 1.6666666666666665, - "eval_accuracy": 0.8316666666666667, - "eval_f1": 0.8265743516796846, - "eval_loss": 0.7521939277648926, - "eval_precision": 0.849911827609538, - "eval_recall": 0.8316666666666667, - "eval_runtime": 16.359, - "eval_samples_per_second": 146.708, - "eval_steps_per_second": 18.339, + "eval_accuracy": 0.8558333333333333, + "eval_f1": 0.8552659972827449, + "eval_loss": 0.6080264449119568, + "eval_precision": 0.8689976032419315, + "eval_recall": 0.8558333333333333, + "eval_runtime": 16.1623, + "eval_samples_per_second": 148.493, + "eval_steps_per_second": 18.562, "step": 500 }, { "epoch": 1.6833333333333333, - "grad_norm": 0.19961658120155334, - "learning_rate": 0.00018877777777777778, - "loss": 0.0278, + "grad_norm": 1.0894508361816406, + "learning_rate": 0.00017755555555555556, + "loss": 0.0154, "step": 505 }, { "epoch": 1.7, - "grad_norm": 0.0633421242237091, - "learning_rate": 0.00018866666666666668, - "loss": 0.0786, + "grad_norm": 0.996065616607666, + "learning_rate": 0.00017733333333333335, + "loss": 0.0303, "step": 510 }, { "epoch": 1.7166666666666668, - "grad_norm": 0.3892693817615509, - "learning_rate": 0.00018855555555555558, - "loss": 0.0777, + "grad_norm": 3.247182846069336, + "learning_rate": 0.00017711111111111112, + "loss": 0.0568, "step": 515 }, { "epoch": 1.7333333333333334, - "grad_norm": 6.342217445373535, - "learning_rate": 0.00018844444444444445, - "loss": 0.1477, + "grad_norm": 2.761436700820923, + "learning_rate": 0.0001768888888888889, + "loss": 0.0606, "step": 520 }, { "epoch": 1.75, - "grad_norm": 0.5710381269454956, - "learning_rate": 0.00018833333333333335, - "loss": 0.0451, + "grad_norm": 6.956387996673584, + "learning_rate": 0.00017666666666666666, + "loss": 0.0851, "step": 525 }, { "epoch": 1.7666666666666666, - "grad_norm": 6.171818733215332, - "learning_rate": 0.00018822222222222222, - "loss": 0.2093, + "grad_norm": 2.860804796218872, + "learning_rate": 0.00017644444444444446, + "loss": 0.1605, "step": 530 }, { "epoch": 1.7833333333333332, - "grad_norm": 0.03403923660516739, - "learning_rate": 0.00018811111111111112, - "loss": 0.077, + "grad_norm": 0.03756829723715782, + "learning_rate": 0.00017622222222222223, + "loss": 0.0315, "step": 535 }, { "epoch": 1.8, - "grad_norm": 4.398832321166992, - "learning_rate": 0.000188, - "loss": 0.0748, + "grad_norm": 1.456839919090271, + "learning_rate": 0.00017600000000000002, + "loss": 0.0121, "step": 540 }, { "epoch": 1.8166666666666667, - "grad_norm": 0.9979174733161926, - "learning_rate": 0.0001878888888888889, - "loss": 0.0671, + "grad_norm": 0.11041226238012314, + "learning_rate": 0.0001757777777777778, + "loss": 0.0116, "step": 545 }, { "epoch": 1.8333333333333335, - "grad_norm": 0.09938632696866989, - "learning_rate": 0.00018777777777777779, - "loss": 0.0113, + "grad_norm": 0.11240129172801971, + "learning_rate": 0.00017555555555555556, + "loss": 0.0768, "step": 550 }, { "epoch": 1.85, - "grad_norm": 0.7623908519744873, - "learning_rate": 0.00018766666666666668, - "loss": 0.0342, + "grad_norm": 4.018540382385254, + "learning_rate": 0.00017533333333333336, + "loss": 0.035, "step": 555 }, { "epoch": 1.8666666666666667, - "grad_norm": 0.514573872089386, - "learning_rate": 0.00018755555555555558, - "loss": 0.0629, + "grad_norm": 0.03860333189368248, + "learning_rate": 0.00017511111111111113, + "loss": 0.0786, "step": 560 }, { "epoch": 1.8833333333333333, - "grad_norm": 0.025599155575037003, - "learning_rate": 0.00018744444444444445, - "loss": 0.038, + "grad_norm": 0.029116548597812653, + "learning_rate": 0.0001748888888888889, + "loss": 0.0359, "step": 565 }, { "epoch": 1.9, - "grad_norm": 0.030182309448719025, - "learning_rate": 0.00018733333333333335, - "loss": 0.0141, + "grad_norm": 5.215725898742676, + "learning_rate": 0.00017466666666666667, + "loss": 0.0511, "step": 570 }, { "epoch": 1.9166666666666665, - "grad_norm": 0.1014530286192894, - "learning_rate": 0.00018722222222222222, - "loss": 0.0219, + "grad_norm": 0.027058551087975502, + "learning_rate": 0.00017444444444444446, + "loss": 0.0457, "step": 575 }, { "epoch": 1.9333333333333333, - "grad_norm": 0.032234955579042435, - "learning_rate": 0.00018711111111111112, - "loss": 0.1218, + "grad_norm": 1.5527430772781372, + "learning_rate": 0.00017422222222222223, + "loss": 0.0715, "step": 580 }, { "epoch": 1.95, - "grad_norm": 2.227205991744995, - "learning_rate": 0.00018700000000000002, - "loss": 0.0763, + "grad_norm": 3.5508975982666016, + "learning_rate": 0.000174, + "loss": 0.0818, "step": 585 }, { "epoch": 1.9666666666666668, - "grad_norm": 2.487708330154419, - "learning_rate": 0.0001868888888888889, - "loss": 0.1369, + "grad_norm": 2.2463531494140625, + "learning_rate": 0.0001737777777777778, + "loss": 0.0686, "step": 590 }, { "epoch": 1.9833333333333334, - "grad_norm": 0.12172972410917282, - "learning_rate": 0.0001867777777777778, - "loss": 0.0399, + "grad_norm": 0.2972193658351898, + "learning_rate": 0.00017355555555555557, + "loss": 0.1337, "step": 595 }, { "epoch": 2.0, - "grad_norm": 0.19052840769290924, - "learning_rate": 0.0001866666666666667, - "loss": 0.0673, + "grad_norm": 0.3056110441684723, + "learning_rate": 0.00017333333333333334, + "loss": 0.1112, "step": 600 }, { "epoch": 2.0, - "eval_accuracy": 0.8620833333333333, - "eval_f1": 0.8598426762698227, - "eval_loss": 0.5385421514511108, - "eval_precision": 0.865491848801535, - "eval_recall": 0.8620833333333333, - "eval_runtime": 16.2367, - "eval_samples_per_second": 147.813, - "eval_steps_per_second": 18.477, + "eval_accuracy": 0.7983333333333333, + "eval_f1": 0.8028411962372825, + "eval_loss": 0.9788005352020264, + "eval_precision": 0.8485110792093202, + "eval_recall": 0.7983333333333333, + "eval_runtime": 16.1917, + "eval_samples_per_second": 148.224, + "eval_steps_per_second": 18.528, "step": 600 }, { "epoch": 2.0166666666666666, - "grad_norm": 6.696073532104492, - "learning_rate": 0.00018655555555555558, - "loss": 0.0318, + "grad_norm": 0.35267236828804016, + "learning_rate": 0.0001731111111111111, + "loss": 0.0498, "step": 605 }, { "epoch": 2.033333333333333, - "grad_norm": 0.4431828558444977, - "learning_rate": 0.00018644444444444446, - "loss": 0.0346, + "grad_norm": 0.5053727030754089, + "learning_rate": 0.0001728888888888889, + "loss": 0.0129, "step": 610 }, { "epoch": 2.05, - "grad_norm": 1.9983868598937988, - "learning_rate": 0.00018633333333333333, - "loss": 0.0311, + "grad_norm": 0.8910978436470032, + "learning_rate": 0.00017266666666666667, + "loss": 0.016, "step": 615 }, { "epoch": 2.066666666666667, - "grad_norm": 0.025751996785402298, - "learning_rate": 0.00018622222222222223, - "loss": 0.0499, + "grad_norm": 0.03884819522500038, + "learning_rate": 0.00017244444444444444, + "loss": 0.0718, "step": 620 }, { "epoch": 2.0833333333333335, - "grad_norm": 0.7397699952125549, - "learning_rate": 0.00018611111111111112, - "loss": 0.0373, + "grad_norm": 0.19660811126232147, + "learning_rate": 0.00017222222222222224, + "loss": 0.1112, "step": 625 }, { "epoch": 2.1, - "grad_norm": 0.02873407118022442, - "learning_rate": 0.00018600000000000002, - "loss": 0.0239, + "grad_norm": 0.03204696252942085, + "learning_rate": 0.000172, + "loss": 0.0101, "step": 630 }, { "epoch": 2.1166666666666667, - "grad_norm": 1.2805113792419434, - "learning_rate": 0.0001858888888888889, - "loss": 0.0504, + "grad_norm": 0.9553326964378357, + "learning_rate": 0.0001717777777777778, + "loss": 0.0149, "step": 635 }, { "epoch": 2.1333333333333333, - "grad_norm": 1.9268577098846436, - "learning_rate": 0.0001857777777777778, - "loss": 0.1207, + "grad_norm": 0.08955259621143341, + "learning_rate": 0.00017155555555555555, + "loss": 0.0569, "step": 640 }, { "epoch": 2.15, - "grad_norm": 0.8597666621208191, - "learning_rate": 0.0001856666666666667, - "loss": 0.0521, + "grad_norm": 1.9781664609909058, + "learning_rate": 0.00017133333333333334, + "loss": 0.0126, "step": 645 }, { "epoch": 2.1666666666666665, - "grad_norm": 0.03927866369485855, - "learning_rate": 0.00018555555555555556, - "loss": 0.0069, + "grad_norm": 0.216256245970726, + "learning_rate": 0.0001711111111111111, + "loss": 0.0904, "step": 650 }, { "epoch": 2.183333333333333, - "grad_norm": 1.7735105752944946, - "learning_rate": 0.00018544444444444443, - "loss": 0.0441, + "grad_norm": 0.8125318884849548, + "learning_rate": 0.0001708888888888889, + "loss": 0.0194, "step": 655 }, { "epoch": 2.2, - "grad_norm": 0.6752846240997314, - "learning_rate": 0.00018533333333333333, - "loss": 0.1115, + "grad_norm": 4.675413608551025, + "learning_rate": 0.00017066666666666668, + "loss": 0.1388, "step": 660 }, { "epoch": 2.216666666666667, - "grad_norm": 0.07458436489105225, - "learning_rate": 0.00018522222222222223, - "loss": 0.0677, + "grad_norm": 0.02955440618097782, + "learning_rate": 0.00017044444444444445, + "loss": 0.0071, "step": 665 }, { "epoch": 2.2333333333333334, - "grad_norm": 0.1430908441543579, - "learning_rate": 0.00018511111111111113, - "loss": 0.0163, + "grad_norm": 0.02534662000834942, + "learning_rate": 0.00017022222222222224, + "loss": 0.0544, "step": 670 }, { "epoch": 2.25, - "grad_norm": 0.3623637557029724, - "learning_rate": 0.00018500000000000002, - "loss": 0.1642, + "grad_norm": 5.448978424072266, + "learning_rate": 0.00017, + "loss": 0.0389, "step": 675 }, { "epoch": 2.2666666666666666, - "grad_norm": 1.302395224571228, - "learning_rate": 0.0001848888888888889, - "loss": 0.0253, + "grad_norm": 0.0721999928355217, + "learning_rate": 0.00016977777777777778, + "loss": 0.0122, "step": 680 }, { "epoch": 2.283333333333333, - "grad_norm": 2.6454572677612305, - "learning_rate": 0.0001847777777777778, - "loss": 0.0334, + "grad_norm": 2.670487642288208, + "learning_rate": 0.00016955555555555555, + "loss": 0.0556, "step": 685 }, { "epoch": 2.3, - "grad_norm": 7.444616794586182, - "learning_rate": 0.00018466666666666666, - "loss": 0.1229, + "grad_norm": 10.20238208770752, + "learning_rate": 0.00016933333333333335, + "loss": 0.0856, "step": 690 }, { "epoch": 2.3166666666666664, - "grad_norm": 0.12746256589889526, - "learning_rate": 0.00018455555555555556, - "loss": 0.0331, + "grad_norm": 4.622935771942139, + "learning_rate": 0.00016911111111111112, + "loss": 0.0296, "step": 695 }, { "epoch": 2.3333333333333335, - "grad_norm": 0.040420129895210266, - "learning_rate": 0.00018444444444444446, - "loss": 0.0655, + "grad_norm": 0.029859546571969986, + "learning_rate": 0.00016888888888888889, + "loss": 0.0658, "step": 700 }, { "epoch": 2.3333333333333335, - "eval_accuracy": 0.8433333333333334, - "eval_f1": 0.8358534752322105, - "eval_loss": 0.779900312423706, - "eval_precision": 0.8497247208877523, - "eval_recall": 0.8433333333333334, - "eval_runtime": 16.3191, - "eval_samples_per_second": 147.067, - "eval_steps_per_second": 18.383, + "eval_accuracy": 0.8004166666666667, + "eval_f1": 0.8001592559476315, + "eval_loss": 1.0271917581558228, + "eval_precision": 0.83100022533418, + "eval_recall": 0.8004166666666667, + "eval_runtime": 16.1972, + "eval_samples_per_second": 148.174, + "eval_steps_per_second": 18.522, "step": 700 }, { "epoch": 2.35, - "grad_norm": 0.7723918557167053, - "learning_rate": 0.00018433333333333333, - "loss": 0.0279, + "grad_norm": 0.0164314117282629, + "learning_rate": 0.00016866666666666668, + "loss": 0.0271, "step": 705 }, { "epoch": 2.3666666666666667, - "grad_norm": 0.0238429456949234, - "learning_rate": 0.00018422222222222223, - "loss": 0.0304, + "grad_norm": 0.014630046673119068, + "learning_rate": 0.00016844444444444445, + "loss": 0.0873, "step": 710 }, { "epoch": 2.3833333333333333, - "grad_norm": 0.05413050949573517, - "learning_rate": 0.00018411111111111113, - "loss": 0.0077, + "grad_norm": 1.244563341140747, + "learning_rate": 0.00016822222222222225, + "loss": 0.0357, "step": 715 }, { "epoch": 2.4, - "grad_norm": 0.9589130282402039, - "learning_rate": 0.00018400000000000003, - "loss": 0.0271, - "step": 720 + "grad_norm": 0.23327180743217468, + "learning_rate": 0.000168, + "loss": 0.0053, + "step": 720 }, { "epoch": 2.4166666666666665, - "grad_norm": 0.038370680063962936, - "learning_rate": 0.0001838888888888889, - "loss": 0.0569, + "grad_norm": 0.3023635745048523, + "learning_rate": 0.0001677777777777778, + "loss": 0.0087, "step": 725 }, { "epoch": 2.4333333333333336, - "grad_norm": 0.015245645307004452, - "learning_rate": 0.00018377777777777777, - "loss": 0.0323, + "grad_norm": 3.1904029846191406, + "learning_rate": 0.00016755555555555556, + "loss": 0.1053, "step": 730 }, { "epoch": 2.45, - "grad_norm": 0.014902304857969284, - "learning_rate": 0.00018366666666666667, - "loss": 0.0086, + "grad_norm": 0.01983281597495079, + "learning_rate": 0.00016733333333333335, + "loss": 0.0184, "step": 735 }, { "epoch": 2.466666666666667, - "grad_norm": 2.174741506576538, - "learning_rate": 0.00018355555555555557, - "loss": 0.0184, + "grad_norm": 0.022035181522369385, + "learning_rate": 0.00016711111111111112, + "loss": 0.0062, "step": 740 }, { "epoch": 2.4833333333333334, - "grad_norm": 0.06217186525464058, - "learning_rate": 0.00018344444444444446, - "loss": 0.0043, + "grad_norm": 0.04722364619374275, + "learning_rate": 0.0001668888888888889, + "loss": 0.0088, "step": 745 }, { "epoch": 2.5, - "grad_norm": 0.4531421363353729, - "learning_rate": 0.00018333333333333334, - "loss": 0.0065, + "grad_norm": 0.0249915961176157, + "learning_rate": 0.0001666666666666667, + "loss": 0.082, "step": 750 }, { "epoch": 2.5166666666666666, - "grad_norm": 0.04818582162261009, - "learning_rate": 0.00018322222222222223, - "loss": 0.0143, + "grad_norm": 0.06522756069898605, + "learning_rate": 0.00016644444444444446, + "loss": 0.0055, "step": 755 }, { "epoch": 2.533333333333333, - "grad_norm": 2.271834135055542, - "learning_rate": 0.00018311111111111113, - "loss": 0.0784, + "grad_norm": 0.031748611479997635, + "learning_rate": 0.00016622222222222223, + "loss": 0.0484, "step": 760 }, { "epoch": 2.55, - "grad_norm": 0.01363254152238369, - "learning_rate": 0.000183, - "loss": 0.0485, + "grad_norm": 2.838484764099121, + "learning_rate": 0.000166, + "loss": 0.0781, "step": 765 }, { "epoch": 2.5666666666666664, - "grad_norm": 0.2280726283788681, - "learning_rate": 0.00018288888888888887, - "loss": 0.0427, + "grad_norm": 0.019979197531938553, + "learning_rate": 0.0001657777777777778, + "loss": 0.0082, "step": 770 }, { "epoch": 2.5833333333333335, - "grad_norm": 4.314803600311279, - "learning_rate": 0.00018277777777777777, - "loss": 0.1475, + "grad_norm": 0.01695883832871914, + "learning_rate": 0.00016555555555555556, + "loss": 0.0334, "step": 775 }, { "epoch": 2.6, - "grad_norm": 0.693932056427002, - "learning_rate": 0.00018266666666666667, - "loss": 0.0777, + "grad_norm": 0.018755167722702026, + "learning_rate": 0.00016533333333333333, + "loss": 0.0376, "step": 780 }, { "epoch": 2.6166666666666667, - "grad_norm": 7.489694595336914, - "learning_rate": 0.00018255555555555557, - "loss": 0.0713, + "grad_norm": 0.04571496695280075, + "learning_rate": 0.00016511111111111113, + "loss": 0.0181, "step": 785 }, { "epoch": 2.6333333333333333, - "grad_norm": 1.1213643550872803, - "learning_rate": 0.00018244444444444447, - "loss": 0.0048, + "grad_norm": 1.9246848821640015, + "learning_rate": 0.0001648888888888889, + "loss": 0.0062, "step": 790 }, { "epoch": 2.65, - "grad_norm": 0.890018880367279, - "learning_rate": 0.00018233333333333334, - "loss": 0.0263, + "grad_norm": 0.06697019934654236, + "learning_rate": 0.00016466666666666667, + "loss": 0.0195, "step": 795 }, { "epoch": 2.6666666666666665, - "grad_norm": 4.770391941070557, - "learning_rate": 0.00018222222222222224, - "loss": 0.0135, + "grad_norm": 2.771127462387085, + "learning_rate": 0.00016444444444444444, + "loss": 0.0977, "step": 800 }, { "epoch": 2.6666666666666665, - "eval_accuracy": 0.8395833333333333, - "eval_f1": 0.8413337839862026, - "eval_loss": 0.6977739930152893, - "eval_precision": 0.8529186337069479, - "eval_recall": 0.8395833333333333, - "eval_runtime": 16.4132, - "eval_samples_per_second": 146.224, - "eval_steps_per_second": 18.278, + "eval_accuracy": 0.8479166666666667, + "eval_f1": 0.8481618314675412, + "eval_loss": 0.6860576272010803, + "eval_precision": 0.8570360706170527, + "eval_recall": 0.8479166666666667, + "eval_runtime": 16.0735, + "eval_samples_per_second": 149.314, + "eval_steps_per_second": 18.664, "step": 800 }, { "epoch": 2.6833333333333336, - "grad_norm": 1.9553234577178955, - "learning_rate": 0.00018211111111111113, - "loss": 0.1172, + "grad_norm": 0.019645988941192627, + "learning_rate": 0.00016422222222222223, + "loss": 0.0331, "step": 805 }, { "epoch": 2.7, - "grad_norm": 1.9874789714813232, - "learning_rate": 0.000182, - "loss": 0.0638, + "grad_norm": 0.041057515889406204, + "learning_rate": 0.000164, + "loss": 0.0238, "step": 810 }, { "epoch": 2.716666666666667, - "grad_norm": 2.0748958587646484, - "learning_rate": 0.0001818888888888889, - "loss": 0.1061, + "grad_norm": 0.024724528193473816, + "learning_rate": 0.0001637777777777778, + "loss": 0.0484, "step": 815 }, { "epoch": 2.7333333333333334, - "grad_norm": 3.271331548690796, - "learning_rate": 0.00018177777777777778, - "loss": 0.1042, + "grad_norm": 0.015088117681443691, + "learning_rate": 0.00016355555555555557, + "loss": 0.004, "step": 820 }, { "epoch": 2.75, - "grad_norm": 5.6369733810424805, - "learning_rate": 0.00018166666666666667, - "loss": 0.0576, + "grad_norm": 0.023515278473496437, + "learning_rate": 0.00016333333333333334, + "loss": 0.004, "step": 825 }, { "epoch": 2.7666666666666666, - "grad_norm": 0.051588039845228195, - "learning_rate": 0.00018155555555555557, - "loss": 0.034, + "grad_norm": 0.026812009513378143, + "learning_rate": 0.00016311111111111113, + "loss": 0.0174, "step": 830 }, { "epoch": 2.783333333333333, - "grad_norm": 0.0270976684987545, - "learning_rate": 0.00018144444444444447, - "loss": 0.0192, + "grad_norm": 1.222553014755249, + "learning_rate": 0.0001628888888888889, + "loss": 0.0486, "step": 835 }, { "epoch": 2.8, - "grad_norm": 1.5272257328033447, - "learning_rate": 0.00018133333333333334, - "loss": 0.0559, + "grad_norm": 5.861104488372803, + "learning_rate": 0.00016266666666666667, + "loss": 0.0468, "step": 840 }, { "epoch": 2.8166666666666664, - "grad_norm": 2.0996463298797607, - "learning_rate": 0.00018122222222222224, - "loss": 0.0338, + "grad_norm": 0.019749319180846214, + "learning_rate": 0.00016244444444444444, + "loss": 0.0231, "step": 845 }, { "epoch": 2.8333333333333335, - "grad_norm": 8.849459648132324, - "learning_rate": 0.0001811111111111111, - "loss": 0.0178, + "grad_norm": 0.10898631066083908, + "learning_rate": 0.00016222222222222224, + "loss": 0.0243, "step": 850 }, { "epoch": 2.85, - "grad_norm": 4.66837739944458, - "learning_rate": 0.000181, - "loss": 0.036, + "grad_norm": 8.215620994567871, + "learning_rate": 0.000162, + "loss": 0.0806, "step": 855 }, { "epoch": 2.8666666666666667, - "grad_norm": 0.0836125910282135, - "learning_rate": 0.0001808888888888889, - "loss": 0.0193, + "grad_norm": 4.63622522354126, + "learning_rate": 0.00016177777777777778, + "loss": 0.0632, "step": 860 }, { "epoch": 2.8833333333333333, - "grad_norm": 0.24081940948963165, - "learning_rate": 0.00018077777777777778, - "loss": 0.0052, + "grad_norm": 0.016983600333333015, + "learning_rate": 0.00016155555555555557, + "loss": 0.0721, "step": 865 }, { "epoch": 2.9, - "grad_norm": 0.014513032510876656, - "learning_rate": 0.00018066666666666668, - "loss": 0.038, + "grad_norm": 2.936657667160034, + "learning_rate": 0.00016133333333333334, + "loss": 0.0559, "step": 870 }, { "epoch": 2.9166666666666665, - "grad_norm": 2.398954391479492, - "learning_rate": 0.00018055555555555557, - "loss": 0.0241, + "grad_norm": 0.019631261005997658, + "learning_rate": 0.0001611111111111111, + "loss": 0.0073, "step": 875 }, { "epoch": 2.9333333333333336, - "grad_norm": 2.782942295074463, - "learning_rate": 0.00018044444444444447, - "loss": 0.1027, + "grad_norm": 0.07632032036781311, + "learning_rate": 0.00016088888888888888, + "loss": 0.065, "step": 880 }, { "epoch": 2.95, - "grad_norm": 2.2646985054016113, - "learning_rate": 0.00018033333333333334, - "loss": 0.047, + "grad_norm": 0.2032032459974289, + "learning_rate": 0.00016066666666666668, + "loss": 0.0053, "step": 885 }, { "epoch": 2.966666666666667, - "grad_norm": 0.2077503353357315, - "learning_rate": 0.00018022222222222221, - "loss": 0.0273, + "grad_norm": 4.927019119262695, + "learning_rate": 0.00016044444444444445, + "loss": 0.0142, "step": 890 }, { "epoch": 2.9833333333333334, - "grad_norm": 0.01212611235678196, - "learning_rate": 0.0001801111111111111, - "loss": 0.0114, + "grad_norm": 0.012328370474278927, + "learning_rate": 0.00016022222222222222, + "loss": 0.0913, "step": 895 }, { "epoch": 3.0, - "grad_norm": 0.025400619953870773, - "learning_rate": 0.00018, - "loss": 0.0075, + "grad_norm": 0.020481785759329796, + "learning_rate": 0.00016, + "loss": 0.03, "step": 900 }, { "epoch": 3.0, - "eval_accuracy": 0.8104166666666667, - "eval_f1": 0.8160570679017576, - "eval_loss": 1.0180033445358276, - "eval_precision": 0.8370214132253262, - "eval_recall": 0.8104166666666667, - "eval_runtime": 16.3381, - "eval_samples_per_second": 146.896, - "eval_steps_per_second": 18.362, + "eval_accuracy": 0.8025, + "eval_f1": 0.8047601163566459, + "eval_loss": 0.8317471146583557, + "eval_precision": 0.82254261480191, + "eval_recall": 0.8025, + "eval_runtime": 16.0096, + "eval_samples_per_second": 149.91, + "eval_steps_per_second": 18.739, "step": 900 }, { "epoch": 3.0166666666666666, - "grad_norm": 3.0035810470581055, - "learning_rate": 0.0001798888888888889, - "loss": 0.0519, + "grad_norm": 0.021587694063782692, + "learning_rate": 0.00015977777777777778, + "loss": 0.0048, "step": 905 }, { "epoch": 3.033333333333333, - "grad_norm": 5.318724155426025, - "learning_rate": 0.00017977777777777778, - "loss": 0.034, + "grad_norm": 0.029200172051787376, + "learning_rate": 0.00015955555555555558, + "loss": 0.014, "step": 910 }, { "epoch": 3.05, - "grad_norm": 3.7328836917877197, - "learning_rate": 0.00017966666666666668, - "loss": 0.0523, + "grad_norm": 0.11076593399047852, + "learning_rate": 0.00015933333333333332, + "loss": 0.0038, "step": 915 }, { "epoch": 3.066666666666667, - "grad_norm": 0.03396003693342209, - "learning_rate": 0.00017955555555555558, - "loss": 0.0671, + "grad_norm": 0.04768664762377739, + "learning_rate": 0.00015911111111111112, + "loss": 0.0142, "step": 920 }, { "epoch": 3.0833333333333335, - "grad_norm": 3.068767786026001, - "learning_rate": 0.00017944444444444445, - "loss": 0.0562, + "grad_norm": 6.136537075042725, + "learning_rate": 0.0001588888888888889, + "loss": 0.044, "step": 925 }, { "epoch": 3.1, - "grad_norm": 4.049549102783203, - "learning_rate": 0.00017933333333333332, - "loss": 0.0955, + "grad_norm": 1.5751808881759644, + "learning_rate": 0.00015866666666666668, + "loss": 0.0362, "step": 930 }, { "epoch": 3.1166666666666667, - "grad_norm": 0.06512529402971268, - "learning_rate": 0.00017922222222222222, - "loss": 0.0092, + "grad_norm": 3.6770124435424805, + "learning_rate": 0.00015844444444444445, + "loss": 0.0116, "step": 935 }, { "epoch": 3.1333333333333333, - "grad_norm": 2.167185068130493, - "learning_rate": 0.00017911111111111112, - "loss": 0.0061, + "grad_norm": 0.040930673480033875, + "learning_rate": 0.00015822222222222222, + "loss": 0.0036, "step": 940 }, { "epoch": 3.15, - "grad_norm": 0.01653483882546425, - "learning_rate": 0.00017900000000000001, - "loss": 0.0138, + "grad_norm": 2.1845993995666504, + "learning_rate": 0.00015800000000000002, + "loss": 0.0846, "step": 945 }, { "epoch": 3.1666666666666665, - "grad_norm": 0.07170548290014267, - "learning_rate": 0.0001788888888888889, - "loss": 0.0213, + "grad_norm": 5.29158353805542, + "learning_rate": 0.0001577777777777778, + "loss": 0.012, "step": 950 }, { "epoch": 3.183333333333333, - "grad_norm": 0.01880640909075737, - "learning_rate": 0.00017877777777777778, - "loss": 0.0222, + "grad_norm": 4.327261447906494, + "learning_rate": 0.00015755555555555556, + "loss": 0.029, "step": 955 }, { "epoch": 3.2, - "grad_norm": 3.4432425498962402, - "learning_rate": 0.00017866666666666668, - "loss": 0.0454, + "grad_norm": 0.04290402680635452, + "learning_rate": 0.00015733333333333333, + "loss": 0.0051, "step": 960 }, { "epoch": 3.216666666666667, - "grad_norm": 4.25826358795166, - "learning_rate": 0.00017855555555555555, - "loss": 0.0922, + "grad_norm": 6.41172456741333, + "learning_rate": 0.00015711111111111112, + "loss": 0.0888, "step": 965 }, { "epoch": 3.2333333333333334, - "grad_norm": 3.4342238903045654, - "learning_rate": 0.00017844444444444445, - "loss": 0.057, + "grad_norm": 0.013120060786604881, + "learning_rate": 0.00015688888888888892, + "loss": 0.0059, "step": 970 }, { "epoch": 3.25, - "grad_norm": 0.04943245276808739, - "learning_rate": 0.00017833333333333335, - "loss": 0.044, + "grad_norm": 0.014242022298276424, + "learning_rate": 0.00015666666666666666, + "loss": 0.0036, "step": 975 }, { "epoch": 3.2666666666666666, - "grad_norm": 1.111425757408142, - "learning_rate": 0.00017822222222222222, - "loss": 0.0068, + "grad_norm": 0.015532501973211765, + "learning_rate": 0.00015644444444444446, + "loss": 0.0438, "step": 980 }, { "epoch": 3.283333333333333, - "grad_norm": 0.01014188677072525, - "learning_rate": 0.00017811111111111112, - "loss": 0.0077, + "grad_norm": 0.014511325396597385, + "learning_rate": 0.00015622222222222223, + "loss": 0.0028, "step": 985 }, { "epoch": 3.3, - "grad_norm": 0.00853718351572752, - "learning_rate": 0.00017800000000000002, - "loss": 0.0476, + "grad_norm": 2.748915433883667, + "learning_rate": 0.00015600000000000002, + "loss": 0.0564, "step": 990 }, { "epoch": 3.3166666666666664, - "grad_norm": 0.02944503165781498, - "learning_rate": 0.00017788888888888892, - "loss": 0.0137, + "grad_norm": 2.6591851711273193, + "learning_rate": 0.00015577777777777777, + "loss": 0.1238, "step": 995 }, { "epoch": 3.3333333333333335, - "grad_norm": 0.012295613996684551, - "learning_rate": 0.00017777777777777779, - "loss": 0.0338, + "grad_norm": 0.0233880914747715, + "learning_rate": 0.00015555555555555556, + "loss": 0.0253, "step": 1000 }, { "epoch": 3.3333333333333335, - "eval_accuracy": 0.8429166666666666, - "eval_f1": 0.8422077483725371, - "eval_loss": 0.7638025879859924, - "eval_precision": 0.8601360964887654, - "eval_recall": 0.8429166666666666, - "eval_runtime": 16.2888, - "eval_samples_per_second": 147.34, - "eval_steps_per_second": 18.418, + "eval_accuracy": 0.8241666666666667, + "eval_f1": 0.8253623209178303, + "eval_loss": 0.8573578000068665, + "eval_precision": 0.8407910958614392, + "eval_recall": 0.8241666666666667, + "eval_runtime": 16.1693, + "eval_samples_per_second": 148.43, + "eval_steps_per_second": 18.554, "step": 1000 }, { "epoch": 3.35, - "grad_norm": 0.01096256822347641, - "learning_rate": 0.00017766666666666666, - "loss": 0.0443, + "grad_norm": 0.009820850566029549, + "learning_rate": 0.00015533333333333333, + "loss": 0.0348, "step": 1005 }, { "epoch": 3.3666666666666667, - "grad_norm": 3.139845132827759, - "learning_rate": 0.00017755555555555556, - "loss": 0.0752, + "grad_norm": 0.4129643440246582, + "learning_rate": 0.00015511111111111113, + "loss": 0.0035, "step": 1010 }, { "epoch": 3.3833333333333333, - "grad_norm": 3.4195477962493896, - "learning_rate": 0.00017744444444444445, - "loss": 0.0347, + "grad_norm": 0.0425117164850235, + "learning_rate": 0.0001548888888888889, + "loss": 0.0787, "step": 1015 }, { "epoch": 3.4, - "grad_norm": 1.5012662410736084, - "learning_rate": 0.00017733333333333335, - "loss": 0.0249, + "grad_norm": 0.012955604121088982, + "learning_rate": 0.00015466666666666667, + "loss": 0.0151, "step": 1020 }, { "epoch": 3.4166666666666665, - "grad_norm": 0.3454837203025818, - "learning_rate": 0.00017722222222222222, - "loss": 0.0636, + "grad_norm": 0.013103988952934742, + "learning_rate": 0.00015444444444444446, + "loss": 0.0429, "step": 1025 }, { "epoch": 3.4333333333333336, - "grad_norm": 0.009671506471931934, - "learning_rate": 0.00017711111111111112, - "loss": 0.0112, + "grad_norm": 0.08540816605091095, + "learning_rate": 0.00015422222222222223, + "loss": 0.0035, "step": 1030 }, { "epoch": 3.45, - "grad_norm": 0.009137900546193123, - "learning_rate": 0.00017700000000000002, - "loss": 0.0232, + "grad_norm": 0.01831856369972229, + "learning_rate": 0.000154, + "loss": 0.0296, "step": 1035 }, { "epoch": 3.466666666666667, - "grad_norm": 1.6161612272262573, - "learning_rate": 0.0001768888888888889, - "loss": 0.0575, + "grad_norm": 3.1137874126434326, + "learning_rate": 0.00015377777777777777, + "loss": 0.015, "step": 1040 }, { "epoch": 3.4833333333333334, - "grad_norm": 2.7803761959075928, - "learning_rate": 0.00017677777777777776, - "loss": 0.1043, + "grad_norm": 4.800497531890869, + "learning_rate": 0.00015355555555555557, + "loss": 0.0402, "step": 1045 }, { "epoch": 3.5, - "grad_norm": 4.598694324493408, - "learning_rate": 0.00017666666666666666, - "loss": 0.2, + "grad_norm": 0.012581158429384232, + "learning_rate": 0.00015333333333333334, + "loss": 0.0061, "step": 1050 }, { "epoch": 3.5166666666666666, - "grad_norm": 0.3334619998931885, - "learning_rate": 0.00017655555555555556, - "loss": 0.0704, + "grad_norm": 0.008870863355696201, + "learning_rate": 0.0001531111111111111, + "loss": 0.0137, "step": 1055 }, { "epoch": 3.533333333333333, - "grad_norm": 3.1704840660095215, - "learning_rate": 0.00017644444444444446, - "loss": 0.0466, + "grad_norm": 0.11069171875715256, + "learning_rate": 0.0001528888888888889, + "loss": 0.0031, "step": 1060 }, { "epoch": 3.55, - "grad_norm": 0.5454235672950745, - "learning_rate": 0.00017633333333333335, - "loss": 0.074, + "grad_norm": 6.617146015167236, + "learning_rate": 0.00015266666666666667, + "loss": 0.064, "step": 1065 }, { "epoch": 3.5666666666666664, - "grad_norm": 0.10015742480754852, - "learning_rate": 0.00017622222222222223, - "loss": 0.0137, + "grad_norm": 2.2220444679260254, + "learning_rate": 0.00015244444444444447, + "loss": 0.0057, "step": 1070 }, { "epoch": 3.5833333333333335, - "grad_norm": 0.6166223883628845, - "learning_rate": 0.00017611111111111112, - "loss": 0.0161, + "grad_norm": 3.3805482387542725, + "learning_rate": 0.0001522222222222222, + "loss": 0.0308, "step": 1075 }, { "epoch": 3.6, - "grad_norm": 0.07125667482614517, - "learning_rate": 0.00017600000000000002, - "loss": 0.008, + "grad_norm": 0.009273400530219078, + "learning_rate": 0.000152, + "loss": 0.0257, "step": 1080 }, { "epoch": 3.6166666666666667, - "grad_norm": 0.10988776385784149, - "learning_rate": 0.0001758888888888889, - "loss": 0.0037, + "grad_norm": 0.007726817391812801, + "learning_rate": 0.00015177777777777778, + "loss": 0.002, "step": 1085 }, { "epoch": 3.6333333333333333, - "grad_norm": 4.895864963531494, - "learning_rate": 0.0001757777777777778, - "loss": 0.1261, + "grad_norm": 0.007703765761107206, + "learning_rate": 0.00015155555555555557, + "loss": 0.0073, "step": 1090 }, { "epoch": 3.65, - "grad_norm": 3.7196929454803467, - "learning_rate": 0.00017566666666666666, - "loss": 0.0097, + "grad_norm": 3.1173300743103027, + "learning_rate": 0.00015133333333333334, + "loss": 0.0203, "step": 1095 }, { "epoch": 3.6666666666666665, - "grad_norm": 1.5260200500488281, - "learning_rate": 0.00017555555555555556, - "loss": 0.0488, + "grad_norm": 0.027209792286157608, + "learning_rate": 0.0001511111111111111, + "loss": 0.0564, "step": 1100 }, { "epoch": 3.6666666666666665, - "eval_accuracy": 0.7983333333333333, - "eval_f1": 0.7985829803110943, - "eval_loss": 1.040056586265564, - "eval_precision": 0.82276451694565, - "eval_recall": 0.7983333333333333, - "eval_runtime": 16.232, - "eval_samples_per_second": 147.856, - "eval_steps_per_second": 18.482, + "eval_accuracy": 0.8391666666666666, + "eval_f1": 0.8343497769638814, + "eval_loss": 0.8590586185455322, + "eval_precision": 0.8512898032858356, + "eval_recall": 0.8391666666666666, + "eval_runtime": 16.022, + "eval_samples_per_second": 149.794, + "eval_steps_per_second": 18.724, "step": 1100 }, { "epoch": 3.6833333333333336, - "grad_norm": 0.0966605693101883, - "learning_rate": 0.00017544444444444446, - "loss": 0.0819, + "grad_norm": 0.3074783682823181, + "learning_rate": 0.0001508888888888889, + "loss": 0.0627, "step": 1105 }, { "epoch": 3.7, - "grad_norm": 4.365535736083984, - "learning_rate": 0.00017533333333333336, - "loss": 0.111, + "grad_norm": 0.7689422965049744, + "learning_rate": 0.00015066666666666668, + "loss": 0.0064, "step": 1110 }, { "epoch": 3.716666666666667, - "grad_norm": 0.023431312292814255, - "learning_rate": 0.00017522222222222223, - "loss": 0.037, + "grad_norm": 0.7673523426055908, + "learning_rate": 0.00015044444444444445, + "loss": 0.0569, "step": 1115 }, { "epoch": 3.7333333333333334, - "grad_norm": 2.030966281890869, - "learning_rate": 0.00017511111111111113, - "loss": 0.0408, + "grad_norm": 2.515536308288574, + "learning_rate": 0.00015022222222222222, + "loss": 0.0478, "step": 1120 }, { "epoch": 3.75, - "grad_norm": 1.2563936710357666, - "learning_rate": 0.000175, - "loss": 0.0786, + "grad_norm": 0.008888054639101028, + "learning_rate": 0.00015000000000000001, + "loss": 0.0185, "step": 1125 }, { "epoch": 3.7666666666666666, - "grad_norm": 0.03219285607337952, - "learning_rate": 0.0001748888888888889, - "loss": 0.0792, + "grad_norm": 0.025508493185043335, + "learning_rate": 0.00014977777777777778, + "loss": 0.0433, "step": 1130 }, { "epoch": 3.783333333333333, - "grad_norm": 0.49413928389549255, - "learning_rate": 0.0001747777777777778, - "loss": 0.0261, + "grad_norm": 0.22528721392154694, + "learning_rate": 0.00014955555555555555, + "loss": 0.0329, "step": 1135 }, { "epoch": 3.8, - "grad_norm": 2.306758165359497, - "learning_rate": 0.00017466666666666667, - "loss": 0.0933, + "grad_norm": 0.02366475760936737, + "learning_rate": 0.00014933333333333335, + "loss": 0.0977, "step": 1140 }, { "epoch": 3.8166666666666664, - "grad_norm": 0.8901767134666443, - "learning_rate": 0.00017455555555555556, - "loss": 0.0446, + "grad_norm": 1.9770526885986328, + "learning_rate": 0.00014911111111111112, + "loss": 0.0474, "step": 1145 }, { "epoch": 3.8333333333333335, - "grad_norm": 0.030653255060315132, - "learning_rate": 0.00017444444444444446, - "loss": 0.0259, + "grad_norm": 0.021462541073560715, + "learning_rate": 0.0001488888888888889, + "loss": 0.0031, "step": 1150 }, { "epoch": 3.85, - "grad_norm": 0.019782505929470062, - "learning_rate": 0.00017433333333333336, - "loss": 0.0597, + "grad_norm": 0.016281824558973312, + "learning_rate": 0.00014866666666666666, + "loss": 0.0395, "step": 1155 }, { "epoch": 3.8666666666666667, - "grad_norm": 0.237277090549469, - "learning_rate": 0.00017422222222222223, - "loss": 0.0194, + "grad_norm": 0.011671984568238258, + "learning_rate": 0.00014844444444444445, + "loss": 0.0422, "step": 1160 }, { "epoch": 3.8833333333333333, - "grad_norm": 3.122256278991699, - "learning_rate": 0.0001741111111111111, - "loss": 0.0324, + "grad_norm": 1.627789855003357, + "learning_rate": 0.00014822222222222225, + "loss": 0.0116, "step": 1165 }, { "epoch": 3.9, - "grad_norm": 0.035242628306150436, - "learning_rate": 0.000174, - "loss": 0.004, + "grad_norm": 0.21025590598583221, + "learning_rate": 0.000148, + "loss": 0.0108, "step": 1170 }, { "epoch": 3.9166666666666665, - "grad_norm": 2.5928890705108643, - "learning_rate": 0.0001738888888888889, - "loss": 0.0593, + "grad_norm": 0.9990274906158447, + "learning_rate": 0.0001477777777777778, + "loss": 0.0596, "step": 1175 }, { "epoch": 3.9333333333333336, - "grad_norm": 0.19947613775730133, - "learning_rate": 0.0001737777777777778, - "loss": 0.0031, + "grad_norm": 0.007340074982494116, + "learning_rate": 0.00014755555555555556, + "loss": 0.0044, "step": 1180 }, { "epoch": 3.95, - "grad_norm": 0.00948380772024393, - "learning_rate": 0.00017366666666666667, - "loss": 0.007, + "grad_norm": 8.026524543762207, + "learning_rate": 0.00014733333333333335, + "loss": 0.0432, "step": 1185 }, { "epoch": 3.966666666666667, - "grad_norm": 0.15441906452178955, - "learning_rate": 0.00017355555555555557, - "loss": 0.0029, + "grad_norm": 2.962063789367676, + "learning_rate": 0.00014711111111111112, + "loss": 0.0504, "step": 1190 }, { "epoch": 3.9833333333333334, - "grad_norm": 0.011880452744662762, - "learning_rate": 0.00017344444444444447, - "loss": 0.0065, + "grad_norm": 0.4192357063293457, + "learning_rate": 0.0001468888888888889, + "loss": 0.0345, "step": 1195 }, { "epoch": 4.0, - "grad_norm": 0.02088858373463154, - "learning_rate": 0.00017333333333333334, - "loss": 0.0794, + "grad_norm": 3.6934778690338135, + "learning_rate": 0.00014666666666666666, + "loss": 0.0285, "step": 1200 }, { "epoch": 4.0, - "eval_accuracy": 0.8495833333333334, - "eval_f1": 0.8481373809485657, - "eval_loss": 0.7388473749160767, - "eval_precision": 0.8497200322586838, - "eval_recall": 0.8495833333333334, - "eval_runtime": 16.3626, - "eval_samples_per_second": 146.676, - "eval_steps_per_second": 18.334, + "eval_accuracy": 0.75125, + "eval_f1": 0.7483716523062018, + "eval_loss": 1.3453402519226074, + "eval_precision": 0.8089996769385102, + "eval_recall": 0.75125, + "eval_runtime": 16.185, + "eval_samples_per_second": 148.285, + "eval_steps_per_second": 18.536, "step": 1200 }, { "epoch": 4.016666666666667, - "grad_norm": 5.267594814300537, - "learning_rate": 0.00017322222222222223, - "loss": 0.0967, + "grad_norm": 3.0329835414886475, + "learning_rate": 0.00014644444444444446, + "loss": 0.1116, "step": 1205 }, { "epoch": 4.033333333333333, - "grad_norm": 0.1025567352771759, - "learning_rate": 0.0001731111111111111, - "loss": 0.0063, + "grad_norm": 0.008245925419032574, + "learning_rate": 0.00014622222222222223, + "loss": 0.0071, "step": 1210 }, { "epoch": 4.05, - "grad_norm": 0.07298365235328674, - "learning_rate": 0.000173, - "loss": 0.003, + "grad_norm": 0.031323954463005066, + "learning_rate": 0.000146, + "loss": 0.0118, "step": 1215 }, { "epoch": 4.066666666666666, - "grad_norm": 1.120330572128296, - "learning_rate": 0.0001728888888888889, - "loss": 0.0759, + "grad_norm": 0.020334072411060333, + "learning_rate": 0.0001457777777777778, + "loss": 0.0059, "step": 1220 }, { "epoch": 4.083333333333333, - "grad_norm": 0.011293798685073853, - "learning_rate": 0.0001727777777777778, - "loss": 0.003, + "grad_norm": 0.023309530690312386, + "learning_rate": 0.00014555555555555556, + "loss": 0.0048, "step": 1225 }, { "epoch": 4.1, - "grad_norm": 0.015631891787052155, - "learning_rate": 0.00017266666666666667, - "loss": 0.0879, + "grad_norm": 0.07732044160366058, + "learning_rate": 0.00014533333333333333, + "loss": 0.0033, "step": 1230 }, { "epoch": 4.116666666666666, - "grad_norm": 0.08340942114591599, - "learning_rate": 0.00017255555555555557, - "loss": 0.0327, + "grad_norm": 0.16771095991134644, + "learning_rate": 0.0001451111111111111, + "loss": 0.002, "step": 1235 }, { "epoch": 4.133333333333334, - "grad_norm": 0.011817115359008312, - "learning_rate": 0.00017244444444444444, - "loss": 0.02, + "grad_norm": 0.0193961039185524, + "learning_rate": 0.0001448888888888889, + "loss": 0.0373, "step": 1240 }, { "epoch": 4.15, - "grad_norm": 4.441591262817383, - "learning_rate": 0.00017233333333333334, - "loss": 0.0964, + "grad_norm": 0.012680591084063053, + "learning_rate": 0.0001446666666666667, + "loss": 0.0265, "step": 1245 }, { "epoch": 4.166666666666667, - "grad_norm": 0.0307245422154665, - "learning_rate": 0.00017222222222222224, - "loss": 0.0294, + "grad_norm": 3.6955759525299072, + "learning_rate": 0.00014444444444444444, + "loss": 0.0204, "step": 1250 }, { "epoch": 4.183333333333334, - "grad_norm": 0.2551024854183197, - "learning_rate": 0.0001721111111111111, - "loss": 0.0098, + "grad_norm": 0.17912250757217407, + "learning_rate": 0.00014422222222222223, + "loss": 0.0345, "step": 1255 }, { "epoch": 4.2, - "grad_norm": 0.021809710189700127, - "learning_rate": 0.000172, - "loss": 0.0443, + "grad_norm": 0.008037371560931206, + "learning_rate": 0.000144, + "loss": 0.0019, "step": 1260 }, { "epoch": 4.216666666666667, - "grad_norm": 2.603322744369507, - "learning_rate": 0.0001718888888888889, - "loss": 0.0328, + "grad_norm": 1.6326488256454468, + "learning_rate": 0.0001437777777777778, + "loss": 0.0404, "step": 1265 }, { "epoch": 4.233333333333333, - "grad_norm": 4.0956573486328125, - "learning_rate": 0.0001717777777777778, - "loss": 0.0338, + "grad_norm": 0.21533696353435516, + "learning_rate": 0.00014355555555555554, + "loss": 0.0024, "step": 1270 }, { "epoch": 4.25, - "grad_norm": 5.8344268798828125, - "learning_rate": 0.00017166666666666667, - "loss": 0.054, + "grad_norm": 2.628861665725708, + "learning_rate": 0.00014333333333333334, + "loss": 0.0062, "step": 1275 }, { "epoch": 4.266666666666667, - "grad_norm": 4.867835521697998, - "learning_rate": 0.00017155555555555555, - "loss": 0.0289, - "step": 1280 + "grad_norm": 0.014976616948843002, + "learning_rate": 0.0001431111111111111, + "loss": 0.0215, + "step": 1280 }, { "epoch": 4.283333333333333, - "grad_norm": 7.187802314758301, - "learning_rate": 0.00017144444444444444, - "loss": 0.0651, + "grad_norm": 0.12851203978061676, + "learning_rate": 0.0001428888888888889, + "loss": 0.0022, "step": 1285 }, { "epoch": 4.3, - "grad_norm": 0.19430683553218842, - "learning_rate": 0.00017133333333333334, - "loss": 0.0565, + "grad_norm": 0.01767564006149769, + "learning_rate": 0.00014266666666666667, + "loss": 0.0234, "step": 1290 }, { "epoch": 4.316666666666666, - "grad_norm": 0.010342041030526161, - "learning_rate": 0.00017122222222222224, - "loss": 0.0206, + "grad_norm": 0.10187935829162598, + "learning_rate": 0.00014244444444444444, + "loss": 0.0076, "step": 1295 }, { "epoch": 4.333333333333333, - "grad_norm": 0.6548381447792053, - "learning_rate": 0.0001711111111111111, - "loss": 0.0034, + "grad_norm": 0.015292627736926079, + "learning_rate": 0.00014222222222222224, + "loss": 0.002, "step": 1300 }, { "epoch": 4.333333333333333, - "eval_accuracy": 0.8279166666666666, - "eval_f1": 0.8252457143524822, - "eval_loss": 0.9748605489730835, - "eval_precision": 0.8426798194205973, - "eval_recall": 0.8279166666666666, - "eval_runtime": 16.321, - "eval_samples_per_second": 147.049, - "eval_steps_per_second": 18.381, + "eval_accuracy": 0.8191666666666667, + "eval_f1": 0.822682331314537, + "eval_loss": 0.9746004343032837, + "eval_precision": 0.8380616290123944, + "eval_recall": 0.8191666666666667, + "eval_runtime": 16.1244, + "eval_samples_per_second": 148.843, + "eval_steps_per_second": 18.605, "step": 1300 }, { "epoch": 4.35, - "grad_norm": 0.02649116702377796, - "learning_rate": 0.000171, - "loss": 0.012, + "grad_norm": 0.029992559924721718, + "learning_rate": 0.000142, + "loss": 0.0309, "step": 1305 }, { "epoch": 4.366666666666666, - "grad_norm": 0.00635824678465724, - "learning_rate": 0.0001708888888888889, - "loss": 0.0695, + "grad_norm": 0.20593196153640747, + "learning_rate": 0.00014177777777777778, + "loss": 0.0021, "step": 1310 }, { "epoch": 4.383333333333334, - "grad_norm": 3.5505950450897217, - "learning_rate": 0.00017077777777777778, - "loss": 0.1248, + "grad_norm": 0.007687207777053118, + "learning_rate": 0.00014155555555555555, + "loss": 0.0683, "step": 1315 }, { "epoch": 4.4, - "grad_norm": 3.20735764503479, - "learning_rate": 0.00017066666666666668, - "loss": 0.045, + "grad_norm": 0.04832199588418007, + "learning_rate": 0.00014133333333333334, + "loss": 0.0028, "step": 1320 }, { "epoch": 4.416666666666667, - "grad_norm": 0.2630263864994049, - "learning_rate": 0.00017055555555555555, - "loss": 0.0096, + "grad_norm": 6.2812418937683105, + "learning_rate": 0.00014111111111111111, + "loss": 0.0389, "step": 1325 }, { "epoch": 4.433333333333334, - "grad_norm": 3.3768668174743652, - "learning_rate": 0.00017044444444444445, - "loss": 0.0451, + "grad_norm": 0.05290313437581062, + "learning_rate": 0.00014088888888888888, + "loss": 0.0327, "step": 1330 }, { "epoch": 4.45, - "grad_norm": 0.16904784739017487, - "learning_rate": 0.00017033333333333334, - "loss": 0.0437, + "grad_norm": 0.024216249585151672, + "learning_rate": 0.00014066666666666668, + "loss": 0.0028, "step": 1335 }, { "epoch": 4.466666666666667, - "grad_norm": 0.00831939559429884, - "learning_rate": 0.00017022222222222224, - "loss": 0.0355, + "grad_norm": 0.008240735158324242, + "learning_rate": 0.00014044444444444445, + "loss": 0.0018, "step": 1340 }, { "epoch": 4.483333333333333, - "grad_norm": 0.0073820254765450954, - "learning_rate": 0.00017011111111111111, - "loss": 0.0578, + "grad_norm": 0.006367730442434549, + "learning_rate": 0.00014022222222222225, + "loss": 0.0102, "step": 1345 }, { "epoch": 4.5, - "grad_norm": 3.848128318786621, - "learning_rate": 0.00017, - "loss": 0.0593, + "grad_norm": 0.6259393095970154, + "learning_rate": 0.00014, + "loss": 0.0202, "step": 1350 }, { "epoch": 4.516666666666667, - "grad_norm": 0.691386342048645, - "learning_rate": 0.0001698888888888889, - "loss": 0.0711, + "grad_norm": 0.028926260769367218, + "learning_rate": 0.00013977777777777778, + "loss": 0.0059, "step": 1355 }, { "epoch": 4.533333333333333, - "grad_norm": 0.18936562538146973, - "learning_rate": 0.00016977777777777778, - "loss": 0.0163, + "grad_norm": 0.005139854736626148, + "learning_rate": 0.00013955555555555558, + "loss": 0.0014, "step": 1360 }, { "epoch": 4.55, - "grad_norm": 0.03111095167696476, - "learning_rate": 0.00016966666666666668, - "loss": 0.0086, + "grad_norm": 0.00576843461021781, + "learning_rate": 0.00013933333333333335, + "loss": 0.0323, "step": 1365 }, { "epoch": 4.566666666666666, - "grad_norm": 0.08653925359249115, - "learning_rate": 0.00016955555555555555, - "loss": 0.0237, + "grad_norm": 0.011091756634414196, + "learning_rate": 0.00013911111111111112, + "loss": 0.0396, "step": 1370 }, { "epoch": 4.583333333333333, - "grad_norm": 0.08695255219936371, - "learning_rate": 0.00016944444444444445, - "loss": 0.004, + "grad_norm": 0.013332534581422806, + "learning_rate": 0.0001388888888888889, + "loss": 0.0367, "step": 1375 }, { "epoch": 4.6, - "grad_norm": 0.05409492552280426, - "learning_rate": 0.00016933333333333335, - "loss": 0.0028, + "grad_norm": 0.006733342073857784, + "learning_rate": 0.00013866666666666669, + "loss": 0.05, "step": 1380 }, { "epoch": 4.616666666666667, - "grad_norm": 0.2642468214035034, - "learning_rate": 0.00016922222222222225, - "loss": 0.0219, + "grad_norm": 0.05589795485138893, + "learning_rate": 0.00013844444444444445, + "loss": 0.0106, "step": 1385 }, { "epoch": 4.633333333333333, - "grad_norm": 9.090007781982422, - "learning_rate": 0.00016911111111111112, - "loss": 0.0588, + "grad_norm": 0.07307516783475876, + "learning_rate": 0.00013822222222222222, + "loss": 0.0027, "step": 1390 }, { "epoch": 4.65, - "grad_norm": 0.06260046362876892, - "learning_rate": 0.00016900000000000002, - "loss": 0.0081, + "grad_norm": 0.47502943873405457, + "learning_rate": 0.000138, + "loss": 0.0455, "step": 1395 }, { "epoch": 4.666666666666667, - "grad_norm": 2.2390575408935547, - "learning_rate": 0.00016888888888888889, - "loss": 0.0276, + "grad_norm": 0.02746354602277279, + "learning_rate": 0.0001377777777777778, + "loss": 0.0214, "step": 1400 }, { "epoch": 4.666666666666667, - "eval_accuracy": 0.8066666666666666, - "eval_f1": 0.8115644692607008, - "eval_loss": 1.1395381689071655, - "eval_precision": 0.8350845926294496, - "eval_recall": 0.8066666666666666, - "eval_runtime": 16.5164, - "eval_samples_per_second": 145.31, - "eval_steps_per_second": 18.164, + "eval_accuracy": 0.8645833333333334, + "eval_f1": 0.8572351785202907, + "eval_loss": 0.7404390573501587, + "eval_precision": 0.8640564678405307, + "eval_recall": 0.8645833333333334, + "eval_runtime": 16.1315, + "eval_samples_per_second": 148.777, + "eval_steps_per_second": 18.597, "step": 1400 }, { "epoch": 4.683333333333334, - "grad_norm": 1.7876168489456177, - "learning_rate": 0.00016877777777777778, - "loss": 0.0038, + "grad_norm": 1.4660977125167847, + "learning_rate": 0.00013755555555555556, + "loss": 0.0157, "step": 1405 }, { "epoch": 4.7, - "grad_norm": 0.05303347110748291, - "learning_rate": 0.00016866666666666668, - "loss": 0.0166, + "grad_norm": 0.016876785084605217, + "learning_rate": 0.00013733333333333333, + "loss": 0.0429, "step": 1410 }, { "epoch": 4.716666666666667, - "grad_norm": 0.018022559583187103, - "learning_rate": 0.00016855555555555555, - "loss": 0.0016, + "grad_norm": 0.027184031903743744, + "learning_rate": 0.00013711111111111113, + "loss": 0.0056, "step": 1415 }, { "epoch": 4.733333333333333, - "grad_norm": 5.291451930999756, - "learning_rate": 0.00016844444444444445, - "loss": 0.0297, + "grad_norm": 0.011776816099882126, + "learning_rate": 0.0001368888888888889, + "loss": 0.0651, "step": 1420 }, { "epoch": 4.75, - "grad_norm": 2.263148546218872, - "learning_rate": 0.00016833333333333335, - "loss": 0.0507, + "grad_norm": 6.020449638366699, + "learning_rate": 0.00013666666666666666, + "loss": 0.0353, "step": 1425 }, { "epoch": 4.766666666666667, - "grad_norm": 0.022111594676971436, - "learning_rate": 0.00016822222222222225, - "loss": 0.0912, + "grad_norm": 0.8004612922668457, + "learning_rate": 0.00013644444444444443, + "loss": 0.0519, "step": 1430 }, { "epoch": 4.783333333333333, - "grad_norm": 0.07172089070081711, - "learning_rate": 0.00016811111111111112, - "loss": 0.0023, + "grad_norm": 3.433058261871338, + "learning_rate": 0.00013622222222222223, + "loss": 0.061, "step": 1435 }, { "epoch": 4.8, - "grad_norm": 0.0857483372092247, - "learning_rate": 0.000168, - "loss": 0.0177, + "grad_norm": 0.025435922667384148, + "learning_rate": 0.00013600000000000003, + "loss": 0.0145, "step": 1440 }, { "epoch": 4.816666666666666, - "grad_norm": 0.031902212649583817, - "learning_rate": 0.0001678888888888889, - "loss": 0.0152, + "grad_norm": 1.6531327962875366, + "learning_rate": 0.00013577777777777777, + "loss": 0.0827, "step": 1445 }, { "epoch": 4.833333333333333, - "grad_norm": 0.18040472269058228, - "learning_rate": 0.0001677777777777778, - "loss": 0.0208, + "grad_norm": 0.12251879274845123, + "learning_rate": 0.00013555555555555556, + "loss": 0.0024, "step": 1450 }, { "epoch": 4.85, - "grad_norm": 0.08346249163150787, - "learning_rate": 0.00016766666666666669, - "loss": 0.0052, + "grad_norm": 1.521263837814331, + "learning_rate": 0.00013533333333333333, + "loss": 0.144, "step": 1455 }, { "epoch": 4.866666666666667, - "grad_norm": 0.057205043733119965, - "learning_rate": 0.00016755555555555556, - "loss": 0.0276, + "grad_norm": 0.3508593440055847, + "learning_rate": 0.00013511111111111113, + "loss": 0.0225, "step": 1460 }, { "epoch": 4.883333333333333, - "grad_norm": 2.290008783340454, - "learning_rate": 0.00016744444444444445, - "loss": 0.0485, + "grad_norm": 0.11305627971887589, + "learning_rate": 0.0001348888888888889, + "loss": 0.0249, "step": 1465 }, { "epoch": 4.9, - "grad_norm": 0.006165376864373684, - "learning_rate": 0.00016733333333333335, - "loss": 0.0508, + "grad_norm": 0.012486869469285011, + "learning_rate": 0.00013466666666666667, + "loss": 0.0031, "step": 1470 }, { "epoch": 4.916666666666667, - "grad_norm": 0.011485300026834011, - "learning_rate": 0.00016722222222222222, - "loss": 0.0028, + "grad_norm": 0.0059285652823746204, + "learning_rate": 0.00013444444444444447, + "loss": 0.0043, "step": 1475 }, { "epoch": 4.933333333333334, - "grad_norm": 3.2664902210235596, - "learning_rate": 0.00016711111111111112, - "loss": 0.0105, + "grad_norm": 0.5254614949226379, + "learning_rate": 0.00013422222222222224, + "loss": 0.0461, "step": 1480 }, { "epoch": 4.95, - "grad_norm": 3.3061978816986084, - "learning_rate": 0.000167, - "loss": 0.0162, + "grad_norm": 1.1848276853561401, + "learning_rate": 0.000134, + "loss": 0.1102, "step": 1485 }, { "epoch": 4.966666666666667, - "grad_norm": 0.009094956330955029, - "learning_rate": 0.0001668888888888889, - "loss": 0.0016, + "grad_norm": 0.18194884061813354, + "learning_rate": 0.00013377777777777777, + "loss": 0.0031, "step": 1490 }, { "epoch": 4.983333333333333, - "grad_norm": 0.2529154419898987, - "learning_rate": 0.0001667777777777778, - "loss": 0.0195, + "grad_norm": 4.425944805145264, + "learning_rate": 0.00013355555555555557, + "loss": 0.0415, "step": 1495 }, { "epoch": 5.0, - "grad_norm": 1.7396290302276611, - "learning_rate": 0.0001666666666666667, - "loss": 0.0855, + "grad_norm": 0.02117891050875187, + "learning_rate": 0.00013333333333333334, + "loss": 0.0282, "step": 1500 }, { "epoch": 5.0, - "eval_accuracy": 0.8729166666666667, - "eval_f1": 0.876295294495617, - "eval_loss": 0.6391319036483765, - "eval_precision": 0.8860482676059394, - "eval_recall": 0.8729166666666667, - "eval_runtime": 16.436, - "eval_samples_per_second": 146.021, - "eval_steps_per_second": 18.253, + "eval_accuracy": 0.8233333333333334, + "eval_f1": 0.8219169204173855, + "eval_loss": 1.0063419342041016, + "eval_precision": 0.8485748860661025, + "eval_recall": 0.8233333333333334, + "eval_runtime": 16.192, + "eval_samples_per_second": 148.221, + "eval_steps_per_second": 18.528, "step": 1500 }, { "epoch": 5.016666666666667, - "grad_norm": 0.06716179847717285, - "learning_rate": 0.00016655555555555556, - "loss": 0.0213, + "grad_norm": 4.644002437591553, + "learning_rate": 0.0001331111111111111, + "loss": 0.0379, "step": 1505 }, { "epoch": 5.033333333333333, - "grad_norm": 6.611462116241455, - "learning_rate": 0.00016644444444444446, - "loss": 0.0718, + "grad_norm": 0.00795979518443346, + "learning_rate": 0.00013288888888888888, + "loss": 0.0134, "step": 1510 }, { "epoch": 5.05, - "grad_norm": 0.016353707760572433, - "learning_rate": 0.00016633333333333333, - "loss": 0.1105, + "grad_norm": 0.9242565631866455, + "learning_rate": 0.00013266666666666667, + "loss": 0.0379, "step": 1515 }, { "epoch": 5.066666666666666, - "grad_norm": 5.457656383514404, - "learning_rate": 0.00016622222222222223, - "loss": 0.0735, + "grad_norm": 2.5486600399017334, + "learning_rate": 0.00013244444444444447, + "loss": 0.0742, "step": 1520 }, { "epoch": 5.083333333333333, - "grad_norm": 0.05260824039578438, - "learning_rate": 0.00016611111111111113, - "loss": 0.0215, + "grad_norm": 0.006554941181093454, + "learning_rate": 0.00013222222222222221, + "loss": 0.0018, "step": 1525 }, { "epoch": 5.1, - "grad_norm": 0.1573859602212906, - "learning_rate": 0.000166, - "loss": 0.0533, + "grad_norm": 1.2694039344787598, + "learning_rate": 0.000132, + "loss": 0.0052, "step": 1530 }, { "epoch": 5.116666666666666, - "grad_norm": 5.261136531829834, - "learning_rate": 0.0001658888888888889, - "loss": 0.0207, + "grad_norm": 3.337841033935547, + "learning_rate": 0.00013177777777777778, + "loss": 0.0082, "step": 1535 }, { "epoch": 5.133333333333334, - "grad_norm": 0.01707770675420761, - "learning_rate": 0.0001657777777777778, - "loss": 0.0487, + "grad_norm": 0.009860611520707607, + "learning_rate": 0.00013155555555555558, + "loss": 0.0615, "step": 1540 }, { "epoch": 5.15, - "grad_norm": 0.03299952670931816, - "learning_rate": 0.0001656666666666667, - "loss": 0.004, + "grad_norm": 0.007277206052094698, + "learning_rate": 0.00013133333333333332, + "loss": 0.0018, "step": 1545 }, { "epoch": 5.166666666666667, - "grad_norm": 9.225671768188477, - "learning_rate": 0.00016555555555555556, - "loss": 0.0334, + "grad_norm": 1.4662901163101196, + "learning_rate": 0.00013111111111111111, + "loss": 0.0491, "step": 1550 }, { "epoch": 5.183333333333334, - "grad_norm": 0.12211981415748596, - "learning_rate": 0.00016544444444444443, - "loss": 0.0516, + "grad_norm": 2.8612852096557617, + "learning_rate": 0.0001308888888888889, + "loss": 0.0299, "step": 1555 }, { "epoch": 5.2, - "grad_norm": 0.014277663081884384, - "learning_rate": 0.00016533333333333333, - "loss": 0.081, + "grad_norm": 2.971787929534912, + "learning_rate": 0.00013066666666666668, + "loss": 0.0181, "step": 1560 }, { "epoch": 5.216666666666667, - "grad_norm": 1.6364424228668213, - "learning_rate": 0.00016522222222222223, - "loss": 0.082, + "grad_norm": 0.00736116012558341, + "learning_rate": 0.00013044444444444445, + "loss": 0.0234, "step": 1565 }, { "epoch": 5.233333333333333, - "grad_norm": 0.6388437151908875, - "learning_rate": 0.00016511111111111113, - "loss": 0.0074, + "grad_norm": 0.008742854930460453, + "learning_rate": 0.00013022222222222222, + "loss": 0.0022, "step": 1570 }, { "epoch": 5.25, - "grad_norm": 3.8681483268737793, - "learning_rate": 0.000165, - "loss": 0.0783, + "grad_norm": 0.008386828005313873, + "learning_rate": 0.00013000000000000002, + "loss": 0.0359, "step": 1575 }, { "epoch": 5.266666666666667, - "grad_norm": 0.012944153510034084, - "learning_rate": 0.0001648888888888889, - "loss": 0.0645, + "grad_norm": 3.0489320755004883, + "learning_rate": 0.00012977777777777779, + "loss": 0.1501, "step": 1580 }, { "epoch": 5.283333333333333, - "grad_norm": 1.8428641557693481, - "learning_rate": 0.0001647777777777778, - "loss": 0.077, + "grad_norm": 1.003911018371582, + "learning_rate": 0.00012955555555555555, + "loss": 0.0048, "step": 1585 }, { "epoch": 5.3, - "grad_norm": 4.154857158660889, - "learning_rate": 0.00016466666666666667, - "loss": 0.0632, + "grad_norm": 0.008067019283771515, + "learning_rate": 0.00012933333333333332, + "loss": 0.0038, "step": 1590 }, { "epoch": 5.316666666666666, - "grad_norm": 0.01847732625901699, - "learning_rate": 0.00016455555555555556, - "loss": 0.0056, + "grad_norm": 0.049136195331811905, + "learning_rate": 0.00012911111111111112, + "loss": 0.0428, "step": 1595 }, { "epoch": 5.333333333333333, - "grad_norm": 0.08974515646696091, - "learning_rate": 0.00016444444444444444, - "loss": 0.0256, + "grad_norm": 5.870452880859375, + "learning_rate": 0.00012888888888888892, + "loss": 0.03, "step": 1600 }, { "epoch": 5.333333333333333, - "eval_accuracy": 0.8108333333333333, - "eval_f1": 0.8104957223501372, - "eval_loss": 1.0149054527282715, - "eval_precision": 0.8289302386979596, - "eval_recall": 0.8108333333333333, - "eval_runtime": 16.4851, - "eval_samples_per_second": 145.586, - "eval_steps_per_second": 18.198, + "eval_accuracy": 0.8025, + "eval_f1": 0.8058110499926088, + "eval_loss": 1.0066046714782715, + "eval_precision": 0.8375690681755358, + "eval_recall": 0.8025, + "eval_runtime": 16.1417, + "eval_samples_per_second": 148.683, + "eval_steps_per_second": 18.585, "step": 1600 }, { "epoch": 5.35, - "grad_norm": 0.00833277590572834, - "learning_rate": 0.00016433333333333333, - "loss": 0.0039, + "grad_norm": 0.008594261482357979, + "learning_rate": 0.00012866666666666666, + "loss": 0.0046, "step": 1605 }, { "epoch": 5.366666666666666, - "grad_norm": 0.008828302845358849, - "learning_rate": 0.00016422222222222223, - "loss": 0.0094, + "grad_norm": 0.8685113191604614, + "learning_rate": 0.00012844444444444446, + "loss": 0.0505, "step": 1610 }, { "epoch": 5.383333333333334, - "grad_norm": 0.00815830659121275, - "learning_rate": 0.00016411111111111113, - "loss": 0.0018, + "grad_norm": 0.016676442697644234, + "learning_rate": 0.00012822222222222222, + "loss": 0.0022, "step": 1615 }, { "epoch": 5.4, - "grad_norm": 2.7772281169891357, - "learning_rate": 0.000164, - "loss": 0.0835, + "grad_norm": 0.016672354191541672, + "learning_rate": 0.00012800000000000002, + "loss": 0.0352, "step": 1620 }, { "epoch": 5.416666666666667, - "grad_norm": 0.12098819017410278, - "learning_rate": 0.0001638888888888889, - "loss": 0.0034, + "grad_norm": 0.08625214546918869, + "learning_rate": 0.00012777777777777776, + "loss": 0.002, "step": 1625 }, { "epoch": 5.433333333333334, - "grad_norm": 1.934064269065857, - "learning_rate": 0.0001637777777777778, - "loss": 0.0738, + "grad_norm": 0.005574665032327175, + "learning_rate": 0.00012755555555555556, + "loss": 0.0029, "step": 1630 }, { "epoch": 5.45, - "grad_norm": 0.015587633475661278, - "learning_rate": 0.00016366666666666667, - "loss": 0.0405, + "grad_norm": 0.008648420684039593, + "learning_rate": 0.00012733333333333336, + "loss": 0.002, "step": 1635 }, { "epoch": 5.466666666666667, - "grad_norm": 0.02005455456674099, - "learning_rate": 0.00016355555555555557, - "loss": 0.0046, + "grad_norm": 0.15442383289337158, + "learning_rate": 0.00012711111111111113, + "loss": 0.002, "step": 1640 }, { "epoch": 5.483333333333333, - "grad_norm": 0.008922387845814228, - "learning_rate": 0.00016344444444444444, - "loss": 0.0479, + "grad_norm": 0.005889351479709148, + "learning_rate": 0.0001268888888888889, + "loss": 0.0018, "step": 1645 }, { "epoch": 5.5, - "grad_norm": 0.006808533798903227, - "learning_rate": 0.00016333333333333334, - "loss": 0.0169, + "grad_norm": 0.008873962797224522, + "learning_rate": 0.00012666666666666666, + "loss": 0.0047, "step": 1650 }, { "epoch": 5.516666666666667, - "grad_norm": 0.006602839566767216, - "learning_rate": 0.00016322222222222224, - "loss": 0.0056, + "grad_norm": 0.03735602647066116, + "learning_rate": 0.00012644444444444446, + "loss": 0.0017, "step": 1655 }, { "epoch": 5.533333333333333, - "grad_norm": 0.005980366375297308, - "learning_rate": 0.00016311111111111113, - "loss": 0.0191, + "grad_norm": 0.013543691486120224, + "learning_rate": 0.00012622222222222223, + "loss": 0.0015, "step": 1660 }, { "epoch": 5.55, - "grad_norm": 0.013945339247584343, - "learning_rate": 0.000163, - "loss": 0.0379, + "grad_norm": 0.0045076883397996426, + "learning_rate": 0.000126, + "loss": 0.0017, "step": 1665 }, { "epoch": 5.566666666666666, - "grad_norm": 0.011805513873696327, - "learning_rate": 0.0001628888888888889, - "loss": 0.0016, + "grad_norm": 0.006698412820696831, + "learning_rate": 0.0001257777777777778, + "loss": 0.0013, "step": 1670 }, { "epoch": 5.583333333333333, - "grad_norm": 0.13204213976860046, - "learning_rate": 0.00016277777777777777, - "loss": 0.0036, + "grad_norm": 0.0054786233231425285, + "learning_rate": 0.00012555555555555557, + "loss": 0.0012, "step": 1675 }, { "epoch": 5.6, - "grad_norm": 0.02674812637269497, - "learning_rate": 0.00016266666666666667, - "loss": 0.0051, + "grad_norm": 0.00462621683254838, + "learning_rate": 0.00012533333333333334, + "loss": 0.0046, "step": 1680 }, { "epoch": 5.616666666666667, - "grad_norm": 3.3026175498962402, - "learning_rate": 0.00016255555555555557, - "loss": 0.0082, + "grad_norm": 0.00577858230099082, + "learning_rate": 0.0001251111111111111, + "loss": 0.0012, "step": 1685 }, { "epoch": 5.633333333333333, - "grad_norm": 1.1135234832763672, - "learning_rate": 0.00016244444444444444, - "loss": 0.004, + "grad_norm": 0.005244240630418062, + "learning_rate": 0.0001248888888888889, + "loss": 0.0012, "step": 1690 }, { "epoch": 5.65, - "grad_norm": 4.535706996917725, - "learning_rate": 0.00016233333333333334, - "loss": 0.0567, + "grad_norm": 0.005541090853512287, + "learning_rate": 0.00012466666666666667, + "loss": 0.0063, "step": 1695 }, { "epoch": 5.666666666666667, - "grad_norm": 0.009421279653906822, - "learning_rate": 0.00016222222222222224, - "loss": 0.0017, + "grad_norm": 0.004590183962136507, + "learning_rate": 0.00012444444444444444, + "loss": 0.028, "step": 1700 }, { "epoch": 5.666666666666667, - "eval_accuracy": 0.8279166666666666, - "eval_f1": 0.8299219945509423, - "eval_loss": 0.915321946144104, - "eval_precision": 0.8575355796485858, - "eval_recall": 0.8279166666666666, - "eval_runtime": 16.5798, - "eval_samples_per_second": 144.755, - "eval_steps_per_second": 18.094, + "eval_accuracy": 0.8108333333333333, + "eval_f1": 0.806730816529903, + "eval_loss": 1.1451038122177124, + "eval_precision": 0.8325199864730404, + "eval_recall": 0.8108333333333333, + "eval_runtime": 16.252, + "eval_samples_per_second": 147.674, + "eval_steps_per_second": 18.459, "step": 1700 }, { "epoch": 5.683333333333334, - "grad_norm": 0.008201410062611103, - "learning_rate": 0.00016211111111111114, - "loss": 0.0227, + "grad_norm": 0.004028300754725933, + "learning_rate": 0.0001242222222222222, + "loss": 0.0013, "step": 1705 }, { "epoch": 5.7, - "grad_norm": 0.020748548209667206, - "learning_rate": 0.000162, - "loss": 0.0352, + "grad_norm": 0.004005535040050745, + "learning_rate": 0.000124, + "loss": 0.0011, "step": 1710 }, { "epoch": 5.716666666666667, - "grad_norm": 0.018580986186861992, - "learning_rate": 0.00016188888888888888, - "loss": 0.0048, + "grad_norm": 0.004743133205920458, + "learning_rate": 0.0001237777777777778, + "loss": 0.0264, "step": 1715 }, { "epoch": 5.733333333333333, - "grad_norm": 0.004419848322868347, - "learning_rate": 0.00016177777777777778, - "loss": 0.0401, + "grad_norm": 0.006460868753492832, + "learning_rate": 0.00012355555555555557, + "loss": 0.0011, "step": 1720 }, { "epoch": 5.75, - "grad_norm": 0.005119729321449995, - "learning_rate": 0.00016166666666666668, - "loss": 0.0013, + "grad_norm": 0.004264959134161472, + "learning_rate": 0.00012333333333333334, + "loss": 0.0012, "step": 1725 }, { "epoch": 5.766666666666667, - "grad_norm": 0.08189668506383896, - "learning_rate": 0.00016155555555555557, - "loss": 0.0217, + "grad_norm": 0.005785064306110144, + "learning_rate": 0.0001231111111111111, + "loss": 0.0012, "step": 1730 }, { "epoch": 5.783333333333333, - "grad_norm": 0.006547198630869389, - "learning_rate": 0.00016144444444444444, - "loss": 0.0184, + "grad_norm": 0.004207594785839319, + "learning_rate": 0.0001228888888888889, + "loss": 0.0424, "step": 1735 }, { "epoch": 5.8, - "grad_norm": 0.22105437517166138, - "learning_rate": 0.00016133333333333334, - "loss": 0.012, + "grad_norm": 0.02953197993338108, + "learning_rate": 0.00012266666666666668, + "loss": 0.0014, "step": 1740 }, { "epoch": 5.816666666666666, - "grad_norm": 0.24154917895793915, - "learning_rate": 0.00016122222222222224, - "loss": 0.0617, + "grad_norm": 0.022996142506599426, + "learning_rate": 0.00012244444444444445, + "loss": 0.0048, "step": 1745 }, { "epoch": 5.833333333333333, - "grad_norm": 3.97434401512146, - "learning_rate": 0.0001611111111111111, - "loss": 0.0425, + "grad_norm": 0.004951572045683861, + "learning_rate": 0.00012222222222222224, + "loss": 0.0015, "step": 1750 }, { "epoch": 5.85, - "grad_norm": 0.02286333031952381, - "learning_rate": 0.000161, - "loss": 0.0018, + "grad_norm": 0.005419463850557804, + "learning_rate": 0.000122, + "loss": 0.0013, "step": 1755 }, { "epoch": 5.866666666666667, - "grad_norm": 0.021875595673918724, - "learning_rate": 0.00016088888888888888, - "loss": 0.0235, + "grad_norm": 0.006298539228737354, + "learning_rate": 0.0001217777777777778, + "loss": 0.0011, "step": 1760 }, { "epoch": 5.883333333333333, - "grad_norm": 0.018294136971235275, - "learning_rate": 0.00016077777777777778, - "loss": 0.0023, + "grad_norm": 0.0049714320339262486, + "learning_rate": 0.00012155555555555555, + "loss": 0.0036, "step": 1765 }, { "epoch": 5.9, - "grad_norm": 0.007513054646551609, - "learning_rate": 0.00016066666666666668, - "loss": 0.0019, + "grad_norm": 0.005732921417802572, + "learning_rate": 0.00012133333333333335, + "loss": 0.0011, "step": 1770 }, { "epoch": 5.916666666666667, - "grad_norm": 0.2321351319551468, - "learning_rate": 0.00016055555555555558, - "loss": 0.0297, + "grad_norm": 0.0045644911006093025, + "learning_rate": 0.0001211111111111111, + "loss": 0.0011, "step": 1775 }, { "epoch": 5.933333333333334, - "grad_norm": 5.686223030090332, - "learning_rate": 0.00016044444444444445, - "loss": 0.0142, + "grad_norm": 0.06536725163459778, + "learning_rate": 0.0001208888888888889, + "loss": 0.0014, "step": 1780 }, { "epoch": 5.95, - "grad_norm": 0.005366206634789705, - "learning_rate": 0.00016033333333333335, - "loss": 0.0036, + "grad_norm": 0.011526883579790592, + "learning_rate": 0.00012066666666666668, + "loss": 0.0011, "step": 1785 }, { "epoch": 5.966666666666667, - "grad_norm": 0.06957004964351654, - "learning_rate": 0.00016022222222222222, - "loss": 0.0063, + "grad_norm": 0.008464247919619083, + "learning_rate": 0.00012044444444444445, + "loss": 0.0156, "step": 1790 }, { "epoch": 5.983333333333333, - "grad_norm": 0.004177103750407696, - "learning_rate": 0.00016011111111111111, - "loss": 0.0012, + "grad_norm": 0.023652683943510056, + "learning_rate": 0.00012022222222222223, + "loss": 0.001, "step": 1795 }, { "epoch": 6.0, - "grad_norm": 0.015750739723443985, - "learning_rate": 0.00016, - "loss": 0.0393, + "grad_norm": 0.008493137545883656, + "learning_rate": 0.00012, + "loss": 0.0078, "step": 1800 }, { "epoch": 6.0, - "eval_accuracy": 0.8175, - "eval_f1": 0.816914470065881, - "eval_loss": 1.0392119884490967, - "eval_precision": 0.8205004250507112, - "eval_recall": 0.8175, - "eval_runtime": 16.5387, - "eval_samples_per_second": 145.114, - "eval_steps_per_second": 18.139, + "eval_accuracy": 0.805, + "eval_f1": 0.8044910937430988, + "eval_loss": 1.0700016021728516, + "eval_precision": 0.8220365210565673, + "eval_recall": 0.805, + "eval_runtime": 16.2972, + "eval_samples_per_second": 147.264, + "eval_steps_per_second": 18.408, "step": 1800 }, { "epoch": 6.016666666666667, - "grad_norm": 0.005316098686307669, - "learning_rate": 0.00015988888888888888, - "loss": 0.0011, + "grad_norm": 0.0037866304628551006, + "learning_rate": 0.00011977777777777779, + "loss": 0.0009, "step": 1805 }, { "epoch": 6.033333333333333, - "grad_norm": 0.005011474713683128, - "learning_rate": 0.00015977777777777778, - "loss": 0.0175, + "grad_norm": 0.004154861439019442, + "learning_rate": 0.00011955555555555556, + "loss": 0.0041, "step": 1810 }, { "epoch": 6.05, - "grad_norm": 0.13085180521011353, - "learning_rate": 0.00015966666666666668, - "loss": 0.0013, + "grad_norm": 0.003539556637406349, + "learning_rate": 0.00011933333333333334, + "loss": 0.0009, "step": 1815 }, { "epoch": 6.066666666666666, - "grad_norm": 0.03689475730061531, - "learning_rate": 0.00015955555555555558, - "loss": 0.096, + "grad_norm": 0.003458508290350437, + "learning_rate": 0.00011911111111111111, + "loss": 0.0009, "step": 1820 }, { "epoch": 6.083333333333333, - "grad_norm": 1.0409414768218994, - "learning_rate": 0.00015944444444444445, - "loss": 0.0022, + "grad_norm": 0.00397747615352273, + "learning_rate": 0.00011888888888888889, + "loss": 0.0009, "step": 1825 }, { "epoch": 6.1, - "grad_norm": 0.004165023099631071, - "learning_rate": 0.00015933333333333332, - "loss": 0.0303, + "grad_norm": 0.0036647163797169924, + "learning_rate": 0.00011866666666666669, + "loss": 0.0009, "step": 1830 }, { "epoch": 6.116666666666666, - "grad_norm": 0.22820724546909332, - "learning_rate": 0.00015922222222222222, + "grad_norm": 0.0038258638232946396, + "learning_rate": 0.00011844444444444444, "loss": 0.0014, "step": 1835 }, { "epoch": 6.133333333333334, - "grad_norm": 0.014393319375813007, - "learning_rate": 0.00015911111111111112, - "loss": 0.0011, + "grad_norm": 0.003876335686072707, + "learning_rate": 0.00011822222222222224, + "loss": 0.0009, "step": 1840 }, { "epoch": 6.15, - "grad_norm": 0.012803591787815094, - "learning_rate": 0.00015900000000000002, - "loss": 0.0051, + "grad_norm": 0.003523820312693715, + "learning_rate": 0.000118, + "loss": 0.001, "step": 1845 }, { "epoch": 6.166666666666667, - "grad_norm": 2.723040819168091, - "learning_rate": 0.0001588888888888889, - "loss": 0.0878, + "grad_norm": 0.003132395911961794, + "learning_rate": 0.00011777777777777779, + "loss": 0.0025, "step": 1850 }, { "epoch": 6.183333333333334, - "grad_norm": 0.005053788889199495, - "learning_rate": 0.00015877777777777779, - "loss": 0.017, + "grad_norm": 5.537290573120117, + "learning_rate": 0.00011755555555555555, + "loss": 0.0107, "step": 1855 }, { "epoch": 6.2, - "grad_norm": 1.2146646976470947, - "learning_rate": 0.00015866666666666668, - "loss": 0.0037, + "grad_norm": 0.0034560244530439377, + "learning_rate": 0.00011733333333333334, + "loss": 0.0008, "step": 1860 }, { "epoch": 6.216666666666667, - "grad_norm": 0.0046356450766325, - "learning_rate": 0.00015855555555555558, - "loss": 0.078, + "grad_norm": 0.0036603149492293596, + "learning_rate": 0.00011711111111111113, + "loss": 0.0235, "step": 1865 }, { "epoch": 6.233333333333333, - "grad_norm": 1.4572330713272095, - "learning_rate": 0.00015844444444444445, - "loss": 0.0882, + "grad_norm": 0.003383870469406247, + "learning_rate": 0.0001168888888888889, + "loss": 0.0008, "step": 1870 }, { "epoch": 6.25, - "grad_norm": 2.5006649494171143, - "learning_rate": 0.00015833333333333332, - "loss": 0.0693, + "grad_norm": 0.0035630343481898308, + "learning_rate": 0.00011666666666666668, + "loss": 0.0008, "step": 1875 }, { "epoch": 6.266666666666667, - "grad_norm": 0.09266872704029083, - "learning_rate": 0.00015822222222222222, - "loss": 0.0823, + "grad_norm": 0.003963821567595005, + "learning_rate": 0.00011644444444444445, + "loss": 0.0008, "step": 1880 }, { "epoch": 6.283333333333333, - "grad_norm": 0.026718921959400177, - "learning_rate": 0.00015811111111111112, - "loss": 0.0529, + "grad_norm": 0.0037082587368786335, + "learning_rate": 0.00011622222222222223, + "loss": 0.0008, "step": 1885 }, { "epoch": 6.3, - "grad_norm": 0.09975450485944748, - "learning_rate": 0.00015800000000000002, - "loss": 0.0021, + "grad_norm": 0.0029203067533671856, + "learning_rate": 0.000116, + "loss": 0.0008, "step": 1890 }, { "epoch": 6.316666666666666, - "grad_norm": 0.01540566049516201, - "learning_rate": 0.0001578888888888889, - "loss": 0.0074, + "grad_norm": 0.003045389661565423, + "learning_rate": 0.00011577777777777778, + "loss": 0.0008, "step": 1895 }, { "epoch": 6.333333333333333, - "grad_norm": 0.03563358634710312, - "learning_rate": 0.0001577777777777778, - "loss": 0.0031, + "grad_norm": 0.00312291388399899, + "learning_rate": 0.00011555555555555555, + "loss": 0.0008, "step": 1900 }, { "epoch": 6.333333333333333, - "eval_accuracy": 0.8870833333333333, - "eval_f1": 0.8880432263296901, - "eval_loss": 0.4892176389694214, - "eval_precision": 0.8988360882885232, - "eval_recall": 0.8870833333333333, - "eval_runtime": 16.5312, - "eval_samples_per_second": 145.18, - "eval_steps_per_second": 18.148, + "eval_accuracy": 0.8145833333333333, + "eval_f1": 0.8164840112231514, + "eval_loss": 1.0179976224899292, + "eval_precision": 0.8302814517469502, + "eval_recall": 0.8145833333333333, + "eval_runtime": 16.1514, + "eval_samples_per_second": 148.594, + "eval_steps_per_second": 18.574, "step": 1900 }, { "epoch": 6.35, - "grad_norm": 0.26140907406806946, - "learning_rate": 0.00015766666666666669, - "loss": 0.0021, + "grad_norm": 0.00345528032630682, + "learning_rate": 0.00011533333333333334, + "loss": 0.0008, "step": 1905 }, { "epoch": 6.366666666666666, - "grad_norm": 3.015192985534668, - "learning_rate": 0.00015755555555555556, - "loss": 0.0161, + "grad_norm": 0.0034716781228780746, + "learning_rate": 0.00011511111111111112, + "loss": 0.0008, "step": 1910 }, { "epoch": 6.383333333333334, - "grad_norm": 2.95857834815979, - "learning_rate": 0.00015744444444444446, - "loss": 0.0332, + "grad_norm": 0.0039277165196835995, + "learning_rate": 0.00011488888888888889, + "loss": 0.0008, "step": 1915 }, { "epoch": 6.4, - "grad_norm": 0.0037966009695082903, - "learning_rate": 0.00015733333333333333, - "loss": 0.0537, + "grad_norm": 0.1721392273902893, + "learning_rate": 0.00011466666666666667, + "loss": 0.0011, "step": 1920 }, { "epoch": 6.416666666666667, - "grad_norm": 0.03891352564096451, - "learning_rate": 0.00015722222222222223, - "loss": 0.0229, + "grad_norm": 0.002793088788166642, + "learning_rate": 0.00011444444444444444, + "loss": 0.0008, "step": 1925 }, { "epoch": 6.433333333333334, - "grad_norm": 0.010085624642670155, - "learning_rate": 0.00015711111111111112, - "loss": 0.0483, + "grad_norm": 0.002836239989846945, + "learning_rate": 0.00011422222222222224, + "loss": 0.0009, "step": 1930 }, { "epoch": 6.45, - "grad_norm": 0.008644535206258297, - "learning_rate": 0.00015700000000000002, - "loss": 0.0382, + "grad_norm": 0.002708101412281394, + "learning_rate": 0.00011399999999999999, + "loss": 0.0123, "step": 1935 }, { "epoch": 6.466666666666667, - "grad_norm": 0.009054177440702915, - "learning_rate": 0.00015688888888888892, - "loss": 0.0018, + "grad_norm": 0.002972810994833708, + "learning_rate": 0.00011377777777777779, + "loss": 0.0007, "step": 1940 }, { "epoch": 6.483333333333333, - "grad_norm": 1.2819900512695312, - "learning_rate": 0.0001567777777777778, - "loss": 0.0659, + "grad_norm": 0.003506299341097474, + "learning_rate": 0.00011355555555555557, + "loss": 0.0198, "step": 1945 }, { "epoch": 6.5, - "grad_norm": 0.01331441942602396, - "learning_rate": 0.00015666666666666666, - "loss": 0.0476, + "grad_norm": 1.8103302717208862, + "learning_rate": 0.00011333333333333334, + "loss": 0.0444, "step": 1950 }, { "epoch": 6.516666666666667, - "grad_norm": 0.05239478498697281, - "learning_rate": 0.00015655555555555556, - "loss": 0.0062, + "grad_norm": 0.003239205339923501, + "learning_rate": 0.00011311111111111112, + "loss": 0.0008, "step": 1955 }, { "epoch": 6.533333333333333, - "grad_norm": 0.26421651244163513, - "learning_rate": 0.00015644444444444446, - "loss": 0.0166, + "grad_norm": 0.003294306341558695, + "learning_rate": 0.0001128888888888889, + "loss": 0.0009, "step": 1960 }, { "epoch": 6.55, - "grad_norm": 2.851979970932007, - "learning_rate": 0.00015633333333333333, - "loss": 0.0086, + "grad_norm": 0.004026326350867748, + "learning_rate": 0.00011266666666666668, + "loss": 0.0008, "step": 1965 }, { "epoch": 6.566666666666666, - "grad_norm": 0.33906373381614685, - "learning_rate": 0.00015622222222222223, - "loss": 0.0024, + "grad_norm": 0.1938793808221817, + "learning_rate": 0.00011244444444444445, + "loss": 0.001, "step": 1970 }, { "epoch": 6.583333333333333, - "grad_norm": 0.004474999848753214, - "learning_rate": 0.00015611111111111113, - "loss": 0.0328, + "grad_norm": 0.0094077680259943, + "learning_rate": 0.00011222222222222223, + "loss": 0.001, "step": 1975 }, { "epoch": 6.6, - "grad_norm": 0.19756446778774261, - "learning_rate": 0.00015600000000000002, - "loss": 0.0017, + "grad_norm": 0.003139768959954381, + "learning_rate": 0.00011200000000000001, + "loss": 0.0008, "step": 1980 }, { "epoch": 6.616666666666667, - "grad_norm": 0.005711189936846495, - "learning_rate": 0.0001558888888888889, - "loss": 0.0138, + "grad_norm": 0.003127722768113017, + "learning_rate": 0.00011177777777777778, + "loss": 0.0009, "step": 1985 }, { "epoch": 6.633333333333333, - "grad_norm": 0.007347718812525272, - "learning_rate": 0.00015577777777777777, - "loss": 0.0407, + "grad_norm": 0.013376519083976746, + "learning_rate": 0.00011155555555555556, + "loss": 0.0009, "step": 1990 }, { "epoch": 6.65, - "grad_norm": 3.438262701034546, - "learning_rate": 0.00015566666666666666, - "loss": 0.0478, + "grad_norm": 0.039839036762714386, + "learning_rate": 0.00011133333333333333, + "loss": 0.0009, "step": 1995 }, { "epoch": 6.666666666666667, - "grad_norm": 0.00929984450340271, - "learning_rate": 0.00015555555555555556, - "loss": 0.1446, + "grad_norm": 0.0035732537508010864, + "learning_rate": 0.00011111111111111112, + "loss": 0.0008, "step": 2000 }, { "epoch": 6.666666666666667, - "eval_accuracy": 0.81875, - "eval_f1": 0.8177260694283878, - "eval_loss": 0.8976751565933228, - "eval_precision": 0.836190677565054, - "eval_recall": 0.81875, - "eval_runtime": 16.5139, - "eval_samples_per_second": 145.332, - "eval_steps_per_second": 18.167, + "eval_accuracy": 0.8245833333333333, + "eval_f1": 0.8236114651594607, + "eval_loss": 0.9881937503814697, + "eval_precision": 0.840083114538835, + "eval_recall": 0.8245833333333333, + "eval_runtime": 16.197, + "eval_samples_per_second": 148.176, + "eval_steps_per_second": 18.522, "step": 2000 }, { "epoch": 6.683333333333334, - "grad_norm": 9.216179847717285, - "learning_rate": 0.00015544444444444446, - "loss": 0.0565, + "grad_norm": 0.0029575335793197155, + "learning_rate": 0.00011088888888888889, + "loss": 0.0007, "step": 2005 }, { "epoch": 6.7, - "grad_norm": 0.004474996123462915, - "learning_rate": 0.00015533333333333333, - "loss": 0.0267, + "grad_norm": 0.002966308733448386, + "learning_rate": 0.00011066666666666667, + "loss": 0.0007, "step": 2010 }, { "epoch": 6.716666666666667, - "grad_norm": 0.049678560346364975, - "learning_rate": 0.00015522222222222223, - "loss": 0.0977, + "grad_norm": 0.005334249697625637, + "learning_rate": 0.00011044444444444444, + "loss": 0.0008, "step": 2015 }, { "epoch": 6.733333333333333, - "grad_norm": 0.025646694004535675, - "learning_rate": 0.00015511111111111113, - "loss": 0.0223, + "grad_norm": 0.002641512779518962, + "learning_rate": 0.00011022222222222222, + "loss": 0.0007, "step": 2020 }, { "epoch": 6.75, - "grad_norm": 2.4551033973693848, - "learning_rate": 0.000155, - "loss": 0.0467, + "grad_norm": 0.0025473148562014103, + "learning_rate": 0.00011000000000000002, + "loss": 0.0007, "step": 2025 }, { "epoch": 6.766666666666667, - "grad_norm": 0.020824356004595757, - "learning_rate": 0.0001548888888888889, - "loss": 0.0446, + "grad_norm": 0.0044576372019946575, + "learning_rate": 0.00010977777777777777, + "loss": 0.0007, "step": 2030 }, { "epoch": 6.783333333333333, - "grad_norm": 0.2895689308643341, - "learning_rate": 0.00015477777777777777, - "loss": 0.0054, + "grad_norm": 0.0023774567525833845, + "learning_rate": 0.00010955555555555557, + "loss": 0.0008, "step": 2035 }, { "epoch": 6.8, - "grad_norm": 0.7860792279243469, - "learning_rate": 0.00015466666666666667, - "loss": 0.0029, + "grad_norm": 0.003503770800307393, + "learning_rate": 0.00010933333333333333, + "loss": 0.0008, "step": 2040 }, { "epoch": 6.816666666666666, - "grad_norm": 0.027105744928121567, - "learning_rate": 0.00015455555555555557, - "loss": 0.0035, + "grad_norm": 0.002677364507690072, + "learning_rate": 0.00010911111111111112, + "loss": 0.0007, "step": 2045 }, { "epoch": 6.833333333333333, - "grad_norm": 0.0050941952504217625, - "learning_rate": 0.00015444444444444446, - "loss": 0.0011, + "grad_norm": 0.0024984863121062517, + "learning_rate": 0.00010888888888888889, + "loss": 0.0008, "step": 2050 }, { "epoch": 6.85, - "grad_norm": 4.211833477020264, - "learning_rate": 0.00015433333333333334, - "loss": 0.1187, + "grad_norm": 0.0025663827545940876, + "learning_rate": 0.00010866666666666667, + "loss": 0.0006, "step": 2055 }, { "epoch": 6.866666666666667, - "grad_norm": 0.012652314268052578, - "learning_rate": 0.00015422222222222223, - "loss": 0.0021, + "grad_norm": 0.0024766959249973297, + "learning_rate": 0.00010844444444444446, + "loss": 0.0007, "step": 2060 }, { "epoch": 6.883333333333333, - "grad_norm": 0.037593305110931396, - "learning_rate": 0.0001541111111111111, - "loss": 0.0636, + "grad_norm": 0.002558353589847684, + "learning_rate": 0.00010822222222222223, + "loss": 0.0006, "step": 2065 }, { "epoch": 6.9, - "grad_norm": 0.07034880667924881, - "learning_rate": 0.000154, - "loss": 0.0314, + "grad_norm": 0.0025132466107606888, + "learning_rate": 0.00010800000000000001, + "loss": 0.0007, "step": 2070 }, { "epoch": 6.916666666666667, - "grad_norm": 0.02227076329290867, - "learning_rate": 0.0001538888888888889, - "loss": 0.0181, + "grad_norm": 0.010478183627128601, + "learning_rate": 0.00010777777777777778, + "loss": 0.0009, "step": 2075 }, { "epoch": 6.933333333333334, - "grad_norm": 0.3988129198551178, - "learning_rate": 0.00015377777777777777, - "loss": 0.1238, + "grad_norm": 0.005028113257139921, + "learning_rate": 0.00010755555555555556, + "loss": 0.0007, "step": 2080 }, { "epoch": 6.95, - "grad_norm": 0.03829626739025116, - "learning_rate": 0.00015366666666666667, - "loss": 0.0101, + "grad_norm": 0.0025496745947748423, + "learning_rate": 0.00010733333333333333, + "loss": 0.0006, "step": 2085 }, { "epoch": 6.966666666666667, - "grad_norm": 1.945186734199524, - "learning_rate": 0.00015355555555555557, - "loss": 0.0915, + "grad_norm": 0.003591779852285981, + "learning_rate": 0.00010711111111111111, + "loss": 0.0006, "step": 2090 }, { "epoch": 6.983333333333333, - "grad_norm": 0.4144499897956848, - "learning_rate": 0.00015344444444444447, - "loss": 0.0589, + "grad_norm": 0.00283693871460855, + "learning_rate": 0.00010688888888888891, + "loss": 0.0006, "step": 2095 }, { "epoch": 7.0, - "grad_norm": 0.018785452470183372, - "learning_rate": 0.00015333333333333334, - "loss": 0.0176, + "grad_norm": 0.0038050340954214334, + "learning_rate": 0.00010666666666666667, + "loss": 0.0006, "step": 2100 }, { "epoch": 7.0, - "eval_accuracy": 0.8608333333333333, - "eval_f1": 0.8636543749084247, - "eval_loss": 0.6660823822021484, - "eval_precision": 0.8756421871291711, - "eval_recall": 0.8608333333333333, - "eval_runtime": 16.6642, - "eval_samples_per_second": 144.021, - "eval_steps_per_second": 18.003, + "eval_accuracy": 0.8283333333333334, + "eval_f1": 0.827043103835229, + "eval_loss": 1.0365735292434692, + "eval_precision": 0.8424180828626023, + "eval_recall": 0.8283333333333334, + "eval_runtime": 16.047, + "eval_samples_per_second": 149.561, + "eval_steps_per_second": 18.695, "step": 2100 }, { "epoch": 7.016666666666667, - "grad_norm": 0.02621830813586712, - "learning_rate": 0.0001532222222222222, - "loss": 0.0077, + "grad_norm": 0.002981683472171426, + "learning_rate": 0.00010644444444444446, + "loss": 0.0006, "step": 2105 }, { "epoch": 7.033333333333333, - "grad_norm": 0.007334025111049414, - "learning_rate": 0.0001531111111111111, - "loss": 0.0017, + "grad_norm": 0.0025825523771345615, + "learning_rate": 0.00010622222222222222, + "loss": 0.0006, "step": 2110 }, { "epoch": 7.05, - "grad_norm": 2.3927223682403564, - "learning_rate": 0.000153, - "loss": 0.0723, + "grad_norm": 0.002548804972320795, + "learning_rate": 0.00010600000000000002, + "loss": 0.0006, "step": 2115 }, { "epoch": 7.066666666666666, - "grad_norm": 5.4654221534729, - "learning_rate": 0.0001528888888888889, - "loss": 0.0146, + "grad_norm": 0.003182685235515237, + "learning_rate": 0.00010577777777777777, + "loss": 0.0006, "step": 2120 }, { "epoch": 7.083333333333333, - "grad_norm": 0.14990371465682983, - "learning_rate": 0.00015277777777777777, - "loss": 0.0073, + "grad_norm": 0.002312670461833477, + "learning_rate": 0.00010555555555555557, + "loss": 0.0006, "step": 2125 }, { "epoch": 7.1, - "grad_norm": 0.7896360158920288, - "learning_rate": 0.00015266666666666667, - "loss": 0.0036, + "grad_norm": 0.0025875107385218143, + "learning_rate": 0.00010533333333333332, + "loss": 0.0006, "step": 2130 }, { "epoch": 7.116666666666666, - "grad_norm": 0.010146372951567173, - "learning_rate": 0.00015255555555555557, - "loss": 0.0228, + "grad_norm": 0.0023565725423395634, + "learning_rate": 0.00010511111111111112, + "loss": 0.0006, "step": 2135 }, { "epoch": 7.133333333333334, - "grad_norm": 0.01116099487990141, - "learning_rate": 0.00015244444444444447, - "loss": 0.0012, + "grad_norm": 0.002113408874720335, + "learning_rate": 0.0001048888888888889, + "loss": 0.0006, "step": 2140 }, { "epoch": 7.15, - "grad_norm": 0.5267151594161987, - "learning_rate": 0.00015233333333333334, - "loss": 0.002, + "grad_norm": 0.002329460810869932, + "learning_rate": 0.00010466666666666667, + "loss": 0.0006, "step": 2145 }, { "epoch": 7.166666666666667, - "grad_norm": 0.021047750487923622, - "learning_rate": 0.0001522222222222222, - "loss": 0.0069, + "grad_norm": 0.002042634878307581, + "learning_rate": 0.00010444444444444445, + "loss": 0.0006, "step": 2150 }, { "epoch": 7.183333333333334, - "grad_norm": 0.012312190607190132, - "learning_rate": 0.0001521111111111111, - "loss": 0.0012, + "grad_norm": 0.0021435196977108717, + "learning_rate": 0.00010422222222222222, + "loss": 0.0006, "step": 2155 }, { "epoch": 7.2, - "grad_norm": 5.025228500366211, - "learning_rate": 0.000152, - "loss": 0.035, + "grad_norm": 0.010415912605822086, + "learning_rate": 0.00010400000000000001, + "loss": 0.0153, "step": 2160 }, { "epoch": 7.216666666666667, - "grad_norm": 0.030802858993411064, - "learning_rate": 0.0001518888888888889, - "loss": 0.0042, + "grad_norm": 0.0036404260899871588, + "learning_rate": 0.00010377777777777778, + "loss": 0.0006, "step": 2165 }, { "epoch": 7.233333333333333, - "grad_norm": 0.003741396823897958, - "learning_rate": 0.00015177777777777778, - "loss": 0.0265, + "grad_norm": 0.002469377126544714, + "learning_rate": 0.00010355555555555556, + "loss": 0.0452, "step": 2170 }, { "epoch": 7.25, - "grad_norm": 4.000439643859863, - "learning_rate": 0.00015166666666666668, - "loss": 0.0693, + "grad_norm": 0.0038751347456127405, + "learning_rate": 0.00010333333333333334, + "loss": 0.0006, "step": 2175 }, { "epoch": 7.266666666666667, - "grad_norm": 0.39389580488204956, - "learning_rate": 0.00015155555555555557, - "loss": 0.0025, + "grad_norm": 0.023641176521778107, + "learning_rate": 0.00010311111111111111, + "loss": 0.0006, "step": 2180 }, { "epoch": 7.283333333333333, - "grad_norm": 0.018459133803844452, - "learning_rate": 0.00015144444444444445, - "loss": 0.007, + "grad_norm": 0.002154020359739661, + "learning_rate": 0.0001028888888888889, + "loss": 0.0007, "step": 2185 }, { "epoch": 7.3, - "grad_norm": 0.008117812685668468, - "learning_rate": 0.00015133333333333334, - "loss": 0.0122, + "grad_norm": 0.09074875712394714, + "learning_rate": 0.00010266666666666666, + "loss": 0.0012, "step": 2190 }, { "epoch": 7.316666666666666, - "grad_norm": 0.005213357973843813, - "learning_rate": 0.00015122222222222221, - "loss": 0.0055, + "grad_norm": 0.027209369465708733, + "learning_rate": 0.00010244444444444446, + "loss": 0.0228, "step": 2195 }, { "epoch": 7.333333333333333, - "grad_norm": 0.00523899681866169, - "learning_rate": 0.0001511111111111111, - "loss": 0.0312, + "grad_norm": 0.0022254737559705973, + "learning_rate": 0.00010222222222222222, + "loss": 0.0009, "step": 2200 }, { "epoch": 7.333333333333333, - "eval_accuracy": 0.8408333333333333, - "eval_f1": 0.841214039225934, - "eval_loss": 0.772219717502594, - "eval_precision": 0.8520210641880901, - "eval_recall": 0.8408333333333333, - "eval_runtime": 16.456, - "eval_samples_per_second": 145.843, - "eval_steps_per_second": 18.23, + "eval_accuracy": 0.8120833333333334, + "eval_f1": 0.8143212038450485, + "eval_loss": 1.1136418581008911, + "eval_precision": 0.8309008687497237, + "eval_recall": 0.8120833333333334, + "eval_runtime": 16.2138, + "eval_samples_per_second": 148.022, + "eval_steps_per_second": 18.503, "step": 2200 }, { "epoch": 7.35, - "grad_norm": 0.5468858480453491, - "learning_rate": 0.000151, - "loss": 0.0184, + "grad_norm": 0.004089110065251589, + "learning_rate": 0.00010200000000000001, + "loss": 0.0009, "step": 2205 }, { "epoch": 7.366666666666666, - "grad_norm": 0.0054657068103551865, - "learning_rate": 0.0001508888888888889, - "loss": 0.0014, + "grad_norm": 0.005873320158571005, + "learning_rate": 0.00010177777777777777, + "loss": 0.0169, "step": 2210 }, { "epoch": 7.383333333333334, - "grad_norm": 0.0031742462888360023, - "learning_rate": 0.0001507777777777778, - "loss": 0.0009, + "grad_norm": 0.014257393777370453, + "learning_rate": 0.00010155555555555557, + "loss": 0.0019, "step": 2215 }, { "epoch": 7.4, - "grad_norm": 0.00267440895549953, - "learning_rate": 0.00015066666666666668, + "grad_norm": 0.004869324155151844, + "learning_rate": 0.00010133333333333335, "loss": 0.0009, "step": 2220 }, { "epoch": 7.416666666666667, - "grad_norm": 0.0032548161689192057, - "learning_rate": 0.00015055555555555555, - "loss": 0.0008, + "grad_norm": 0.003435335122048855, + "learning_rate": 0.00010111111111111112, + "loss": 0.0006, "step": 2225 }, { "epoch": 7.433333333333334, - "grad_norm": 0.008603979833424091, - "learning_rate": 0.00015044444444444445, - "loss": 0.0031, + "grad_norm": 0.005046080332249403, + "learning_rate": 0.0001008888888888889, + "loss": 0.0026, "step": 2230 }, { "epoch": 7.45, - "grad_norm": 0.0036078346893191338, - "learning_rate": 0.00015033333333333335, - "loss": 0.0009, + "grad_norm": 0.0024404891300946474, + "learning_rate": 0.00010066666666666667, + "loss": 0.0006, "step": 2235 }, { "epoch": 7.466666666666667, - "grad_norm": 0.05252474173903465, - "learning_rate": 0.00015022222222222222, - "loss": 0.0011, + "grad_norm": 0.003708339761942625, + "learning_rate": 0.00010044444444444445, + "loss": 0.0006, "step": 2240 }, { "epoch": 7.483333333333333, - "grad_norm": 0.0057592373341321945, - "learning_rate": 0.00015011111111111112, - "loss": 0.0017, + "grad_norm": 0.002780113136395812, + "learning_rate": 0.00010022222222222222, + "loss": 0.0006, "step": 2245 }, { "epoch": 7.5, - "grad_norm": 0.003402211470529437, - "learning_rate": 0.00015000000000000001, - "loss": 0.0125, + "grad_norm": 11.760756492614746, + "learning_rate": 0.0001, + "loss": 0.0129, "step": 2250 }, { "epoch": 7.516666666666667, - "grad_norm": 0.004304531961679459, - "learning_rate": 0.0001498888888888889, - "loss": 0.0009, + "grad_norm": 0.002225663512945175, + "learning_rate": 9.977777777777779e-05, + "loss": 0.0248, "step": 2255 }, { "epoch": 7.533333333333333, - "grad_norm": 0.004373368341475725, - "learning_rate": 0.00014977777777777778, - "loss": 0.0015, + "grad_norm": 0.007424809038639069, + "learning_rate": 9.955555555555556e-05, + "loss": 0.0007, "step": 2260 }, { "epoch": 7.55, - "grad_norm": 0.17799116671085358, - "learning_rate": 0.00014966666666666665, - "loss": 0.0014, + "grad_norm": 5.496004581451416, + "learning_rate": 9.933333333333334e-05, + "loss": 0.032, "step": 2265 }, { "epoch": 7.566666666666666, - "grad_norm": 0.11391420662403107, - "learning_rate": 0.00014955555555555555, - "loss": 0.002, + "grad_norm": 0.0022342163138091564, + "learning_rate": 9.911111111111112e-05, + "loss": 0.0136, "step": 2270 }, { "epoch": 7.583333333333333, - "grad_norm": 2.068371295928955, - "learning_rate": 0.00014944444444444445, - "loss": 0.0034, + "grad_norm": 0.002678543096408248, + "learning_rate": 9.888888888888889e-05, + "loss": 0.0007, "step": 2275 }, { "epoch": 7.6, - "grad_norm": 0.004461531527340412, - "learning_rate": 0.00014933333333333335, - "loss": 0.0008, + "grad_norm": 0.0034278975799679756, + "learning_rate": 9.866666666666668e-05, + "loss": 0.0102, "step": 2280 }, { "epoch": 7.616666666666667, - "grad_norm": 0.0026394540909677744, - "learning_rate": 0.00014922222222222222, - "loss": 0.0007, + "grad_norm": 0.002528877230361104, + "learning_rate": 9.844444444444444e-05, + "loss": 0.0006, "step": 2285 }, { "epoch": 7.633333333333333, - "grad_norm": 0.002601665211841464, - "learning_rate": 0.00014911111111111112, - "loss": 0.0007, + "grad_norm": 0.009201227687299252, + "learning_rate": 9.822222222222223e-05, + "loss": 0.0262, "step": 2290 }, { "epoch": 7.65, - "grad_norm": 0.0071794381365180016, - "learning_rate": 0.00014900000000000002, - "loss": 0.0016, + "grad_norm": 0.0034583392553031445, + "learning_rate": 9.8e-05, + "loss": 0.0007, "step": 2295 }, { "epoch": 7.666666666666667, - "grad_norm": 0.005524220876395702, - "learning_rate": 0.0001488888888888889, - "loss": 0.0018, + "grad_norm": 0.015669595450162888, + "learning_rate": 9.777777777777778e-05, + "loss": 0.0068, "step": 2300 }, { "epoch": 7.666666666666667, - "eval_accuracy": 0.8483333333333334, - "eval_f1": 0.8453297360138619, - "eval_loss": 0.8193511962890625, - "eval_precision": 0.8641175497657522, - "eval_recall": 0.8483333333333334, - "eval_runtime": 16.2376, - "eval_samples_per_second": 147.805, - "eval_steps_per_second": 18.476, + "eval_accuracy": 0.8116666666666666, + "eval_f1": 0.8015287837222055, + "eval_loss": 1.0873174667358398, + "eval_precision": 0.812814282117045, + "eval_recall": 0.8116666666666666, + "eval_runtime": 16.3225, + "eval_samples_per_second": 147.036, + "eval_steps_per_second": 18.38, "step": 2300 }, { "epoch": 7.683333333333334, - "grad_norm": 0.014535258524119854, - "learning_rate": 0.00014877777777777779, - "loss": 0.0008, + "grad_norm": 0.010960573330521584, + "learning_rate": 9.755555555555555e-05, + "loss": 0.0009, "step": 2305 }, { "epoch": 7.7, - "grad_norm": 0.0027348026633262634, - "learning_rate": 0.00014866666666666666, - "loss": 0.0008, + "grad_norm": 3.8007144927978516, + "learning_rate": 9.733333333333335e-05, + "loss": 0.0211, "step": 2310 }, { "epoch": 7.716666666666667, - "grad_norm": 0.01817270927131176, - "learning_rate": 0.00014855555555555556, - "loss": 0.001, + "grad_norm": 0.0147212203592062, + "learning_rate": 9.711111111111111e-05, + "loss": 0.0006, "step": 2315 }, { "epoch": 7.733333333333333, - "grad_norm": 4.863348960876465, - "learning_rate": 0.00014844444444444445, - "loss": 0.0205, + "grad_norm": 4.280189514160156, + "learning_rate": 9.68888888888889e-05, + "loss": 0.0332, "step": 2320 }, { "epoch": 7.75, - "grad_norm": 0.0023010699078440666, - "learning_rate": 0.00014833333333333335, - "loss": 0.0041, + "grad_norm": 0.0037267047446221113, + "learning_rate": 9.666666666666667e-05, + "loss": 0.0008, "step": 2325 }, { "epoch": 7.766666666666667, - "grad_norm": 0.002950769616290927, - "learning_rate": 0.00014822222222222225, - "loss": 0.0006, + "grad_norm": 0.0027066045440733433, + "learning_rate": 9.644444444444445e-05, + "loss": 0.0008, "step": 2330 }, { "epoch": 7.783333333333333, - "grad_norm": 8.950093269348145, - "learning_rate": 0.00014811111111111112, - "loss": 0.0183, + "grad_norm": 0.003192759584635496, + "learning_rate": 9.622222222222222e-05, + "loss": 0.0007, "step": 2335 }, { "epoch": 7.8, - "grad_norm": 0.0024769071023911238, - "learning_rate": 0.000148, - "loss": 0.0199, + "grad_norm": 0.007623758167028427, + "learning_rate": 9.6e-05, + "loss": 0.0008, "step": 2340 }, { "epoch": 7.816666666666666, - "grad_norm": 0.0035010206047445536, - "learning_rate": 0.0001478888888888889, - "loss": 0.0132, + "grad_norm": 0.00502683874219656, + "learning_rate": 9.577777777777777e-05, + "loss": 0.0286, "step": 2345 }, { "epoch": 7.833333333333333, - "grad_norm": 0.8080799579620361, - "learning_rate": 0.0001477777777777778, - "loss": 0.0069, + "grad_norm": 0.0025516434106975794, + "learning_rate": 9.555555555555557e-05, + "loss": 0.0006, "step": 2350 }, { "epoch": 7.85, - "grad_norm": 0.0025033564306795597, - "learning_rate": 0.00014766666666666666, - "loss": 0.0007, + "grad_norm": 0.018869969993829727, + "learning_rate": 9.533333333333334e-05, + "loss": 0.0006, "step": 2355 }, { "epoch": 7.866666666666667, - "grad_norm": 0.002949489513412118, - "learning_rate": 0.00014755555555555556, - "loss": 0.0007, + "grad_norm": 0.0022587133571505547, + "learning_rate": 9.511111111111112e-05, + "loss": 0.0379, "step": 2360 }, { "epoch": 7.883333333333333, - "grad_norm": 0.00507625425234437, - "learning_rate": 0.00014744444444444446, - "loss": 0.003, + "grad_norm": 0.0023919830564409494, + "learning_rate": 9.488888888888889e-05, + "loss": 0.0005, "step": 2365 }, { "epoch": 7.9, - "grad_norm": 0.0031526118982583284, - "learning_rate": 0.00014733333333333335, - "loss": 0.0468, + "grad_norm": 0.002412996254861355, + "learning_rate": 9.466666666666667e-05, + "loss": 0.0227, "step": 2370 }, { "epoch": 7.916666666666667, - "grad_norm": 0.00233761896379292, - "learning_rate": 0.00014722222222222223, - "loss": 0.0015, + "grad_norm": 0.0020158858969807625, + "learning_rate": 9.444444444444444e-05, + "loss": 0.0005, "step": 2375 }, { "epoch": 7.933333333333334, - "grad_norm": 0.004013798665255308, - "learning_rate": 0.00014711111111111112, - "loss": 0.0422, + "grad_norm": 3.1069014072418213, + "learning_rate": 9.422222222222223e-05, + "loss": 0.0474, "step": 2380 }, { "epoch": 7.95, - "grad_norm": 0.006964639760553837, - "learning_rate": 0.000147, - "loss": 0.0014, + "grad_norm": 0.003413447178900242, + "learning_rate": 9.4e-05, + "loss": 0.0008, "step": 2385 }, { "epoch": 7.966666666666667, - "grad_norm": 0.005233841482549906, - "learning_rate": 0.0001468888888888889, - "loss": 0.0037, + "grad_norm": 0.004730647895485163, + "learning_rate": 9.377777777777779e-05, + "loss": 0.0006, "step": 2390 }, { "epoch": 7.983333333333333, - "grad_norm": 0.006709870416671038, - "learning_rate": 0.0001467777777777778, - "loss": 0.0011, + "grad_norm": 0.005170903634279966, + "learning_rate": 9.355555555555556e-05, + "loss": 0.005, "step": 2395 }, { "epoch": 8.0, - "grad_norm": 0.005775137804448605, - "learning_rate": 0.00014666666666666666, - "loss": 0.0008, + "grad_norm": 0.002543902490288019, + "learning_rate": 9.333333333333334e-05, + "loss": 0.0006, "step": 2400 }, { "epoch": 8.0, - "eval_accuracy": 0.8570833333333333, - "eval_f1": 0.8534869100426493, - "eval_loss": 0.7871036529541016, - "eval_precision": 0.8752354693055823, - "eval_recall": 0.8570833333333333, - "eval_runtime": 16.3837, - "eval_samples_per_second": 146.487, - "eval_steps_per_second": 18.311, + "eval_accuracy": 0.8325, + "eval_f1": 0.8292048079037411, + "eval_loss": 0.8601341843605042, + "eval_precision": 0.8382643704935783, + "eval_recall": 0.8325, + "eval_runtime": 16.1666, + "eval_samples_per_second": 148.454, + "eval_steps_per_second": 18.557, "step": 2400 }, { "epoch": 8.016666666666667, - "grad_norm": 5.687709808349609, - "learning_rate": 0.00014655555555555556, - "loss": 0.0131, + "grad_norm": 0.002132824622094631, + "learning_rate": 9.311111111111111e-05, + "loss": 0.0005, "step": 2405 }, { "epoch": 8.033333333333333, - "grad_norm": 0.003728059120476246, - "learning_rate": 0.00014644444444444446, - "loss": 0.0009, + "grad_norm": 0.002072495874017477, + "learning_rate": 9.28888888888889e-05, + "loss": 0.0005, "step": 2410 }, { "epoch": 8.05, - "grad_norm": 0.03790562227368355, - "learning_rate": 0.00014633333333333336, - "loss": 0.001, + "grad_norm": 0.002085267100483179, + "learning_rate": 9.266666666666666e-05, + "loss": 0.0097, "step": 2415 }, { "epoch": 8.066666666666666, - "grad_norm": 0.016470499336719513, - "learning_rate": 0.00014622222222222223, - "loss": 0.0009, + "grad_norm": 4.095912933349609, + "learning_rate": 9.244444444444445e-05, + "loss": 0.0046, "step": 2420 }, { "epoch": 8.083333333333334, - "grad_norm": 0.0025461844634264708, - "learning_rate": 0.0001461111111111111, - "loss": 0.0375, + "grad_norm": 0.02202429063618183, + "learning_rate": 9.222222222222223e-05, + "loss": 0.0006, "step": 2425 }, { "epoch": 8.1, - "grad_norm": 0.2699083685874939, - "learning_rate": 0.000146, - "loss": 0.0014, + "grad_norm": 0.0047103771939873695, + "learning_rate": 9.200000000000001e-05, + "loss": 0.0677, "step": 2430 }, { "epoch": 8.116666666666667, - "grad_norm": 0.004635660909116268, - "learning_rate": 0.0001458888888888889, - "loss": 0.0008, + "grad_norm": 0.0025165516417473555, + "learning_rate": 9.177777777777778e-05, + "loss": 0.0006, "step": 2435 }, { "epoch": 8.133333333333333, - "grad_norm": 0.002575015416368842, - "learning_rate": 0.0001457777777777778, - "loss": 0.0007, + "grad_norm": 0.002185888821259141, + "learning_rate": 9.155555555555557e-05, + "loss": 0.0009, "step": 2440 }, { "epoch": 8.15, - "grad_norm": 0.00613428745418787, - "learning_rate": 0.0001456666666666667, - "loss": 0.0009, + "grad_norm": 0.003206634661182761, + "learning_rate": 9.133333333333334e-05, + "loss": 0.0045, "step": 2445 }, { "epoch": 8.166666666666666, - "grad_norm": 0.01103020366281271, - "learning_rate": 0.00014555555555555556, - "loss": 0.0016, + "grad_norm": 0.0054768663831055164, + "learning_rate": 9.111111111111112e-05, + "loss": 0.0072, "step": 2450 }, { "epoch": 8.183333333333334, - "grad_norm": 0.006930557545274496, - "learning_rate": 0.00014544444444444446, - "loss": 0.0007, + "grad_norm": 0.002786393743008375, + "learning_rate": 9.088888888888889e-05, + "loss": 0.0005, "step": 2455 }, { "epoch": 8.2, - "grad_norm": 0.0033845205325633287, - "learning_rate": 0.00014533333333333333, - "loss": 0.0006, + "grad_norm": 1.1637638807296753, + "learning_rate": 9.066666666666667e-05, + "loss": 0.0455, "step": 2460 }, { "epoch": 8.216666666666667, - "grad_norm": 0.002517259679734707, - "learning_rate": 0.00014522222222222223, - "loss": 0.0006, + "grad_norm": 0.0023684033658355474, + "learning_rate": 9.044444444444445e-05, + "loss": 0.0005, "step": 2465 }, { "epoch": 8.233333333333333, - "grad_norm": 0.004058354068547487, - "learning_rate": 0.0001451111111111111, - "loss": 0.0006, + "grad_norm": 0.0026305948849767447, + "learning_rate": 9.022222222222224e-05, + "loss": 0.0005, "step": 2470 }, { "epoch": 8.25, - "grad_norm": 0.002601025393232703, - "learning_rate": 0.000145, - "loss": 0.0006, + "grad_norm": 1.0434577465057373, + "learning_rate": 9e-05, + "loss": 0.0019, "step": 2475 }, { "epoch": 8.266666666666667, - "grad_norm": 0.004104811232537031, - "learning_rate": 0.0001448888888888889, - "loss": 0.0006, + "grad_norm": 0.002434673486277461, + "learning_rate": 8.977777777777779e-05, + "loss": 0.0009, "step": 2480 }, { "epoch": 8.283333333333333, - "grad_norm": 0.002773802727460861, - "learning_rate": 0.0001447777777777778, + "grad_norm": 0.003538089105859399, + "learning_rate": 8.955555555555556e-05, "loss": 0.0006, "step": 2485 }, { "epoch": 8.3, - "grad_norm": 0.0024969547521322966, - "learning_rate": 0.0001446666666666667, - "loss": 0.0102, + "grad_norm": 0.0025343557354062796, + "learning_rate": 8.933333333333334e-05, + "loss": 0.0011, "step": 2490 }, { "epoch": 8.316666666666666, - "grad_norm": 0.0023750008549541235, - "learning_rate": 0.00014455555555555557, - "loss": 0.0005, + "grad_norm": 0.03506913036108017, + "learning_rate": 8.911111111111111e-05, + "loss": 0.0007, "step": 2495 }, { "epoch": 8.333333333333334, - "grad_norm": 3.1138103008270264, - "learning_rate": 0.00014444444444444444, - "loss": 0.0033, + "grad_norm": 0.0023856956977397203, + "learning_rate": 8.888888888888889e-05, + "loss": 0.0187, "step": 2500 }, { "epoch": 8.333333333333334, "eval_accuracy": 0.8258333333333333, - "eval_f1": 0.8220356535524002, - "eval_loss": 0.9941890239715576, - "eval_precision": 0.8480280685343223, + "eval_f1": 0.8241328180566471, + "eval_loss": 0.970003068447113, + "eval_precision": 0.8374685562548414, "eval_recall": 0.8258333333333333, - "eval_runtime": 16.3915, - "eval_samples_per_second": 146.417, - "eval_steps_per_second": 18.302, + "eval_runtime": 16.1877, + "eval_samples_per_second": 148.261, + "eval_steps_per_second": 18.533, "step": 2500 }, { "epoch": 8.35, - "grad_norm": 0.0020911507308483124, - "learning_rate": 0.00014433333333333334, - "loss": 0.0008, + "grad_norm": 0.005118364468216896, + "learning_rate": 8.866666666666668e-05, + "loss": 0.0006, "step": 2505 }, { "epoch": 8.366666666666667, - "grad_norm": 0.0024478973355144262, - "learning_rate": 0.00014422222222222223, - "loss": 0.0021, + "grad_norm": 0.0032844129018485546, + "learning_rate": 8.844444444444445e-05, + "loss": 0.009, "step": 2510 }, { "epoch": 8.383333333333333, - "grad_norm": 0.002716888440772891, - "learning_rate": 0.0001441111111111111, - "loss": 0.0005, + "grad_norm": 0.02022561803460121, + "learning_rate": 8.822222222222223e-05, + "loss": 0.0011, "step": 2515 }, { "epoch": 8.4, - "grad_norm": 0.0019291191129013896, - "learning_rate": 0.000144, - "loss": 0.0024, + "grad_norm": 0.002716699382290244, + "learning_rate": 8.800000000000001e-05, + "loss": 0.0006, "step": 2520 }, { "epoch": 8.416666666666666, - "grad_norm": 0.0020477138459682465, - "learning_rate": 0.0001438888888888889, - "loss": 0.0005, + "grad_norm": 0.004801027476787567, + "learning_rate": 8.777777777777778e-05, + "loss": 0.0006, "step": 2525 }, { "epoch": 8.433333333333334, - "grad_norm": 0.006664696615189314, - "learning_rate": 0.0001437777777777778, - "loss": 0.0006, + "grad_norm": 0.0022399628069251776, + "learning_rate": 8.755555555555556e-05, + "loss": 0.0009, "step": 2530 }, { "epoch": 8.45, - "grad_norm": 0.006252924911677837, - "learning_rate": 0.00014366666666666667, - "loss": 0.0393, + "grad_norm": 0.002084235893562436, + "learning_rate": 8.733333333333333e-05, + "loss": 0.0005, "step": 2535 }, { "epoch": 8.466666666666667, - "grad_norm": 2.285886526107788, - "learning_rate": 0.00014355555555555554, - "loss": 0.0484, + "grad_norm": 0.015903901308774948, + "learning_rate": 8.711111111111112e-05, + "loss": 0.0022, "step": 2540 }, { "epoch": 8.483333333333333, - "grad_norm": 0.3105466961860657, - "learning_rate": 0.00014344444444444444, - "loss": 0.0827, + "grad_norm": 0.002923174062743783, + "learning_rate": 8.68888888888889e-05, + "loss": 0.0005, "step": 2545 }, { "epoch": 8.5, - "grad_norm": 2.8777239322662354, - "learning_rate": 0.00014333333333333334, - "loss": 0.0425, + "grad_norm": 0.0019452901324257255, + "learning_rate": 8.666666666666667e-05, + "loss": 0.0005, "step": 2550 }, { "epoch": 8.516666666666667, - "grad_norm": 0.005135390907526016, - "learning_rate": 0.00014322222222222224, - "loss": 0.0034, + "grad_norm": 0.002018929924815893, + "learning_rate": 8.644444444444445e-05, + "loss": 0.0424, "step": 2555 }, { "epoch": 8.533333333333333, - "grad_norm": 0.005072362255305052, - "learning_rate": 0.0001431111111111111, - "loss": 0.0014, + "grad_norm": 0.06330401450395584, + "learning_rate": 8.622222222222222e-05, + "loss": 0.0007, "step": 2560 }, { "epoch": 8.55, - "grad_norm": 0.01533975824713707, - "learning_rate": 0.000143, - "loss": 0.0022, + "grad_norm": 0.002739762654528022, + "learning_rate": 8.6e-05, + "loss": 0.0005, "step": 2565 }, { "epoch": 8.566666666666666, - "grad_norm": 0.008371562696993351, - "learning_rate": 0.0001428888888888889, - "loss": 0.001, + "grad_norm": 0.0017543025314807892, + "learning_rate": 8.577777777777777e-05, + "loss": 0.0005, "step": 2570 }, { "epoch": 8.583333333333334, - "grad_norm": 0.0038396709132939577, - "learning_rate": 0.00014277777777777778, - "loss": 0.0012, + "grad_norm": 0.0019296887330710888, + "learning_rate": 8.555555555555556e-05, + "loss": 0.0266, "step": 2575 }, { "epoch": 8.6, - "grad_norm": 0.003405633382499218, - "learning_rate": 0.00014266666666666667, - "loss": 0.0007, + "grad_norm": 0.0020027935970574617, + "learning_rate": 8.533333333333334e-05, + "loss": 0.0004, "step": 2580 }, { "epoch": 8.616666666666667, - "grad_norm": 0.002158754039555788, - "learning_rate": 0.00014255555555555555, - "loss": 0.0015, + "grad_norm": 0.001972978701815009, + "learning_rate": 8.511111111111112e-05, + "loss": 0.0005, "step": 2585 }, { "epoch": 8.633333333333333, - "grad_norm": 0.002263590693473816, - "learning_rate": 0.00014244444444444444, - "loss": 0.0013, + "grad_norm": 0.00312838819809258, + "learning_rate": 8.488888888888889e-05, + "loss": 0.0005, "step": 2590 }, { "epoch": 8.65, - "grad_norm": 0.005182481370866299, - "learning_rate": 0.00014233333333333334, - "loss": 0.0007, + "grad_norm": 0.0019264626316726208, + "learning_rate": 8.466666666666667e-05, + "loss": 0.0005, "step": 2595 }, { "epoch": 8.666666666666666, - "grad_norm": 0.003480789717286825, - "learning_rate": 0.00014222222222222224, - "loss": 0.0017, + "grad_norm": 0.0022585391998291016, + "learning_rate": 8.444444444444444e-05, + "loss": 0.0005, "step": 2600 }, { "epoch": 8.666666666666666, "eval_accuracy": 0.8175, - "eval_f1": 0.8186579673786826, - "eval_loss": 1.1084047555923462, - "eval_precision": 0.8561720161181153, + "eval_f1": 0.8198611702512841, + "eval_loss": 0.8824928998947144, + "eval_precision": 0.8339199486595633, "eval_recall": 0.8175, - "eval_runtime": 16.3366, - "eval_samples_per_second": 146.91, - "eval_steps_per_second": 18.364, + "eval_runtime": 16.215, + "eval_samples_per_second": 148.011, + "eval_steps_per_second": 18.501, "step": 2600 }, { "epoch": 8.683333333333334, - "grad_norm": 0.0025681203696876764, - "learning_rate": 0.00014211111111111114, - "loss": 0.0006, + "grad_norm": 0.0068211923353374004, + "learning_rate": 8.422222222222223e-05, + "loss": 0.0005, "step": 2605 }, { "epoch": 8.7, - "grad_norm": 0.0025423429906368256, - "learning_rate": 0.000142, - "loss": 0.0016, + "grad_norm": 0.16162340342998505, + "learning_rate": 8.4e-05, + "loss": 0.001, "step": 2610 }, { "epoch": 8.716666666666667, - "grad_norm": 6.255505561828613, - "learning_rate": 0.00014188888888888888, - "loss": 0.0163, + "grad_norm": 0.0017909558955579996, + "learning_rate": 8.377777777777778e-05, + "loss": 0.0107, "step": 2615 }, { "epoch": 8.733333333333333, - "grad_norm": 0.002673147479072213, - "learning_rate": 0.00014177777777777778, - "loss": 0.0008, + "grad_norm": 0.001604414195753634, + "learning_rate": 8.355555555555556e-05, + "loss": 0.0004, "step": 2620 }, { "epoch": 8.75, - "grad_norm": 0.004418432712554932, - "learning_rate": 0.00014166666666666668, - "loss": 0.0907, + "grad_norm": 0.0016672975616529584, + "learning_rate": 8.333333333333334e-05, + "loss": 0.0005, "step": 2625 }, { "epoch": 8.766666666666667, - "grad_norm": 0.06287478655576706, - "learning_rate": 0.00014155555555555555, - "loss": 0.0118, + "grad_norm": 0.002143802586942911, + "learning_rate": 8.311111111111111e-05, + "loss": 0.0005, "step": 2630 }, { "epoch": 8.783333333333333, - "grad_norm": 0.02641911990940571, - "learning_rate": 0.00014144444444444445, - "loss": 0.0007, + "grad_norm": 0.3950815498828888, + "learning_rate": 8.28888888888889e-05, + "loss": 0.0016, "step": 2635 }, { "epoch": 8.8, - "grad_norm": 0.0021477967966347933, - "learning_rate": 0.00014133333333333334, - "loss": 0.0006, + "grad_norm": 0.0016165695851668715, + "learning_rate": 8.266666666666667e-05, + "loss": 0.0005, "step": 2640 }, { "epoch": 8.816666666666666, - "grad_norm": 0.2916870713233948, - "learning_rate": 0.00014122222222222224, - "loss": 0.0009, + "grad_norm": 0.0016247531166300178, + "learning_rate": 8.244444444444445e-05, + "loss": 0.0005, "step": 2645 }, { "epoch": 8.833333333333334, - "grad_norm": 0.002433206420391798, - "learning_rate": 0.00014111111111111111, - "loss": 0.0643, + "grad_norm": 0.0016288519836962223, + "learning_rate": 8.222222222222222e-05, + "loss": 0.0004, "step": 2650 }, { "epoch": 8.85, - "grad_norm": 0.0035392683930695057, - "learning_rate": 0.000141, - "loss": 0.0005, + "grad_norm": 0.0017224808689206839, + "learning_rate": 8.2e-05, + "loss": 0.0004, "step": 2655 }, { "epoch": 8.866666666666667, - "grad_norm": 0.012625632807612419, - "learning_rate": 0.00014088888888888888, - "loss": 0.0137, + "grad_norm": 0.0016860649921000004, + "learning_rate": 8.177777777777778e-05, + "loss": 0.0004, "step": 2660 }, { "epoch": 8.883333333333333, - "grad_norm": 1.3027019500732422, - "learning_rate": 0.00014077777777777778, - "loss": 0.0071, + "grad_norm": 0.00168362888507545, + "learning_rate": 8.155555555555557e-05, + "loss": 0.0005, "step": 2665 }, { "epoch": 8.9, - "grad_norm": 0.007935917004942894, - "learning_rate": 0.00014066666666666668, - "loss": 0.0011, + "grad_norm": 0.0017627644119784236, + "learning_rate": 8.133333333333334e-05, + "loss": 0.0004, "step": 2670 }, { "epoch": 8.916666666666666, - "grad_norm": 0.01064575556665659, - "learning_rate": 0.00014055555555555555, - "loss": 0.0372, + "grad_norm": 0.0017018822254613042, + "learning_rate": 8.111111111111112e-05, + "loss": 0.0004, "step": 2675 }, { "epoch": 8.933333333333334, - "grad_norm": 0.0029459598008543253, - "learning_rate": 0.00014044444444444445, - "loss": 0.0365, + "grad_norm": 0.0016837342409417033, + "learning_rate": 8.088888888888889e-05, + "loss": 0.0004, "step": 2680 }, { "epoch": 8.95, - "grad_norm": 5.695804595947266, - "learning_rate": 0.00014033333333333335, - "loss": 0.028, + "grad_norm": 0.0017775363521650434, + "learning_rate": 8.066666666666667e-05, + "loss": 0.0004, "step": 2685 }, { "epoch": 8.966666666666667, - "grad_norm": 0.01090436615049839, - "learning_rate": 0.00014022222222222225, - "loss": 0.0016, + "grad_norm": 0.001605857047252357, + "learning_rate": 8.044444444444444e-05, + "loss": 0.0004, "step": 2690 }, { "epoch": 8.983333333333333, - "grad_norm": 0.004951427225023508, - "learning_rate": 0.00014011111111111112, - "loss": 0.038, + "grad_norm": 0.0027426250744611025, + "learning_rate": 8.022222222222222e-05, + "loss": 0.0004, "step": 2695 }, { "epoch": 9.0, - "grad_norm": 0.005922562908381224, - "learning_rate": 0.00014, - "loss": 0.0672, + "grad_norm": 0.0015770348254591227, + "learning_rate": 8e-05, + "loss": 0.0005, "step": 2700 }, { "epoch": 9.0, - "eval_accuracy": 0.84375, - "eval_f1": 0.8444540552198715, - "eval_loss": 0.8912330865859985, - "eval_precision": 0.8733864492722258, - "eval_recall": 0.84375, - "eval_runtime": 16.2373, - "eval_samples_per_second": 147.807, - "eval_steps_per_second": 18.476, + "eval_accuracy": 0.8241666666666667, + "eval_f1": 0.8229834552144357, + "eval_loss": 1.0313628911972046, + "eval_precision": 0.845454998030999, + "eval_recall": 0.8241666666666667, + "eval_runtime": 16.1682, + "eval_samples_per_second": 148.439, + "eval_steps_per_second": 18.555, "step": 2700 }, { "epoch": 9.016666666666667, - "grad_norm": 0.104985311627388, - "learning_rate": 0.00013988888888888889, - "loss": 0.0022, + "grad_norm": 0.002008032752200961, + "learning_rate": 7.977777777777779e-05, + "loss": 0.0004, "step": 2705 }, { "epoch": 9.033333333333333, - "grad_norm": 0.008143506944179535, - "learning_rate": 0.00013977777777777778, - "loss": 0.0073, + "grad_norm": 0.0015036368276923895, + "learning_rate": 7.955555555555556e-05, + "loss": 0.0004, "step": 2710 }, { "epoch": 9.05, - "grad_norm": 0.005883979145437479, - "learning_rate": 0.00013966666666666668, - "loss": 0.0065, + "grad_norm": 0.00159637036267668, + "learning_rate": 7.933333333333334e-05, + "loss": 0.0004, "step": 2715 }, { "epoch": 9.066666666666666, - "grad_norm": 0.03593851998448372, - "learning_rate": 0.00013955555555555558, - "loss": 0.0128, + "grad_norm": 0.0032770384568721056, + "learning_rate": 7.911111111111111e-05, + "loss": 0.0004, "step": 2720 }, { "epoch": 9.083333333333334, - "grad_norm": 3.8942365646362305, - "learning_rate": 0.00013944444444444445, - "loss": 0.0946, + "grad_norm": 0.001699652522802353, + "learning_rate": 7.88888888888889e-05, + "loss": 0.0004, "step": 2725 }, { "epoch": 9.1, - "grad_norm": 0.024253543466329575, - "learning_rate": 0.00013933333333333335, - "loss": 0.0368, + "grad_norm": 0.0016313965898007154, + "learning_rate": 7.866666666666666e-05, + "loss": 0.0004, "step": 2730 }, { "epoch": 9.116666666666667, - "grad_norm": 6.3494954109191895, - "learning_rate": 0.00013922222222222222, - "loss": 0.0644, + "grad_norm": 0.0015831812052056193, + "learning_rate": 7.844444444444446e-05, + "loss": 0.0004, "step": 2735 }, { "epoch": 9.133333333333333, - "grad_norm": 0.004255510866641998, - "learning_rate": 0.00013911111111111112, - "loss": 0.0008, + "grad_norm": 0.0015456965193152428, + "learning_rate": 7.822222222222223e-05, + "loss": 0.0004, "step": 2740 }, { "epoch": 9.15, - "grad_norm": 0.02173234149813652, - "learning_rate": 0.000139, - "loss": 0.0026, + "grad_norm": 0.0015633227303624153, + "learning_rate": 7.800000000000001e-05, + "loss": 0.0004, "step": 2745 }, { "epoch": 9.166666666666666, - "grad_norm": 0.6059193015098572, - "learning_rate": 0.0001388888888888889, - "loss": 0.0579, + "grad_norm": 0.001547831459902227, + "learning_rate": 7.777777777777778e-05, + "loss": 0.0005, "step": 2750 }, { "epoch": 9.183333333333334, - "grad_norm": 4.733312129974365, - "learning_rate": 0.0001387777777777778, - "loss": 0.1371, + "grad_norm": 0.0014629991492256522, + "learning_rate": 7.755555555555556e-05, + "loss": 0.0004, "step": 2755 }, { "epoch": 9.2, - "grad_norm": 0.023999568074941635, - "learning_rate": 0.00013866666666666669, - "loss": 0.0953, + "grad_norm": 0.0014544447185471654, + "learning_rate": 7.733333333333333e-05, + "loss": 0.0004, "step": 2760 }, { "epoch": 9.216666666666667, - "grad_norm": 0.010103575885295868, - "learning_rate": 0.00013855555555555558, - "loss": 0.0073, + "grad_norm": 0.0022293925285339355, + "learning_rate": 7.711111111111112e-05, + "loss": 0.0004, "step": 2765 }, { "epoch": 9.233333333333333, - "grad_norm": 0.06156833842396736, - "learning_rate": 0.00013844444444444445, - "loss": 0.0458, + "grad_norm": 0.0015222608344629407, + "learning_rate": 7.688888888888889e-05, + "loss": 0.0004, "step": 2770 }, { "epoch": 9.25, - "grad_norm": 0.08024519681930542, - "learning_rate": 0.00013833333333333333, - "loss": 0.004, + "grad_norm": 0.0014466847060248256, + "learning_rate": 7.666666666666667e-05, + "loss": 0.0004, "step": 2775 }, { "epoch": 9.266666666666667, - "grad_norm": 0.01808352954685688, - "learning_rate": 0.00013822222222222222, - "loss": 0.0053, + "grad_norm": 0.0013690460473299026, + "learning_rate": 7.644444444444445e-05, + "loss": 0.0004, "step": 2780 }, { "epoch": 9.283333333333333, - "grad_norm": 0.21667584776878357, - "learning_rate": 0.00013811111111111112, - "loss": 0.0065, + "grad_norm": 0.006811714731156826, + "learning_rate": 7.622222222222223e-05, + "loss": 0.0004, "step": 2785 }, { "epoch": 9.3, - "grad_norm": 0.06053479388356209, - "learning_rate": 0.000138, - "loss": 0.0035, + "grad_norm": 0.0016252178465947509, + "learning_rate": 7.6e-05, + "loss": 0.0004, "step": 2790 }, { "epoch": 9.316666666666666, - "grad_norm": 0.06590431928634644, - "learning_rate": 0.0001378888888888889, - "loss": 0.0133, + "grad_norm": 0.0015843961155042052, + "learning_rate": 7.577777777777779e-05, + "loss": 0.0004, "step": 2795 }, { "epoch": 9.333333333333334, - "grad_norm": 3.769622564315796, - "learning_rate": 0.0001377777777777778, - "loss": 0.0227, + "grad_norm": 0.0015566531801596284, + "learning_rate": 7.555555555555556e-05, + "loss": 0.0004, "step": 2800 }, { "epoch": 9.333333333333334, - "eval_accuracy": 0.81125, - "eval_f1": 0.8086305266796243, - "eval_loss": 1.154728651046753, - "eval_precision": 0.8295025032763728, - "eval_recall": 0.81125, - "eval_runtime": 16.366, - "eval_samples_per_second": 146.646, - "eval_steps_per_second": 18.331, + "eval_accuracy": 0.8233333333333334, + "eval_f1": 0.8230003179522786, + "eval_loss": 1.0322812795639038, + "eval_precision": 0.8443270213451313, + "eval_recall": 0.8233333333333334, + "eval_runtime": 16.2938, + "eval_samples_per_second": 147.295, + "eval_steps_per_second": 18.412, "step": 2800 }, { "epoch": 9.35, - "grad_norm": 1.7696926593780518, - "learning_rate": 0.0001376666666666667, - "loss": 0.0519, + "grad_norm": 0.001486313994973898, + "learning_rate": 7.533333333333334e-05, + "loss": 0.0004, "step": 2805 }, { "epoch": 9.366666666666667, - "grad_norm": 0.022752732038497925, - "learning_rate": 0.00013755555555555556, - "loss": 0.0037, + "grad_norm": 0.001433184719644487, + "learning_rate": 7.511111111111111e-05, + "loss": 0.0004, "step": 2810 }, { "epoch": 9.383333333333333, - "grad_norm": 0.011072320863604546, - "learning_rate": 0.00013744444444444443, - "loss": 0.0067, + "grad_norm": 0.0014735893346369267, + "learning_rate": 7.488888888888889e-05, + "loss": 0.0004, "step": 2815 }, { "epoch": 9.4, - "grad_norm": 0.004133034031838179, - "learning_rate": 0.00013733333333333333, - "loss": 0.0008, + "grad_norm": 0.001455883146263659, + "learning_rate": 7.466666666666667e-05, + "loss": 0.0003, "step": 2820 }, { "epoch": 9.416666666666666, - "grad_norm": 0.011127435602247715, - "learning_rate": 0.00013722222222222223, - "loss": 0.0008, + "grad_norm": 0.0016761834267526865, + "learning_rate": 7.444444444444444e-05, + "loss": 0.0004, "step": 2825 }, { "epoch": 9.433333333333334, - "grad_norm": 0.008180396631360054, - "learning_rate": 0.00013711111111111113, - "loss": 0.0008, + "grad_norm": 0.0016179028898477554, + "learning_rate": 7.422222222222223e-05, + "loss": 0.0003, "step": 2830 }, { "epoch": 9.45, - "grad_norm": 0.00265864678658545, - "learning_rate": 0.00013700000000000002, - "loss": 0.0392, + "grad_norm": 0.002692132955417037, + "learning_rate": 7.4e-05, + "loss": 0.0004, "step": 2835 }, { "epoch": 9.466666666666667, - "grad_norm": 0.4797627329826355, - "learning_rate": 0.0001368888888888889, - "loss": 0.0048, + "grad_norm": 0.0013550370931625366, + "learning_rate": 7.377777777777778e-05, + "loss": 0.0004, "step": 2840 }, { "epoch": 9.483333333333333, - "grad_norm": 3.1840622425079346, - "learning_rate": 0.0001367777777777778, - "loss": 0.039, + "grad_norm": 0.001369455480016768, + "learning_rate": 7.355555555555556e-05, + "loss": 0.0003, "step": 2845 }, { "epoch": 9.5, - "grad_norm": 0.0052743516862392426, - "learning_rate": 0.00013666666666666666, - "loss": 0.0008, + "grad_norm": 0.0013966824626550078, + "learning_rate": 7.333333333333333e-05, + "loss": 0.0004, "step": 2850 }, { "epoch": 9.516666666666667, - "grad_norm": 0.00512054143473506, - "learning_rate": 0.00013655555555555556, - "loss": 0.0213, + "grad_norm": 0.0013944619568064809, + "learning_rate": 7.311111111111111e-05, + "loss": 0.0003, "step": 2855 }, { "epoch": 9.533333333333333, - "grad_norm": 0.5938228368759155, - "learning_rate": 0.00013644444444444443, - "loss": 0.0181, + "grad_norm": 0.0024860929697752, + "learning_rate": 7.28888888888889e-05, + "loss": 0.0004, "step": 2860 }, { "epoch": 9.55, - "grad_norm": 0.010207610204815865, - "learning_rate": 0.00013633333333333333, - "loss": 0.0008, + "grad_norm": 0.0013516085455194116, + "learning_rate": 7.266666666666667e-05, + "loss": 0.0003, "step": 2865 }, { "epoch": 9.566666666666666, - "grad_norm": 0.0038496803026646376, - "learning_rate": 0.00013622222222222223, - "loss": 0.0041, + "grad_norm": 0.001471055904403329, + "learning_rate": 7.244444444444445e-05, + "loss": 0.0003, "step": 2870 }, { "epoch": 9.583333333333334, - "grad_norm": 0.007706665899604559, - "learning_rate": 0.00013611111111111113, - "loss": 0.0007, + "grad_norm": 0.001384889823384583, + "learning_rate": 7.222222222222222e-05, + "loss": 0.0003, "step": 2875 }, { "epoch": 9.6, - "grad_norm": 4.353385925292969, - "learning_rate": 0.00013600000000000003, - "loss": 0.0661, + "grad_norm": 0.0014320468762889504, + "learning_rate": 7.2e-05, + "loss": 0.0003, "step": 2880 }, { "epoch": 9.616666666666667, - "grad_norm": 0.3112136721611023, - "learning_rate": 0.0001358888888888889, - "loss": 0.0011, + "grad_norm": 0.0013736225664615631, + "learning_rate": 7.177777777777777e-05, + "loss": 0.0003, "step": 2885 }, { "epoch": 9.633333333333333, - "grad_norm": 0.002694859867915511, - "learning_rate": 0.00013577777777777777, - "loss": 0.0101, + "grad_norm": 0.0013744637835770845, + "learning_rate": 7.155555555555555e-05, + "loss": 0.0003, "step": 2890 }, { "epoch": 9.65, - "grad_norm": 0.037817806005477905, - "learning_rate": 0.00013566666666666667, - "loss": 0.0031, + "grad_norm": 0.0018320129020139575, + "learning_rate": 7.133333333333334e-05, + "loss": 0.0003, "step": 2895 }, { "epoch": 9.666666666666666, - "grad_norm": 0.24604125320911407, - "learning_rate": 0.00013555555555555556, - "loss": 0.0012, + "grad_norm": 0.0013941832585260272, + "learning_rate": 7.111111111111112e-05, + "loss": 0.0003, "step": 2900 }, { "epoch": 9.666666666666666, - "eval_accuracy": 0.8154166666666667, - "eval_f1": 0.8128526443643208, - "eval_loss": 1.173401951789856, - "eval_precision": 0.8368916797749519, - "eval_recall": 0.8154166666666667, - "eval_runtime": 16.4101, - "eval_samples_per_second": 146.252, - "eval_steps_per_second": 18.281, + "eval_accuracy": 0.8229166666666666, + "eval_f1": 0.8228729911863876, + "eval_loss": 1.039668321609497, + "eval_precision": 0.8432751844640474, + "eval_recall": 0.8229166666666666, + "eval_runtime": 16.256, + "eval_samples_per_second": 147.638, + "eval_steps_per_second": 18.455, "step": 2900 }, { "epoch": 9.683333333333334, - "grad_norm": 0.005376523360610008, - "learning_rate": 0.00013544444444444444, - "loss": 0.021, + "grad_norm": 0.0013740541180595756, + "learning_rate": 7.088888888888889e-05, + "loss": 0.0003, "step": 2905 }, { "epoch": 9.7, - "grad_norm": 0.02001657336950302, - "learning_rate": 0.00013533333333333333, - "loss": 0.0022, + "grad_norm": 0.0013458637986332178, + "learning_rate": 7.066666666666667e-05, + "loss": 0.0003, "step": 2910 }, { "epoch": 9.716666666666667, - "grad_norm": 0.003076221328228712, - "learning_rate": 0.00013522222222222223, - "loss": 0.0007, + "grad_norm": 0.001225246349349618, + "learning_rate": 7.044444444444444e-05, + "loss": 0.0003, "step": 2915 }, { "epoch": 9.733333333333333, - "grad_norm": 0.01039606798440218, - "learning_rate": 0.00013511111111111113, - "loss": 0.0011, + "grad_norm": 0.0012834464432671666, + "learning_rate": 7.022222222222222e-05, + "loss": 0.0003, "step": 2920 }, { "epoch": 9.75, - "grad_norm": 0.1864362359046936, - "learning_rate": 0.00013500000000000003, - "loss": 0.0065, + "grad_norm": 0.001338280038908124, + "learning_rate": 7e-05, + "loss": 0.0003, "step": 2925 }, { "epoch": 9.766666666666667, - "grad_norm": 0.016571182757616043, - "learning_rate": 0.0001348888888888889, - "loss": 0.0449, + "grad_norm": 0.0015021463623270392, + "learning_rate": 6.977777777777779e-05, + "loss": 0.0003, "step": 2930 }, { "epoch": 9.783333333333333, - "grad_norm": 0.01569582149386406, - "learning_rate": 0.00013477777777777777, - "loss": 0.0146, + "grad_norm": 0.0013752388767898083, + "learning_rate": 6.955555555555556e-05, + "loss": 0.0003, "step": 2935 }, { "epoch": 9.8, - "grad_norm": 0.019407009705901146, - "learning_rate": 0.00013466666666666667, - "loss": 0.0013, + "grad_norm": 0.0013425349025055766, + "learning_rate": 6.933333333333334e-05, + "loss": 0.0003, "step": 2940 }, { "epoch": 9.816666666666666, - "grad_norm": 0.5265975594520569, - "learning_rate": 0.00013455555555555557, - "loss": 0.0061, + "grad_norm": 0.0012357112718746066, + "learning_rate": 6.911111111111111e-05, + "loss": 0.0003, "step": 2945 }, { "epoch": 9.833333333333334, - "grad_norm": 4.177003383636475, - "learning_rate": 0.00013444444444444447, - "loss": 0.1295, + "grad_norm": 0.001375521649606526, + "learning_rate": 6.88888888888889e-05, + "loss": 0.0003, "step": 2950 }, { "epoch": 9.85, - "grad_norm": 0.8331624865531921, - "learning_rate": 0.00013433333333333334, - "loss": 0.0019, + "grad_norm": 0.0016292021609842777, + "learning_rate": 6.866666666666666e-05, + "loss": 0.0003, "step": 2955 }, { "epoch": 9.866666666666667, - "grad_norm": 0.003004693426191807, - "learning_rate": 0.00013422222222222224, - "loss": 0.0063, + "grad_norm": 0.0016653906786814332, + "learning_rate": 6.844444444444445e-05, + "loss": 0.0003, "step": 2960 }, { "epoch": 9.883333333333333, - "grad_norm": 4.55336332321167, - "learning_rate": 0.00013411111111111113, - "loss": 0.0141, + "grad_norm": 0.0014140658313408494, + "learning_rate": 6.822222222222222e-05, + "loss": 0.0003, "step": 2965 }, { "epoch": 9.9, - "grad_norm": 0.028174813836812973, - "learning_rate": 0.000134, - "loss": 0.0036, + "grad_norm": 0.0020091510377824306, + "learning_rate": 6.800000000000001e-05, + "loss": 0.0003, "step": 2970 }, { "epoch": 9.916666666666666, - "grad_norm": 0.005432470701634884, - "learning_rate": 0.00013388888888888888, - "loss": 0.0532, + "grad_norm": 0.0013111529406160116, + "learning_rate": 6.777777777777778e-05, + "loss": 0.0003, "step": 2975 }, { "epoch": 9.933333333333334, - "grad_norm": 0.005422735121101141, - "learning_rate": 0.00013377777777777777, - "loss": 0.0457, + "grad_norm": 0.001292747212573886, + "learning_rate": 6.755555555555557e-05, + "loss": 0.0003, "step": 2980 }, { "epoch": 9.95, - "grad_norm": 0.012920910492539406, - "learning_rate": 0.00013366666666666667, - "loss": 0.055, + "grad_norm": 0.001311841537244618, + "learning_rate": 6.733333333333333e-05, + "loss": 0.0003, "step": 2985 }, { "epoch": 9.966666666666667, - "grad_norm": 0.06324435770511627, - "learning_rate": 0.00013355555555555557, - "loss": 0.0033, + "grad_norm": 0.0013749853242188692, + "learning_rate": 6.711111111111112e-05, + "loss": 0.0003, "step": 2990 }, { "epoch": 9.983333333333333, - "grad_norm": 0.07277432084083557, - "learning_rate": 0.00013344444444444447, - "loss": 0.059, + "grad_norm": 0.0012660091742873192, + "learning_rate": 6.688888888888889e-05, + "loss": 0.0003, "step": 2995 }, { "epoch": 10.0, - "grad_norm": 0.010990701615810394, - "learning_rate": 0.00013333333333333334, - "loss": 0.0011, + "grad_norm": 0.0012998112943023443, + "learning_rate": 6.666666666666667e-05, + "loss": 0.0003, "step": 3000 }, { "epoch": 10.0, - "eval_accuracy": 0.8541666666666666, - "eval_f1": 0.8557666164263935, - "eval_loss": 0.976228654384613, - "eval_precision": 0.8800122545883688, - "eval_recall": 0.8541666666666666, - "eval_runtime": 16.3709, - "eval_samples_per_second": 146.602, - "eval_steps_per_second": 18.325, + "eval_accuracy": 0.82375, + "eval_f1": 0.8238551734845775, + "eval_loss": 1.0472605228424072, + "eval_precision": 0.843733845755455, + "eval_recall": 0.82375, + "eval_runtime": 16.2776, + "eval_samples_per_second": 147.442, + "eval_steps_per_second": 18.43, "step": 3000 }, { "epoch": 10.016666666666667, - "grad_norm": 0.006173337809741497, - "learning_rate": 0.00013322222222222224, - "loss": 0.0374, + "grad_norm": 0.0012788537424057722, + "learning_rate": 6.644444444444444e-05, + "loss": 0.0003, "step": 3005 }, { "epoch": 10.033333333333333, - "grad_norm": 1.120737075805664, - "learning_rate": 0.0001331111111111111, - "loss": 0.0029, + "grad_norm": 0.00120165862608701, + "learning_rate": 6.622222222222224e-05, + "loss": 0.0003, "step": 3010 }, { "epoch": 10.05, - "grad_norm": 4.69635009765625, - "learning_rate": 0.000133, - "loss": 0.0122, + "grad_norm": 0.0015083089238032699, + "learning_rate": 6.6e-05, + "loss": 0.0003, "step": 3015 }, { "epoch": 10.066666666666666, - "grad_norm": 0.017189996317029, - "learning_rate": 0.00013288888888888888, - "loss": 0.0021, + "grad_norm": 0.0012163989013060927, + "learning_rate": 6.577777777777779e-05, + "loss": 0.0003, "step": 3020 }, { "epoch": 10.083333333333334, - "grad_norm": 0.42469900846481323, - "learning_rate": 0.00013277777777777778, - "loss": 0.0022, + "grad_norm": 0.0012580789625644684, + "learning_rate": 6.555555555555556e-05, + "loss": 0.0003, "step": 3025 }, { "epoch": 10.1, - "grad_norm": 0.02446696348488331, - "learning_rate": 0.00013266666666666667, - "loss": 0.0014, + "grad_norm": 0.0012319968082010746, + "learning_rate": 6.533333333333334e-05, + "loss": 0.0003, "step": 3030 }, { "epoch": 10.116666666666667, - "grad_norm": 0.005652728956192732, - "learning_rate": 0.00013255555555555557, - "loss": 0.0227, + "grad_norm": 0.0012067770585417747, + "learning_rate": 6.511111111111111e-05, + "loss": 0.0003, "step": 3035 }, { "epoch": 10.133333333333333, - "grad_norm": 5.11104679107666, - "learning_rate": 0.00013244444444444447, - "loss": 0.0167, + "grad_norm": 0.001497513148933649, + "learning_rate": 6.488888888888889e-05, + "loss": 0.0003, "step": 3040 }, { "epoch": 10.15, - "grad_norm": 0.0030653595458716154, - "learning_rate": 0.00013233333333333334, - "loss": 0.0019, + "grad_norm": 0.0012726489221677184, + "learning_rate": 6.466666666666666e-05, + "loss": 0.0003, "step": 3045 }, { "epoch": 10.166666666666666, - "grad_norm": 0.005747953429818153, - "learning_rate": 0.00013222222222222221, - "loss": 0.0377, + "grad_norm": 0.0021845733281224966, + "learning_rate": 6.444444444444446e-05, + "loss": 0.0003, "step": 3050 }, { "epoch": 10.183333333333334, - "grad_norm": 4.133553981781006, - "learning_rate": 0.0001321111111111111, - "loss": 0.0347, + "grad_norm": 0.0012573804706335068, + "learning_rate": 6.422222222222223e-05, + "loss": 0.0003, "step": 3055 }, { "epoch": 10.2, - "grad_norm": 0.0021964400075376034, - "learning_rate": 0.000132, - "loss": 0.017, + "grad_norm": 0.0012677261838689446, + "learning_rate": 6.400000000000001e-05, + "loss": 0.0003, "step": 3060 }, { "epoch": 10.216666666666667, - "grad_norm": 0.0024710092693567276, - "learning_rate": 0.0001318888888888889, - "loss": 0.0061, + "grad_norm": 0.0013547474518418312, + "learning_rate": 6.377777777777778e-05, + "loss": 0.0003, "step": 3065 }, { "epoch": 10.233333333333333, - "grad_norm": 0.03365384042263031, - "learning_rate": 0.00013177777777777778, - "loss": 0.001, + "grad_norm": 0.0014618139248341322, + "learning_rate": 6.355555555555556e-05, + "loss": 0.0003, "step": 3070 }, { "epoch": 10.25, - "grad_norm": 0.0038394404109567404, - "learning_rate": 0.00013166666666666668, - "loss": 0.0015, + "grad_norm": 0.0013444339856505394, + "learning_rate": 6.333333333333333e-05, + "loss": 0.0003, "step": 3075 }, { "epoch": 10.266666666666667, - "grad_norm": 0.001704901224002242, - "learning_rate": 0.00013155555555555558, - "loss": 0.0034, + "grad_norm": 0.001224585110321641, + "learning_rate": 6.311111111111112e-05, + "loss": 0.0003, "step": 3080 }, { "epoch": 10.283333333333333, - "grad_norm": 0.06235228851437569, - "learning_rate": 0.00013144444444444445, - "loss": 0.0012, + "grad_norm": 0.0012875745305791497, + "learning_rate": 6.28888888888889e-05, + "loss": 0.0003, "step": 3085 }, { "epoch": 10.3, - "grad_norm": 0.0024882310535758734, - "learning_rate": 0.00013133333333333332, - "loss": 0.0014, + "grad_norm": 0.0011786774266511202, + "learning_rate": 6.266666666666667e-05, + "loss": 0.0003, "step": 3090 }, { "epoch": 10.316666666666666, - "grad_norm": 0.004312310367822647, - "learning_rate": 0.00013122222222222222, - "loss": 0.0025, + "grad_norm": 0.0011809630086645484, + "learning_rate": 6.244444444444445e-05, + "loss": 0.0003, "step": 3095 }, { "epoch": 10.333333333333334, - "grad_norm": 0.0018701782682910562, - "learning_rate": 0.00013111111111111111, - "loss": 0.0006, + "grad_norm": 0.0012090777745470405, + "learning_rate": 6.222222222222222e-05, + "loss": 0.0003, "step": 3100 }, { "epoch": 10.333333333333334, - "eval_accuracy": 0.8433333333333334, - "eval_f1": 0.8446630058135226, - "eval_loss": 1.0484122037887573, - "eval_precision": 0.8706871499387724, - "eval_recall": 0.8433333333333334, - "eval_runtime": 16.402, - "eval_samples_per_second": 146.323, - "eval_steps_per_second": 18.29, + "eval_accuracy": 0.8229166666666666, + "eval_f1": 0.8232929171631832, + "eval_loss": 1.0535778999328613, + "eval_precision": 0.8428141178213524, + "eval_recall": 0.8229166666666666, + "eval_runtime": 16.1468, + "eval_samples_per_second": 148.636, + "eval_steps_per_second": 18.58, "step": 3100 }, { "epoch": 10.35, - "grad_norm": 0.005032852292060852, - "learning_rate": 0.000131, - "loss": 0.0006, + "grad_norm": 0.0014626936754211783, + "learning_rate": 6.2e-05, + "loss": 0.0003, "step": 3105 }, { "epoch": 10.366666666666667, - "grad_norm": 0.08438866585493088, - "learning_rate": 0.0001308888888888889, - "loss": 0.0623, + "grad_norm": 0.0012622346403077245, + "learning_rate": 6.177777777777779e-05, + "loss": 0.0003, "step": 3110 }, { "epoch": 10.383333333333333, - "grad_norm": 0.06251600384712219, - "learning_rate": 0.00013077777777777778, - "loss": 0.0008, + "grad_norm": 0.0012126830406486988, + "learning_rate": 6.155555555555555e-05, + "loss": 0.0003, "step": 3115 }, { "epoch": 10.4, - "grad_norm": 0.0586080402135849, - "learning_rate": 0.00013066666666666668, - "loss": 0.0078, + "grad_norm": 0.0012099441373720765, + "learning_rate": 6.133333333333334e-05, + "loss": 0.0003, "step": 3120 }, { "epoch": 10.416666666666666, - "grad_norm": 0.006658656056970358, - "learning_rate": 0.00013055555555555555, - "loss": 0.0095, + "grad_norm": 0.001116348896175623, + "learning_rate": 6.111111111111112e-05, + "loss": 0.0003, "step": 3125 }, { "epoch": 10.433333333333334, - "grad_norm": 5.791745185852051, - "learning_rate": 0.00013044444444444445, - "loss": 0.1118, + "grad_norm": 0.0010997578501701355, + "learning_rate": 6.08888888888889e-05, + "loss": 0.0003, "step": 3130 }, { "epoch": 10.45, - "grad_norm": 0.004401494283229113, - "learning_rate": 0.00013033333333333332, - "loss": 0.0009, + "grad_norm": 0.001287137158215046, + "learning_rate": 6.066666666666667e-05, + "loss": 0.0003, "step": 3135 }, { "epoch": 10.466666666666667, - "grad_norm": 0.0022874914575368166, - "learning_rate": 0.00013022222222222222, - "loss": 0.0185, + "grad_norm": 0.0011528626782819629, + "learning_rate": 6.044444444444445e-05, + "loss": 0.0003, "step": 3140 }, { "epoch": 10.483333333333333, - "grad_norm": 3.865443468093872, - "learning_rate": 0.00013011111111111112, - "loss": 0.0376, + "grad_norm": 0.0011705560609698296, + "learning_rate": 6.0222222222222225e-05, + "loss": 0.0003, "step": 3145 }, { "epoch": 10.5, - "grad_norm": 0.0027721410151571035, - "learning_rate": 0.00013000000000000002, - "loss": 0.005, + "grad_norm": 0.001192841213196516, + "learning_rate": 6e-05, + "loss": 0.0003, "step": 3150 }, { "epoch": 10.516666666666667, - "grad_norm": 0.017367303371429443, - "learning_rate": 0.00012988888888888891, - "loss": 0.0008, + "grad_norm": 0.0018158146413043141, + "learning_rate": 5.977777777777778e-05, + "loss": 0.0003, "step": 3155 }, { "epoch": 10.533333333333333, - "grad_norm": 0.7523870468139648, - "learning_rate": 0.00012977777777777779, - "loss": 0.0037, + "grad_norm": 0.0011581690050661564, + "learning_rate": 5.9555555555555554e-05, + "loss": 0.0003, "step": 3160 }, { "epoch": 10.55, - "grad_norm": 0.012842146679759026, - "learning_rate": 0.00012966666666666666, - "loss": 0.0019, + "grad_norm": 0.0010940982028841972, + "learning_rate": 5.9333333333333343e-05, + "loss": 0.0003, "step": 3165 }, { "epoch": 10.566666666666666, - "grad_norm": 0.0022280437406152487, - "learning_rate": 0.00012955555555555555, - "loss": 0.0006, + "grad_norm": 0.0011641662567853928, + "learning_rate": 5.911111111111112e-05, + "loss": 0.0003, "step": 3170 }, { "epoch": 10.583333333333334, - "grad_norm": 0.011129364371299744, - "learning_rate": 0.00012944444444444445, - "loss": 0.0007, + "grad_norm": 0.0020831157453358173, + "learning_rate": 5.8888888888888896e-05, + "loss": 0.0003, "step": 3175 }, { "epoch": 10.6, - "grad_norm": 0.0027514935936778784, - "learning_rate": 0.00012933333333333332, - "loss": 0.0418, + "grad_norm": 0.001108500873669982, + "learning_rate": 5.866666666666667e-05, + "loss": 0.0003, "step": 3180 }, { "epoch": 10.616666666666667, - "grad_norm": 0.037714362144470215, - "learning_rate": 0.00012922222222222222, - "loss": 0.0012, + "grad_norm": 0.0011437841458246112, + "learning_rate": 5.844444444444445e-05, + "loss": 0.0003, "step": 3185 }, { "epoch": 10.633333333333333, - "grad_norm": 0.011000487022101879, - "learning_rate": 0.00012911111111111112, - "loss": 0.0086, + "grad_norm": 0.001127341645769775, + "learning_rate": 5.8222222222222224e-05, + "loss": 0.0003, "step": 3190 }, { "epoch": 10.65, - "grad_norm": 0.01230768021196127, - "learning_rate": 0.00012900000000000002, - "loss": 0.0607, + "grad_norm": 0.0011988459154963493, + "learning_rate": 5.8e-05, + "loss": 0.0003, "step": 3195 }, { "epoch": 10.666666666666666, - "grad_norm": 0.002924771048128605, - "learning_rate": 0.00012888888888888892, - "loss": 0.0291, + "grad_norm": 0.0011538334656506777, + "learning_rate": 5.7777777777777776e-05, + "loss": 0.0003, "step": 3200 }, { "epoch": 10.666666666666666, - "eval_accuracy": 0.8475, - "eval_f1": 0.847273915874202, - "eval_loss": 0.7565938234329224, - "eval_precision": 0.860639706378405, - "eval_recall": 0.8475, - "eval_runtime": 16.4177, - "eval_samples_per_second": 146.184, - "eval_steps_per_second": 18.273, + "eval_accuracy": 0.8229166666666666, + "eval_f1": 0.8234150436905647, + "eval_loss": 1.0604647397994995, + "eval_precision": 0.8429112605322028, + "eval_recall": 0.8229166666666666, + "eval_runtime": 16.1744, + "eval_samples_per_second": 148.382, + "eval_steps_per_second": 18.548, "step": 3200 }, { "epoch": 10.683333333333334, - "grad_norm": 0.0030694138258695602, - "learning_rate": 0.0001287777777777778, - "loss": 0.0135, + "grad_norm": 0.0011893869377672672, + "learning_rate": 5.755555555555556e-05, + "loss": 0.0003, "step": 3205 }, { "epoch": 10.7, - "grad_norm": 0.01310473121702671, - "learning_rate": 0.00012866666666666666, - "loss": 0.0008, + "grad_norm": 0.0011279975296929479, + "learning_rate": 5.7333333333333336e-05, + "loss": 0.0003, "step": 3210 }, { "epoch": 10.716666666666667, - "grad_norm": 3.685610771179199, - "learning_rate": 0.00012855555555555556, - "loss": 0.0208, + "grad_norm": 0.0011479031527414918, + "learning_rate": 5.711111111111112e-05, + "loss": 0.0003, "step": 3215 }, { "epoch": 10.733333333333333, - "grad_norm": 0.010308889672160149, - "learning_rate": 0.00012844444444444446, - "loss": 0.003, + "grad_norm": 0.001087042735889554, + "learning_rate": 5.6888888888888895e-05, + "loss": 0.0003, "step": 3220 }, { "epoch": 10.75, - "grad_norm": 0.3047170042991638, - "learning_rate": 0.00012833333333333335, - "loss": 0.0048, + "grad_norm": 0.001129115466028452, + "learning_rate": 5.666666666666667e-05, + "loss": 0.0003, "step": 3225 }, { "epoch": 10.766666666666667, - "grad_norm": 0.0021848841570317745, - "learning_rate": 0.00012822222222222222, - "loss": 0.058, + "grad_norm": 0.0012088987277820706, + "learning_rate": 5.644444444444445e-05, + "loss": 0.0003, "step": 3230 }, { "epoch": 10.783333333333333, - "grad_norm": 0.4298514425754547, - "learning_rate": 0.00012811111111111112, - "loss": 0.0011, + "grad_norm": 0.0010945212561637163, + "learning_rate": 5.622222222222222e-05, + "loss": 0.0003, "step": 3235 }, { "epoch": 10.8, - "grad_norm": 5.36182975769043, - "learning_rate": 0.00012800000000000002, - "loss": 0.0464, + "grad_norm": 0.0011299666948616505, + "learning_rate": 5.6000000000000006e-05, + "loss": 0.0003, "step": 3240 }, { "epoch": 10.816666666666666, - "grad_norm": 0.03031322732567787, - "learning_rate": 0.0001278888888888889, - "loss": 0.0009, + "grad_norm": 0.0011260713217779994, + "learning_rate": 5.577777777777778e-05, + "loss": 0.0003, "step": 3245 }, { "epoch": 10.833333333333334, - "grad_norm": 2.8504996299743652, - "learning_rate": 0.00012777777777777776, - "loss": 0.1037, + "grad_norm": 0.001181177794933319, + "learning_rate": 5.555555555555556e-05, + "loss": 0.0003, "step": 3250 }, { "epoch": 10.85, - "grad_norm": 0.058789223432540894, - "learning_rate": 0.00012766666666666666, - "loss": 0.0008, + "grad_norm": 0.001052678795531392, + "learning_rate": 5.5333333333333334e-05, + "loss": 0.0003, "step": 3255 }, { "epoch": 10.866666666666667, - "grad_norm": 0.0024002608843147755, - "learning_rate": 0.00012755555555555556, - "loss": 0.0035, + "grad_norm": 0.0011460294481366873, + "learning_rate": 5.511111111111111e-05, + "loss": 0.0003, "step": 3260 }, { "epoch": 10.883333333333333, - "grad_norm": 0.003112984588369727, - "learning_rate": 0.00012744444444444446, - "loss": 0.0073, + "grad_norm": 0.0010628080926835537, + "learning_rate": 5.488888888888889e-05, + "loss": 0.0003, "step": 3265 }, { "epoch": 10.9, - "grad_norm": 0.007087992038577795, - "learning_rate": 0.00012733333333333336, - "loss": 0.0177, + "grad_norm": 0.0011463587870821357, + "learning_rate": 5.466666666666666e-05, + "loss": 0.0003, "step": 3270 }, { "epoch": 10.916666666666666, - "grad_norm": 0.01676088385283947, - "learning_rate": 0.00012722222222222223, - "loss": 0.0505, + "grad_norm": 0.001158402068540454, + "learning_rate": 5.4444444444444446e-05, + "loss": 0.0003, "step": 3275 }, { "epoch": 10.933333333333334, - "grad_norm": 0.0031650334130972624, - "learning_rate": 0.00012711111111111113, - "loss": 0.0321, + "grad_norm": 0.001134671620093286, + "learning_rate": 5.422222222222223e-05, + "loss": 0.0003, "step": 3280 }, { "epoch": 10.95, - "grad_norm": 0.006751966662704945, - "learning_rate": 0.000127, - "loss": 0.0033, + "grad_norm": 0.0011160625144839287, + "learning_rate": 5.4000000000000005e-05, + "loss": 0.0003, "step": 3285 }, { "epoch": 10.966666666666667, - "grad_norm": 0.0028243011329323053, - "learning_rate": 0.0001268888888888889, - "loss": 0.0492, + "grad_norm": 0.0011388997081667185, + "learning_rate": 5.377777777777778e-05, + "loss": 0.0003, "step": 3290 }, { "epoch": 10.983333333333333, - "grad_norm": 0.017750203609466553, - "learning_rate": 0.00012677777777777777, - "loss": 0.0028, + "grad_norm": 0.0011283744825050235, + "learning_rate": 5.355555555555556e-05, + "loss": 0.0003, "step": 3295 }, { "epoch": 11.0, - "grad_norm": 6.92876672744751, - "learning_rate": 0.00012666666666666666, - "loss": 0.0381, + "grad_norm": 0.0013243857538327575, + "learning_rate": 5.333333333333333e-05, + "loss": 0.0003, "step": 3300 }, { "epoch": 11.0, - "eval_accuracy": 0.8495833333333334, - "eval_f1": 0.8499147188652664, - "eval_loss": 0.8844965696334839, - "eval_precision": 0.8735749958604834, - "eval_recall": 0.8495833333333334, - "eval_runtime": 16.4696, - "eval_samples_per_second": 145.723, - "eval_steps_per_second": 18.215, + "eval_accuracy": 0.8229166666666666, + "eval_f1": 0.8234254122343189, + "eval_loss": 1.066739559173584, + "eval_precision": 0.8428892479257427, + "eval_recall": 0.8229166666666666, + "eval_runtime": 16.2208, + "eval_samples_per_second": 147.959, + "eval_steps_per_second": 18.495, "step": 3300 }, { "epoch": 11.016666666666667, - "grad_norm": 0.003936965949833393, - "learning_rate": 0.00012655555555555556, - "loss": 0.0137, + "grad_norm": 0.0010209716856479645, + "learning_rate": 5.311111111111111e-05, + "loss": 0.0003, "step": 3305 }, { "epoch": 11.033333333333333, - "grad_norm": 0.03111075796186924, - "learning_rate": 0.00012644444444444446, - "loss": 0.0215, + "grad_norm": 0.0010844237403944135, + "learning_rate": 5.2888888888888885e-05, + "loss": 0.0003, "step": 3310 }, { "epoch": 11.05, - "grad_norm": 2.4439704418182373, - "learning_rate": 0.00012633333333333336, - "loss": 0.0356, + "grad_norm": 0.0011187931522727013, + "learning_rate": 5.266666666666666e-05, + "loss": 0.0003, "step": 3315 }, { "epoch": 11.066666666666666, - "grad_norm": 0.03321113809943199, - "learning_rate": 0.00012622222222222223, - "loss": 0.0009, + "grad_norm": 0.001078811357729137, + "learning_rate": 5.244444444444445e-05, + "loss": 0.0003, "step": 3320 }, { "epoch": 11.083333333333334, - "grad_norm": 0.01358803827315569, - "learning_rate": 0.0001261111111111111, - "loss": 0.005, + "grad_norm": 0.001145863439887762, + "learning_rate": 5.222222222222223e-05, + "loss": 0.0003, "step": 3325 }, { "epoch": 11.1, - "grad_norm": 4.2657470703125, - "learning_rate": 0.000126, - "loss": 0.017, + "grad_norm": 0.001140416832640767, + "learning_rate": 5.2000000000000004e-05, + "loss": 0.0003, "step": 3330 }, { "epoch": 11.116666666666667, - "grad_norm": 0.003020117525011301, - "learning_rate": 0.0001258888888888889, - "loss": 0.0026, + "grad_norm": 0.0010497266193851829, + "learning_rate": 5.177777777777778e-05, + "loss": 0.0003, "step": 3335 }, { "epoch": 11.133333333333333, - "grad_norm": 0.04301142320036888, - "learning_rate": 0.0001257777777777778, - "loss": 0.0015, + "grad_norm": 0.0010120444931089878, + "learning_rate": 5.1555555555555556e-05, + "loss": 0.0003, "step": 3340 }, { "epoch": 11.15, - "grad_norm": 0.005632729269564152, - "learning_rate": 0.00012566666666666667, - "loss": 0.0247, + "grad_norm": 0.001234417431987822, + "learning_rate": 5.133333333333333e-05, + "loss": 0.0003, "step": 3345 }, { "epoch": 11.166666666666666, - "grad_norm": 0.09856072813272476, - "learning_rate": 0.00012555555555555557, - "loss": 0.0008, + "grad_norm": 0.0016579917864874005, + "learning_rate": 5.111111111111111e-05, + "loss": 0.0003, "step": 3350 }, { "epoch": 11.183333333333334, - "grad_norm": 5.7037034034729, - "learning_rate": 0.00012544444444444446, - "loss": 0.0337, + "grad_norm": 0.0010375332785770297, + "learning_rate": 5.0888888888888884e-05, + "loss": 0.0003, "step": 3355 }, { "epoch": 11.2, - "grad_norm": 0.0052301473915576935, - "learning_rate": 0.00012533333333333334, - "loss": 0.0008, + "grad_norm": 0.0010682027786970139, + "learning_rate": 5.0666666666666674e-05, + "loss": 0.0003, "step": 3360 }, { "epoch": 11.216666666666667, - "grad_norm": 0.03294184431433678, - "learning_rate": 0.0001252222222222222, - "loss": 0.0016, + "grad_norm": 0.001105083036236465, + "learning_rate": 5.044444444444445e-05, + "loss": 0.0003, "step": 3365 }, { "epoch": 11.233333333333333, - "grad_norm": 0.02187947928905487, - "learning_rate": 0.0001251111111111111, - "loss": 0.0008, + "grad_norm": 0.001123164314776659, + "learning_rate": 5.0222222222222226e-05, + "loss": 0.0003, "step": 3370 }, { "epoch": 11.25, - "grad_norm": 0.04761303588747978, - "learning_rate": 0.000125, - "loss": 0.0009, + "grad_norm": 0.0010376630816608667, + "learning_rate": 5e-05, + "loss": 0.0003, "step": 3375 }, { "epoch": 11.266666666666667, - "grad_norm": 0.002532374579459429, - "learning_rate": 0.0001248888888888889, - "loss": 0.0005, + "grad_norm": 0.001307243830524385, + "learning_rate": 4.977777777777778e-05, + "loss": 0.0003, "step": 3380 }, { "epoch": 11.283333333333333, - "grad_norm": 0.002213146071881056, - "learning_rate": 0.0001247777777777778, - "loss": 0.0133, + "grad_norm": 0.0010514870518818498, + "learning_rate": 4.955555555555556e-05, + "loss": 0.0003, "step": 3385 }, { "epoch": 11.3, - "grad_norm": 0.0021498173009604216, - "learning_rate": 0.00012466666666666667, - "loss": 0.0014, + "grad_norm": 0.0010323934257030487, + "learning_rate": 4.933333333333334e-05, + "loss": 0.0003, "step": 3390 }, { "epoch": 11.316666666666666, - "grad_norm": 0.0019711016211658716, - "learning_rate": 0.00012455555555555557, - "loss": 0.0005, + "grad_norm": 0.0009983570780605078, + "learning_rate": 4.9111111111111114e-05, + "loss": 0.0003, "step": 3395 }, { "epoch": 11.333333333333334, - "grad_norm": 0.0019320246065035462, - "learning_rate": 0.00012444444444444444, - "loss": 0.0004, + "grad_norm": 0.001139927888289094, + "learning_rate": 4.888888888888889e-05, + "loss": 0.0002, "step": 3400 }, { "epoch": 11.333333333333334, - "eval_accuracy": 0.8766666666666667, - "eval_f1": 0.8796211020950767, - "eval_loss": 0.5031188130378723, - "eval_precision": 0.890443244037547, - "eval_recall": 0.8766666666666667, - "eval_runtime": 16.403, - "eval_samples_per_second": 146.315, - "eval_steps_per_second": 18.289, + "eval_accuracy": 0.82375, + "eval_f1": 0.8242540593318951, + "eval_loss": 1.071115493774414, + "eval_precision": 0.8436316302595999, + "eval_recall": 0.82375, + "eval_runtime": 16.1606, + "eval_samples_per_second": 148.509, + "eval_steps_per_second": 18.564, "step": 3400 }, { "epoch": 11.35, - "grad_norm": 0.0018348570447415113, - "learning_rate": 0.00012433333333333334, - "loss": 0.0005, + "grad_norm": 0.001095398678444326, + "learning_rate": 4.866666666666667e-05, + "loss": 0.0003, "step": 3405 }, { "epoch": 11.366666666666667, - "grad_norm": 0.00232733809389174, - "learning_rate": 0.0001242222222222222, - "loss": 0.0009, + "grad_norm": 0.0010764299659058452, + "learning_rate": 4.844444444444445e-05, + "loss": 0.0003, "step": 3410 }, { "epoch": 11.383333333333333, - "grad_norm": 0.002548550721257925, - "learning_rate": 0.0001241111111111111, - "loss": 0.0005, + "grad_norm": 0.002229253761470318, + "learning_rate": 4.8222222222222225e-05, + "loss": 0.0003, "step": 3415 }, { "epoch": 11.4, - "grad_norm": 0.001666440162807703, - "learning_rate": 0.000124, - "loss": 0.0005, + "grad_norm": 0.001123200636357069, + "learning_rate": 4.8e-05, + "loss": 0.0003, "step": 3420 }, { "epoch": 11.416666666666666, - "grad_norm": 0.002285932656377554, - "learning_rate": 0.0001238888888888889, - "loss": 0.0005, + "grad_norm": 0.001161285792477429, + "learning_rate": 4.7777777777777784e-05, + "loss": 0.0003, "step": 3425 }, { "epoch": 11.433333333333334, - "grad_norm": 0.0062283603474497795, - "learning_rate": 0.0001237777777777778, - "loss": 0.0004, + "grad_norm": 0.001057513989508152, + "learning_rate": 4.755555555555556e-05, + "loss": 0.0002, "step": 3430 }, { "epoch": 11.45, - "grad_norm": 0.002072214614599943, - "learning_rate": 0.00012366666666666667, - "loss": 0.0014, + "grad_norm": 0.0015073309186846018, + "learning_rate": 4.7333333333333336e-05, + "loss": 0.0003, "step": 3435 }, { "epoch": 11.466666666666667, - "grad_norm": 0.0014418592909350991, - "learning_rate": 0.00012355555555555557, - "loss": 0.002, + "grad_norm": 0.001460050349123776, + "learning_rate": 4.711111111111111e-05, + "loss": 0.0003, "step": 3440 }, { "epoch": 11.483333333333333, - "grad_norm": 0.0022575506009161472, - "learning_rate": 0.00012344444444444444, - "loss": 0.0004, + "grad_norm": 0.0011347598629072309, + "learning_rate": 4.6888888888888895e-05, + "loss": 0.0003, "step": 3445 }, { "epoch": 11.5, - "grad_norm": 0.001715444610454142, - "learning_rate": 0.00012333333333333334, - "loss": 0.0004, + "grad_norm": 0.0010017537279054523, + "learning_rate": 4.666666666666667e-05, + "loss": 0.0003, "step": 3450 }, { "epoch": 11.516666666666667, - "grad_norm": 0.0018324055708944798, - "learning_rate": 0.00012322222222222224, - "loss": 0.0496, + "grad_norm": 0.0013595032505691051, + "learning_rate": 4.644444444444445e-05, + "loss": 0.0003, "step": 3455 }, { "epoch": 11.533333333333333, - "grad_norm": 0.0016769124194979668, - "learning_rate": 0.0001231111111111111, - "loss": 0.0131, + "grad_norm": 0.0010035188170149922, + "learning_rate": 4.6222222222222224e-05, + "loss": 0.0002, "step": 3460 }, { "epoch": 11.55, - "grad_norm": 0.0020876601338386536, - "learning_rate": 0.000123, - "loss": 0.0362, + "grad_norm": 0.0009602317586541176, + "learning_rate": 4.600000000000001e-05, + "loss": 0.0002, "step": 3465 }, { "epoch": 11.566666666666666, - "grad_norm": 0.09268075972795486, - "learning_rate": 0.0001228888888888889, - "loss": 0.0017, + "grad_norm": 0.0010560882510617375, + "learning_rate": 4.577777777777778e-05, + "loss": 0.0002, "step": 3470 }, { "epoch": 11.583333333333334, - "grad_norm": 0.06659951061010361, - "learning_rate": 0.0001227777777777778, - "loss": 0.0009, + "grad_norm": 0.0011481407564133406, + "learning_rate": 4.555555555555556e-05, + "loss": 0.0002, "step": 3475 }, { "epoch": 11.6, - "grad_norm": 0.0015468542696908116, - "learning_rate": 0.00012266666666666668, - "loss": 0.0028, + "grad_norm": 0.0009703555842861533, + "learning_rate": 4.5333333333333335e-05, + "loss": 0.0002, "step": 3480 }, { "epoch": 11.616666666666667, - "grad_norm": 0.0016447785310447216, - "learning_rate": 0.00012255555555555555, - "loss": 0.0008, + "grad_norm": 0.001077459310181439, + "learning_rate": 4.511111111111112e-05, + "loss": 0.0002, "step": 3485 }, { "epoch": 11.633333333333333, - "grad_norm": 0.0016294143861159682, - "learning_rate": 0.00012244444444444445, - "loss": 0.0049, + "grad_norm": 0.0010155506897717714, + "learning_rate": 4.4888888888888894e-05, + "loss": 0.0002, "step": 3490 }, { "epoch": 11.65, - "grad_norm": 0.005532711278647184, - "learning_rate": 0.00012233333333333334, - "loss": 0.0571, + "grad_norm": 0.0009485118207521737, + "learning_rate": 4.466666666666667e-05, + "loss": 0.0002, "step": 3495 }, { "epoch": 11.666666666666666, - "grad_norm": 0.002438447205349803, - "learning_rate": 0.00012222222222222224, - "loss": 0.0237, + "grad_norm": 0.0009584659128449857, + "learning_rate": 4.4444444444444447e-05, + "loss": 0.0002, "step": 3500 }, { "epoch": 11.666666666666666, - "eval_accuracy": 0.84375, - "eval_f1": 0.8496935440936948, - "eval_loss": 0.7362565398216248, - "eval_precision": 0.8639324284614791, - "eval_recall": 0.84375, - "eval_runtime": 16.3131, - "eval_samples_per_second": 147.121, - "eval_steps_per_second": 18.39, + "eval_accuracy": 0.8245833333333333, + "eval_f1": 0.8250917696172906, + "eval_loss": 1.0750116109848022, + "eval_precision": 0.8441252709594841, + "eval_recall": 0.8245833333333333, + "eval_runtime": 16.036, + "eval_samples_per_second": 149.663, + "eval_steps_per_second": 18.708, "step": 3500 }, { "epoch": 11.683333333333334, - "grad_norm": 0.005051767453551292, - "learning_rate": 0.0001221111111111111, - "loss": 0.0012, + "grad_norm": 0.001023426535539329, + "learning_rate": 4.422222222222222e-05, + "loss": 0.0002, "step": 3505 }, { "epoch": 11.7, - "grad_norm": 0.007528571877628565, - "learning_rate": 0.000122, - "loss": 0.0031, + "grad_norm": 0.0009891815716400743, + "learning_rate": 4.4000000000000006e-05, + "loss": 0.0002, "step": 3510 }, { "epoch": 11.716666666666667, - "grad_norm": 0.06755325943231583, - "learning_rate": 0.0001218888888888889, - "loss": 0.001, + "grad_norm": 0.0009777439991012216, + "learning_rate": 4.377777777777778e-05, + "loss": 0.0002, "step": 3515 }, { "epoch": 11.733333333333333, - "grad_norm": 0.07226196676492691, - "learning_rate": 0.0001217777777777778, - "loss": 0.0008, + "grad_norm": 0.0009470573859289289, + "learning_rate": 4.355555555555556e-05, + "loss": 0.0002, "step": 3520 }, { "epoch": 11.75, - "grad_norm": 0.006411743350327015, - "learning_rate": 0.00012166666666666667, - "loss": 0.0034, + "grad_norm": 0.0010164746781811118, + "learning_rate": 4.3333333333333334e-05, + "loss": 0.0002, "step": 3525 }, { "epoch": 11.766666666666667, - "grad_norm": 0.005936475470662117, - "learning_rate": 0.00012155555555555555, - "loss": 0.0006, + "grad_norm": 0.0010477656032890081, + "learning_rate": 4.311111111111111e-05, + "loss": 0.0002, "step": 3530 }, { "epoch": 11.783333333333333, - "grad_norm": 0.0029445281252264977, - "learning_rate": 0.00012144444444444445, - "loss": 0.0006, + "grad_norm": 0.0009475238621234894, + "learning_rate": 4.2888888888888886e-05, + "loss": 0.0002, "step": 3535 }, { "epoch": 11.8, - "grad_norm": 0.0029235887341201305, - "learning_rate": 0.00012133333333333335, - "loss": 0.0005, + "grad_norm": 0.000989060034044087, + "learning_rate": 4.266666666666667e-05, + "loss": 0.0002, "step": 3540 }, { "epoch": 11.816666666666666, - "grad_norm": 0.011982815340161324, - "learning_rate": 0.00012122222222222223, - "loss": 0.0005, + "grad_norm": 0.00100313953589648, + "learning_rate": 4.2444444444444445e-05, + "loss": 0.0002, "step": 3545 }, { "epoch": 11.833333333333334, - "grad_norm": 0.0021216070745140314, - "learning_rate": 0.0001211111111111111, - "loss": 0.0015, + "grad_norm": 0.001019208342768252, + "learning_rate": 4.222222222222222e-05, + "loss": 0.0002, "step": 3550 }, { "epoch": 11.85, - "grad_norm": 0.05128023028373718, - "learning_rate": 0.000121, - "loss": 0.0006, + "grad_norm": 0.0009714317275211215, + "learning_rate": 4.2e-05, + "loss": 0.0002, "step": 3555 }, { "epoch": 11.866666666666667, - "grad_norm": 0.0021100989542901516, - "learning_rate": 0.0001208888888888889, - "loss": 0.0005, + "grad_norm": 0.0009354642825201154, + "learning_rate": 4.177777777777778e-05, + "loss": 0.0002, "step": 3560 }, { "epoch": 11.883333333333333, - "grad_norm": 0.0026339164469391108, - "learning_rate": 0.00012077777777777778, - "loss": 0.0008, + "grad_norm": 0.0009658602648414671, + "learning_rate": 4.155555555555556e-05, + "loss": 0.0002, "step": 3565 }, { "epoch": 11.9, - "grad_norm": 0.0016842600889503956, - "learning_rate": 0.00012066666666666668, - "loss": 0.0006, + "grad_norm": 0.0009628900443203747, + "learning_rate": 4.133333333333333e-05, + "loss": 0.0002, "step": 3570 }, { "epoch": 11.916666666666666, - "grad_norm": 0.01689351722598076, - "learning_rate": 0.00012055555555555555, - "loss": 0.0378, + "grad_norm": 0.001019063638523221, + "learning_rate": 4.111111111111111e-05, + "loss": 0.0002, "step": 3575 }, { "epoch": 11.933333333333334, - "grad_norm": 0.0016014392022043467, - "learning_rate": 0.00012044444444444445, - "loss": 0.0364, + "grad_norm": 0.0008965663728304207, + "learning_rate": 4.088888888888889e-05, + "loss": 0.0002, "step": 3580 }, { "epoch": 11.95, - "grad_norm": 1.5635490417480469, - "learning_rate": 0.00012033333333333335, - "loss": 0.0258, + "grad_norm": 0.0009232118027284741, + "learning_rate": 4.066666666666667e-05, + "loss": 0.0002, "step": 3585 }, { "epoch": 11.966666666666667, - "grad_norm": 0.02634459361433983, - "learning_rate": 0.00012022222222222223, - "loss": 0.0009, + "grad_norm": 0.0009745347197167575, + "learning_rate": 4.0444444444444444e-05, + "loss": 0.0002, "step": 3590 }, { "epoch": 11.983333333333333, - "grad_norm": 0.027317289263010025, - "learning_rate": 0.0001201111111111111, - "loss": 0.0014, + "grad_norm": 0.0009313573827967048, + "learning_rate": 4.022222222222222e-05, + "loss": 0.0002, "step": 3595 }, { "epoch": 12.0, - "grad_norm": 0.6779407262802124, - "learning_rate": 0.00012, - "loss": 0.0091, + "grad_norm": 0.0008985653985291719, + "learning_rate": 4e-05, + "loss": 0.0002, "step": 3600 }, { "epoch": 12.0, - "eval_accuracy": 0.84, - "eval_f1": 0.8418068124755962, - "eval_loss": 0.804792046546936, - "eval_precision": 0.8454934079705146, - "eval_recall": 0.84, - "eval_runtime": 16.4375, - "eval_samples_per_second": 146.008, - "eval_steps_per_second": 18.251, + "eval_accuracy": 0.825, + "eval_f1": 0.825717838344821, + "eval_loss": 1.080410122871399, + "eval_precision": 0.8443250031183468, + "eval_recall": 0.825, + "eval_runtime": 16.1788, + "eval_samples_per_second": 148.343, + "eval_steps_per_second": 18.543, "step": 3600 }, { "epoch": 12.016666666666667, - "grad_norm": 0.0016628989251330495, - "learning_rate": 0.0001198888888888889, - "loss": 0.0018, + "grad_norm": 0.0010198820382356644, + "learning_rate": 3.977777777777778e-05, + "loss": 0.0002, "step": 3605 }, { "epoch": 12.033333333333333, - "grad_norm": 0.33100393414497375, - "learning_rate": 0.00011977777777777779, - "loss": 0.0009, + "grad_norm": 0.0009462315938435495, + "learning_rate": 3.9555555555555556e-05, + "loss": 0.0002, "step": 3610 }, { "epoch": 12.05, - "grad_norm": 0.0020524028223007917, - "learning_rate": 0.00011966666666666668, - "loss": 0.0004, + "grad_norm": 0.0009798554237931967, + "learning_rate": 3.933333333333333e-05, + "loss": 0.0002, "step": 3615 }, { "epoch": 12.066666666666666, - "grad_norm": 0.001767252804711461, - "learning_rate": 0.00011955555555555556, - "loss": 0.045, + "grad_norm": 0.0009488945943303406, + "learning_rate": 3.9111111111111115e-05, + "loss": 0.0002, "step": 3620 }, { "epoch": 12.083333333333334, - "grad_norm": 2.633908987045288, - "learning_rate": 0.00011944444444444445, - "loss": 0.0057, + "grad_norm": 0.0009590586996637285, + "learning_rate": 3.888888888888889e-05, + "loss": 0.0002, "step": 3625 }, { "epoch": 12.1, - "grad_norm": 0.0036698703188449144, - "learning_rate": 0.00011933333333333334, - "loss": 0.0044, + "grad_norm": 0.0010122099192813039, + "learning_rate": 3.866666666666667e-05, + "loss": 0.0002, "step": 3630 }, { "epoch": 12.116666666666667, - "grad_norm": 0.0020075407810509205, - "learning_rate": 0.00011922222222222224, - "loss": 0.002, + "grad_norm": 0.000985791441053152, + "learning_rate": 3.844444444444444e-05, + "loss": 0.0002, "step": 3635 }, { "epoch": 12.133333333333333, - "grad_norm": 0.0018214501906186342, - "learning_rate": 0.00011911111111111111, - "loss": 0.0004, + "grad_norm": 0.0010135495103895664, + "learning_rate": 3.8222222222222226e-05, + "loss": 0.0002, "step": 3640 }, { "epoch": 12.15, - "grad_norm": 0.0019067685352638364, - "learning_rate": 0.000119, - "loss": 0.0004, + "grad_norm": 0.0009662476368248463, + "learning_rate": 3.8e-05, + "loss": 0.0002, "step": 3645 }, { "epoch": 12.166666666666666, - "grad_norm": 0.002069906098768115, - "learning_rate": 0.00011888888888888889, - "loss": 0.0095, + "grad_norm": 0.0009176658932119608, + "learning_rate": 3.777777777777778e-05, + "loss": 0.0002, "step": 3650 }, { "epoch": 12.183333333333334, - "grad_norm": 0.0024852773640304804, - "learning_rate": 0.00011877777777777779, - "loss": 0.0004, + "grad_norm": 0.0008892506593838334, + "learning_rate": 3.7555555555555554e-05, + "loss": 0.0002, "step": 3655 }, { "epoch": 12.2, - "grad_norm": 9.604182243347168, - "learning_rate": 0.00011866666666666669, - "loss": 0.0188, + "grad_norm": 0.0010145674459636211, + "learning_rate": 3.733333333333334e-05, + "loss": 0.0002, "step": 3660 }, { "epoch": 12.216666666666667, - "grad_norm": 2.104646921157837, - "learning_rate": 0.00011855555555555556, - "loss": 0.0389, + "grad_norm": 0.0012200063792988658, + "learning_rate": 3.7111111111111113e-05, + "loss": 0.0002, "step": 3665 }, { "epoch": 12.233333333333333, - "grad_norm": 0.7446481585502625, - "learning_rate": 0.00011844444444444444, - "loss": 0.0021, + "grad_norm": 0.0009412114159204066, + "learning_rate": 3.688888888888889e-05, + "loss": 0.0002, "step": 3670 }, { "epoch": 12.25, - "grad_norm": 0.03771788626909256, - "learning_rate": 0.00011833333333333334, - "loss": 0.0024, + "grad_norm": 0.0009575862786732614, + "learning_rate": 3.6666666666666666e-05, + "loss": 0.0002, "step": 3675 }, { "epoch": 12.266666666666667, - "grad_norm": 13.72928524017334, - "learning_rate": 0.00011822222222222224, - "loss": 0.0165, + "grad_norm": 0.000991379376500845, + "learning_rate": 3.644444444444445e-05, + "loss": 0.0002, "step": 3680 }, { "epoch": 12.283333333333333, - "grad_norm": 0.001726761693134904, - "learning_rate": 0.00011811111111111111, - "loss": 0.0007, + "grad_norm": 0.0009558075689710677, + "learning_rate": 3.6222222222222225e-05, + "loss": 0.0002, "step": 3685 }, { "epoch": 12.3, - "grad_norm": 0.001717666513286531, - "learning_rate": 0.000118, - "loss": 0.0004, + "grad_norm": 0.0010733663802966475, + "learning_rate": 3.6e-05, + "loss": 0.0002, "step": 3690 }, { "epoch": 12.316666666666666, - "grad_norm": 0.262983500957489, - "learning_rate": 0.0001178888888888889, - "loss": 0.0007, + "grad_norm": 0.0009840013226494193, + "learning_rate": 3.577777777777778e-05, + "loss": 0.0002, "step": 3695 }, { "epoch": 12.333333333333334, - "grad_norm": 0.010516014881432056, - "learning_rate": 0.00011777777777777779, - "loss": 0.0161, + "grad_norm": 0.0009803380817174911, + "learning_rate": 3.555555555555556e-05, + "loss": 0.0002, "step": 3700 }, { "epoch": 12.333333333333334, - "eval_accuracy": 0.8333333333333334, - "eval_f1": 0.8377065438724984, - "eval_loss": 0.8593041896820068, - "eval_precision": 0.8518478915166444, - "eval_recall": 0.8333333333333334, - "eval_runtime": 16.2146, - "eval_samples_per_second": 148.015, - "eval_steps_per_second": 18.502, + "eval_accuracy": 0.825, + "eval_f1": 0.8256688865367663, + "eval_loss": 1.0838724374771118, + "eval_precision": 0.8439715540502706, + "eval_recall": 0.825, + "eval_runtime": 16.2751, + "eval_samples_per_second": 147.464, + "eval_steps_per_second": 18.433, "step": 3700 }, { "epoch": 12.35, - "grad_norm": 0.0019110937137156725, - "learning_rate": 0.00011766666666666668, - "loss": 0.0004, + "grad_norm": 0.0008731271955184639, + "learning_rate": 3.5333333333333336e-05, + "loss": 0.0002, "step": 3705 }, { "epoch": 12.366666666666667, - "grad_norm": 0.0034273462370038033, - "learning_rate": 0.00011755555555555555, - "loss": 0.0004, + "grad_norm": 0.0008993327501229942, + "learning_rate": 3.511111111111111e-05, + "loss": 0.0002, "step": 3710 }, { "epoch": 12.383333333333333, - "grad_norm": 9.240645408630371, - "learning_rate": 0.00011744444444444445, - "loss": 0.0165, + "grad_norm": 0.0008738188189454377, + "learning_rate": 3.4888888888888895e-05, + "loss": 0.0002, "step": 3715 }, { "epoch": 12.4, - "grad_norm": 0.003429051721468568, - "learning_rate": 0.00011733333333333334, - "loss": 0.0005, + "grad_norm": 0.0008783842204138637, + "learning_rate": 3.466666666666667e-05, + "loss": 0.0002, "step": 3720 }, { "epoch": 12.416666666666666, - "grad_norm": 0.0014275041176006198, - "learning_rate": 0.00011722222222222223, - "loss": 0.0004, + "grad_norm": 0.0009066717466339469, + "learning_rate": 3.444444444444445e-05, + "loss": 0.0002, "step": 3725 }, { "epoch": 12.433333333333334, - "grad_norm": 0.001430855947546661, - "learning_rate": 0.00011711111111111113, - "loss": 0.0003, + "grad_norm": 0.0009696232154965401, + "learning_rate": 3.4222222222222224e-05, + "loss": 0.0002, "step": 3730 }, { "epoch": 12.45, - "grad_norm": 0.0022639541421085596, - "learning_rate": 0.000117, - "loss": 0.0004, + "grad_norm": 0.0009064245386980474, + "learning_rate": 3.4000000000000007e-05, + "loss": 0.0002, "step": 3735 }, { "epoch": 12.466666666666667, - "grad_norm": 0.0016214401694014668, - "learning_rate": 0.0001168888888888889, - "loss": 0.0003, + "grad_norm": 0.000978025607764721, + "learning_rate": 3.377777777777778e-05, + "loss": 0.0002, "step": 3740 }, { "epoch": 12.483333333333333, - "grad_norm": 0.0012897223932668567, - "learning_rate": 0.00011677777777777778, - "loss": 0.0004, + "grad_norm": 0.0009780435357242823, + "learning_rate": 3.355555555555556e-05, + "loss": 0.0002, "step": 3745 }, { "epoch": 12.5, - "grad_norm": 0.0018359068781137466, - "learning_rate": 0.00011666666666666668, - "loss": 0.0262, + "grad_norm": 0.000990138971246779, + "learning_rate": 3.3333333333333335e-05, + "loss": 0.0002, "step": 3750 }, { "epoch": 12.516666666666667, - "grad_norm": 0.0020773480646312237, - "learning_rate": 0.00011655555555555555, - "loss": 0.0477, + "grad_norm": 0.0011121403658762574, + "learning_rate": 3.311111111111112e-05, + "loss": 0.0002, "step": 3755 }, { "epoch": 12.533333333333333, - "grad_norm": 0.0022992955055087805, - "learning_rate": 0.00011644444444444445, - "loss": 0.0004, + "grad_norm": 0.0010146560380235314, + "learning_rate": 3.2888888888888894e-05, + "loss": 0.0002, "step": 3760 }, { "epoch": 12.55, - "grad_norm": 0.006840771064162254, - "learning_rate": 0.00011633333333333333, - "loss": 0.0012, + "grad_norm": 0.0009179182816296816, + "learning_rate": 3.266666666666667e-05, + "loss": 0.0002, "step": 3765 }, { "epoch": 12.566666666666666, - "grad_norm": 0.002239038934931159, - "learning_rate": 0.00011622222222222223, - "loss": 0.0004, + "grad_norm": 0.0008610658696852624, + "learning_rate": 3.2444444444444446e-05, + "loss": 0.0002, "step": 3770 }, { "epoch": 12.583333333333334, - "grad_norm": 0.19226376712322235, - "learning_rate": 0.00011611111111111113, - "loss": 0.0008, + "grad_norm": 0.0008907515439204872, + "learning_rate": 3.222222222222223e-05, + "loss": 0.0002, "step": 3775 }, { "epoch": 12.6, - "grad_norm": 0.002981218509376049, - "learning_rate": 0.000116, - "loss": 0.0005, + "grad_norm": 0.0009273330797441304, + "learning_rate": 3.2000000000000005e-05, + "loss": 0.0002, "step": 3780 }, { "epoch": 12.616666666666667, - "grad_norm": 0.002413095673546195, - "learning_rate": 0.00011588888888888889, - "loss": 0.0005, + "grad_norm": 0.0009633517474867404, + "learning_rate": 3.177777777777778e-05, + "loss": 0.0002, "step": 3785 }, { "epoch": 12.633333333333333, - "grad_norm": 0.03261173516511917, - "learning_rate": 0.00011577777777777778, - "loss": 0.0028, + "grad_norm": 0.0009191379067488015, + "learning_rate": 3.155555555555556e-05, + "loss": 0.0002, "step": 3790 }, { "epoch": 12.65, - "grad_norm": 0.00731159932911396, - "learning_rate": 0.00011566666666666668, - "loss": 0.0016, + "grad_norm": 0.0009611905552446842, + "learning_rate": 3.1333333333333334e-05, + "loss": 0.0002, "step": 3795 }, { "epoch": 12.666666666666666, - "grad_norm": 0.0534551627933979, - "learning_rate": 0.00011555555555555555, - "loss": 0.0389, + "grad_norm": 0.0009501809836365283, + "learning_rate": 3.111111111111111e-05, + "loss": 0.0002, "step": 3800 }, { "epoch": 12.666666666666666, - "eval_accuracy": 0.8275, - "eval_f1": 0.8350138332400756, - "eval_loss": 1.0442439317703247, - "eval_precision": 0.8660628713793063, - "eval_recall": 0.8275, - "eval_runtime": 16.2699, - "eval_samples_per_second": 147.512, - "eval_steps_per_second": 18.439, + "eval_accuracy": 0.8245833333333333, + "eval_f1": 0.8253265865890868, + "eval_loss": 1.087546944618225, + "eval_precision": 0.8436226516151129, + "eval_recall": 0.8245833333333333, + "eval_runtime": 16.1531, + "eval_samples_per_second": 148.578, + "eval_steps_per_second": 18.572, "step": 3800 }, { "epoch": 12.683333333333334, - "grad_norm": 0.0019389952067285776, - "learning_rate": 0.00011544444444444444, - "loss": 0.0003, + "grad_norm": 0.0010033076396211982, + "learning_rate": 3.088888888888889e-05, + "loss": 0.0002, "step": 3805 }, { "epoch": 12.7, - "grad_norm": 0.007572950795292854, - "learning_rate": 0.00011533333333333334, - "loss": 0.0004, + "grad_norm": 0.0009223477100022137, + "learning_rate": 3.066666666666667e-05, + "loss": 0.0002, "step": 3810 }, { "epoch": 12.716666666666667, - "grad_norm": 0.018977656960487366, - "learning_rate": 0.00011522222222222223, - "loss": 0.0007, + "grad_norm": 0.0009772386401891708, + "learning_rate": 3.044444444444445e-05, + "loss": 0.0002, "step": 3815 }, { "epoch": 12.733333333333333, - "grad_norm": 0.0018432236975058913, - "learning_rate": 0.00011511111111111112, - "loss": 0.0004, + "grad_norm": 0.0009396148379892111, + "learning_rate": 3.0222222222222225e-05, + "loss": 0.0002, "step": 3820 }, { "epoch": 12.75, - "grad_norm": 0.11818553507328033, - "learning_rate": 0.00011499999999999999, - "loss": 0.0007, + "grad_norm": 0.0009102340554818511, + "learning_rate": 3e-05, + "loss": 0.0002, "step": 3825 }, { "epoch": 12.766666666666667, - "grad_norm": 0.013535923324525356, - "learning_rate": 0.00011488888888888889, - "loss": 0.0004, + "grad_norm": 0.0009031001245602965, + "learning_rate": 2.9777777777777777e-05, + "loss": 0.0002, "step": 3830 }, { "epoch": 12.783333333333333, - "grad_norm": 0.0017047617584466934, - "learning_rate": 0.00011477777777777779, - "loss": 0.0005, + "grad_norm": 0.0010484493104740977, + "learning_rate": 2.955555555555556e-05, + "loss": 0.0002, "step": 3835 }, { "epoch": 12.8, - "grad_norm": 0.003165441332384944, - "learning_rate": 0.00011466666666666667, - "loss": 0.0004, + "grad_norm": 0.0009632807341404259, + "learning_rate": 2.9333333333333336e-05, + "loss": 0.0002, "step": 3840 }, { "epoch": 12.816666666666666, - "grad_norm": 0.01935717463493347, - "learning_rate": 0.00011455555555555557, - "loss": 0.0004, + "grad_norm": 0.0009951338870450854, + "learning_rate": 2.9111111111111112e-05, + "loss": 0.0002, "step": 3845 }, { "epoch": 12.833333333333334, - "grad_norm": 0.0017967324238270521, - "learning_rate": 0.00011444444444444444, - "loss": 0.0018, + "grad_norm": 0.0009625991224311292, + "learning_rate": 2.8888888888888888e-05, + "loss": 0.0002, "step": 3850 }, { "epoch": 12.85, - "grad_norm": 0.0010822145268321037, - "learning_rate": 0.00011433333333333334, - "loss": 0.0003, + "grad_norm": 0.0008322183275595307, + "learning_rate": 2.8666666666666668e-05, + "loss": 0.0002, "step": 3855 }, { "epoch": 12.866666666666667, - "grad_norm": 0.0011991558130830526, - "learning_rate": 0.00011422222222222224, - "loss": 0.0003, + "grad_norm": 0.0009956645080819726, + "learning_rate": 2.8444444444444447e-05, + "loss": 0.0002, "step": 3860 }, { "epoch": 12.883333333333333, - "grad_norm": 0.5517290830612183, - "learning_rate": 0.00011411111111111112, - "loss": 0.0009, + "grad_norm": 0.0008614265825599432, + "learning_rate": 2.8222222222222223e-05, + "loss": 0.0002, "step": 3865 }, { "epoch": 12.9, - "grad_norm": 0.0012466531479731202, - "learning_rate": 0.00011399999999999999, - "loss": 0.0003, + "grad_norm": 0.0010614398634061217, + "learning_rate": 2.8000000000000003e-05, + "loss": 0.0002, "step": 3870 }, { "epoch": 12.916666666666666, - "grad_norm": 0.0011643904726952314, - "learning_rate": 0.00011388888888888889, - "loss": 0.0003, + "grad_norm": 0.0009259260259568691, + "learning_rate": 2.777777777777778e-05, + "loss": 0.0002, "step": 3875 }, { "epoch": 12.933333333333334, - "grad_norm": 0.0011681226314976811, - "learning_rate": 0.00011377777777777779, - "loss": 0.0005, + "grad_norm": 0.0008746630628593266, + "learning_rate": 2.7555555555555555e-05, + "loss": 0.0002, "step": 3880 }, { "epoch": 12.95, - "grad_norm": 0.0010736598633229733, - "learning_rate": 0.00011366666666666667, - "loss": 0.0003, + "grad_norm": 0.0015265063848346472, + "learning_rate": 2.733333333333333e-05, + "loss": 0.0002, "step": 3885 }, { "epoch": 12.966666666666667, - "grad_norm": 0.0012137951562181115, - "learning_rate": 0.00011355555555555557, - "loss": 0.0003, + "grad_norm": 0.0009173708385787904, + "learning_rate": 2.7111111111111114e-05, + "loss": 0.0002, "step": 3890 }, { "epoch": 12.983333333333333, - "grad_norm": 0.0011743142968043685, - "learning_rate": 0.00011344444444444444, - "loss": 0.0003, + "grad_norm": 0.0008483538404107094, + "learning_rate": 2.688888888888889e-05, + "loss": 0.0002, "step": 3895 }, { "epoch": 13.0, - "grad_norm": 0.0011001998791471124, - "learning_rate": 0.00011333333333333334, - "loss": 0.0003, + "grad_norm": 0.0008921425906009972, + "learning_rate": 2.6666666666666667e-05, + "loss": 0.0002, "step": 3900 }, { "epoch": 13.0, - "eval_accuracy": 0.8329166666666666, - "eval_f1": 0.8381909258853266, - "eval_loss": 0.9752159714698792, - "eval_precision": 0.8534915647352261, - "eval_recall": 0.8329166666666666, - "eval_runtime": 16.3747, - "eval_samples_per_second": 146.568, - "eval_steps_per_second": 18.321, + "eval_accuracy": 0.8245833333333333, + "eval_f1": 0.8253265865890868, + "eval_loss": 1.0909274816513062, + "eval_precision": 0.8436226516151129, + "eval_recall": 0.8245833333333333, + "eval_runtime": 16.1912, + "eval_samples_per_second": 148.228, + "eval_steps_per_second": 18.529, "step": 3900 }, { "epoch": 13.016666666666667, - "grad_norm": 0.0011232566321268678, - "learning_rate": 0.00011322222222222223, - "loss": 0.0003, + "grad_norm": 0.0009027371415868402, + "learning_rate": 2.6444444444444443e-05, + "loss": 0.0002, "step": 3905 }, { "epoch": 13.033333333333333, - "grad_norm": 0.0009692104067653418, - "learning_rate": 0.00011311111111111112, - "loss": 0.0003, + "grad_norm": 0.0008715075091458857, + "learning_rate": 2.6222222222222226e-05, + "loss": 0.0002, "step": 3910 }, { "epoch": 13.05, - "grad_norm": 0.0014119136612862349, - "learning_rate": 0.000113, - "loss": 0.0003, + "grad_norm": 0.0008808128186501563, + "learning_rate": 2.6000000000000002e-05, + "loss": 0.0002, "step": 3915 }, { "epoch": 13.066666666666666, - "grad_norm": 0.0012654305901378393, - "learning_rate": 0.0001128888888888889, + "grad_norm": 0.0008808749844320118, + "learning_rate": 2.5777777777777778e-05, "loss": 0.0002, "step": 3920 }, { "epoch": 13.083333333333334, - "grad_norm": 0.006738747004419565, - "learning_rate": 0.00011277777777777778, - "loss": 0.0003, + "grad_norm": 0.0009195414604619145, + "learning_rate": 2.5555555555555554e-05, + "loss": 0.0002, "step": 3925 }, { "epoch": 13.1, - "grad_norm": 0.0011596987023949623, - "learning_rate": 0.00011266666666666668, - "loss": 0.0003, + "grad_norm": 0.0008957713143900037, + "learning_rate": 2.5333333333333337e-05, + "loss": 0.0002, "step": 3930 }, { "epoch": 13.116666666666667, - "grad_norm": 0.0013030455447733402, - "learning_rate": 0.00011255555555555557, + "grad_norm": 0.0008772239089012146, + "learning_rate": 2.5111111111111113e-05, "loss": 0.0002, "step": 3935 }, { "epoch": 13.133333333333333, - "grad_norm": 0.0014643303584307432, - "learning_rate": 0.00011244444444444445, - "loss": 0.0003, + "grad_norm": 0.0008563318406231701, + "learning_rate": 2.488888888888889e-05, + "loss": 0.0002, "step": 3940 }, { "epoch": 13.15, - "grad_norm": 0.0012246562400832772, - "learning_rate": 0.00011233333333333333, - "loss": 0.0003, + "grad_norm": 0.0009402587311342359, + "learning_rate": 2.466666666666667e-05, + "loss": 0.0002, "step": 3945 }, { "epoch": 13.166666666666666, - "grad_norm": 0.0015180285554379225, - "learning_rate": 0.00011222222222222223, - "loss": 0.0003, + "grad_norm": 0.0008356410544365644, + "learning_rate": 2.4444444444444445e-05, + "loss": 0.0002, "step": 3950 }, { "epoch": 13.183333333333334, - "grad_norm": 0.0010317383566871285, - "learning_rate": 0.00011211111111111113, - "loss": 0.0003, + "grad_norm": 0.0008352281292900443, + "learning_rate": 2.4222222222222224e-05, + "loss": 0.0002, "step": 3955 }, { "epoch": 13.2, - "grad_norm": 0.007808352820575237, - "learning_rate": 0.00011200000000000001, - "loss": 0.0003, + "grad_norm": 0.000897344492841512, + "learning_rate": 2.4e-05, + "loss": 0.0002, "step": 3960 }, { "epoch": 13.216666666666667, - "grad_norm": 0.00089990597916767, - "learning_rate": 0.00011188888888888888, + "grad_norm": 0.0008463854319415987, + "learning_rate": 2.377777777777778e-05, "loss": 0.0002, "step": 3965 }, { "epoch": 13.233333333333333, - "grad_norm": 0.0011120266281068325, - "learning_rate": 0.00011177777777777778, - "loss": 0.0016, + "grad_norm": 0.0009595841402187943, + "learning_rate": 2.3555555555555556e-05, + "loss": 0.0002, "step": 3970 }, { "epoch": 13.25, - "grad_norm": 0.0014344818191602826, - "learning_rate": 0.00011166666666666668, - "loss": 0.0005, + "grad_norm": 0.0008370388532057405, + "learning_rate": 2.3333333333333336e-05, + "loss": 0.0002, "step": 3975 }, { "epoch": 13.266666666666667, - "grad_norm": 0.0010766021441668272, - "learning_rate": 0.00011155555555555556, - "loss": 0.0003, + "grad_norm": 0.0008347583352588117, + "learning_rate": 2.3111111111111112e-05, + "loss": 0.0002, "step": 3980 }, { "epoch": 13.283333333333333, - "grad_norm": 0.0016216132789850235, - "learning_rate": 0.00011144444444444444, - "loss": 0.0516, + "grad_norm": 0.0008347966941073537, + "learning_rate": 2.288888888888889e-05, + "loss": 0.0002, "step": 3985 }, { "epoch": 13.3, - "grad_norm": 0.0009334416245110333, - "learning_rate": 0.00011133333333333333, + "grad_norm": 0.0009280767990276217, + "learning_rate": 2.2666666666666668e-05, "loss": 0.0002, "step": 3990 }, { "epoch": 13.316666666666666, - "grad_norm": 0.0012486886698752642, - "learning_rate": 0.00011122222222222223, + "grad_norm": 0.000874265911988914, + "learning_rate": 2.2444444444444447e-05, "loss": 0.0002, "step": 3995 }, { "epoch": 13.333333333333334, - "grad_norm": 0.0011065199505537748, - "learning_rate": 0.00011111111111111112, - "loss": 0.0003, + "grad_norm": 0.000886201742105186, + "learning_rate": 2.2222222222222223e-05, + "loss": 0.0002, "step": 4000 }, { "epoch": 13.333333333333334, - "eval_accuracy": 0.8520833333333333, - "eval_f1": 0.8564440923684329, - "eval_loss": 0.831327497959137, - "eval_precision": 0.8734575912929097, - "eval_recall": 0.8520833333333333, - "eval_runtime": 16.4785, - "eval_samples_per_second": 145.645, - "eval_steps_per_second": 18.206, + "eval_accuracy": 0.8245833333333333, + "eval_f1": 0.8253265865890868, + "eval_loss": 1.0929937362670898, + "eval_precision": 0.8436226516151129, + "eval_recall": 0.8245833333333333, + "eval_runtime": 16.3533, + "eval_samples_per_second": 146.76, + "eval_steps_per_second": 18.345, "step": 4000 }, { "epoch": 13.35, - "grad_norm": 0.006497128866612911, - "learning_rate": 0.00011100000000000001, - "loss": 0.0003, + "grad_norm": 0.001023485790938139, + "learning_rate": 2.2000000000000003e-05, + "loss": 0.0002, "step": 4005 }, { "epoch": 13.366666666666667, - "grad_norm": 0.0013144650729373097, - "learning_rate": 0.00011088888888888889, - "loss": 0.0003, + "grad_norm": 0.0008574578678235412, + "learning_rate": 2.177777777777778e-05, + "loss": 0.0002, "step": 4010 }, { "epoch": 13.383333333333333, - "grad_norm": 0.000973715737927705, - "learning_rate": 0.00011077777777777778, + "grad_norm": 0.0008512691128998995, + "learning_rate": 2.1555555555555555e-05, "loss": 0.0002, "step": 4015 }, { "epoch": 13.4, - "grad_norm": 0.0025900560431182384, - "learning_rate": 0.00011066666666666667, - "loss": 0.0003, + "grad_norm": 0.0020782637875527143, + "learning_rate": 2.1333333333333335e-05, + "loss": 0.0002, "step": 4020 }, { "epoch": 13.416666666666666, - "grad_norm": 0.0008232370601035655, - "learning_rate": 0.00011055555555555557, - "loss": 0.0003, + "grad_norm": 0.0008019442902877927, + "learning_rate": 2.111111111111111e-05, + "loss": 0.0002, "step": 4025 }, { "epoch": 13.433333333333334, - "grad_norm": 0.0010933306766673923, - "learning_rate": 0.00011044444444444444, - "loss": 0.0062, + "grad_norm": 0.0008946466259658337, + "learning_rate": 2.088888888888889e-05, + "loss": 0.0002, "step": 4030 }, { "epoch": 13.45, - "grad_norm": 0.0012017994886264205, - "learning_rate": 0.00011033333333333334, + "grad_norm": 0.0010831499239429832, + "learning_rate": 2.0666666666666666e-05, "loss": 0.0002, "step": 4035 }, { "epoch": 13.466666666666667, - "grad_norm": 0.0009921758901327848, - "learning_rate": 0.00011022222222222222, + "grad_norm": 0.0008192082750611007, + "learning_rate": 2.0444444444444446e-05, "loss": 0.0002, "step": 4040 }, { "epoch": 13.483333333333333, - "grad_norm": 0.002100698882713914, - "learning_rate": 0.00011011111111111112, + "grad_norm": 0.0008729513501748443, + "learning_rate": 2.0222222222222222e-05, "loss": 0.0002, "step": 4045 }, { "epoch": 13.5, - "grad_norm": 0.0008774257148616016, - "learning_rate": 0.00011000000000000002, - "loss": 0.0039, + "grad_norm": 0.0008157137781381607, + "learning_rate": 2e-05, + "loss": 0.0002, "step": 4050 }, { "epoch": 13.516666666666667, - "grad_norm": 0.0008782350923866034, - "learning_rate": 0.00010988888888888889, + "grad_norm": 0.0008871884201653302, + "learning_rate": 1.9777777777777778e-05, "loss": 0.0002, "step": 4055 }, { "epoch": 13.533333333333333, - "grad_norm": 0.7388290762901306, - "learning_rate": 0.00010977777777777777, - "loss": 0.0009, + "grad_norm": 0.0008388046990148723, + "learning_rate": 1.9555555555555557e-05, + "loss": 0.0002, "step": 4060 }, { "epoch": 13.55, - "grad_norm": 0.0014949586475268006, - "learning_rate": 0.00010966666666666667, - "loss": 0.0003, + "grad_norm": 0.0009184422669932246, + "learning_rate": 1.9333333333333333e-05, + "loss": 0.0002, "step": 4065 }, { "epoch": 13.566666666666666, - "grad_norm": 0.009636199101805687, - "learning_rate": 0.00010955555555555557, - "loss": 0.0004, + "grad_norm": 0.0015923472819849849, + "learning_rate": 1.9111111111111113e-05, + "loss": 0.0002, "step": 4070 }, { "epoch": 13.583333333333334, - "grad_norm": 0.007746892049908638, - "learning_rate": 0.00010944444444444445, - "loss": 0.0003, + "grad_norm": 0.0008163443999364972, + "learning_rate": 1.888888888888889e-05, + "loss": 0.0002, "step": 4075 }, { "epoch": 13.6, - "grad_norm": 0.002316263969987631, - "learning_rate": 0.00010933333333333333, - "loss": 0.0003, + "grad_norm": 0.0009096835856325924, + "learning_rate": 1.866666666666667e-05, + "loss": 0.0002, "step": 4080 }, { "epoch": 13.616666666666667, - "grad_norm": 0.001132502220571041, - "learning_rate": 0.00010922222222222222, + "grad_norm": 0.0009327562875114381, + "learning_rate": 1.8444444444444445e-05, "loss": 0.0002, "step": 4085 }, { "epoch": 13.633333333333333, - "grad_norm": 0.0010267929174005985, - "learning_rate": 0.00010911111111111112, - "loss": 0.0205, + "grad_norm": 0.0008120681159198284, + "learning_rate": 1.8222222222222224e-05, + "loss": 0.0002, "step": 4090 }, { "epoch": 13.65, - "grad_norm": 0.0015395983355119824, - "learning_rate": 0.000109, - "loss": 0.0003, + "grad_norm": 0.0008197089773602784, + "learning_rate": 1.8e-05, + "loss": 0.0002, "step": 4095 }, { "epoch": 13.666666666666666, - "grad_norm": 0.0013162312097847462, - "learning_rate": 0.00010888888888888889, - "loss": 0.0003, + "grad_norm": 0.0010860937181860209, + "learning_rate": 1.777777777777778e-05, + "loss": 0.0002, "step": 4100 }, { "epoch": 13.666666666666666, - "eval_accuracy": 0.78875, - "eval_f1": 0.788065223103418, - "eval_loss": 1.400270938873291, - "eval_precision": 0.8193366497306572, - "eval_recall": 0.78875, - "eval_runtime": 16.2537, - "eval_samples_per_second": 147.659, - "eval_steps_per_second": 18.457, + "eval_accuracy": 0.82375, + "eval_f1": 0.8246155047936204, + "eval_loss": 1.0954351425170898, + "eval_precision": 0.842946826937574, + "eval_recall": 0.82375, + "eval_runtime": 16.1001, + "eval_samples_per_second": 149.068, + "eval_steps_per_second": 18.633, "step": 4100 }, { "epoch": 13.683333333333334, - "grad_norm": 0.003271897556260228, - "learning_rate": 0.00010877777777777778, - "loss": 0.0004, + "grad_norm": 0.0008897311636246741, + "learning_rate": 1.7555555555555556e-05, + "loss": 0.0002, "step": 4105 }, { "epoch": 13.7, - "grad_norm": 0.002615569159388542, - "learning_rate": 0.00010866666666666667, - "loss": 0.1077, + "grad_norm": 0.0009046689374372363, + "learning_rate": 1.7333333333333336e-05, + "loss": 0.0002, "step": 4110 }, { "epoch": 13.716666666666667, - "grad_norm": 0.15410467982292175, - "learning_rate": 0.00010855555555555557, - "loss": 0.0014, + "grad_norm": 0.0009022593148984015, + "learning_rate": 1.7111111111111112e-05, + "loss": 0.0002, "step": 4115 }, { "epoch": 13.733333333333333, - "grad_norm": 0.004168429411947727, - "learning_rate": 0.00010844444444444446, - "loss": 0.0011, + "grad_norm": 0.0008375992765650153, + "learning_rate": 1.688888888888889e-05, + "loss": 0.0002, "step": 4120 }, { "epoch": 13.75, - "grad_norm": 0.008824387565255165, - "learning_rate": 0.00010833333333333333, - "loss": 0.0552, + "grad_norm": 0.0010343692265450954, + "learning_rate": 1.6666666666666667e-05, + "loss": 0.0002, "step": 4125 }, { "epoch": 13.766666666666667, - "grad_norm": 0.011968709528446198, - "learning_rate": 0.00010822222222222223, - "loss": 0.0017, + "grad_norm": 0.000839115004055202, + "learning_rate": 1.6444444444444447e-05, + "loss": 0.0002, "step": 4130 }, { "epoch": 13.783333333333333, - "grad_norm": 0.010361285880208015, - "learning_rate": 0.00010811111111111112, - "loss": 0.0026, + "grad_norm": 0.0008834049222059548, + "learning_rate": 1.6222222222222223e-05, + "loss": 0.0002, "step": 4135 }, { "epoch": 13.8, - "grad_norm": 0.005046170670539141, - "learning_rate": 0.00010800000000000001, - "loss": 0.0009, + "grad_norm": 0.0008546257740817964, + "learning_rate": 1.6000000000000003e-05, + "loss": 0.0002, "step": 4140 }, { "epoch": 13.816666666666666, - "grad_norm": 0.003155169077217579, - "learning_rate": 0.00010788888888888888, - "loss": 0.0006, + "grad_norm": 0.0008155339164659381, + "learning_rate": 1.577777777777778e-05, + "loss": 0.0002, "step": 4145 }, { "epoch": 13.833333333333334, - "grad_norm": 0.05111585557460785, - "learning_rate": 0.00010777777777777778, - "loss": 0.0008, + "grad_norm": 0.0008447145810350776, + "learning_rate": 1.5555555555555555e-05, + "loss": 0.0002, "step": 4150 }, { "epoch": 13.85, - "grad_norm": 0.004040716215968132, - "learning_rate": 0.00010766666666666668, - "loss": 0.0042, + "grad_norm": 0.0008784612873569131, + "learning_rate": 1.5333333333333334e-05, + "loss": 0.0002, "step": 4155 }, { "epoch": 13.866666666666667, - "grad_norm": 0.003093767212703824, - "learning_rate": 0.00010755555555555556, - "loss": 0.0004, + "grad_norm": 0.0007966684061102569, + "learning_rate": 1.5111111111111112e-05, + "loss": 0.0002, "step": 4160 }, { "epoch": 13.883333333333333, - "grad_norm": 0.0056046415120363235, - "learning_rate": 0.00010744444444444446, - "loss": 0.0006, + "grad_norm": 0.0008763640653342009, + "learning_rate": 1.4888888888888888e-05, + "loss": 0.0002, "step": 4165 }, { "epoch": 13.9, - "grad_norm": 0.0010761625599116087, - "learning_rate": 0.00010733333333333333, - "loss": 0.0007, + "grad_norm": 0.0008411027956753969, + "learning_rate": 1.4666666666666668e-05, + "loss": 0.0002, "step": 4170 }, { "epoch": 13.916666666666666, - "grad_norm": 0.08055099844932556, - "learning_rate": 0.00010722222222222223, - "loss": 0.0006, + "grad_norm": 0.0008471577893942595, + "learning_rate": 1.4444444444444444e-05, + "loss": 0.0002, "step": 4175 }, { "epoch": 13.933333333333334, - "grad_norm": 0.002173234708607197, - "learning_rate": 0.00010711111111111111, - "loss": 0.0201, + "grad_norm": 0.0008789217681623995, + "learning_rate": 1.4222222222222224e-05, + "loss": 0.0002, "step": 4180 }, { "epoch": 13.95, - "grad_norm": 0.002146204235032201, - "learning_rate": 0.00010700000000000001, - "loss": 0.0004, + "grad_norm": 0.0008297561435028911, + "learning_rate": 1.4000000000000001e-05, + "loss": 0.0002, "step": 4185 }, { "epoch": 13.966666666666667, - "grad_norm": 0.0016474430449306965, - "learning_rate": 0.00010688888888888891, - "loss": 0.0004, + "grad_norm": 0.0008161651203408837, + "learning_rate": 1.3777777777777778e-05, + "loss": 0.0002, "step": 4190 }, { "epoch": 13.983333333333333, - "grad_norm": 0.0024102318566292524, - "learning_rate": 0.00010677777777777778, - "loss": 0.0003, + "grad_norm": 0.0008389149443246424, + "learning_rate": 1.3555555555555557e-05, + "loss": 0.0002, "step": 4195 }, { "epoch": 14.0, - "grad_norm": 0.0011729050893336535, - "learning_rate": 0.00010666666666666667, - "loss": 0.0007, + "grad_norm": 0.0008032581536099315, + "learning_rate": 1.3333333333333333e-05, + "loss": 0.0002, "step": 4200 }, { "epoch": 14.0, - "eval_accuracy": 0.8170833333333334, - "eval_f1": 0.8205361607805431, - "eval_loss": 1.1200592517852783, - "eval_precision": 0.8392273327998413, - "eval_recall": 0.8170833333333334, - "eval_runtime": 16.3341, - "eval_samples_per_second": 146.932, - "eval_steps_per_second": 18.366, + "eval_accuracy": 0.82375, + "eval_f1": 0.8246155047936204, + "eval_loss": 1.0975261926651, + "eval_precision": 0.842946826937574, + "eval_recall": 0.82375, + "eval_runtime": 16.1873, + "eval_samples_per_second": 148.264, + "eval_steps_per_second": 18.533, "step": 4200 }, { "epoch": 14.016666666666667, - "grad_norm": 0.0010447083041071892, - "learning_rate": 0.00010655555555555556, - "loss": 0.0034, + "grad_norm": 0.0007788930088281631, + "learning_rate": 1.3111111111111113e-05, + "loss": 0.0002, "step": 4205 }, { "epoch": 14.033333333333333, - "grad_norm": 0.0017008072463795543, - "learning_rate": 0.00010644444444444446, - "loss": 0.0003, + "grad_norm": 0.0008488630992360413, + "learning_rate": 1.2888888888888889e-05, + "loss": 0.0002, "step": 4210 }, { "epoch": 14.05, - "grad_norm": 0.007980246096849442, - "learning_rate": 0.00010635555555555556, - "loss": 0.0133, + "grad_norm": 0.0008053685887716711, + "learning_rate": 1.2666666666666668e-05, + "loss": 0.0002, "step": 4215 }, { "epoch": 14.066666666666666, - "grad_norm": 0.00991909671574831, - "learning_rate": 0.00010624444444444446, - "loss": 0.0003, + "grad_norm": 0.0009117414592765272, + "learning_rate": 1.2444444444444445e-05, + "loss": 0.0002, "step": 4220 }, { "epoch": 14.083333333333334, - "grad_norm": 0.0012332461774349213, - "learning_rate": 0.00010613333333333333, - "loss": 0.0003, + "grad_norm": 0.0009216479957103729, + "learning_rate": 1.2222222222222222e-05, + "loss": 0.0002, "step": 4225 }, { "epoch": 14.1, - "grad_norm": 0.001116503612138331, - "learning_rate": 0.00010602222222222223, - "loss": 0.0003, + "grad_norm": 0.000862602551933378, + "learning_rate": 1.2e-05, + "loss": 0.0002, "step": 4230 }, { "epoch": 14.116666666666667, - "grad_norm": 0.0018533241236582398, - "learning_rate": 0.00010591111111111111, - "loss": 0.0003, + "grad_norm": 0.0008642959292046726, + "learning_rate": 1.1777777777777778e-05, + "loss": 0.0002, "step": 4235 }, { "epoch": 14.133333333333333, - "grad_norm": 0.02248862199485302, - "learning_rate": 0.00010580000000000001, - "loss": 0.002, + "grad_norm": 0.0008339171181432903, + "learning_rate": 1.1555555555555556e-05, + "loss": 0.0002, "step": 4240 }, { "epoch": 14.15, - "grad_norm": 0.0021937838755548, - "learning_rate": 0.00010568888888888891, - "loss": 0.0198, + "grad_norm": 0.0008227302459999919, + "learning_rate": 1.1333333333333334e-05, + "loss": 0.0002, "step": 4245 }, { "epoch": 14.166666666666666, - "grad_norm": 0.02692383900284767, - "learning_rate": 0.00010557777777777778, - "loss": 0.0003, + "grad_norm": 0.0008083852007985115, + "learning_rate": 1.1111111111111112e-05, + "loss": 0.0002, "step": 4250 }, { "epoch": 14.183333333333334, - "grad_norm": 0.0016530836001038551, - "learning_rate": 0.00010546666666666666, - "loss": 0.0003, + "grad_norm": 0.0008799941861070693, + "learning_rate": 1.088888888888889e-05, + "loss": 0.0002, "step": 4255 }, { "epoch": 14.2, - "grad_norm": 0.0010065624956041574, - "learning_rate": 0.00010535555555555556, - "loss": 0.0003, + "grad_norm": 0.0009040896547958255, + "learning_rate": 1.0666666666666667e-05, + "loss": 0.0002, "step": 4260 }, { "epoch": 14.216666666666667, - "grad_norm": 0.0008775026653893292, - "learning_rate": 0.00010524444444444446, - "loss": 0.0003, + "grad_norm": 0.0008140530553646386, + "learning_rate": 1.0444444444444445e-05, + "loss": 0.0002, "step": 4265 }, { "epoch": 14.233333333333333, - "grad_norm": 0.0037237617652863264, - "learning_rate": 0.00010513333333333333, - "loss": 0.0003, + "grad_norm": 0.0008200691663660109, + "learning_rate": 1.0222222222222223e-05, + "loss": 0.0002, "step": 4270 }, { "epoch": 14.25, - "grad_norm": 0.0014274761779233813, - "learning_rate": 0.00010502222222222222, - "loss": 0.0003, + "grad_norm": 0.0008951444760896266, + "learning_rate": 1e-05, + "loss": 0.0002, "step": 4275 }, { "epoch": 14.266666666666667, - "grad_norm": 1.7224279642105103, - "learning_rate": 0.00010491111111111111, - "loss": 0.027, + "grad_norm": 0.0007910403655841947, + "learning_rate": 9.777777777777779e-06, + "loss": 0.0002, "step": 4280 }, { "epoch": 14.283333333333333, - "grad_norm": 0.0012018855195492506, - "learning_rate": 0.00010480000000000001, + "grad_norm": 0.0008857677457854152, + "learning_rate": 9.555555555555556e-06, "loss": 0.0002, "step": 4285 }, { "epoch": 14.3, - "grad_norm": 0.0008701824699528515, - "learning_rate": 0.0001046888888888889, - "loss": 0.0003, + "grad_norm": 0.0007591810426674783, + "learning_rate": 9.333333333333334e-06, + "loss": 0.0002, "step": 4290 }, { "epoch": 14.316666666666666, - "grad_norm": 0.001312366919592023, - "learning_rate": 0.00010457777777777777, - "loss": 0.0003, + "grad_norm": 0.0008071683114394546, + "learning_rate": 9.111111111111112e-06, + "loss": 0.0002, "step": 4295 }, { "epoch": 14.333333333333334, - "grad_norm": 0.0023174004163593054, - "learning_rate": 0.00010446666666666667, + "grad_norm": 0.0007766253547742963, + "learning_rate": 8.88888888888889e-06, "loss": 0.0002, "step": 4300 }, { "epoch": 14.333333333333334, - "eval_accuracy": 0.84125, - "eval_f1": 0.8428409476777438, - "eval_loss": 1.016021490097046, - "eval_precision": 0.8667078640330398, - "eval_recall": 0.84125, - "eval_runtime": 16.2742, - "eval_samples_per_second": 147.473, - "eval_steps_per_second": 18.434, + "eval_accuracy": 0.82375, + "eval_f1": 0.8246155047936204, + "eval_loss": 1.0987612009048462, + "eval_precision": 0.842946826937574, + "eval_recall": 0.82375, + "eval_runtime": 16.1568, + "eval_samples_per_second": 148.544, + "eval_steps_per_second": 18.568, "step": 4300 }, { "epoch": 14.35, - "grad_norm": 0.0010087472619488835, - "learning_rate": 0.00010435555555555557, + "grad_norm": 0.0008330162963829935, + "learning_rate": 8.666666666666668e-06, "loss": 0.0002, "step": 4305 }, { "epoch": 14.366666666666667, - "grad_norm": 0.0011277376906946301, - "learning_rate": 0.00010424444444444445, - "loss": 0.0004, + "grad_norm": 0.0007689149351790547, + "learning_rate": 8.444444444444446e-06, + "loss": 0.0002, "step": 4310 }, { "epoch": 14.383333333333333, - "grad_norm": 0.002272882964462042, - "learning_rate": 0.00010413333333333335, + "grad_norm": 0.0007904864032752812, + "learning_rate": 8.222222222222223e-06, "loss": 0.0002, "step": 4315 }, { "epoch": 14.4, - "grad_norm": 0.047611694782972336, - "learning_rate": 0.00010402222222222222, - "loss": 0.0452, + "grad_norm": 0.000990989152342081, + "learning_rate": 8.000000000000001e-06, + "loss": 0.0002, "step": 4320 }, { "epoch": 14.416666666666666, - "grad_norm": 0.0013640752295032144, - "learning_rate": 0.00010391111111111112, - "loss": 0.0003, + "grad_norm": 0.0016854832647368312, + "learning_rate": 7.777777777777777e-06, + "loss": 0.0002, "step": 4325 }, { "epoch": 14.433333333333334, - "grad_norm": 0.004039268475025892, - "learning_rate": 0.0001038, - "loss": 0.0007, + "grad_norm": 0.0009478752035647631, + "learning_rate": 7.555555555555556e-06, + "loss": 0.0002, "step": 4330 }, { "epoch": 14.45, - "grad_norm": 0.0016950079007074237, - "learning_rate": 0.0001036888888888889, + "grad_norm": 0.0008268911624327302, + "learning_rate": 7.333333333333334e-06, "loss": 0.0002, "step": 4335 }, { "epoch": 14.466666666666667, - "grad_norm": 0.1071184054017067, - "learning_rate": 0.00010357777777777777, - "loss": 0.0005, + "grad_norm": 0.0008779529598541558, + "learning_rate": 7.111111111111112e-06, + "loss": 0.0002, "step": 4340 }, { "epoch": 14.483333333333333, - "grad_norm": 0.0009521697065792978, - "learning_rate": 0.00010346666666666667, - "loss": 0.0186, + "grad_norm": 0.0008080208790488541, + "learning_rate": 6.888888888888889e-06, + "loss": 0.0002, "step": 4345 }, { "epoch": 14.5, - "grad_norm": 0.0008732332498766482, - "learning_rate": 0.00010335555555555555, + "grad_norm": 0.0007768373470753431, + "learning_rate": 6.666666666666667e-06, "loss": 0.0002, "step": 4350 }, { "epoch": 14.516666666666667, - "grad_norm": 0.0011424494441598654, - "learning_rate": 0.00010324444444444445, + "grad_norm": 0.0008939038380049169, + "learning_rate": 6.4444444444444445e-06, "loss": 0.0002, "step": 4355 }, { "epoch": 14.533333333333333, - "grad_norm": 0.0010931406868621707, - "learning_rate": 0.00010313333333333335, - "loss": 0.0003, + "grad_norm": 0.0008080657571554184, + "learning_rate": 6.222222222222222e-06, + "loss": 0.0002, "step": 4360 }, { "epoch": 14.55, - "grad_norm": 0.0010066473623737693, - "learning_rate": 0.00010302222222222222, - "loss": 0.0003, + "grad_norm": 0.0008180756121873856, + "learning_rate": 6e-06, + "loss": 0.0002, "step": 4365 }, { "epoch": 14.566666666666666, - "grad_norm": 0.0009955632267519832, - "learning_rate": 0.00010291111111111112, - "loss": 0.0005, + "grad_norm": 0.0008022425463423133, + "learning_rate": 5.777777777777778e-06, + "loss": 0.0002, "step": 4370 }, { "epoch": 14.583333333333334, - "grad_norm": 0.18133580684661865, - "learning_rate": 0.0001028, - "loss": 0.0008, + "grad_norm": 0.0008039418025873601, + "learning_rate": 5.555555555555556e-06, + "loss": 0.0002, "step": 4375 }, { "epoch": 14.6, - "grad_norm": 0.0009742869879119098, - "learning_rate": 0.0001026888888888889, - "loss": 0.0003, + "grad_norm": 0.0007791415555402637, + "learning_rate": 5.333333333333334e-06, + "loss": 0.0002, "step": 4380 }, { "epoch": 14.616666666666667, - "grad_norm": 0.0014119255356490612, - "learning_rate": 0.00010257777777777777, + "grad_norm": 0.0008020649547688663, + "learning_rate": 5.1111111111111115e-06, "loss": 0.0002, "step": 4385 }, { "epoch": 14.633333333333333, - "grad_norm": 0.0017910711467266083, - "learning_rate": 0.00010246666666666667, - "loss": 0.0003, + "grad_norm": 0.0008757354808039963, + "learning_rate": 4.888888888888889e-06, + "loss": 0.0002, "step": 4390 }, { "epoch": 14.65, - "grad_norm": 0.0010257975663989782, - "learning_rate": 0.00010235555555555556, - "loss": 0.0003, + "grad_norm": 0.0007990308222360909, + "learning_rate": 4.666666666666667e-06, + "loss": 0.0002, "step": 4395 }, { "epoch": 14.666666666666666, - "grad_norm": 0.0012235648464411497, - "learning_rate": 0.00010224444444444446, + "grad_norm": 0.0009527826914563775, + "learning_rate": 4.444444444444445e-06, "loss": 0.0002, "step": 4400 }, { "epoch": 14.666666666666666, - "eval_accuracy": 0.8270833333333333, - "eval_f1": 0.8282455824121513, - "eval_loss": 1.0599236488342285, - "eval_precision": 0.8463618364963694, - "eval_recall": 0.8270833333333333, - "eval_runtime": 16.272, - "eval_samples_per_second": 147.493, - "eval_steps_per_second": 18.437, + "eval_accuracy": 0.82375, + "eval_f1": 0.8246155047936204, + "eval_loss": 1.0997449159622192, + "eval_precision": 0.842946826937574, + "eval_recall": 0.82375, + "eval_runtime": 16.3048, + "eval_samples_per_second": 147.196, + "eval_steps_per_second": 18.399, "step": 4400 }, { "epoch": 14.683333333333334, - "grad_norm": 0.0010194644564762712, - "learning_rate": 0.00010213333333333335, - "loss": 0.0003, + "grad_norm": 0.0008756504394114017, + "learning_rate": 4.222222222222223e-06, + "loss": 0.0002, "step": 4405 }, { "epoch": 14.7, - "grad_norm": 0.0011165229370817542, - "learning_rate": 0.00010202222222222222, + "grad_norm": 0.0008490610052831471, + "learning_rate": 4.000000000000001e-06, "loss": 0.0002, "step": 4410 }, { "epoch": 14.716666666666667, - "grad_norm": 0.0009375371737405658, - "learning_rate": 0.00010191111111111111, + "grad_norm": 0.0008346405229531229, + "learning_rate": 3.777777777777778e-06, "loss": 0.0002, "step": 4415 }, { "epoch": 14.733333333333333, - "grad_norm": 0.0008527434547431767, - "learning_rate": 0.00010180000000000001, + "grad_norm": 0.0007717997068539262, + "learning_rate": 3.555555555555556e-06, "loss": 0.0002, "step": 4420 }, { "epoch": 14.75, - "grad_norm": 0.0009507935028523207, - "learning_rate": 0.0001016888888888889, + "grad_norm": 0.0008573240484111011, + "learning_rate": 3.3333333333333333e-06, "loss": 0.0002, "step": 4425 }, { "epoch": 14.766666666666667, - "grad_norm": 0.0009195000748150051, - "learning_rate": 0.00010157777777777778, + "grad_norm": 0.0008228399092331529, + "learning_rate": 3.111111111111111e-06, "loss": 0.0002, "step": 4430 }, { "epoch": 14.783333333333333, - "grad_norm": 0.0021001717541366816, - "learning_rate": 0.00010146666666666666, - "loss": 0.0006, + "grad_norm": 0.0008542914292775095, + "learning_rate": 2.888888888888889e-06, + "loss": 0.0002, "step": 4435 }, { "epoch": 14.8, - "grad_norm": 0.0009847854962572455, - "learning_rate": 0.00010135555555555556, + "grad_norm": 0.0008248086087405682, + "learning_rate": 2.666666666666667e-06, "loss": 0.0002, "step": 4440 }, { "epoch": 14.816666666666666, - "grad_norm": 0.0009505741181783378, - "learning_rate": 0.00010124444444444446, + "grad_norm": 0.0008548648911528289, + "learning_rate": 2.4444444444444447e-06, "loss": 0.0002, "step": 4445 }, { "epoch": 14.833333333333334, - "grad_norm": 0.0008384964894503355, - "learning_rate": 0.00010113333333333334, + "grad_norm": 0.0007913237786851823, + "learning_rate": 2.2222222222222225e-06, "loss": 0.0002, "step": 4450 }, { "epoch": 14.85, - "grad_norm": 0.0010527517879381776, - "learning_rate": 0.00010102222222222221, - "loss": 0.0003, + "grad_norm": 0.0007958354544825852, + "learning_rate": 2.0000000000000003e-06, + "loss": 0.0002, "step": 4455 }, { "epoch": 14.866666666666667, - "grad_norm": 0.0008374205208383501, - "learning_rate": 0.00010091111111111111, + "grad_norm": 0.000948666303884238, + "learning_rate": 1.777777777777778e-06, "loss": 0.0002, "step": 4460 }, { "epoch": 14.883333333333333, - "grad_norm": 0.0008743240614421666, - "learning_rate": 0.00010080000000000001, + "grad_norm": 0.0007863120408728719, + "learning_rate": 1.5555555555555556e-06, "loss": 0.0002, "step": 4465 }, { "epoch": 14.9, - "grad_norm": 0.0008273265557363629, - "learning_rate": 0.0001006888888888889, + "grad_norm": 0.0008085044100880623, + "learning_rate": 1.3333333333333334e-06, "loss": 0.0002, "step": 4470 }, { "epoch": 14.916666666666666, - "grad_norm": 0.0009349312167614698, - "learning_rate": 0.0001005777777777778, - "loss": 0.0007, + "grad_norm": 0.0008453883929178119, + "learning_rate": 1.1111111111111112e-06, + "loss": 0.0002, "step": 4475 }, { "epoch": 14.933333333333334, - "grad_norm": 0.0008336436585523188, - "learning_rate": 0.00010046666666666666, + "grad_norm": 0.000826246221549809, + "learning_rate": 8.88888888888889e-07, "loss": 0.0002, "step": 4480 }, { "epoch": 14.95, - "grad_norm": 0.0008200375596061349, - "learning_rate": 0.00010035555555555556, + "grad_norm": 0.0008238254231400788, + "learning_rate": 6.666666666666667e-07, "loss": 0.0002, "step": 4485 }, { "epoch": 14.966666666666667, - "grad_norm": 0.0008048871532082558, - "learning_rate": 0.00010024444444444445, + "grad_norm": 0.0008291376871056855, + "learning_rate": 4.444444444444445e-07, "loss": 0.0002, "step": 4490 }, { "epoch": 14.983333333333333, - "grad_norm": 0.0007993041654117405, - "learning_rate": 0.00010013333333333335, + "grad_norm": 0.0008140387944877148, + "learning_rate": 2.2222222222222224e-07, "loss": 0.0002, "step": 4495 }, { "epoch": 15.0, - "grad_norm": 0.0007473950390703976, - "learning_rate": 0.00010002222222222222, + "grad_norm": 0.0007869756664149463, + "learning_rate": 0.0, "loss": 0.0002, "step": 4500 }, { "epoch": 15.0, - "eval_accuracy": 0.8358333333333333, - "eval_f1": 0.8384510643537236, - "eval_loss": 1.0467338562011719, - "eval_precision": 0.8644835517916779, - "eval_recall": 0.8358333333333333, - "eval_runtime": 16.0803, - "eval_samples_per_second": 149.251, - "eval_steps_per_second": 18.656, + "eval_accuracy": 0.82375, + "eval_f1": 0.8246155047936204, + "eval_loss": 1.0999717712402344, + "eval_precision": 0.842946826937574, + "eval_recall": 0.82375, + "eval_runtime": 16.0952, + "eval_samples_per_second": 149.113, + "eval_steps_per_second": 18.639, "step": 4500 }, { - "epoch": 15.016666666666667, - "grad_norm": 0.0014457724755629897, - "learning_rate": 9.991111111111112e-05, - "loss": 0.0002, - "step": 4505 - }, - { - "epoch": 15.033333333333333, - "grad_norm": 0.0007872033165767789, - "learning_rate": 9.98e-05, - "loss": 0.0002, - "step": 4510 - }, - { - "epoch": 15.05, - "grad_norm": 0.0008291542180813849, - "learning_rate": 9.96888888888889e-05, - "loss": 0.0002, - "step": 4515 - }, - { - "epoch": 15.066666666666666, - "grad_norm": 0.0007275465759448707, - "learning_rate": 9.957777777777778e-05, - "loss": 0.0355, - "step": 4520 - }, - { - "epoch": 15.083333333333334, - "grad_norm": 0.0006953538977541029, - "learning_rate": 9.946666666666668e-05, - "loss": 0.0002, - "step": 4525 - }, - { - "epoch": 15.1, - "grad_norm": 0.0010279490379616618, - "learning_rate": 9.935555555555555e-05, - "loss": 0.0002, - "step": 4530 - }, - { - "epoch": 15.116666666666667, - "grad_norm": 0.000810708908829838, - "learning_rate": 9.924444444444445e-05, - "loss": 0.0002, - "step": 4535 - }, - { - "epoch": 15.133333333333333, - "grad_norm": 0.0008391262381337583, - "learning_rate": 9.913333333333334e-05, - "loss": 0.0002, - "step": 4540 - }, - { - "epoch": 15.15, - "grad_norm": 0.0008437839569523931, - "learning_rate": 9.902222222222223e-05, - "loss": 0.0002, - "step": 4545 - }, - { - "epoch": 15.166666666666666, - "grad_norm": 0.0008778841583989561, - "learning_rate": 9.891111111111112e-05, - "loss": 0.0005, - "step": 4550 - }, - { - "epoch": 15.183333333333334, - "grad_norm": 0.002019158797338605, - "learning_rate": 9.88e-05, - "loss": 0.0002, - "step": 4555 - }, - { - "epoch": 15.2, - "grad_norm": 0.001081191236153245, - "learning_rate": 9.86888888888889e-05, - "loss": 0.0003, - "step": 4560 - }, - { - "epoch": 15.216666666666667, - "grad_norm": 0.001031155465170741, - "learning_rate": 9.857777777777779e-05, - "loss": 0.0002, - "step": 4565 - }, - { - "epoch": 15.233333333333333, - "grad_norm": 0.005237339995801449, - "learning_rate": 9.846666666666667e-05, - "loss": 0.0002, - "step": 4570 - }, - { - "epoch": 15.25, - "grad_norm": 0.000846281589474529, - "learning_rate": 9.835555555555556e-05, - "loss": 0.0002, - "step": 4575 - }, - { - "epoch": 15.266666666666667, - "grad_norm": 0.0023093996569514275, - "learning_rate": 9.824444444444445e-05, - "loss": 0.0002, - "step": 4580 - }, - { - "epoch": 15.283333333333333, - "grad_norm": 0.0010402537882328033, - "learning_rate": 9.813333333333334e-05, - "loss": 0.0002, - "step": 4585 - }, - { - "epoch": 15.3, - "grad_norm": 0.0008053139317780733, - "learning_rate": 9.802222222222222e-05, - "loss": 0.0002, - "step": 4590 - }, - { - "epoch": 15.316666666666666, - "grad_norm": 0.0008600462460890412, - "learning_rate": 9.791111111111112e-05, - "loss": 0.0002, - "step": 4595 - }, - { - "epoch": 15.333333333333334, - "grad_norm": 0.0007194678182713687, - "learning_rate": 9.78e-05, - "loss": 0.0002, - "step": 4600 - }, - { - "epoch": 15.333333333333334, - "eval_accuracy": 0.8420833333333333, - "eval_f1": 0.8454028450431317, - "eval_loss": 0.9068851470947266, - "eval_precision": 0.8616448684691372, - "eval_recall": 0.8420833333333333, - "eval_runtime": 16.4052, - "eval_samples_per_second": 146.295, - "eval_steps_per_second": 18.287, - "step": 4600 - }, - { - "epoch": 15.35, - "grad_norm": 0.0007157129584811628, - "learning_rate": 9.768888888888889e-05, - "loss": 0.0002, - "step": 4605 - }, - { - "epoch": 15.366666666666667, - "grad_norm": 0.0007897672476246953, - "learning_rate": 9.757777777777777e-05, - "loss": 0.0002, - "step": 4610 - }, - { - "epoch": 15.383333333333333, - "grad_norm": 0.0007469132542610168, - "learning_rate": 9.746666666666667e-05, - "loss": 0.0002, - "step": 4615 - }, - { - "epoch": 15.4, - "grad_norm": 0.011094697751104832, - "learning_rate": 9.735555555555556e-05, - "loss": 0.0002, - "step": 4620 - }, - { - "epoch": 15.416666666666666, - "grad_norm": 0.0007703523151576519, - "learning_rate": 9.724444444444444e-05, - "loss": 0.0002, - "step": 4625 - }, - { - "epoch": 15.433333333333334, - "grad_norm": 0.0007433987921103835, - "learning_rate": 9.713333333333334e-05, - "loss": 0.0002, - "step": 4630 - }, - { - "epoch": 15.45, - "grad_norm": 0.00078797951573506, - "learning_rate": 9.702222222222223e-05, - "loss": 0.0002, - "step": 4635 - }, - { - "epoch": 15.466666666666667, - "grad_norm": 0.0006272565806284547, - "learning_rate": 9.691111111111112e-05, - "loss": 0.0002, - "step": 4640 - }, - { - "epoch": 15.483333333333333, - "grad_norm": 0.000788542500231415, - "learning_rate": 9.680000000000001e-05, - "loss": 0.0002, - "step": 4645 - }, - { - "epoch": 15.5, - "grad_norm": 0.0006700591766275465, - "learning_rate": 9.668888888888889e-05, - "loss": 0.0002, - "step": 4650 - }, - { - "epoch": 15.516666666666667, - "grad_norm": 0.0007578362710773945, - "learning_rate": 9.657777777777778e-05, - "loss": 0.0002, - "step": 4655 - }, - { - "epoch": 15.533333333333333, - "grad_norm": 0.0006467472412623465, - "learning_rate": 9.646666666666668e-05, - "loss": 0.0002, - "step": 4660 - }, - { - "epoch": 15.55, - "grad_norm": 0.0009406217141076922, - "learning_rate": 9.635555555555556e-05, - "loss": 0.0002, - "step": 4665 - }, - { - "epoch": 15.566666666666666, - "grad_norm": 0.0010096579790115356, - "learning_rate": 9.624444444444445e-05, - "loss": 0.0002, - "step": 4670 - }, - { - "epoch": 15.583333333333334, - "grad_norm": 0.0007666666642762721, - "learning_rate": 9.613333333333334e-05, - "loss": 0.0002, - "step": 4675 - }, - { - "epoch": 15.6, - "grad_norm": 0.0008496129885315895, - "learning_rate": 9.602222222222223e-05, - "loss": 0.0002, - "step": 4680 - }, - { - "epoch": 15.616666666666667, - "grad_norm": 0.0007218897808343172, - "learning_rate": 9.591111111111111e-05, - "loss": 0.0002, - "step": 4685 - }, - { - "epoch": 15.633333333333333, - "grad_norm": 0.0006704768165946007, - "learning_rate": 9.58e-05, - "loss": 0.0002, - "step": 4690 - }, - { - "epoch": 15.65, - "grad_norm": 0.000986928935162723, - "learning_rate": 9.56888888888889e-05, - "loss": 0.0002, - "step": 4695 - }, - { - "epoch": 15.666666666666666, - "grad_norm": 0.000747459998819977, - "learning_rate": 9.557777777777778e-05, - "loss": 0.0002, - "step": 4700 - }, - { - "epoch": 15.666666666666666, - "eval_accuracy": 0.845, - "eval_f1": 0.8483406533000757, - "eval_loss": 0.9158483743667603, - "eval_precision": 0.8646225764938502, - "eval_recall": 0.845, - "eval_runtime": 16.2097, - "eval_samples_per_second": 148.059, - "eval_steps_per_second": 18.507, - "step": 4700 - }, - { - "epoch": 15.683333333333334, - "grad_norm": 0.0009081228636205196, - "learning_rate": 9.546666666666667e-05, - "loss": 0.0002, - "step": 4705 - }, - { - "epoch": 15.7, - "grad_norm": 0.0006908600917086005, - "learning_rate": 9.535555555555556e-05, - "loss": 0.0002, - "step": 4710 - }, - { - "epoch": 15.716666666666667, - "grad_norm": 0.001878284732811153, - "learning_rate": 9.524444444444445e-05, - "loss": 0.0002, - "step": 4715 - }, - { - "epoch": 15.733333333333333, - "grad_norm": 0.0006603689980693161, - "learning_rate": 9.513333333333335e-05, - "loss": 0.0002, - "step": 4720 - }, - { - "epoch": 15.75, - "grad_norm": 0.0007561177480965853, - "learning_rate": 9.502222222222222e-05, - "loss": 0.0002, - "step": 4725 - }, - { - "epoch": 15.766666666666667, - "grad_norm": 0.0007673463551327586, - "learning_rate": 9.491111111111112e-05, - "loss": 0.0002, - "step": 4730 - }, - { - "epoch": 15.783333333333333, - "grad_norm": 0.000582091452088207, - "learning_rate": 9.48e-05, - "loss": 0.0002, - "step": 4735 - }, - { - "epoch": 15.8, - "grad_norm": 0.0005692114355042577, - "learning_rate": 9.46888888888889e-05, - "loss": 0.0002, - "step": 4740 - }, - { - "epoch": 15.816666666666666, - "grad_norm": 0.0007047142134979367, - "learning_rate": 9.457777777777778e-05, - "loss": 0.0002, - "step": 4745 - }, - { - "epoch": 15.833333333333334, - "grad_norm": 0.0007251726347021759, - "learning_rate": 9.446666666666667e-05, - "loss": 0.0002, - "step": 4750 - }, - { - "epoch": 15.85, - "grad_norm": 0.0006690524751320481, - "learning_rate": 9.435555555555557e-05, - "loss": 0.0002, - "step": 4755 - }, - { - "epoch": 15.866666666666667, - "grad_norm": 0.0006965235224924982, - "learning_rate": 9.424444444444445e-05, - "loss": 0.0002, - "step": 4760 - }, - { - "epoch": 15.883333333333333, - "grad_norm": 0.0008274397696368396, - "learning_rate": 9.413333333333334e-05, - "loss": 0.0002, - "step": 4765 - }, - { - "epoch": 15.9, - "grad_norm": 0.0007212147465907037, - "learning_rate": 9.402222222222222e-05, - "loss": 0.0002, - "step": 4770 - }, - { - "epoch": 15.916666666666666, - "grad_norm": 0.0006132972193881869, - "learning_rate": 9.391111111111112e-05, - "loss": 0.0002, - "step": 4775 - }, - { - "epoch": 15.933333333333334, - "grad_norm": 0.0007363010663539171, - "learning_rate": 9.38e-05, - "loss": 0.0002, - "step": 4780 - }, - { - "epoch": 15.95, - "grad_norm": 0.0007070496794767678, - "learning_rate": 9.368888888888889e-05, - "loss": 0.0002, - "step": 4785 - }, - { - "epoch": 15.966666666666667, - "grad_norm": 0.0006082231993786991, - "learning_rate": 9.357777777777779e-05, - "loss": 0.0002, - "step": 4790 - }, - { - "epoch": 15.983333333333333, - "grad_norm": 0.000716627633664757, - "learning_rate": 9.346666666666667e-05, - "loss": 0.0002, - "step": 4795 - }, - { - "epoch": 16.0, - "grad_norm": 0.0006360949482768774, - "learning_rate": 9.335555555555557e-05, - "loss": 0.0002, - "step": 4800 - }, - { - "epoch": 16.0, - "eval_accuracy": 0.8470833333333333, - "eval_f1": 0.8504293204567286, - "eval_loss": 0.9191440939903259, - "eval_precision": 0.8669833103634946, - "eval_recall": 0.8470833333333333, - "eval_runtime": 16.2435, - "eval_samples_per_second": 147.751, - "eval_steps_per_second": 18.469, - "step": 4800 - }, - { - "epoch": 16.016666666666666, - "grad_norm": 0.0006230503786355257, - "learning_rate": 9.324444444444444e-05, - "loss": 0.0001, - "step": 4805 - }, - { - "epoch": 16.033333333333335, - "grad_norm": 0.0006324824062176049, - "learning_rate": 9.313333333333334e-05, - "loss": 0.0001, - "step": 4810 - }, - { - "epoch": 16.05, - "grad_norm": 0.0006384122534655035, - "learning_rate": 9.302222222222222e-05, - "loss": 0.0002, - "step": 4815 - }, - { - "epoch": 16.066666666666666, - "grad_norm": 0.0008960968698374927, - "learning_rate": 9.291111111111112e-05, - "loss": 0.0002, - "step": 4820 - }, - { - "epoch": 16.083333333333332, - "grad_norm": 0.0006210182327777147, - "learning_rate": 9.28e-05, - "loss": 0.0001, - "step": 4825 - }, - { - "epoch": 16.1, - "grad_norm": 0.0005818836507387459, - "learning_rate": 9.268888888888889e-05, - "loss": 0.0001, - "step": 4830 - }, - { - "epoch": 16.116666666666667, - "grad_norm": 0.000642772763967514, - "learning_rate": 9.257777777777779e-05, - "loss": 0.0001, - "step": 4835 - }, - { - "epoch": 16.133333333333333, - "grad_norm": 0.0008118034456856549, - "learning_rate": 9.246666666666667e-05, - "loss": 0.0002, - "step": 4840 - }, - { - "epoch": 16.15, - "grad_norm": 0.0006220751674845815, - "learning_rate": 9.235555555555556e-05, - "loss": 0.0001, - "step": 4845 - }, - { - "epoch": 16.166666666666668, - "grad_norm": 0.0005800512153655291, - "learning_rate": 9.224444444444444e-05, - "loss": 0.0001, - "step": 4850 - }, - { - "epoch": 16.183333333333334, - "grad_norm": 0.0006678634090349078, - "learning_rate": 9.213333333333334e-05, - "loss": 0.0001, - "step": 4855 - }, - { - "epoch": 16.2, - "grad_norm": 0.0006166800740174949, - "learning_rate": 9.202222222222223e-05, - "loss": 0.0001, - "step": 4860 - }, - { - "epoch": 16.216666666666665, - "grad_norm": 0.0006017700070515275, - "learning_rate": 9.191111111111111e-05, - "loss": 0.0001, - "step": 4865 - }, - { - "epoch": 16.233333333333334, - "grad_norm": 0.0007980185328051448, - "learning_rate": 9.180000000000001e-05, - "loss": 0.0001, - "step": 4870 - }, - { - "epoch": 16.25, - "grad_norm": 0.0006067790673114359, - "learning_rate": 9.16888888888889e-05, - "loss": 0.0001, - "step": 4875 - }, - { - "epoch": 16.266666666666666, - "grad_norm": 0.0005562791484408081, - "learning_rate": 9.157777777777778e-05, - "loss": 0.0001, - "step": 4880 - }, - { - "epoch": 16.283333333333335, - "grad_norm": 0.0005827884306199849, - "learning_rate": 9.146666666666666e-05, - "loss": 0.0001, - "step": 4885 - }, - { - "epoch": 16.3, - "grad_norm": 0.0007149440352804959, - "learning_rate": 9.135555555555556e-05, - "loss": 0.0002, - "step": 4890 - }, - { - "epoch": 16.316666666666666, - "grad_norm": 0.0006632471340708435, - "learning_rate": 9.124444444444445e-05, - "loss": 0.0001, - "step": 4895 - }, - { - "epoch": 16.333333333333332, - "grad_norm": 0.0005937435780651867, - "learning_rate": 9.113333333333334e-05, - "loss": 0.0001, - "step": 4900 - }, - { - "epoch": 16.333333333333332, - "eval_accuracy": 0.845, - "eval_f1": 0.8482815682111354, - "eval_loss": 0.9290241599082947, - "eval_precision": 0.8647488718829582, - "eval_recall": 0.845, - "eval_runtime": 16.4058, - "eval_samples_per_second": 146.29, - "eval_steps_per_second": 18.286, - "step": 4900 - }, - { - "epoch": 16.35, - "grad_norm": 0.0007545924163423479, - "learning_rate": 9.102222222222223e-05, - "loss": 0.0001, - "step": 4905 - }, - { - "epoch": 16.366666666666667, - "grad_norm": 0.0007352451211772859, - "learning_rate": 9.091111111111111e-05, - "loss": 0.0001, - "step": 4910 - }, - { - "epoch": 16.383333333333333, - "grad_norm": 0.0005104963784106076, - "learning_rate": 9.080000000000001e-05, - "loss": 0.0001, - "step": 4915 - }, - { - "epoch": 16.4, - "grad_norm": 0.0005549977067857981, - "learning_rate": 9.06888888888889e-05, - "loss": 0.0001, - "step": 4920 - }, - { - "epoch": 16.416666666666668, - "grad_norm": 0.0005722798523493111, - "learning_rate": 9.057777777777778e-05, - "loss": 0.0001, - "step": 4925 - }, - { - "epoch": 16.433333333333334, - "grad_norm": 0.0006917107966728508, - "learning_rate": 9.046666666666667e-05, - "loss": 0.0001, - "step": 4930 - }, - { - "epoch": 16.45, - "grad_norm": 0.0005949722835794091, - "learning_rate": 9.035555555555556e-05, - "loss": 0.0001, - "step": 4935 - }, - { - "epoch": 16.466666666666665, - "grad_norm": 0.0005543401348404586, - "learning_rate": 9.024444444444445e-05, - "loss": 0.0001, - "step": 4940 - }, - { - "epoch": 16.483333333333334, - "grad_norm": 0.0006838486297056079, - "learning_rate": 9.013333333333333e-05, - "loss": 0.0001, - "step": 4945 - }, - { - "epoch": 16.5, - "grad_norm": 0.0005776677862741053, - "learning_rate": 9.002222222222223e-05, - "loss": 0.0001, - "step": 4950 - }, - { - "epoch": 16.516666666666666, - "grad_norm": 0.000543220026884228, - "learning_rate": 8.991111111111112e-05, - "loss": 0.0001, - "step": 4955 - }, - { - "epoch": 16.533333333333335, - "grad_norm": 0.0005636735004372895, - "learning_rate": 8.98e-05, - "loss": 0.0001, - "step": 4960 - }, - { - "epoch": 16.55, - "grad_norm": 0.0005218144506216049, - "learning_rate": 8.968888888888889e-05, - "loss": 0.0001, - "step": 4965 - }, - { - "epoch": 16.566666666666666, - "grad_norm": 0.0006111106486059725, - "learning_rate": 8.957777777777778e-05, - "loss": 0.0001, - "step": 4970 - }, - { - "epoch": 16.583333333333332, - "grad_norm": 0.0005927429883740842, - "learning_rate": 8.946666666666668e-05, - "loss": 0.0001, - "step": 4975 - }, - { - "epoch": 16.6, - "grad_norm": 0.000481991795822978, - "learning_rate": 8.935555555555555e-05, - "loss": 0.0001, - "step": 4980 - }, - { - "epoch": 16.616666666666667, - "grad_norm": 0.0005387875717133284, - "learning_rate": 8.924444444444445e-05, - "loss": 0.0001, - "step": 4985 - }, - { - "epoch": 16.633333333333333, - "grad_norm": 0.0005191801465116441, - "learning_rate": 8.913333333333334e-05, - "loss": 0.0001, - "step": 4990 - }, - { - "epoch": 16.65, - "grad_norm": 0.0014066160656511784, - "learning_rate": 8.902222222222223e-05, - "loss": 0.0001, - "step": 4995 - }, - { - "epoch": 16.666666666666668, - "grad_norm": 0.0005484591820277274, - "learning_rate": 8.89111111111111e-05, - "loss": 0.0001, - "step": 5000 - }, - { - "epoch": 16.666666666666668, - "eval_accuracy": 0.8470833333333333, - "eval_f1": 0.8502237580995756, - "eval_loss": 0.9365918040275574, - "eval_precision": 0.8662773528086604, - "eval_recall": 0.8470833333333333, - "eval_runtime": 16.4194, - "eval_samples_per_second": 146.168, - "eval_steps_per_second": 18.271, - "step": 5000 - }, - { - "epoch": 16.683333333333334, - "grad_norm": 0.0009574631694704294, - "learning_rate": 8.88e-05, - "loss": 0.0001, - "step": 5005 - }, - { - "epoch": 16.7, - "grad_norm": 0.0005553672090172768, - "learning_rate": 8.868888888888889e-05, - "loss": 0.0001, - "step": 5010 - }, - { - "epoch": 16.716666666666665, - "grad_norm": 0.00047579422243870795, - "learning_rate": 8.857777777777779e-05, - "loss": 0.0001, - "step": 5015 - }, - { - "epoch": 16.733333333333334, - "grad_norm": 0.0005458922241814435, - "learning_rate": 8.846666666666667e-05, - "loss": 0.0001, - "step": 5020 - }, - { - "epoch": 16.75, - "grad_norm": 0.0005622290191240609, - "learning_rate": 8.835555555555556e-05, - "loss": 0.0001, - "step": 5025 - }, - { - "epoch": 16.766666666666666, - "grad_norm": 0.0006377232493832707, - "learning_rate": 8.824444444444445e-05, - "loss": 0.0001, - "step": 5030 - }, - { - "epoch": 16.783333333333335, - "grad_norm": 0.0006062481552362442, - "learning_rate": 8.813333333333334e-05, - "loss": 0.0001, - "step": 5035 - }, - { - "epoch": 16.8, - "grad_norm": 0.0005614449037238955, - "learning_rate": 8.802222222222222e-05, - "loss": 0.0001, - "step": 5040 - }, - { - "epoch": 16.816666666666666, - "grad_norm": 0.0005647405632771552, - "learning_rate": 8.791111111111111e-05, - "loss": 0.0001, - "step": 5045 - }, - { - "epoch": 16.833333333333332, - "grad_norm": 0.0005216348799876869, - "learning_rate": 8.78e-05, - "loss": 0.0001, - "step": 5050 - }, - { - "epoch": 16.85, - "grad_norm": 0.0006121605983935297, - "learning_rate": 8.76888888888889e-05, - "loss": 0.0001, - "step": 5055 - }, - { - "epoch": 16.866666666666667, - "grad_norm": 0.0006510195671580732, - "learning_rate": 8.757777777777778e-05, - "loss": 0.0001, - "step": 5060 - }, - { - "epoch": 16.883333333333333, - "grad_norm": 0.0005507472087629139, - "learning_rate": 8.746666666666667e-05, - "loss": 0.0001, - "step": 5065 - }, - { - "epoch": 16.9, - "grad_norm": 0.0005956399836577475, - "learning_rate": 8.735555555555556e-05, - "loss": 0.0001, - "step": 5070 - }, - { - "epoch": 16.916666666666668, - "grad_norm": 0.0005447050207294524, - "learning_rate": 8.724444444444446e-05, - "loss": 0.0001, - "step": 5075 - }, - { - "epoch": 16.933333333333334, - "grad_norm": 0.0005376634071581066, - "learning_rate": 8.713333333333333e-05, - "loss": 0.0001, - "step": 5080 - }, - { - "epoch": 16.95, - "grad_norm": 0.0005058944807387888, - "learning_rate": 8.702222222222223e-05, - "loss": 0.0001, - "step": 5085 - }, - { - "epoch": 16.966666666666665, - "grad_norm": 0.0005405113915912807, - "learning_rate": 8.691111111111111e-05, - "loss": 0.0001, - "step": 5090 - }, - { - "epoch": 16.983333333333334, - "grad_norm": 0.0006421031430363655, - "learning_rate": 8.680000000000001e-05, - "loss": 0.0001, - "step": 5095 - }, - { - "epoch": 17.0, - "grad_norm": 0.0006098221056163311, - "learning_rate": 8.66888888888889e-05, - "loss": 0.0001, - "step": 5100 - }, - { - "epoch": 17.0, - "eval_accuracy": 0.8470833333333333, - "eval_f1": 0.8502237580995756, - "eval_loss": 0.9468116164207458, - "eval_precision": 0.8662773528086604, - "eval_recall": 0.8470833333333333, - "eval_runtime": 16.7574, - "eval_samples_per_second": 143.22, - "eval_steps_per_second": 17.903, - "step": 5100 - }, - { - "epoch": 17.016666666666666, - "grad_norm": 0.0005108315963298082, - "learning_rate": 8.657777777777778e-05, - "loss": 0.0001, - "step": 5105 - }, - { - "epoch": 17.033333333333335, - "grad_norm": 0.0004777853609994054, - "learning_rate": 8.646666666666668e-05, - "loss": 0.0001, - "step": 5110 - }, - { - "epoch": 17.05, - "grad_norm": 0.0005830395384691656, - "learning_rate": 8.635555555555556e-05, - "loss": 0.0001, - "step": 5115 - }, - { - "epoch": 17.066666666666666, - "grad_norm": 0.0006180200725793839, - "learning_rate": 8.624444444444445e-05, - "loss": 0.0001, - "step": 5120 - }, - { - "epoch": 17.083333333333332, - "grad_norm": 0.0004901050706394017, - "learning_rate": 8.613333333333333e-05, - "loss": 0.0001, - "step": 5125 - }, - { - "epoch": 17.1, - "grad_norm": 0.000444393401267007, - "learning_rate": 8.602222222222223e-05, - "loss": 0.0001, - "step": 5130 - }, - { - "epoch": 17.116666666666667, - "grad_norm": 0.0005082734278403223, - "learning_rate": 8.591111111111111e-05, - "loss": 0.0001, - "step": 5135 - }, - { - "epoch": 17.133333333333333, - "grad_norm": 0.0005430561141110957, - "learning_rate": 8.58e-05, - "loss": 0.0001, - "step": 5140 - }, - { - "epoch": 17.15, - "grad_norm": 0.0006819517584517598, - "learning_rate": 8.56888888888889e-05, - "loss": 0.0001, - "step": 5145 - }, - { - "epoch": 17.166666666666668, - "grad_norm": 0.00047059732605703175, - "learning_rate": 8.557777777777778e-05, - "loss": 0.0001, - "step": 5150 - }, - { - "epoch": 17.183333333333334, - "grad_norm": 0.0005978972767479718, - "learning_rate": 8.546666666666667e-05, - "loss": 0.0001, - "step": 5155 - }, - { - "epoch": 17.2, - "grad_norm": 0.0005610102671198547, - "learning_rate": 8.535555555555555e-05, - "loss": 0.0001, - "step": 5160 - }, - { - "epoch": 17.216666666666665, - "grad_norm": 0.0004539240035228431, - "learning_rate": 8.524444444444445e-05, - "loss": 0.0001, - "step": 5165 - }, - { - "epoch": 17.233333333333334, - "grad_norm": 0.0005264002247713506, - "learning_rate": 8.513333333333335e-05, - "loss": 0.0001, - "step": 5170 - }, - { - "epoch": 17.25, - "grad_norm": 0.0004516485205385834, - "learning_rate": 8.502222222222223e-05, - "loss": 0.0001, - "step": 5175 - }, - { - "epoch": 17.266666666666666, - "grad_norm": 0.0005066717276349664, - "learning_rate": 8.491111111111112e-05, - "loss": 0.0001, - "step": 5180 - }, - { - "epoch": 17.283333333333335, - "grad_norm": 0.000616394157987088, - "learning_rate": 8.48e-05, - "loss": 0.0001, - "step": 5185 - }, - { - "epoch": 17.3, - "grad_norm": 0.000552941404748708, - "learning_rate": 8.46888888888889e-05, - "loss": 0.0001, - "step": 5190 - }, - { - "epoch": 17.316666666666666, - "grad_norm": 0.0004754888650495559, - "learning_rate": 8.457777777777778e-05, - "loss": 0.0001, - "step": 5195 - }, - { - "epoch": 17.333333333333332, - "grad_norm": 0.0005057536764070392, - "learning_rate": 8.446666666666667e-05, - "loss": 0.0001, - "step": 5200 - }, - { - "epoch": 17.333333333333332, - "eval_accuracy": 0.8475, - "eval_f1": 0.8505955408407442, - "eval_loss": 0.9552567601203918, - "eval_precision": 0.8665420645398636, - "eval_recall": 0.8475, - "eval_runtime": 16.5737, - "eval_samples_per_second": 144.808, - "eval_steps_per_second": 18.101, - "step": 5200 - }, - { - "epoch": 17.35, - "grad_norm": 0.000492580293212086, - "learning_rate": 8.435555555555555e-05, - "loss": 0.0001, - "step": 5205 - }, - { - "epoch": 17.366666666666667, - "grad_norm": 0.0004817103035748005, - "learning_rate": 8.424444444444445e-05, - "loss": 0.0001, - "step": 5210 - }, - { - "epoch": 17.383333333333333, - "grad_norm": 0.000497109373100102, - "learning_rate": 8.413333333333334e-05, - "loss": 0.0001, - "step": 5215 - }, - { - "epoch": 17.4, - "grad_norm": 0.001187227084301412, - "learning_rate": 8.402222222222222e-05, - "loss": 0.0001, - "step": 5220 - }, - { - "epoch": 17.416666666666668, - "grad_norm": 0.00046513794222846627, - "learning_rate": 8.391111111111112e-05, - "loss": 0.0001, - "step": 5225 - }, - { - "epoch": 17.433333333333334, - "grad_norm": 0.000544400536455214, - "learning_rate": 8.38e-05, - "loss": 0.0001, - "step": 5230 - }, - { - "epoch": 17.45, - "grad_norm": 0.0004806882352568209, - "learning_rate": 8.368888888888889e-05, - "loss": 0.0001, - "step": 5235 - }, - { - "epoch": 17.466666666666665, - "grad_norm": 0.0006065104971639812, - "learning_rate": 8.357777777777777e-05, - "loss": 0.0001, - "step": 5240 - }, - { - "epoch": 17.483333333333334, - "grad_norm": 0.0004721056902781129, - "learning_rate": 8.346666666666667e-05, - "loss": 0.0001, - "step": 5245 - }, - { - "epoch": 17.5, - "grad_norm": 0.0004424745275173336, - "learning_rate": 8.335555555555557e-05, - "loss": 0.0001, - "step": 5250 - }, - { - "epoch": 17.516666666666666, - "grad_norm": 0.0005098132533021271, - "learning_rate": 8.324444444444444e-05, - "loss": 0.0001, - "step": 5255 - }, - { - "epoch": 17.533333333333335, - "grad_norm": 0.0004448130785021931, - "learning_rate": 8.313333333333334e-05, - "loss": 0.0001, - "step": 5260 - }, - { - "epoch": 17.55, - "grad_norm": 0.0004924663226120174, - "learning_rate": 8.302222222222222e-05, - "loss": 0.0001, - "step": 5265 - }, - { - "epoch": 17.566666666666666, - "grad_norm": 0.0006738837109878659, - "learning_rate": 8.291111111111112e-05, - "loss": 0.0001, - "step": 5270 - }, - { - "epoch": 17.583333333333332, - "grad_norm": 0.0004773933032993227, - "learning_rate": 8.28e-05, - "loss": 0.0001, - "step": 5275 - }, - { - "epoch": 17.6, - "grad_norm": 0.0005385245312936604, - "learning_rate": 8.268888888888889e-05, - "loss": 0.0001, - "step": 5280 - }, - { - "epoch": 17.616666666666667, - "grad_norm": 0.000527376658283174, - "learning_rate": 8.257777777777779e-05, - "loss": 0.0001, - "step": 5285 - }, - { - "epoch": 17.633333333333333, - "grad_norm": 0.0005253239651210606, - "learning_rate": 8.246666666666667e-05, - "loss": 0.0001, - "step": 5290 - }, - { - "epoch": 17.65, - "grad_norm": 0.0005124951130710542, - "learning_rate": 8.235555555555556e-05, - "loss": 0.0001, - "step": 5295 - }, - { - "epoch": 17.666666666666668, - "grad_norm": 0.0005799499340355396, - "learning_rate": 8.224444444444444e-05, - "loss": 0.0001, - "step": 5300 - }, - { - "epoch": 17.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.849821654434978, - "eval_loss": 0.9640341997146606, - "eval_precision": 0.8665953625836232, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.3324, - "eval_samples_per_second": 146.947, - "eval_steps_per_second": 18.368, - "step": 5300 - }, - { - "epoch": 17.683333333333334, - "grad_norm": 0.00046302445116452873, - "learning_rate": 8.213333333333334e-05, - "loss": 0.0001, - "step": 5305 - }, - { - "epoch": 17.7, - "grad_norm": 0.0006577731692232192, - "learning_rate": 8.202222222222223e-05, - "loss": 0.0001, - "step": 5310 - }, - { - "epoch": 17.716666666666665, - "grad_norm": 0.0005274518625810742, - "learning_rate": 8.191111111111111e-05, - "loss": 0.0001, - "step": 5315 - }, - { - "epoch": 17.733333333333334, - "grad_norm": 0.0004950123257003725, - "learning_rate": 8.18e-05, - "loss": 0.0001, - "step": 5320 - }, - { - "epoch": 17.75, - "grad_norm": 0.0005038065719418228, - "learning_rate": 8.16888888888889e-05, - "loss": 0.0001, - "step": 5325 - }, - { - "epoch": 17.766666666666666, - "grad_norm": 0.0004942173836752772, - "learning_rate": 8.157777777777779e-05, - "loss": 0.0001, - "step": 5330 - }, - { - "epoch": 17.783333333333335, - "grad_norm": 0.0005054863286204636, - "learning_rate": 8.146666666666666e-05, - "loss": 0.0001, - "step": 5335 - }, - { - "epoch": 17.8, - "grad_norm": 0.00047163470298983157, - "learning_rate": 8.135555555555556e-05, - "loss": 0.0001, - "step": 5340 - }, - { - "epoch": 17.816666666666666, - "grad_norm": 0.0006497229333035648, - "learning_rate": 8.124444444444445e-05, - "loss": 0.0001, - "step": 5345 - }, - { - "epoch": 17.833333333333332, - "grad_norm": 0.000452403532108292, - "learning_rate": 8.113333333333334e-05, - "loss": 0.0001, - "step": 5350 - }, - { - "epoch": 17.85, - "grad_norm": 0.00045077537652105093, - "learning_rate": 8.102222222222222e-05, - "loss": 0.0001, - "step": 5355 - }, - { - "epoch": 17.866666666666667, - "grad_norm": 0.0005225049681030214, - "learning_rate": 8.091111111111111e-05, - "loss": 0.0001, - "step": 5360 - }, - { - "epoch": 17.883333333333333, - "grad_norm": 0.000473509804578498, - "learning_rate": 8.080000000000001e-05, - "loss": 0.0001, - "step": 5365 - }, - { - "epoch": 17.9, - "grad_norm": 0.00046375440433621407, - "learning_rate": 8.06888888888889e-05, - "loss": 0.0001, - "step": 5370 - }, - { - "epoch": 17.916666666666668, - "grad_norm": 0.0004688831977546215, - "learning_rate": 8.057777777777778e-05, - "loss": 0.0001, - "step": 5375 - }, - { - "epoch": 17.933333333333334, - "grad_norm": 0.0004664724983740598, - "learning_rate": 8.046666666666667e-05, - "loss": 0.0001, - "step": 5380 - }, - { - "epoch": 17.95, - "grad_norm": 0.00043734596692956984, - "learning_rate": 8.035555555555556e-05, - "loss": 0.0001, - "step": 5385 - }, - { - "epoch": 17.966666666666665, - "grad_norm": 0.0005290173576213419, - "learning_rate": 8.024444444444445e-05, - "loss": 0.0001, - "step": 5390 - }, - { - "epoch": 17.983333333333334, - "grad_norm": 0.0004664583539124578, - "learning_rate": 8.013333333333333e-05, - "loss": 0.0001, - "step": 5395 - }, - { - "epoch": 18.0, - "grad_norm": 0.000577576516661793, - "learning_rate": 8.002222222222222e-05, - "loss": 0.0001, - "step": 5400 - }, - { - "epoch": 18.0, - "eval_accuracy": 0.84625, - "eval_f1": 0.8493700189767743, - "eval_loss": 0.972210705280304, - "eval_precision": 0.8662270391213336, - "eval_recall": 0.84625, - "eval_runtime": 16.3561, - "eval_samples_per_second": 146.735, - "eval_steps_per_second": 18.342, - "step": 5400 - }, - { - "epoch": 18.016666666666666, - "grad_norm": 0.0004290815268177539, - "learning_rate": 7.991111111111112e-05, - "loss": 0.0001, - "step": 5405 - }, - { - "epoch": 18.033333333333335, - "grad_norm": 0.0004076830227859318, - "learning_rate": 7.98e-05, - "loss": 0.0001, - "step": 5410 - }, - { - "epoch": 18.05, - "grad_norm": 0.00046958276652731, - "learning_rate": 7.968888888888889e-05, - "loss": 0.0001, - "step": 5415 - }, - { - "epoch": 18.066666666666666, - "grad_norm": 0.0004198600072413683, - "learning_rate": 7.957777777777778e-05, - "loss": 0.0001, - "step": 5420 - }, - { - "epoch": 18.083333333333332, - "grad_norm": 0.00044598354725167155, - "learning_rate": 7.946666666666667e-05, - "loss": 0.0001, - "step": 5425 - }, - { - "epoch": 18.1, - "grad_norm": 0.0005130433710291982, - "learning_rate": 7.935555555555557e-05, - "loss": 0.0001, - "step": 5430 - }, - { - "epoch": 18.116666666666667, - "grad_norm": 0.00046939015737734735, - "learning_rate": 7.924444444444444e-05, - "loss": 0.0001, - "step": 5435 - }, - { - "epoch": 18.133333333333333, - "grad_norm": 0.0005350983119569719, - "learning_rate": 7.913333333333334e-05, - "loss": 0.0001, - "step": 5440 - }, - { - "epoch": 18.15, - "grad_norm": 0.00044235849054530263, - "learning_rate": 7.902222222222224e-05, - "loss": 0.0001, - "step": 5445 - }, - { - "epoch": 18.166666666666668, - "grad_norm": 0.00047676797839812934, - "learning_rate": 7.891111111111112e-05, - "loss": 0.0001, - "step": 5450 - }, - { - "epoch": 18.183333333333334, - "grad_norm": 0.000542629393748939, - "learning_rate": 7.88e-05, - "loss": 0.0001, - "step": 5455 - }, - { - "epoch": 18.2, - "grad_norm": 0.0004962372477166355, - "learning_rate": 7.868888888888889e-05, - "loss": 0.0001, - "step": 5460 - }, - { - "epoch": 18.216666666666665, - "grad_norm": 0.0004516904300544411, - "learning_rate": 7.857777777777779e-05, - "loss": 0.0001, - "step": 5465 - }, - { - "epoch": 18.233333333333334, - "grad_norm": 0.0003831650537904352, - "learning_rate": 7.846666666666667e-05, - "loss": 0.0001, - "step": 5470 - }, - { - "epoch": 18.25, - "grad_norm": 0.000418821262428537, - "learning_rate": 7.835555555555556e-05, - "loss": 0.0001, - "step": 5475 - }, - { - "epoch": 18.266666666666666, - "grad_norm": 0.0004947162233293056, - "learning_rate": 7.824444444444445e-05, - "loss": 0.0001, - "step": 5480 - }, - { - "epoch": 18.283333333333335, - "grad_norm": 0.0004975447664037347, - "learning_rate": 7.813333333333334e-05, - "loss": 0.0001, - "step": 5485 - }, - { - "epoch": 18.3, - "grad_norm": 0.00042129267239943147, - "learning_rate": 7.802222222222222e-05, - "loss": 0.0001, - "step": 5490 - }, - { - "epoch": 18.316666666666666, - "grad_norm": 0.00042434531496837735, - "learning_rate": 7.791111111111111e-05, - "loss": 0.0001, - "step": 5495 - }, - { - "epoch": 18.333333333333332, - "grad_norm": 0.0005177127895876765, - "learning_rate": 7.780000000000001e-05, - "loss": 0.0001, - "step": 5500 - }, - { - "epoch": 18.333333333333332, - "eval_accuracy": 0.84625, - "eval_f1": 0.8493941579921206, - "eval_loss": 0.9798949956893921, - "eval_precision": 0.8664228040897209, - "eval_recall": 0.84625, - "eval_runtime": 16.6102, - "eval_samples_per_second": 144.489, - "eval_steps_per_second": 18.061, - "step": 5500 - }, - { - "epoch": 18.35, - "grad_norm": 0.0004833277780562639, - "learning_rate": 7.768888888888889e-05, - "loss": 0.0001, - "step": 5505 - }, - { - "epoch": 18.366666666666667, - "grad_norm": 0.00045644593774341047, - "learning_rate": 7.757777777777778e-05, - "loss": 0.0001, - "step": 5510 - }, - { - "epoch": 18.383333333333333, - "grad_norm": 0.0004358477599453181, - "learning_rate": 7.746666666666666e-05, - "loss": 0.0001, - "step": 5515 - }, - { - "epoch": 18.4, - "grad_norm": 0.0005003006663173437, - "learning_rate": 7.735555555555556e-05, - "loss": 0.0001, - "step": 5520 - }, - { - "epoch": 18.416666666666668, - "grad_norm": 0.0004472880100365728, - "learning_rate": 7.724444444444446e-05, - "loss": 0.0001, - "step": 5525 - }, - { - "epoch": 18.433333333333334, - "grad_norm": 0.0004530094738584012, - "learning_rate": 7.713333333333333e-05, - "loss": 0.0001, - "step": 5530 - }, - { - "epoch": 18.45, - "grad_norm": 0.00043826529872603714, - "learning_rate": 7.702222222222223e-05, - "loss": 0.0001, - "step": 5535 - }, - { - "epoch": 18.466666666666665, - "grad_norm": 0.0003857858246192336, - "learning_rate": 7.691111111111111e-05, - "loss": 0.0001, - "step": 5540 - }, - { - "epoch": 18.483333333333334, - "grad_norm": 0.0004892111173830926, - "learning_rate": 7.680000000000001e-05, - "loss": 0.0001, - "step": 5545 - }, - { - "epoch": 18.5, - "grad_norm": 0.0004311349766794592, - "learning_rate": 7.668888888888888e-05, - "loss": 0.0001, - "step": 5550 - }, - { - "epoch": 18.516666666666666, - "grad_norm": 0.0004185062716715038, - "learning_rate": 7.657777777777778e-05, - "loss": 0.0001, - "step": 5555 - }, - { - "epoch": 18.533333333333335, - "grad_norm": 0.0004578453954309225, - "learning_rate": 7.646666666666668e-05, - "loss": 0.0001, - "step": 5560 - }, - { - "epoch": 18.55, - "grad_norm": 0.0004885430680587888, - "learning_rate": 7.635555555555556e-05, - "loss": 0.0001, - "step": 5565 - }, - { - "epoch": 18.566666666666666, - "grad_norm": 0.0003907489008270204, - "learning_rate": 7.624444444444445e-05, - "loss": 0.0001, - "step": 5570 - }, - { - "epoch": 18.583333333333332, - "grad_norm": 0.0003898806171491742, - "learning_rate": 7.613333333333333e-05, - "loss": 0.0001, - "step": 5575 - }, - { - "epoch": 18.6, - "grad_norm": 0.0004097476485185325, - "learning_rate": 7.602222222222223e-05, - "loss": 0.0001, - "step": 5580 - }, - { - "epoch": 18.616666666666667, - "grad_norm": 0.0006422013975679874, - "learning_rate": 7.591111111111111e-05, - "loss": 0.0001, - "step": 5585 - }, - { - "epoch": 18.633333333333333, - "grad_norm": 0.00044671594514511526, - "learning_rate": 7.58e-05, - "loss": 0.0001, - "step": 5590 - }, - { - "epoch": 18.65, - "grad_norm": 0.00042873076745308936, - "learning_rate": 7.56888888888889e-05, - "loss": 0.0001, - "step": 5595 - }, - { - "epoch": 18.666666666666668, - "grad_norm": 0.0004029326082672924, - "learning_rate": 7.557777777777778e-05, - "loss": 0.0001, - "step": 5600 - }, - { - "epoch": 18.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8497621622947166, - "eval_loss": 0.9872198700904846, - "eval_precision": 0.8666769739053867, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.5546, - "eval_samples_per_second": 144.975, - "eval_steps_per_second": 18.122, - "step": 5600 - }, - { - "epoch": 18.683333333333334, - "grad_norm": 0.00039307543192990124, - "learning_rate": 7.546666666666668e-05, - "loss": 0.0001, - "step": 5605 - }, - { - "epoch": 18.7, - "grad_norm": 0.0003930055536329746, - "learning_rate": 7.535555555555555e-05, - "loss": 0.0001, - "step": 5610 - }, - { - "epoch": 18.716666666666665, - "grad_norm": 0.0004848763346672058, - "learning_rate": 7.524444444444445e-05, - "loss": 0.0001, - "step": 5615 - }, - { - "epoch": 18.733333333333334, - "grad_norm": 0.0003810345951933414, - "learning_rate": 7.513333333333333e-05, - "loss": 0.0001, - "step": 5620 - }, - { - "epoch": 18.75, - "grad_norm": 0.000427526596467942, - "learning_rate": 7.502222222222223e-05, - "loss": 0.0001, - "step": 5625 - }, - { - "epoch": 18.766666666666666, - "grad_norm": 0.0004167220613453537, - "learning_rate": 7.49111111111111e-05, - "loss": 0.0001, - "step": 5630 - }, - { - "epoch": 18.783333333333335, - "grad_norm": 0.0004318416758906096, - "learning_rate": 7.48e-05, - "loss": 0.0001, - "step": 5635 - }, - { - "epoch": 18.8, - "grad_norm": 0.00038247316842898726, - "learning_rate": 7.46888888888889e-05, - "loss": 0.0001, - "step": 5640 - }, - { - "epoch": 18.816666666666666, - "grad_norm": 0.0005820749211125076, - "learning_rate": 7.457777777777779e-05, - "loss": 0.0001, - "step": 5645 - }, - { - "epoch": 18.833333333333332, - "grad_norm": 0.0003523474733810872, - "learning_rate": 7.446666666666667e-05, - "loss": 0.0001, - "step": 5650 - }, - { - "epoch": 18.85, - "grad_norm": 0.0004264508606866002, - "learning_rate": 7.435555555555555e-05, - "loss": 0.0001, - "step": 5655 - }, - { - "epoch": 18.866666666666667, - "grad_norm": 0.00039805579581297934, - "learning_rate": 7.424444444444445e-05, - "loss": 0.0001, - "step": 5660 - }, - { - "epoch": 18.883333333333333, - "grad_norm": 0.0004367689834907651, - "learning_rate": 7.413333333333334e-05, - "loss": 0.0001, - "step": 5665 - }, - { - "epoch": 18.9, - "grad_norm": 0.00034829965443350375, - "learning_rate": 7.402222222222222e-05, - "loss": 0.0001, - "step": 5670 - }, - { - "epoch": 18.916666666666668, - "grad_norm": 0.000412922992836684, - "learning_rate": 7.391111111111112e-05, - "loss": 0.0001, - "step": 5675 - }, - { - "epoch": 18.933333333333334, - "grad_norm": 0.0004263285081833601, - "learning_rate": 7.38e-05, - "loss": 0.0001, - "step": 5680 - }, - { - "epoch": 18.95, - "grad_norm": 0.0003809833142440766, - "learning_rate": 7.368888888888889e-05, - "loss": 0.0001, - "step": 5685 - }, - { - "epoch": 18.966666666666665, - "grad_norm": 0.0003525941865518689, - "learning_rate": 7.357777777777777e-05, - "loss": 0.0001, - "step": 5690 - }, - { - "epoch": 18.983333333333334, - "grad_norm": 0.0004200638795737177, - "learning_rate": 7.346666666666667e-05, - "loss": 0.0001, - "step": 5695 - }, - { - "epoch": 19.0, - "grad_norm": 0.00040392804658040404, - "learning_rate": 7.335555555555556e-05, - "loss": 0.0001, - "step": 5700 - }, - { - "epoch": 19.0, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8497621622947166, - "eval_loss": 0.9936496019363403, - "eval_precision": 0.8666769739053867, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.3719, - "eval_samples_per_second": 146.593, - "eval_steps_per_second": 18.324, - "step": 5700 - }, - { - "epoch": 19.016666666666666, - "grad_norm": 0.00040534662548452616, - "learning_rate": 7.324444444444446e-05, - "loss": 0.0001, - "step": 5705 - }, - { - "epoch": 19.033333333333335, - "grad_norm": 0.0003693576145451516, - "learning_rate": 7.313333333333333e-05, - "loss": 0.0001, - "step": 5710 - }, - { - "epoch": 19.05, - "grad_norm": 0.00043143925722688437, - "learning_rate": 7.302222222222222e-05, - "loss": 0.0001, - "step": 5715 - }, - { - "epoch": 19.066666666666666, - "grad_norm": 0.0003499985614325851, - "learning_rate": 7.291111111111112e-05, - "loss": 0.0001, - "step": 5720 - }, - { - "epoch": 19.083333333333332, - "grad_norm": 0.00044072166201658547, - "learning_rate": 7.280000000000001e-05, - "loss": 0.0001, - "step": 5725 - }, - { - "epoch": 19.1, - "grad_norm": 0.0004105837142560631, - "learning_rate": 7.268888888888889e-05, - "loss": 0.0001, - "step": 5730 - }, - { - "epoch": 19.116666666666667, - "grad_norm": 0.0003713664482347667, - "learning_rate": 7.257777777777778e-05, - "loss": 0.0001, - "step": 5735 - }, - { - "epoch": 19.133333333333333, - "grad_norm": 0.00042718337499536574, - "learning_rate": 7.246666666666668e-05, - "loss": 0.0001, - "step": 5740 - }, - { - "epoch": 19.15, - "grad_norm": 0.00037446661735884845, - "learning_rate": 7.235555555555556e-05, - "loss": 0.0001, - "step": 5745 - }, - { - "epoch": 19.166666666666668, - "grad_norm": 0.00033181466278620064, - "learning_rate": 7.224444444444444e-05, - "loss": 0.0001, - "step": 5750 - }, - { - "epoch": 19.183333333333334, - "grad_norm": 0.00035667556221596897, - "learning_rate": 7.213333333333334e-05, - "loss": 0.0001, - "step": 5755 - }, - { - "epoch": 19.2, - "grad_norm": 0.00035644398303702474, - "learning_rate": 7.202222222222223e-05, - "loss": 0.0001, - "step": 5760 - }, - { - "epoch": 19.216666666666665, - "grad_norm": 0.0005198923754505813, - "learning_rate": 7.191111111111111e-05, - "loss": 0.0001, - "step": 5765 - }, - { - "epoch": 19.233333333333334, - "grad_norm": 0.00037159238127060235, - "learning_rate": 7.18e-05, - "loss": 0.0001, - "step": 5770 - }, - { - "epoch": 19.25, - "grad_norm": 0.000389581749914214, - "learning_rate": 7.16888888888889e-05, - "loss": 0.0001, - "step": 5775 - }, - { - "epoch": 19.266666666666666, - "grad_norm": 0.0003576250746846199, - "learning_rate": 7.157777777777778e-05, - "loss": 0.0001, - "step": 5780 - }, - { - "epoch": 19.283333333333335, - "grad_norm": 0.0003537594748195261, - "learning_rate": 7.146666666666666e-05, - "loss": 0.0001, - "step": 5785 - }, - { - "epoch": 19.3, - "grad_norm": 0.00040710074244998395, - "learning_rate": 7.135555555555556e-05, - "loss": 0.0001, - "step": 5790 - }, - { - "epoch": 19.316666666666666, - "grad_norm": 0.0003576731833163649, - "learning_rate": 7.124444444444445e-05, - "loss": 0.0001, - "step": 5795 - }, - { - "epoch": 19.333333333333332, - "grad_norm": 0.00039478493272326887, - "learning_rate": 7.113333333333335e-05, - "loss": 0.0001, - "step": 5800 - }, - { - "epoch": 19.333333333333332, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8497621622947166, - "eval_loss": 0.9997326731681824, - "eval_precision": 0.8666769739053867, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.2811, - "eval_samples_per_second": 147.411, - "eval_steps_per_second": 18.426, - "step": 5800 - }, - { - "epoch": 19.35, - "grad_norm": 0.0003503870393615216, - "learning_rate": 7.102222222222222e-05, - "loss": 0.0001, - "step": 5805 - }, - { - "epoch": 19.366666666666667, - "grad_norm": 0.00036718958290293813, - "learning_rate": 7.091111111111112e-05, - "loss": 0.0001, - "step": 5810 - }, - { - "epoch": 19.383333333333333, - "grad_norm": 0.00038162319106049836, - "learning_rate": 7.08e-05, - "loss": 0.0001, - "step": 5815 - }, - { - "epoch": 19.4, - "grad_norm": 0.0003364746808074415, - "learning_rate": 7.06888888888889e-05, - "loss": 0.0001, - "step": 5820 - }, - { - "epoch": 19.416666666666668, - "grad_norm": 0.000391030334867537, - "learning_rate": 7.057777777777778e-05, - "loss": 0.0001, - "step": 5825 - }, - { - "epoch": 19.433333333333334, - "grad_norm": 0.0004597076040226966, - "learning_rate": 7.046666666666667e-05, - "loss": 0.0001, - "step": 5830 - }, - { - "epoch": 19.45, - "grad_norm": 0.00040942049236036837, - "learning_rate": 7.035555555555557e-05, - "loss": 0.0001, - "step": 5835 - }, - { - "epoch": 19.466666666666665, - "grad_norm": 0.0003660785441752523, - "learning_rate": 7.024444444444445e-05, - "loss": 0.0001, - "step": 5840 - }, - { - "epoch": 19.483333333333334, - "grad_norm": 0.000387304782634601, - "learning_rate": 7.013333333333333e-05, - "loss": 0.0001, - "step": 5845 - }, - { - "epoch": 19.5, - "grad_norm": 0.0003597075992729515, - "learning_rate": 7.002222222222222e-05, - "loss": 0.0001, - "step": 5850 - }, - { - "epoch": 19.516666666666666, - "grad_norm": 0.0003729045274667442, - "learning_rate": 6.991111111111112e-05, - "loss": 0.0001, - "step": 5855 - }, - { - "epoch": 19.533333333333335, - "grad_norm": 0.0004420547338668257, - "learning_rate": 6.98e-05, - "loss": 0.0001, - "step": 5860 - }, - { - "epoch": 19.55, - "grad_norm": 0.00046014448162168264, - "learning_rate": 6.968888888888889e-05, - "loss": 0.0001, - "step": 5865 - }, - { - "epoch": 19.566666666666666, - "grad_norm": 0.00038809512625448406, - "learning_rate": 6.957777777777779e-05, - "loss": 0.0001, - "step": 5870 - }, - { - "epoch": 19.583333333333332, - "grad_norm": 0.0004520648217294365, - "learning_rate": 6.946666666666667e-05, - "loss": 0.0001, - "step": 5875 - }, - { - "epoch": 19.6, - "grad_norm": 0.00037230452289804816, - "learning_rate": 6.935555555555557e-05, - "loss": 0.0001, - "step": 5880 - }, - { - "epoch": 19.616666666666667, - "grad_norm": 0.00039651020779274404, - "learning_rate": 6.924444444444444e-05, - "loss": 0.0001, - "step": 5885 - }, - { - "epoch": 19.633333333333333, - "grad_norm": 0.00036767395795322955, - "learning_rate": 6.913333333333334e-05, - "loss": 0.0001, - "step": 5890 - }, - { - "epoch": 19.65, - "grad_norm": 0.0004111083399038762, - "learning_rate": 6.902222222222222e-05, - "loss": 0.0001, - "step": 5895 - }, - { - "epoch": 19.666666666666668, - "grad_norm": 0.0003926433564629406, - "learning_rate": 6.891111111111112e-05, - "loss": 0.0001, - "step": 5900 - }, - { - "epoch": 19.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8497621622947166, - "eval_loss": 1.006157636642456, - "eval_precision": 0.8666769739053867, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.4169, - "eval_samples_per_second": 146.191, - "eval_steps_per_second": 18.274, - "step": 5900 - }, - { - "epoch": 19.683333333333334, - "grad_norm": 0.000350355840055272, - "learning_rate": 6.879999999999999e-05, - "loss": 0.0001, - "step": 5905 - }, - { - "epoch": 19.7, - "grad_norm": 0.0003407159820199013, - "learning_rate": 6.868888888888889e-05, - "loss": 0.0001, - "step": 5910 - }, - { - "epoch": 19.716666666666665, - "grad_norm": 0.000377983640646562, - "learning_rate": 6.857777777777779e-05, - "loss": 0.0001, - "step": 5915 - }, - { - "epoch": 19.733333333333334, - "grad_norm": 0.00031219483935274184, - "learning_rate": 6.846666666666667e-05, - "loss": 0.0001, - "step": 5920 - }, - { - "epoch": 19.75, - "grad_norm": 0.00037750237970612943, - "learning_rate": 6.835555555555556e-05, - "loss": 0.0001, - "step": 5925 - }, - { - "epoch": 19.766666666666666, - "grad_norm": 0.0003450834774412215, - "learning_rate": 6.824444444444444e-05, - "loss": 0.0001, - "step": 5930 - }, - { - "epoch": 19.783333333333335, - "grad_norm": 0.0003122419584542513, - "learning_rate": 6.813333333333334e-05, - "loss": 0.0001, - "step": 5935 - }, - { - "epoch": 19.8, - "grad_norm": 0.0003602392098400742, - "learning_rate": 6.802222222222223e-05, - "loss": 0.0001, - "step": 5940 - }, - { - "epoch": 19.816666666666666, - "grad_norm": 0.00034306960878893733, - "learning_rate": 6.791111111111111e-05, - "loss": 0.0001, - "step": 5945 - }, - { - "epoch": 19.833333333333332, - "grad_norm": 0.0003752112970687449, - "learning_rate": 6.780000000000001e-05, - "loss": 0.0001, - "step": 5950 - }, - { - "epoch": 19.85, - "grad_norm": 0.0005316081806086004, - "learning_rate": 6.768888888888889e-05, - "loss": 0.0001, - "step": 5955 - }, - { - "epoch": 19.866666666666667, - "grad_norm": 0.0003587728424463421, - "learning_rate": 6.757777777777778e-05, - "loss": 0.0001, - "step": 5960 - }, - { - "epoch": 19.883333333333333, - "grad_norm": 0.00037142648943699896, - "learning_rate": 6.746666666666666e-05, - "loss": 0.0001, - "step": 5965 - }, - { - "epoch": 19.9, - "grad_norm": 0.0003785615845117718, - "learning_rate": 6.735555555555556e-05, - "loss": 0.0001, - "step": 5970 - }, - { - "epoch": 19.916666666666668, - "grad_norm": 0.00034771370701491833, - "learning_rate": 6.724444444444445e-05, - "loss": 0.0001, - "step": 5975 - }, - { - "epoch": 19.933333333333334, - "grad_norm": 0.0004260664281900972, - "learning_rate": 6.713333333333334e-05, - "loss": 0.0001, - "step": 5980 - }, - { - "epoch": 19.95, - "grad_norm": 0.0003171595453750342, - "learning_rate": 6.702222222222223e-05, - "loss": 0.0001, - "step": 5985 - }, - { - "epoch": 19.966666666666665, - "grad_norm": 0.0005709322867915034, - "learning_rate": 6.691111111111111e-05, - "loss": 0.0001, - "step": 5990 - }, - { - "epoch": 19.983333333333334, - "grad_norm": 0.0003708973526954651, - "learning_rate": 6.680000000000001e-05, - "loss": 0.0001, - "step": 5995 - }, - { - "epoch": 20.0, - "grad_norm": 0.0004001232737209648, - "learning_rate": 6.66888888888889e-05, - "loss": 0.0001, - "step": 6000 - }, - { - "epoch": 20.0, - "eval_accuracy": 0.84625, - "eval_f1": 0.8493097148077116, - "eval_loss": 1.0122462511062622, - "eval_precision": 0.8663084509214503, - "eval_recall": 0.84625, - "eval_runtime": 16.3231, - "eval_samples_per_second": 147.031, - "eval_steps_per_second": 18.379, - "step": 6000 - }, - { - "epoch": 20.016666666666666, - "grad_norm": 0.00034280578256584704, - "learning_rate": 6.657777777777778e-05, - "loss": 0.0001, - "step": 6005 - }, - { - "epoch": 20.033333333333335, - "grad_norm": 0.00032948111766017973, - "learning_rate": 6.646666666666667e-05, - "loss": 0.0001, - "step": 6010 - }, - { - "epoch": 20.05, - "grad_norm": 0.0003257366770412773, - "learning_rate": 6.635555555555556e-05, - "loss": 0.0001, - "step": 6015 - }, - { - "epoch": 20.066666666666666, - "grad_norm": 0.00033540272852405906, - "learning_rate": 6.624444444444445e-05, - "loss": 0.0001, - "step": 6020 - }, - { - "epoch": 20.083333333333332, - "grad_norm": 0.0003287060826551169, - "learning_rate": 6.613333333333333e-05, - "loss": 0.0001, - "step": 6025 - }, - { - "epoch": 20.1, - "grad_norm": 0.0003395001986064017, - "learning_rate": 6.602222222222223e-05, - "loss": 0.0001, - "step": 6030 - }, - { - "epoch": 20.116666666666667, - "grad_norm": 0.00034529261756688356, - "learning_rate": 6.591111111111112e-05, - "loss": 0.0001, - "step": 6035 - }, - { - "epoch": 20.133333333333333, - "grad_norm": 0.00040423034806735814, - "learning_rate": 6.58e-05, - "loss": 0.0001, - "step": 6040 - }, - { - "epoch": 20.15, - "grad_norm": 0.00033747314591892064, - "learning_rate": 6.568888888888888e-05, - "loss": 0.0001, - "step": 6045 - }, - { - "epoch": 20.166666666666668, - "grad_norm": 0.000339914666255936, - "learning_rate": 6.557777777777778e-05, - "loss": 0.0001, - "step": 6050 - }, - { - "epoch": 20.183333333333334, - "grad_norm": 0.00034859165316447616, - "learning_rate": 6.546666666666667e-05, - "loss": 0.0001, - "step": 6055 - }, - { - "epoch": 20.2, - "grad_norm": 0.0003318962117191404, - "learning_rate": 6.535555555555555e-05, - "loss": 0.0001, - "step": 6060 - }, - { - "epoch": 20.216666666666665, - "grad_norm": 0.00032194817322306335, - "learning_rate": 6.524444444444445e-05, - "loss": 0.0001, - "step": 6065 - }, - { - "epoch": 20.233333333333334, - "grad_norm": 0.00030672995490022004, - "learning_rate": 6.513333333333334e-05, - "loss": 0.0001, - "step": 6070 - }, - { - "epoch": 20.25, - "grad_norm": 0.00039740875945426524, - "learning_rate": 6.502222222222223e-05, - "loss": 0.0001, - "step": 6075 - }, - { - "epoch": 20.266666666666666, - "grad_norm": 0.00032424196251668036, - "learning_rate": 6.49111111111111e-05, - "loss": 0.0001, - "step": 6080 - }, - { - "epoch": 20.283333333333335, - "grad_norm": 0.0003057415597140789, - "learning_rate": 6.48e-05, - "loss": 0.0001, - "step": 6085 - }, - { - "epoch": 20.3, - "grad_norm": 0.00039261230267584324, - "learning_rate": 6.468888888888889e-05, - "loss": 0.0001, - "step": 6090 - }, - { - "epoch": 20.316666666666666, - "grad_norm": 0.0003307255683466792, - "learning_rate": 6.457777777777779e-05, - "loss": 0.0001, - "step": 6095 - }, - { - "epoch": 20.333333333333332, - "grad_norm": 0.0003373075451236218, - "learning_rate": 6.446666666666667e-05, - "loss": 0.0001, - "step": 6100 - }, - { - "epoch": 20.333333333333332, - "eval_accuracy": 0.84625, - "eval_f1": 0.8493097148077116, - "eval_loss": 1.0177372694015503, - "eval_precision": 0.8663084509214503, - "eval_recall": 0.84625, - "eval_runtime": 16.3711, - "eval_samples_per_second": 146.6, - "eval_steps_per_second": 18.325, - "step": 6100 - }, - { - "epoch": 20.35, - "grad_norm": 0.00030849737231619656, - "learning_rate": 6.435555555555556e-05, - "loss": 0.0001, - "step": 6105 - }, - { - "epoch": 20.366666666666667, - "grad_norm": 0.0003306195139884949, - "learning_rate": 6.424444444444445e-05, - "loss": 0.0001, - "step": 6110 - }, - { - "epoch": 20.383333333333333, - "grad_norm": 0.00032685333280824125, - "learning_rate": 6.413333333333334e-05, - "loss": 0.0001, - "step": 6115 - }, - { - "epoch": 20.4, - "grad_norm": 0.00036085007013753057, - "learning_rate": 6.402222222222222e-05, - "loss": 0.0001, - "step": 6120 - }, - { - "epoch": 20.416666666666668, - "grad_norm": 0.0002966580796055496, - "learning_rate": 6.391111111111111e-05, - "loss": 0.0001, - "step": 6125 - }, - { - "epoch": 20.433333333333334, - "grad_norm": 0.0003865486942231655, - "learning_rate": 6.38e-05, - "loss": 0.0001, - "step": 6130 - }, - { - "epoch": 20.45, - "grad_norm": 0.0003464166074991226, - "learning_rate": 6.368888888888889e-05, - "loss": 0.0001, - "step": 6135 - }, - { - "epoch": 20.466666666666665, - "grad_norm": 0.0003041450399905443, - "learning_rate": 6.357777777777778e-05, - "loss": 0.0001, - "step": 6140 - }, - { - "epoch": 20.483333333333334, - "grad_norm": 0.0003049239458050579, - "learning_rate": 6.346666666666667e-05, - "loss": 0.0001, - "step": 6145 - }, - { - "epoch": 20.5, - "grad_norm": 0.00030182639602571726, - "learning_rate": 6.335555555555556e-05, - "loss": 0.0001, - "step": 6150 - }, - { - "epoch": 20.516666666666666, - "grad_norm": 0.00031763530569151044, - "learning_rate": 6.324444444444446e-05, - "loss": 0.0001, - "step": 6155 - }, - { - "epoch": 20.533333333333335, - "grad_norm": 0.00030972581589594483, - "learning_rate": 6.313333333333333e-05, - "loss": 0.0001, - "step": 6160 - }, - { - "epoch": 20.55, - "grad_norm": 0.0003973422572016716, - "learning_rate": 6.302222222222223e-05, - "loss": 0.0001, - "step": 6165 - }, - { - "epoch": 20.566666666666666, - "grad_norm": 0.0004407772794365883, - "learning_rate": 6.291111111111111e-05, - "loss": 0.0001, - "step": 6170 - }, - { - "epoch": 20.583333333333332, - "grad_norm": 0.0003735410573426634, - "learning_rate": 6.280000000000001e-05, - "loss": 0.0001, - "step": 6175 - }, - { - "epoch": 20.6, - "grad_norm": 0.00031092920107766986, - "learning_rate": 6.26888888888889e-05, - "loss": 0.0001, - "step": 6180 - }, - { - "epoch": 20.616666666666667, - "grad_norm": 0.0003149132535327226, - "learning_rate": 6.257777777777778e-05, - "loss": 0.0001, - "step": 6185 - }, - { - "epoch": 20.633333333333333, - "grad_norm": 0.0010748879285529256, - "learning_rate": 6.246666666666668e-05, - "loss": 0.0001, - "step": 6190 - }, - { - "epoch": 20.65, - "grad_norm": 0.00032994497450999916, - "learning_rate": 6.235555555555556e-05, - "loss": 0.0001, - "step": 6195 - }, - { - "epoch": 20.666666666666668, - "grad_norm": 0.00036043828004039824, - "learning_rate": 6.224444444444445e-05, - "loss": 0.0001, - "step": 6200 - }, - { - "epoch": 20.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8497621622947166, - "eval_loss": 1.0232497453689575, - "eval_precision": 0.8666769739053867, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.6085, - "eval_samples_per_second": 144.505, - "eval_steps_per_second": 18.063, - "step": 6200 - }, - { - "epoch": 20.683333333333334, - "grad_norm": 0.0002916869707405567, - "learning_rate": 6.213333333333333e-05, - "loss": 0.0001, - "step": 6205 - }, - { - "epoch": 20.7, - "grad_norm": 0.00031737706740386784, - "learning_rate": 6.202222222222223e-05, - "loss": 0.0001, - "step": 6210 - }, - { - "epoch": 20.716666666666665, - "grad_norm": 0.0003034040564671159, - "learning_rate": 6.191111111111111e-05, - "loss": 0.0001, - "step": 6215 - }, - { - "epoch": 20.733333333333334, - "grad_norm": 0.0003121573245152831, - "learning_rate": 6.18e-05, - "loss": 0.0001, - "step": 6220 - }, - { - "epoch": 20.75, - "grad_norm": 0.00033068371703848243, - "learning_rate": 6.16888888888889e-05, - "loss": 0.0001, - "step": 6225 - }, - { - "epoch": 20.766666666666666, - "grad_norm": 0.0003286339924670756, - "learning_rate": 6.157777777777778e-05, - "loss": 0.0001, - "step": 6230 - }, - { - "epoch": 20.783333333333335, - "grad_norm": 0.0002851180615834892, - "learning_rate": 6.146666666666668e-05, - "loss": 0.0001, - "step": 6235 - }, - { - "epoch": 20.8, - "grad_norm": 0.0003373599611222744, - "learning_rate": 6.135555555555555e-05, - "loss": 0.0001, - "step": 6240 - }, - { - "epoch": 20.816666666666666, - "grad_norm": 0.0004299819702282548, - "learning_rate": 6.124444444444445e-05, - "loss": 0.0001, - "step": 6245 - }, - { - "epoch": 20.833333333333332, - "grad_norm": 0.0003284139384049922, - "learning_rate": 6.113333333333333e-05, - "loss": 0.0001, - "step": 6250 - }, - { - "epoch": 20.85, - "grad_norm": 0.00032671637018211186, - "learning_rate": 6.1022222222222224e-05, - "loss": 0.0001, - "step": 6255 - }, - { - "epoch": 20.866666666666667, - "grad_norm": 0.00033904638257808983, - "learning_rate": 6.0911111111111116e-05, - "loss": 0.0001, - "step": 6260 - }, - { - "epoch": 20.883333333333333, - "grad_norm": 0.00031264315475709736, - "learning_rate": 6.08e-05, - "loss": 0.0001, - "step": 6265 - }, - { - "epoch": 20.9, - "grad_norm": 0.0002974886156152934, - "learning_rate": 6.068888888888889e-05, - "loss": 0.0001, - "step": 6270 - }, - { - "epoch": 20.916666666666668, - "grad_norm": 0.0003298237279523164, - "learning_rate": 6.057777777777778e-05, - "loss": 0.0001, - "step": 6275 - }, - { - "epoch": 20.933333333333334, - "grad_norm": 0.00035141149419359863, - "learning_rate": 6.046666666666667e-05, - "loss": 0.0001, - "step": 6280 - }, - { - "epoch": 20.95, - "grad_norm": 0.0003448575153015554, - "learning_rate": 6.035555555555555e-05, - "loss": 0.0001, - "step": 6285 - }, - { - "epoch": 20.966666666666665, - "grad_norm": 0.00031725261942483485, - "learning_rate": 6.024444444444445e-05, - "loss": 0.0001, - "step": 6290 - }, - { - "epoch": 20.983333333333334, - "grad_norm": 0.0002921987324953079, - "learning_rate": 6.013333333333334e-05, - "loss": 0.0001, - "step": 6295 - }, - { - "epoch": 21.0, - "grad_norm": 0.00031686213333159685, - "learning_rate": 6.002222222222223e-05, - "loss": 0.0001, - "step": 6300 - }, - { - "epoch": 21.0, - "eval_accuracy": 0.8470833333333333, - "eval_f1": 0.8501900577096031, - "eval_loss": 1.0290929079055786, - "eval_precision": 0.8671893040048311, - "eval_recall": 0.8470833333333333, - "eval_runtime": 16.6779, - "eval_samples_per_second": 143.903, - "eval_steps_per_second": 17.988, - "step": 6300 - }, - { - "epoch": 21.016666666666666, - "grad_norm": 0.00033305672695860267, - "learning_rate": 5.991111111111112e-05, - "loss": 0.0001, - "step": 6305 - }, - { - "epoch": 21.033333333333335, - "grad_norm": 0.00031256230431608856, - "learning_rate": 5.9800000000000003e-05, - "loss": 0.0001, - "step": 6310 - }, - { - "epoch": 21.05, - "grad_norm": 0.0003145363589283079, - "learning_rate": 5.9688888888888895e-05, - "loss": 0.0001, - "step": 6315 - }, - { - "epoch": 21.066666666666666, - "grad_norm": 0.0002913063217420131, - "learning_rate": 5.957777777777778e-05, - "loss": 0.0001, - "step": 6320 - }, - { - "epoch": 21.083333333333332, - "grad_norm": 0.0002896682417485863, - "learning_rate": 5.946666666666667e-05, - "loss": 0.0001, - "step": 6325 - }, - { - "epoch": 21.1, - "grad_norm": 0.00029178112163208425, - "learning_rate": 5.9355555555555556e-05, - "loss": 0.0001, - "step": 6330 - }, - { - "epoch": 21.116666666666667, - "grad_norm": 0.0002738349139690399, - "learning_rate": 5.924444444444445e-05, - "loss": 0.0001, - "step": 6335 - }, - { - "epoch": 21.133333333333333, - "grad_norm": 0.00027923230663873255, - "learning_rate": 5.913333333333334e-05, - "loss": 0.0001, - "step": 6340 - }, - { - "epoch": 21.15, - "grad_norm": 0.0004966908018104732, - "learning_rate": 5.902222222222222e-05, - "loss": 0.0001, - "step": 6345 - }, - { - "epoch": 21.166666666666668, - "grad_norm": 0.0003280848322901875, - "learning_rate": 5.8911111111111115e-05, - "loss": 0.0001, - "step": 6350 - }, - { - "epoch": 21.183333333333334, - "grad_norm": 0.00033920217538252473, - "learning_rate": 5.88e-05, - "loss": 0.0001, - "step": 6355 - }, - { - "epoch": 21.2, - "grad_norm": 0.0002705386432353407, - "learning_rate": 5.868888888888889e-05, - "loss": 0.0001, - "step": 6360 - }, - { - "epoch": 21.216666666666665, - "grad_norm": 0.0003182501532137394, - "learning_rate": 5.8577777777777776e-05, - "loss": 0.0001, - "step": 6365 - }, - { - "epoch": 21.233333333333334, - "grad_norm": 0.0003865105099976063, - "learning_rate": 5.846666666666667e-05, - "loss": 0.0001, - "step": 6370 - }, - { - "epoch": 21.25, - "grad_norm": 0.00032403963268734515, - "learning_rate": 5.8355555555555565e-05, - "loss": 0.0001, - "step": 6375 - }, - { - "epoch": 21.266666666666666, - "grad_norm": 0.0002682674094103277, - "learning_rate": 5.824444444444444e-05, - "loss": 0.0001, - "step": 6380 - }, - { - "epoch": 21.283333333333335, - "grad_norm": 0.0003021618176717311, - "learning_rate": 5.813333333333334e-05, - "loss": 0.0001, - "step": 6385 - }, - { - "epoch": 21.3, - "grad_norm": 0.0003222002706024796, - "learning_rate": 5.802222222222222e-05, - "loss": 0.0001, - "step": 6390 - }, - { - "epoch": 21.316666666666666, - "grad_norm": 0.0002818392822518945, - "learning_rate": 5.791111111111112e-05, - "loss": 0.0001, - "step": 6395 - }, - { - "epoch": 21.333333333333332, - "grad_norm": 0.0003587092796806246, - "learning_rate": 5.7799999999999995e-05, - "loss": 0.0001, - "step": 6400 - }, - { - "epoch": 21.333333333333332, - "eval_accuracy": 0.8475, - "eval_f1": 0.8506050210059499, - "eval_loss": 1.0341556072235107, - "eval_precision": 0.8677576926285064, - "eval_recall": 0.8475, - "eval_runtime": 16.3433, - "eval_samples_per_second": 146.849, - "eval_steps_per_second": 18.356, - "step": 6400 - }, - { - "epoch": 21.35, - "grad_norm": 0.00029644614551216364, - "learning_rate": 5.7688888888888894e-05, - "loss": 0.0001, - "step": 6405 - }, - { - "epoch": 21.366666666666667, - "grad_norm": 0.00028812821255996823, - "learning_rate": 5.7577777777777785e-05, - "loss": 0.0001, - "step": 6410 - }, - { - "epoch": 21.383333333333333, - "grad_norm": 0.000336535886162892, - "learning_rate": 5.746666666666667e-05, - "loss": 0.0001, - "step": 6415 - }, - { - "epoch": 21.4, - "grad_norm": 0.00028124358505010605, - "learning_rate": 5.735555555555556e-05, - "loss": 0.0001, - "step": 6420 - }, - { - "epoch": 21.416666666666668, - "grad_norm": 0.00031902911723591387, - "learning_rate": 5.7244444444444446e-05, - "loss": 0.0001, - "step": 6425 - }, - { - "epoch": 21.433333333333334, - "grad_norm": 0.0002813087485264987, - "learning_rate": 5.713333333333334e-05, - "loss": 0.0001, - "step": 6430 - }, - { - "epoch": 21.45, - "grad_norm": 0.000293906923616305, - "learning_rate": 5.702222222222222e-05, - "loss": 0.0001, - "step": 6435 - }, - { - "epoch": 21.466666666666665, - "grad_norm": 0.000262933928752318, - "learning_rate": 5.6911111111111114e-05, - "loss": 0.0001, - "step": 6440 - }, - { - "epoch": 21.483333333333334, - "grad_norm": 0.0002776109613478184, - "learning_rate": 5.68e-05, - "loss": 0.0001, - "step": 6445 - }, - { - "epoch": 21.5, - "grad_norm": 0.0002674645511433482, - "learning_rate": 5.668888888888889e-05, - "loss": 0.0001, - "step": 6450 - }, - { - "epoch": 21.516666666666666, - "grad_norm": 0.0002617900900077075, - "learning_rate": 5.657777777777779e-05, - "loss": 0.0001, - "step": 6455 - }, - { - "epoch": 21.533333333333335, - "grad_norm": 0.0002887643640860915, - "learning_rate": 5.6466666666666666e-05, - "loss": 0.0001, - "step": 6460 - }, - { - "epoch": 21.55, - "grad_norm": 0.0003080472524743527, - "learning_rate": 5.6355555555555564e-05, - "loss": 0.0001, - "step": 6465 - }, - { - "epoch": 21.566666666666666, - "grad_norm": 0.00027633848367258906, - "learning_rate": 5.624444444444444e-05, - "loss": 0.0001, - "step": 6470 - }, - { - "epoch": 21.583333333333332, - "grad_norm": 0.00039363341056741774, - "learning_rate": 5.613333333333334e-05, - "loss": 0.0001, - "step": 6475 - }, - { - "epoch": 21.6, - "grad_norm": 0.000266144925262779, - "learning_rate": 5.602222222222222e-05, - "loss": 0.0001, - "step": 6480 - }, - { - "epoch": 21.616666666666667, - "grad_norm": 0.00030587613582611084, - "learning_rate": 5.5911111111111116e-05, - "loss": 0.0001, - "step": 6485 - }, - { - "epoch": 21.633333333333333, - "grad_norm": 0.0003019751457031816, - "learning_rate": 5.580000000000001e-05, - "loss": 0.0001, - "step": 6490 - }, - { - "epoch": 21.65, - "grad_norm": 0.0003611110441852361, - "learning_rate": 5.568888888888889e-05, - "loss": 0.0001, - "step": 6495 - }, - { - "epoch": 21.666666666666668, - "grad_norm": 0.0008891016477718949, - "learning_rate": 5.5577777777777784e-05, - "loss": 0.0001, - "step": 6500 - }, - { - "epoch": 21.666666666666668, - "eval_accuracy": 0.8470833333333333, - "eval_f1": 0.8502167294072417, - "eval_loss": 1.039171576499939, - "eval_precision": 0.8675294305854705, - "eval_recall": 0.8470833333333333, - "eval_runtime": 16.2033, - "eval_samples_per_second": 148.118, - "eval_steps_per_second": 18.515, - "step": 6500 - }, - { - "epoch": 21.683333333333334, - "grad_norm": 0.0002741182688623667, - "learning_rate": 5.546666666666667e-05, - "loss": 0.0001, - "step": 6505 - }, - { - "epoch": 21.7, - "grad_norm": 0.00029581328271888196, - "learning_rate": 5.535555555555556e-05, - "loss": 0.0001, - "step": 6510 - }, - { - "epoch": 21.716666666666665, - "grad_norm": 0.00033434867509640753, - "learning_rate": 5.5244444444444445e-05, - "loss": 0.0001, - "step": 6515 - }, - { - "epoch": 21.733333333333334, - "grad_norm": 0.00027740225777961314, - "learning_rate": 5.5133333333333336e-05, - "loss": 0.0001, - "step": 6520 - }, - { - "epoch": 21.75, - "grad_norm": 0.0003304503043182194, - "learning_rate": 5.502222222222222e-05, - "loss": 0.0001, - "step": 6525 - }, - { - "epoch": 21.766666666666666, - "grad_norm": 0.00027159880846738815, - "learning_rate": 5.491111111111111e-05, - "loss": 0.0001, - "step": 6530 - }, - { - "epoch": 21.783333333333335, - "grad_norm": 0.0002866244176402688, - "learning_rate": 5.4800000000000004e-05, - "loss": 0.0001, - "step": 6535 - }, - { - "epoch": 21.8, - "grad_norm": 0.00034540475462563336, - "learning_rate": 5.468888888888889e-05, - "loss": 0.0001, - "step": 6540 - }, - { - "epoch": 21.816666666666666, - "grad_norm": 0.0002874887431971729, - "learning_rate": 5.457777777777778e-05, - "loss": 0.0001, - "step": 6545 - }, - { - "epoch": 21.833333333333332, - "grad_norm": 0.00027328490978106856, - "learning_rate": 5.4466666666666665e-05, - "loss": 0.0001, - "step": 6550 - }, - { - "epoch": 21.85, - "grad_norm": 0.00025862615439109504, - "learning_rate": 5.435555555555556e-05, - "loss": 0.0001, - "step": 6555 - }, - { - "epoch": 21.866666666666667, - "grad_norm": 0.0003107462252955884, - "learning_rate": 5.424444444444444e-05, - "loss": 0.0001, - "step": 6560 - }, - { - "epoch": 21.883333333333333, - "grad_norm": 0.0003054691478610039, - "learning_rate": 5.413333333333334e-05, - "loss": 0.0001, - "step": 6565 - }, - { - "epoch": 21.9, - "grad_norm": 0.0002857912622857839, - "learning_rate": 5.402222222222223e-05, - "loss": 0.0001, - "step": 6570 - }, - { - "epoch": 21.916666666666668, - "grad_norm": 0.00030009387410245836, - "learning_rate": 5.3911111111111115e-05, - "loss": 0.0001, - "step": 6575 - }, - { - "epoch": 21.933333333333334, - "grad_norm": 0.00026914107729680836, - "learning_rate": 5.380000000000001e-05, - "loss": 0.0001, - "step": 6580 - }, - { - "epoch": 21.95, - "grad_norm": 0.00036167920916341245, - "learning_rate": 5.368888888888889e-05, - "loss": 0.0001, - "step": 6585 - }, - { - "epoch": 21.966666666666665, - "grad_norm": 0.00028808589559048414, - "learning_rate": 5.357777777777778e-05, - "loss": 0.0001, - "step": 6590 - }, - { - "epoch": 21.983333333333334, - "grad_norm": 0.00028558794292621315, - "learning_rate": 5.346666666666667e-05, - "loss": 0.0001, - "step": 6595 - }, - { - "epoch": 22.0, - "grad_norm": 0.0002790800353977829, - "learning_rate": 5.335555555555556e-05, - "loss": 0.0001, - "step": 6600 - }, - { - "epoch": 22.0, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8498638689862323, - "eval_loss": 1.0441759824752808, - "eval_precision": 0.8673807387397221, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.3057, - "eval_samples_per_second": 147.187, - "eval_steps_per_second": 18.398, - "step": 6600 - }, - { - "epoch": 22.016666666666666, - "grad_norm": 0.00025822740281000733, - "learning_rate": 5.324444444444445e-05, - "loss": 0.0001, - "step": 6605 - }, - { - "epoch": 22.033333333333335, - "grad_norm": 0.0003031076048500836, - "learning_rate": 5.3133333333333335e-05, - "loss": 0.0001, - "step": 6610 - }, - { - "epoch": 22.05, - "grad_norm": 0.0002530587953515351, - "learning_rate": 5.3022222222222227e-05, - "loss": 0.0001, - "step": 6615 - }, - { - "epoch": 22.066666666666666, - "grad_norm": 0.000271415599854663, - "learning_rate": 5.291111111111111e-05, - "loss": 0.0001, - "step": 6620 - }, - { - "epoch": 22.083333333333332, - "grad_norm": 0.0002898757520597428, - "learning_rate": 5.28e-05, - "loss": 0.0001, - "step": 6625 - }, - { - "epoch": 22.1, - "grad_norm": 0.0002742844808381051, - "learning_rate": 5.268888888888889e-05, - "loss": 0.0001, - "step": 6630 - }, - { - "epoch": 22.116666666666667, - "grad_norm": 0.0002672626869753003, - "learning_rate": 5.257777777777778e-05, - "loss": 0.0001, - "step": 6635 - }, - { - "epoch": 22.133333333333333, - "grad_norm": 0.0002779485657811165, - "learning_rate": 5.2466666666666664e-05, - "loss": 0.0001, - "step": 6640 - }, - { - "epoch": 22.15, - "grad_norm": 0.00026427838020026684, - "learning_rate": 5.2355555555555555e-05, - "loss": 0.0001, - "step": 6645 - }, - { - "epoch": 22.166666666666668, - "grad_norm": 0.00033331618760712445, - "learning_rate": 5.224444444444445e-05, - "loss": 0.0001, - "step": 6650 - }, - { - "epoch": 22.183333333333334, - "grad_norm": 0.0002552353253122419, - "learning_rate": 5.213333333333333e-05, - "loss": 0.0001, - "step": 6655 - }, - { - "epoch": 22.2, - "grad_norm": 0.00026255339616909623, - "learning_rate": 5.202222222222223e-05, - "loss": 0.0001, - "step": 6660 - }, - { - "epoch": 22.216666666666665, - "grad_norm": 0.0002807233831845224, - "learning_rate": 5.191111111111111e-05, - "loss": 0.0001, - "step": 6665 - }, - { - "epoch": 22.233333333333334, - "grad_norm": 0.00024707571719773114, - "learning_rate": 5.1800000000000005e-05, - "loss": 0.0001, - "step": 6670 - }, - { - "epoch": 22.25, - "grad_norm": 0.00027865602169185877, - "learning_rate": 5.1688888888888883e-05, - "loss": 0.0001, - "step": 6675 - }, - { - "epoch": 22.266666666666666, - "grad_norm": 0.00025088549591600895, - "learning_rate": 5.157777777777778e-05, - "loss": 0.0001, - "step": 6680 - }, - { - "epoch": 22.283333333333335, - "grad_norm": 0.0002505806623958051, - "learning_rate": 5.146666666666667e-05, - "loss": 0.0001, - "step": 6685 - }, - { - "epoch": 22.3, - "grad_norm": 0.0002433124027447775, - "learning_rate": 5.135555555555556e-05, - "loss": 0.0001, - "step": 6690 - }, - { - "epoch": 22.316666666666666, - "grad_norm": 0.00027106277411803603, - "learning_rate": 5.124444444444445e-05, - "loss": 0.0001, - "step": 6695 - }, - { - "epoch": 22.333333333333332, - "grad_norm": 0.00027145229978486896, - "learning_rate": 5.1133333333333334e-05, - "loss": 0.0001, - "step": 6700 - }, - { - "epoch": 22.333333333333332, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8498638689862323, - "eval_loss": 1.0487054586410522, - "eval_precision": 0.8673807387397221, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.4585, - "eval_samples_per_second": 145.821, - "eval_steps_per_second": 18.228, - "step": 6700 - }, - { - "epoch": 22.35, - "grad_norm": 0.0002497430541552603, - "learning_rate": 5.1022222222222225e-05, - "loss": 0.0001, - "step": 6705 - }, - { - "epoch": 22.366666666666667, - "grad_norm": 0.00026989722391590476, - "learning_rate": 5.091111111111111e-05, - "loss": 0.0001, - "step": 6710 - }, - { - "epoch": 22.383333333333333, - "grad_norm": 0.00026505955611355603, - "learning_rate": 5.08e-05, - "loss": 0.0001, - "step": 6715 - }, - { - "epoch": 22.4, - "grad_norm": 0.0002588845381978899, - "learning_rate": 5.06888888888889e-05, - "loss": 0.0001, - "step": 6720 - }, - { - "epoch": 22.416666666666668, - "grad_norm": 0.0002679526514839381, - "learning_rate": 5.057777777777778e-05, - "loss": 0.0001, - "step": 6725 - }, - { - "epoch": 22.433333333333334, - "grad_norm": 0.000276778097031638, - "learning_rate": 5.0466666666666676e-05, - "loss": 0.0001, - "step": 6730 - }, - { - "epoch": 22.45, - "grad_norm": 0.0003003232413902879, - "learning_rate": 5.0355555555555554e-05, - "loss": 0.0001, - "step": 6735 - }, - { - "epoch": 22.466666666666665, - "grad_norm": 0.0002944658335763961, - "learning_rate": 5.024444444444445e-05, - "loss": 0.0001, - "step": 6740 - }, - { - "epoch": 22.483333333333334, - "grad_norm": 0.00023439062351826578, - "learning_rate": 5.013333333333333e-05, - "loss": 0.0001, - "step": 6745 - }, - { - "epoch": 22.5, - "grad_norm": 0.0002848739386536181, - "learning_rate": 5.002222222222223e-05, - "loss": 0.0001, - "step": 6750 - }, - { - "epoch": 22.516666666666666, - "grad_norm": 0.00025978669873438776, - "learning_rate": 4.991111111111111e-05, - "loss": 0.0001, - "step": 6755 - }, - { - "epoch": 22.533333333333335, - "grad_norm": 0.0002645316126290709, - "learning_rate": 4.9800000000000004e-05, - "loss": 0.0001, - "step": 6760 - }, - { - "epoch": 22.55, - "grad_norm": 0.0007880293414928019, - "learning_rate": 4.968888888888889e-05, - "loss": 0.0001, - "step": 6765 - }, - { - "epoch": 22.566666666666666, - "grad_norm": 0.00026913921465165913, - "learning_rate": 4.957777777777778e-05, - "loss": 0.0001, - "step": 6770 - }, - { - "epoch": 22.583333333333332, - "grad_norm": 0.0002828482538461685, - "learning_rate": 4.9466666666666665e-05, - "loss": 0.0001, - "step": 6775 - }, - { - "epoch": 22.6, - "grad_norm": 0.0002534892992116511, - "learning_rate": 4.935555555555556e-05, - "loss": 0.0001, - "step": 6780 - }, - { - "epoch": 22.616666666666667, - "grad_norm": 0.00023514850181527436, - "learning_rate": 4.924444444444445e-05, - "loss": 0.0001, - "step": 6785 - }, - { - "epoch": 22.633333333333333, - "grad_norm": 0.00024663860676810145, - "learning_rate": 4.913333333333334e-05, - "loss": 0.0001, - "step": 6790 - }, - { - "epoch": 22.65, - "grad_norm": 0.00024714486789889634, - "learning_rate": 4.9022222222222224e-05, - "loss": 0.0001, - "step": 6795 - }, - { - "epoch": 22.666666666666668, - "grad_norm": 0.000257825042353943, - "learning_rate": 4.8911111111111116e-05, - "loss": 0.0001, - "step": 6800 - }, - { - "epoch": 22.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8498638689862323, - "eval_loss": 1.0533019304275513, - "eval_precision": 0.8673807387397221, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.4578, - "eval_samples_per_second": 145.827, - "eval_steps_per_second": 18.228, - "step": 6800 - }, - { - "epoch": 22.683333333333334, - "grad_norm": 0.0002552613150328398, - "learning_rate": 4.88e-05, - "loss": 0.0001, - "step": 6805 - }, - { - "epoch": 22.7, - "grad_norm": 0.00026841487851925194, - "learning_rate": 4.868888888888889e-05, - "loss": 0.0001, - "step": 6810 - }, - { - "epoch": 22.716666666666665, - "grad_norm": 0.00041342320037074387, - "learning_rate": 4.8577777777777776e-05, - "loss": 0.0001, - "step": 6815 - }, - { - "epoch": 22.733333333333334, - "grad_norm": 0.0002427242579869926, - "learning_rate": 4.8466666666666675e-05, - "loss": 0.0001, - "step": 6820 - }, - { - "epoch": 22.75, - "grad_norm": 0.00029597655520774424, - "learning_rate": 4.835555555555556e-05, - "loss": 0.0001, - "step": 6825 - }, - { - "epoch": 22.766666666666666, - "grad_norm": 0.0002580389555078, - "learning_rate": 4.824444444444445e-05, - "loss": 0.0001, - "step": 6830 - }, - { - "epoch": 22.783333333333335, - "grad_norm": 0.0002505508600734174, - "learning_rate": 4.8133333333333336e-05, - "loss": 0.0001, - "step": 6835 - }, - { - "epoch": 22.8, - "grad_norm": 0.00027505034813657403, - "learning_rate": 4.802222222222223e-05, - "loss": 0.0001, - "step": 6840 - }, - { - "epoch": 22.816666666666666, - "grad_norm": 0.0002738351176958531, - "learning_rate": 4.791111111111111e-05, - "loss": 0.0001, - "step": 6845 - }, - { - "epoch": 22.833333333333332, - "grad_norm": 0.0003023172030225396, - "learning_rate": 4.78e-05, - "loss": 0.0001, - "step": 6850 - }, - { - "epoch": 22.85, - "grad_norm": 0.0002553491503931582, - "learning_rate": 4.768888888888889e-05, - "loss": 0.0001, - "step": 6855 - }, - { - "epoch": 22.866666666666667, - "grad_norm": 0.00025442600599490106, - "learning_rate": 4.757777777777778e-05, - "loss": 0.0001, - "step": 6860 - }, - { - "epoch": 22.883333333333333, - "grad_norm": 0.00027285743271932006, - "learning_rate": 4.746666666666667e-05, - "loss": 0.0001, - "step": 6865 - }, - { - "epoch": 22.9, - "grad_norm": 0.00026554372743703425, - "learning_rate": 4.7355555555555555e-05, - "loss": 0.0001, - "step": 6870 - }, - { - "epoch": 22.916666666666668, - "grad_norm": 0.00024519689031876624, - "learning_rate": 4.724444444444445e-05, - "loss": 0.0001, - "step": 6875 - }, - { - "epoch": 22.933333333333334, - "grad_norm": 0.00026110230828635395, - "learning_rate": 4.713333333333333e-05, - "loss": 0.0001, - "step": 6880 - }, - { - "epoch": 22.95, - "grad_norm": 0.0002928450412582606, - "learning_rate": 4.702222222222222e-05, - "loss": 0.0001, - "step": 6885 - }, - { - "epoch": 22.966666666666665, - "grad_norm": 0.0002398347423877567, - "learning_rate": 4.6911111111111114e-05, - "loss": 0.0001, - "step": 6890 - }, - { - "epoch": 22.983333333333334, - "grad_norm": 0.0002812191960401833, - "learning_rate": 4.6800000000000006e-05, - "loss": 0.0001, - "step": 6895 - }, - { - "epoch": 23.0, - "grad_norm": 0.00023080613755155355, - "learning_rate": 4.668888888888889e-05, - "loss": 0.0001, - "step": 6900 - }, - { - "epoch": 23.0, - "eval_accuracy": 0.8470833333333333, - "eval_f1": 0.8503154017305732, - "eval_loss": 1.0577846765518188, - "eval_precision": 0.8677497121368413, - "eval_recall": 0.8470833333333333, - "eval_runtime": 16.3502, - "eval_samples_per_second": 146.788, - "eval_steps_per_second": 18.348, - "step": 6900 - }, - { - "epoch": 23.016666666666666, - "grad_norm": 0.00027008246979676187, - "learning_rate": 4.657777777777778e-05, - "loss": 0.0001, - "step": 6905 - }, - { - "epoch": 23.033333333333335, - "grad_norm": 0.00024215831945184618, - "learning_rate": 4.646666666666667e-05, - "loss": 0.0001, - "step": 6910 - }, - { - "epoch": 23.05, - "grad_norm": 0.0002507506578695029, - "learning_rate": 4.635555555555556e-05, - "loss": 0.0001, - "step": 6915 - }, - { - "epoch": 23.066666666666666, - "grad_norm": 0.0002668283705133945, - "learning_rate": 4.624444444444444e-05, - "loss": 0.0001, - "step": 6920 - }, - { - "epoch": 23.083333333333332, - "grad_norm": 0.0002691884874366224, - "learning_rate": 4.6133333333333334e-05, - "loss": 0.0001, - "step": 6925 - }, - { - "epoch": 23.1, - "grad_norm": 0.00021441030548885465, - "learning_rate": 4.602222222222222e-05, - "loss": 0.0001, - "step": 6930 - }, - { - "epoch": 23.116666666666667, - "grad_norm": 0.00023987866006791592, - "learning_rate": 4.591111111111112e-05, - "loss": 0.0001, - "step": 6935 - }, - { - "epoch": 23.133333333333333, - "grad_norm": 0.00025503814686089754, - "learning_rate": 4.58e-05, - "loss": 0.0001, - "step": 6940 - }, - { - "epoch": 23.15, - "grad_norm": 0.0002915800432674587, - "learning_rate": 4.5688888888888893e-05, - "loss": 0.0001, - "step": 6945 - }, - { - "epoch": 23.166666666666668, - "grad_norm": 0.0002407286810921505, - "learning_rate": 4.557777777777778e-05, - "loss": 0.0001, - "step": 6950 - }, - { - "epoch": 23.183333333333334, - "grad_norm": 0.00024404357827734202, - "learning_rate": 4.546666666666667e-05, - "loss": 0.0001, - "step": 6955 - }, - { - "epoch": 23.2, - "grad_norm": 0.00025436741998419166, - "learning_rate": 4.5355555555555554e-05, - "loss": 0.0001, - "step": 6960 - }, - { - "epoch": 23.216666666666665, - "grad_norm": 0.0002589651267044246, - "learning_rate": 4.5244444444444446e-05, - "loss": 0.0001, - "step": 6965 - }, - { - "epoch": 23.233333333333334, - "grad_norm": 0.0002547508047427982, - "learning_rate": 4.513333333333333e-05, - "loss": 0.0001, - "step": 6970 - }, - { - "epoch": 23.25, - "grad_norm": 0.00025012195692397654, - "learning_rate": 4.502222222222223e-05, - "loss": 0.0001, - "step": 6975 - }, - { - "epoch": 23.266666666666666, - "grad_norm": 0.00028508689138107, - "learning_rate": 4.491111111111111e-05, - "loss": 0.0001, - "step": 6980 - }, - { - "epoch": 23.283333333333335, - "grad_norm": 0.0002502746938262135, - "learning_rate": 4.4800000000000005e-05, - "loss": 0.0001, - "step": 6985 - }, - { - "epoch": 23.3, - "grad_norm": 0.00025590244331397116, - "learning_rate": 4.468888888888889e-05, - "loss": 0.0001, - "step": 6990 - }, - { - "epoch": 23.316666666666666, - "grad_norm": 0.00022391493257600814, - "learning_rate": 4.457777777777778e-05, - "loss": 0.0001, - "step": 6995 - }, - { - "epoch": 23.333333333333332, - "grad_norm": 0.00024588851374574006, - "learning_rate": 4.4466666666666666e-05, - "loss": 0.0001, - "step": 7000 - }, - { - "epoch": 23.333333333333332, - "eval_accuracy": 0.8470833333333333, - "eval_f1": 0.8503607185162946, - "eval_loss": 1.062278389930725, - "eval_precision": 0.8681741084066482, - "eval_recall": 0.8470833333333333, - "eval_runtime": 16.3646, - "eval_samples_per_second": 146.658, - "eval_steps_per_second": 18.332, - "step": 7000 - }, - { - "epoch": 23.35, - "grad_norm": 0.00022720319975633174, - "learning_rate": 4.435555555555556e-05, - "loss": 0.0001, - "step": 7005 - }, - { - "epoch": 23.366666666666667, - "grad_norm": 0.00021795403154101223, - "learning_rate": 4.424444444444444e-05, - "loss": 0.0001, - "step": 7010 - }, - { - "epoch": 23.383333333333333, - "grad_norm": 0.0002912510826718062, - "learning_rate": 4.413333333333334e-05, - "loss": 0.0001, - "step": 7015 - }, - { - "epoch": 23.4, - "grad_norm": 0.00030096503905951977, - "learning_rate": 4.4022222222222225e-05, - "loss": 0.0001, - "step": 7020 - }, - { - "epoch": 23.416666666666668, - "grad_norm": 0.00024182813649531454, - "learning_rate": 4.3911111111111116e-05, - "loss": 0.0001, - "step": 7025 - }, - { - "epoch": 23.433333333333334, - "grad_norm": 0.0002608186041470617, - "learning_rate": 4.38e-05, - "loss": 0.0001, - "step": 7030 - }, - { - "epoch": 23.45, - "grad_norm": 0.00022268433531280607, - "learning_rate": 4.368888888888889e-05, - "loss": 0.0001, - "step": 7035 - }, - { - "epoch": 23.466666666666665, - "grad_norm": 0.0002846709103323519, - "learning_rate": 4.357777777777778e-05, - "loss": 0.0001, - "step": 7040 - }, - { - "epoch": 23.483333333333334, - "grad_norm": 0.0002541876456234604, - "learning_rate": 4.346666666666667e-05, - "loss": 0.0001, - "step": 7045 - }, - { - "epoch": 23.5, - "grad_norm": 0.00035566792939789593, - "learning_rate": 4.335555555555556e-05, - "loss": 0.0001, - "step": 7050 - }, - { - "epoch": 23.516666666666666, - "grad_norm": 0.00022540731879416853, - "learning_rate": 4.324444444444445e-05, - "loss": 0.0001, - "step": 7055 - }, - { - "epoch": 23.533333333333335, - "grad_norm": 0.0002509643672965467, - "learning_rate": 4.3133333333333336e-05, - "loss": 0.0001, - "step": 7060 - }, - { - "epoch": 23.55, - "grad_norm": 0.00025344715686514974, - "learning_rate": 4.302222222222223e-05, - "loss": 0.0001, - "step": 7065 - }, - { - "epoch": 23.566666666666666, - "grad_norm": 0.00022203628032002598, - "learning_rate": 4.291111111111111e-05, - "loss": 0.0001, - "step": 7070 - }, - { - "epoch": 23.583333333333332, - "grad_norm": 0.0002737989416345954, - "learning_rate": 4.2800000000000004e-05, - "loss": 0.0001, - "step": 7075 - }, - { - "epoch": 23.6, - "grad_norm": 0.00021242840739432722, - "learning_rate": 4.268888888888889e-05, - "loss": 0.0001, - "step": 7080 - }, - { - "epoch": 23.616666666666667, - "grad_norm": 0.00022146181436255574, - "learning_rate": 4.257777777777778e-05, - "loss": 0.0001, - "step": 7085 - }, - { - "epoch": 23.633333333333333, - "grad_norm": 0.0002117734547937289, - "learning_rate": 4.246666666666667e-05, - "loss": 0.0001, - "step": 7090 - }, - { - "epoch": 23.65, - "grad_norm": 0.00028244065470062196, - "learning_rate": 4.235555555555556e-05, - "loss": 0.0001, - "step": 7095 - }, - { - "epoch": 23.666666666666668, - "grad_norm": 0.0002063852734863758, - "learning_rate": 4.224444444444445e-05, - "loss": 0.0001, - "step": 7100 - }, - { - "epoch": 23.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499721494513881, - "eval_loss": 1.066104769706726, - "eval_precision": 0.8679501033390433, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.3167, - "eval_samples_per_second": 147.088, - "eval_steps_per_second": 18.386, - "step": 7100 - }, - { - "epoch": 23.683333333333334, - "grad_norm": 0.00025979135534726083, - "learning_rate": 4.213333333333334e-05, - "loss": 0.0001, - "step": 7105 - }, - { - "epoch": 23.7, - "grad_norm": 0.0002719918265938759, - "learning_rate": 4.2022222222222223e-05, - "loss": 0.0001, - "step": 7110 - }, - { - "epoch": 23.716666666666665, - "grad_norm": 0.00023371844145003706, - "learning_rate": 4.1911111111111115e-05, - "loss": 0.0001, - "step": 7115 - }, - { - "epoch": 23.733333333333334, - "grad_norm": 0.00023070574388839304, - "learning_rate": 4.18e-05, - "loss": 0.0001, - "step": 7120 - }, - { - "epoch": 23.75, - "grad_norm": 0.0002945567248389125, - "learning_rate": 4.168888888888889e-05, - "loss": 0.0001, - "step": 7125 - }, - { - "epoch": 23.766666666666666, - "grad_norm": 0.00023751425032969564, - "learning_rate": 4.157777777777778e-05, - "loss": 0.0001, - "step": 7130 - }, - { - "epoch": 23.783333333333335, - "grad_norm": 0.00019871763652190566, - "learning_rate": 4.146666666666667e-05, - "loss": 0.0001, - "step": 7135 - }, - { - "epoch": 23.8, - "grad_norm": 0.0002435280184727162, - "learning_rate": 4.135555555555556e-05, - "loss": 0.0001, - "step": 7140 - }, - { - "epoch": 23.816666666666666, - "grad_norm": 0.00024425185984000564, - "learning_rate": 4.124444444444444e-05, - "loss": 0.0001, - "step": 7145 - }, - { - "epoch": 23.833333333333332, - "grad_norm": 0.00025624592672102153, - "learning_rate": 4.1133333333333335e-05, - "loss": 0.0001, - "step": 7150 - }, - { - "epoch": 23.85, - "grad_norm": 0.00025414410629309714, - "learning_rate": 4.1022222222222226e-05, - "loss": 0.0001, - "step": 7155 - }, - { - "epoch": 23.866666666666667, - "grad_norm": 0.00032832284341566265, - "learning_rate": 4.091111111111111e-05, - "loss": 0.0001, - "step": 7160 - }, - { - "epoch": 23.883333333333333, - "grad_norm": 0.00020365184172987938, - "learning_rate": 4.08e-05, - "loss": 0.0001, - "step": 7165 - }, - { - "epoch": 23.9, - "grad_norm": 0.0001982737157959491, - "learning_rate": 4.0688888888888894e-05, - "loss": 0.0001, - "step": 7170 - }, - { - "epoch": 23.916666666666668, - "grad_norm": 0.0002705341612454504, - "learning_rate": 4.057777777777778e-05, - "loss": 0.0001, - "step": 7175 - }, - { - "epoch": 23.933333333333334, - "grad_norm": 0.0002258357999380678, - "learning_rate": 4.046666666666667e-05, - "loss": 0.0001, - "step": 7180 - }, - { - "epoch": 23.95, - "grad_norm": 0.00023500589304603636, - "learning_rate": 4.0355555555555555e-05, - "loss": 0.0001, - "step": 7185 - }, - { - "epoch": 23.966666666666665, - "grad_norm": 0.0002185053308494389, - "learning_rate": 4.0244444444444446e-05, - "loss": 0.0, - "step": 7190 - }, - { - "epoch": 23.983333333333334, - "grad_norm": 0.00022217672085389495, - "learning_rate": 4.013333333333333e-05, - "loss": 0.0001, - "step": 7195 - }, - { - "epoch": 24.0, - "grad_norm": 0.00026679434813559055, - "learning_rate": 4.002222222222222e-05, - "loss": 0.0001, - "step": 7200 - }, - { - "epoch": 24.0, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499721494513881, - "eval_loss": 1.0701332092285156, - "eval_precision": 0.8679501033390433, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.5079, - "eval_samples_per_second": 145.385, - "eval_steps_per_second": 18.173, - "step": 7200 - }, - { - "epoch": 24.016666666666666, - "grad_norm": 0.00023007298295851797, - "learning_rate": 3.9911111111111114e-05, - "loss": 0.0001, - "step": 7205 - }, - { - "epoch": 24.033333333333335, - "grad_norm": 0.00024916077381931245, - "learning_rate": 3.9800000000000005e-05, - "loss": 0.0001, - "step": 7210 - }, - { - "epoch": 24.05, - "grad_norm": 0.0002330896386411041, - "learning_rate": 3.968888888888889e-05, - "loss": 0.0001, - "step": 7215 - }, - { - "epoch": 24.066666666666666, - "grad_norm": 0.00019785709446296096, - "learning_rate": 3.957777777777778e-05, - "loss": 0.0001, - "step": 7220 - }, - { - "epoch": 24.083333333333332, - "grad_norm": 0.00024400559777859598, - "learning_rate": 3.9466666666666666e-05, - "loss": 0.0001, - "step": 7225 - }, - { - "epoch": 24.1, - "grad_norm": 0.00019491119019221514, - "learning_rate": 3.935555555555556e-05, - "loss": 0.0001, - "step": 7230 - }, - { - "epoch": 24.116666666666667, - "grad_norm": 0.00022698343673255295, - "learning_rate": 3.924444444444444e-05, - "loss": 0.0001, - "step": 7235 - }, - { - "epoch": 24.133333333333333, - "grad_norm": 0.00020692427642643452, - "learning_rate": 3.9133333333333334e-05, - "loss": 0.0001, - "step": 7240 - }, - { - "epoch": 24.15, - "grad_norm": 0.0002654833369888365, - "learning_rate": 3.9022222222222225e-05, - "loss": 0.0, - "step": 7245 - }, - { - "epoch": 24.166666666666668, - "grad_norm": 0.00021475953690242022, - "learning_rate": 3.8911111111111117e-05, - "loss": 0.0001, - "step": 7250 - }, - { - "epoch": 24.183333333333334, - "grad_norm": 0.000244792434386909, - "learning_rate": 3.88e-05, - "loss": 0.0001, - "step": 7255 - }, - { - "epoch": 24.2, - "grad_norm": 0.00024232249415945262, - "learning_rate": 3.868888888888889e-05, - "loss": 0.0001, - "step": 7260 - }, - { - "epoch": 24.216666666666665, - "grad_norm": 0.0002223096671514213, - "learning_rate": 3.857777777777778e-05, - "loss": 0.0001, - "step": 7265 - }, - { - "epoch": 24.233333333333334, - "grad_norm": 0.00021424208534881473, - "learning_rate": 3.846666666666667e-05, - "loss": 0.0, - "step": 7270 - }, - { - "epoch": 24.25, - "grad_norm": 0.00022613734472543, - "learning_rate": 3.8355555555555553e-05, - "loss": 0.0, - "step": 7275 - }, - { - "epoch": 24.266666666666666, - "grad_norm": 0.0002507210010662675, - "learning_rate": 3.8244444444444445e-05, - "loss": 0.0, - "step": 7280 - }, - { - "epoch": 24.283333333333335, - "grad_norm": 0.00023624557070434093, - "learning_rate": 3.8133333333333336e-05, - "loss": 0.0001, - "step": 7285 - }, - { - "epoch": 24.3, - "grad_norm": 0.00020894999033771455, - "learning_rate": 3.802222222222223e-05, - "loss": 0.0, - "step": 7290 - }, - { - "epoch": 24.316666666666666, - "grad_norm": 0.00029011312290094793, - "learning_rate": 3.791111111111111e-05, - "loss": 0.0001, - "step": 7295 - }, - { - "epoch": 24.333333333333332, - "grad_norm": 0.00023960950784385204, - "learning_rate": 3.7800000000000004e-05, - "loss": 0.0001, - "step": 7300 - }, - { - "epoch": 24.333333333333332, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499721494513881, - "eval_loss": 1.0739996433258057, - "eval_precision": 0.8679501033390433, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.5494, - "eval_samples_per_second": 145.02, - "eval_steps_per_second": 18.128, - "step": 7300 - }, - { - "epoch": 24.35, - "grad_norm": 0.00025138468481600285, - "learning_rate": 3.768888888888889e-05, - "loss": 0.0001, - "step": 7305 - }, - { - "epoch": 24.366666666666667, - "grad_norm": 0.0002635279961396009, - "learning_rate": 3.757777777777778e-05, - "loss": 0.0001, - "step": 7310 - }, - { - "epoch": 24.383333333333333, - "grad_norm": 0.00020803543156944215, - "learning_rate": 3.7466666666666665e-05, - "loss": 0.0, - "step": 7315 - }, - { - "epoch": 24.4, - "grad_norm": 0.00024618511088192463, - "learning_rate": 3.7355555555555556e-05, - "loss": 0.0, - "step": 7320 - }, - { - "epoch": 24.416666666666668, - "grad_norm": 0.00024533452233299613, - "learning_rate": 3.724444444444445e-05, - "loss": 0.0001, - "step": 7325 - }, - { - "epoch": 24.433333333333334, - "grad_norm": 0.0002544392482377589, - "learning_rate": 3.713333333333334e-05, - "loss": 0.0001, - "step": 7330 - }, - { - "epoch": 24.45, - "grad_norm": 0.000218000597669743, - "learning_rate": 3.7022222222222224e-05, - "loss": 0.0, - "step": 7335 - }, - { - "epoch": 24.466666666666665, - "grad_norm": 0.00020193013187963516, - "learning_rate": 3.6911111111111115e-05, - "loss": 0.0001, - "step": 7340 - }, - { - "epoch": 24.483333333333334, - "grad_norm": 0.00019956985488533974, - "learning_rate": 3.68e-05, - "loss": 0.0, - "step": 7345 - }, - { - "epoch": 24.5, - "grad_norm": 0.00021688919514417648, - "learning_rate": 3.668888888888889e-05, - "loss": 0.0001, - "step": 7350 - }, - { - "epoch": 24.516666666666666, - "grad_norm": 0.0002168742212234065, - "learning_rate": 3.6577777777777776e-05, - "loss": 0.0, - "step": 7355 - }, - { - "epoch": 24.533333333333335, - "grad_norm": 0.0002345129760215059, - "learning_rate": 3.646666666666667e-05, - "loss": 0.0, - "step": 7360 - }, - { - "epoch": 24.55, - "grad_norm": 0.00020760986080858856, - "learning_rate": 3.635555555555556e-05, - "loss": 0.0, - "step": 7365 - }, - { - "epoch": 24.566666666666666, - "grad_norm": 0.00021269793796818703, - "learning_rate": 3.624444444444445e-05, - "loss": 0.0, - "step": 7370 - }, - { - "epoch": 24.583333333333332, - "grad_norm": 0.00019547852571122348, - "learning_rate": 3.6133333333333335e-05, - "loss": 0.0, - "step": 7375 - }, - { - "epoch": 24.6, - "grad_norm": 0.0005748062394559383, - "learning_rate": 3.602222222222223e-05, - "loss": 0.0, - "step": 7380 - }, - { - "epoch": 24.616666666666667, - "grad_norm": 0.00022998711210675538, - "learning_rate": 3.591111111111111e-05, - "loss": 0.0, - "step": 7385 - }, - { - "epoch": 24.633333333333333, - "grad_norm": 0.0002267269737785682, - "learning_rate": 3.58e-05, - "loss": 0.0, - "step": 7390 - }, - { - "epoch": 24.65, - "grad_norm": 0.00021420586563181132, - "learning_rate": 3.568888888888889e-05, - "loss": 0.0, - "step": 7395 - }, - { - "epoch": 24.666666666666668, - "grad_norm": 0.00018942895985674113, - "learning_rate": 3.557777777777778e-05, - "loss": 0.0, - "step": 7400 - }, - { - "epoch": 24.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499264906281832, - "eval_loss": 1.0775179862976074, - "eval_precision": 0.8677928500647916, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.3066, - "eval_samples_per_second": 147.18, - "eval_steps_per_second": 18.398, - "step": 7400 - }, - { - "epoch": 24.683333333333334, - "grad_norm": 0.00019541027722880244, - "learning_rate": 3.546666666666667e-05, - "loss": 0.0, - "step": 7405 - }, - { - "epoch": 24.7, - "grad_norm": 0.0001958674256457016, - "learning_rate": 3.5355555555555555e-05, - "loss": 0.0, - "step": 7410 - }, - { - "epoch": 24.716666666666665, - "grad_norm": 0.00025535369059070945, - "learning_rate": 3.5244444444444447e-05, - "loss": 0.0, - "step": 7415 - }, - { - "epoch": 24.733333333333334, - "grad_norm": 0.00020717385632451624, - "learning_rate": 3.513333333333334e-05, - "loss": 0.0, - "step": 7420 - }, - { - "epoch": 24.75, - "grad_norm": 0.00020789729023817927, - "learning_rate": 3.502222222222222e-05, - "loss": 0.0, - "step": 7425 - }, - { - "epoch": 24.766666666666666, - "grad_norm": 0.00021993034170009196, - "learning_rate": 3.4911111111111114e-05, - "loss": 0.0, - "step": 7430 - }, - { - "epoch": 24.783333333333335, - "grad_norm": 0.00022189272567629814, - "learning_rate": 3.48e-05, - "loss": 0.0, - "step": 7435 - }, - { - "epoch": 24.8, - "grad_norm": 0.00019417607109062374, - "learning_rate": 3.468888888888889e-05, - "loss": 0.0, - "step": 7440 - }, - { - "epoch": 24.816666666666666, - "grad_norm": 0.00020818953635171056, - "learning_rate": 3.457777777777778e-05, - "loss": 0.0, - "step": 7445 - }, - { - "epoch": 24.833333333333332, - "grad_norm": 0.0002538960543461144, - "learning_rate": 3.4466666666666666e-05, - "loss": 0.0, - "step": 7450 - }, - { - "epoch": 24.85, - "grad_norm": 0.00021343961998354644, - "learning_rate": 3.435555555555556e-05, - "loss": 0.0, - "step": 7455 - }, - { - "epoch": 24.866666666666667, - "grad_norm": 0.00018908872152678668, - "learning_rate": 3.424444444444444e-05, - "loss": 0.0, - "step": 7460 - }, - { - "epoch": 24.883333333333333, - "grad_norm": 0.00021040150022599846, - "learning_rate": 3.4133333333333334e-05, - "loss": 0.0, - "step": 7465 - }, - { - "epoch": 24.9, - "grad_norm": 0.00027383456472307444, - "learning_rate": 3.402222222222222e-05, - "loss": 0.0, - "step": 7470 - }, - { - "epoch": 24.916666666666668, - "grad_norm": 0.00022720858396496624, - "learning_rate": 3.391111111111111e-05, - "loss": 0.0, - "step": 7475 - }, - { - "epoch": 24.933333333333334, - "grad_norm": 0.00021273862512316555, - "learning_rate": 3.38e-05, - "loss": 0.0, - "step": 7480 - }, - { - "epoch": 24.95, - "grad_norm": 0.00021126140200067312, - "learning_rate": 3.368888888888889e-05, - "loss": 0.0, - "step": 7485 - }, - { - "epoch": 24.966666666666665, - "grad_norm": 0.00020431703887879848, - "learning_rate": 3.357777777777778e-05, - "loss": 0.0, - "step": 7490 - }, - { - "epoch": 24.983333333333334, - "grad_norm": 0.00018321519019082189, - "learning_rate": 3.346666666666667e-05, - "loss": 0.0, - "step": 7495 - }, - { - "epoch": 25.0, - "grad_norm": 0.000184557749889791, - "learning_rate": 3.3355555555555554e-05, - "loss": 0.0, - "step": 7500 - }, - { - "epoch": 25.0, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499264906281832, - "eval_loss": 1.0810489654541016, - "eval_precision": 0.8677928500647916, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.4118, - "eval_samples_per_second": 146.236, - "eval_steps_per_second": 18.28, - "step": 7500 - }, - { - "epoch": 25.016666666666666, - "grad_norm": 0.0001942561793839559, - "learning_rate": 3.3244444444444445e-05, - "loss": 0.0, - "step": 7505 - }, - { - "epoch": 25.033333333333335, - "grad_norm": 0.00021330978779587895, - "learning_rate": 3.313333333333333e-05, - "loss": 0.0, - "step": 7510 - }, - { - "epoch": 25.05, - "grad_norm": 0.0002240202302346006, - "learning_rate": 3.302222222222222e-05, - "loss": 0.0, - "step": 7515 - }, - { - "epoch": 25.066666666666666, - "grad_norm": 0.00021186558296903968, - "learning_rate": 3.291111111111111e-05, - "loss": 0.0, - "step": 7520 - }, - { - "epoch": 25.083333333333332, - "grad_norm": 0.00021995275164954364, - "learning_rate": 3.2800000000000004e-05, - "loss": 0.0, - "step": 7525 - }, - { - "epoch": 25.1, - "grad_norm": 0.00023080063692759722, - "learning_rate": 3.268888888888889e-05, - "loss": 0.0, - "step": 7530 - }, - { - "epoch": 25.116666666666667, - "grad_norm": 0.0001885340898297727, - "learning_rate": 3.257777777777778e-05, - "loss": 0.0, - "step": 7535 - }, - { - "epoch": 25.133333333333333, - "grad_norm": 0.0001947401906363666, - "learning_rate": 3.2466666666666665e-05, - "loss": 0.0, - "step": 7540 - }, - { - "epoch": 25.15, - "grad_norm": 0.00020716458675451577, - "learning_rate": 3.235555555555556e-05, - "loss": 0.0, - "step": 7545 - }, - { - "epoch": 25.166666666666668, - "grad_norm": 0.00019093073206022382, - "learning_rate": 3.224444444444444e-05, - "loss": 0.0, - "step": 7550 - }, - { - "epoch": 25.183333333333334, - "grad_norm": 0.00019267198513261974, - "learning_rate": 3.213333333333334e-05, - "loss": 0.0, - "step": 7555 - }, - { - "epoch": 25.2, - "grad_norm": 0.00018603692296892405, - "learning_rate": 3.2022222222222224e-05, - "loss": 0.0, - "step": 7560 - }, - { - "epoch": 25.216666666666665, - "grad_norm": 0.00020505531574599445, - "learning_rate": 3.1911111111111116e-05, - "loss": 0.0, - "step": 7565 - }, - { - "epoch": 25.233333333333334, - "grad_norm": 0.0002223146439064294, - "learning_rate": 3.18e-05, - "loss": 0.0, - "step": 7570 - }, - { - "epoch": 25.25, - "grad_norm": 0.00024383985146414489, - "learning_rate": 3.168888888888889e-05, - "loss": 0.0, - "step": 7575 - }, - { - "epoch": 25.266666666666666, - "grad_norm": 0.0002256166480947286, - "learning_rate": 3.1577777777777777e-05, - "loss": 0.0, - "step": 7580 - }, - { - "epoch": 25.283333333333335, - "grad_norm": 0.00018404734146315604, - "learning_rate": 3.146666666666667e-05, - "loss": 0.0, - "step": 7585 - }, - { - "epoch": 25.3, - "grad_norm": 0.00019268118194304407, - "learning_rate": 3.135555555555555e-05, - "loss": 0.0, - "step": 7590 - }, - { - "epoch": 25.316666666666666, - "grad_norm": 0.00021935034601483494, - "learning_rate": 3.124444444444445e-05, - "loss": 0.0, - "step": 7595 - }, - { - "epoch": 25.333333333333332, - "grad_norm": 0.00019639387028291821, - "learning_rate": 3.1133333333333336e-05, - "loss": 0.0, - "step": 7600 - }, - { - "epoch": 25.333333333333332, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499014115061261, - "eval_loss": 1.0840508937835693, - "eval_precision": 0.8676045631592612, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.4075, - "eval_samples_per_second": 146.274, - "eval_steps_per_second": 18.284, - "step": 7600 - }, - { - "epoch": 25.35, - "grad_norm": 0.0002353778836550191, - "learning_rate": 3.102222222222223e-05, - "loss": 0.0, - "step": 7605 - }, - { - "epoch": 25.366666666666667, - "grad_norm": 0.00019983290985692292, - "learning_rate": 3.091111111111111e-05, - "loss": 0.0, - "step": 7610 - }, - { - "epoch": 25.383333333333333, - "grad_norm": 0.00018285961414221674, - "learning_rate": 3.08e-05, - "loss": 0.0, - "step": 7615 - }, - { - "epoch": 25.4, - "grad_norm": 0.00020621360454242676, - "learning_rate": 3.068888888888889e-05, - "loss": 0.0, - "step": 7620 - }, - { - "epoch": 25.416666666666668, - "grad_norm": 0.00019097162294201553, - "learning_rate": 3.057777777777778e-05, - "loss": 0.0, - "step": 7625 - }, - { - "epoch": 25.433333333333334, - "grad_norm": 0.00022017410083208233, - "learning_rate": 3.0466666666666664e-05, - "loss": 0.0, - "step": 7630 - }, - { - "epoch": 25.45, - "grad_norm": 0.0002120487333741039, - "learning_rate": 3.035555555555556e-05, - "loss": 0.0, - "step": 7635 - }, - { - "epoch": 25.466666666666665, - "grad_norm": 0.00021357435616664588, - "learning_rate": 3.0244444444444447e-05, - "loss": 0.0, - "step": 7640 - }, - { - "epoch": 25.483333333333334, - "grad_norm": 0.00020658467838075012, - "learning_rate": 3.0133333333333335e-05, - "loss": 0.0, - "step": 7645 - }, - { - "epoch": 25.5, - "grad_norm": 0.00020484771812334657, - "learning_rate": 3.0022222222222223e-05, - "loss": 0.0, - "step": 7650 - }, - { - "epoch": 25.516666666666666, - "grad_norm": 0.0002239009627373889, - "learning_rate": 2.991111111111111e-05, - "loss": 0.0, - "step": 7655 - }, - { - "epoch": 25.533333333333335, - "grad_norm": 0.00024362772819586098, - "learning_rate": 2.98e-05, - "loss": 0.0, - "step": 7660 - }, - { - "epoch": 25.55, - "grad_norm": 0.00021080090664327145, - "learning_rate": 2.9688888888888887e-05, - "loss": 0.0, - "step": 7665 - }, - { - "epoch": 25.566666666666666, - "grad_norm": 0.00023055904603097588, - "learning_rate": 2.9577777777777775e-05, - "loss": 0.0, - "step": 7670 - }, - { - "epoch": 25.583333333333332, - "grad_norm": 0.0002009794261539355, - "learning_rate": 2.946666666666667e-05, - "loss": 0.0, - "step": 7675 - }, - { - "epoch": 25.6, - "grad_norm": 0.00021613991702906787, - "learning_rate": 2.935555555555556e-05, - "loss": 0.0, - "step": 7680 - }, - { - "epoch": 25.616666666666667, - "grad_norm": 0.0002275805309182033, - "learning_rate": 2.9244444444444446e-05, - "loss": 0.0, - "step": 7685 - }, - { - "epoch": 25.633333333333333, - "grad_norm": 0.00018441583961248398, - "learning_rate": 2.9133333333333334e-05, - "loss": 0.0, - "step": 7690 - }, - { - "epoch": 25.65, - "grad_norm": 0.0002087910834234208, - "learning_rate": 2.9022222222222223e-05, - "loss": 0.0, - "step": 7695 - }, - { - "epoch": 25.666666666666668, - "grad_norm": 0.00018186251691076905, - "learning_rate": 2.891111111111111e-05, - "loss": 0.0, - "step": 7700 - }, - { - "epoch": 25.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499474917195383, - "eval_loss": 1.0872223377227783, - "eval_precision": 0.8677635211806071, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.2359, - "eval_samples_per_second": 147.82, - "eval_steps_per_second": 18.478, - "step": 7700 - }, - { - "epoch": 25.683333333333334, - "grad_norm": 0.00021249383280519396, - "learning_rate": 2.88e-05, - "loss": 0.0, - "step": 7705 - }, - { - "epoch": 25.7, - "grad_norm": 0.00018269018619321287, - "learning_rate": 2.8688888888888894e-05, - "loss": 0.0, - "step": 7710 - }, - { - "epoch": 25.716666666666665, - "grad_norm": 0.00017630854563321918, - "learning_rate": 2.857777777777778e-05, - "loss": 0.0, - "step": 7715 - }, - { - "epoch": 25.733333333333334, - "grad_norm": 0.0001989843149203807, - "learning_rate": 2.846666666666667e-05, - "loss": 0.0, - "step": 7720 - }, - { - "epoch": 25.75, - "grad_norm": 0.00018381849804427475, - "learning_rate": 2.8355555555555558e-05, - "loss": 0.0, - "step": 7725 - }, - { - "epoch": 25.766666666666666, - "grad_norm": 0.00019013731798622757, - "learning_rate": 2.8244444444444446e-05, - "loss": 0.0, - "step": 7730 - }, - { - "epoch": 25.783333333333335, - "grad_norm": 0.00019070070993620902, - "learning_rate": 2.8133333333333334e-05, - "loss": 0.0, - "step": 7735 - }, - { - "epoch": 25.8, - "grad_norm": 0.00017564291192684323, - "learning_rate": 2.8022222222222222e-05, - "loss": 0.0, - "step": 7740 - }, - { - "epoch": 25.816666666666666, - "grad_norm": 0.00018047138291876763, - "learning_rate": 2.791111111111111e-05, - "loss": 0.0, - "step": 7745 - }, - { - "epoch": 25.833333333333332, - "grad_norm": 0.00019582344975788146, - "learning_rate": 2.7800000000000005e-05, - "loss": 0.0, - "step": 7750 - }, - { - "epoch": 25.85, - "grad_norm": 0.00021627818932756782, - "learning_rate": 2.7688888888888893e-05, - "loss": 0.0, - "step": 7755 - }, - { - "epoch": 25.866666666666667, - "grad_norm": 0.0001836529845604673, - "learning_rate": 2.757777777777778e-05, - "loss": 0.0, - "step": 7760 - }, - { - "epoch": 25.883333333333333, - "grad_norm": 0.00019720483396667987, - "learning_rate": 2.746666666666667e-05, - "loss": 0.0, - "step": 7765 - }, - { - "epoch": 25.9, - "grad_norm": 0.00020090618636459112, - "learning_rate": 2.7355555555555557e-05, - "loss": 0.0, - "step": 7770 - }, - { - "epoch": 25.916666666666668, - "grad_norm": 0.0002368639106862247, - "learning_rate": 2.7244444444444445e-05, - "loss": 0.0, - "step": 7775 - }, - { - "epoch": 25.933333333333334, - "grad_norm": 0.00020512170158326626, - "learning_rate": 2.7133333333333333e-05, - "loss": 0.0, - "step": 7780 - }, - { - "epoch": 25.95, - "grad_norm": 0.00017749317339621484, - "learning_rate": 2.702222222222222e-05, - "loss": 0.0, - "step": 7785 - }, - { - "epoch": 25.966666666666665, - "grad_norm": 0.0002012405457207933, - "learning_rate": 2.6911111111111116e-05, - "loss": 0.0, - "step": 7790 - }, - { - "epoch": 25.983333333333334, - "grad_norm": 0.0002458032395225018, - "learning_rate": 2.6800000000000004e-05, - "loss": 0.0, - "step": 7795 - }, - { - "epoch": 26.0, - "grad_norm": 0.0002021904510911554, - "learning_rate": 2.6688888888888892e-05, - "loss": 0.0, - "step": 7800 - }, - { - "epoch": 26.0, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499474917195383, - "eval_loss": 1.0904492139816284, - "eval_precision": 0.8677635211806071, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.2425, - "eval_samples_per_second": 147.761, - "eval_steps_per_second": 18.47, - "step": 7800 - }, - { - "epoch": 26.016666666666666, - "grad_norm": 0.00021319121879059821, - "learning_rate": 2.657777777777778e-05, - "loss": 0.0, - "step": 7805 - }, - { - "epoch": 26.033333333333335, - "grad_norm": 0.00019385428458917886, - "learning_rate": 2.646666666666667e-05, - "loss": 0.0, - "step": 7810 - }, - { - "epoch": 26.05, - "grad_norm": 0.00017327713430859149, - "learning_rate": 2.6355555555555557e-05, - "loss": 0.0, - "step": 7815 - }, - { - "epoch": 26.066666666666666, - "grad_norm": 0.00022667534358333796, - "learning_rate": 2.6244444444444445e-05, - "loss": 0.0, - "step": 7820 - }, - { - "epoch": 26.083333333333332, - "grad_norm": 0.00016665886505506933, - "learning_rate": 2.6133333333333333e-05, - "loss": 0.0, - "step": 7825 - }, - { - "epoch": 26.1, - "grad_norm": 0.00019432436965871602, - "learning_rate": 2.6022222222222224e-05, - "loss": 0.0, - "step": 7830 - }, - { - "epoch": 26.116666666666667, - "grad_norm": 0.00023906159913167357, - "learning_rate": 2.5911111111111112e-05, - "loss": 0.0, - "step": 7835 - }, - { - "epoch": 26.133333333333333, - "grad_norm": 0.00018499120778869838, - "learning_rate": 2.58e-05, - "loss": 0.0, - "step": 7840 - }, - { - "epoch": 26.15, - "grad_norm": 0.00018793478375300765, - "learning_rate": 2.5688888888888892e-05, - "loss": 0.0, - "step": 7845 - }, - { - "epoch": 26.166666666666668, - "grad_norm": 0.0001871521380962804, - "learning_rate": 2.557777777777778e-05, - "loss": 0.0, - "step": 7850 - }, - { - "epoch": 26.183333333333334, - "grad_norm": 0.00021178783208597451, - "learning_rate": 2.5466666666666668e-05, - "loss": 0.0, - "step": 7855 - }, - { - "epoch": 26.2, - "grad_norm": 0.0002078906400129199, - "learning_rate": 2.5355555555555556e-05, - "loss": 0.0, - "step": 7860 - }, - { - "epoch": 26.216666666666665, - "grad_norm": 0.00017986215243581682, - "learning_rate": 2.5244444444444447e-05, - "loss": 0.0, - "step": 7865 - }, - { - "epoch": 26.233333333333334, - "grad_norm": 0.00022249021276365966, - "learning_rate": 2.5133333333333336e-05, - "loss": 0.0, - "step": 7870 - }, - { - "epoch": 26.25, - "grad_norm": 0.00016730620700400323, - "learning_rate": 2.5022222222222224e-05, - "loss": 0.0, - "step": 7875 - }, - { - "epoch": 26.266666666666666, - "grad_norm": 0.00017138385737780482, - "learning_rate": 2.491111111111111e-05, - "loss": 0.0, - "step": 7880 - }, - { - "epoch": 26.283333333333335, - "grad_norm": 0.00021147914230823517, - "learning_rate": 2.48e-05, - "loss": 0.0, - "step": 7885 - }, - { - "epoch": 26.3, - "grad_norm": 0.00022281291603576392, - "learning_rate": 2.4688888888888888e-05, - "loss": 0.0, - "step": 7890 - }, - { - "epoch": 26.316666666666666, - "grad_norm": 0.00019178856746293604, - "learning_rate": 2.457777777777778e-05, - "loss": 0.0, - "step": 7895 - }, - { - "epoch": 26.333333333333332, - "grad_norm": 0.00020019823568873107, - "learning_rate": 2.4466666666666667e-05, - "loss": 0.0, - "step": 7900 - }, - { - "epoch": 26.333333333333332, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499474917195383, - "eval_loss": 1.0936561822891235, - "eval_precision": 0.8677635211806071, - "eval_recall": 0.8466666666666667, - "eval_runtime": 17.6921, - "eval_samples_per_second": 135.654, - "eval_steps_per_second": 16.957, - "step": 7900 - }, - { - "epoch": 26.35, - "grad_norm": 0.00019177117792423815, - "learning_rate": 2.4355555555555555e-05, - "loss": 0.0, - "step": 7905 - }, - { - "epoch": 26.366666666666667, - "grad_norm": 0.00018008038750849664, - "learning_rate": 2.4244444444444443e-05, - "loss": 0.0, - "step": 7910 - }, - { - "epoch": 26.383333333333333, - "grad_norm": 0.00019468706159386784, - "learning_rate": 2.4133333333333335e-05, - "loss": 0.0, - "step": 7915 - }, - { - "epoch": 26.4, - "grad_norm": 0.0001985773560591042, - "learning_rate": 2.4022222222222223e-05, - "loss": 0.0, - "step": 7920 - }, - { - "epoch": 26.416666666666668, - "grad_norm": 0.00016919510380830616, - "learning_rate": 2.391111111111111e-05, - "loss": 0.0, - "step": 7925 - }, - { - "epoch": 26.433333333333334, - "grad_norm": 0.00018142555200029165, - "learning_rate": 2.38e-05, - "loss": 0.0, - "step": 7930 - }, - { - "epoch": 26.45, - "grad_norm": 0.00016612290346529335, - "learning_rate": 2.368888888888889e-05, - "loss": 0.0, - "step": 7935 - }, - { - "epoch": 26.466666666666665, - "grad_norm": 0.0001912230218295008, - "learning_rate": 2.357777777777778e-05, - "loss": 0.0, - "step": 7940 - }, - { - "epoch": 26.483333333333334, - "grad_norm": 0.00018317271315027028, - "learning_rate": 2.3466666666666667e-05, - "loss": 0.0, - "step": 7945 - }, - { - "epoch": 26.5, - "grad_norm": 0.0001673145598033443, - "learning_rate": 2.3355555555555555e-05, - "loss": 0.0, - "step": 7950 - }, - { - "epoch": 26.516666666666666, - "grad_norm": 0.00016565914847888052, - "learning_rate": 2.3244444444444446e-05, - "loss": 0.0, - "step": 7955 - }, - { - "epoch": 26.533333333333335, - "grad_norm": 0.00017703264893498272, - "learning_rate": 2.3133333333333334e-05, - "loss": 0.0, - "step": 7960 - }, - { - "epoch": 26.55, - "grad_norm": 0.0001903561787912622, - "learning_rate": 2.3022222222222222e-05, - "loss": 0.0, - "step": 7965 - }, - { - "epoch": 26.566666666666666, - "grad_norm": 0.000183477284736, - "learning_rate": 2.291111111111111e-05, - "loss": 0.0, - "step": 7970 - }, - { - "epoch": 26.583333333333332, - "grad_norm": 0.0001745238114381209, - "learning_rate": 2.2800000000000002e-05, - "loss": 0.0, - "step": 7975 - }, - { - "epoch": 26.6, - "grad_norm": 0.00021769698651041836, - "learning_rate": 2.268888888888889e-05, - "loss": 0.0, - "step": 7980 - }, - { - "epoch": 26.616666666666667, - "grad_norm": 0.00020078175293747336, - "learning_rate": 2.2577777777777778e-05, - "loss": 0.0, - "step": 7985 - }, - { - "epoch": 26.633333333333333, - "grad_norm": 0.0001702758891042322, - "learning_rate": 2.2466666666666666e-05, - "loss": 0.0, - "step": 7990 - }, - { - "epoch": 26.65, - "grad_norm": 0.00020762017811648548, - "learning_rate": 2.2355555555555558e-05, - "loss": 0.0, - "step": 7995 - }, - { - "epoch": 26.666666666666668, - "grad_norm": 0.00020021077943965793, - "learning_rate": 2.2244444444444446e-05, - "loss": 0.0, - "step": 8000 - }, - { - "epoch": 26.666666666666668, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499474917195383, - "eval_loss": 1.0963623523712158, - "eval_precision": 0.8677635211806071, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.3674, - "eval_samples_per_second": 146.633, - "eval_steps_per_second": 18.329, - "step": 8000 - }, - { - "epoch": 26.683333333333334, - "grad_norm": 0.0002053326606983319, - "learning_rate": 2.2133333333333334e-05, - "loss": 0.0, - "step": 8005 - }, - { - "epoch": 26.7, - "grad_norm": 0.00017432811728212982, - "learning_rate": 2.2022222222222225e-05, - "loss": 0.0, - "step": 8010 - }, - { - "epoch": 26.716666666666665, - "grad_norm": 0.00020104054419789463, - "learning_rate": 2.1911111111111113e-05, - "loss": 0.0, - "step": 8015 - }, - { - "epoch": 26.733333333333334, - "grad_norm": 0.0002166717022191733, - "learning_rate": 2.18e-05, - "loss": 0.0, - "step": 8020 - }, - { - "epoch": 26.75, - "grad_norm": 0.0002083426807075739, - "learning_rate": 2.168888888888889e-05, - "loss": 0.0, - "step": 8025 - }, - { - "epoch": 26.766666666666666, - "grad_norm": 0.0001904317323351279, - "learning_rate": 2.157777777777778e-05, - "loss": 0.0, - "step": 8030 - }, - { - "epoch": 26.783333333333335, - "grad_norm": 0.00018196935707237571, - "learning_rate": 2.146666666666667e-05, - "loss": 0.0, - "step": 8035 - }, - { - "epoch": 26.8, - "grad_norm": 0.00021629329421557486, - "learning_rate": 2.1355555555555557e-05, - "loss": 0.0, - "step": 8040 - }, - { - "epoch": 26.816666666666666, - "grad_norm": 0.00022526076645590365, - "learning_rate": 2.1244444444444445e-05, - "loss": 0.0, - "step": 8045 - }, - { - "epoch": 26.833333333333332, - "grad_norm": 0.00018505295156501234, - "learning_rate": 2.1133333333333337e-05, - "loss": 0.0, - "step": 8050 - }, - { - "epoch": 26.85, - "grad_norm": 0.00017473427578806877, - "learning_rate": 2.1022222222222225e-05, - "loss": 0.0, - "step": 8055 - }, - { - "epoch": 26.866666666666667, - "grad_norm": 0.00020845029212068766, - "learning_rate": 2.0911111111111113e-05, - "loss": 0.0, - "step": 8060 - }, - { - "epoch": 26.883333333333333, - "grad_norm": 0.00018717366037890315, - "learning_rate": 2.08e-05, - "loss": 0.0, - "step": 8065 - }, - { - "epoch": 26.9, - "grad_norm": 0.0002003957488341257, - "learning_rate": 2.0688888888888892e-05, - "loss": 0.0, - "step": 8070 - }, - { - "epoch": 26.916666666666668, - "grad_norm": 0.00017774409207049757, - "learning_rate": 2.057777777777778e-05, - "loss": 0.0, - "step": 8075 - }, - { - "epoch": 26.933333333333334, - "grad_norm": 0.0001691968645900488, - "learning_rate": 2.046666666666667e-05, - "loss": 0.0, - "step": 8080 - }, - { - "epoch": 26.95, - "grad_norm": 0.0001912099396577105, - "learning_rate": 2.0355555555555556e-05, - "loss": 0.0, - "step": 8085 - }, - { - "epoch": 26.966666666666665, - "grad_norm": 0.00018918189743999392, - "learning_rate": 2.0244444444444448e-05, - "loss": 0.0, - "step": 8090 - }, - { - "epoch": 26.983333333333334, - "grad_norm": 0.00017669342923909426, - "learning_rate": 2.0133333333333336e-05, - "loss": 0.0, - "step": 8095 - }, - { - "epoch": 27.0, - "grad_norm": 0.00017295689031016082, - "learning_rate": 2.0022222222222224e-05, - "loss": 0.0, - "step": 8100 - }, - { - "epoch": 27.0, - "eval_accuracy": 0.8466666666666667, - "eval_f1": 0.8499474917195383, - "eval_loss": 1.0985764265060425, - "eval_precision": 0.8677635211806071, - "eval_recall": 0.8466666666666667, - "eval_runtime": 16.3352, - "eval_samples_per_second": 146.922, - "eval_steps_per_second": 18.365, - "step": 8100 - }, - { - "epoch": 27.016666666666666, - "grad_norm": 0.0001852269342634827, - "learning_rate": 1.9911111111111112e-05, - "loss": 0.0, - "step": 8105 - }, - { - "epoch": 27.033333333333335, - "grad_norm": 0.00019555952167138457, - "learning_rate": 1.9800000000000004e-05, - "loss": 0.0, - "step": 8110 - }, - { - "epoch": 27.05, - "grad_norm": 0.00019072165014222264, - "learning_rate": 1.968888888888889e-05, - "loss": 0.0, - "step": 8115 - }, - { - "epoch": 27.066666666666666, - "grad_norm": 0.0001717251434456557, - "learning_rate": 1.957777777777778e-05, - "loss": 0.0, - "step": 8120 - }, - { - "epoch": 27.083333333333332, - "grad_norm": 0.00016229409084189683, - "learning_rate": 1.9466666666666668e-05, - "loss": 0.0, - "step": 8125 - }, - { - "epoch": 27.1, - "grad_norm": 0.00018122178153134882, - "learning_rate": 1.9355555555555556e-05, - "loss": 0.0, - "step": 8130 - }, - { - "epoch": 27.116666666666667, - "grad_norm": 0.00017955582006834447, - "learning_rate": 1.9244444444444444e-05, - "loss": 0.0, - "step": 8135 - }, - { - "epoch": 27.133333333333333, - "grad_norm": 0.0001904004893731326, - "learning_rate": 1.9133333333333332e-05, - "loss": 0.0, - "step": 8140 - }, - { - "epoch": 27.15, - "grad_norm": 0.00016956734179984778, - "learning_rate": 1.9022222222222223e-05, - "loss": 0.0, - "step": 8145 - }, - { - "epoch": 27.166666666666668, - "grad_norm": 0.00017182479496113956, - "learning_rate": 1.891111111111111e-05, - "loss": 0.0, - "step": 8150 - }, - { - "epoch": 27.183333333333334, - "grad_norm": 0.0002006021823035553, - "learning_rate": 1.88e-05, - "loss": 0.0, - "step": 8155 - }, - { - "epoch": 27.2, - "grad_norm": 0.00019395053095649928, - "learning_rate": 1.8688888888888888e-05, - "loss": 0.0, - "step": 8160 - }, - { - "epoch": 27.216666666666665, - "grad_norm": 0.00017097392992582172, - "learning_rate": 1.8577777777777776e-05, - "loss": 0.0, - "step": 8165 - }, - { - "epoch": 27.233333333333334, - "grad_norm": 0.00017220221343450248, - "learning_rate": 1.8466666666666667e-05, - "loss": 0.0, - "step": 8170 - }, - { - "epoch": 27.25, - "grad_norm": 0.00017543449939694256, - "learning_rate": 1.8355555555555555e-05, - "loss": 0.0, - "step": 8175 - }, - { - "epoch": 27.266666666666666, - "grad_norm": 0.0001910717401187867, - "learning_rate": 1.8244444444444443e-05, - "loss": 0.0, - "step": 8180 - }, - { - "epoch": 27.283333333333335, - "grad_norm": 0.00017201453738380224, - "learning_rate": 1.8133333333333335e-05, - "loss": 0.0, - "step": 8185 - }, - { - "epoch": 27.3, - "grad_norm": 0.00018203712534159422, - "learning_rate": 1.8022222222222223e-05, - "loss": 0.0, - "step": 8190 - }, - { - "epoch": 27.316666666666666, - "grad_norm": 0.00018277041090186685, - "learning_rate": 1.791111111111111e-05, - "loss": 0.0, - "step": 8195 - }, - { - "epoch": 27.333333333333332, - "grad_norm": 0.00021968872169964015, - "learning_rate": 1.78e-05, - "loss": 0.0, - "step": 8200 - }, - { - "epoch": 27.333333333333332, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1007932424545288, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.2427, - "eval_samples_per_second": 147.759, - "eval_steps_per_second": 18.47, - "step": 8200 - }, - { - "epoch": 27.35, - "grad_norm": 0.00016245701408479363, - "learning_rate": 1.768888888888889e-05, - "loss": 0.0, - "step": 8205 - }, - { - "epoch": 27.366666666666667, - "grad_norm": 0.0002053354837698862, - "learning_rate": 1.757777777777778e-05, - "loss": 0.0, - "step": 8210 - }, - { - "epoch": 27.383333333333333, - "grad_norm": 0.0001704642054392025, - "learning_rate": 1.7466666666666667e-05, - "loss": 0.0, - "step": 8215 - }, - { - "epoch": 27.4, - "grad_norm": 0.00017936206131707877, - "learning_rate": 1.7355555555555555e-05, - "loss": 0.0, - "step": 8220 - }, - { - "epoch": 27.416666666666668, - "grad_norm": 0.00016624863201286644, - "learning_rate": 1.7244444444444446e-05, - "loss": 0.0, - "step": 8225 - }, - { - "epoch": 27.433333333333334, - "grad_norm": 0.00015973504923749715, - "learning_rate": 1.7133333333333334e-05, - "loss": 0.0, - "step": 8230 - }, - { - "epoch": 27.45, - "grad_norm": 0.00023378623882308602, - "learning_rate": 1.7022222222222222e-05, - "loss": 0.0, - "step": 8235 - }, - { - "epoch": 27.466666666666665, - "grad_norm": 0.00017143995501101017, - "learning_rate": 1.691111111111111e-05, - "loss": 0.0, - "step": 8240 - }, - { - "epoch": 27.483333333333334, - "grad_norm": 0.00018446045578457415, - "learning_rate": 1.6800000000000002e-05, - "loss": 0.0, - "step": 8245 - }, - { - "epoch": 27.5, - "grad_norm": 0.00018205182277597487, - "learning_rate": 1.668888888888889e-05, - "loss": 0.0, - "step": 8250 - }, - { - "epoch": 27.516666666666666, - "grad_norm": 0.0001672839280217886, - "learning_rate": 1.6577777777777778e-05, - "loss": 0.0, - "step": 8255 - }, - { - "epoch": 27.533333333333335, - "grad_norm": 0.0001828784152166918, - "learning_rate": 1.6466666666666666e-05, - "loss": 0.0, - "step": 8260 - }, - { - "epoch": 27.55, - "grad_norm": 0.0001756389538059011, - "learning_rate": 1.6355555555555557e-05, - "loss": 0.0, - "step": 8265 - }, - { - "epoch": 27.566666666666666, - "grad_norm": 0.0001946628326550126, - "learning_rate": 1.6244444444444446e-05, - "loss": 0.0, - "step": 8270 - }, - { - "epoch": 27.583333333333332, - "grad_norm": 0.0001776106801116839, - "learning_rate": 1.6133333333333334e-05, - "loss": 0.0, - "step": 8275 - }, - { - "epoch": 27.6, - "grad_norm": 0.00021020403073634952, - "learning_rate": 1.602222222222222e-05, - "loss": 0.0, - "step": 8280 - }, - { - "epoch": 27.616666666666667, - "grad_norm": 0.00020445423433557153, - "learning_rate": 1.5911111111111113e-05, - "loss": 0.0, - "step": 8285 - }, - { - "epoch": 27.633333333333333, - "grad_norm": 0.00015854407683946192, - "learning_rate": 1.58e-05, - "loss": 0.0, - "step": 8290 - }, - { - "epoch": 27.65, - "grad_norm": 0.00020362314535304904, - "learning_rate": 1.568888888888889e-05, - "loss": 0.0, - "step": 8295 - }, - { - "epoch": 27.666666666666668, - "grad_norm": 0.00018289081344846636, - "learning_rate": 1.5577777777777777e-05, - "loss": 0.0, - "step": 8300 - }, - { - "epoch": 27.666666666666668, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1030311584472656, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.4663, - "eval_samples_per_second": 145.752, - "eval_steps_per_second": 18.219, - "step": 8300 - }, - { - "epoch": 27.683333333333334, - "grad_norm": 0.00015787893789820373, - "learning_rate": 1.546666666666667e-05, - "loss": 0.0, - "step": 8305 - }, - { - "epoch": 27.7, - "grad_norm": 0.00016540224896743894, - "learning_rate": 1.5355555555555557e-05, - "loss": 0.0, - "step": 8310 - }, - { - "epoch": 27.716666666666665, - "grad_norm": 0.00016849763051141053, - "learning_rate": 1.5244444444444445e-05, - "loss": 0.0, - "step": 8315 - }, - { - "epoch": 27.733333333333334, - "grad_norm": 0.0001871218701126054, - "learning_rate": 1.5133333333333333e-05, - "loss": 0.0, - "step": 8320 - }, - { - "epoch": 27.75, - "grad_norm": 0.00016975770995486528, - "learning_rate": 1.5022222222222224e-05, - "loss": 0.0, - "step": 8325 - }, - { - "epoch": 27.766666666666666, - "grad_norm": 0.00019094315939582884, - "learning_rate": 1.4911111111111113e-05, - "loss": 0.0, - "step": 8330 - }, - { - "epoch": 27.783333333333335, - "grad_norm": 0.00015734016778878868, - "learning_rate": 1.48e-05, - "loss": 0.0, - "step": 8335 - }, - { - "epoch": 27.8, - "grad_norm": 0.00020348557154648006, - "learning_rate": 1.468888888888889e-05, - "loss": 0.0, - "step": 8340 - }, - { - "epoch": 27.816666666666666, - "grad_norm": 0.00015738116053398699, - "learning_rate": 1.4577777777777778e-05, - "loss": 0.0, - "step": 8345 - }, - { - "epoch": 27.833333333333332, - "grad_norm": 0.00016995728947222233, - "learning_rate": 1.4466666666666667e-05, - "loss": 0.0, - "step": 8350 - }, - { - "epoch": 27.85, - "grad_norm": 0.0001540068187750876, - "learning_rate": 1.4355555555555556e-05, - "loss": 0.0, - "step": 8355 - }, - { - "epoch": 27.866666666666667, - "grad_norm": 0.0001582684344612062, - "learning_rate": 1.4244444444444446e-05, - "loss": 0.0, - "step": 8360 - }, - { - "epoch": 27.883333333333333, - "grad_norm": 0.00017334743461105973, - "learning_rate": 1.4133333333333334e-05, - "loss": 0.0, - "step": 8365 - }, - { - "epoch": 27.9, - "grad_norm": 0.00019678374519571662, - "learning_rate": 1.4022222222222222e-05, - "loss": 0.0, - "step": 8370 - }, - { - "epoch": 27.916666666666668, - "grad_norm": 0.00020504732674453408, - "learning_rate": 1.391111111111111e-05, - "loss": 0.0, - "step": 8375 - }, - { - "epoch": 27.933333333333334, - "grad_norm": 0.00016598978254478425, - "learning_rate": 1.3800000000000002e-05, - "loss": 0.0, - "step": 8380 - }, - { - "epoch": 27.95, - "grad_norm": 0.00018112520046997815, - "learning_rate": 1.368888888888889e-05, - "loss": 0.0, - "step": 8385 - }, - { - "epoch": 27.966666666666665, - "grad_norm": 0.00020130231860093772, - "learning_rate": 1.3577777777777778e-05, - "loss": 0.0, - "step": 8390 - }, - { - "epoch": 27.983333333333334, - "grad_norm": 0.00018439270206727087, - "learning_rate": 1.3466666666666666e-05, - "loss": 0.0, - "step": 8395 - }, - { - "epoch": 28.0, - "grad_norm": 0.00016649501048959792, - "learning_rate": 1.3355555555555557e-05, - "loss": 0.0, - "step": 8400 - }, - { - "epoch": 28.0, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1048692464828491, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.4281, - "eval_samples_per_second": 146.091, - "eval_steps_per_second": 18.261, - "step": 8400 - }, - { - "epoch": 28.016666666666666, - "grad_norm": 0.00017881397798191756, - "learning_rate": 1.3244444444444445e-05, - "loss": 0.0, - "step": 8405 - }, - { - "epoch": 28.033333333333335, - "grad_norm": 0.000168416605447419, - "learning_rate": 1.3133333333333334e-05, - "loss": 0.0, - "step": 8410 - }, - { - "epoch": 28.05, - "grad_norm": 0.00019224282004870474, - "learning_rate": 1.3022222222222222e-05, - "loss": 0.0, - "step": 8415 - }, - { - "epoch": 28.066666666666666, - "grad_norm": 0.0001912825246108696, - "learning_rate": 1.2911111111111113e-05, - "loss": 0.0, - "step": 8420 - }, - { - "epoch": 28.083333333333332, - "grad_norm": 0.00016749367932789028, - "learning_rate": 1.2800000000000001e-05, - "loss": 0.0, - "step": 8425 - }, - { - "epoch": 28.1, - "grad_norm": 0.00017143777222372591, - "learning_rate": 1.268888888888889e-05, - "loss": 0.0, - "step": 8430 - }, - { - "epoch": 28.116666666666667, - "grad_norm": 0.00018661450303625315, - "learning_rate": 1.2577777777777777e-05, - "loss": 0.0, - "step": 8435 - }, - { - "epoch": 28.133333333333333, - "grad_norm": 0.00016591892926953733, - "learning_rate": 1.2466666666666667e-05, - "loss": 0.0, - "step": 8440 - }, - { - "epoch": 28.15, - "grad_norm": 0.00017483366536907852, - "learning_rate": 1.2355555555555557e-05, - "loss": 0.0, - "step": 8445 - }, - { - "epoch": 28.166666666666668, - "grad_norm": 0.0001687474432401359, - "learning_rate": 1.2244444444444445e-05, - "loss": 0.0, - "step": 8450 - }, - { - "epoch": 28.183333333333334, - "grad_norm": 0.0001668264449108392, - "learning_rate": 1.2133333333333335e-05, - "loss": 0.0, - "step": 8455 - }, - { - "epoch": 28.2, - "grad_norm": 0.00015712040476500988, - "learning_rate": 1.2022222222222223e-05, - "loss": 0.0, - "step": 8460 - }, - { - "epoch": 28.216666666666665, - "grad_norm": 0.00017141320859082043, - "learning_rate": 1.1911111111111112e-05, - "loss": 0.0, - "step": 8465 - }, - { - "epoch": 28.233333333333334, - "grad_norm": 0.00016309547936543822, - "learning_rate": 1.18e-05, - "loss": 0.0, - "step": 8470 - }, - { - "epoch": 28.25, - "grad_norm": 0.00017021626990754157, - "learning_rate": 1.168888888888889e-05, - "loss": 0.0, - "step": 8475 - }, - { - "epoch": 28.266666666666666, - "grad_norm": 0.00017951532208826393, - "learning_rate": 1.1577777777777778e-05, - "loss": 0.0, - "step": 8480 - }, - { - "epoch": 28.283333333333335, - "grad_norm": 0.00016830900858622044, - "learning_rate": 1.1466666666666666e-05, - "loss": 0.0, - "step": 8485 - }, - { - "epoch": 28.3, - "grad_norm": 0.00017970771295949817, - "learning_rate": 1.1355555555555556e-05, - "loss": 0.0, - "step": 8490 - }, - { - "epoch": 28.316666666666666, - "grad_norm": 0.00017130903142970055, - "learning_rate": 1.1244444444444444e-05, - "loss": 0.0, - "step": 8495 - }, - { - "epoch": 28.333333333333332, - "grad_norm": 0.0001591273321537301, - "learning_rate": 1.1133333333333334e-05, - "loss": 0.0, - "step": 8500 - }, - { - "epoch": 28.333333333333332, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1065855026245117, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.4395, - "eval_samples_per_second": 145.99, - "eval_steps_per_second": 18.249, - "step": 8500 - }, - { - "epoch": 28.35, - "grad_norm": 0.00016571929154451936, - "learning_rate": 1.1022222222222222e-05, - "loss": 0.0, - "step": 8505 - }, - { - "epoch": 28.366666666666667, - "grad_norm": 0.00017218029825016856, - "learning_rate": 1.0911111111111112e-05, - "loss": 0.0, - "step": 8510 - }, - { - "epoch": 28.383333333333333, - "grad_norm": 0.00016587144637014717, - "learning_rate": 1.08e-05, - "loss": 0.0, - "step": 8515 - }, - { - "epoch": 28.4, - "grad_norm": 0.00015197490574792027, - "learning_rate": 1.068888888888889e-05, - "loss": 0.0, - "step": 8520 - }, - { - "epoch": 28.416666666666668, - "grad_norm": 0.00018224057566840202, - "learning_rate": 1.0577777777777778e-05, - "loss": 0.0, - "step": 8525 - }, - { - "epoch": 28.433333333333334, - "grad_norm": 0.00016749734641052783, - "learning_rate": 1.0466666666666668e-05, - "loss": 0.0, - "step": 8530 - }, - { - "epoch": 28.45, - "grad_norm": 0.00016360016888938844, - "learning_rate": 1.0355555555555556e-05, - "loss": 0.0, - "step": 8535 - }, - { - "epoch": 28.466666666666665, - "grad_norm": 0.00017934229981619865, - "learning_rate": 1.0244444444444445e-05, - "loss": 0.0, - "step": 8540 - }, - { - "epoch": 28.483333333333334, - "grad_norm": 0.00017481864779256284, - "learning_rate": 1.0133333333333333e-05, - "loss": 0.0, - "step": 8545 - }, - { - "epoch": 28.5, - "grad_norm": 0.000178522925125435, - "learning_rate": 1.0022222222222223e-05, - "loss": 0.0, - "step": 8550 - }, - { - "epoch": 28.516666666666666, - "grad_norm": 0.00016635807696729898, - "learning_rate": 9.911111111111111e-06, - "loss": 0.0, - "step": 8555 - }, - { - "epoch": 28.533333333333335, - "grad_norm": 0.00017827223928179592, - "learning_rate": 9.800000000000001e-06, - "loss": 0.0, - "step": 8560 - }, - { - "epoch": 28.55, - "grad_norm": 0.00016184420383069664, - "learning_rate": 9.688888888888889e-06, - "loss": 0.0, - "step": 8565 - }, - { - "epoch": 28.566666666666666, - "grad_norm": 0.00016978861822281033, - "learning_rate": 9.577777777777779e-06, - "loss": 0.0, - "step": 8570 - }, - { - "epoch": 28.583333333333332, - "grad_norm": 0.00020492664771154523, - "learning_rate": 9.466666666666667e-06, - "loss": 0.0, - "step": 8575 - }, - { - "epoch": 28.6, - "grad_norm": 0.000167500096722506, - "learning_rate": 9.355555555555557e-06, - "loss": 0.0, - "step": 8580 - }, - { - "epoch": 28.616666666666667, - "grad_norm": 0.00020092942577321082, - "learning_rate": 9.244444444444445e-06, - "loss": 0.0, - "step": 8585 - }, - { - "epoch": 28.633333333333333, - "grad_norm": 0.0001842565106926486, - "learning_rate": 9.133333333333335e-06, - "loss": 0.0, - "step": 8590 - }, - { - "epoch": 28.65, - "grad_norm": 0.00017080429825000465, - "learning_rate": 9.022222222222223e-06, - "loss": 0.0, - "step": 8595 - }, - { - "epoch": 28.666666666666668, - "grad_norm": 0.00019182806136086583, - "learning_rate": 8.911111111111112e-06, - "loss": 0.0, - "step": 8600 - }, - { - "epoch": 28.666666666666668, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1078474521636963, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.5248, - "eval_samples_per_second": 145.237, - "eval_steps_per_second": 18.155, - "step": 8600 - }, - { - "epoch": 28.683333333333334, - "grad_norm": 0.00016121655062306672, - "learning_rate": 8.8e-06, - "loss": 0.0, - "step": 8605 - }, - { - "epoch": 28.7, - "grad_norm": 0.00016742308798711747, - "learning_rate": 8.68888888888889e-06, - "loss": 0.0, - "step": 8610 - }, - { - "epoch": 28.716666666666665, - "grad_norm": 0.00017876374477054924, - "learning_rate": 8.577777777777778e-06, - "loss": 0.0, - "step": 8615 - }, - { - "epoch": 28.733333333333334, - "grad_norm": 0.00018229636771138757, - "learning_rate": 8.466666666666666e-06, - "loss": 0.0, - "step": 8620 - }, - { - "epoch": 28.75, - "grad_norm": 0.00018342919065617025, - "learning_rate": 8.355555555555556e-06, - "loss": 0.0, - "step": 8625 - }, - { - "epoch": 28.766666666666666, - "grad_norm": 0.00017044585547409952, - "learning_rate": 8.244444444444444e-06, - "loss": 0.0, - "step": 8630 - }, - { - "epoch": 28.783333333333335, - "grad_norm": 0.00022093832376413047, - "learning_rate": 8.133333333333332e-06, - "loss": 0.0, - "step": 8635 - }, - { - "epoch": 28.8, - "grad_norm": 0.00020136944658588618, - "learning_rate": 8.022222222222222e-06, - "loss": 0.0, - "step": 8640 - }, - { - "epoch": 28.816666666666666, - "grad_norm": 0.00015968627121765167, - "learning_rate": 7.91111111111111e-06, - "loss": 0.0, - "step": 8645 - }, - { - "epoch": 28.833333333333332, - "grad_norm": 0.00016780797159299254, - "learning_rate": 7.8e-06, - "loss": 0.0, - "step": 8650 - }, - { - "epoch": 28.85, - "grad_norm": 0.00017459876835346222, - "learning_rate": 7.68888888888889e-06, - "loss": 0.0, - "step": 8655 - }, - { - "epoch": 28.866666666666667, - "grad_norm": 0.0001598584931343794, - "learning_rate": 7.577777777777778e-06, - "loss": 0.0, - "step": 8660 - }, - { - "epoch": 28.883333333333333, - "grad_norm": 0.00016589650476817042, - "learning_rate": 7.4666666666666675e-06, - "loss": 0.0, - "step": 8665 - }, - { - "epoch": 28.9, - "grad_norm": 0.000205647898837924, - "learning_rate": 7.3555555555555555e-06, - "loss": 0.0, - "step": 8670 - }, - { - "epoch": 28.916666666666668, - "grad_norm": 0.00016796989075373858, - "learning_rate": 7.244444444444445e-06, - "loss": 0.0, - "step": 8675 - }, - { - "epoch": 28.933333333333334, - "grad_norm": 0.00017198962450493127, - "learning_rate": 7.133333333333333e-06, - "loss": 0.0, - "step": 8680 - }, - { - "epoch": 28.95, - "grad_norm": 0.0001774434495018795, - "learning_rate": 7.022222222222223e-06, - "loss": 0.0, - "step": 8685 - }, - { - "epoch": 28.966666666666665, - "grad_norm": 0.0001781430619303137, - "learning_rate": 6.911111111111111e-06, - "loss": 0.0, - "step": 8690 - }, - { - "epoch": 28.983333333333334, - "grad_norm": 0.0001898373884614557, - "learning_rate": 6.800000000000001e-06, - "loss": 0.0, - "step": 8695 - }, - { - "epoch": 29.0, - "grad_norm": 0.00017583163571543992, - "learning_rate": 6.688888888888889e-06, - "loss": 0.0, - "step": 8700 - }, - { - "epoch": 29.0, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1089760065078735, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.3497, - "eval_samples_per_second": 146.792, - "eval_steps_per_second": 18.349, - "step": 8700 - }, - { - "epoch": 29.016666666666666, - "grad_norm": 0.0001977140491362661, - "learning_rate": 6.577777777777779e-06, - "loss": 0.0, - "step": 8705 - }, - { - "epoch": 29.033333333333335, - "grad_norm": 0.00017144493176601827, - "learning_rate": 6.466666666666667e-06, - "loss": 0.0, - "step": 8710 - }, - { - "epoch": 29.05, - "grad_norm": 0.00018119969172403216, - "learning_rate": 6.355555555555557e-06, - "loss": 0.0, - "step": 8715 - }, - { - "epoch": 29.066666666666666, - "grad_norm": 0.00016114844765979797, - "learning_rate": 6.244444444444445e-06, - "loss": 0.0, - "step": 8720 - }, - { - "epoch": 29.083333333333332, - "grad_norm": 0.00015752238687127829, - "learning_rate": 6.133333333333334e-06, - "loss": 0.0, - "step": 8725 - }, - { - "epoch": 29.1, - "grad_norm": 0.00016545462131034583, - "learning_rate": 6.0222222222222225e-06, - "loss": 0.0, - "step": 8730 - }, - { - "epoch": 29.116666666666667, - "grad_norm": 0.0001483046216890216, - "learning_rate": 5.9111111111111115e-06, - "loss": 0.0, - "step": 8735 - }, - { - "epoch": 29.133333333333333, - "grad_norm": 0.00019300926942378283, - "learning_rate": 5.8e-06, - "loss": 0.0, - "step": 8740 - }, - { - "epoch": 29.15, - "grad_norm": 0.0001875618618214503, - "learning_rate": 5.688888888888889e-06, - "loss": 0.0, - "step": 8745 - }, - { - "epoch": 29.166666666666668, - "grad_norm": 0.00017213233513757586, - "learning_rate": 5.577777777777778e-06, - "loss": 0.0, - "step": 8750 - }, - { - "epoch": 29.183333333333334, - "grad_norm": 0.00017057311197277158, - "learning_rate": 5.466666666666667e-06, - "loss": 0.0, - "step": 8755 - }, - { - "epoch": 29.2, - "grad_norm": 0.00017462090181652457, - "learning_rate": 5.355555555555556e-06, - "loss": 0.0, - "step": 8760 - }, - { - "epoch": 29.216666666666665, - "grad_norm": 0.00017630109505262226, - "learning_rate": 5.244444444444445e-06, - "loss": 0.0, - "step": 8765 - }, - { - "epoch": 29.233333333333334, - "grad_norm": 0.00016224596765823662, - "learning_rate": 5.133333333333334e-06, - "loss": 0.0, - "step": 8770 - }, - { - "epoch": 29.25, - "grad_norm": 0.00017654811381362379, - "learning_rate": 5.022222222222223e-06, - "loss": 0.0, - "step": 8775 - }, - { - "epoch": 29.266666666666666, - "grad_norm": 0.0001577281509526074, - "learning_rate": 4.911111111111112e-06, - "loss": 0.0, - "step": 8780 - }, - { - "epoch": 29.283333333333335, - "grad_norm": 0.0001754974655341357, - "learning_rate": 4.800000000000001e-06, - "loss": 0.0, - "step": 8785 - }, - { - "epoch": 29.3, - "grad_norm": 0.0001797271252144128, - "learning_rate": 4.6888888888888895e-06, - "loss": 0.0, - "step": 8790 - }, - { - "epoch": 29.316666666666666, - "grad_norm": 0.0001631300983717665, - "learning_rate": 4.5777777777777785e-06, - "loss": 0.0, - "step": 8795 - }, - { - "epoch": 29.333333333333332, - "grad_norm": 0.00016975663311313838, - "learning_rate": 4.4666666666666665e-06, - "loss": 0.0, - "step": 8800 - }, - { - "epoch": 29.333333333333332, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1098453998565674, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.5118, - "eval_samples_per_second": 145.351, - "eval_steps_per_second": 18.169, - "step": 8800 - }, - { - "epoch": 29.35, - "grad_norm": 0.0002114356611855328, - "learning_rate": 4.3555555555555555e-06, - "loss": 0.0, - "step": 8805 - }, - { - "epoch": 29.366666666666667, - "grad_norm": 0.00014829794235993177, - "learning_rate": 4.244444444444444e-06, - "loss": 0.0, - "step": 8810 - }, - { - "epoch": 29.383333333333333, - "grad_norm": 0.0001676200918154791, - "learning_rate": 4.133333333333333e-06, - "loss": 0.0, - "step": 8815 - }, - { - "epoch": 29.4, - "grad_norm": 0.00015456533583346754, - "learning_rate": 4.022222222222222e-06, - "loss": 0.0, - "step": 8820 - }, - { - "epoch": 29.416666666666668, - "grad_norm": 0.00016858227900229394, - "learning_rate": 3.911111111111111e-06, - "loss": 0.0, - "step": 8825 - }, - { - "epoch": 29.433333333333334, - "grad_norm": 0.000170400453498587, - "learning_rate": 3.8e-06, - "loss": 0.0, - "step": 8830 - }, - { - "epoch": 29.45, - "grad_norm": 0.00017278172890655696, - "learning_rate": 3.688888888888889e-06, - "loss": 0.0, - "step": 8835 - }, - { - "epoch": 29.466666666666665, - "grad_norm": 0.00017529461183585227, - "learning_rate": 3.577777777777778e-06, - "loss": 0.0, - "step": 8840 - }, - { - "epoch": 29.483333333333334, - "grad_norm": 0.00019419223826844245, - "learning_rate": 3.466666666666667e-06, - "loss": 0.0, - "step": 8845 - }, - { - "epoch": 29.5, - "grad_norm": 0.0001898568298202008, - "learning_rate": 3.3555555555555557e-06, - "loss": 0.0, - "step": 8850 - }, - { - "epoch": 29.516666666666666, - "grad_norm": 0.00015639983757864684, - "learning_rate": 3.244444444444444e-06, - "loss": 0.0, - "step": 8855 - }, - { - "epoch": 29.533333333333335, - "grad_norm": 0.00016882758063729852, - "learning_rate": 3.133333333333333e-06, - "loss": 0.0, - "step": 8860 - }, - { - "epoch": 29.55, - "grad_norm": 0.00014896517677698284, - "learning_rate": 3.0222222222222225e-06, - "loss": 0.0, - "step": 8865 - }, - { - "epoch": 29.566666666666666, - "grad_norm": 0.00017078824748750776, - "learning_rate": 2.9111111111111114e-06, - "loss": 0.0, - "step": 8870 - }, - { - "epoch": 29.583333333333332, - "grad_norm": 0.00014907495642546564, - "learning_rate": 2.8000000000000003e-06, - "loss": 0.0, - "step": 8875 - }, - { - "epoch": 29.6, - "grad_norm": 0.00015837243699934334, - "learning_rate": 2.6888888888888892e-06, - "loss": 0.0, - "step": 8880 - }, - { - "epoch": 29.616666666666667, - "grad_norm": 0.00017680721066426486, - "learning_rate": 2.5777777777777777e-06, - "loss": 0.0, - "step": 8885 - }, - { - "epoch": 29.633333333333333, - "grad_norm": 0.00015973683912307024, - "learning_rate": 2.4666666666666666e-06, - "loss": 0.0, - "step": 8890 - }, - { - "epoch": 29.65, - "grad_norm": 0.0001540584344184026, - "learning_rate": 2.3555555555555555e-06, - "loss": 0.0, - "step": 8895 - }, - { - "epoch": 29.666666666666668, - "grad_norm": 0.00018709010328166187, - "learning_rate": 2.2444444444444445e-06, - "loss": 0.0, - "step": 8900 - }, - { - "epoch": 29.666666666666668, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1103477478027344, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.3012, - "eval_samples_per_second": 147.228, - "eval_steps_per_second": 18.404, - "step": 8900 - }, - { - "epoch": 29.683333333333334, - "grad_norm": 0.00017235144332516938, - "learning_rate": 2.1333333333333334e-06, - "loss": 0.0, - "step": 8905 - }, - { - "epoch": 29.7, - "grad_norm": 0.00015731393068563193, - "learning_rate": 2.0222222222222223e-06, - "loss": 0.0, - "step": 8910 - }, - { - "epoch": 29.716666666666665, - "grad_norm": 0.0001876844180515036, - "learning_rate": 1.9111111111111112e-06, - "loss": 0.0, - "step": 8915 - }, - { - "epoch": 29.733333333333334, - "grad_norm": 0.00018167035887017846, - "learning_rate": 1.8e-06, - "loss": 0.0, - "step": 8920 - }, - { - "epoch": 29.75, - "grad_norm": 0.00017092183406930417, - "learning_rate": 1.6888888888888888e-06, - "loss": 0.0, - "step": 8925 - }, - { - "epoch": 29.766666666666666, - "grad_norm": 0.00015764001000206918, - "learning_rate": 1.577777777777778e-06, - "loss": 0.0, - "step": 8930 - }, - { - "epoch": 29.783333333333335, - "grad_norm": 0.00019886271911673248, - "learning_rate": 1.4666666666666667e-06, - "loss": 0.0, - "step": 8935 - }, - { - "epoch": 29.8, - "grad_norm": 0.00015052667004056275, - "learning_rate": 1.3555555555555556e-06, - "loss": 0.0, - "step": 8940 - }, - { - "epoch": 29.816666666666666, - "grad_norm": 0.00017825148825068027, - "learning_rate": 1.2444444444444445e-06, - "loss": 0.0, - "step": 8945 - }, - { - "epoch": 29.833333333333332, - "grad_norm": 0.00015176774468272924, - "learning_rate": 1.1333333333333334e-06, - "loss": 0.0, - "step": 8950 - }, - { - "epoch": 29.85, - "grad_norm": 0.00018614469445310533, - "learning_rate": 1.0222222222222223e-06, - "loss": 0.0, - "step": 8955 - }, - { - "epoch": 29.866666666666667, - "grad_norm": 0.00018009902851190418, - "learning_rate": 9.111111111111112e-07, - "loss": 0.0, - "step": 8960 - }, - { - "epoch": 29.883333333333333, - "grad_norm": 0.00015436091052833945, - "learning_rate": 8.000000000000001e-07, - "loss": 0.0, - "step": 8965 - }, - { - "epoch": 29.9, - "grad_norm": 0.00016159001097548753, - "learning_rate": 6.888888888888889e-07, - "loss": 0.0, - "step": 8970 - }, - { - "epoch": 29.916666666666668, - "grad_norm": 0.00016791277448646724, - "learning_rate": 5.777777777777778e-07, - "loss": 0.0, - "step": 8975 - }, - { - "epoch": 29.933333333333334, - "grad_norm": 0.0001509374415036291, - "learning_rate": 4.666666666666667e-07, - "loss": 0.0, - "step": 8980 - }, - { - "epoch": 29.95, - "grad_norm": 0.00016922541544772685, - "learning_rate": 3.555555555555556e-07, - "loss": 0.0, - "step": 8985 - }, - { - "epoch": 29.966666666666665, - "grad_norm": 0.00017953866336029023, - "learning_rate": 2.4444444444444445e-07, - "loss": 0.0, - "step": 8990 - }, - { - "epoch": 29.983333333333334, - "grad_norm": 0.00016647855227347463, - "learning_rate": 1.3333333333333334e-07, - "loss": 0.0, - "step": 8995 - }, - { - "epoch": 30.0, - "grad_norm": 0.00017032191681209952, - "learning_rate": 2.2222222222222224e-08, - "loss": 0.0, - "step": 9000 - }, - { - "epoch": 30.0, - "eval_accuracy": 0.84625, - "eval_f1": 0.849574962512591, - "eval_loss": 1.1104629039764404, - "eval_precision": 0.8675029021569344, - "eval_recall": 0.84625, - "eval_runtime": 16.4754, - "eval_samples_per_second": 145.672, - "eval_steps_per_second": 18.209, - "step": 9000 - }, - { - "epoch": 30.0, - "step": 9000, - "total_flos": 2.231849311469568e+19, - "train_loss": 0.02316958835389879, - "train_runtime": 4210.125, - "train_samples_per_second": 68.407, - "train_steps_per_second": 2.138 + "epoch": 15.0, + "step": 4500, + "total_flos": 1.115924655734784e+19, + "train_loss": 0.036104821799529924, + "train_runtime": 1974.1364, + "train_samples_per_second": 72.943, + "train_steps_per_second": 2.279 } ], "logging_steps": 5, - "max_steps": 9000, + "max_steps": 4500, "num_input_tokens_seen": 0, - "num_train_epochs": 30, + "num_train_epochs": 15, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { @@ -13715,7 +6875,7 @@ "attributes": {} } }, - "total_flos": 2.231849311469568e+19, + "total_flos": 1.115924655734784e+19, "train_batch_size": 32, "trial_name": null, "trial_params": null