{ "best_metric": 0.8337175846099854, "best_model_checkpoint": "vit-base-kidney-stone-Michel_Daudon_-w256_1k_v1-_SUR\\checkpoint-100", "epoch": 15.0, "eval_steps": 100, "global_step": 2250, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.03333333333333333, "grad_norm": 1.5674093961715698, "learning_rate": 0.00019955555555555558, "loss": 1.6756, "step": 5 }, { "epoch": 0.06666666666666667, "grad_norm": 1.8440837860107422, "learning_rate": 0.00019911111111111111, "loss": 1.3465, "step": 10 }, { "epoch": 0.1, "grad_norm": 1.6772500276565552, "learning_rate": 0.00019866666666666668, "loss": 0.9798, "step": 15 }, { "epoch": 0.13333333333333333, "grad_norm": 2.06050968170166, "learning_rate": 0.00019822222222222225, "loss": 0.7106, "step": 20 }, { "epoch": 0.16666666666666666, "grad_norm": 2.0225460529327393, "learning_rate": 0.00019777777777777778, "loss": 0.5473, "step": 25 }, { "epoch": 0.2, "grad_norm": 2.0418334007263184, "learning_rate": 0.00019733333333333335, "loss": 0.3789, "step": 30 }, { "epoch": 0.23333333333333334, "grad_norm": 2.225229263305664, "learning_rate": 0.0001968888888888889, "loss": 0.3303, "step": 35 }, { "epoch": 0.26666666666666666, "grad_norm": 1.113311767578125, "learning_rate": 0.00019644444444444445, "loss": 0.3209, "step": 40 }, { "epoch": 0.3, "grad_norm": 2.4809906482696533, "learning_rate": 0.000196, "loss": 0.2159, "step": 45 }, { "epoch": 0.3333333333333333, "grad_norm": 1.253735899925232, "learning_rate": 0.00019555555555555556, "loss": 0.257, "step": 50 }, { "epoch": 0.36666666666666664, "grad_norm": 2.7438926696777344, "learning_rate": 0.0001951111111111111, "loss": 0.1601, "step": 55 }, { "epoch": 0.4, "grad_norm": 5.574209213256836, "learning_rate": 0.0001946666666666667, "loss": 0.2386, "step": 60 }, { "epoch": 0.43333333333333335, "grad_norm": 2.388439416885376, "learning_rate": 0.00019422222222222223, "loss": 0.1754, "step": 65 }, { "epoch": 0.4666666666666667, "grad_norm": 3.4882454872131348, "learning_rate": 0.0001937777777777778, "loss": 0.4204, "step": 70 }, { "epoch": 0.5, "grad_norm": 1.2829915285110474, "learning_rate": 0.00019333333333333333, "loss": 0.1754, "step": 75 }, { "epoch": 0.5333333333333333, "grad_norm": 0.9272905588150024, "learning_rate": 0.0001928888888888889, "loss": 0.1304, "step": 80 }, { "epoch": 0.5666666666666667, "grad_norm": 3.608957290649414, "learning_rate": 0.00019244444444444444, "loss": 0.1579, "step": 85 }, { "epoch": 0.6, "grad_norm": 1.9866260290145874, "learning_rate": 0.000192, "loss": 0.1144, "step": 90 }, { "epoch": 0.6333333333333333, "grad_norm": 1.3257598876953125, "learning_rate": 0.00019155555555555554, "loss": 0.2291, "step": 95 }, { "epoch": 0.6666666666666666, "grad_norm": 3.8133373260498047, "learning_rate": 0.00019111111111111114, "loss": 0.1701, "step": 100 }, { "epoch": 0.6666666666666666, "eval_accuracy": 0.7579721995094031, "eval_f1": 0.7484690650364032, "eval_loss": 0.8337175846099854, "eval_precision": 0.7873382616180895, "eval_recall": 0.7579721995094031, "eval_runtime": 8.0802, "eval_samples_per_second": 151.358, "eval_steps_per_second": 18.935, "step": 100 }, { "epoch": 0.7, "grad_norm": 1.350781798362732, "learning_rate": 0.00019066666666666668, "loss": 0.1092, "step": 105 }, { "epoch": 0.7333333333333333, "grad_norm": 1.5120309591293335, "learning_rate": 0.00019022222222222224, "loss": 0.1941, "step": 110 }, { "epoch": 0.7666666666666667, "grad_norm": 0.28930172324180603, "learning_rate": 0.00018977777777777778, "loss": 0.0788, "step": 115 }, { "epoch": 0.8, "grad_norm": 3.108707904815674, "learning_rate": 0.00018933333333333335, "loss": 0.0822, "step": 120 }, { "epoch": 0.8333333333333334, "grad_norm": 5.236642360687256, "learning_rate": 0.00018888888888888888, "loss": 0.1732, "step": 125 }, { "epoch": 0.8666666666666667, "grad_norm": 4.865977764129639, "learning_rate": 0.00018844444444444445, "loss": 0.1448, "step": 130 }, { "epoch": 0.9, "grad_norm": 7.0556840896606445, "learning_rate": 0.000188, "loss": 0.1402, "step": 135 }, { "epoch": 0.9333333333333333, "grad_norm": 1.9132550954818726, "learning_rate": 0.00018755555555555558, "loss": 0.1446, "step": 140 }, { "epoch": 0.9666666666666667, "grad_norm": 1.8586559295654297, "learning_rate": 0.00018711111111111112, "loss": 0.0818, "step": 145 }, { "epoch": 1.0, "grad_norm": 0.19685111939907074, "learning_rate": 0.0001866666666666667, "loss": 0.1063, "step": 150 }, { "epoch": 1.0333333333333334, "grad_norm": 0.10792700946331024, "learning_rate": 0.00018622222222222223, "loss": 0.0586, "step": 155 }, { "epoch": 1.0666666666666667, "grad_norm": 0.09745492786169052, "learning_rate": 0.0001857777777777778, "loss": 0.0365, "step": 160 }, { "epoch": 1.1, "grad_norm": 1.2755838632583618, "learning_rate": 0.00018533333333333333, "loss": 0.0636, "step": 165 }, { "epoch": 1.1333333333333333, "grad_norm": 0.43598783016204834, "learning_rate": 0.0001848888888888889, "loss": 0.1358, "step": 170 }, { "epoch": 1.1666666666666667, "grad_norm": 0.10472838580608368, "learning_rate": 0.00018444444444444446, "loss": 0.1086, "step": 175 }, { "epoch": 1.2, "grad_norm": 0.0844336524605751, "learning_rate": 0.00018400000000000003, "loss": 0.0454, "step": 180 }, { "epoch": 1.2333333333333334, "grad_norm": 1.2850956916809082, "learning_rate": 0.00018355555555555557, "loss": 0.1033, "step": 185 }, { "epoch": 1.2666666666666666, "grad_norm": 0.7794726490974426, "learning_rate": 0.00018311111111111113, "loss": 0.0626, "step": 190 }, { "epoch": 1.3, "grad_norm": 4.5628790855407715, "learning_rate": 0.00018266666666666667, "loss": 0.0451, "step": 195 }, { "epoch": 1.3333333333333333, "grad_norm": 0.9755500555038452, "learning_rate": 0.00018222222222222224, "loss": 0.1078, "step": 200 }, { "epoch": 1.3333333333333333, "eval_accuracy": 0.7391659852820932, "eval_f1": 0.7327737798817064, "eval_loss": 0.9743950963020325, "eval_precision": 0.7682938022161846, "eval_recall": 0.7391659852820932, "eval_runtime": 8.0467, "eval_samples_per_second": 151.988, "eval_steps_per_second": 19.014, "step": 200 }, { "epoch": 1.3666666666666667, "grad_norm": 1.0276744365692139, "learning_rate": 0.00018177777777777778, "loss": 0.0509, "step": 205 }, { "epoch": 1.4, "grad_norm": 2.940969944000244, "learning_rate": 0.00018133333333333334, "loss": 0.0745, "step": 210 }, { "epoch": 1.4333333333333333, "grad_norm": 0.10804764926433563, "learning_rate": 0.0001808888888888889, "loss": 0.0824, "step": 215 }, { "epoch": 1.4666666666666668, "grad_norm": 0.47080010175704956, "learning_rate": 0.00018044444444444447, "loss": 0.0349, "step": 220 }, { "epoch": 1.5, "grad_norm": 2.900927782058716, "learning_rate": 0.00018, "loss": 0.0244, "step": 225 }, { "epoch": 1.5333333333333332, "grad_norm": 0.5523751378059387, "learning_rate": 0.00017955555555555558, "loss": 0.0247, "step": 230 }, { "epoch": 1.5666666666666667, "grad_norm": 0.40423282980918884, "learning_rate": 0.00017911111111111112, "loss": 0.0392, "step": 235 }, { "epoch": 1.6, "grad_norm": 0.05468877777457237, "learning_rate": 0.00017866666666666668, "loss": 0.0619, "step": 240 }, { "epoch": 1.6333333333333333, "grad_norm": 0.06349865347146988, "learning_rate": 0.00017822222222222222, "loss": 0.064, "step": 245 }, { "epoch": 1.6666666666666665, "grad_norm": 1.2960361242294312, "learning_rate": 0.00017777777777777779, "loss": 0.0292, "step": 250 }, { "epoch": 1.7, "grad_norm": 3.7957241535186768, "learning_rate": 0.00017733333333333335, "loss": 0.1579, "step": 255 }, { "epoch": 1.7333333333333334, "grad_norm": 0.053883522748947144, "learning_rate": 0.0001768888888888889, "loss": 0.0654, "step": 260 }, { "epoch": 1.7666666666666666, "grad_norm": 3.3925063610076904, "learning_rate": 0.00017644444444444446, "loss": 0.105, "step": 265 }, { "epoch": 1.8, "grad_norm": 0.1367824226617813, "learning_rate": 0.00017600000000000002, "loss": 0.1125, "step": 270 }, { "epoch": 1.8333333333333335, "grad_norm": 0.051782961934804916, "learning_rate": 0.00017555555555555556, "loss": 0.0224, "step": 275 }, { "epoch": 1.8666666666666667, "grad_norm": 0.18705271184444427, "learning_rate": 0.00017511111111111113, "loss": 0.0155, "step": 280 }, { "epoch": 1.9, "grad_norm": 0.05866298824548721, "learning_rate": 0.00017466666666666667, "loss": 0.0468, "step": 285 }, { "epoch": 1.9333333333333333, "grad_norm": 4.291833400726318, "learning_rate": 0.00017422222222222223, "loss": 0.0799, "step": 290 }, { "epoch": 1.9666666666666668, "grad_norm": 0.04705623909831047, "learning_rate": 0.0001737777777777778, "loss": 0.0528, "step": 295 }, { "epoch": 2.0, "grad_norm": 0.5031841993331909, "learning_rate": 0.00017333333333333334, "loss": 0.0149, "step": 300 }, { "epoch": 2.0, "eval_accuracy": 0.7489779231398201, "eval_f1": 0.7488214657804507, "eval_loss": 1.1815036535263062, "eval_precision": 0.8428956227713992, "eval_recall": 0.7489779231398201, "eval_runtime": 8.0745, "eval_samples_per_second": 151.465, "eval_steps_per_second": 18.949, "step": 300 }, { "epoch": 2.033333333333333, "grad_norm": 0.11621838808059692, "learning_rate": 0.0001728888888888889, "loss": 0.0205, "step": 305 }, { "epoch": 2.066666666666667, "grad_norm": 0.038852758705616, "learning_rate": 0.00017244444444444444, "loss": 0.0151, "step": 310 }, { "epoch": 2.1, "grad_norm": 1.4587140083312988, "learning_rate": 0.000172, "loss": 0.018, "step": 315 }, { "epoch": 2.1333333333333333, "grad_norm": 0.05141638591885567, "learning_rate": 0.00017155555555555555, "loss": 0.0299, "step": 320 }, { "epoch": 2.1666666666666665, "grad_norm": 2.871277332305908, "learning_rate": 0.0001711111111111111, "loss": 0.0588, "step": 325 }, { "epoch": 2.2, "grad_norm": 0.4195954203605652, "learning_rate": 0.00017066666666666668, "loss": 0.0193, "step": 330 }, { "epoch": 2.2333333333333334, "grad_norm": 1.008933424949646, "learning_rate": 0.00017022222222222224, "loss": 0.1751, "step": 335 }, { "epoch": 2.2666666666666666, "grad_norm": 0.24728117883205414, "learning_rate": 0.00016977777777777778, "loss": 0.0126, "step": 340 }, { "epoch": 2.3, "grad_norm": 0.036686159670352936, "learning_rate": 0.00016933333333333335, "loss": 0.0178, "step": 345 }, { "epoch": 2.3333333333333335, "grad_norm": 2.1365346908569336, "learning_rate": 0.00016888888888888889, "loss": 0.0178, "step": 350 }, { "epoch": 2.3666666666666667, "grad_norm": 3.688971996307373, "learning_rate": 0.00016844444444444445, "loss": 0.0147, "step": 355 }, { "epoch": 2.4, "grad_norm": 4.168365001678467, "learning_rate": 0.000168, "loss": 0.1274, "step": 360 }, { "epoch": 2.4333333333333336, "grad_norm": 0.2860366106033325, "learning_rate": 0.00016755555555555556, "loss": 0.0573, "step": 365 }, { "epoch": 2.466666666666667, "grad_norm": 0.5546060800552368, "learning_rate": 0.00016711111111111112, "loss": 0.0259, "step": 370 }, { "epoch": 2.5, "grad_norm": 0.09405239671468735, "learning_rate": 0.0001666666666666667, "loss": 0.0085, "step": 375 }, { "epoch": 2.533333333333333, "grad_norm": 0.2355845421552658, "learning_rate": 0.00016622222222222223, "loss": 0.0374, "step": 380 }, { "epoch": 2.5666666666666664, "grad_norm": 0.029768219217658043, "learning_rate": 0.0001657777777777778, "loss": 0.0347, "step": 385 }, { "epoch": 2.6, "grad_norm": 0.0620238296687603, "learning_rate": 0.00016533333333333333, "loss": 0.0181, "step": 390 }, { "epoch": 2.6333333333333333, "grad_norm": 4.594007968902588, "learning_rate": 0.0001648888888888889, "loss": 0.0558, "step": 395 }, { "epoch": 2.6666666666666665, "grad_norm": 2.793721914291382, "learning_rate": 0.00016444444444444444, "loss": 0.0518, "step": 400 }, { "epoch": 2.6666666666666665, "eval_accuracy": 0.7522485690923958, "eval_f1": 0.7474224112513258, "eval_loss": 1.3244333267211914, "eval_precision": 0.8024396269410755, "eval_recall": 0.7522485690923958, "eval_runtime": 7.9693, "eval_samples_per_second": 153.463, "eval_steps_per_second": 19.199, "step": 400 }, { "epoch": 2.7, "grad_norm": 0.03986465558409691, "learning_rate": 0.000164, "loss": 0.1398, "step": 405 }, { "epoch": 2.7333333333333334, "grad_norm": 0.15728485584259033, "learning_rate": 0.00016355555555555557, "loss": 0.0751, "step": 410 }, { "epoch": 2.7666666666666666, "grad_norm": 0.39404401183128357, "learning_rate": 0.00016311111111111113, "loss": 0.0354, "step": 415 }, { "epoch": 2.8, "grad_norm": 2.576037883758545, "learning_rate": 0.00016266666666666667, "loss": 0.0249, "step": 420 }, { "epoch": 2.8333333333333335, "grad_norm": 0.07118038833141327, "learning_rate": 0.00016222222222222224, "loss": 0.0391, "step": 425 }, { "epoch": 2.8666666666666667, "grad_norm": 0.024970607832074165, "learning_rate": 0.00016177777777777778, "loss": 0.0095, "step": 430 }, { "epoch": 2.9, "grad_norm": 0.024694884195923805, "learning_rate": 0.00016133333333333334, "loss": 0.0066, "step": 435 }, { "epoch": 2.9333333333333336, "grad_norm": 0.15425623953342438, "learning_rate": 0.00016088888888888888, "loss": 0.009, "step": 440 }, { "epoch": 2.966666666666667, "grad_norm": 0.029563244432210922, "learning_rate": 0.00016044444444444445, "loss": 0.0566, "step": 445 }, { "epoch": 3.0, "grad_norm": 0.23131504654884338, "learning_rate": 0.00016, "loss": 0.0542, "step": 450 }, { "epoch": 3.033333333333333, "grad_norm": 2.400156021118164, "learning_rate": 0.00015955555555555558, "loss": 0.0798, "step": 455 }, { "epoch": 3.066666666666667, "grad_norm": 4.822887420654297, "learning_rate": 0.00015911111111111112, "loss": 0.0218, "step": 460 }, { "epoch": 3.1, "grad_norm": 3.4183952808380127, "learning_rate": 0.00015866666666666668, "loss": 0.0612, "step": 465 }, { "epoch": 3.1333333333333333, "grad_norm": 0.3389229476451874, "learning_rate": 0.00015822222222222222, "loss": 0.0347, "step": 470 }, { "epoch": 3.1666666666666665, "grad_norm": 0.023966236039996147, "learning_rate": 0.0001577777777777778, "loss": 0.0561, "step": 475 }, { "epoch": 3.2, "grad_norm": 0.9375776648521423, "learning_rate": 0.00015733333333333333, "loss": 0.0423, "step": 480 }, { "epoch": 3.2333333333333334, "grad_norm": 0.020762186497449875, "learning_rate": 0.00015688888888888892, "loss": 0.011, "step": 485 }, { "epoch": 3.2666666666666666, "grad_norm": 0.5088415145874023, "learning_rate": 0.00015644444444444446, "loss": 0.0511, "step": 490 }, { "epoch": 3.3, "grad_norm": 0.020860901102423668, "learning_rate": 0.00015600000000000002, "loss": 0.0473, "step": 495 }, { "epoch": 3.3333333333333335, "grad_norm": 1.232237458229065, "learning_rate": 0.00015555555555555556, "loss": 0.008, "step": 500 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.7726901062959934, "eval_f1": 0.7752719475957702, "eval_loss": 1.0330288410186768, "eval_precision": 0.8048699274313992, "eval_recall": 0.7726901062959934, "eval_runtime": 8.0981, "eval_samples_per_second": 151.023, "eval_steps_per_second": 18.893, "step": 500 }, { "epoch": 3.3666666666666667, "grad_norm": 1.1250537633895874, "learning_rate": 0.00015511111111111113, "loss": 0.0479, "step": 505 }, { "epoch": 3.4, "grad_norm": 0.024086305871605873, "learning_rate": 0.00015466666666666667, "loss": 0.0168, "step": 510 }, { "epoch": 3.4333333333333336, "grad_norm": 5.265656471252441, "learning_rate": 0.00015422222222222223, "loss": 0.0562, "step": 515 }, { "epoch": 3.466666666666667, "grad_norm": 0.05131758749485016, "learning_rate": 0.00015377777777777777, "loss": 0.039, "step": 520 }, { "epoch": 3.5, "grad_norm": 2.568662405014038, "learning_rate": 0.00015333333333333334, "loss": 0.0412, "step": 525 }, { "epoch": 3.533333333333333, "grad_norm": 0.03762734308838844, "learning_rate": 0.0001528888888888889, "loss": 0.0444, "step": 530 }, { "epoch": 3.5666666666666664, "grad_norm": 0.039238594472408295, "learning_rate": 0.00015244444444444447, "loss": 0.0225, "step": 535 }, { "epoch": 3.6, "grad_norm": 0.4258608818054199, "learning_rate": 0.000152, "loss": 0.0874, "step": 540 }, { "epoch": 3.6333333333333333, "grad_norm": 0.0195025485008955, "learning_rate": 0.00015155555555555557, "loss": 0.0224, "step": 545 }, { "epoch": 3.6666666666666665, "grad_norm": 0.060789331793785095, "learning_rate": 0.0001511111111111111, "loss": 0.0064, "step": 550 }, { "epoch": 3.7, "grad_norm": 0.019403919577598572, "learning_rate": 0.00015066666666666668, "loss": 0.036, "step": 555 }, { "epoch": 3.7333333333333334, "grad_norm": 0.04229651391506195, "learning_rate": 0.00015022222222222222, "loss": 0.0206, "step": 560 }, { "epoch": 3.7666666666666666, "grad_norm": 0.02448747307062149, "learning_rate": 0.00014977777777777778, "loss": 0.009, "step": 565 }, { "epoch": 3.8, "grad_norm": 6.0167436599731445, "learning_rate": 0.00014933333333333335, "loss": 0.0685, "step": 570 }, { "epoch": 3.8333333333333335, "grad_norm": 1.0557128190994263, "learning_rate": 0.0001488888888888889, "loss": 0.0085, "step": 575 }, { "epoch": 3.8666666666666667, "grad_norm": 0.0732789933681488, "learning_rate": 0.00014844444444444445, "loss": 0.0081, "step": 580 }, { "epoch": 3.9, "grad_norm": 0.02428213693201542, "learning_rate": 0.000148, "loss": 0.0476, "step": 585 }, { "epoch": 3.9333333333333336, "grad_norm": 1.8671773672103882, "learning_rate": 0.00014755555555555556, "loss": 0.0377, "step": 590 }, { "epoch": 3.966666666666667, "grad_norm": 0.01660696417093277, "learning_rate": 0.00014711111111111112, "loss": 0.0172, "step": 595 }, { "epoch": 4.0, "grad_norm": 0.02806895226240158, "learning_rate": 0.00014666666666666666, "loss": 0.0058, "step": 600 }, { "epoch": 4.0, "eval_accuracy": 0.7489779231398201, "eval_f1": 0.7509576190512416, "eval_loss": 1.2144834995269775, "eval_precision": 0.7860989170728748, "eval_recall": 0.7489779231398201, "eval_runtime": 8.0722, "eval_samples_per_second": 151.507, "eval_steps_per_second": 18.954, "step": 600 }, { "epoch": 4.033333333333333, "grad_norm": 0.026063833385705948, "learning_rate": 0.00014622222222222223, "loss": 0.0365, "step": 605 }, { "epoch": 4.066666666666666, "grad_norm": 0.04259548708796501, "learning_rate": 0.0001457777777777778, "loss": 0.0485, "step": 610 }, { "epoch": 4.1, "grad_norm": 0.031701039522886276, "learning_rate": 0.00014533333333333333, "loss": 0.0042, "step": 615 }, { "epoch": 4.133333333333334, "grad_norm": 0.01588643342256546, "learning_rate": 0.0001448888888888889, "loss": 0.0486, "step": 620 }, { "epoch": 4.166666666666667, "grad_norm": 0.05424388125538826, "learning_rate": 0.00014444444444444444, "loss": 0.0048, "step": 625 }, { "epoch": 4.2, "grad_norm": 0.015488694421947002, "learning_rate": 0.000144, "loss": 0.0053, "step": 630 }, { "epoch": 4.233333333333333, "grad_norm": 0.024877695366740227, "learning_rate": 0.00014355555555555554, "loss": 0.0052, "step": 635 }, { "epoch": 4.266666666666667, "grad_norm": 5.684453010559082, "learning_rate": 0.0001431111111111111, "loss": 0.0516, "step": 640 }, { "epoch": 4.3, "grad_norm": 0.04603782668709755, "learning_rate": 0.00014266666666666667, "loss": 0.0062, "step": 645 }, { "epoch": 4.333333333333333, "grad_norm": 0.10939802974462509, "learning_rate": 0.00014222222222222224, "loss": 0.0061, "step": 650 }, { "epoch": 4.366666666666666, "grad_norm": 0.012628131546080112, "learning_rate": 0.00014177777777777778, "loss": 0.0206, "step": 655 }, { "epoch": 4.4, "grad_norm": 0.012693123891949654, "learning_rate": 0.00014133333333333334, "loss": 0.0039, "step": 660 }, { "epoch": 4.433333333333334, "grad_norm": 0.012241496704518795, "learning_rate": 0.00014088888888888888, "loss": 0.0058, "step": 665 }, { "epoch": 4.466666666666667, "grad_norm": 0.01215155329555273, "learning_rate": 0.00014044444444444445, "loss": 0.0042, "step": 670 }, { "epoch": 4.5, "grad_norm": 0.013017192482948303, "learning_rate": 0.00014, "loss": 0.0037, "step": 675 }, { "epoch": 4.533333333333333, "grad_norm": 0.02005757763981819, "learning_rate": 0.00013955555555555558, "loss": 0.0034, "step": 680 }, { "epoch": 4.566666666666666, "grad_norm": 0.025016993284225464, "learning_rate": 0.00013911111111111112, "loss": 0.0048, "step": 685 }, { "epoch": 4.6, "grad_norm": 0.10066857933998108, "learning_rate": 0.00013866666666666669, "loss": 0.0258, "step": 690 }, { "epoch": 4.633333333333333, "grad_norm": 0.012521032243967056, "learning_rate": 0.00013822222222222222, "loss": 0.0113, "step": 695 }, { "epoch": 4.666666666666667, "grad_norm": 0.011302398517727852, "learning_rate": 0.0001377777777777778, "loss": 0.0031, "step": 700 }, { "epoch": 4.666666666666667, "eval_accuracy": 0.8013082583810303, "eval_f1": 0.7994388428360608, "eval_loss": 0.956646203994751, "eval_precision": 0.799862795721146, "eval_recall": 0.8013082583810303, "eval_runtime": 8.0426, "eval_samples_per_second": 152.066, "eval_steps_per_second": 19.024, "step": 700 }, { "epoch": 4.7, "grad_norm": 0.01438917312771082, "learning_rate": 0.00013733333333333333, "loss": 0.0039, "step": 705 }, { "epoch": 4.733333333333333, "grad_norm": 0.01124793104827404, "learning_rate": 0.0001368888888888889, "loss": 0.0029, "step": 710 }, { "epoch": 4.766666666666667, "grad_norm": 0.011751276440918446, "learning_rate": 0.00013644444444444443, "loss": 0.0029, "step": 715 }, { "epoch": 4.8, "grad_norm": 0.010470777750015259, "learning_rate": 0.00013600000000000003, "loss": 0.0029, "step": 720 }, { "epoch": 4.833333333333333, "grad_norm": 0.010036508552730083, "learning_rate": 0.00013555555555555556, "loss": 0.009, "step": 725 }, { "epoch": 4.866666666666667, "grad_norm": 0.010177946649491787, "learning_rate": 0.00013511111111111113, "loss": 0.0034, "step": 730 }, { "epoch": 4.9, "grad_norm": 6.227453708648682, "learning_rate": 0.00013466666666666667, "loss": 0.0245, "step": 735 }, { "epoch": 4.933333333333334, "grad_norm": 0.19191434979438782, "learning_rate": 0.00013422222222222224, "loss": 0.0029, "step": 740 }, { "epoch": 4.966666666666667, "grad_norm": 0.010127095505595207, "learning_rate": 0.00013377777777777777, "loss": 0.0028, "step": 745 }, { "epoch": 5.0, "grad_norm": 0.010241836309432983, "learning_rate": 0.00013333333333333334, "loss": 0.0106, "step": 750 }, { "epoch": 5.033333333333333, "grad_norm": 1.5645203590393066, "learning_rate": 0.00013288888888888888, "loss": 0.047, "step": 755 }, { "epoch": 5.066666666666666, "grad_norm": 0.025078877806663513, "learning_rate": 0.00013244444444444447, "loss": 0.0331, "step": 760 }, { "epoch": 5.1, "grad_norm": 0.010001703165471554, "learning_rate": 0.000132, "loss": 0.0028, "step": 765 }, { "epoch": 5.133333333333334, "grad_norm": 0.010092056356370449, "learning_rate": 0.00013155555555555558, "loss": 0.0133, "step": 770 }, { "epoch": 5.166666666666667, "grad_norm": 0.03289041668176651, "learning_rate": 0.00013111111111111111, "loss": 0.0104, "step": 775 }, { "epoch": 5.2, "grad_norm": 0.0093392264097929, "learning_rate": 0.00013066666666666668, "loss": 0.0039, "step": 780 }, { "epoch": 5.233333333333333, "grad_norm": 0.015082157216966152, "learning_rate": 0.00013022222222222222, "loss": 0.0041, "step": 785 }, { "epoch": 5.266666666666667, "grad_norm": 0.00981505773961544, "learning_rate": 0.00012977777777777779, "loss": 0.0025, "step": 790 }, { "epoch": 5.3, "grad_norm": 0.00892223697155714, "learning_rate": 0.00012933333333333332, "loss": 0.0052, "step": 795 }, { "epoch": 5.333333333333333, "grad_norm": 0.01661490648984909, "learning_rate": 0.00012888888888888892, "loss": 0.0026, "step": 800 }, { "epoch": 5.333333333333333, "eval_accuracy": 0.76778413736713, "eval_f1": 0.7709681283019687, "eval_loss": 1.3827018737792969, "eval_precision": 0.8111550347305341, "eval_recall": 0.76778413736713, "eval_runtime": 7.9848, "eval_samples_per_second": 153.167, "eval_steps_per_second": 19.161, "step": 800 }, { "epoch": 5.366666666666666, "grad_norm": 0.011080477386713028, "learning_rate": 0.00012844444444444446, "loss": 0.0051, "step": 805 }, { "epoch": 5.4, "grad_norm": 0.00923879723995924, "learning_rate": 0.00012800000000000002, "loss": 0.0025, "step": 810 }, { "epoch": 5.433333333333334, "grad_norm": 0.00953712034970522, "learning_rate": 0.00012755555555555556, "loss": 0.0025, "step": 815 }, { "epoch": 5.466666666666667, "grad_norm": 0.008921535685658455, "learning_rate": 0.00012711111111111113, "loss": 0.0024, "step": 820 }, { "epoch": 5.5, "grad_norm": 0.010565133765339851, "learning_rate": 0.00012666666666666666, "loss": 0.0232, "step": 825 }, { "epoch": 5.533333333333333, "grad_norm": 0.008153503760695457, "learning_rate": 0.00012622222222222223, "loss": 0.0023, "step": 830 }, { "epoch": 5.566666666666666, "grad_norm": 0.007844832725822926, "learning_rate": 0.0001257777777777778, "loss": 0.0026, "step": 835 }, { "epoch": 5.6, "grad_norm": 0.00895876158028841, "learning_rate": 0.00012533333333333334, "loss": 0.0025, "step": 840 }, { "epoch": 5.633333333333333, "grad_norm": 0.00897937547415495, "learning_rate": 0.0001248888888888889, "loss": 0.0021, "step": 845 }, { "epoch": 5.666666666666667, "grad_norm": 0.007404510397464037, "learning_rate": 0.00012444444444444444, "loss": 0.0021, "step": 850 }, { "epoch": 5.7, "grad_norm": 0.00898423045873642, "learning_rate": 0.000124, "loss": 0.002, "step": 855 }, { "epoch": 5.733333333333333, "grad_norm": 0.01020713523030281, "learning_rate": 0.00012355555555555557, "loss": 0.002, "step": 860 }, { "epoch": 5.766666666666667, "grad_norm": 0.00782752688974142, "learning_rate": 0.0001231111111111111, "loss": 0.0069, "step": 865 }, { "epoch": 5.8, "grad_norm": 0.6458702683448792, "learning_rate": 0.00012266666666666668, "loss": 0.0039, "step": 870 }, { "epoch": 5.833333333333333, "grad_norm": 0.011273964308202267, "learning_rate": 0.00012222222222222224, "loss": 0.002, "step": 875 }, { "epoch": 5.866666666666667, "grad_norm": 0.007404809817671776, "learning_rate": 0.0001217777777777778, "loss": 0.002, "step": 880 }, { "epoch": 5.9, "grad_norm": 0.007092670071870089, "learning_rate": 0.00012133333333333335, "loss": 0.0019, "step": 885 }, { "epoch": 5.933333333333334, "grad_norm": 0.007730898912996054, "learning_rate": 0.0001208888888888889, "loss": 0.0075, "step": 890 }, { "epoch": 5.966666666666667, "grad_norm": 2.4387011528015137, "learning_rate": 0.00012044444444444445, "loss": 0.0327, "step": 895 }, { "epoch": 6.0, "grad_norm": 0.020047802478075027, "learning_rate": 0.00012, "loss": 0.0141, "step": 900 }, { "epoch": 6.0, "eval_accuracy": 0.8078495502861816, "eval_f1": 0.8029122603578402, "eval_loss": 1.0396168231964111, "eval_precision": 0.8238231475677222, "eval_recall": 0.8078495502861816, "eval_runtime": 8.1267, "eval_samples_per_second": 150.492, "eval_steps_per_second": 18.827, "step": 900 }, { "epoch": 6.033333333333333, "grad_norm": 0.044601596891880035, "learning_rate": 0.00011955555555555556, "loss": 0.0021, "step": 905 }, { "epoch": 6.066666666666666, "grad_norm": 0.11103753745555878, "learning_rate": 0.00011911111111111111, "loss": 0.0031, "step": 910 }, { "epoch": 6.1, "grad_norm": 0.006595016457140446, "learning_rate": 0.00011866666666666669, "loss": 0.0021, "step": 915 }, { "epoch": 6.133333333333334, "grad_norm": 0.007103534881025553, "learning_rate": 0.00011822222222222224, "loss": 0.0034, "step": 920 }, { "epoch": 6.166666666666667, "grad_norm": 0.006740794517099857, "learning_rate": 0.00011777777777777779, "loss": 0.0019, "step": 925 }, { "epoch": 6.2, "grad_norm": 0.009131698869168758, "learning_rate": 0.00011733333333333334, "loss": 0.0183, "step": 930 }, { "epoch": 6.233333333333333, "grad_norm": 0.00669867591932416, "learning_rate": 0.0001168888888888889, "loss": 0.0018, "step": 935 }, { "epoch": 6.266666666666667, "grad_norm": 0.006656870245933533, "learning_rate": 0.00011644444444444445, "loss": 0.0018, "step": 940 }, { "epoch": 6.3, "grad_norm": 0.006519132759422064, "learning_rate": 0.000116, "loss": 0.0019, "step": 945 }, { "epoch": 6.333333333333333, "grad_norm": 0.00664896797388792, "learning_rate": 0.00011555555555555555, "loss": 0.0084, "step": 950 }, { "epoch": 6.366666666666666, "grad_norm": 0.006655840668827295, "learning_rate": 0.00011511111111111112, "loss": 0.0017, "step": 955 }, { "epoch": 6.4, "grad_norm": 0.013779766857624054, "learning_rate": 0.00011466666666666667, "loss": 0.0071, "step": 960 }, { "epoch": 6.433333333333334, "grad_norm": 6.435985088348389, "learning_rate": 0.00011422222222222224, "loss": 0.0232, "step": 965 }, { "epoch": 6.466666666666667, "grad_norm": 0.006892562843859196, "learning_rate": 0.00011377777777777779, "loss": 0.0198, "step": 970 }, { "epoch": 6.5, "grad_norm": 0.007991628721356392, "learning_rate": 0.00011333333333333334, "loss": 0.0031, "step": 975 }, { "epoch": 6.533333333333333, "grad_norm": 0.006757908966392279, "learning_rate": 0.0001128888888888889, "loss": 0.0025, "step": 980 }, { "epoch": 6.566666666666666, "grad_norm": 0.5364681482315063, "learning_rate": 0.00011244444444444445, "loss": 0.0029, "step": 985 }, { "epoch": 6.6, "grad_norm": 0.0062891654670238495, "learning_rate": 0.00011200000000000001, "loss": 0.0068, "step": 990 }, { "epoch": 6.633333333333333, "grad_norm": 0.014950372278690338, "learning_rate": 0.00011155555555555556, "loss": 0.0017, "step": 995 }, { "epoch": 6.666666666666667, "grad_norm": 0.0984548032283783, "learning_rate": 0.00011111111111111112, "loss": 0.0194, "step": 1000 }, { "epoch": 6.666666666666667, "eval_accuracy": 0.7514309076042518, "eval_f1": 0.7525491112380756, "eval_loss": 1.3622280359268188, "eval_precision": 0.7611738952551184, "eval_recall": 0.7514309076042518, "eval_runtime": 8.0185, "eval_samples_per_second": 152.522, "eval_steps_per_second": 19.081, "step": 1000 }, { "epoch": 6.7, "grad_norm": 0.007204628083854914, "learning_rate": 0.00011066666666666667, "loss": 0.0029, "step": 1005 }, { "epoch": 6.733333333333333, "grad_norm": 0.006356542464345694, "learning_rate": 0.00011022222222222222, "loss": 0.0037, "step": 1010 }, { "epoch": 6.766666666666667, "grad_norm": 0.006429588422179222, "learning_rate": 0.00010977777777777777, "loss": 0.0016, "step": 1015 }, { "epoch": 6.8, "grad_norm": 0.23401646316051483, "learning_rate": 0.00010933333333333333, "loss": 0.002, "step": 1020 }, { "epoch": 6.833333333333333, "grad_norm": 0.005860309116542339, "learning_rate": 0.00010888888888888889, "loss": 0.0496, "step": 1025 }, { "epoch": 6.866666666666667, "grad_norm": 0.006665271241217852, "learning_rate": 0.00010844444444444446, "loss": 0.0016, "step": 1030 }, { "epoch": 6.9, "grad_norm": 0.005819357465952635, "learning_rate": 0.00010800000000000001, "loss": 0.0196, "step": 1035 }, { "epoch": 6.933333333333334, "grad_norm": 0.007729520555585623, "learning_rate": 0.00010755555555555556, "loss": 0.0346, "step": 1040 }, { "epoch": 6.966666666666667, "grad_norm": 0.006207073573023081, "learning_rate": 0.00010711111111111111, "loss": 0.0015, "step": 1045 }, { "epoch": 7.0, "grad_norm": 0.006861706264317036, "learning_rate": 0.00010666666666666667, "loss": 0.0016, "step": 1050 }, { "epoch": 7.033333333333333, "grad_norm": 0.006125804502516985, "learning_rate": 0.00010622222222222222, "loss": 0.0016, "step": 1055 }, { "epoch": 7.066666666666666, "grad_norm": 0.008473156951367855, "learning_rate": 0.00010577777777777777, "loss": 0.002, "step": 1060 }, { "epoch": 7.1, "grad_norm": 0.005272307433187962, "learning_rate": 0.00010533333333333332, "loss": 0.0016, "step": 1065 }, { "epoch": 7.133333333333334, "grad_norm": 1.0731658935546875, "learning_rate": 0.0001048888888888889, "loss": 0.0024, "step": 1070 }, { "epoch": 7.166666666666667, "grad_norm": 0.005377425812184811, "learning_rate": 0.00010444444444444445, "loss": 0.0015, "step": 1075 }, { "epoch": 7.2, "grad_norm": 0.005502632353454828, "learning_rate": 0.00010400000000000001, "loss": 0.0041, "step": 1080 }, { "epoch": 7.233333333333333, "grad_norm": 0.0054145329631865025, "learning_rate": 0.00010355555555555556, "loss": 0.0014, "step": 1085 }, { "epoch": 7.266666666666667, "grad_norm": 0.05418660491704941, "learning_rate": 0.00010311111111111111, "loss": 0.0015, "step": 1090 }, { "epoch": 7.3, "grad_norm": 0.005776108242571354, "learning_rate": 0.00010266666666666666, "loss": 0.0014, "step": 1095 }, { "epoch": 7.333333333333333, "grad_norm": 0.0375223234295845, "learning_rate": 0.00010222222222222222, "loss": 0.0015, "step": 1100 }, { "epoch": 7.333333333333333, "eval_accuracy": 0.7784137367130008, "eval_f1": 0.7783693433345219, "eval_loss": 1.1867464780807495, "eval_precision": 0.8292618155513876, "eval_recall": 0.7784137367130008, "eval_runtime": 8.1042, "eval_samples_per_second": 150.91, "eval_steps_per_second": 18.879, "step": 1100 }, { "epoch": 7.366666666666666, "grad_norm": 0.09583403170108795, "learning_rate": 0.00010177777777777777, "loss": 0.0016, "step": 1105 }, { "epoch": 7.4, "grad_norm": 0.005366990342736244, "learning_rate": 0.00010133333333333335, "loss": 0.0014, "step": 1110 }, { "epoch": 7.433333333333334, "grad_norm": 0.005239698104560375, "learning_rate": 0.0001008888888888889, "loss": 0.0014, "step": 1115 }, { "epoch": 7.466666666666667, "grad_norm": 0.004805159289389849, "learning_rate": 0.00010044444444444445, "loss": 0.0014, "step": 1120 }, { "epoch": 7.5, "grad_norm": 0.006180048920214176, "learning_rate": 0.0001, "loss": 0.0014, "step": 1125 }, { "epoch": 7.533333333333333, "grad_norm": 0.005758994724601507, "learning_rate": 9.955555555555556e-05, "loss": 0.0017, "step": 1130 }, { "epoch": 7.566666666666666, "grad_norm": 0.004863688722252846, "learning_rate": 9.911111111111112e-05, "loss": 0.0013, "step": 1135 }, { "epoch": 7.6, "grad_norm": 0.004885531961917877, "learning_rate": 9.866666666666668e-05, "loss": 0.0013, "step": 1140 }, { "epoch": 7.633333333333333, "grad_norm": 0.005132632330060005, "learning_rate": 9.822222222222223e-05, "loss": 0.0014, "step": 1145 }, { "epoch": 7.666666666666667, "grad_norm": 0.004661540500819683, "learning_rate": 9.777777777777778e-05, "loss": 0.0013, "step": 1150 }, { "epoch": 7.7, "grad_norm": 0.004775734152644873, "learning_rate": 9.733333333333335e-05, "loss": 0.0015, "step": 1155 }, { "epoch": 7.733333333333333, "grad_norm": 0.0045134336687624454, "learning_rate": 9.68888888888889e-05, "loss": 0.0013, "step": 1160 }, { "epoch": 7.766666666666667, "grad_norm": 0.004917461890727282, "learning_rate": 9.644444444444445e-05, "loss": 0.0013, "step": 1165 }, { "epoch": 7.8, "grad_norm": 0.006064909044653177, "learning_rate": 9.6e-05, "loss": 0.0013, "step": 1170 }, { "epoch": 7.833333333333333, "grad_norm": 0.0048589748330414295, "learning_rate": 9.555555555555557e-05, "loss": 0.0027, "step": 1175 }, { "epoch": 7.866666666666667, "grad_norm": 0.004705474246293306, "learning_rate": 9.511111111111112e-05, "loss": 0.0013, "step": 1180 }, { "epoch": 7.9, "grad_norm": 0.004902615677565336, "learning_rate": 9.466666666666667e-05, "loss": 0.0012, "step": 1185 }, { "epoch": 7.933333333333334, "grad_norm": 0.00468891067430377, "learning_rate": 9.422222222222223e-05, "loss": 0.0014, "step": 1190 }, { "epoch": 7.966666666666667, "grad_norm": 0.00488701369613409, "learning_rate": 9.377777777777779e-05, "loss": 0.0012, "step": 1195 }, { "epoch": 8.0, "grad_norm": 0.004579660948365927, "learning_rate": 9.333333333333334e-05, "loss": 0.0012, "step": 1200 }, { "epoch": 8.0, "eval_accuracy": 0.7269010629599346, "eval_f1": 0.7367478205176902, "eval_loss": 1.5670582056045532, "eval_precision": 0.7813366721662559, "eval_recall": 0.7269010629599346, "eval_runtime": 8.01, "eval_samples_per_second": 152.683, "eval_steps_per_second": 19.101, "step": 1200 }, { "epoch": 8.033333333333333, "grad_norm": 0.0042763142846524715, "learning_rate": 9.28888888888889e-05, "loss": 0.0013, "step": 1205 }, { "epoch": 8.066666666666666, "grad_norm": 0.004299456253647804, "learning_rate": 9.244444444444445e-05, "loss": 0.0054, "step": 1210 }, { "epoch": 8.1, "grad_norm": 0.004658188205212355, "learning_rate": 9.200000000000001e-05, "loss": 0.0012, "step": 1215 }, { "epoch": 8.133333333333333, "grad_norm": 0.004327103029936552, "learning_rate": 9.155555555555557e-05, "loss": 0.0012, "step": 1220 }, { "epoch": 8.166666666666666, "grad_norm": 0.004521074239164591, "learning_rate": 9.111111111111112e-05, "loss": 0.0012, "step": 1225 }, { "epoch": 8.2, "grad_norm": 0.004240807611495256, "learning_rate": 9.066666666666667e-05, "loss": 0.0012, "step": 1230 }, { "epoch": 8.233333333333333, "grad_norm": 0.004335283301770687, "learning_rate": 9.022222222222224e-05, "loss": 0.0012, "step": 1235 }, { "epoch": 8.266666666666667, "grad_norm": 0.004541521891951561, "learning_rate": 8.977777777777779e-05, "loss": 0.0012, "step": 1240 }, { "epoch": 8.3, "grad_norm": 0.0042695775628089905, "learning_rate": 8.933333333333334e-05, "loss": 0.0011, "step": 1245 }, { "epoch": 8.333333333333334, "grad_norm": 0.0041613201610744, "learning_rate": 8.888888888888889e-05, "loss": 0.0011, "step": 1250 }, { "epoch": 8.366666666666667, "grad_norm": 0.0048063755966722965, "learning_rate": 8.844444444444445e-05, "loss": 0.0011, "step": 1255 }, { "epoch": 8.4, "grad_norm": 0.05283346399664879, "learning_rate": 8.800000000000001e-05, "loss": 0.0012, "step": 1260 }, { "epoch": 8.433333333333334, "grad_norm": 0.8775482773780823, "learning_rate": 8.755555555555556e-05, "loss": 0.0019, "step": 1265 }, { "epoch": 8.466666666666667, "grad_norm": 0.004236359149217606, "learning_rate": 8.711111111111112e-05, "loss": 0.0011, "step": 1270 }, { "epoch": 8.5, "grad_norm": 0.0041133686900138855, "learning_rate": 8.666666666666667e-05, "loss": 0.0011, "step": 1275 }, { "epoch": 8.533333333333333, "grad_norm": 0.1046091690659523, "learning_rate": 8.622222222222222e-05, "loss": 0.0012, "step": 1280 }, { "epoch": 8.566666666666666, "grad_norm": 0.004326115362346172, "learning_rate": 8.577777777777777e-05, "loss": 0.0011, "step": 1285 }, { "epoch": 8.6, "grad_norm": 0.005007960367947817, "learning_rate": 8.533333333333334e-05, "loss": 0.0011, "step": 1290 }, { "epoch": 8.633333333333333, "grad_norm": 0.004106387961655855, "learning_rate": 8.488888888888889e-05, "loss": 0.0011, "step": 1295 }, { "epoch": 8.666666666666666, "grad_norm": 0.00404181145131588, "learning_rate": 8.444444444444444e-05, "loss": 0.0011, "step": 1300 }, { "epoch": 8.666666666666666, "eval_accuracy": 0.7628781684382666, "eval_f1": 0.7682371241139815, "eval_loss": 1.2409813404083252, "eval_precision": 0.7778891571289543, "eval_recall": 0.7628781684382666, "eval_runtime": 8.065, "eval_samples_per_second": 151.642, "eval_steps_per_second": 18.971, "step": 1300 }, { "epoch": 8.7, "grad_norm": 0.026343800127506256, "learning_rate": 8.4e-05, "loss": 0.0011, "step": 1305 }, { "epoch": 8.733333333333333, "grad_norm": 0.011525265872478485, "learning_rate": 8.355555555555556e-05, "loss": 0.0011, "step": 1310 }, { "epoch": 8.766666666666667, "grad_norm": 0.015214606188237667, "learning_rate": 8.311111111111111e-05, "loss": 0.0011, "step": 1315 }, { "epoch": 8.8, "grad_norm": 0.0041792914271354675, "learning_rate": 8.266666666666667e-05, "loss": 0.001, "step": 1320 }, { "epoch": 8.833333333333334, "grad_norm": 0.006452229805290699, "learning_rate": 8.222222222222222e-05, "loss": 0.0011, "step": 1325 }, { "epoch": 8.866666666666667, "grad_norm": 0.004086350556463003, "learning_rate": 8.177777777777778e-05, "loss": 0.001, "step": 1330 }, { "epoch": 8.9, "grad_norm": 0.004385175183415413, "learning_rate": 8.133333333333334e-05, "loss": 0.0027, "step": 1335 }, { "epoch": 8.933333333333334, "grad_norm": 0.0043513039126992226, "learning_rate": 8.088888888888889e-05, "loss": 0.001, "step": 1340 }, { "epoch": 8.966666666666667, "grad_norm": 0.491512268781662, "learning_rate": 8.044444444444444e-05, "loss": 0.0017, "step": 1345 }, { "epoch": 9.0, "grad_norm": 0.0038416411262005568, "learning_rate": 8e-05, "loss": 0.0011, "step": 1350 }, { "epoch": 9.033333333333333, "grad_norm": 0.004175112582743168, "learning_rate": 7.955555555555556e-05, "loss": 0.001, "step": 1355 }, { "epoch": 9.066666666666666, "grad_norm": 0.004233026877045631, "learning_rate": 7.911111111111111e-05, "loss": 0.0011, "step": 1360 }, { "epoch": 9.1, "grad_norm": 0.0038614242803305387, "learning_rate": 7.866666666666666e-05, "loss": 0.001, "step": 1365 }, { "epoch": 9.133333333333333, "grad_norm": 0.004082817118614912, "learning_rate": 7.822222222222223e-05, "loss": 0.001, "step": 1370 }, { "epoch": 9.166666666666666, "grad_norm": 0.00361822871491313, "learning_rate": 7.777777777777778e-05, "loss": 0.001, "step": 1375 }, { "epoch": 9.2, "grad_norm": 0.0038386257365345955, "learning_rate": 7.733333333333333e-05, "loss": 0.001, "step": 1380 }, { "epoch": 9.233333333333333, "grad_norm": 0.003783920081332326, "learning_rate": 7.688888888888889e-05, "loss": 0.001, "step": 1385 }, { "epoch": 9.266666666666667, "grad_norm": 0.003610414918512106, "learning_rate": 7.644444444444445e-05, "loss": 0.001, "step": 1390 }, { "epoch": 9.3, "grad_norm": 0.003966945223510265, "learning_rate": 7.6e-05, "loss": 0.001, "step": 1395 }, { "epoch": 9.333333333333334, "grad_norm": 0.003580609569326043, "learning_rate": 7.555555555555556e-05, "loss": 0.001, "step": 1400 }, { "epoch": 9.333333333333334, "eval_accuracy": 0.7898609975470156, "eval_f1": 0.7849034588736967, "eval_loss": 1.2369370460510254, "eval_precision": 0.8155249070556868, "eval_recall": 0.7898609975470156, "eval_runtime": 8.0432, "eval_samples_per_second": 152.055, "eval_steps_per_second": 19.022, "step": 1400 }, { "epoch": 9.366666666666667, "grad_norm": 0.0036626129876822233, "learning_rate": 7.511111111111111e-05, "loss": 0.001, "step": 1405 }, { "epoch": 9.4, "grad_norm": 0.003753950819373131, "learning_rate": 7.466666666666667e-05, "loss": 0.001, "step": 1410 }, { "epoch": 9.433333333333334, "grad_norm": 0.003805603366345167, "learning_rate": 7.422222222222223e-05, "loss": 0.0009, "step": 1415 }, { "epoch": 9.466666666666667, "grad_norm": 0.003797221230342984, "learning_rate": 7.377777777777778e-05, "loss": 0.001, "step": 1420 }, { "epoch": 9.5, "grad_norm": 0.0033937578555196524, "learning_rate": 7.333333333333333e-05, "loss": 0.0009, "step": 1425 }, { "epoch": 9.533333333333333, "grad_norm": 0.003759965067729354, "learning_rate": 7.28888888888889e-05, "loss": 0.0009, "step": 1430 }, { "epoch": 9.566666666666666, "grad_norm": 0.0037313266657292843, "learning_rate": 7.244444444444445e-05, "loss": 0.0009, "step": 1435 }, { "epoch": 9.6, "grad_norm": 0.0037657360080629587, "learning_rate": 7.2e-05, "loss": 0.0009, "step": 1440 }, { "epoch": 9.633333333333333, "grad_norm": 0.003540108446031809, "learning_rate": 7.155555555555555e-05, "loss": 0.0009, "step": 1445 }, { "epoch": 9.666666666666666, "grad_norm": 0.0036078442353755236, "learning_rate": 7.111111111111112e-05, "loss": 0.0009, "step": 1450 }, { "epoch": 9.7, "grad_norm": 0.003468211041763425, "learning_rate": 7.066666666666667e-05, "loss": 0.0009, "step": 1455 }, { "epoch": 9.733333333333333, "grad_norm": 0.003734141355380416, "learning_rate": 7.022222222222222e-05, "loss": 0.0009, "step": 1460 }, { "epoch": 9.766666666666667, "grad_norm": 0.003420499386265874, "learning_rate": 6.977777777777779e-05, "loss": 0.0009, "step": 1465 }, { "epoch": 9.8, "grad_norm": 0.004091064445674419, "learning_rate": 6.933333333333334e-05, "loss": 0.0009, "step": 1470 }, { "epoch": 9.833333333333334, "grad_norm": 0.00345119321718812, "learning_rate": 6.88888888888889e-05, "loss": 0.0009, "step": 1475 }, { "epoch": 9.866666666666667, "grad_norm": 0.003816870739683509, "learning_rate": 6.844444444444445e-05, "loss": 0.0009, "step": 1480 }, { "epoch": 9.9, "grad_norm": 0.0036080998834222555, "learning_rate": 6.800000000000001e-05, "loss": 0.0009, "step": 1485 }, { "epoch": 9.933333333333334, "grad_norm": 0.0033732319716364145, "learning_rate": 6.755555555555557e-05, "loss": 0.0009, "step": 1490 }, { "epoch": 9.966666666666667, "grad_norm": 0.003405619878321886, "learning_rate": 6.711111111111112e-05, "loss": 0.0009, "step": 1495 }, { "epoch": 10.0, "grad_norm": 0.0033526448532938957, "learning_rate": 6.666666666666667e-05, "loss": 0.0009, "step": 1500 }, { "epoch": 10.0, "eval_accuracy": 0.7914963205233033, "eval_f1": 0.7877828640902661, "eval_loss": 1.2282191514968872, "eval_precision": 0.8187478318189477, "eval_recall": 0.7914963205233033, "eval_runtime": 8.1196, "eval_samples_per_second": 150.622, "eval_steps_per_second": 18.843, "step": 1500 }, { "epoch": 10.033333333333333, "grad_norm": 0.0033086612820625305, "learning_rate": 6.622222222222224e-05, "loss": 0.0009, "step": 1505 }, { "epoch": 10.066666666666666, "grad_norm": 0.0032022518571466208, "learning_rate": 6.577777777777779e-05, "loss": 0.0009, "step": 1510 }, { "epoch": 10.1, "grad_norm": 0.0032464470714330673, "learning_rate": 6.533333333333334e-05, "loss": 0.0008, "step": 1515 }, { "epoch": 10.133333333333333, "grad_norm": 0.003238873090595007, "learning_rate": 6.488888888888889e-05, "loss": 0.0009, "step": 1520 }, { "epoch": 10.166666666666666, "grad_norm": 0.0037290318869054317, "learning_rate": 6.444444444444446e-05, "loss": 0.0009, "step": 1525 }, { "epoch": 10.2, "grad_norm": 0.0032812750432640314, "learning_rate": 6.400000000000001e-05, "loss": 0.0009, "step": 1530 }, { "epoch": 10.233333333333333, "grad_norm": 0.003963660914450884, "learning_rate": 6.355555555555556e-05, "loss": 0.0009, "step": 1535 }, { "epoch": 10.266666666666667, "grad_norm": 0.0032153972424566746, "learning_rate": 6.311111111111112e-05, "loss": 0.0008, "step": 1540 }, { "epoch": 10.3, "grad_norm": 0.003603477030992508, "learning_rate": 6.266666666666667e-05, "loss": 0.0008, "step": 1545 }, { "epoch": 10.333333333333334, "grad_norm": 0.003291453467682004, "learning_rate": 6.222222222222222e-05, "loss": 0.0008, "step": 1550 }, { "epoch": 10.366666666666667, "grad_norm": 0.003101620590314269, "learning_rate": 6.177777777777779e-05, "loss": 0.0008, "step": 1555 }, { "epoch": 10.4, "grad_norm": 0.0031005737837404013, "learning_rate": 6.133333333333334e-05, "loss": 0.0008, "step": 1560 }, { "epoch": 10.433333333333334, "grad_norm": 0.003210110357031226, "learning_rate": 6.08888888888889e-05, "loss": 0.0008, "step": 1565 }, { "epoch": 10.466666666666667, "grad_norm": 0.0030739775393158197, "learning_rate": 6.044444444444445e-05, "loss": 0.0008, "step": 1570 }, { "epoch": 10.5, "grad_norm": 0.003034367226064205, "learning_rate": 6e-05, "loss": 0.0008, "step": 1575 }, { "epoch": 10.533333333333333, "grad_norm": 0.0030148308724164963, "learning_rate": 5.9555555555555554e-05, "loss": 0.0008, "step": 1580 }, { "epoch": 10.566666666666666, "grad_norm": 0.0031081903725862503, "learning_rate": 5.911111111111112e-05, "loss": 0.0008, "step": 1585 }, { "epoch": 10.6, "grad_norm": 0.0029817845206707716, "learning_rate": 5.866666666666667e-05, "loss": 0.0008, "step": 1590 }, { "epoch": 10.633333333333333, "grad_norm": 0.0031830472871661186, "learning_rate": 5.8222222222222224e-05, "loss": 0.0008, "step": 1595 }, { "epoch": 10.666666666666666, "grad_norm": 0.003154613310471177, "learning_rate": 5.7777777777777776e-05, "loss": 0.0008, "step": 1600 }, { "epoch": 10.666666666666666, "eval_accuracy": 0.794766966475879, "eval_f1": 0.7916659266311591, "eval_loss": 1.2242687940597534, "eval_precision": 0.8223080517891794, "eval_recall": 0.794766966475879, "eval_runtime": 8.147, "eval_samples_per_second": 150.116, "eval_steps_per_second": 18.78, "step": 1600 }, { "epoch": 10.7, "grad_norm": 0.0031590769067406654, "learning_rate": 5.7333333333333336e-05, "loss": 0.0008, "step": 1605 }, { "epoch": 10.733333333333333, "grad_norm": 0.0031241977121680975, "learning_rate": 5.6888888888888895e-05, "loss": 0.0008, "step": 1610 }, { "epoch": 10.766666666666667, "grad_norm": 0.0031253425404429436, "learning_rate": 5.644444444444445e-05, "loss": 0.0008, "step": 1615 }, { "epoch": 10.8, "grad_norm": 0.0032088214065879583, "learning_rate": 5.6000000000000006e-05, "loss": 0.0008, "step": 1620 }, { "epoch": 10.833333333333334, "grad_norm": 0.0032701180316507816, "learning_rate": 5.555555555555556e-05, "loss": 0.0008, "step": 1625 }, { "epoch": 10.866666666666667, "grad_norm": 0.00307852472178638, "learning_rate": 5.511111111111111e-05, "loss": 0.0008, "step": 1630 }, { "epoch": 10.9, "grad_norm": 0.002997946459800005, "learning_rate": 5.466666666666666e-05, "loss": 0.0008, "step": 1635 }, { "epoch": 10.933333333333334, "grad_norm": 0.0029654994141310453, "learning_rate": 5.422222222222223e-05, "loss": 0.0008, "step": 1640 }, { "epoch": 10.966666666666667, "grad_norm": 0.0029793628491461277, "learning_rate": 5.377777777777778e-05, "loss": 0.0008, "step": 1645 }, { "epoch": 11.0, "grad_norm": 0.0033480923157185316, "learning_rate": 5.333333333333333e-05, "loss": 0.0008, "step": 1650 }, { "epoch": 11.033333333333333, "grad_norm": 0.003126076888293028, "learning_rate": 5.2888888888888885e-05, "loss": 0.0008, "step": 1655 }, { "epoch": 11.066666666666666, "grad_norm": 0.0030226942617446184, "learning_rate": 5.244444444444445e-05, "loss": 0.0008, "step": 1660 }, { "epoch": 11.1, "grad_norm": 0.002972518792375922, "learning_rate": 5.2000000000000004e-05, "loss": 0.0008, "step": 1665 }, { "epoch": 11.133333333333333, "grad_norm": 0.0028504738584160805, "learning_rate": 5.1555555555555556e-05, "loss": 0.0008, "step": 1670 }, { "epoch": 11.166666666666666, "grad_norm": 0.00289005390368402, "learning_rate": 5.111111111111111e-05, "loss": 0.0008, "step": 1675 }, { "epoch": 11.2, "grad_norm": 0.0028543269727379084, "learning_rate": 5.0666666666666674e-05, "loss": 0.0008, "step": 1680 }, { "epoch": 11.233333333333333, "grad_norm": 0.0028375377878546715, "learning_rate": 5.0222222222222226e-05, "loss": 0.0008, "step": 1685 }, { "epoch": 11.266666666666667, "grad_norm": 0.0029240099247545004, "learning_rate": 4.977777777777778e-05, "loss": 0.0008, "step": 1690 }, { "epoch": 11.3, "grad_norm": 0.003065437078475952, "learning_rate": 4.933333333333334e-05, "loss": 0.0008, "step": 1695 }, { "epoch": 11.333333333333334, "grad_norm": 0.0028110018465667963, "learning_rate": 4.888888888888889e-05, "loss": 0.0008, "step": 1700 }, { "epoch": 11.333333333333334, "eval_accuracy": 0.7988552739165985, "eval_f1": 0.7957015159257519, "eval_loss": 1.2258144617080688, "eval_precision": 0.8256453589306856, "eval_recall": 0.7988552739165985, "eval_runtime": 8.0439, "eval_samples_per_second": 152.041, "eval_steps_per_second": 19.021, "step": 1700 }, { "epoch": 11.366666666666667, "grad_norm": 0.0029805891681462526, "learning_rate": 4.844444444444445e-05, "loss": 0.0007, "step": 1705 }, { "epoch": 11.4, "grad_norm": 0.002901173895224929, "learning_rate": 4.8e-05, "loss": 0.0007, "step": 1710 }, { "epoch": 11.433333333333334, "grad_norm": 0.002831946359947324, "learning_rate": 4.755555555555556e-05, "loss": 0.0007, "step": 1715 }, { "epoch": 11.466666666666667, "grad_norm": 0.0029062286484986544, "learning_rate": 4.711111111111111e-05, "loss": 0.0007, "step": 1720 }, { "epoch": 11.5, "grad_norm": 0.002882064785808325, "learning_rate": 4.666666666666667e-05, "loss": 0.0007, "step": 1725 }, { "epoch": 11.533333333333333, "grad_norm": 0.0029377054888755083, "learning_rate": 4.6222222222222224e-05, "loss": 0.0007, "step": 1730 }, { "epoch": 11.566666666666666, "grad_norm": 0.002857837127521634, "learning_rate": 4.577777777777778e-05, "loss": 0.0007, "step": 1735 }, { "epoch": 11.6, "grad_norm": 0.002953388961032033, "learning_rate": 4.5333333333333335e-05, "loss": 0.0007, "step": 1740 }, { "epoch": 11.633333333333333, "grad_norm": 0.002817234257236123, "learning_rate": 4.4888888888888894e-05, "loss": 0.0007, "step": 1745 }, { "epoch": 11.666666666666666, "grad_norm": 0.002869735239073634, "learning_rate": 4.4444444444444447e-05, "loss": 0.0007, "step": 1750 }, { "epoch": 11.7, "grad_norm": 0.0029353348072618246, "learning_rate": 4.4000000000000006e-05, "loss": 0.0007, "step": 1755 }, { "epoch": 11.733333333333333, "grad_norm": 0.002766051795333624, "learning_rate": 4.355555555555556e-05, "loss": 0.0007, "step": 1760 }, { "epoch": 11.766666666666667, "grad_norm": 0.0028016867581754923, "learning_rate": 4.311111111111111e-05, "loss": 0.0007, "step": 1765 }, { "epoch": 11.8, "grad_norm": 0.0029576830565929413, "learning_rate": 4.266666666666667e-05, "loss": 0.0007, "step": 1770 }, { "epoch": 11.833333333333334, "grad_norm": 0.002890068804845214, "learning_rate": 4.222222222222222e-05, "loss": 0.0007, "step": 1775 }, { "epoch": 11.866666666666667, "grad_norm": 0.002776023931801319, "learning_rate": 4.177777777777778e-05, "loss": 0.0007, "step": 1780 }, { "epoch": 11.9, "grad_norm": 0.0029850220307707787, "learning_rate": 4.133333333333333e-05, "loss": 0.0007, "step": 1785 }, { "epoch": 11.933333333333334, "grad_norm": 0.002962775295600295, "learning_rate": 4.088888888888889e-05, "loss": 0.0007, "step": 1790 }, { "epoch": 11.966666666666667, "grad_norm": 0.0026905240956693888, "learning_rate": 4.0444444444444444e-05, "loss": 0.0007, "step": 1795 }, { "epoch": 12.0, "grad_norm": 0.002749086357653141, "learning_rate": 4e-05, "loss": 0.0007, "step": 1800 }, { "epoch": 12.0, "eval_accuracy": 0.7996729354047425, "eval_f1": 0.796489219550036, "eval_loss": 1.2285834550857544, "eval_precision": 0.8261772583543897, "eval_recall": 0.7996729354047425, "eval_runtime": 8.7037, "eval_samples_per_second": 140.515, "eval_steps_per_second": 17.579, "step": 1800 }, { "epoch": 12.033333333333333, "grad_norm": 0.0028795318212360144, "learning_rate": 3.9555555555555556e-05, "loss": 0.0007, "step": 1805 }, { "epoch": 12.066666666666666, "grad_norm": 0.002828411292284727, "learning_rate": 3.9111111111111115e-05, "loss": 0.0007, "step": 1810 }, { "epoch": 12.1, "grad_norm": 0.002731879474595189, "learning_rate": 3.866666666666667e-05, "loss": 0.0007, "step": 1815 }, { "epoch": 12.133333333333333, "grad_norm": 0.0028275155927985907, "learning_rate": 3.8222222222222226e-05, "loss": 0.0007, "step": 1820 }, { "epoch": 12.166666666666666, "grad_norm": 0.0026852732989937067, "learning_rate": 3.777777777777778e-05, "loss": 0.0007, "step": 1825 }, { "epoch": 12.2, "grad_norm": 0.002712358720600605, "learning_rate": 3.733333333333334e-05, "loss": 0.0007, "step": 1830 }, { "epoch": 12.233333333333333, "grad_norm": 0.0026300970930606127, "learning_rate": 3.688888888888889e-05, "loss": 0.0007, "step": 1835 }, { "epoch": 12.266666666666667, "grad_norm": 0.00264561315998435, "learning_rate": 3.644444444444445e-05, "loss": 0.0007, "step": 1840 }, { "epoch": 12.3, "grad_norm": 0.002570495707914233, "learning_rate": 3.6e-05, "loss": 0.0007, "step": 1845 }, { "epoch": 12.333333333333334, "grad_norm": 0.002950433874502778, "learning_rate": 3.555555555555556e-05, "loss": 0.0007, "step": 1850 }, { "epoch": 12.366666666666667, "grad_norm": 0.00284417811781168, "learning_rate": 3.511111111111111e-05, "loss": 0.0007, "step": 1855 }, { "epoch": 12.4, "grad_norm": 0.0026491789612919092, "learning_rate": 3.466666666666667e-05, "loss": 0.0007, "step": 1860 }, { "epoch": 12.433333333333334, "grad_norm": 0.0028301659040153027, "learning_rate": 3.4222222222222224e-05, "loss": 0.0007, "step": 1865 }, { "epoch": 12.466666666666667, "grad_norm": 0.0027288682758808136, "learning_rate": 3.377777777777778e-05, "loss": 0.0007, "step": 1870 }, { "epoch": 12.5, "grad_norm": 0.002681179204955697, "learning_rate": 3.3333333333333335e-05, "loss": 0.0007, "step": 1875 }, { "epoch": 12.533333333333333, "grad_norm": 0.002533556893467903, "learning_rate": 3.2888888888888894e-05, "loss": 0.0007, "step": 1880 }, { "epoch": 12.566666666666666, "grad_norm": 0.0026150469202548265, "learning_rate": 3.2444444444444446e-05, "loss": 0.0007, "step": 1885 }, { "epoch": 12.6, "grad_norm": 0.002726713428273797, "learning_rate": 3.2000000000000005e-05, "loss": 0.0007, "step": 1890 }, { "epoch": 12.633333333333333, "grad_norm": 0.003498935839161277, "learning_rate": 3.155555555555556e-05, "loss": 0.0007, "step": 1895 }, { "epoch": 12.666666666666666, "grad_norm": 0.002702336525544524, "learning_rate": 3.111111111111111e-05, "loss": 0.0007, "step": 1900 }, { "epoch": 12.666666666666666, "eval_accuracy": 0.7988552739165985, "eval_f1": 0.7957080790407723, "eval_loss": 1.2296099662780762, "eval_precision": 0.8245371187199191, "eval_recall": 0.7988552739165985, "eval_runtime": 8.004, "eval_samples_per_second": 152.798, "eval_steps_per_second": 19.115, "step": 1900 }, { "epoch": 12.7, "grad_norm": 0.0028191946912556887, "learning_rate": 3.066666666666667e-05, "loss": 0.0007, "step": 1905 }, { "epoch": 12.733333333333333, "grad_norm": 0.003014732152223587, "learning_rate": 3.0222222222222225e-05, "loss": 0.0007, "step": 1910 }, { "epoch": 12.766666666666667, "grad_norm": 0.0028683769050985575, "learning_rate": 2.9777777777777777e-05, "loss": 0.0007, "step": 1915 }, { "epoch": 12.8, "grad_norm": 0.002571342047303915, "learning_rate": 2.9333333333333336e-05, "loss": 0.0007, "step": 1920 }, { "epoch": 12.833333333333334, "grad_norm": 0.0028497236780822277, "learning_rate": 2.8888888888888888e-05, "loss": 0.0007, "step": 1925 }, { "epoch": 12.866666666666667, "grad_norm": 0.002548054326325655, "learning_rate": 2.8444444444444447e-05, "loss": 0.0007, "step": 1930 }, { "epoch": 12.9, "grad_norm": 0.0025346125476062298, "learning_rate": 2.8000000000000003e-05, "loss": 0.0007, "step": 1935 }, { "epoch": 12.933333333333334, "grad_norm": 0.0027801941614598036, "learning_rate": 2.7555555555555555e-05, "loss": 0.0007, "step": 1940 }, { "epoch": 12.966666666666667, "grad_norm": 0.0026282649487257004, "learning_rate": 2.7111111111111114e-05, "loss": 0.0007, "step": 1945 }, { "epoch": 13.0, "grad_norm": 0.002526419935747981, "learning_rate": 2.6666666666666667e-05, "loss": 0.0007, "step": 1950 }, { "epoch": 13.033333333333333, "grad_norm": 0.0026902237441390753, "learning_rate": 2.6222222222222226e-05, "loss": 0.0007, "step": 1955 }, { "epoch": 13.066666666666666, "grad_norm": 0.002720859134569764, "learning_rate": 2.5777777777777778e-05, "loss": 0.0007, "step": 1960 }, { "epoch": 13.1, "grad_norm": 0.0025419306475669146, "learning_rate": 2.5333333333333337e-05, "loss": 0.0007, "step": 1965 }, { "epoch": 13.133333333333333, "grad_norm": 0.002520427107810974, "learning_rate": 2.488888888888889e-05, "loss": 0.0007, "step": 1970 }, { "epoch": 13.166666666666666, "grad_norm": 0.002502685645595193, "learning_rate": 2.4444444444444445e-05, "loss": 0.0007, "step": 1975 }, { "epoch": 13.2, "grad_norm": 0.0024361128453165293, "learning_rate": 2.4e-05, "loss": 0.0007, "step": 1980 }, { "epoch": 13.233333333333333, "grad_norm": 0.002513553248718381, "learning_rate": 2.3555555555555556e-05, "loss": 0.0006, "step": 1985 }, { "epoch": 13.266666666666667, "grad_norm": 0.0028074332512915134, "learning_rate": 2.3111111111111112e-05, "loss": 0.0007, "step": 1990 }, { "epoch": 13.3, "grad_norm": 0.002762263175100088, "learning_rate": 2.2666666666666668e-05, "loss": 0.0006, "step": 1995 }, { "epoch": 13.333333333333334, "grad_norm": 0.0025168033316731453, "learning_rate": 2.2222222222222223e-05, "loss": 0.0007, "step": 2000 }, { "epoch": 13.333333333333334, "eval_accuracy": 0.7988552739165985, "eval_f1": 0.7957080790407723, "eval_loss": 1.2314203977584839, "eval_precision": 0.8245371187199191, "eval_recall": 0.7988552739165985, "eval_runtime": 7.9105, "eval_samples_per_second": 154.605, "eval_steps_per_second": 19.341, "step": 2000 }, { "epoch": 13.366666666666667, "grad_norm": 0.002618913073092699, "learning_rate": 2.177777777777778e-05, "loss": 0.0007, "step": 2005 }, { "epoch": 13.4, "grad_norm": 0.002478353912010789, "learning_rate": 2.1333333333333335e-05, "loss": 0.0007, "step": 2010 }, { "epoch": 13.433333333333334, "grad_norm": 0.002534120110794902, "learning_rate": 2.088888888888889e-05, "loss": 0.0007, "step": 2015 }, { "epoch": 13.466666666666667, "grad_norm": 0.002606335561722517, "learning_rate": 2.0444444444444446e-05, "loss": 0.0006, "step": 2020 }, { "epoch": 13.5, "grad_norm": 0.0024990017991513014, "learning_rate": 2e-05, "loss": 0.0006, "step": 2025 }, { "epoch": 13.533333333333333, "grad_norm": 0.0026097064837813377, "learning_rate": 1.9555555555555557e-05, "loss": 0.0006, "step": 2030 }, { "epoch": 13.566666666666666, "grad_norm": 0.002500999253243208, "learning_rate": 1.9111111111111113e-05, "loss": 0.0006, "step": 2035 }, { "epoch": 13.6, "grad_norm": 0.002585774753242731, "learning_rate": 1.866666666666667e-05, "loss": 0.0007, "step": 2040 }, { "epoch": 13.633333333333333, "grad_norm": 0.0024484049063175917, "learning_rate": 1.8222222222222224e-05, "loss": 0.0006, "step": 2045 }, { "epoch": 13.666666666666666, "grad_norm": 0.0025868117809295654, "learning_rate": 1.777777777777778e-05, "loss": 0.0007, "step": 2050 }, { "epoch": 13.7, "grad_norm": 0.0024771729949861765, "learning_rate": 1.7333333333333336e-05, "loss": 0.0006, "step": 2055 }, { "epoch": 13.733333333333333, "grad_norm": 0.002451234729960561, "learning_rate": 1.688888888888889e-05, "loss": 0.0006, "step": 2060 }, { "epoch": 13.766666666666667, "grad_norm": 0.0026549098547548056, "learning_rate": 1.6444444444444447e-05, "loss": 0.0006, "step": 2065 }, { "epoch": 13.8, "grad_norm": 0.0024664609227329493, "learning_rate": 1.6000000000000003e-05, "loss": 0.0006, "step": 2070 }, { "epoch": 13.833333333333334, "grad_norm": 0.002711019478738308, "learning_rate": 1.5555555555555555e-05, "loss": 0.0006, "step": 2075 }, { "epoch": 13.866666666666667, "grad_norm": 0.002473460743203759, "learning_rate": 1.5111111111111112e-05, "loss": 0.0006, "step": 2080 }, { "epoch": 13.9, "grad_norm": 0.0024303121026605368, "learning_rate": 1.4666666666666668e-05, "loss": 0.0006, "step": 2085 }, { "epoch": 13.933333333333334, "grad_norm": 0.0024212184362113476, "learning_rate": 1.4222222222222224e-05, "loss": 0.0006, "step": 2090 }, { "epoch": 13.966666666666667, "grad_norm": 0.002623022999614477, "learning_rate": 1.3777777777777778e-05, "loss": 0.0006, "step": 2095 }, { "epoch": 14.0, "grad_norm": 0.002679532626643777, "learning_rate": 1.3333333333333333e-05, "loss": 0.0006, "step": 2100 }, { "epoch": 14.0, "eval_accuracy": 0.7996729354047425, "eval_f1": 0.7967362158604618, "eval_loss": 1.2324846982955933, "eval_precision": 0.8251847885309963, "eval_recall": 0.7996729354047425, "eval_runtime": 8.0477, "eval_samples_per_second": 151.969, "eval_steps_per_second": 19.012, "step": 2100 }, { "epoch": 14.033333333333333, "grad_norm": 0.0024371440522372723, "learning_rate": 1.2888888888888889e-05, "loss": 0.0006, "step": 2105 }, { "epoch": 14.066666666666666, "grad_norm": 0.002423727186396718, "learning_rate": 1.2444444444444445e-05, "loss": 0.0006, "step": 2110 }, { "epoch": 14.1, "grad_norm": 0.002588922856375575, "learning_rate": 1.2e-05, "loss": 0.0006, "step": 2115 }, { "epoch": 14.133333333333333, "grad_norm": 0.002436741953715682, "learning_rate": 1.1555555555555556e-05, "loss": 0.0006, "step": 2120 }, { "epoch": 14.166666666666666, "grad_norm": 0.002469085855409503, "learning_rate": 1.1111111111111112e-05, "loss": 0.0006, "step": 2125 }, { "epoch": 14.2, "grad_norm": 0.002384344581514597, "learning_rate": 1.0666666666666667e-05, "loss": 0.0006, "step": 2130 }, { "epoch": 14.233333333333333, "grad_norm": 0.002415234223008156, "learning_rate": 1.0222222222222223e-05, "loss": 0.0006, "step": 2135 }, { "epoch": 14.266666666666667, "grad_norm": 0.002417626092210412, "learning_rate": 9.777777777777779e-06, "loss": 0.0006, "step": 2140 }, { "epoch": 14.3, "grad_norm": 0.002522891154512763, "learning_rate": 9.333333333333334e-06, "loss": 0.0006, "step": 2145 }, { "epoch": 14.333333333333334, "grad_norm": 0.002744530327618122, "learning_rate": 8.88888888888889e-06, "loss": 0.0006, "step": 2150 }, { "epoch": 14.366666666666667, "grad_norm": 0.002598762745037675, "learning_rate": 8.444444444444446e-06, "loss": 0.0006, "step": 2155 }, { "epoch": 14.4, "grad_norm": 0.002431964036077261, "learning_rate": 8.000000000000001e-06, "loss": 0.0006, "step": 2160 }, { "epoch": 14.433333333333334, "grad_norm": 0.0027814635541290045, "learning_rate": 7.555555555555556e-06, "loss": 0.0006, "step": 2165 }, { "epoch": 14.466666666666667, "grad_norm": 0.002471009735018015, "learning_rate": 7.111111111111112e-06, "loss": 0.0006, "step": 2170 }, { "epoch": 14.5, "grad_norm": 0.0026065015699714422, "learning_rate": 6.666666666666667e-06, "loss": 0.0006, "step": 2175 }, { "epoch": 14.533333333333333, "grad_norm": 0.0024549956433475018, "learning_rate": 6.222222222222222e-06, "loss": 0.0006, "step": 2180 }, { "epoch": 14.566666666666666, "grad_norm": 0.0027057253755629063, "learning_rate": 5.777777777777778e-06, "loss": 0.0006, "step": 2185 }, { "epoch": 14.6, "grad_norm": 0.0025212769396603107, "learning_rate": 5.333333333333334e-06, "loss": 0.0006, "step": 2190 }, { "epoch": 14.633333333333333, "grad_norm": 0.0027136888820677996, "learning_rate": 4.888888888888889e-06, "loss": 0.0006, "step": 2195 }, { "epoch": 14.666666666666666, "grad_norm": 0.0024464773014187813, "learning_rate": 4.444444444444445e-06, "loss": 0.0006, "step": 2200 }, { "epoch": 14.666666666666666, "eval_accuracy": 0.8004905968928864, "eval_f1": 0.7977597772865802, "eval_loss": 1.232972264289856, "eval_precision": 0.8258279078050726, "eval_recall": 0.8004905968928864, "eval_runtime": 8.031, "eval_samples_per_second": 152.285, "eval_steps_per_second": 19.051, "step": 2200 }, { "epoch": 14.7, "grad_norm": 0.0025911489501595497, "learning_rate": 4.000000000000001e-06, "loss": 0.0006, "step": 2205 }, { "epoch": 14.733333333333333, "grad_norm": 0.002517148619517684, "learning_rate": 3.555555555555556e-06, "loss": 0.0006, "step": 2210 }, { "epoch": 14.766666666666667, "grad_norm": 0.002410931745544076, "learning_rate": 3.111111111111111e-06, "loss": 0.0006, "step": 2215 }, { "epoch": 14.8, "grad_norm": 0.0023546318989247084, "learning_rate": 2.666666666666667e-06, "loss": 0.0006, "step": 2220 }, { "epoch": 14.833333333333334, "grad_norm": 0.0026745693758130074, "learning_rate": 2.2222222222222225e-06, "loss": 0.0006, "step": 2225 }, { "epoch": 14.866666666666667, "grad_norm": 0.002488673897460103, "learning_rate": 1.777777777777778e-06, "loss": 0.0006, "step": 2230 }, { "epoch": 14.9, "grad_norm": 0.0024525970220565796, "learning_rate": 1.3333333333333334e-06, "loss": 0.0006, "step": 2235 }, { "epoch": 14.933333333333334, "grad_norm": 0.002526229014620185, "learning_rate": 8.88888888888889e-07, "loss": 0.0006, "step": 2240 }, { "epoch": 14.966666666666667, "grad_norm": 0.0023685770574957132, "learning_rate": 4.444444444444445e-07, "loss": 0.0006, "step": 2245 }, { "epoch": 15.0, "grad_norm": 0.0023268917575478554, "learning_rate": 0.0, "loss": 0.0006, "step": 2250 }, { "epoch": 15.0, "step": 2250, "total_flos": 5.57962327867392e+18, "train_loss": 0.034067531943321225, "train_runtime": 796.8785, "train_samples_per_second": 90.353, "train_steps_per_second": 2.824 } ], "logging_steps": 5, "max_steps": 2250, "num_input_tokens_seen": 0, "num_train_epochs": 15, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 5.57962327867392e+18, "train_batch_size": 32, "trial_name": null, "trial_params": null }