{ "best_metric": 0.3802405893802643, "best_model_checkpoint": "vit-base-kidney-stone-Michel_Daudon_-w256_1k_v1-_SEC\\checkpoint-300", "epoch": 15.0, "eval_steps": 100, "global_step": 2250, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.03333333333333333, "grad_norm": 2.1643013954162598, "learning_rate": 0.00019955555555555558, "loss": 1.6733, "step": 5 }, { "epoch": 0.06666666666666667, "grad_norm": 1.8686238527297974, "learning_rate": 0.00019911111111111111, "loss": 1.3294, "step": 10 }, { "epoch": 0.1, "grad_norm": 1.8060851097106934, "learning_rate": 0.00019866666666666668, "loss": 1.0241, "step": 15 }, { "epoch": 0.13333333333333333, "grad_norm": 3.08414888381958, "learning_rate": 0.00019822222222222225, "loss": 0.7512, "step": 20 }, { "epoch": 0.16666666666666666, "grad_norm": 3.4249844551086426, "learning_rate": 0.00019777777777777778, "loss": 0.5646, "step": 25 }, { "epoch": 0.2, "grad_norm": 2.226018190383911, "learning_rate": 0.00019733333333333335, "loss": 0.4544, "step": 30 }, { "epoch": 0.23333333333333334, "grad_norm": 1.3460403680801392, "learning_rate": 0.0001968888888888889, "loss": 0.3621, "step": 35 }, { "epoch": 0.26666666666666666, "grad_norm": 3.7613823413848877, "learning_rate": 0.00019644444444444445, "loss": 0.316, "step": 40 }, { "epoch": 0.3, "grad_norm": 2.2483086585998535, "learning_rate": 0.000196, "loss": 0.2864, "step": 45 }, { "epoch": 0.3333333333333333, "grad_norm": 5.758204936981201, "learning_rate": 0.00019555555555555556, "loss": 0.2199, "step": 50 }, { "epoch": 0.36666666666666664, "grad_norm": 2.4377002716064453, "learning_rate": 0.0001951111111111111, "loss": 0.178, "step": 55 }, { "epoch": 0.4, "grad_norm": 1.4535435438156128, "learning_rate": 0.0001946666666666667, "loss": 0.2433, "step": 60 }, { "epoch": 0.43333333333333335, "grad_norm": 0.8696395754814148, "learning_rate": 0.00019422222222222223, "loss": 0.2224, "step": 65 }, { "epoch": 0.4666666666666667, "grad_norm": 2.3752634525299072, "learning_rate": 0.0001937777777777778, "loss": 0.153, "step": 70 }, { "epoch": 0.5, "grad_norm": 1.6941399574279785, "learning_rate": 0.00019333333333333333, "loss": 0.123, "step": 75 }, { "epoch": 0.5333333333333333, "grad_norm": 1.325562596321106, "learning_rate": 0.0001928888888888889, "loss": 0.088, "step": 80 }, { "epoch": 0.5666666666666667, "grad_norm": 2.3543503284454346, "learning_rate": 0.00019244444444444444, "loss": 0.144, "step": 85 }, { "epoch": 0.6, "grad_norm": 4.867963790893555, "learning_rate": 0.000192, "loss": 0.1317, "step": 90 }, { "epoch": 0.6333333333333333, "grad_norm": 5.8942952156066895, "learning_rate": 0.00019155555555555554, "loss": 0.235, "step": 95 }, { "epoch": 0.6666666666666666, "grad_norm": 2.4781672954559326, "learning_rate": 0.00019111111111111114, "loss": 0.1982, "step": 100 }, { "epoch": 0.6666666666666666, "eval_accuracy": 0.8341666666666666, "eval_f1": 0.8304486369882172, "eval_loss": 0.5328117609024048, "eval_precision": 0.8678492994374617, "eval_recall": 0.8341666666666666, "eval_runtime": 9.3029, "eval_samples_per_second": 128.992, "eval_steps_per_second": 16.124, "step": 100 }, { "epoch": 0.7, "grad_norm": 1.166115164756775, "learning_rate": 0.00019066666666666668, "loss": 0.2656, "step": 105 }, { "epoch": 0.7333333333333333, "grad_norm": 2.00095796585083, "learning_rate": 0.00019022222222222224, "loss": 0.1235, "step": 110 }, { "epoch": 0.7666666666666667, "grad_norm": 1.3086392879486084, "learning_rate": 0.00018977777777777778, "loss": 0.1713, "step": 115 }, { "epoch": 0.8, "grad_norm": 6.09683895111084, "learning_rate": 0.00018933333333333335, "loss": 0.1963, "step": 120 }, { "epoch": 0.8333333333333334, "grad_norm": 2.859923839569092, "learning_rate": 0.00018888888888888888, "loss": 0.1364, "step": 125 }, { "epoch": 0.8666666666666667, "grad_norm": 2.2701096534729004, "learning_rate": 0.00018844444444444445, "loss": 0.1522, "step": 130 }, { "epoch": 0.9, "grad_norm": 3.319283962249756, "learning_rate": 0.000188, "loss": 0.144, "step": 135 }, { "epoch": 0.9333333333333333, "grad_norm": 0.4350503981113434, "learning_rate": 0.00018755555555555558, "loss": 0.0738, "step": 140 }, { "epoch": 0.9666666666666667, "grad_norm": 3.1170380115509033, "learning_rate": 0.00018711111111111112, "loss": 0.1391, "step": 145 }, { "epoch": 1.0, "grad_norm": 2.1903908252716064, "learning_rate": 0.0001866666666666667, "loss": 0.1153, "step": 150 }, { "epoch": 1.0333333333333334, "grad_norm": 6.502556324005127, "learning_rate": 0.00018622222222222223, "loss": 0.1404, "step": 155 }, { "epoch": 1.0666666666666667, "grad_norm": 2.776758909225464, "learning_rate": 0.0001857777777777778, "loss": 0.0855, "step": 160 }, { "epoch": 1.1, "grad_norm": 0.11648551374673843, "learning_rate": 0.00018533333333333333, "loss": 0.1336, "step": 165 }, { "epoch": 1.1333333333333333, "grad_norm": 1.6743929386138916, "learning_rate": 0.0001848888888888889, "loss": 0.1439, "step": 170 }, { "epoch": 1.1666666666666667, "grad_norm": 1.2967370748519897, "learning_rate": 0.00018444444444444446, "loss": 0.2415, "step": 175 }, { "epoch": 1.2, "grad_norm": 1.2473931312561035, "learning_rate": 0.00018400000000000003, "loss": 0.1836, "step": 180 }, { "epoch": 1.2333333333333334, "grad_norm": 0.566474974155426, "learning_rate": 0.00018355555555555557, "loss": 0.0621, "step": 185 }, { "epoch": 1.2666666666666666, "grad_norm": 1.6515556573867798, "learning_rate": 0.00018311111111111113, "loss": 0.0916, "step": 190 }, { "epoch": 1.3, "grad_norm": 0.11715172231197357, "learning_rate": 0.00018266666666666667, "loss": 0.0852, "step": 195 }, { "epoch": 1.3333333333333333, "grad_norm": 0.14139436185359955, "learning_rate": 0.00018222222222222224, "loss": 0.103, "step": 200 }, { "epoch": 1.3333333333333333, "eval_accuracy": 0.8341666666666666, "eval_f1": 0.8234878481116356, "eval_loss": 0.5614480376243591, "eval_precision": 0.8517601908834515, "eval_recall": 0.8341666666666666, "eval_runtime": 7.9867, "eval_samples_per_second": 150.251, "eval_steps_per_second": 18.781, "step": 200 }, { "epoch": 1.3666666666666667, "grad_norm": 4.81322717666626, "learning_rate": 0.00018177777777777778, "loss": 0.1296, "step": 205 }, { "epoch": 1.4, "grad_norm": 3.768717050552368, "learning_rate": 0.00018133333333333334, "loss": 0.159, "step": 210 }, { "epoch": 1.4333333333333333, "grad_norm": 0.5431575775146484, "learning_rate": 0.0001808888888888889, "loss": 0.1192, "step": 215 }, { "epoch": 1.4666666666666668, "grad_norm": 0.17699795961380005, "learning_rate": 0.00018044444444444447, "loss": 0.1208, "step": 220 }, { "epoch": 1.5, "grad_norm": 5.435163974761963, "learning_rate": 0.00018, "loss": 0.0685, "step": 225 }, { "epoch": 1.5333333333333332, "grad_norm": 1.4881699085235596, "learning_rate": 0.00017955555555555558, "loss": 0.0374, "step": 230 }, { "epoch": 1.5666666666666667, "grad_norm": 1.4574538469314575, "learning_rate": 0.00017911111111111112, "loss": 0.0779, "step": 235 }, { "epoch": 1.6, "grad_norm": 0.44838276505470276, "learning_rate": 0.00017866666666666668, "loss": 0.0679, "step": 240 }, { "epoch": 1.6333333333333333, "grad_norm": 5.29640531539917, "learning_rate": 0.00017822222222222222, "loss": 0.0886, "step": 245 }, { "epoch": 1.6666666666666665, "grad_norm": 0.6367706656455994, "learning_rate": 0.00017777777777777779, "loss": 0.1053, "step": 250 }, { "epoch": 1.7, "grad_norm": 6.0069122314453125, "learning_rate": 0.00017733333333333335, "loss": 0.1757, "step": 255 }, { "epoch": 1.7333333333333334, "grad_norm": 0.5579840540885925, "learning_rate": 0.0001768888888888889, "loss": 0.2191, "step": 260 }, { "epoch": 1.7666666666666666, "grad_norm": 0.29452991485595703, "learning_rate": 0.00017644444444444446, "loss": 0.0612, "step": 265 }, { "epoch": 1.8, "grad_norm": 0.2967863380908966, "learning_rate": 0.00017600000000000002, "loss": 0.1109, "step": 270 }, { "epoch": 1.8333333333333335, "grad_norm": 0.3342604339122772, "learning_rate": 0.00017555555555555556, "loss": 0.0691, "step": 275 }, { "epoch": 1.8666666666666667, "grad_norm": 0.18681690096855164, "learning_rate": 0.00017511111111111113, "loss": 0.0233, "step": 280 }, { "epoch": 1.9, "grad_norm": 0.06484155356884003, "learning_rate": 0.00017466666666666667, "loss": 0.0737, "step": 285 }, { "epoch": 1.9333333333333333, "grad_norm": 0.06462902575731277, "learning_rate": 0.00017422222222222223, "loss": 0.0497, "step": 290 }, { "epoch": 1.9666666666666668, "grad_norm": 0.06505779922008514, "learning_rate": 0.0001737777777777778, "loss": 0.0503, "step": 295 }, { "epoch": 2.0, "grad_norm": 0.10043539106845856, "learning_rate": 0.00017333333333333334, "loss": 0.0646, "step": 300 }, { "epoch": 2.0, "eval_accuracy": 0.8975, "eval_f1": 0.8960986430509473, "eval_loss": 0.3802405893802643, "eval_precision": 0.9004258571996964, "eval_recall": 0.8975, "eval_runtime": 7.799, "eval_samples_per_second": 153.865, "eval_steps_per_second": 19.233, "step": 300 }, { "epoch": 2.033333333333333, "grad_norm": 0.05871976912021637, "learning_rate": 0.0001728888888888889, "loss": 0.0193, "step": 305 }, { "epoch": 2.066666666666667, "grad_norm": 2.099043607711792, "learning_rate": 0.00017244444444444444, "loss": 0.0506, "step": 310 }, { "epoch": 2.1, "grad_norm": 2.1682753562927246, "learning_rate": 0.000172, "loss": 0.071, "step": 315 }, { "epoch": 2.1333333333333333, "grad_norm": 5.908677577972412, "learning_rate": 0.00017155555555555555, "loss": 0.1329, "step": 320 }, { "epoch": 2.1666666666666665, "grad_norm": 0.04322752729058266, "learning_rate": 0.0001711111111111111, "loss": 0.0201, "step": 325 }, { "epoch": 2.2, "grad_norm": 0.20050707459449768, "learning_rate": 0.00017066666666666668, "loss": 0.0316, "step": 330 }, { "epoch": 2.2333333333333334, "grad_norm": 0.5361618995666504, "learning_rate": 0.00017022222222222224, "loss": 0.0129, "step": 335 }, { "epoch": 2.2666666666666666, "grad_norm": 4.035656929016113, "learning_rate": 0.00016977777777777778, "loss": 0.0152, "step": 340 }, { "epoch": 2.3, "grad_norm": 1.6359930038452148, "learning_rate": 0.00016933333333333335, "loss": 0.0544, "step": 345 }, { "epoch": 2.3333333333333335, "grad_norm": 0.07779527455568314, "learning_rate": 0.00016888888888888889, "loss": 0.0355, "step": 350 }, { "epoch": 2.3666666666666667, "grad_norm": 0.11818478256464005, "learning_rate": 0.00016844444444444445, "loss": 0.0679, "step": 355 }, { "epoch": 2.4, "grad_norm": 1.3561841249465942, "learning_rate": 0.000168, "loss": 0.0667, "step": 360 }, { "epoch": 2.4333333333333336, "grad_norm": 0.035947028547525406, "learning_rate": 0.00016755555555555556, "loss": 0.0309, "step": 365 }, { "epoch": 2.466666666666667, "grad_norm": 1.0638046264648438, "learning_rate": 0.00016711111111111112, "loss": 0.0652, "step": 370 }, { "epoch": 2.5, "grad_norm": 3.7142882347106934, "learning_rate": 0.0001666666666666667, "loss": 0.0359, "step": 375 }, { "epoch": 2.533333333333333, "grad_norm": 0.04072241112589836, "learning_rate": 0.00016622222222222223, "loss": 0.011, "step": 380 }, { "epoch": 2.5666666666666664, "grad_norm": 0.25929558277130127, "learning_rate": 0.0001657777777777778, "loss": 0.0138, "step": 385 }, { "epoch": 2.6, "grad_norm": 0.1012103483080864, "learning_rate": 0.00016533333333333333, "loss": 0.0281, "step": 390 }, { "epoch": 2.6333333333333333, "grad_norm": 5.914102077484131, "learning_rate": 0.0001648888888888889, "loss": 0.0861, "step": 395 }, { "epoch": 2.6666666666666665, "grad_norm": 0.06130126863718033, "learning_rate": 0.00016444444444444444, "loss": 0.0206, "step": 400 }, { "epoch": 2.6666666666666665, "eval_accuracy": 0.8908333333333334, "eval_f1": 0.8910174734049051, "eval_loss": 0.5235877633094788, "eval_precision": 0.8932434778665261, "eval_recall": 0.8908333333333334, "eval_runtime": 7.839, "eval_samples_per_second": 153.081, "eval_steps_per_second": 19.135, "step": 400 }, { "epoch": 2.7, "grad_norm": 0.17860294878482819, "learning_rate": 0.000164, "loss": 0.0098, "step": 405 }, { "epoch": 2.7333333333333334, "grad_norm": 5.255527973175049, "learning_rate": 0.00016355555555555557, "loss": 0.0991, "step": 410 }, { "epoch": 2.7666666666666666, "grad_norm": 0.02583417296409607, "learning_rate": 0.00016311111111111113, "loss": 0.0101, "step": 415 }, { "epoch": 2.8, "grad_norm": 0.031810563057661057, "learning_rate": 0.00016266666666666667, "loss": 0.0074, "step": 420 }, { "epoch": 2.8333333333333335, "grad_norm": 0.052051421254873276, "learning_rate": 0.00016222222222222224, "loss": 0.0093, "step": 425 }, { "epoch": 2.8666666666666667, "grad_norm": 0.22293727099895477, "learning_rate": 0.00016177777777777778, "loss": 0.0409, "step": 430 }, { "epoch": 2.9, "grad_norm": 0.02533566579222679, "learning_rate": 0.00016133333333333334, "loss": 0.031, "step": 435 }, { "epoch": 2.9333333333333336, "grad_norm": 1.2991005182266235, "learning_rate": 0.00016088888888888888, "loss": 0.044, "step": 440 }, { "epoch": 2.966666666666667, "grad_norm": 3.8562145233154297, "learning_rate": 0.00016044444444444445, "loss": 0.0871, "step": 445 }, { "epoch": 3.0, "grad_norm": 0.03452838584780693, "learning_rate": 0.00016, "loss": 0.079, "step": 450 }, { "epoch": 3.033333333333333, "grad_norm": 4.033146381378174, "learning_rate": 0.00015955555555555558, "loss": 0.0384, "step": 455 }, { "epoch": 3.066666666666667, "grad_norm": 2.645733118057251, "learning_rate": 0.00015911111111111112, "loss": 0.0694, "step": 460 }, { "epoch": 3.1, "grad_norm": 4.373574256896973, "learning_rate": 0.00015866666666666668, "loss": 0.0881, "step": 465 }, { "epoch": 3.1333333333333333, "grad_norm": 0.10297340154647827, "learning_rate": 0.00015822222222222222, "loss": 0.009, "step": 470 }, { "epoch": 3.1666666666666665, "grad_norm": 0.06175125017762184, "learning_rate": 0.0001577777777777778, "loss": 0.0243, "step": 475 }, { "epoch": 3.2, "grad_norm": 0.021978065371513367, "learning_rate": 0.00015733333333333333, "loss": 0.0066, "step": 480 }, { "epoch": 3.2333333333333334, "grad_norm": 0.022674119099974632, "learning_rate": 0.00015688888888888892, "loss": 0.0347, "step": 485 }, { "epoch": 3.2666666666666666, "grad_norm": 0.03356549143791199, "learning_rate": 0.00015644444444444446, "loss": 0.0317, "step": 490 }, { "epoch": 3.3, "grad_norm": 0.031737733632326126, "learning_rate": 0.00015600000000000002, "loss": 0.0614, "step": 495 }, { "epoch": 3.3333333333333335, "grad_norm": 0.42002150416374207, "learning_rate": 0.00015555555555555556, "loss": 0.0073, "step": 500 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.885, "eval_f1": 0.8878506744713146, "eval_loss": 0.48480620980262756, "eval_precision": 0.9037224269749076, "eval_recall": 0.885, "eval_runtime": 7.892, "eval_samples_per_second": 152.053, "eval_steps_per_second": 19.007, "step": 500 }, { "epoch": 3.3666666666666667, "grad_norm": 0.04200208559632301, "learning_rate": 0.00015511111111111113, "loss": 0.0235, "step": 505 }, { "epoch": 3.4, "grad_norm": 0.020397324115037918, "learning_rate": 0.00015466666666666667, "loss": 0.0172, "step": 510 }, { "epoch": 3.4333333333333336, "grad_norm": 0.024663295596837997, "learning_rate": 0.00015422222222222223, "loss": 0.0307, "step": 515 }, { "epoch": 3.466666666666667, "grad_norm": 0.12558519840240479, "learning_rate": 0.00015377777777777777, "loss": 0.0237, "step": 520 }, { "epoch": 3.5, "grad_norm": 0.017340337857604027, "learning_rate": 0.00015333333333333334, "loss": 0.024, "step": 525 }, { "epoch": 3.533333333333333, "grad_norm": 0.9771762490272522, "learning_rate": 0.0001528888888888889, "loss": 0.0058, "step": 530 }, { "epoch": 3.5666666666666664, "grad_norm": 0.02852206863462925, "learning_rate": 0.00015244444444444447, "loss": 0.013, "step": 535 }, { "epoch": 3.6, "grad_norm": 0.02856052666902542, "learning_rate": 0.000152, "loss": 0.0536, "step": 540 }, { "epoch": 3.6333333333333333, "grad_norm": 0.10117422044277191, "learning_rate": 0.00015155555555555557, "loss": 0.0114, "step": 545 }, { "epoch": 3.6666666666666665, "grad_norm": 0.01752251572906971, "learning_rate": 0.0001511111111111111, "loss": 0.0457, "step": 550 }, { "epoch": 3.7, "grad_norm": 3.557542324066162, "learning_rate": 0.00015066666666666668, "loss": 0.0811, "step": 555 }, { "epoch": 3.7333333333333334, "grad_norm": 3.547607183456421, "learning_rate": 0.00015022222222222222, "loss": 0.034, "step": 560 }, { "epoch": 3.7666666666666666, "grad_norm": 0.028965869918465614, "learning_rate": 0.00014977777777777778, "loss": 0.063, "step": 565 }, { "epoch": 3.8, "grad_norm": 3.4786415100097656, "learning_rate": 0.00014933333333333335, "loss": 0.1162, "step": 570 }, { "epoch": 3.8333333333333335, "grad_norm": 4.459451198577881, "learning_rate": 0.0001488888888888889, "loss": 0.0247, "step": 575 }, { "epoch": 3.8666666666666667, "grad_norm": 0.06612410396337509, "learning_rate": 0.00014844444444444445, "loss": 0.0511, "step": 580 }, { "epoch": 3.9, "grad_norm": 0.05720949545502663, "learning_rate": 0.000148, "loss": 0.1163, "step": 585 }, { "epoch": 3.9333333333333336, "grad_norm": 4.374114513397217, "learning_rate": 0.00014755555555555556, "loss": 0.0335, "step": 590 }, { "epoch": 3.966666666666667, "grad_norm": 0.27541205286979675, "learning_rate": 0.00014711111111111112, "loss": 0.0445, "step": 595 }, { "epoch": 4.0, "grad_norm": 0.017030924558639526, "learning_rate": 0.00014666666666666666, "loss": 0.0237, "step": 600 }, { "epoch": 4.0, "eval_accuracy": 0.8616666666666667, "eval_f1": 0.8633097867749315, "eval_loss": 0.653435468673706, "eval_precision": 0.887183437301095, "eval_recall": 0.8616666666666667, "eval_runtime": 7.9744, "eval_samples_per_second": 150.481, "eval_steps_per_second": 18.81, "step": 600 }, { "epoch": 4.033333333333333, "grad_norm": 0.01694168895483017, "learning_rate": 0.00014622222222222223, "loss": 0.0309, "step": 605 }, { "epoch": 4.066666666666666, "grad_norm": 0.10482988506555557, "learning_rate": 0.0001457777777777778, "loss": 0.0258, "step": 610 }, { "epoch": 4.1, "grad_norm": 0.0570705346763134, "learning_rate": 0.00014533333333333333, "loss": 0.0051, "step": 615 }, { "epoch": 4.133333333333334, "grad_norm": 0.017479287460446358, "learning_rate": 0.0001448888888888889, "loss": 0.0053, "step": 620 }, { "epoch": 4.166666666666667, "grad_norm": 0.015399318188428879, "learning_rate": 0.00014444444444444444, "loss": 0.0369, "step": 625 }, { "epoch": 4.2, "grad_norm": 0.02307288534939289, "learning_rate": 0.000144, "loss": 0.0041, "step": 630 }, { "epoch": 4.233333333333333, "grad_norm": 0.7588375210762024, "learning_rate": 0.00014355555555555554, "loss": 0.0062, "step": 635 }, { "epoch": 4.266666666666667, "grad_norm": 0.013583269901573658, "learning_rate": 0.0001431111111111111, "loss": 0.018, "step": 640 }, { "epoch": 4.3, "grad_norm": 4.056556224822998, "learning_rate": 0.00014266666666666667, "loss": 0.0982, "step": 645 }, { "epoch": 4.333333333333333, "grad_norm": 0.07229450345039368, "learning_rate": 0.00014222222222222224, "loss": 0.0845, "step": 650 }, { "epoch": 4.366666666666666, "grad_norm": 0.04119260236620903, "learning_rate": 0.00014177777777777778, "loss": 0.0262, "step": 655 }, { "epoch": 4.4, "grad_norm": 0.030200645327568054, "learning_rate": 0.00014133333333333334, "loss": 0.01, "step": 660 }, { "epoch": 4.433333333333334, "grad_norm": 3.33882474899292, "learning_rate": 0.00014088888888888888, "loss": 0.088, "step": 665 }, { "epoch": 4.466666666666667, "grad_norm": 0.3470788896083832, "learning_rate": 0.00014044444444444445, "loss": 0.0047, "step": 670 }, { "epoch": 4.5, "grad_norm": 7.301760196685791, "learning_rate": 0.00014, "loss": 0.0215, "step": 675 }, { "epoch": 4.533333333333333, "grad_norm": 0.01345877442508936, "learning_rate": 0.00013955555555555558, "loss": 0.0078, "step": 680 }, { "epoch": 4.566666666666666, "grad_norm": 0.49135997891426086, "learning_rate": 0.00013911111111111112, "loss": 0.0226, "step": 685 }, { "epoch": 4.6, "grad_norm": 5.245689868927002, "learning_rate": 0.00013866666666666669, "loss": 0.0328, "step": 690 }, { "epoch": 4.633333333333333, "grad_norm": 0.01498333178460598, "learning_rate": 0.00013822222222222222, "loss": 0.006, "step": 695 }, { "epoch": 4.666666666666667, "grad_norm": 1.6599326133728027, "learning_rate": 0.0001377777777777778, "loss": 0.0414, "step": 700 }, { "epoch": 4.666666666666667, "eval_accuracy": 0.8808333333333334, "eval_f1": 0.8782106504932267, "eval_loss": 0.593664824962616, "eval_precision": 0.8914099794278966, "eval_recall": 0.8808333333333334, "eval_runtime": 7.9033, "eval_samples_per_second": 151.834, "eval_steps_per_second": 18.979, "step": 700 }, { "epoch": 4.7, "grad_norm": 0.017834119498729706, "learning_rate": 0.00013733333333333333, "loss": 0.0448, "step": 705 }, { "epoch": 4.733333333333333, "grad_norm": 0.017871471121907234, "learning_rate": 0.0001368888888888889, "loss": 0.013, "step": 710 }, { "epoch": 4.766666666666667, "grad_norm": 0.03214811533689499, "learning_rate": 0.00013644444444444443, "loss": 0.0045, "step": 715 }, { "epoch": 4.8, "grad_norm": 0.013746331445872784, "learning_rate": 0.00013600000000000003, "loss": 0.0042, "step": 720 }, { "epoch": 4.833333333333333, "grad_norm": 0.029854413121938705, "learning_rate": 0.00013555555555555556, "loss": 0.1031, "step": 725 }, { "epoch": 4.866666666666667, "grad_norm": 6.134186267852783, "learning_rate": 0.00013511111111111113, "loss": 0.0308, "step": 730 }, { "epoch": 4.9, "grad_norm": 0.015077668242156506, "learning_rate": 0.00013466666666666667, "loss": 0.0037, "step": 735 }, { "epoch": 4.933333333333334, "grad_norm": 0.6354225873947144, "learning_rate": 0.00013422222222222224, "loss": 0.007, "step": 740 }, { "epoch": 4.966666666666667, "grad_norm": 0.6289983987808228, "learning_rate": 0.00013377777777777777, "loss": 0.0051, "step": 745 }, { "epoch": 5.0, "grad_norm": 0.012436087243258953, "learning_rate": 0.00013333333333333334, "loss": 0.0037, "step": 750 }, { "epoch": 5.033333333333333, "grad_norm": 0.015017214231193066, "learning_rate": 0.00013288888888888888, "loss": 0.0034, "step": 755 }, { "epoch": 5.066666666666666, "grad_norm": 0.012858809903264046, "learning_rate": 0.00013244444444444447, "loss": 0.0038, "step": 760 }, { "epoch": 5.1, "grad_norm": 0.6003692746162415, "learning_rate": 0.000132, "loss": 0.0075, "step": 765 }, { "epoch": 5.133333333333334, "grad_norm": 0.012243877165019512, "learning_rate": 0.00013155555555555558, "loss": 0.003, "step": 770 }, { "epoch": 5.166666666666667, "grad_norm": 0.010691440664231777, "learning_rate": 0.00013111111111111111, "loss": 0.0029, "step": 775 }, { "epoch": 5.2, "grad_norm": 0.010977703146636486, "learning_rate": 0.00013066666666666668, "loss": 0.0029, "step": 780 }, { "epoch": 5.233333333333333, "grad_norm": 0.010029188357293606, "learning_rate": 0.00013022222222222222, "loss": 0.0028, "step": 785 }, { "epoch": 5.266666666666667, "grad_norm": 0.010637814179062843, "learning_rate": 0.00012977777777777779, "loss": 0.0125, "step": 790 }, { "epoch": 5.3, "grad_norm": 0.03268258273601532, "learning_rate": 0.00012933333333333332, "loss": 0.0028, "step": 795 }, { "epoch": 5.333333333333333, "grad_norm": 0.009817617014050484, "learning_rate": 0.00012888888888888892, "loss": 0.0027, "step": 800 }, { "epoch": 5.333333333333333, "eval_accuracy": 0.8933333333333333, "eval_f1": 0.8953319675731816, "eval_loss": 0.5128685235977173, "eval_precision": 0.8991712121136493, "eval_recall": 0.8933333333333333, "eval_runtime": 7.9233, "eval_samples_per_second": 151.452, "eval_steps_per_second": 18.931, "step": 800 }, { "epoch": 5.366666666666666, "grad_norm": 0.009481986984610558, "learning_rate": 0.00012844444444444446, "loss": 0.0026, "step": 805 }, { "epoch": 5.4, "grad_norm": 0.009136860258877277, "learning_rate": 0.00012800000000000002, "loss": 0.0025, "step": 810 }, { "epoch": 5.433333333333334, "grad_norm": 0.008997684344649315, "learning_rate": 0.00012755555555555556, "loss": 0.0025, "step": 815 }, { "epoch": 5.466666666666667, "grad_norm": 0.011819547973573208, "learning_rate": 0.00012711111111111113, "loss": 0.0024, "step": 820 }, { "epoch": 5.5, "grad_norm": 0.008601663634181023, "learning_rate": 0.00012666666666666666, "loss": 0.0026, "step": 825 }, { "epoch": 5.533333333333333, "grad_norm": 0.009657570160925388, "learning_rate": 0.00012622222222222223, "loss": 0.0409, "step": 830 }, { "epoch": 5.566666666666666, "grad_norm": 0.008414599113166332, "learning_rate": 0.0001257777777777778, "loss": 0.0024, "step": 835 }, { "epoch": 5.6, "grad_norm": 0.010629317723214626, "learning_rate": 0.00012533333333333334, "loss": 0.0023, "step": 840 }, { "epoch": 5.633333333333333, "grad_norm": 0.009165980853140354, "learning_rate": 0.0001248888888888889, "loss": 0.0373, "step": 845 }, { "epoch": 5.666666666666667, "grad_norm": 0.00877754669636488, "learning_rate": 0.00012444444444444444, "loss": 0.0023, "step": 850 }, { "epoch": 5.7, "grad_norm": 0.00989607349038124, "learning_rate": 0.000124, "loss": 0.0022, "step": 855 }, { "epoch": 5.733333333333333, "grad_norm": 0.008735728450119495, "learning_rate": 0.00012355555555555557, "loss": 0.0067, "step": 860 }, { "epoch": 5.766666666666667, "grad_norm": 0.008912509307265282, "learning_rate": 0.0001231111111111111, "loss": 0.0023, "step": 865 }, { "epoch": 5.8, "grad_norm": 0.008001797832548618, "learning_rate": 0.00012266666666666668, "loss": 0.0022, "step": 870 }, { "epoch": 5.833333333333333, "grad_norm": 0.007885967381298542, "learning_rate": 0.00012222222222222224, "loss": 0.0024, "step": 875 }, { "epoch": 5.866666666666667, "grad_norm": 0.008723829872906208, "learning_rate": 0.0001217777777777778, "loss": 0.0023, "step": 880 }, { "epoch": 5.9, "grad_norm": 0.00823287758976221, "learning_rate": 0.00012133333333333335, "loss": 0.0023, "step": 885 }, { "epoch": 5.933333333333334, "grad_norm": 1.0872247219085693, "learning_rate": 0.0001208888888888889, "loss": 0.0031, "step": 890 }, { "epoch": 5.966666666666667, "grad_norm": 0.007939856499433517, "learning_rate": 0.00012044444444444445, "loss": 0.0024, "step": 895 }, { "epoch": 6.0, "grad_norm": 0.023641956970095634, "learning_rate": 0.00012, "loss": 0.0023, "step": 900 }, { "epoch": 6.0, "eval_accuracy": 0.8866666666666667, "eval_f1": 0.8876301325474062, "eval_loss": 0.6644638180732727, "eval_precision": 0.9011955031673453, "eval_recall": 0.8866666666666667, "eval_runtime": 7.7783, "eval_samples_per_second": 154.275, "eval_steps_per_second": 19.284, "step": 900 }, { "epoch": 6.033333333333333, "grad_norm": 0.00758688198402524, "learning_rate": 0.00011955555555555556, "loss": 0.0455, "step": 905 }, { "epoch": 6.066666666666666, "grad_norm": 0.00756202545017004, "learning_rate": 0.00011911111111111111, "loss": 0.0021, "step": 910 }, { "epoch": 6.1, "grad_norm": 0.008809144608676434, "learning_rate": 0.00011866666666666669, "loss": 0.0021, "step": 915 }, { "epoch": 6.133333333333334, "grad_norm": 0.008332130499184132, "learning_rate": 0.00011822222222222224, "loss": 0.0022, "step": 920 }, { "epoch": 6.166666666666667, "grad_norm": 0.010411552153527737, "learning_rate": 0.00011777777777777779, "loss": 0.0024, "step": 925 }, { "epoch": 6.2, "grad_norm": 0.012733273208141327, "learning_rate": 0.00011733333333333334, "loss": 0.0022, "step": 930 }, { "epoch": 6.233333333333333, "grad_norm": 0.007693855557590723, "learning_rate": 0.0001168888888888889, "loss": 0.0022, "step": 935 }, { "epoch": 6.266666666666667, "grad_norm": 0.008778342977166176, "learning_rate": 0.00011644444444444445, "loss": 0.0021, "step": 940 }, { "epoch": 6.3, "grad_norm": 0.006934445817023516, "learning_rate": 0.000116, "loss": 0.0021, "step": 945 }, { "epoch": 6.333333333333333, "grad_norm": 0.0073846778832376, "learning_rate": 0.00011555555555555555, "loss": 0.0019, "step": 950 }, { "epoch": 6.366666666666666, "grad_norm": 0.006903422065079212, "learning_rate": 0.00011511111111111112, "loss": 0.0019, "step": 955 }, { "epoch": 6.4, "grad_norm": 0.00720078544691205, "learning_rate": 0.00011466666666666667, "loss": 0.0019, "step": 960 }, { "epoch": 6.433333333333334, "grad_norm": 0.007758829742670059, "learning_rate": 0.00011422222222222224, "loss": 0.0019, "step": 965 }, { "epoch": 6.466666666666667, "grad_norm": 0.03664609044790268, "learning_rate": 0.00011377777777777779, "loss": 0.0019, "step": 970 }, { "epoch": 6.5, "grad_norm": 0.006771931890398264, "learning_rate": 0.00011333333333333334, "loss": 0.0018, "step": 975 }, { "epoch": 6.533333333333333, "grad_norm": 0.0066510457545518875, "learning_rate": 0.0001128888888888889, "loss": 0.0018, "step": 980 }, { "epoch": 6.566666666666666, "grad_norm": 0.006556831765919924, "learning_rate": 0.00011244444444444445, "loss": 0.0017, "step": 985 }, { "epoch": 6.6, "grad_norm": 0.008514916524291039, "learning_rate": 0.00011200000000000001, "loss": 0.0018, "step": 990 }, { "epoch": 6.633333333333333, "grad_norm": 0.00665647629648447, "learning_rate": 0.00011155555555555556, "loss": 0.0017, "step": 995 }, { "epoch": 6.666666666666667, "grad_norm": 0.007021490018814802, "learning_rate": 0.00011111111111111112, "loss": 0.0017, "step": 1000 }, { "epoch": 6.666666666666667, "eval_accuracy": 0.9158333333333334, "eval_f1": 0.9157533470534539, "eval_loss": 0.4428469240665436, "eval_precision": 0.9162282829840123, "eval_recall": 0.9158333333333334, "eval_runtime": 7.9262, "eval_samples_per_second": 151.397, "eval_steps_per_second": 18.925, "step": 1000 }, { "epoch": 6.7, "grad_norm": 0.007424220908433199, "learning_rate": 0.00011066666666666667, "loss": 0.0017, "step": 1005 }, { "epoch": 6.733333333333333, "grad_norm": 0.0063979746773839, "learning_rate": 0.00011022222222222222, "loss": 0.0017, "step": 1010 }, { "epoch": 6.766666666666667, "grad_norm": 0.007088555954396725, "learning_rate": 0.00010977777777777777, "loss": 0.0016, "step": 1015 }, { "epoch": 6.8, "grad_norm": 0.005706514231860638, "learning_rate": 0.00010933333333333333, "loss": 0.0016, "step": 1020 }, { "epoch": 6.833333333333333, "grad_norm": 0.005917788948863745, "learning_rate": 0.00010888888888888889, "loss": 0.0016, "step": 1025 }, { "epoch": 6.866666666666667, "grad_norm": 0.006281436886638403, "learning_rate": 0.00010844444444444446, "loss": 0.0016, "step": 1030 }, { "epoch": 6.9, "grad_norm": 0.006217892747372389, "learning_rate": 0.00010800000000000001, "loss": 0.0016, "step": 1035 }, { "epoch": 6.933333333333334, "grad_norm": 0.005778265185654163, "learning_rate": 0.00010755555555555556, "loss": 0.0016, "step": 1040 }, { "epoch": 6.966666666666667, "grad_norm": 0.005883095320314169, "learning_rate": 0.00010711111111111111, "loss": 0.0015, "step": 1045 }, { "epoch": 7.0, "grad_norm": 0.005686120595782995, "learning_rate": 0.00010666666666666667, "loss": 0.0015, "step": 1050 }, { "epoch": 7.033333333333333, "grad_norm": 0.005514879710972309, "learning_rate": 0.00010622222222222222, "loss": 0.0015, "step": 1055 }, { "epoch": 7.066666666666666, "grad_norm": 0.0055632260628044605, "learning_rate": 0.00010577777777777777, "loss": 0.0015, "step": 1060 }, { "epoch": 7.1, "grad_norm": 0.005479234736412764, "learning_rate": 0.00010533333333333332, "loss": 0.0015, "step": 1065 }, { "epoch": 7.133333333333334, "grad_norm": 0.006130789872258902, "learning_rate": 0.0001048888888888889, "loss": 0.0015, "step": 1070 }, { "epoch": 7.166666666666667, "grad_norm": 0.005404417868703604, "learning_rate": 0.00010444444444444445, "loss": 0.0015, "step": 1075 }, { "epoch": 7.2, "grad_norm": 0.005277147516608238, "learning_rate": 0.00010400000000000001, "loss": 0.0014, "step": 1080 }, { "epoch": 7.233333333333333, "grad_norm": 0.0055356319062411785, "learning_rate": 0.00010355555555555556, "loss": 0.0014, "step": 1085 }, { "epoch": 7.266666666666667, "grad_norm": 0.005440846085548401, "learning_rate": 0.00010311111111111111, "loss": 0.0015, "step": 1090 }, { "epoch": 7.3, "grad_norm": 0.005298790987581015, "learning_rate": 0.00010266666666666666, "loss": 0.0014, "step": 1095 }, { "epoch": 7.333333333333333, "grad_norm": 0.005089638289064169, "learning_rate": 0.00010222222222222222, "loss": 0.0014, "step": 1100 }, { "epoch": 7.333333333333333, "eval_accuracy": 0.9183333333333333, "eval_f1": 0.918276162911487, "eval_loss": 0.44896677136421204, "eval_precision": 0.9188194476540754, "eval_recall": 0.9183333333333333, "eval_runtime": 7.8119, "eval_samples_per_second": 153.613, "eval_steps_per_second": 19.202, "step": 1100 }, { "epoch": 7.366666666666666, "grad_norm": 0.005060321185737848, "learning_rate": 0.00010177777777777777, "loss": 0.0014, "step": 1105 }, { "epoch": 7.4, "grad_norm": 0.005463128909468651, "learning_rate": 0.00010133333333333335, "loss": 0.0014, "step": 1110 }, { "epoch": 7.433333333333334, "grad_norm": 0.005301724653691053, "learning_rate": 0.0001008888888888889, "loss": 0.0014, "step": 1115 }, { "epoch": 7.466666666666667, "grad_norm": 0.005118420347571373, "learning_rate": 0.00010044444444444445, "loss": 0.0014, "step": 1120 }, { "epoch": 7.5, "grad_norm": 0.0051653082482516766, "learning_rate": 0.0001, "loss": 0.0014, "step": 1125 }, { "epoch": 7.533333333333333, "grad_norm": 0.0056477985344827175, "learning_rate": 9.955555555555556e-05, "loss": 0.0013, "step": 1130 }, { "epoch": 7.566666666666666, "grad_norm": 0.005100931506603956, "learning_rate": 9.911111111111112e-05, "loss": 0.0013, "step": 1135 }, { "epoch": 7.6, "grad_norm": 0.005153461825102568, "learning_rate": 9.866666666666668e-05, "loss": 0.0013, "step": 1140 }, { "epoch": 7.633333333333333, "grad_norm": 0.0050032539293169975, "learning_rate": 9.822222222222223e-05, "loss": 0.0013, "step": 1145 }, { "epoch": 7.666666666666667, "grad_norm": 0.005087521858513355, "learning_rate": 9.777777777777778e-05, "loss": 0.0013, "step": 1150 }, { "epoch": 7.7, "grad_norm": 0.005031487438827753, "learning_rate": 9.733333333333335e-05, "loss": 0.0013, "step": 1155 }, { "epoch": 7.733333333333333, "grad_norm": 0.004726443439722061, "learning_rate": 9.68888888888889e-05, "loss": 0.0013, "step": 1160 }, { "epoch": 7.766666666666667, "grad_norm": 0.005109079647809267, "learning_rate": 9.644444444444445e-05, "loss": 0.0013, "step": 1165 }, { "epoch": 7.8, "grad_norm": 0.005315660964697599, "learning_rate": 9.6e-05, "loss": 0.0013, "step": 1170 }, { "epoch": 7.833333333333333, "grad_norm": 0.004808226600289345, "learning_rate": 9.555555555555557e-05, "loss": 0.0013, "step": 1175 }, { "epoch": 7.866666666666667, "grad_norm": 0.004551420919597149, "learning_rate": 9.511111111111112e-05, "loss": 0.0012, "step": 1180 }, { "epoch": 7.9, "grad_norm": 0.0048584830947220325, "learning_rate": 9.466666666666667e-05, "loss": 0.0012, "step": 1185 }, { "epoch": 7.933333333333334, "grad_norm": 0.004639981314539909, "learning_rate": 9.422222222222223e-05, "loss": 0.0012, "step": 1190 }, { "epoch": 7.966666666666667, "grad_norm": 0.004903367254883051, "learning_rate": 9.377777777777779e-05, "loss": 0.0012, "step": 1195 }, { "epoch": 8.0, "grad_norm": 0.00497710844501853, "learning_rate": 9.333333333333334e-05, "loss": 0.0012, "step": 1200 }, { "epoch": 8.0, "eval_accuracy": 0.9183333333333333, "eval_f1": 0.918276162911487, "eval_loss": 0.45728063583374023, "eval_precision": 0.9188194476540754, "eval_recall": 0.9183333333333333, "eval_runtime": 7.8622, "eval_samples_per_second": 152.629, "eval_steps_per_second": 19.079, "step": 1200 }, { "epoch": 8.033333333333333, "grad_norm": 0.004901768174022436, "learning_rate": 9.28888888888889e-05, "loss": 0.0012, "step": 1205 }, { "epoch": 8.066666666666666, "grad_norm": 0.00460381293669343, "learning_rate": 9.244444444444445e-05, "loss": 0.0012, "step": 1210 }, { "epoch": 8.1, "grad_norm": 0.004661049228161573, "learning_rate": 9.200000000000001e-05, "loss": 0.0012, "step": 1215 }, { "epoch": 8.133333333333333, "grad_norm": 0.004654307849705219, "learning_rate": 9.155555555555557e-05, "loss": 0.0012, "step": 1220 }, { "epoch": 8.166666666666666, "grad_norm": 0.004435107111930847, "learning_rate": 9.111111111111112e-05, "loss": 0.0012, "step": 1225 }, { "epoch": 8.2, "grad_norm": 0.0044663771986961365, "learning_rate": 9.066666666666667e-05, "loss": 0.0012, "step": 1230 }, { "epoch": 8.233333333333333, "grad_norm": 0.0044823926873505116, "learning_rate": 9.022222222222224e-05, "loss": 0.0012, "step": 1235 }, { "epoch": 8.266666666666667, "grad_norm": 0.004379370249807835, "learning_rate": 8.977777777777779e-05, "loss": 0.0011, "step": 1240 }, { "epoch": 8.3, "grad_norm": 0.00417958851903677, "learning_rate": 8.933333333333334e-05, "loss": 0.0011, "step": 1245 }, { "epoch": 8.333333333333334, "grad_norm": 0.004224494565278292, "learning_rate": 8.888888888888889e-05, "loss": 0.0011, "step": 1250 }, { "epoch": 8.366666666666667, "grad_norm": 0.004208279773592949, "learning_rate": 8.844444444444445e-05, "loss": 0.0011, "step": 1255 }, { "epoch": 8.4, "grad_norm": 0.005235343240201473, "learning_rate": 8.800000000000001e-05, "loss": 0.0011, "step": 1260 }, { "epoch": 8.433333333333334, "grad_norm": 0.004416292998939753, "learning_rate": 8.755555555555556e-05, "loss": 0.0011, "step": 1265 }, { "epoch": 8.466666666666667, "grad_norm": 0.004400932230055332, "learning_rate": 8.711111111111112e-05, "loss": 0.0011, "step": 1270 }, { "epoch": 8.5, "grad_norm": 0.004420148208737373, "learning_rate": 8.666666666666667e-05, "loss": 0.0011, "step": 1275 }, { "epoch": 8.533333333333333, "grad_norm": 0.004513590596616268, "learning_rate": 8.622222222222222e-05, "loss": 0.0011, "step": 1280 }, { "epoch": 8.566666666666666, "grad_norm": 0.004847134463489056, "learning_rate": 8.577777777777777e-05, "loss": 0.0011, "step": 1285 }, { "epoch": 8.6, "grad_norm": 0.004372687079012394, "learning_rate": 8.533333333333334e-05, "loss": 0.0011, "step": 1290 }, { "epoch": 8.633333333333333, "grad_norm": 0.004051004070788622, "learning_rate": 8.488888888888889e-05, "loss": 0.0011, "step": 1295 }, { "epoch": 8.666666666666666, "grad_norm": 0.00401659682393074, "learning_rate": 8.444444444444444e-05, "loss": 0.0011, "step": 1300 }, { "epoch": 8.666666666666666, "eval_accuracy": 0.9183333333333333, "eval_f1": 0.9182166202878645, "eval_loss": 0.46425577998161316, "eval_precision": 0.9186224470479784, "eval_recall": 0.9183333333333333, "eval_runtime": 7.8964, "eval_samples_per_second": 151.969, "eval_steps_per_second": 18.996, "step": 1300 }, { "epoch": 8.7, "grad_norm": 0.0043200054205954075, "learning_rate": 8.4e-05, "loss": 0.0011, "step": 1305 }, { "epoch": 8.733333333333333, "grad_norm": 0.004279776010662317, "learning_rate": 8.355555555555556e-05, "loss": 0.0011, "step": 1310 }, { "epoch": 8.766666666666667, "grad_norm": 0.00390273192897439, "learning_rate": 8.311111111111111e-05, "loss": 0.001, "step": 1315 }, { "epoch": 8.8, "grad_norm": 0.004219904076308012, "learning_rate": 8.266666666666667e-05, "loss": 0.0011, "step": 1320 }, { "epoch": 8.833333333333334, "grad_norm": 0.004140777513384819, "learning_rate": 8.222222222222222e-05, "loss": 0.001, "step": 1325 }, { "epoch": 8.866666666666667, "grad_norm": 0.0041390638798475266, "learning_rate": 8.177777777777778e-05, "loss": 0.001, "step": 1330 }, { "epoch": 8.9, "grad_norm": 0.004068166948854923, "learning_rate": 8.133333333333334e-05, "loss": 0.001, "step": 1335 }, { "epoch": 8.933333333333334, "grad_norm": 0.00447118328884244, "learning_rate": 8.088888888888889e-05, "loss": 0.001, "step": 1340 }, { "epoch": 8.966666666666667, "grad_norm": 0.0038507815916091204, "learning_rate": 8.044444444444444e-05, "loss": 0.001, "step": 1345 }, { "epoch": 9.0, "grad_norm": 0.003949602134525776, "learning_rate": 8e-05, "loss": 0.001, "step": 1350 }, { "epoch": 9.033333333333333, "grad_norm": 0.003977175336331129, "learning_rate": 7.955555555555556e-05, "loss": 0.001, "step": 1355 }, { "epoch": 9.066666666666666, "grad_norm": 0.003786737099289894, "learning_rate": 7.911111111111111e-05, "loss": 0.001, "step": 1360 }, { "epoch": 9.1, "grad_norm": 0.0042703235521912575, "learning_rate": 7.866666666666666e-05, "loss": 0.001, "step": 1365 }, { "epoch": 9.133333333333333, "grad_norm": 0.003897195914760232, "learning_rate": 7.822222222222223e-05, "loss": 0.001, "step": 1370 }, { "epoch": 9.166666666666666, "grad_norm": 0.003780161729082465, "learning_rate": 7.777777777777778e-05, "loss": 0.001, "step": 1375 }, { "epoch": 9.2, "grad_norm": 0.0036365387495607138, "learning_rate": 7.733333333333333e-05, "loss": 0.001, "step": 1380 }, { "epoch": 9.233333333333333, "grad_norm": 0.003695949912071228, "learning_rate": 7.688888888888889e-05, "loss": 0.001, "step": 1385 }, { "epoch": 9.266666666666667, "grad_norm": 0.00372106209397316, "learning_rate": 7.644444444444445e-05, "loss": 0.001, "step": 1390 }, { "epoch": 9.3, "grad_norm": 0.003745425958186388, "learning_rate": 7.6e-05, "loss": 0.001, "step": 1395 }, { "epoch": 9.333333333333334, "grad_norm": 0.003721230663359165, "learning_rate": 7.555555555555556e-05, "loss": 0.001, "step": 1400 }, { "epoch": 9.333333333333334, "eval_accuracy": 0.9175, "eval_f1": 0.917421981091114, "eval_loss": 0.4723599851131439, "eval_precision": 0.9178173089126608, "eval_recall": 0.9175, "eval_runtime": 7.8285, "eval_samples_per_second": 153.287, "eval_steps_per_second": 19.161, "step": 1400 }, { "epoch": 9.366666666666667, "grad_norm": 0.0036859367974102497, "learning_rate": 7.511111111111111e-05, "loss": 0.001, "step": 1405 }, { "epoch": 9.4, "grad_norm": 0.0034922282211482525, "learning_rate": 7.466666666666667e-05, "loss": 0.001, "step": 1410 }, { "epoch": 9.433333333333334, "grad_norm": 0.0036631508264690638, "learning_rate": 7.422222222222223e-05, "loss": 0.0009, "step": 1415 }, { "epoch": 9.466666666666667, "grad_norm": 0.0037708813324570656, "learning_rate": 7.377777777777778e-05, "loss": 0.0009, "step": 1420 }, { "epoch": 9.5, "grad_norm": 0.003565052058547735, "learning_rate": 7.333333333333333e-05, "loss": 0.001, "step": 1425 }, { "epoch": 9.533333333333333, "grad_norm": 0.003711120691150427, "learning_rate": 7.28888888888889e-05, "loss": 0.001, "step": 1430 }, { "epoch": 9.566666666666666, "grad_norm": 0.0037379865534603596, "learning_rate": 7.244444444444445e-05, "loss": 0.0009, "step": 1435 }, { "epoch": 9.6, "grad_norm": 0.003746975911781192, "learning_rate": 7.2e-05, "loss": 0.0009, "step": 1440 }, { "epoch": 9.633333333333333, "grad_norm": 0.0035598173271864653, "learning_rate": 7.155555555555555e-05, "loss": 0.0009, "step": 1445 }, { "epoch": 9.666666666666666, "grad_norm": 0.003722529858350754, "learning_rate": 7.111111111111112e-05, "loss": 0.0009, "step": 1450 }, { "epoch": 9.7, "grad_norm": 0.0035576890222728252, "learning_rate": 7.066666666666667e-05, "loss": 0.0009, "step": 1455 }, { "epoch": 9.733333333333333, "grad_norm": 0.003480364801362157, "learning_rate": 7.022222222222222e-05, "loss": 0.0009, "step": 1460 }, { "epoch": 9.766666666666667, "grad_norm": 0.003376527689397335, "learning_rate": 6.977777777777779e-05, "loss": 0.0009, "step": 1465 }, { "epoch": 9.8, "grad_norm": 0.0036971736699342728, "learning_rate": 6.933333333333334e-05, "loss": 0.0009, "step": 1470 }, { "epoch": 9.833333333333334, "grad_norm": 0.003387295641005039, "learning_rate": 6.88888888888889e-05, "loss": 0.0009, "step": 1475 }, { "epoch": 9.866666666666667, "grad_norm": 0.0037850644439458847, "learning_rate": 6.844444444444445e-05, "loss": 0.0009, "step": 1480 }, { "epoch": 9.9, "grad_norm": 0.003663129173219204, "learning_rate": 6.800000000000001e-05, "loss": 0.0009, "step": 1485 }, { "epoch": 9.933333333333334, "grad_norm": 0.0034393323585391045, "learning_rate": 6.755555555555557e-05, "loss": 0.0009, "step": 1490 }, { "epoch": 9.966666666666667, "grad_norm": 0.0035610569175332785, "learning_rate": 6.711111111111112e-05, "loss": 0.0009, "step": 1495 }, { "epoch": 10.0, "grad_norm": 0.003440875094383955, "learning_rate": 6.666666666666667e-05, "loss": 0.0009, "step": 1500 }, { "epoch": 10.0, "eval_accuracy": 0.9191666666666667, "eval_f1": 0.9191103838546746, "eval_loss": 0.47826752066612244, "eval_precision": 0.9196138897743612, "eval_recall": 0.9191666666666667, "eval_runtime": 9.8514, "eval_samples_per_second": 121.81, "eval_steps_per_second": 15.226, "step": 1500 }, { "epoch": 10.033333333333333, "grad_norm": 0.003260489087551832, "learning_rate": 6.622222222222224e-05, "loss": 0.0009, "step": 1505 }, { "epoch": 10.066666666666666, "grad_norm": 0.003392919199541211, "learning_rate": 6.577777777777779e-05, "loss": 0.0009, "step": 1510 }, { "epoch": 10.1, "grad_norm": 0.003474250202998519, "learning_rate": 6.533333333333334e-05, "loss": 0.0009, "step": 1515 }, { "epoch": 10.133333333333333, "grad_norm": 0.0032033640891313553, "learning_rate": 6.488888888888889e-05, "loss": 0.0009, "step": 1520 }, { "epoch": 10.166666666666666, "grad_norm": 0.0034181252121925354, "learning_rate": 6.444444444444446e-05, "loss": 0.0009, "step": 1525 }, { "epoch": 10.2, "grad_norm": 0.0032818177714943886, "learning_rate": 6.400000000000001e-05, "loss": 0.0009, "step": 1530 }, { "epoch": 10.233333333333333, "grad_norm": 0.003897201269865036, "learning_rate": 6.355555555555556e-05, "loss": 0.0009, "step": 1535 }, { "epoch": 10.266666666666667, "grad_norm": 0.003549406072124839, "learning_rate": 6.311111111111112e-05, "loss": 0.0009, "step": 1540 }, { "epoch": 10.3, "grad_norm": 0.003224581014364958, "learning_rate": 6.266666666666667e-05, "loss": 0.0008, "step": 1545 }, { "epoch": 10.333333333333334, "grad_norm": 0.0033004845026880503, "learning_rate": 6.222222222222222e-05, "loss": 0.0008, "step": 1550 }, { "epoch": 10.366666666666667, "grad_norm": 0.0033119628205895424, "learning_rate": 6.177777777777779e-05, "loss": 0.0008, "step": 1555 }, { "epoch": 10.4, "grad_norm": 0.0032207455951720476, "learning_rate": 6.133333333333334e-05, "loss": 0.0008, "step": 1560 }, { "epoch": 10.433333333333334, "grad_norm": 0.0031648571603000164, "learning_rate": 6.08888888888889e-05, "loss": 0.0008, "step": 1565 }, { "epoch": 10.466666666666667, "grad_norm": 0.0030338664073497057, "learning_rate": 6.044444444444445e-05, "loss": 0.0008, "step": 1570 }, { "epoch": 10.5, "grad_norm": 0.003249578643590212, "learning_rate": 6e-05, "loss": 0.0008, "step": 1575 }, { "epoch": 10.533333333333333, "grad_norm": 0.003132493933662772, "learning_rate": 5.9555555555555554e-05, "loss": 0.0008, "step": 1580 }, { "epoch": 10.566666666666666, "grad_norm": 0.0032127327285706997, "learning_rate": 5.911111111111112e-05, "loss": 0.0008, "step": 1585 }, { "epoch": 10.6, "grad_norm": 0.0030581667087972164, "learning_rate": 5.866666666666667e-05, "loss": 0.0008, "step": 1590 }, { "epoch": 10.633333333333333, "grad_norm": 0.003177294274792075, "learning_rate": 5.8222222222222224e-05, "loss": 0.0008, "step": 1595 }, { "epoch": 10.666666666666666, "grad_norm": 0.003224252490326762, "learning_rate": 5.7777777777777776e-05, "loss": 0.0008, "step": 1600 }, { "epoch": 10.666666666666666, "eval_accuracy": 0.92, "eval_f1": 0.9199653348912411, "eval_loss": 0.4833959937095642, "eval_precision": 0.9204835369385521, "eval_recall": 0.92, "eval_runtime": 7.9041, "eval_samples_per_second": 151.821, "eval_steps_per_second": 18.978, "step": 1600 }, { "epoch": 10.7, "grad_norm": 0.0030483740847557783, "learning_rate": 5.7333333333333336e-05, "loss": 0.0008, "step": 1605 }, { "epoch": 10.733333333333333, "grad_norm": 0.0031640345696359873, "learning_rate": 5.6888888888888895e-05, "loss": 0.0008, "step": 1610 }, { "epoch": 10.766666666666667, "grad_norm": 0.0032182836439460516, "learning_rate": 5.644444444444445e-05, "loss": 0.0008, "step": 1615 }, { "epoch": 10.8, "grad_norm": 0.0030389779713004827, "learning_rate": 5.6000000000000006e-05, "loss": 0.0008, "step": 1620 }, { "epoch": 10.833333333333334, "grad_norm": 0.003169081639498472, "learning_rate": 5.555555555555556e-05, "loss": 0.0008, "step": 1625 }, { "epoch": 10.866666666666667, "grad_norm": 0.0030543103348463774, "learning_rate": 5.511111111111111e-05, "loss": 0.0008, "step": 1630 }, { "epoch": 10.9, "grad_norm": 0.0032883917447179556, "learning_rate": 5.466666666666666e-05, "loss": 0.0008, "step": 1635 }, { "epoch": 10.933333333333334, "grad_norm": 0.0032273780088871717, "learning_rate": 5.422222222222223e-05, "loss": 0.0008, "step": 1640 }, { "epoch": 10.966666666666667, "grad_norm": 0.002903733169659972, "learning_rate": 5.377777777777778e-05, "loss": 0.0008, "step": 1645 }, { "epoch": 11.0, "grad_norm": 0.003017701907083392, "learning_rate": 5.333333333333333e-05, "loss": 0.0008, "step": 1650 }, { "epoch": 11.033333333333333, "grad_norm": 0.003173088189214468, "learning_rate": 5.2888888888888885e-05, "loss": 0.0008, "step": 1655 }, { "epoch": 11.066666666666666, "grad_norm": 0.003071173094213009, "learning_rate": 5.244444444444445e-05, "loss": 0.0008, "step": 1660 }, { "epoch": 11.1, "grad_norm": 0.002954659750685096, "learning_rate": 5.2000000000000004e-05, "loss": 0.0008, "step": 1665 }, { "epoch": 11.133333333333333, "grad_norm": 0.002866999479010701, "learning_rate": 5.1555555555555556e-05, "loss": 0.0008, "step": 1670 }, { "epoch": 11.166666666666666, "grad_norm": 0.0029616898391395807, "learning_rate": 5.111111111111111e-05, "loss": 0.0008, "step": 1675 }, { "epoch": 11.2, "grad_norm": 0.002825687173753977, "learning_rate": 5.0666666666666674e-05, "loss": 0.0008, "step": 1680 }, { "epoch": 11.233333333333333, "grad_norm": 0.0028813998214900494, "learning_rate": 5.0222222222222226e-05, "loss": 0.0008, "step": 1685 }, { "epoch": 11.266666666666667, "grad_norm": 0.0029841118957847357, "learning_rate": 4.977777777777778e-05, "loss": 0.0008, "step": 1690 }, { "epoch": 11.3, "grad_norm": 0.002988130319863558, "learning_rate": 4.933333333333334e-05, "loss": 0.0008, "step": 1695 }, { "epoch": 11.333333333333334, "grad_norm": 0.0030406510923057795, "learning_rate": 4.888888888888889e-05, "loss": 0.0008, "step": 1700 }, { "epoch": 11.333333333333334, "eval_accuracy": 0.9183333333333333, "eval_f1": 0.918268707424008, "eval_loss": 0.4880092442035675, "eval_precision": 0.9187552612741062, "eval_recall": 0.9183333333333333, "eval_runtime": 7.8342, "eval_samples_per_second": 153.175, "eval_steps_per_second": 19.147, "step": 1700 }, { "epoch": 11.366666666666667, "grad_norm": 0.0030782537069171667, "learning_rate": 4.844444444444445e-05, "loss": 0.0008, "step": 1705 }, { "epoch": 11.4, "grad_norm": 0.0029185821767896414, "learning_rate": 4.8e-05, "loss": 0.0008, "step": 1710 }, { "epoch": 11.433333333333334, "grad_norm": 0.002855803119018674, "learning_rate": 4.755555555555556e-05, "loss": 0.0008, "step": 1715 }, { "epoch": 11.466666666666667, "grad_norm": 0.002994731767103076, "learning_rate": 4.711111111111111e-05, "loss": 0.0008, "step": 1720 }, { "epoch": 11.5, "grad_norm": 0.0030380000825971365, "learning_rate": 4.666666666666667e-05, "loss": 0.0007, "step": 1725 }, { "epoch": 11.533333333333333, "grad_norm": 0.003059881506487727, "learning_rate": 4.6222222222222224e-05, "loss": 0.0007, "step": 1730 }, { "epoch": 11.566666666666666, "grad_norm": 0.0029963271226733923, "learning_rate": 4.577777777777778e-05, "loss": 0.0007, "step": 1735 }, { "epoch": 11.6, "grad_norm": 0.0028622711542993784, "learning_rate": 4.5333333333333335e-05, "loss": 0.0007, "step": 1740 }, { "epoch": 11.633333333333333, "grad_norm": 0.002950573107227683, "learning_rate": 4.4888888888888894e-05, "loss": 0.0008, "step": 1745 }, { "epoch": 11.666666666666666, "grad_norm": 0.0029123856220394373, "learning_rate": 4.4444444444444447e-05, "loss": 0.0007, "step": 1750 }, { "epoch": 11.7, "grad_norm": 0.0028937875758856535, "learning_rate": 4.4000000000000006e-05, "loss": 0.0007, "step": 1755 }, { "epoch": 11.733333333333333, "grad_norm": 0.002869903575628996, "learning_rate": 4.355555555555556e-05, "loss": 0.0007, "step": 1760 }, { "epoch": 11.766666666666667, "grad_norm": 0.0028548736590892076, "learning_rate": 4.311111111111111e-05, "loss": 0.0007, "step": 1765 }, { "epoch": 11.8, "grad_norm": 0.0027802055701613426, "learning_rate": 4.266666666666667e-05, "loss": 0.0007, "step": 1770 }, { "epoch": 11.833333333333334, "grad_norm": 0.002807662123814225, "learning_rate": 4.222222222222222e-05, "loss": 0.0007, "step": 1775 }, { "epoch": 11.866666666666667, "grad_norm": 0.0029238222632557154, "learning_rate": 4.177777777777778e-05, "loss": 0.0007, "step": 1780 }, { "epoch": 11.9, "grad_norm": 0.002895110286772251, "learning_rate": 4.133333333333333e-05, "loss": 0.0007, "step": 1785 }, { "epoch": 11.933333333333334, "grad_norm": 0.0028807325288653374, "learning_rate": 4.088888888888889e-05, "loss": 0.0007, "step": 1790 }, { "epoch": 11.966666666666667, "grad_norm": 0.0026707265060395002, "learning_rate": 4.0444444444444444e-05, "loss": 0.0007, "step": 1795 }, { "epoch": 12.0, "grad_norm": 0.002676790114492178, "learning_rate": 4e-05, "loss": 0.0007, "step": 1800 }, { "epoch": 12.0, "eval_accuracy": 0.9191666666666667, "eval_f1": 0.9191026066787022, "eval_loss": 0.49125936627388, "eval_precision": 0.9195520449744481, "eval_recall": 0.9191666666666667, "eval_runtime": 7.8535, "eval_samples_per_second": 152.797, "eval_steps_per_second": 19.1, "step": 1800 }, { "epoch": 12.033333333333333, "grad_norm": 0.002707622479647398, "learning_rate": 3.9555555555555556e-05, "loss": 0.0007, "step": 1805 }, { "epoch": 12.066666666666666, "grad_norm": 0.002902447013184428, "learning_rate": 3.9111111111111115e-05, "loss": 0.0007, "step": 1810 }, { "epoch": 12.1, "grad_norm": 0.0026859932113438845, "learning_rate": 3.866666666666667e-05, "loss": 0.0007, "step": 1815 }, { "epoch": 12.133333333333333, "grad_norm": 0.002871550153940916, "learning_rate": 3.8222222222222226e-05, "loss": 0.0007, "step": 1820 }, { "epoch": 12.166666666666666, "grad_norm": 0.002763474592939019, "learning_rate": 3.777777777777778e-05, "loss": 0.0007, "step": 1825 }, { "epoch": 12.2, "grad_norm": 0.0027550242375582457, "learning_rate": 3.733333333333334e-05, "loss": 0.0007, "step": 1830 }, { "epoch": 12.233333333333333, "grad_norm": 0.0029339187312871218, "learning_rate": 3.688888888888889e-05, "loss": 0.0007, "step": 1835 }, { "epoch": 12.266666666666667, "grad_norm": 0.0026396887842565775, "learning_rate": 3.644444444444445e-05, "loss": 0.0007, "step": 1840 }, { "epoch": 12.3, "grad_norm": 0.0025832573883235455, "learning_rate": 3.6e-05, "loss": 0.0007, "step": 1845 }, { "epoch": 12.333333333333334, "grad_norm": 0.002806900767609477, "learning_rate": 3.555555555555556e-05, "loss": 0.0007, "step": 1850 }, { "epoch": 12.366666666666667, "grad_norm": 0.00279484735801816, "learning_rate": 3.511111111111111e-05, "loss": 0.0007, "step": 1855 }, { "epoch": 12.4, "grad_norm": 0.0026845207903534174, "learning_rate": 3.466666666666667e-05, "loss": 0.0007, "step": 1860 }, { "epoch": 12.433333333333334, "grad_norm": 0.0027761473320424557, "learning_rate": 3.4222222222222224e-05, "loss": 0.0007, "step": 1865 }, { "epoch": 12.466666666666667, "grad_norm": 0.002627959009259939, "learning_rate": 3.377777777777778e-05, "loss": 0.0007, "step": 1870 }, { "epoch": 12.5, "grad_norm": 0.0027407421730458736, "learning_rate": 3.3333333333333335e-05, "loss": 0.0007, "step": 1875 }, { "epoch": 12.533333333333333, "grad_norm": 0.002603847300633788, "learning_rate": 3.2888888888888894e-05, "loss": 0.0007, "step": 1880 }, { "epoch": 12.566666666666666, "grad_norm": 0.002825007541105151, "learning_rate": 3.2444444444444446e-05, "loss": 0.0007, "step": 1885 }, { "epoch": 12.6, "grad_norm": 0.0027513019740581512, "learning_rate": 3.2000000000000005e-05, "loss": 0.0007, "step": 1890 }, { "epoch": 12.633333333333333, "grad_norm": 0.0029636272229254246, "learning_rate": 3.155555555555556e-05, "loss": 0.0007, "step": 1895 }, { "epoch": 12.666666666666666, "grad_norm": 0.003063909010961652, "learning_rate": 3.111111111111111e-05, "loss": 0.0007, "step": 1900 }, { "epoch": 12.666666666666666, "eval_accuracy": 0.9191666666666667, "eval_f1": 0.9191026066787022, "eval_loss": 0.49457716941833496, "eval_precision": 0.9195520449744481, "eval_recall": 0.9191666666666667, "eval_runtime": 7.8796, "eval_samples_per_second": 152.293, "eval_steps_per_second": 19.037, "step": 1900 }, { "epoch": 12.7, "grad_norm": 0.0027061670552939177, "learning_rate": 3.066666666666667e-05, "loss": 0.0007, "step": 1905 }, { "epoch": 12.733333333333333, "grad_norm": 0.0025229384191334248, "learning_rate": 3.0222222222222225e-05, "loss": 0.0007, "step": 1910 }, { "epoch": 12.766666666666667, "grad_norm": 0.0028320990968495607, "learning_rate": 2.9777777777777777e-05, "loss": 0.0007, "step": 1915 }, { "epoch": 12.8, "grad_norm": 0.0024923314340412617, "learning_rate": 2.9333333333333336e-05, "loss": 0.0007, "step": 1920 }, { "epoch": 12.833333333333334, "grad_norm": 0.0027186665683984756, "learning_rate": 2.8888888888888888e-05, "loss": 0.0007, "step": 1925 }, { "epoch": 12.866666666666667, "grad_norm": 0.002780637238174677, "learning_rate": 2.8444444444444447e-05, "loss": 0.0007, "step": 1930 }, { "epoch": 12.9, "grad_norm": 0.002601889194920659, "learning_rate": 2.8000000000000003e-05, "loss": 0.0007, "step": 1935 }, { "epoch": 12.933333333333334, "grad_norm": 0.002651306800544262, "learning_rate": 2.7555555555555555e-05, "loss": 0.0007, "step": 1940 }, { "epoch": 12.966666666666667, "grad_norm": 0.0026949350722134113, "learning_rate": 2.7111111111111114e-05, "loss": 0.0007, "step": 1945 }, { "epoch": 13.0, "grad_norm": 0.002682847436517477, "learning_rate": 2.6666666666666667e-05, "loss": 0.0007, "step": 1950 }, { "epoch": 13.033333333333333, "grad_norm": 0.002650792710483074, "learning_rate": 2.6222222222222226e-05, "loss": 0.0007, "step": 1955 }, { "epoch": 13.066666666666666, "grad_norm": 0.0026393814478069544, "learning_rate": 2.5777777777777778e-05, "loss": 0.0007, "step": 1960 }, { "epoch": 13.1, "grad_norm": 0.0025844641495496035, "learning_rate": 2.5333333333333337e-05, "loss": 0.0007, "step": 1965 }, { "epoch": 13.133333333333333, "grad_norm": 0.002640536753460765, "learning_rate": 2.488888888888889e-05, "loss": 0.0007, "step": 1970 }, { "epoch": 13.166666666666666, "grad_norm": 0.002576792612671852, "learning_rate": 2.4444444444444445e-05, "loss": 0.0007, "step": 1975 }, { "epoch": 13.2, "grad_norm": 0.002594567835330963, "learning_rate": 2.4e-05, "loss": 0.0007, "step": 1980 }, { "epoch": 13.233333333333333, "grad_norm": 0.002511014463379979, "learning_rate": 2.3555555555555556e-05, "loss": 0.0007, "step": 1985 }, { "epoch": 13.266666666666667, "grad_norm": 0.0027352238539606333, "learning_rate": 2.3111111111111112e-05, "loss": 0.0007, "step": 1990 }, { "epoch": 13.3, "grad_norm": 0.0027416874654591084, "learning_rate": 2.2666666666666668e-05, "loss": 0.0007, "step": 1995 }, { "epoch": 13.333333333333334, "grad_norm": 0.0026454601902514696, "learning_rate": 2.2222222222222223e-05, "loss": 0.0007, "step": 2000 }, { "epoch": 13.333333333333334, "eval_accuracy": 0.9191666666666667, "eval_f1": 0.9191026066787022, "eval_loss": 0.49666884541511536, "eval_precision": 0.9195520449744481, "eval_recall": 0.9191666666666667, "eval_runtime": 7.8324, "eval_samples_per_second": 153.209, "eval_steps_per_second": 19.151, "step": 2000 }, { "epoch": 13.366666666666667, "grad_norm": 0.0026238916907459497, "learning_rate": 2.177777777777778e-05, "loss": 0.0007, "step": 2005 }, { "epoch": 13.4, "grad_norm": 0.0024569607339799404, "learning_rate": 2.1333333333333335e-05, "loss": 0.0007, "step": 2010 }, { "epoch": 13.433333333333334, "grad_norm": 0.0026213256642222404, "learning_rate": 2.088888888888889e-05, "loss": 0.0007, "step": 2015 }, { "epoch": 13.466666666666667, "grad_norm": 0.002818812383338809, "learning_rate": 2.0444444444444446e-05, "loss": 0.0007, "step": 2020 }, { "epoch": 13.5, "grad_norm": 0.0025170459412038326, "learning_rate": 2e-05, "loss": 0.0007, "step": 2025 }, { "epoch": 13.533333333333333, "grad_norm": 0.0026643986348062754, "learning_rate": 1.9555555555555557e-05, "loss": 0.0007, "step": 2030 }, { "epoch": 13.566666666666666, "grad_norm": 0.0027407060842961073, "learning_rate": 1.9111111111111113e-05, "loss": 0.0007, "step": 2035 }, { "epoch": 13.6, "grad_norm": 0.0025721502024680376, "learning_rate": 1.866666666666667e-05, "loss": 0.0006, "step": 2040 }, { "epoch": 13.633333333333333, "grad_norm": 0.002500210190191865, "learning_rate": 1.8222222222222224e-05, "loss": 0.0007, "step": 2045 }, { "epoch": 13.666666666666666, "grad_norm": 0.0026154073420912027, "learning_rate": 1.777777777777778e-05, "loss": 0.0007, "step": 2050 }, { "epoch": 13.7, "grad_norm": 0.002631218871101737, "learning_rate": 1.7333333333333336e-05, "loss": 0.0007, "step": 2055 }, { "epoch": 13.733333333333333, "grad_norm": 0.0024211935233324766, "learning_rate": 1.688888888888889e-05, "loss": 0.0006, "step": 2060 }, { "epoch": 13.766666666666667, "grad_norm": 0.0025255836080759764, "learning_rate": 1.6444444444444447e-05, "loss": 0.0007, "step": 2065 }, { "epoch": 13.8, "grad_norm": 0.002733193337917328, "learning_rate": 1.6000000000000003e-05, "loss": 0.0007, "step": 2070 }, { "epoch": 13.833333333333334, "grad_norm": 0.002618127502501011, "learning_rate": 1.5555555555555555e-05, "loss": 0.0007, "step": 2075 }, { "epoch": 13.866666666666667, "grad_norm": 0.002700020791962743, "learning_rate": 1.5111111111111112e-05, "loss": 0.0006, "step": 2080 }, { "epoch": 13.9, "grad_norm": 0.0024619654286652803, "learning_rate": 1.4666666666666668e-05, "loss": 0.0006, "step": 2085 }, { "epoch": 13.933333333333334, "grad_norm": 0.0023835354950278997, "learning_rate": 1.4222222222222224e-05, "loss": 0.0006, "step": 2090 }, { "epoch": 13.966666666666667, "grad_norm": 0.0026378787588328123, "learning_rate": 1.3777777777777778e-05, "loss": 0.0006, "step": 2095 }, { "epoch": 14.0, "grad_norm": 0.002657889621332288, "learning_rate": 1.3333333333333333e-05, "loss": 0.0006, "step": 2100 }, { "epoch": 14.0, "eval_accuracy": 0.9191666666666667, "eval_f1": 0.9191026066787022, "eval_loss": 0.4982248842716217, "eval_precision": 0.9195520449744481, "eval_recall": 0.9191666666666667, "eval_runtime": 7.9219, "eval_samples_per_second": 151.48, "eval_steps_per_second": 18.935, "step": 2100 }, { "epoch": 14.033333333333333, "grad_norm": 0.0024647919926792383, "learning_rate": 1.2888888888888889e-05, "loss": 0.0006, "step": 2105 }, { "epoch": 14.066666666666666, "grad_norm": 0.00243979855440557, "learning_rate": 1.2444444444444445e-05, "loss": 0.0006, "step": 2110 }, { "epoch": 14.1, "grad_norm": 0.0024480042047798634, "learning_rate": 1.2e-05, "loss": 0.0006, "step": 2115 }, { "epoch": 14.133333333333333, "grad_norm": 0.0027023949660360813, "learning_rate": 1.1555555555555556e-05, "loss": 0.0006, "step": 2120 }, { "epoch": 14.166666666666666, "grad_norm": 0.00241423980332911, "learning_rate": 1.1111111111111112e-05, "loss": 0.0006, "step": 2125 }, { "epoch": 14.2, "grad_norm": 0.0024927083868533373, "learning_rate": 1.0666666666666667e-05, "loss": 0.0006, "step": 2130 }, { "epoch": 14.233333333333333, "grad_norm": 0.0025994169991463423, "learning_rate": 1.0222222222222223e-05, "loss": 0.0007, "step": 2135 }, { "epoch": 14.266666666666667, "grad_norm": 0.00239562033675611, "learning_rate": 9.777777777777779e-06, "loss": 0.0006, "step": 2140 }, { "epoch": 14.3, "grad_norm": 0.002496495144441724, "learning_rate": 9.333333333333334e-06, "loss": 0.0006, "step": 2145 }, { "epoch": 14.333333333333334, "grad_norm": 0.002464530523866415, "learning_rate": 8.88888888888889e-06, "loss": 0.0006, "step": 2150 }, { "epoch": 14.366666666666667, "grad_norm": 0.0026704645715653896, "learning_rate": 8.444444444444446e-06, "loss": 0.0006, "step": 2155 }, { "epoch": 14.4, "grad_norm": 0.0024209131952375174, "learning_rate": 8.000000000000001e-06, "loss": 0.0006, "step": 2160 }, { "epoch": 14.433333333333334, "grad_norm": 0.0026139291003346443, "learning_rate": 7.555555555555556e-06, "loss": 0.0006, "step": 2165 }, { "epoch": 14.466666666666667, "grad_norm": 0.0024674285668879747, "learning_rate": 7.111111111111112e-06, "loss": 0.0006, "step": 2170 }, { "epoch": 14.5, "grad_norm": 0.002546043833717704, "learning_rate": 6.666666666666667e-06, "loss": 0.0006, "step": 2175 }, { "epoch": 14.533333333333333, "grad_norm": 0.00251571461558342, "learning_rate": 6.222222222222222e-06, "loss": 0.0006, "step": 2180 }, { "epoch": 14.566666666666666, "grad_norm": 0.00263564707711339, "learning_rate": 5.777777777777778e-06, "loss": 0.0006, "step": 2185 }, { "epoch": 14.6, "grad_norm": 0.002483101561665535, "learning_rate": 5.333333333333334e-06, "loss": 0.0006, "step": 2190 }, { "epoch": 14.633333333333333, "grad_norm": 0.0028893440030515194, "learning_rate": 4.888888888888889e-06, "loss": 0.0006, "step": 2195 }, { "epoch": 14.666666666666666, "grad_norm": 0.0023681537713855505, "learning_rate": 4.444444444444445e-06, "loss": 0.0006, "step": 2200 }, { "epoch": 14.666666666666666, "eval_accuracy": 0.9191666666666667, "eval_f1": 0.9191026066787022, "eval_loss": 0.4990111291408539, "eval_precision": 0.9195520449744481, "eval_recall": 0.9191666666666667, "eval_runtime": 7.8548, "eval_samples_per_second": 152.773, "eval_steps_per_second": 19.097, "step": 2200 }, { "epoch": 14.7, "grad_norm": 0.0026878141798079014, "learning_rate": 4.000000000000001e-06, "loss": 0.0006, "step": 2205 }, { "epoch": 14.733333333333333, "grad_norm": 0.002577277133241296, "learning_rate": 3.555555555555556e-06, "loss": 0.0006, "step": 2210 }, { "epoch": 14.766666666666667, "grad_norm": 0.002402898157015443, "learning_rate": 3.111111111111111e-06, "loss": 0.0006, "step": 2215 }, { "epoch": 14.8, "grad_norm": 0.002382304286584258, "learning_rate": 2.666666666666667e-06, "loss": 0.0006, "step": 2220 }, { "epoch": 14.833333333333334, "grad_norm": 0.002684946171939373, "learning_rate": 2.2222222222222225e-06, "loss": 0.0006, "step": 2225 }, { "epoch": 14.866666666666667, "grad_norm": 0.0026375013403594494, "learning_rate": 1.777777777777778e-06, "loss": 0.0006, "step": 2230 }, { "epoch": 14.9, "grad_norm": 0.0024921230506151915, "learning_rate": 1.3333333333333334e-06, "loss": 0.0006, "step": 2235 }, { "epoch": 14.933333333333334, "grad_norm": 0.0026301259640604258, "learning_rate": 8.88888888888889e-07, "loss": 0.0006, "step": 2240 }, { "epoch": 14.966666666666667, "grad_norm": 0.002528001554310322, "learning_rate": 4.444444444444445e-07, "loss": 0.0006, "step": 2245 }, { "epoch": 15.0, "grad_norm": 0.0023518188390880823, "learning_rate": 0.0, "loss": 0.0006, "step": 2250 }, { "epoch": 15.0, "step": 2250, "total_flos": 5.57962327867392e+18, "train_loss": 0.0380596985022227, "train_runtime": 802.2066, "train_samples_per_second": 89.752, "train_steps_per_second": 2.805 } ], "logging_steps": 5, "max_steps": 2250, "num_input_tokens_seen": 0, "num_train_epochs": 15, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 5.57962327867392e+18, "train_batch_size": 32, "trial_name": null, "trial_params": null }