{ "best_metric": 0.8241113424301147, "best_model_checkpoint": "vit-finetune-kidney-stone-Michel_Daudon_-w256_1k_v1-_SUR-pretrain\\checkpoint-100", "epoch": 15.0, "eval_steps": 100, "global_step": 2250, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.03333333333333333, "grad_norm": 1.5038498640060425, "learning_rate": 0.00019955555555555558, "loss": 1.6536, "step": 5 }, { "epoch": 0.06666666666666667, "grad_norm": 1.829256296157837, "learning_rate": 0.00019911111111111111, "loss": 1.2416, "step": 10 }, { "epoch": 0.1, "grad_norm": 1.8621110916137695, "learning_rate": 0.00019866666666666668, "loss": 0.888, "step": 15 }, { "epoch": 0.13333333333333333, "grad_norm": 1.2873362302780151, "learning_rate": 0.00019822222222222225, "loss": 0.5933, "step": 20 }, { "epoch": 0.16666666666666666, "grad_norm": 1.5781307220458984, "learning_rate": 0.00019777777777777778, "loss": 0.4845, "step": 25 }, { "epoch": 0.2, "grad_norm": 1.8557803630828857, "learning_rate": 0.00019733333333333335, "loss": 0.3413, "step": 30 }, { "epoch": 0.23333333333333334, "grad_norm": 3.6457643508911133, "learning_rate": 0.0001968888888888889, "loss": 0.3336, "step": 35 }, { "epoch": 0.26666666666666666, "grad_norm": 1.5236932039260864, "learning_rate": 0.00019644444444444445, "loss": 0.3685, "step": 40 }, { "epoch": 0.3, "grad_norm": 1.8863478899002075, "learning_rate": 0.000196, "loss": 0.2613, "step": 45 }, { "epoch": 0.3333333333333333, "grad_norm": 3.744304656982422, "learning_rate": 0.00019555555555555556, "loss": 0.2035, "step": 50 }, { "epoch": 0.36666666666666664, "grad_norm": 1.042971134185791, "learning_rate": 0.0001951111111111111, "loss": 0.1786, "step": 55 }, { "epoch": 0.4, "grad_norm": 1.4257638454437256, "learning_rate": 0.0001946666666666667, "loss": 0.1745, "step": 60 }, { "epoch": 0.43333333333333335, "grad_norm": 0.5273764133453369, "learning_rate": 0.00019422222222222223, "loss": 0.1359, "step": 65 }, { "epoch": 0.4666666666666667, "grad_norm": 2.8830924034118652, "learning_rate": 0.0001937777777777778, "loss": 0.3076, "step": 70 }, { "epoch": 0.5, "grad_norm": 2.2436978816986084, "learning_rate": 0.00019333333333333333, "loss": 0.1644, "step": 75 }, { "epoch": 0.5333333333333333, "grad_norm": 1.6757084131240845, "learning_rate": 0.0001928888888888889, "loss": 0.1409, "step": 80 }, { "epoch": 0.5666666666666667, "grad_norm": 2.3054308891296387, "learning_rate": 0.00019244444444444444, "loss": 0.2343, "step": 85 }, { "epoch": 0.6, "grad_norm": 1.7408437728881836, "learning_rate": 0.000192, "loss": 0.1608, "step": 90 }, { "epoch": 0.6333333333333333, "grad_norm": 1.7478148937225342, "learning_rate": 0.00019155555555555554, "loss": 0.1698, "step": 95 }, { "epoch": 0.6666666666666666, "grad_norm": 0.20468735694885254, "learning_rate": 0.00019111111111111114, "loss": 0.189, "step": 100 }, { "epoch": 0.6666666666666666, "eval_accuracy": 0.731807031888798, "eval_f1": 0.7202010202484644, "eval_loss": 0.8241113424301147, "eval_precision": 0.7396688030441013, "eval_recall": 0.731807031888798, "eval_runtime": 9.3032, "eval_samples_per_second": 131.46, "eval_steps_per_second": 16.446, "step": 100 }, { "epoch": 0.7, "grad_norm": 0.8281188011169434, "learning_rate": 0.00019066666666666668, "loss": 0.101, "step": 105 }, { "epoch": 0.7333333333333333, "grad_norm": 5.97291374206543, "learning_rate": 0.00019022222222222224, "loss": 0.1681, "step": 110 }, { "epoch": 0.7666666666666667, "grad_norm": 2.7595715522766113, "learning_rate": 0.00018977777777777778, "loss": 0.1445, "step": 115 }, { "epoch": 0.8, "grad_norm": 7.523869037628174, "learning_rate": 0.00018933333333333335, "loss": 0.1466, "step": 120 }, { "epoch": 0.8333333333333334, "grad_norm": 1.1659404039382935, "learning_rate": 0.00018888888888888888, "loss": 0.1337, "step": 125 }, { "epoch": 0.8666666666666667, "grad_norm": 2.5459585189819336, "learning_rate": 0.00018844444444444445, "loss": 0.1119, "step": 130 }, { "epoch": 0.9, "grad_norm": 4.724196910858154, "learning_rate": 0.000188, "loss": 0.1048, "step": 135 }, { "epoch": 0.9333333333333333, "grad_norm": 2.075943946838379, "learning_rate": 0.00018755555555555558, "loss": 0.1116, "step": 140 }, { "epoch": 0.9666666666666667, "grad_norm": 1.1934221982955933, "learning_rate": 0.00018711111111111112, "loss": 0.1719, "step": 145 }, { "epoch": 1.0, "grad_norm": 4.2129435539245605, "learning_rate": 0.0001866666666666667, "loss": 0.1113, "step": 150 }, { "epoch": 1.0333333333333334, "grad_norm": 0.23387305438518524, "learning_rate": 0.00018622222222222223, "loss": 0.0883, "step": 155 }, { "epoch": 1.0666666666666667, "grad_norm": 0.20353923738002777, "learning_rate": 0.0001857777777777778, "loss": 0.0645, "step": 160 }, { "epoch": 1.1, "grad_norm": 0.473369836807251, "learning_rate": 0.00018533333333333333, "loss": 0.0814, "step": 165 }, { "epoch": 1.1333333333333333, "grad_norm": 0.9461199045181274, "learning_rate": 0.0001848888888888889, "loss": 0.0831, "step": 170 }, { "epoch": 1.1666666666666667, "grad_norm": 1.2698873281478882, "learning_rate": 0.00018444444444444446, "loss": 0.0719, "step": 175 }, { "epoch": 1.2, "grad_norm": 4.034528732299805, "learning_rate": 0.00018400000000000003, "loss": 0.0497, "step": 180 }, { "epoch": 1.2333333333333334, "grad_norm": 3.144911527633667, "learning_rate": 0.00018355555555555557, "loss": 0.0693, "step": 185 }, { "epoch": 1.2666666666666666, "grad_norm": 0.10751402378082275, "learning_rate": 0.00018311111111111113, "loss": 0.0302, "step": 190 }, { "epoch": 1.3, "grad_norm": 0.20744110643863678, "learning_rate": 0.00018266666666666667, "loss": 0.0478, "step": 195 }, { "epoch": 1.3333333333333333, "grad_norm": 0.4916437268257141, "learning_rate": 0.00018222222222222224, "loss": 0.0343, "step": 200 }, { "epoch": 1.3333333333333333, "eval_accuracy": 0.7269010629599346, "eval_f1": 0.7293936876644103, "eval_loss": 1.11248779296875, "eval_precision": 0.8038062788050669, "eval_recall": 0.7269010629599346, "eval_runtime": 9.7216, "eval_samples_per_second": 125.802, "eval_steps_per_second": 15.738, "step": 200 }, { "epoch": 1.3666666666666667, "grad_norm": 0.1939370334148407, "learning_rate": 0.00018177777777777778, "loss": 0.0369, "step": 205 }, { "epoch": 1.4, "grad_norm": 1.1403096914291382, "learning_rate": 0.00018133333333333334, "loss": 0.051, "step": 210 }, { "epoch": 1.4333333333333333, "grad_norm": 0.07095254957675934, "learning_rate": 0.0001808888888888889, "loss": 0.0201, "step": 215 }, { "epoch": 1.4666666666666668, "grad_norm": 0.05994000285863876, "learning_rate": 0.00018044444444444447, "loss": 0.0194, "step": 220 }, { "epoch": 1.5, "grad_norm": 0.06130120903253555, "learning_rate": 0.00018, "loss": 0.017, "step": 225 }, { "epoch": 1.5333333333333332, "grad_norm": 0.8700404763221741, "learning_rate": 0.00017955555555555558, "loss": 0.0171, "step": 230 }, { "epoch": 1.5666666666666667, "grad_norm": 3.503563165664673, "learning_rate": 0.00017911111111111112, "loss": 0.0719, "step": 235 }, { "epoch": 1.6, "grad_norm": 0.059561729431152344, "learning_rate": 0.00017866666666666668, "loss": 0.037, "step": 240 }, { "epoch": 1.6333333333333333, "grad_norm": 0.04538533091545105, "learning_rate": 0.00017822222222222222, "loss": 0.0135, "step": 245 }, { "epoch": 1.6666666666666665, "grad_norm": 3.2934460639953613, "learning_rate": 0.00017777777777777779, "loss": 0.0323, "step": 250 }, { "epoch": 1.7, "grad_norm": 0.5714149475097656, "learning_rate": 0.00017733333333333335, "loss": 0.0952, "step": 255 }, { "epoch": 1.7333333333333334, "grad_norm": 0.0423518531024456, "learning_rate": 0.0001768888888888889, "loss": 0.0413, "step": 260 }, { "epoch": 1.7666666666666666, "grad_norm": 3.930265188217163, "learning_rate": 0.00017644444444444446, "loss": 0.0971, "step": 265 }, { "epoch": 1.8, "grad_norm": 0.496189147233963, "learning_rate": 0.00017600000000000002, "loss": 0.0572, "step": 270 }, { "epoch": 1.8333333333333335, "grad_norm": 0.07552386075258255, "learning_rate": 0.00017555555555555556, "loss": 0.015, "step": 275 }, { "epoch": 1.8666666666666667, "grad_norm": 0.08751185983419418, "learning_rate": 0.00017511111111111113, "loss": 0.0797, "step": 280 }, { "epoch": 1.9, "grad_norm": 0.06888749450445175, "learning_rate": 0.00017466666666666667, "loss": 0.0122, "step": 285 }, { "epoch": 1.9333333333333333, "grad_norm": 0.10182400792837143, "learning_rate": 0.00017422222222222223, "loss": 0.0254, "step": 290 }, { "epoch": 1.9666666666666668, "grad_norm": 7.981257438659668, "learning_rate": 0.0001737777777777778, "loss": 0.0721, "step": 295 }, { "epoch": 2.0, "grad_norm": 0.2435569018125534, "learning_rate": 0.00017333333333333334, "loss": 0.0214, "step": 300 }, { "epoch": 2.0, "eval_accuracy": 0.7645134914145544, "eval_f1": 0.7681335144892149, "eval_loss": 0.907749593257904, "eval_precision": 0.7744607953612164, "eval_recall": 0.7645134914145544, "eval_runtime": 9.8389, "eval_samples_per_second": 124.303, "eval_steps_per_second": 15.551, "step": 300 }, { "epoch": 2.033333333333333, "grad_norm": 0.038724396377801895, "learning_rate": 0.0001728888888888889, "loss": 0.0294, "step": 305 }, { "epoch": 2.066666666666667, "grad_norm": 3.9727394580841064, "learning_rate": 0.00017244444444444444, "loss": 0.03, "step": 310 }, { "epoch": 2.1, "grad_norm": 0.03929124400019646, "learning_rate": 0.000172, "loss": 0.0501, "step": 315 }, { "epoch": 2.1333333333333333, "grad_norm": 2.1505982875823975, "learning_rate": 0.00017155555555555555, "loss": 0.0469, "step": 320 }, { "epoch": 2.1666666666666665, "grad_norm": 0.9991199970245361, "learning_rate": 0.0001711111111111111, "loss": 0.0702, "step": 325 }, { "epoch": 2.2, "grad_norm": 4.109317302703857, "learning_rate": 0.00017066666666666668, "loss": 0.1286, "step": 330 }, { "epoch": 2.2333333333333334, "grad_norm": 1.446580410003662, "learning_rate": 0.00017022222222222224, "loss": 0.0489, "step": 335 }, { "epoch": 2.2666666666666666, "grad_norm": 1.2260584831237793, "learning_rate": 0.00016977777777777778, "loss": 0.016, "step": 340 }, { "epoch": 2.3, "grad_norm": 3.696033477783203, "learning_rate": 0.00016933333333333335, "loss": 0.0354, "step": 345 }, { "epoch": 2.3333333333333335, "grad_norm": 3.4040801525115967, "learning_rate": 0.00016888888888888889, "loss": 0.0645, "step": 350 }, { "epoch": 2.3666666666666667, "grad_norm": 1.1686327457427979, "learning_rate": 0.00016844444444444445, "loss": 0.0407, "step": 355 }, { "epoch": 2.4, "grad_norm": 0.09886626899242401, "learning_rate": 0.000168, "loss": 0.0173, "step": 360 }, { "epoch": 2.4333333333333336, "grad_norm": 1.096432089805603, "learning_rate": 0.00016755555555555556, "loss": 0.0558, "step": 365 }, { "epoch": 2.466666666666667, "grad_norm": 0.18765941262245178, "learning_rate": 0.00016711111111111112, "loss": 0.0157, "step": 370 }, { "epoch": 2.5, "grad_norm": 0.3387848734855652, "learning_rate": 0.0001666666666666667, "loss": 0.0335, "step": 375 }, { "epoch": 2.533333333333333, "grad_norm": 0.04264938458800316, "learning_rate": 0.00016622222222222223, "loss": 0.0134, "step": 380 }, { "epoch": 2.5666666666666664, "grad_norm": 0.027696378529071808, "learning_rate": 0.0001657777777777778, "loss": 0.0484, "step": 385 }, { "epoch": 2.6, "grad_norm": 1.1953566074371338, "learning_rate": 0.00016533333333333333, "loss": 0.0772, "step": 390 }, { "epoch": 2.6333333333333333, "grad_norm": 10.12171745300293, "learning_rate": 0.0001648888888888889, "loss": 0.043, "step": 395 }, { "epoch": 2.6666666666666665, "grad_norm": 0.0249788798391819, "learning_rate": 0.00016444444444444444, "loss": 0.0684, "step": 400 }, { "epoch": 2.6666666666666665, "eval_accuracy": 0.749795584627964, "eval_f1": 0.7541543297914958, "eval_loss": 1.312027096748352, "eval_precision": 0.7677446427174532, "eval_recall": 0.749795584627964, "eval_runtime": 9.2817, "eval_samples_per_second": 131.765, "eval_steps_per_second": 16.484, "step": 400 }, { "epoch": 2.7, "grad_norm": 0.05288528650999069, "learning_rate": 0.000164, "loss": 0.0163, "step": 405 }, { "epoch": 2.7333333333333334, "grad_norm": 0.08918259292840958, "learning_rate": 0.00016355555555555557, "loss": 0.0604, "step": 410 }, { "epoch": 2.7666666666666666, "grad_norm": 0.02850617840886116, "learning_rate": 0.00016311111111111113, "loss": 0.0088, "step": 415 }, { "epoch": 2.8, "grad_norm": 5.729062080383301, "learning_rate": 0.00016266666666666667, "loss": 0.0917, "step": 420 }, { "epoch": 2.8333333333333335, "grad_norm": 3.5297622680664062, "learning_rate": 0.00016222222222222224, "loss": 0.0154, "step": 425 }, { "epoch": 2.8666666666666667, "grad_norm": 5.2589545249938965, "learning_rate": 0.00016177777777777778, "loss": 0.0425, "step": 430 }, { "epoch": 2.9, "grad_norm": 2.901182174682617, "learning_rate": 0.00016133333333333334, "loss": 0.0281, "step": 435 }, { "epoch": 2.9333333333333336, "grad_norm": 0.03872682526707649, "learning_rate": 0.00016088888888888888, "loss": 0.0084, "step": 440 }, { "epoch": 2.966666666666667, "grad_norm": 0.4043828845024109, "learning_rate": 0.00016044444444444445, "loss": 0.0075, "step": 445 }, { "epoch": 3.0, "grad_norm": 0.02221594750881195, "learning_rate": 0.00016, "loss": 0.0628, "step": 450 }, { "epoch": 3.033333333333333, "grad_norm": 0.1697738617658615, "learning_rate": 0.00015955555555555558, "loss": 0.011, "step": 455 }, { "epoch": 3.066666666666667, "grad_norm": 0.0939481183886528, "learning_rate": 0.00015911111111111112, "loss": 0.0124, "step": 460 }, { "epoch": 3.1, "grad_norm": 0.07522204518318176, "learning_rate": 0.00015866666666666668, "loss": 0.0163, "step": 465 }, { "epoch": 3.1333333333333333, "grad_norm": 0.020110901445150375, "learning_rate": 0.00015822222222222222, "loss": 0.0292, "step": 470 }, { "epoch": 3.1666666666666665, "grad_norm": 1.9896477460861206, "learning_rate": 0.0001577777777777778, "loss": 0.2017, "step": 475 }, { "epoch": 3.2, "grad_norm": 0.11692311614751816, "learning_rate": 0.00015733333333333333, "loss": 0.1249, "step": 480 }, { "epoch": 3.2333333333333334, "grad_norm": 0.028463391587138176, "learning_rate": 0.00015688888888888892, "loss": 0.0188, "step": 485 }, { "epoch": 3.2666666666666666, "grad_norm": 2.623987913131714, "learning_rate": 0.00015644444444444446, "loss": 0.0862, "step": 490 }, { "epoch": 3.3, "grad_norm": 0.026013782247900963, "learning_rate": 0.00015600000000000002, "loss": 0.0087, "step": 495 }, { "epoch": 3.3333333333333335, "grad_norm": 5.446417808532715, "learning_rate": 0.00015555555555555556, "loss": 0.0543, "step": 500 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.7211774325429272, "eval_f1": 0.7291295249522087, "eval_loss": 1.4106178283691406, "eval_precision": 0.7428941917160019, "eval_recall": 0.7211774325429272, "eval_runtime": 9.4412, "eval_samples_per_second": 129.539, "eval_steps_per_second": 16.206, "step": 500 }, { "epoch": 3.3666666666666667, "grad_norm": 0.024610323831439018, "learning_rate": 0.00015511111111111113, "loss": 0.0072, "step": 505 }, { "epoch": 3.4, "grad_norm": 1.933373212814331, "learning_rate": 0.00015466666666666667, "loss": 0.0161, "step": 510 }, { "epoch": 3.4333333333333336, "grad_norm": 0.0238311979919672, "learning_rate": 0.00015422222222222223, "loss": 0.0754, "step": 515 }, { "epoch": 3.466666666666667, "grad_norm": 0.18166516721248627, "learning_rate": 0.00015377777777777777, "loss": 0.0074, "step": 520 }, { "epoch": 3.5, "grad_norm": 0.020352531224489212, "learning_rate": 0.00015333333333333334, "loss": 0.0348, "step": 525 }, { "epoch": 3.533333333333333, "grad_norm": 0.039215005934238434, "learning_rate": 0.0001528888888888889, "loss": 0.0343, "step": 530 }, { "epoch": 3.5666666666666664, "grad_norm": 0.017653727903962135, "learning_rate": 0.00015244444444444447, "loss": 0.0934, "step": 535 }, { "epoch": 3.6, "grad_norm": 0.06963596493005753, "learning_rate": 0.000152, "loss": 0.0073, "step": 540 }, { "epoch": 3.6333333333333333, "grad_norm": 0.19066433608531952, "learning_rate": 0.00015155555555555557, "loss": 0.0092, "step": 545 }, { "epoch": 3.6666666666666665, "grad_norm": 0.01571476273238659, "learning_rate": 0.0001511111111111111, "loss": 0.0119, "step": 550 }, { "epoch": 3.7, "grad_norm": 0.014897214248776436, "learning_rate": 0.00015066666666666668, "loss": 0.0332, "step": 555 }, { "epoch": 3.7333333333333334, "grad_norm": 0.06742005795240402, "learning_rate": 0.00015022222222222222, "loss": 0.0133, "step": 560 }, { "epoch": 3.7666666666666666, "grad_norm": 0.017108095809817314, "learning_rate": 0.00014977777777777778, "loss": 0.0143, "step": 565 }, { "epoch": 3.8, "grad_norm": 0.01465141773223877, "learning_rate": 0.00014933333333333335, "loss": 0.0208, "step": 570 }, { "epoch": 3.8333333333333335, "grad_norm": 3.026392936706543, "learning_rate": 0.0001488888888888889, "loss": 0.0277, "step": 575 }, { "epoch": 3.8666666666666667, "grad_norm": 0.014988885261118412, "learning_rate": 0.00014844444444444445, "loss": 0.0043, "step": 580 }, { "epoch": 3.9, "grad_norm": 1.3955732583999634, "learning_rate": 0.000148, "loss": 0.0228, "step": 585 }, { "epoch": 3.9333333333333336, "grad_norm": 0.016575433313846588, "learning_rate": 0.00014755555555555556, "loss": 0.0177, "step": 590 }, { "epoch": 3.966666666666667, "grad_norm": 0.017536483705043793, "learning_rate": 0.00014711111111111112, "loss": 0.0052, "step": 595 }, { "epoch": 4.0, "grad_norm": 0.014593478292226791, "learning_rate": 0.00014666666666666666, "loss": 0.0367, "step": 600 }, { "epoch": 4.0, "eval_accuracy": 0.7849550286181521, "eval_f1": 0.7868238166918363, "eval_loss": 0.9240317344665527, "eval_precision": 0.8052153722059937, "eval_recall": 0.7849550286181521, "eval_runtime": 9.3965, "eval_samples_per_second": 130.154, "eval_steps_per_second": 16.283, "step": 600 }, { "epoch": 4.033333333333333, "grad_norm": 0.020451590418815613, "learning_rate": 0.00014622222222222223, "loss": 0.0044, "step": 605 }, { "epoch": 4.066666666666666, "grad_norm": 6.841379642486572, "learning_rate": 0.0001457777777777778, "loss": 0.0186, "step": 610 }, { "epoch": 4.1, "grad_norm": 0.09812271595001221, "learning_rate": 0.00014533333333333333, "loss": 0.0067, "step": 615 }, { "epoch": 4.133333333333334, "grad_norm": 0.4420630633831024, "learning_rate": 0.0001448888888888889, "loss": 0.0075, "step": 620 }, { "epoch": 4.166666666666667, "grad_norm": 0.10162443667650223, "learning_rate": 0.00014444444444444444, "loss": 0.0664, "step": 625 }, { "epoch": 4.2, "grad_norm": 0.012035887688398361, "learning_rate": 0.000144, "loss": 0.0045, "step": 630 }, { "epoch": 4.233333333333333, "grad_norm": 7.507513523101807, "learning_rate": 0.00014355555555555554, "loss": 0.0692, "step": 635 }, { "epoch": 4.266666666666667, "grad_norm": 0.014461878687143326, "learning_rate": 0.0001431111111111111, "loss": 0.0037, "step": 640 }, { "epoch": 4.3, "grad_norm": 0.13024967908859253, "learning_rate": 0.00014266666666666667, "loss": 0.0072, "step": 645 }, { "epoch": 4.333333333333333, "grad_norm": 2.627122640609741, "learning_rate": 0.00014222222222222224, "loss": 0.1267, "step": 650 }, { "epoch": 4.366666666666666, "grad_norm": 3.218640089035034, "learning_rate": 0.00014177777777777778, "loss": 0.0553, "step": 655 }, { "epoch": 4.4, "grad_norm": 0.013306981883943081, "learning_rate": 0.00014133333333333334, "loss": 0.0627, "step": 660 }, { "epoch": 4.433333333333334, "grad_norm": 0.06666174530982971, "learning_rate": 0.00014088888888888888, "loss": 0.0191, "step": 665 }, { "epoch": 4.466666666666667, "grad_norm": 0.01409232523292303, "learning_rate": 0.00014044444444444445, "loss": 0.0039, "step": 670 }, { "epoch": 4.5, "grad_norm": 0.015611388720571995, "learning_rate": 0.00014, "loss": 0.0049, "step": 675 }, { "epoch": 4.533333333333333, "grad_norm": 0.011597520671784878, "learning_rate": 0.00013955555555555558, "loss": 0.0034, "step": 680 }, { "epoch": 4.566666666666666, "grad_norm": 0.17601154744625092, "learning_rate": 0.00013911111111111112, "loss": 0.0039, "step": 685 }, { "epoch": 4.6, "grad_norm": 0.012901077046990395, "learning_rate": 0.00013866666666666669, "loss": 0.0031, "step": 690 }, { "epoch": 4.633333333333333, "grad_norm": 0.010492375120520592, "learning_rate": 0.00013822222222222222, "loss": 0.0054, "step": 695 }, { "epoch": 4.666666666666667, "grad_norm": 0.010213322006165981, "learning_rate": 0.0001377777777777778, "loss": 0.0028, "step": 700 }, { "epoch": 4.666666666666667, "eval_accuracy": 0.8013082583810303, "eval_f1": 0.8036939187792203, "eval_loss": 0.9932844638824463, "eval_precision": 0.8130344554973152, "eval_recall": 0.8013082583810303, "eval_runtime": 9.4721, "eval_samples_per_second": 129.117, "eval_steps_per_second": 16.153, "step": 700 }, { "epoch": 4.7, "grad_norm": 0.08067324757575989, "learning_rate": 0.00013733333333333333, "loss": 0.0227, "step": 705 }, { "epoch": 4.733333333333333, "grad_norm": 0.011780601926147938, "learning_rate": 0.0001368888888888889, "loss": 0.0029, "step": 710 }, { "epoch": 4.766666666666667, "grad_norm": 0.017848921939730644, "learning_rate": 0.00013644444444444443, "loss": 0.0032, "step": 715 }, { "epoch": 4.8, "grad_norm": 0.010973521508276463, "learning_rate": 0.00013600000000000003, "loss": 0.0028, "step": 720 }, { "epoch": 4.833333333333333, "grad_norm": 0.009671928361058235, "learning_rate": 0.00013555555555555556, "loss": 0.0032, "step": 725 }, { "epoch": 4.866666666666667, "grad_norm": 0.009963875636458397, "learning_rate": 0.00013511111111111113, "loss": 0.0026, "step": 730 }, { "epoch": 4.9, "grad_norm": 0.009114675223827362, "learning_rate": 0.00013466666666666667, "loss": 0.0025, "step": 735 }, { "epoch": 4.933333333333334, "grad_norm": 0.009541342966258526, "learning_rate": 0.00013422222222222224, "loss": 0.0029, "step": 740 }, { "epoch": 4.966666666666667, "grad_norm": 0.008751188404858112, "learning_rate": 0.00013377777777777777, "loss": 0.0025, "step": 745 }, { "epoch": 5.0, "grad_norm": 0.33490607142448425, "learning_rate": 0.00013333333333333334, "loss": 0.0027, "step": 750 }, { "epoch": 5.033333333333333, "grad_norm": 0.010575389489531517, "learning_rate": 0.00013288888888888888, "loss": 0.0024, "step": 755 }, { "epoch": 5.066666666666666, "grad_norm": 0.013986650854349136, "learning_rate": 0.00013244444444444447, "loss": 0.0024, "step": 760 }, { "epoch": 5.1, "grad_norm": 0.008832004852592945, "learning_rate": 0.000132, "loss": 0.0023, "step": 765 }, { "epoch": 5.133333333333334, "grad_norm": 0.008698895573616028, "learning_rate": 0.00013155555555555558, "loss": 0.0023, "step": 770 }, { "epoch": 5.166666666666667, "grad_norm": 0.008697431534528732, "learning_rate": 0.00013111111111111111, "loss": 0.0024, "step": 775 }, { "epoch": 5.2, "grad_norm": 0.008482260629534721, "learning_rate": 0.00013066666666666668, "loss": 0.0022, "step": 780 }, { "epoch": 5.233333333333333, "grad_norm": 0.008794802241027355, "learning_rate": 0.00013022222222222222, "loss": 0.0022, "step": 785 }, { "epoch": 5.266666666666667, "grad_norm": 0.007856791839003563, "learning_rate": 0.00012977777777777779, "loss": 0.0022, "step": 790 }, { "epoch": 5.3, "grad_norm": 0.007694966625422239, "learning_rate": 0.00012933333333333332, "loss": 0.016, "step": 795 }, { "epoch": 5.333333333333333, "grad_norm": 0.008952612988650799, "learning_rate": 0.00012888888888888892, "loss": 0.0023, "step": 800 }, { "epoch": 5.333333333333333, "eval_accuracy": 0.7964022894521668, "eval_f1": 0.8022583322280559, "eval_loss": 1.1196119785308838, "eval_precision": 0.8139928163771295, "eval_recall": 0.7964022894521668, "eval_runtime": 9.3449, "eval_samples_per_second": 130.874, "eval_steps_per_second": 16.373, "step": 800 }, { "epoch": 5.366666666666666, "grad_norm": 0.008595213294029236, "learning_rate": 0.00012844444444444446, "loss": 0.0126, "step": 805 }, { "epoch": 5.4, "grad_norm": 0.00808642990887165, "learning_rate": 0.00012800000000000002, "loss": 0.0062, "step": 810 }, { "epoch": 5.433333333333334, "grad_norm": 0.007648410741239786, "learning_rate": 0.00012755555555555556, "loss": 0.0031, "step": 815 }, { "epoch": 5.466666666666667, "grad_norm": 0.007806297857314348, "learning_rate": 0.00012711111111111113, "loss": 0.0037, "step": 820 }, { "epoch": 5.5, "grad_norm": 0.009265730157494545, "learning_rate": 0.00012666666666666666, "loss": 0.0022, "step": 825 }, { "epoch": 5.533333333333333, "grad_norm": 0.0076696244068443775, "learning_rate": 0.00012622222222222223, "loss": 0.035, "step": 830 }, { "epoch": 5.566666666666666, "grad_norm": 0.010296953842043877, "learning_rate": 0.0001257777777777778, "loss": 0.0024, "step": 835 }, { "epoch": 5.6, "grad_norm": 5.601916790008545, "learning_rate": 0.00012533333333333334, "loss": 0.0554, "step": 840 }, { "epoch": 5.633333333333333, "grad_norm": 0.028704477474093437, "learning_rate": 0.0001248888888888889, "loss": 0.0023, "step": 845 }, { "epoch": 5.666666666666667, "grad_norm": 0.2514047622680664, "learning_rate": 0.00012444444444444444, "loss": 0.0033, "step": 850 }, { "epoch": 5.7, "grad_norm": 2.7498652935028076, "learning_rate": 0.000124, "loss": 0.0728, "step": 855 }, { "epoch": 5.733333333333333, "grad_norm": 0.007762385066598654, "learning_rate": 0.00012355555555555557, "loss": 0.0061, "step": 860 }, { "epoch": 5.766666666666667, "grad_norm": 0.010998444631695747, "learning_rate": 0.0001231111111111111, "loss": 0.0249, "step": 865 }, { "epoch": 5.8, "grad_norm": 2.299119710922241, "learning_rate": 0.00012266666666666668, "loss": 0.0234, "step": 870 }, { "epoch": 5.833333333333333, "grad_norm": 0.01507493294775486, "learning_rate": 0.00012222222222222224, "loss": 0.0023, "step": 875 }, { "epoch": 5.866666666666667, "grad_norm": 0.008109796792268753, "learning_rate": 0.0001217777777777778, "loss": 0.0051, "step": 880 }, { "epoch": 5.9, "grad_norm": 0.03557858616113663, "learning_rate": 0.00012133333333333335, "loss": 0.0086, "step": 885 }, { "epoch": 5.933333333333334, "grad_norm": 0.00888363178819418, "learning_rate": 0.0001208888888888889, "loss": 0.004, "step": 890 }, { "epoch": 5.966666666666667, "grad_norm": 0.020424125716090202, "learning_rate": 0.00012044444444444445, "loss": 0.0375, "step": 895 }, { "epoch": 6.0, "grad_norm": 0.0076409936882555485, "learning_rate": 0.00012, "loss": 0.0279, "step": 900 }, { "epoch": 6.0, "eval_accuracy": 0.7825020441537204, "eval_f1": 0.7741608038678153, "eval_loss": 1.133772850036621, "eval_precision": 0.8063287384876495, "eval_recall": 0.7825020441537204, "eval_runtime": 9.2712, "eval_samples_per_second": 131.914, "eval_steps_per_second": 16.503, "step": 900 }, { "epoch": 6.033333333333333, "grad_norm": 0.8966134786605835, "learning_rate": 0.00011955555555555556, "loss": 0.0053, "step": 905 }, { "epoch": 6.066666666666666, "grad_norm": 0.034663017839193344, "learning_rate": 0.00011911111111111111, "loss": 0.0023, "step": 910 }, { "epoch": 6.1, "grad_norm": 0.012478928081691265, "learning_rate": 0.00011866666666666669, "loss": 0.0021, "step": 915 }, { "epoch": 6.133333333333334, "grad_norm": 0.5358495712280273, "learning_rate": 0.00011822222222222224, "loss": 0.0941, "step": 920 }, { "epoch": 6.166666666666667, "grad_norm": 0.008911516517400742, "learning_rate": 0.00011777777777777779, "loss": 0.0033, "step": 925 }, { "epoch": 6.2, "grad_norm": 0.017834829166531563, "learning_rate": 0.00011733333333333334, "loss": 0.0025, "step": 930 }, { "epoch": 6.233333333333333, "grad_norm": 0.015017377212643623, "learning_rate": 0.0001168888888888889, "loss": 0.0028, "step": 935 }, { "epoch": 6.266666666666667, "grad_norm": 0.022186744958162308, "learning_rate": 0.00011644444444444445, "loss": 0.0032, "step": 940 }, { "epoch": 6.3, "grad_norm": 0.016789505258202553, "learning_rate": 0.000116, "loss": 0.0029, "step": 945 }, { "epoch": 6.333333333333333, "grad_norm": 0.034094952046871185, "learning_rate": 0.00011555555555555555, "loss": 0.0026, "step": 950 }, { "epoch": 6.366666666666666, "grad_norm": 0.014549455605447292, "learning_rate": 0.00011511111111111112, "loss": 0.0025, "step": 955 }, { "epoch": 6.4, "grad_norm": 0.007454134989529848, "learning_rate": 0.00011466666666666667, "loss": 0.0215, "step": 960 }, { "epoch": 6.433333333333334, "grad_norm": 0.1704510897397995, "learning_rate": 0.00011422222222222224, "loss": 0.0037, "step": 965 }, { "epoch": 6.466666666666667, "grad_norm": 0.008647428825497627, "learning_rate": 0.00011377777777777779, "loss": 0.0019, "step": 970 }, { "epoch": 6.5, "grad_norm": 0.014437275938689709, "learning_rate": 0.00011333333333333334, "loss": 0.0405, "step": 975 }, { "epoch": 6.533333333333333, "grad_norm": 0.007539108395576477, "learning_rate": 0.0001128888888888889, "loss": 0.0038, "step": 980 }, { "epoch": 6.566666666666666, "grad_norm": 0.039825908839702606, "learning_rate": 0.00011244444444444445, "loss": 0.0023, "step": 985 }, { "epoch": 6.6, "grad_norm": 4.294530868530273, "learning_rate": 0.00011200000000000001, "loss": 0.0372, "step": 990 }, { "epoch": 6.633333333333333, "grad_norm": 2.1692311763763428, "learning_rate": 0.00011155555555555556, "loss": 0.0046, "step": 995 }, { "epoch": 6.666666666666667, "grad_norm": 4.187679290771484, "learning_rate": 0.00011111111111111112, "loss": 0.0351, "step": 1000 }, { "epoch": 6.666666666666667, "eval_accuracy": 0.8045789043336059, "eval_f1": 0.7990342261477594, "eval_loss": 1.2453088760375977, "eval_precision": 0.8289001549998823, "eval_recall": 0.8045789043336059, "eval_runtime": 9.4826, "eval_samples_per_second": 128.973, "eval_steps_per_second": 16.135, "step": 1000 }, { "epoch": 6.7, "grad_norm": 0.007894905284047127, "learning_rate": 0.00011066666666666667, "loss": 0.0018, "step": 1005 }, { "epoch": 6.733333333333333, "grad_norm": 0.010676858946681023, "learning_rate": 0.00011022222222222222, "loss": 0.0203, "step": 1010 }, { "epoch": 6.766666666666667, "grad_norm": 0.027978340163826942, "learning_rate": 0.00010977777777777777, "loss": 0.0552, "step": 1015 }, { "epoch": 6.8, "grad_norm": 0.0284085925668478, "learning_rate": 0.00010933333333333333, "loss": 0.0019, "step": 1020 }, { "epoch": 6.833333333333333, "grad_norm": 0.0067587061785161495, "learning_rate": 0.00010888888888888889, "loss": 0.002, "step": 1025 }, { "epoch": 6.866666666666667, "grad_norm": 4.532005310058594, "learning_rate": 0.00010844444444444446, "loss": 0.0273, "step": 1030 }, { "epoch": 6.9, "grad_norm": 0.006512748077511787, "learning_rate": 0.00010800000000000001, "loss": 0.0031, "step": 1035 }, { "epoch": 6.933333333333334, "grad_norm": 0.005924213211983442, "learning_rate": 0.00010755555555555556, "loss": 0.0017, "step": 1040 }, { "epoch": 6.966666666666667, "grad_norm": 0.006566210184246302, "learning_rate": 0.00010711111111111111, "loss": 0.0016, "step": 1045 }, { "epoch": 7.0, "grad_norm": 0.006627542898058891, "learning_rate": 0.00010666666666666667, "loss": 0.0016, "step": 1050 }, { "epoch": 7.033333333333333, "grad_norm": 0.00795068871229887, "learning_rate": 0.00010622222222222222, "loss": 0.0017, "step": 1055 }, { "epoch": 7.066666666666666, "grad_norm": 0.006858578883111477, "learning_rate": 0.00010577777777777777, "loss": 0.0016, "step": 1060 }, { "epoch": 7.1, "grad_norm": 0.005427524447441101, "learning_rate": 0.00010533333333333332, "loss": 0.0067, "step": 1065 }, { "epoch": 7.133333333333334, "grad_norm": 0.006280931178480387, "learning_rate": 0.0001048888888888889, "loss": 0.0015, "step": 1070 }, { "epoch": 7.166666666666667, "grad_norm": 0.00546739948913455, "learning_rate": 0.00010444444444444445, "loss": 0.0018, "step": 1075 }, { "epoch": 7.2, "grad_norm": 0.005631685256958008, "learning_rate": 0.00010400000000000001, "loss": 0.0017, "step": 1080 }, { "epoch": 7.233333333333333, "grad_norm": 0.005465181544423103, "learning_rate": 0.00010355555555555556, "loss": 0.0015, "step": 1085 }, { "epoch": 7.266666666666667, "grad_norm": 0.006053004413843155, "learning_rate": 0.00010311111111111111, "loss": 0.0389, "step": 1090 }, { "epoch": 7.3, "grad_norm": 0.006222607102245092, "learning_rate": 0.00010266666666666666, "loss": 0.0014, "step": 1095 }, { "epoch": 7.333333333333333, "grad_norm": 0.006085546221584082, "learning_rate": 0.00010222222222222222, "loss": 0.0015, "step": 1100 }, { "epoch": 7.333333333333333, "eval_accuracy": 0.7833197056418643, "eval_f1": 0.7820582214952028, "eval_loss": 1.4901751279830933, "eval_precision": 0.8109865240049464, "eval_recall": 0.7833197056418643, "eval_runtime": 9.3025, "eval_samples_per_second": 131.47, "eval_steps_per_second": 16.447, "step": 1100 }, { "epoch": 7.366666666666666, "grad_norm": 0.005763140507042408, "learning_rate": 0.00010177777777777777, "loss": 0.0015, "step": 1105 }, { "epoch": 7.4, "grad_norm": 0.005408145487308502, "learning_rate": 0.00010133333333333335, "loss": 0.0014, "step": 1110 }, { "epoch": 7.433333333333334, "grad_norm": 0.009298298507928848, "learning_rate": 0.0001008888888888889, "loss": 0.0015, "step": 1115 }, { "epoch": 7.466666666666667, "grad_norm": 0.019352758303284645, "learning_rate": 0.00010044444444444445, "loss": 0.0015, "step": 1120 }, { "epoch": 7.5, "grad_norm": 0.043288618326187134, "learning_rate": 0.0001, "loss": 0.0016, "step": 1125 }, { "epoch": 7.533333333333333, "grad_norm": 0.005793672986328602, "learning_rate": 9.955555555555556e-05, "loss": 0.0016, "step": 1130 }, { "epoch": 7.566666666666666, "grad_norm": 0.005141023080796003, "learning_rate": 9.911111111111112e-05, "loss": 0.0014, "step": 1135 }, { "epoch": 7.6, "grad_norm": 0.005485700909048319, "learning_rate": 9.866666666666668e-05, "loss": 0.0013, "step": 1140 }, { "epoch": 7.633333333333333, "grad_norm": 0.005059640388935804, "learning_rate": 9.822222222222223e-05, "loss": 0.0014, "step": 1145 }, { "epoch": 7.666666666666667, "grad_norm": 0.004725410602986813, "learning_rate": 9.777777777777778e-05, "loss": 0.0013, "step": 1150 }, { "epoch": 7.7, "grad_norm": 0.004962701816111803, "learning_rate": 9.733333333333335e-05, "loss": 0.0013, "step": 1155 }, { "epoch": 7.733333333333333, "grad_norm": 0.004624045919626951, "learning_rate": 9.68888888888889e-05, "loss": 0.0013, "step": 1160 }, { "epoch": 7.766666666666667, "grad_norm": 0.005088322795927525, "learning_rate": 9.644444444444445e-05, "loss": 0.0013, "step": 1165 }, { "epoch": 7.8, "grad_norm": 0.005642300006002188, "learning_rate": 9.6e-05, "loss": 0.0013, "step": 1170 }, { "epoch": 7.833333333333333, "grad_norm": 0.004932830110192299, "learning_rate": 9.555555555555557e-05, "loss": 0.0012, "step": 1175 }, { "epoch": 7.866666666666667, "grad_norm": 0.004749774932861328, "learning_rate": 9.511111111111112e-05, "loss": 0.0012, "step": 1180 }, { "epoch": 7.9, "grad_norm": 0.00473632849752903, "learning_rate": 9.466666666666667e-05, "loss": 0.0012, "step": 1185 }, { "epoch": 7.933333333333334, "grad_norm": 0.01228378526866436, "learning_rate": 9.422222222222223e-05, "loss": 0.0012, "step": 1190 }, { "epoch": 7.966666666666667, "grad_norm": 0.005135438404977322, "learning_rate": 9.377777777777779e-05, "loss": 0.0012, "step": 1195 }, { "epoch": 8.0, "grad_norm": 0.004550182726234198, "learning_rate": 9.333333333333334e-05, "loss": 0.0012, "step": 1200 }, { "epoch": 8.0, "eval_accuracy": 0.7816843826655765, "eval_f1": 0.7800818649085192, "eval_loss": 1.5158230066299438, "eval_precision": 0.8050176171143412, "eval_recall": 0.7816843826655765, "eval_runtime": 9.189, "eval_samples_per_second": 133.094, "eval_steps_per_second": 16.65, "step": 1200 }, { "epoch": 8.033333333333333, "grad_norm": 0.00416143424808979, "learning_rate": 9.28888888888889e-05, "loss": 0.0012, "step": 1205 }, { "epoch": 8.066666666666666, "grad_norm": 0.004244188312441111, "learning_rate": 9.244444444444445e-05, "loss": 0.0012, "step": 1210 }, { "epoch": 8.1, "grad_norm": 0.004512954968959093, "learning_rate": 9.200000000000001e-05, "loss": 0.0011, "step": 1215 }, { "epoch": 8.133333333333333, "grad_norm": 0.004332539159804583, "learning_rate": 9.155555555555557e-05, "loss": 0.0012, "step": 1220 }, { "epoch": 8.166666666666666, "grad_norm": 0.004415786825120449, "learning_rate": 9.111111111111112e-05, "loss": 0.0011, "step": 1225 }, { "epoch": 8.2, "grad_norm": 0.004247121512889862, "learning_rate": 9.066666666666667e-05, "loss": 0.0011, "step": 1230 }, { "epoch": 8.233333333333333, "grad_norm": 0.004346610512584448, "learning_rate": 9.022222222222224e-05, "loss": 0.0011, "step": 1235 }, { "epoch": 8.266666666666667, "grad_norm": 0.004447505343705416, "learning_rate": 8.977777777777779e-05, "loss": 0.0011, "step": 1240 }, { "epoch": 8.3, "grad_norm": 0.004024645313620567, "learning_rate": 8.933333333333334e-05, "loss": 0.0011, "step": 1245 }, { "epoch": 8.333333333333334, "grad_norm": 0.004037043545395136, "learning_rate": 8.888888888888889e-05, "loss": 0.0011, "step": 1250 }, { "epoch": 8.366666666666667, "grad_norm": 0.004065011627972126, "learning_rate": 8.844444444444445e-05, "loss": 0.0011, "step": 1255 }, { "epoch": 8.4, "grad_norm": 0.004414187278598547, "learning_rate": 8.800000000000001e-05, "loss": 0.0011, "step": 1260 }, { "epoch": 8.433333333333334, "grad_norm": 0.004235251806676388, "learning_rate": 8.755555555555556e-05, "loss": 0.0011, "step": 1265 }, { "epoch": 8.466666666666667, "grad_norm": 0.004097008612006903, "learning_rate": 8.711111111111112e-05, "loss": 0.0011, "step": 1270 }, { "epoch": 8.5, "grad_norm": 0.004114267881959677, "learning_rate": 8.666666666666667e-05, "loss": 0.0011, "step": 1275 }, { "epoch": 8.533333333333333, "grad_norm": 0.004423665348440409, "learning_rate": 8.622222222222222e-05, "loss": 0.0011, "step": 1280 }, { "epoch": 8.566666666666666, "grad_norm": 0.0042780255898833275, "learning_rate": 8.577777777777777e-05, "loss": 0.0011, "step": 1285 }, { "epoch": 8.6, "grad_norm": 0.00462974701076746, "learning_rate": 8.533333333333334e-05, "loss": 0.0011, "step": 1290 }, { "epoch": 8.633333333333333, "grad_norm": 0.003956995438784361, "learning_rate": 8.488888888888889e-05, "loss": 0.001, "step": 1295 }, { "epoch": 8.666666666666666, "grad_norm": 0.003911512438207865, "learning_rate": 8.444444444444444e-05, "loss": 0.001, "step": 1300 }, { "epoch": 8.666666666666666, "eval_accuracy": 0.777596075224857, "eval_f1": 0.7764686724342618, "eval_loss": 1.5460529327392578, "eval_precision": 0.798946414786333, "eval_recall": 0.777596075224857, "eval_runtime": 9.8681, "eval_samples_per_second": 123.934, "eval_steps_per_second": 15.504, "step": 1300 }, { "epoch": 8.7, "grad_norm": 0.004035374149680138, "learning_rate": 8.4e-05, "loss": 0.001, "step": 1305 }, { "epoch": 8.733333333333333, "grad_norm": 0.00391809968277812, "learning_rate": 8.355555555555556e-05, "loss": 0.001, "step": 1310 }, { "epoch": 8.766666666666667, "grad_norm": 0.003872338682413101, "learning_rate": 8.311111111111111e-05, "loss": 0.001, "step": 1315 }, { "epoch": 8.8, "grad_norm": 0.0037382871378213167, "learning_rate": 8.266666666666667e-05, "loss": 0.001, "step": 1320 }, { "epoch": 8.833333333333334, "grad_norm": 0.004343594424426556, "learning_rate": 8.222222222222222e-05, "loss": 0.001, "step": 1325 }, { "epoch": 8.866666666666667, "grad_norm": 0.003952800761908293, "learning_rate": 8.177777777777778e-05, "loss": 0.001, "step": 1330 }, { "epoch": 8.9, "grad_norm": 0.004135242197662592, "learning_rate": 8.133333333333334e-05, "loss": 0.001, "step": 1335 }, { "epoch": 8.933333333333334, "grad_norm": 0.004404537845402956, "learning_rate": 8.088888888888889e-05, "loss": 0.001, "step": 1340 }, { "epoch": 8.966666666666667, "grad_norm": 0.0037200716324150562, "learning_rate": 8.044444444444444e-05, "loss": 0.001, "step": 1345 }, { "epoch": 9.0, "grad_norm": 0.0037759095430374146, "learning_rate": 8e-05, "loss": 0.001, "step": 1350 }, { "epoch": 9.033333333333333, "grad_norm": 0.0038882188964635134, "learning_rate": 7.955555555555556e-05, "loss": 0.001, "step": 1355 }, { "epoch": 9.066666666666666, "grad_norm": 0.003733280813321471, "learning_rate": 7.911111111111111e-05, "loss": 0.001, "step": 1360 }, { "epoch": 9.1, "grad_norm": 0.0037556043826043606, "learning_rate": 7.866666666666666e-05, "loss": 0.001, "step": 1365 }, { "epoch": 9.133333333333333, "grad_norm": 0.0037080366164445877, "learning_rate": 7.822222222222223e-05, "loss": 0.001, "step": 1370 }, { "epoch": 9.166666666666666, "grad_norm": 0.0035952238831669092, "learning_rate": 7.777777777777778e-05, "loss": 0.0009, "step": 1375 }, { "epoch": 9.2, "grad_norm": 0.003683211514726281, "learning_rate": 7.733333333333333e-05, "loss": 0.001, "step": 1380 }, { "epoch": 9.233333333333333, "grad_norm": 0.003675643354654312, "learning_rate": 7.688888888888889e-05, "loss": 0.001, "step": 1385 }, { "epoch": 9.266666666666667, "grad_norm": 0.0034651095047593117, "learning_rate": 7.644444444444445e-05, "loss": 0.0009, "step": 1390 }, { "epoch": 9.3, "grad_norm": 0.0037952319253236055, "learning_rate": 7.6e-05, "loss": 0.0009, "step": 1395 }, { "epoch": 9.333333333333334, "grad_norm": 0.0034476493019610643, "learning_rate": 7.555555555555556e-05, "loss": 0.0009, "step": 1400 }, { "epoch": 9.333333333333334, "eval_accuracy": 0.7735077677841373, "eval_f1": 0.7727537030177994, "eval_loss": 1.5690993070602417, "eval_precision": 0.7929701316436307, "eval_recall": 0.7735077677841373, "eval_runtime": 9.5482, "eval_samples_per_second": 128.087, "eval_steps_per_second": 16.024, "step": 1400 }, { "epoch": 9.366666666666667, "grad_norm": 0.003446423914283514, "learning_rate": 7.511111111111111e-05, "loss": 0.0009, "step": 1405 }, { "epoch": 9.4, "grad_norm": 0.003673956962302327, "learning_rate": 7.466666666666667e-05, "loss": 0.0009, "step": 1410 }, { "epoch": 9.433333333333334, "grad_norm": 0.003591677872464061, "learning_rate": 7.422222222222223e-05, "loss": 0.0009, "step": 1415 }, { "epoch": 9.466666666666667, "grad_norm": 0.003769718110561371, "learning_rate": 7.377777777777778e-05, "loss": 0.0009, "step": 1420 }, { "epoch": 9.5, "grad_norm": 0.003360811388120055, "learning_rate": 7.333333333333333e-05, "loss": 0.0009, "step": 1425 }, { "epoch": 9.533333333333333, "grad_norm": 0.0036586588248610497, "learning_rate": 7.28888888888889e-05, "loss": 0.0009, "step": 1430 }, { "epoch": 9.566666666666666, "grad_norm": 0.0034733579959720373, "learning_rate": 7.244444444444445e-05, "loss": 0.0009, "step": 1435 }, { "epoch": 9.6, "grad_norm": 0.0036103902384638786, "learning_rate": 7.2e-05, "loss": 0.0009, "step": 1440 }, { "epoch": 9.633333333333333, "grad_norm": 0.0035011570435017347, "learning_rate": 7.155555555555555e-05, "loss": 0.0009, "step": 1445 }, { "epoch": 9.666666666666666, "grad_norm": 0.003454685676842928, "learning_rate": 7.111111111111112e-05, "loss": 0.0009, "step": 1450 }, { "epoch": 9.7, "grad_norm": 0.00331727578304708, "learning_rate": 7.066666666666667e-05, "loss": 0.0009, "step": 1455 }, { "epoch": 9.733333333333333, "grad_norm": 0.0035866328980773687, "learning_rate": 7.022222222222222e-05, "loss": 0.0009, "step": 1460 }, { "epoch": 9.766666666666667, "grad_norm": 0.003194958670064807, "learning_rate": 6.977777777777779e-05, "loss": 0.0009, "step": 1465 }, { "epoch": 9.8, "grad_norm": 0.0035320280585438013, "learning_rate": 6.933333333333334e-05, "loss": 0.0009, "step": 1470 }, { "epoch": 9.833333333333334, "grad_norm": 0.003377894638106227, "learning_rate": 6.88888888888889e-05, "loss": 0.0009, "step": 1475 }, { "epoch": 9.866666666666667, "grad_norm": 0.003841049736365676, "learning_rate": 6.844444444444445e-05, "loss": 0.0009, "step": 1480 }, { "epoch": 9.9, "grad_norm": 0.0033852087799459696, "learning_rate": 6.800000000000001e-05, "loss": 0.0009, "step": 1485 }, { "epoch": 9.933333333333334, "grad_norm": 0.0032866843976080418, "learning_rate": 6.755555555555557e-05, "loss": 0.0009, "step": 1490 }, { "epoch": 9.966666666666667, "grad_norm": 0.0033609827514737844, "learning_rate": 6.711111111111112e-05, "loss": 0.0009, "step": 1495 }, { "epoch": 10.0, "grad_norm": 0.0032553670462220907, "learning_rate": 6.666666666666667e-05, "loss": 0.0009, "step": 1500 }, { "epoch": 10.0, "eval_accuracy": 0.7743254292722813, "eval_f1": 0.7734574390688117, "eval_loss": 1.5899419784545898, "eval_precision": 0.7934879929788498, "eval_recall": 0.7743254292722813, "eval_runtime": 9.222, "eval_samples_per_second": 132.618, "eval_steps_per_second": 16.591, "step": 1500 }, { "epoch": 10.033333333333333, "grad_norm": 0.003116806736215949, "learning_rate": 6.622222222222224e-05, "loss": 0.0008, "step": 1505 }, { "epoch": 10.066666666666666, "grad_norm": 0.0032896501943469048, "learning_rate": 6.577777777777779e-05, "loss": 0.0008, "step": 1510 }, { "epoch": 10.1, "grad_norm": 0.0031541353091597557, "learning_rate": 6.533333333333334e-05, "loss": 0.0008, "step": 1515 }, { "epoch": 10.133333333333333, "grad_norm": 0.0036354006733745337, "learning_rate": 6.488888888888889e-05, "loss": 0.0008, "step": 1520 }, { "epoch": 10.166666666666666, "grad_norm": 0.003736860118806362, "learning_rate": 6.444444444444446e-05, "loss": 0.0008, "step": 1525 }, { "epoch": 10.2, "grad_norm": 0.0032640716526657343, "learning_rate": 6.400000000000001e-05, "loss": 0.0008, "step": 1530 }, { "epoch": 10.233333333333333, "grad_norm": 0.004017044324427843, "learning_rate": 6.355555555555556e-05, "loss": 0.0008, "step": 1535 }, { "epoch": 10.266666666666667, "grad_norm": 0.0031171345617622137, "learning_rate": 6.311111111111112e-05, "loss": 0.0008, "step": 1540 }, { "epoch": 10.3, "grad_norm": 0.0031369023490697145, "learning_rate": 6.266666666666667e-05, "loss": 0.0008, "step": 1545 }, { "epoch": 10.333333333333334, "grad_norm": 0.0030869832262396812, "learning_rate": 6.222222222222222e-05, "loss": 0.0008, "step": 1550 }, { "epoch": 10.366666666666667, "grad_norm": 0.003045846940949559, "learning_rate": 6.177777777777779e-05, "loss": 0.0008, "step": 1555 }, { "epoch": 10.4, "grad_norm": 0.0030320321675390005, "learning_rate": 6.133333333333334e-05, "loss": 0.0008, "step": 1560 }, { "epoch": 10.433333333333334, "grad_norm": 0.003123966511338949, "learning_rate": 6.08888888888889e-05, "loss": 0.0008, "step": 1565 }, { "epoch": 10.466666666666667, "grad_norm": 0.003065904602408409, "learning_rate": 6.044444444444445e-05, "loss": 0.0008, "step": 1570 }, { "epoch": 10.5, "grad_norm": 0.0030088257044553757, "learning_rate": 6e-05, "loss": 0.0008, "step": 1575 }, { "epoch": 10.533333333333333, "grad_norm": 0.003136155428364873, "learning_rate": 5.9555555555555554e-05, "loss": 0.0008, "step": 1580 }, { "epoch": 10.566666666666666, "grad_norm": 0.0030882905703037977, "learning_rate": 5.911111111111112e-05, "loss": 0.0008, "step": 1585 }, { "epoch": 10.6, "grad_norm": 0.0028878552839159966, "learning_rate": 5.866666666666667e-05, "loss": 0.0008, "step": 1590 }, { "epoch": 10.633333333333333, "grad_norm": 0.003057357156649232, "learning_rate": 5.8222222222222224e-05, "loss": 0.0008, "step": 1595 }, { "epoch": 10.666666666666666, "grad_norm": 0.0030185848008841276, "learning_rate": 5.7777777777777776e-05, "loss": 0.0008, "step": 1600 }, { "epoch": 10.666666666666666, "eval_accuracy": 0.7735077677841373, "eval_f1": 0.7731117531111902, "eval_loss": 1.6074354648590088, "eval_precision": 0.792706325211593, "eval_recall": 0.7735077677841373, "eval_runtime": 9.4501, "eval_samples_per_second": 129.416, "eval_steps_per_second": 16.19, "step": 1600 }, { "epoch": 10.7, "grad_norm": 0.003177797654643655, "learning_rate": 5.7333333333333336e-05, "loss": 0.0008, "step": 1605 }, { "epoch": 10.733333333333333, "grad_norm": 0.0030667181126773357, "learning_rate": 5.6888888888888895e-05, "loss": 0.0008, "step": 1610 }, { "epoch": 10.766666666666667, "grad_norm": 0.0030277275945991278, "learning_rate": 5.644444444444445e-05, "loss": 0.0008, "step": 1615 }, { "epoch": 10.8, "grad_norm": 0.0030300156213343143, "learning_rate": 5.6000000000000006e-05, "loss": 0.0008, "step": 1620 }, { "epoch": 10.833333333333334, "grad_norm": 0.0031020892783999443, "learning_rate": 5.555555555555556e-05, "loss": 0.0008, "step": 1625 }, { "epoch": 10.866666666666667, "grad_norm": 0.003113708458840847, "learning_rate": 5.511111111111111e-05, "loss": 0.0008, "step": 1630 }, { "epoch": 10.9, "grad_norm": 0.0029262960888445377, "learning_rate": 5.466666666666666e-05, "loss": 0.0008, "step": 1635 }, { "epoch": 10.933333333333334, "grad_norm": 0.0029111423064023256, "learning_rate": 5.422222222222223e-05, "loss": 0.0008, "step": 1640 }, { "epoch": 10.966666666666667, "grad_norm": 0.002903235610574484, "learning_rate": 5.377777777777778e-05, "loss": 0.0008, "step": 1645 }, { "epoch": 11.0, "grad_norm": 0.002818668494001031, "learning_rate": 5.333333333333333e-05, "loss": 0.0008, "step": 1650 }, { "epoch": 11.033333333333333, "grad_norm": 0.0030736501794308424, "learning_rate": 5.2888888888888885e-05, "loss": 0.0008, "step": 1655 }, { "epoch": 11.066666666666666, "grad_norm": 0.0028864352498203516, "learning_rate": 5.244444444444445e-05, "loss": 0.0008, "step": 1660 }, { "epoch": 11.1, "grad_norm": 0.0029244362376630306, "learning_rate": 5.2000000000000004e-05, "loss": 0.0008, "step": 1665 }, { "epoch": 11.133333333333333, "grad_norm": 0.0028008189983665943, "learning_rate": 5.1555555555555556e-05, "loss": 0.0007, "step": 1670 }, { "epoch": 11.166666666666666, "grad_norm": 0.002814839594066143, "learning_rate": 5.111111111111111e-05, "loss": 0.0008, "step": 1675 }, { "epoch": 11.2, "grad_norm": 0.002770839026197791, "learning_rate": 5.0666666666666674e-05, "loss": 0.0007, "step": 1680 }, { "epoch": 11.233333333333333, "grad_norm": 0.0027727202977985144, "learning_rate": 5.0222222222222226e-05, "loss": 0.0007, "step": 1685 }, { "epoch": 11.266666666666667, "grad_norm": 0.0028954206500202417, "learning_rate": 4.977777777777778e-05, "loss": 0.0007, "step": 1690 }, { "epoch": 11.3, "grad_norm": 0.0030258905608206987, "learning_rate": 4.933333333333334e-05, "loss": 0.0008, "step": 1695 }, { "epoch": 11.333333333333334, "grad_norm": 0.0027040389832109213, "learning_rate": 4.888888888888889e-05, "loss": 0.0007, "step": 1700 }, { "epoch": 11.333333333333334, "eval_accuracy": 0.7735077677841373, "eval_f1": 0.7731117531111902, "eval_loss": 1.6235299110412598, "eval_precision": 0.792706325211593, "eval_recall": 0.7735077677841373, "eval_runtime": 9.5245, "eval_samples_per_second": 128.405, "eval_steps_per_second": 16.064, "step": 1700 }, { "epoch": 11.366666666666667, "grad_norm": 0.002889234572649002, "learning_rate": 4.844444444444445e-05, "loss": 0.0007, "step": 1705 }, { "epoch": 11.4, "grad_norm": 0.0028638297226279974, "learning_rate": 4.8e-05, "loss": 0.0007, "step": 1710 }, { "epoch": 11.433333333333334, "grad_norm": 0.0027106411289423704, "learning_rate": 4.755555555555556e-05, "loss": 0.0007, "step": 1715 }, { "epoch": 11.466666666666667, "grad_norm": 0.0027717831544578075, "learning_rate": 4.711111111111111e-05, "loss": 0.0007, "step": 1720 }, { "epoch": 11.5, "grad_norm": 0.002852600533515215, "learning_rate": 4.666666666666667e-05, "loss": 0.0007, "step": 1725 }, { "epoch": 11.533333333333333, "grad_norm": 0.002929126378148794, "learning_rate": 4.6222222222222224e-05, "loss": 0.0007, "step": 1730 }, { "epoch": 11.566666666666666, "grad_norm": 0.002826239448040724, "learning_rate": 4.577777777777778e-05, "loss": 0.0007, "step": 1735 }, { "epoch": 11.6, "grad_norm": 0.002955881878733635, "learning_rate": 4.5333333333333335e-05, "loss": 0.0007, "step": 1740 }, { "epoch": 11.633333333333333, "grad_norm": 0.0026872733142226934, "learning_rate": 4.4888888888888894e-05, "loss": 0.0007, "step": 1745 }, { "epoch": 11.666666666666666, "grad_norm": 0.0028181050438433886, "learning_rate": 4.4444444444444447e-05, "loss": 0.0007, "step": 1750 }, { "epoch": 11.7, "grad_norm": 0.0028700497932732105, "learning_rate": 4.4000000000000006e-05, "loss": 0.0007, "step": 1755 }, { "epoch": 11.733333333333333, "grad_norm": 0.0027305204421281815, "learning_rate": 4.355555555555556e-05, "loss": 0.0007, "step": 1760 }, { "epoch": 11.766666666666667, "grad_norm": 0.0029077506624162197, "learning_rate": 4.311111111111111e-05, "loss": 0.0007, "step": 1765 }, { "epoch": 11.8, "grad_norm": 0.0029581969138234854, "learning_rate": 4.266666666666667e-05, "loss": 0.0007, "step": 1770 }, { "epoch": 11.833333333333334, "grad_norm": 0.0029439395293593407, "learning_rate": 4.222222222222222e-05, "loss": 0.0007, "step": 1775 }, { "epoch": 11.866666666666667, "grad_norm": 0.002648044377565384, "learning_rate": 4.177777777777778e-05, "loss": 0.0007, "step": 1780 }, { "epoch": 11.9, "grad_norm": 0.0028867183718830347, "learning_rate": 4.133333333333333e-05, "loss": 0.0007, "step": 1785 }, { "epoch": 11.933333333333334, "grad_norm": 0.0028596597258001566, "learning_rate": 4.088888888888889e-05, "loss": 0.0007, "step": 1790 }, { "epoch": 11.966666666666667, "grad_norm": 0.0026717197615653276, "learning_rate": 4.0444444444444444e-05, "loss": 0.0007, "step": 1795 }, { "epoch": 12.0, "grad_norm": 0.002669745124876499, "learning_rate": 4e-05, "loss": 0.0007, "step": 1800 }, { "epoch": 12.0, "eval_accuracy": 0.7726901062959934, "eval_f1": 0.7723427152538652, "eval_loss": 1.6366736888885498, "eval_precision": 0.7913558193441064, "eval_recall": 0.7726901062959934, "eval_runtime": 9.4924, "eval_samples_per_second": 128.84, "eval_steps_per_second": 16.118, "step": 1800 }, { "epoch": 12.033333333333333, "grad_norm": 0.002834903309121728, "learning_rate": 3.9555555555555556e-05, "loss": 0.0007, "step": 1805 }, { "epoch": 12.066666666666666, "grad_norm": 0.002697282237932086, "learning_rate": 3.9111111111111115e-05, "loss": 0.0007, "step": 1810 }, { "epoch": 12.1, "grad_norm": 0.002716922899708152, "learning_rate": 3.866666666666667e-05, "loss": 0.0007, "step": 1815 }, { "epoch": 12.133333333333333, "grad_norm": 0.0027616298757493496, "learning_rate": 3.8222222222222226e-05, "loss": 0.0007, "step": 1820 }, { "epoch": 12.166666666666666, "grad_norm": 0.002682196442037821, "learning_rate": 3.777777777777778e-05, "loss": 0.0007, "step": 1825 }, { "epoch": 12.2, "grad_norm": 0.002670521615073085, "learning_rate": 3.733333333333334e-05, "loss": 0.0007, "step": 1830 }, { "epoch": 12.233333333333333, "grad_norm": 0.0026013916358351707, "learning_rate": 3.688888888888889e-05, "loss": 0.0007, "step": 1835 }, { "epoch": 12.266666666666667, "grad_norm": 0.00258804764598608, "learning_rate": 3.644444444444445e-05, "loss": 0.0007, "step": 1840 }, { "epoch": 12.3, "grad_norm": 0.002493256935849786, "learning_rate": 3.6e-05, "loss": 0.0007, "step": 1845 }, { "epoch": 12.333333333333334, "grad_norm": 0.002977099735289812, "learning_rate": 3.555555555555556e-05, "loss": 0.0007, "step": 1850 }, { "epoch": 12.366666666666667, "grad_norm": 0.0028679771348834038, "learning_rate": 3.511111111111111e-05, "loss": 0.0007, "step": 1855 }, { "epoch": 12.4, "grad_norm": 0.002562806010246277, "learning_rate": 3.466666666666667e-05, "loss": 0.0007, "step": 1860 }, { "epoch": 12.433333333333334, "grad_norm": 0.00275462307035923, "learning_rate": 3.4222222222222224e-05, "loss": 0.0007, "step": 1865 }, { "epoch": 12.466666666666667, "grad_norm": 0.0026794790755957365, "learning_rate": 3.377777777777778e-05, "loss": 0.0007, "step": 1870 }, { "epoch": 12.5, "grad_norm": 0.0026146366726607084, "learning_rate": 3.3333333333333335e-05, "loss": 0.0007, "step": 1875 }, { "epoch": 12.533333333333333, "grad_norm": 0.0024596552830189466, "learning_rate": 3.2888888888888894e-05, "loss": 0.0007, "step": 1880 }, { "epoch": 12.566666666666666, "grad_norm": 0.002604931825771928, "learning_rate": 3.2444444444444446e-05, "loss": 0.0007, "step": 1885 }, { "epoch": 12.6, "grad_norm": 0.0029121278785169125, "learning_rate": 3.2000000000000005e-05, "loss": 0.0007, "step": 1890 }, { "epoch": 12.633333333333333, "grad_norm": 0.002842964604496956, "learning_rate": 3.155555555555556e-05, "loss": 0.0007, "step": 1895 }, { "epoch": 12.666666666666666, "grad_norm": 0.0025928555987775326, "learning_rate": 3.111111111111111e-05, "loss": 0.0007, "step": 1900 }, { "epoch": 12.666666666666666, "eval_accuracy": 0.7735077677841373, "eval_f1": 0.7730354144611151, "eval_loss": 1.6468026638031006, "eval_precision": 0.7918593434476511, "eval_recall": 0.7735077677841373, "eval_runtime": 9.4091, "eval_samples_per_second": 129.98, "eval_steps_per_second": 16.261, "step": 1900 }, { "epoch": 12.7, "grad_norm": 0.0027619327884167433, "learning_rate": 3.066666666666667e-05, "loss": 0.0007, "step": 1905 }, { "epoch": 12.733333333333333, "grad_norm": 0.0025647254660725594, "learning_rate": 3.0222222222222225e-05, "loss": 0.0007, "step": 1910 }, { "epoch": 12.766666666666667, "grad_norm": 0.0027413552161306143, "learning_rate": 2.9777777777777777e-05, "loss": 0.0007, "step": 1915 }, { "epoch": 12.8, "grad_norm": 0.0025752608198672533, "learning_rate": 2.9333333333333336e-05, "loss": 0.0007, "step": 1920 }, { "epoch": 12.833333333333334, "grad_norm": 0.00253043114207685, "learning_rate": 2.8888888888888888e-05, "loss": 0.0006, "step": 1925 }, { "epoch": 12.866666666666667, "grad_norm": 0.0024257830809801817, "learning_rate": 2.8444444444444447e-05, "loss": 0.0006, "step": 1930 }, { "epoch": 12.9, "grad_norm": 0.0024817846715450287, "learning_rate": 2.8000000000000003e-05, "loss": 0.0007, "step": 1935 }, { "epoch": 12.933333333333334, "grad_norm": 0.002621529158204794, "learning_rate": 2.7555555555555555e-05, "loss": 0.0007, "step": 1940 }, { "epoch": 12.966666666666667, "grad_norm": 0.002632457297295332, "learning_rate": 2.7111111111111114e-05, "loss": 0.0007, "step": 1945 }, { "epoch": 13.0, "grad_norm": 0.002445266814902425, "learning_rate": 2.6666666666666667e-05, "loss": 0.0007, "step": 1950 }, { "epoch": 13.033333333333333, "grad_norm": 0.0027176933363080025, "learning_rate": 2.6222222222222226e-05, "loss": 0.0007, "step": 1955 }, { "epoch": 13.066666666666666, "grad_norm": 0.0026730329263955355, "learning_rate": 2.5777777777777778e-05, "loss": 0.0007, "step": 1960 }, { "epoch": 13.1, "grad_norm": 0.0025130738504230976, "learning_rate": 2.5333333333333337e-05, "loss": 0.0007, "step": 1965 }, { "epoch": 13.133333333333333, "grad_norm": 0.0024407205637544394, "learning_rate": 2.488888888888889e-05, "loss": 0.0006, "step": 1970 }, { "epoch": 13.166666666666666, "grad_norm": 0.00242891488596797, "learning_rate": 2.4444444444444445e-05, "loss": 0.0006, "step": 1975 }, { "epoch": 13.2, "grad_norm": 0.0023778832983225584, "learning_rate": 2.4e-05, "loss": 0.0006, "step": 1980 }, { "epoch": 13.233333333333333, "grad_norm": 0.0025050409603863955, "learning_rate": 2.3555555555555556e-05, "loss": 0.0006, "step": 1985 }, { "epoch": 13.266666666666667, "grad_norm": 0.0028825930785387754, "learning_rate": 2.3111111111111112e-05, "loss": 0.0006, "step": 1990 }, { "epoch": 13.3, "grad_norm": 0.0027403540443629026, "learning_rate": 2.2666666666666668e-05, "loss": 0.0006, "step": 1995 }, { "epoch": 13.333333333333334, "grad_norm": 0.0024475709069520235, "learning_rate": 2.2222222222222223e-05, "loss": 0.0006, "step": 2000 }, { "epoch": 13.333333333333334, "eval_accuracy": 0.7735077677841373, "eval_f1": 0.7728701403904046, "eval_loss": 1.6551100015640259, "eval_precision": 0.7908927853248657, "eval_recall": 0.7735077677841373, "eval_runtime": 9.3212, "eval_samples_per_second": 131.206, "eval_steps_per_second": 16.414, "step": 2000 }, { "epoch": 13.366666666666667, "grad_norm": 0.0025134882889688015, "learning_rate": 2.177777777777778e-05, "loss": 0.0006, "step": 2005 }, { "epoch": 13.4, "grad_norm": 0.0023885276168584824, "learning_rate": 2.1333333333333335e-05, "loss": 0.0006, "step": 2010 }, { "epoch": 13.433333333333334, "grad_norm": 0.002416504779830575, "learning_rate": 2.088888888888889e-05, "loss": 0.0006, "step": 2015 }, { "epoch": 13.466666666666667, "grad_norm": 0.002540977904573083, "learning_rate": 2.0444444444444446e-05, "loss": 0.0006, "step": 2020 }, { "epoch": 13.5, "grad_norm": 0.0024591987021267414, "learning_rate": 2e-05, "loss": 0.0006, "step": 2025 }, { "epoch": 13.533333333333333, "grad_norm": 0.002733177039772272, "learning_rate": 1.9555555555555557e-05, "loss": 0.0006, "step": 2030 }, { "epoch": 13.566666666666666, "grad_norm": 0.002494868589565158, "learning_rate": 1.9111111111111113e-05, "loss": 0.0006, "step": 2035 }, { "epoch": 13.6, "grad_norm": 0.0025140726938843727, "learning_rate": 1.866666666666667e-05, "loss": 0.0006, "step": 2040 }, { "epoch": 13.633333333333333, "grad_norm": 0.002409860957413912, "learning_rate": 1.8222222222222224e-05, "loss": 0.0006, "step": 2045 }, { "epoch": 13.666666666666666, "grad_norm": 0.002566902432590723, "learning_rate": 1.777777777777778e-05, "loss": 0.0006, "step": 2050 }, { "epoch": 13.7, "grad_norm": 0.0024930175859481096, "learning_rate": 1.7333333333333336e-05, "loss": 0.0006, "step": 2055 }, { "epoch": 13.733333333333333, "grad_norm": 0.002376505406573415, "learning_rate": 1.688888888888889e-05, "loss": 0.0006, "step": 2060 }, { "epoch": 13.766666666666667, "grad_norm": 0.0026480802334845066, "learning_rate": 1.6444444444444447e-05, "loss": 0.0006, "step": 2065 }, { "epoch": 13.8, "grad_norm": 0.0023571744095534086, "learning_rate": 1.6000000000000003e-05, "loss": 0.0006, "step": 2070 }, { "epoch": 13.833333333333334, "grad_norm": 0.0027962648309767246, "learning_rate": 1.5555555555555555e-05, "loss": 0.0006, "step": 2075 }, { "epoch": 13.866666666666667, "grad_norm": 0.002371689071878791, "learning_rate": 1.5111111111111112e-05, "loss": 0.0006, "step": 2080 }, { "epoch": 13.9, "grad_norm": 0.0023993193171918392, "learning_rate": 1.4666666666666668e-05, "loss": 0.0006, "step": 2085 }, { "epoch": 13.933333333333334, "grad_norm": 0.002335299039259553, "learning_rate": 1.4222222222222224e-05, "loss": 0.0006, "step": 2090 }, { "epoch": 13.966666666666667, "grad_norm": 0.0025619715452194214, "learning_rate": 1.3777777777777778e-05, "loss": 0.0006, "step": 2095 }, { "epoch": 14.0, "grad_norm": 0.002706592669710517, "learning_rate": 1.3333333333333333e-05, "loss": 0.0006, "step": 2100 }, { "epoch": 14.0, "eval_accuracy": 0.7726901062959934, "eval_f1": 0.7721014363759265, "eval_loss": 1.6608604192733765, "eval_precision": 0.7895753506349075, "eval_recall": 0.7726901062959934, "eval_runtime": 9.2911, "eval_samples_per_second": 131.631, "eval_steps_per_second": 16.467, "step": 2100 }, { "epoch": 14.033333333333333, "grad_norm": 0.002386202337220311, "learning_rate": 1.2888888888888889e-05, "loss": 0.0006, "step": 2105 }, { "epoch": 14.066666666666666, "grad_norm": 0.0023825885728001595, "learning_rate": 1.2444444444444445e-05, "loss": 0.0006, "step": 2110 }, { "epoch": 14.1, "grad_norm": 0.0025322814472019672, "learning_rate": 1.2e-05, "loss": 0.0006, "step": 2115 }, { "epoch": 14.133333333333333, "grad_norm": 0.002406241139397025, "learning_rate": 1.1555555555555556e-05, "loss": 0.0006, "step": 2120 }, { "epoch": 14.166666666666666, "grad_norm": 0.0023687032517045736, "learning_rate": 1.1111111111111112e-05, "loss": 0.0006, "step": 2125 }, { "epoch": 14.2, "grad_norm": 0.0023634156677871943, "learning_rate": 1.0666666666666667e-05, "loss": 0.0006, "step": 2130 }, { "epoch": 14.233333333333333, "grad_norm": 0.002334601478651166, "learning_rate": 1.0222222222222223e-05, "loss": 0.0006, "step": 2135 }, { "epoch": 14.266666666666667, "grad_norm": 0.002330502262338996, "learning_rate": 9.777777777777779e-06, "loss": 0.0006, "step": 2140 }, { "epoch": 14.3, "grad_norm": 0.0025921158958226442, "learning_rate": 9.333333333333334e-06, "loss": 0.0006, "step": 2145 }, { "epoch": 14.333333333333334, "grad_norm": 0.0025375063996762037, "learning_rate": 8.88888888888889e-06, "loss": 0.0006, "step": 2150 }, { "epoch": 14.366666666666667, "grad_norm": 0.002520347246900201, "learning_rate": 8.444444444444446e-06, "loss": 0.0006, "step": 2155 }, { "epoch": 14.4, "grad_norm": 0.0022701257839798927, "learning_rate": 8.000000000000001e-06, "loss": 0.0006, "step": 2160 }, { "epoch": 14.433333333333334, "grad_norm": 0.002739118644967675, "learning_rate": 7.555555555555556e-06, "loss": 0.0006, "step": 2165 }, { "epoch": 14.466666666666667, "grad_norm": 0.002458198694512248, "learning_rate": 7.111111111111112e-06, "loss": 0.0006, "step": 2170 }, { "epoch": 14.5, "grad_norm": 0.0025515714660286903, "learning_rate": 6.666666666666667e-06, "loss": 0.0006, "step": 2175 }, { "epoch": 14.533333333333333, "grad_norm": 0.002399261575192213, "learning_rate": 6.222222222222222e-06, "loss": 0.0006, "step": 2180 }, { "epoch": 14.566666666666666, "grad_norm": 0.0026785852387547493, "learning_rate": 5.777777777777778e-06, "loss": 0.0006, "step": 2185 }, { "epoch": 14.6, "grad_norm": 0.0024550692178308964, "learning_rate": 5.333333333333334e-06, "loss": 0.0006, "step": 2190 }, { "epoch": 14.633333333333333, "grad_norm": 0.0025646742433309555, "learning_rate": 4.888888888888889e-06, "loss": 0.0006, "step": 2195 }, { "epoch": 14.666666666666666, "grad_norm": 0.0023716960567981005, "learning_rate": 4.444444444444445e-06, "loss": 0.0006, "step": 2200 }, { "epoch": 14.666666666666666, "eval_accuracy": 0.7726901062959934, "eval_f1": 0.7721014363759265, "eval_loss": 1.6636964082717896, "eval_precision": 0.7895753506349075, "eval_recall": 0.7726901062959934, "eval_runtime": 9.4885, "eval_samples_per_second": 128.893, "eval_steps_per_second": 16.125, "step": 2200 }, { "epoch": 14.7, "grad_norm": 0.0024347053840756416, "learning_rate": 4.000000000000001e-06, "loss": 0.0006, "step": 2205 }, { "epoch": 14.733333333333333, "grad_norm": 0.00249837851151824, "learning_rate": 3.555555555555556e-06, "loss": 0.0006, "step": 2210 }, { "epoch": 14.766666666666667, "grad_norm": 0.0023906982969492674, "learning_rate": 3.111111111111111e-06, "loss": 0.0006, "step": 2215 }, { "epoch": 14.8, "grad_norm": 0.0022797761484980583, "learning_rate": 2.666666666666667e-06, "loss": 0.0006, "step": 2220 }, { "epoch": 14.833333333333334, "grad_norm": 0.0024200216867029667, "learning_rate": 2.2222222222222225e-06, "loss": 0.0006, "step": 2225 }, { "epoch": 14.866666666666667, "grad_norm": 0.0024904964957386255, "learning_rate": 1.777777777777778e-06, "loss": 0.0006, "step": 2230 }, { "epoch": 14.9, "grad_norm": 0.0024100597947835922, "learning_rate": 1.3333333333333334e-06, "loss": 0.0006, "step": 2235 }, { "epoch": 14.933333333333334, "grad_norm": 0.002504633739590645, "learning_rate": 8.88888888888889e-07, "loss": 0.0006, "step": 2240 }, { "epoch": 14.966666666666667, "grad_norm": 0.0022806283086538315, "learning_rate": 4.444444444444445e-07, "loss": 0.0006, "step": 2245 }, { "epoch": 15.0, "grad_norm": 0.002253184327855706, "learning_rate": 0.0, "loss": 0.0006, "step": 2250 }, { "epoch": 15.0, "step": 2250, "total_flos": 5.57962327867392e+18, "train_loss": 0.03301632276508543, "train_runtime": 883.2856, "train_samples_per_second": 81.514, "train_steps_per_second": 2.547 } ], "logging_steps": 5, "max_steps": 2250, "num_input_tokens_seen": 0, "num_train_epochs": 15, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 5.57962327867392e+18, "train_batch_size": 32, "trial_name": null, "trial_params": null }