{ "best_metric": 0.2, "best_model_checkpoint": "mobilevit-xx-small-finetuned-eurosat/checkpoint-3500", "epoch": 100.0, "eval_steps": 500, "global_step": 10000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.1, "grad_norm": 2.1324617862701416, "learning_rate": 3e-05, "loss": 2.3012, "step": 10 }, { "epoch": 0.2, "grad_norm": 1.3381329774856567, "learning_rate": 6e-05, "loss": 2.3047, "step": 20 }, { "epoch": 0.3, "grad_norm": 1.8502155542373657, "learning_rate": 8.999999999999999e-05, "loss": 2.2991, "step": 30 }, { "epoch": 0.4, "grad_norm": 2.422213554382324, "learning_rate": 0.00012, "loss": 2.3029, "step": 40 }, { "epoch": 0.5, "grad_norm": 1.453734040260315, "learning_rate": 0.00015000000000000001, "loss": 2.3016, "step": 50 }, { "epoch": 0.6, "grad_norm": 1.6491554975509644, "learning_rate": 0.00017999999999999998, "loss": 2.303, "step": 60 }, { "epoch": 0.7, "grad_norm": 2.927738666534424, "learning_rate": 0.00021000000000000004, "loss": 2.3005, "step": 70 }, { "epoch": 0.8, "grad_norm": 1.2199476957321167, "learning_rate": 0.00024, "loss": 2.3069, "step": 80 }, { "epoch": 0.9, "grad_norm": 1.4366081953048706, "learning_rate": 0.00027, "loss": 2.2955, "step": 90 }, { "epoch": 1.0, "grad_norm": 1.102356195449829, "learning_rate": 0.00030000000000000003, "loss": 2.2991, "step": 100 }, { "epoch": 1.0, "eval_accuracy": 0.16, "eval_loss": 2.289586067199707, "eval_runtime": 1.4788, "eval_samples_per_second": 67.624, "eval_steps_per_second": 67.624, "step": 100 }, { "epoch": 1.1, "grad_norm": 1.5379983186721802, "learning_rate": 0.00033, "loss": 2.3002, "step": 110 }, { "epoch": 1.2, "grad_norm": 0.928782045841217, "learning_rate": 0.00035999999999999997, "loss": 2.2956, "step": 120 }, { "epoch": 1.3, "grad_norm": 0.9759466052055359, "learning_rate": 0.00039000000000000005, "loss": 2.3028, "step": 130 }, { "epoch": 1.4, "grad_norm": 1.5415401458740234, "learning_rate": 0.00042000000000000007, "loss": 2.2976, "step": 140 }, { "epoch": 1.5, "grad_norm": 1.1042237281799316, "learning_rate": 0.00045, "loss": 2.2798, "step": 150 }, { "epoch": 1.6, "grad_norm": 1.4493985176086426, "learning_rate": 0.00048, "loss": 2.2941, "step": 160 }, { "epoch": 1.7, "grad_norm": 1.538596510887146, "learning_rate": 0.00051, "loss": 2.2887, "step": 170 }, { "epoch": 1.8, "grad_norm": 1.4531352519989014, "learning_rate": 0.00054, "loss": 2.3009, "step": 180 }, { "epoch": 1.9, "grad_norm": 0.983465313911438, "learning_rate": 0.00057, "loss": 2.2891, "step": 190 }, { "epoch": 2.0, "grad_norm": 1.0896656513214111, "learning_rate": 0.0006000000000000001, "loss": 2.3041, "step": 200 }, { "epoch": 2.0, "eval_accuracy": 0.12, "eval_loss": 2.4577579498291016, "eval_runtime": 1.4566, "eval_samples_per_second": 68.653, "eval_steps_per_second": 68.653, "step": 200 }, { "epoch": 2.1, "grad_norm": 0.838339626789093, "learning_rate": 0.00063, "loss": 2.3074, "step": 210 }, { "epoch": 2.2, "grad_norm": 1.0502190589904785, "learning_rate": 0.00066, "loss": 2.2746, "step": 220 }, { "epoch": 2.3, "grad_norm": 0.9475522041320801, "learning_rate": 0.0006900000000000001, "loss": 2.2484, "step": 230 }, { "epoch": 2.4, "grad_norm": 0.7182848453521729, "learning_rate": 0.0007199999999999999, "loss": 2.2644, "step": 240 }, { "epoch": 2.5, "grad_norm": 1.08864164352417, "learning_rate": 0.00075, "loss": 2.3224, "step": 250 }, { "epoch": 2.6, "grad_norm": 0.9813370108604431, "learning_rate": 0.0007800000000000001, "loss": 2.2964, "step": 260 }, { "epoch": 2.7, "grad_norm": 0.8489407300949097, "learning_rate": 0.0008100000000000001, "loss": 2.3066, "step": 270 }, { "epoch": 2.8, "grad_norm": 1.1197150945663452, "learning_rate": 0.0008400000000000001, "loss": 2.3362, "step": 280 }, { "epoch": 2.9, "grad_norm": 1.279061198234558, "learning_rate": 0.00087, "loss": 2.2834, "step": 290 }, { "epoch": 3.0, "grad_norm": 1.2697229385375977, "learning_rate": 0.0009, "loss": 2.2833, "step": 300 }, { "epoch": 3.0, "eval_accuracy": 0.12, "eval_loss": 2.302177906036377, "eval_runtime": 1.3695, "eval_samples_per_second": 73.017, "eval_steps_per_second": 73.017, "step": 300 }, { "epoch": 3.1, "grad_norm": 1.1153604984283447, "learning_rate": 0.00093, "loss": 2.2568, "step": 310 }, { "epoch": 3.2, "grad_norm": 0.7443063855171204, "learning_rate": 0.00096, "loss": 2.2826, "step": 320 }, { "epoch": 3.3, "grad_norm": 0.8337368965148926, "learning_rate": 0.00099, "loss": 2.2561, "step": 330 }, { "epoch": 3.4, "grad_norm": 0.8116536736488342, "learning_rate": 0.00102, "loss": 2.3272, "step": 340 }, { "epoch": 3.5, "grad_norm": 0.9721486568450928, "learning_rate": 0.00105, "loss": 2.2719, "step": 350 }, { "epoch": 3.6, "grad_norm": 1.4430909156799316, "learning_rate": 0.00108, "loss": 2.3039, "step": 360 }, { "epoch": 3.7, "grad_norm": 2.4252946376800537, "learning_rate": 0.00111, "loss": 2.2797, "step": 370 }, { "epoch": 3.8, "grad_norm": 1.0932201147079468, "learning_rate": 0.00114, "loss": 2.2843, "step": 380 }, { "epoch": 3.9, "grad_norm": 1.1340506076812744, "learning_rate": 0.00117, "loss": 2.3229, "step": 390 }, { "epoch": 4.0, "grad_norm": 2.5897912979125977, "learning_rate": 0.0012000000000000001, "loss": 2.2755, "step": 400 }, { "epoch": 4.0, "eval_accuracy": 0.17, "eval_loss": 2.4038970470428467, "eval_runtime": 1.5324, "eval_samples_per_second": 65.256, "eval_steps_per_second": 65.256, "step": 400 }, { "epoch": 4.1, "grad_norm": 0.7979876399040222, "learning_rate": 0.00123, "loss": 2.2504, "step": 410 }, { "epoch": 4.2, "grad_norm": 1.2705005407333374, "learning_rate": 0.00126, "loss": 2.2731, "step": 420 }, { "epoch": 4.3, "grad_norm": 1.4571020603179932, "learning_rate": 0.00129, "loss": 2.3268, "step": 430 }, { "epoch": 4.4, "grad_norm": 1.3778339624404907, "learning_rate": 0.00132, "loss": 2.3044, "step": 440 }, { "epoch": 4.5, "grad_norm": 1.30875563621521, "learning_rate": 0.00135, "loss": 2.2627, "step": 450 }, { "epoch": 4.6, "grad_norm": 0.9140678644180298, "learning_rate": 0.0013800000000000002, "loss": 2.2876, "step": 460 }, { "epoch": 4.7, "grad_norm": 0.9151474833488464, "learning_rate": 0.00141, "loss": 2.2905, "step": 470 }, { "epoch": 4.8, "grad_norm": 0.8817148804664612, "learning_rate": 0.0014399999999999999, "loss": 2.2698, "step": 480 }, { "epoch": 4.9, "grad_norm": 1.2688977718353271, "learning_rate": 0.00147, "loss": 2.2646, "step": 490 }, { "epoch": 5.0, "grad_norm": 0.8824284076690674, "learning_rate": 0.0015, "loss": 2.3063, "step": 500 }, { "epoch": 5.0, "eval_accuracy": 0.1, "eval_loss": 2.5689330101013184, "eval_runtime": 1.5068, "eval_samples_per_second": 66.367, "eval_steps_per_second": 66.367, "step": 500 }, { "epoch": 5.1, "grad_norm": 1.2520034313201904, "learning_rate": 0.0015300000000000001, "loss": 2.241, "step": 510 }, { "epoch": 5.2, "grad_norm": 1.0238957405090332, "learning_rate": 0.0015600000000000002, "loss": 2.27, "step": 520 }, { "epoch": 5.3, "grad_norm": 2.1329076290130615, "learning_rate": 0.00159, "loss": 2.2933, "step": 530 }, { "epoch": 5.4, "grad_norm": 1.5213390588760376, "learning_rate": 0.0016200000000000001, "loss": 2.3265, "step": 540 }, { "epoch": 5.5, "grad_norm": 1.0696481466293335, "learning_rate": 0.0016500000000000002, "loss": 2.2632, "step": 550 }, { "epoch": 5.6, "grad_norm": 2.2588746547698975, "learning_rate": 0.0016800000000000003, "loss": 2.3076, "step": 560 }, { "epoch": 5.7, "grad_norm": 0.8829935789108276, "learning_rate": 0.00171, "loss": 2.2396, "step": 570 }, { "epoch": 5.8, "grad_norm": 2.340522289276123, "learning_rate": 0.00174, "loss": 2.2487, "step": 580 }, { "epoch": 5.9, "grad_norm": 1.1000961065292358, "learning_rate": 0.0017699999999999999, "loss": 2.4008, "step": 590 }, { "epoch": 6.0, "grad_norm": 1.0605051517486572, "learning_rate": 0.0018, "loss": 2.3247, "step": 600 }, { "epoch": 6.0, "eval_accuracy": 0.05, "eval_loss": 2.5307223796844482, "eval_runtime": 1.4509, "eval_samples_per_second": 68.922, "eval_steps_per_second": 68.922, "step": 600 }, { "epoch": 6.1, "grad_norm": 0.7217267751693726, "learning_rate": 0.00183, "loss": 2.2628, "step": 610 }, { "epoch": 6.2, "grad_norm": 1.2763817310333252, "learning_rate": 0.00186, "loss": 2.3345, "step": 620 }, { "epoch": 6.3, "grad_norm": 1.0277924537658691, "learning_rate": 0.00189, "loss": 2.21, "step": 630 }, { "epoch": 6.4, "grad_norm": 1.1366169452667236, "learning_rate": 0.00192, "loss": 2.2671, "step": 640 }, { "epoch": 6.5, "grad_norm": 1.314244270324707, "learning_rate": 0.0019500000000000001, "loss": 2.2903, "step": 650 }, { "epoch": 6.6, "grad_norm": 1.7358442544937134, "learning_rate": 0.00198, "loss": 2.2646, "step": 660 }, { "epoch": 6.7, "grad_norm": 1.7523398399353027, "learning_rate": 0.00201, "loss": 2.2954, "step": 670 }, { "epoch": 6.8, "grad_norm": 1.0838252305984497, "learning_rate": 0.00204, "loss": 2.284, "step": 680 }, { "epoch": 6.9, "grad_norm": 1.375260591506958, "learning_rate": 0.00207, "loss": 2.2751, "step": 690 }, { "epoch": 7.0, "grad_norm": 0.8118464946746826, "learning_rate": 0.0021, "loss": 2.2867, "step": 700 }, { "epoch": 7.0, "eval_accuracy": 0.08, "eval_loss": 4.129552841186523, "eval_runtime": 1.34, "eval_samples_per_second": 74.629, "eval_steps_per_second": 74.629, "step": 700 }, { "epoch": 7.1, "grad_norm": 1.1006956100463867, "learning_rate": 0.00213, "loss": 2.2591, "step": 710 }, { "epoch": 7.2, "grad_norm": 1.0100908279418945, "learning_rate": 0.00216, "loss": 2.234, "step": 720 }, { "epoch": 7.3, "grad_norm": 0.6693554520606995, "learning_rate": 0.00219, "loss": 2.2912, "step": 730 }, { "epoch": 7.4, "grad_norm": 1.4744811058044434, "learning_rate": 0.00222, "loss": 2.2978, "step": 740 }, { "epoch": 7.5, "grad_norm": 1.1265888214111328, "learning_rate": 0.0022500000000000003, "loss": 2.2747, "step": 750 }, { "epoch": 7.6, "grad_norm": 0.7370518445968628, "learning_rate": 0.00228, "loss": 2.254, "step": 760 }, { "epoch": 7.7, "grad_norm": 3.5498600006103516, "learning_rate": 0.00231, "loss": 2.3023, "step": 770 }, { "epoch": 7.8, "grad_norm": 0.8357071876525879, "learning_rate": 0.00234, "loss": 2.2806, "step": 780 }, { "epoch": 7.9, "grad_norm": 0.9274773597717285, "learning_rate": 0.00237, "loss": 2.3048, "step": 790 }, { "epoch": 8.0, "grad_norm": 1.2820582389831543, "learning_rate": 0.0024000000000000002, "loss": 2.2696, "step": 800 }, { "epoch": 8.0, "eval_accuracy": 0.07, "eval_loss": 3.08689546585083, "eval_runtime": 19.5044, "eval_samples_per_second": 5.127, "eval_steps_per_second": 5.127, "step": 800 }, { "epoch": 8.1, "grad_norm": 0.8906604647636414, "learning_rate": 0.0024300000000000003, "loss": 2.2654, "step": 810 }, { "epoch": 8.2, "grad_norm": 0.9984199404716492, "learning_rate": 0.00246, "loss": 2.279, "step": 820 }, { "epoch": 8.3, "grad_norm": 1.9721964597702026, "learning_rate": 0.00249, "loss": 2.3893, "step": 830 }, { "epoch": 8.4, "grad_norm": 1.0067120790481567, "learning_rate": 0.00252, "loss": 2.2639, "step": 840 }, { "epoch": 8.5, "grad_norm": 1.388048529624939, "learning_rate": 0.00255, "loss": 2.3113, "step": 850 }, { "epoch": 8.6, "grad_norm": 1.2845227718353271, "learning_rate": 0.00258, "loss": 2.2511, "step": 860 }, { "epoch": 8.7, "grad_norm": 0.871728241443634, "learning_rate": 0.00261, "loss": 2.3939, "step": 870 }, { "epoch": 8.8, "grad_norm": 0.8184868693351746, "learning_rate": 0.00264, "loss": 2.2946, "step": 880 }, { "epoch": 8.9, "grad_norm": 1.132112741470337, "learning_rate": 0.00267, "loss": 2.3046, "step": 890 }, { "epoch": 9.0, "grad_norm": 2.1133577823638916, "learning_rate": 0.0027, "loss": 2.2688, "step": 900 }, { "epoch": 9.0, "eval_accuracy": 0.08, "eval_loss": 3.6086204051971436, "eval_runtime": 20.8005, "eval_samples_per_second": 4.808, "eval_steps_per_second": 4.808, "step": 900 }, { "epoch": 9.1, "grad_norm": 2.4818060398101807, "learning_rate": 0.0027300000000000002, "loss": 2.3106, "step": 910 }, { "epoch": 9.2, "grad_norm": 3.1399571895599365, "learning_rate": 0.0027600000000000003, "loss": 2.2638, "step": 920 }, { "epoch": 9.3, "grad_norm": 0.6101534962654114, "learning_rate": 0.0027900000000000004, "loss": 2.3405, "step": 930 }, { "epoch": 9.4, "grad_norm": 0.5602176189422607, "learning_rate": 0.00282, "loss": 2.2907, "step": 940 }, { "epoch": 9.5, "grad_norm": 0.9144548773765564, "learning_rate": 0.00285, "loss": 2.2859, "step": 950 }, { "epoch": 9.6, "grad_norm": 1.6563771963119507, "learning_rate": 0.0028799999999999997, "loss": 2.226, "step": 960 }, { "epoch": 9.7, "grad_norm": 1.130618691444397, "learning_rate": 0.00291, "loss": 2.3164, "step": 970 }, { "epoch": 9.8, "grad_norm": 1.309047818183899, "learning_rate": 0.00294, "loss": 2.369, "step": 980 }, { "epoch": 9.9, "grad_norm": 0.8424582481384277, "learning_rate": 0.00297, "loss": 2.3191, "step": 990 }, { "epoch": 10.0, "grad_norm": 0.7681222558021545, "learning_rate": 0.003, "loss": 2.2616, "step": 1000 }, { "epoch": 10.0, "eval_accuracy": 0.13, "eval_loss": 6.5421600341796875, "eval_runtime": 8.3248, "eval_samples_per_second": 12.012, "eval_steps_per_second": 12.012, "step": 1000 }, { "epoch": 10.1, "grad_norm": 0.7878401875495911, "learning_rate": 0.002996666666666667, "loss": 2.3113, "step": 1010 }, { "epoch": 10.2, "grad_norm": 1.2619870901107788, "learning_rate": 0.0029933333333333335, "loss": 2.2792, "step": 1020 }, { "epoch": 10.3, "grad_norm": 0.8518879413604736, "learning_rate": 0.00299, "loss": 2.2483, "step": 1030 }, { "epoch": 10.4, "grad_norm": 1.0644011497497559, "learning_rate": 0.0029866666666666665, "loss": 2.2962, "step": 1040 }, { "epoch": 10.5, "grad_norm": 4.86259651184082, "learning_rate": 0.0029833333333333335, "loss": 2.3568, "step": 1050 }, { "epoch": 10.6, "grad_norm": 0.6222243905067444, "learning_rate": 0.00298, "loss": 2.3044, "step": 1060 }, { "epoch": 10.7, "grad_norm": 0.9417657256126404, "learning_rate": 0.002976666666666667, "loss": 2.3293, "step": 1070 }, { "epoch": 10.8, "grad_norm": 0.8060852289199829, "learning_rate": 0.0029733333333333335, "loss": 2.3223, "step": 1080 }, { "epoch": 10.9, "grad_norm": 13.554573059082031, "learning_rate": 0.00297, "loss": 2.3174, "step": 1090 }, { "epoch": 11.0, "grad_norm": 0.6837009191513062, "learning_rate": 0.002966666666666667, "loss": 2.3896, "step": 1100 }, { "epoch": 11.0, "eval_accuracy": 0.11, "eval_loss": 3.2714791297912598, "eval_runtime": 2.1977, "eval_samples_per_second": 45.503, "eval_steps_per_second": 45.503, "step": 1100 }, { "epoch": 11.1, "grad_norm": 0.7141666412353516, "learning_rate": 0.0029633333333333334, "loss": 2.3195, "step": 1110 }, { "epoch": 11.2, "grad_norm": 0.7167306542396545, "learning_rate": 0.00296, "loss": 2.296, "step": 1120 }, { "epoch": 11.3, "grad_norm": 0.7279971241950989, "learning_rate": 0.0029566666666666665, "loss": 2.271, "step": 1130 }, { "epoch": 11.4, "grad_norm": 0.7350410223007202, "learning_rate": 0.0029533333333333334, "loss": 2.3213, "step": 1140 }, { "epoch": 11.5, "grad_norm": 0.7864300012588501, "learning_rate": 0.00295, "loss": 2.3639, "step": 1150 }, { "epoch": 11.6, "grad_norm": 1.0151550769805908, "learning_rate": 0.002946666666666667, "loss": 2.3102, "step": 1160 }, { "epoch": 11.7, "grad_norm": 0.830095648765564, "learning_rate": 0.0029433333333333334, "loss": 2.3059, "step": 1170 }, { "epoch": 11.8, "grad_norm": 0.9856182932853699, "learning_rate": 0.00294, "loss": 2.3251, "step": 1180 }, { "epoch": 11.9, "grad_norm": 0.9483402371406555, "learning_rate": 0.002936666666666667, "loss": 2.2442, "step": 1190 }, { "epoch": 12.0, "grad_norm": 0.8080146908760071, "learning_rate": 0.0029333333333333334, "loss": 2.3264, "step": 1200 }, { "epoch": 12.0, "eval_accuracy": 0.08, "eval_loss": 2.697530746459961, "eval_runtime": 10.4979, "eval_samples_per_second": 9.526, "eval_steps_per_second": 9.526, "step": 1200 }, { "epoch": 12.1, "grad_norm": 0.5614495277404785, "learning_rate": 0.0029300000000000003, "loss": 2.3242, "step": 1210 }, { "epoch": 12.2, "grad_norm": 0.5666948556900024, "learning_rate": 0.0029266666666666664, "loss": 2.2657, "step": 1220 }, { "epoch": 12.3, "grad_norm": 0.6668452024459839, "learning_rate": 0.0029233333333333333, "loss": 2.25, "step": 1230 }, { "epoch": 12.4, "grad_norm": 0.724169135093689, "learning_rate": 0.0029200000000000003, "loss": 2.3341, "step": 1240 }, { "epoch": 12.5, "grad_norm": 0.5056666135787964, "learning_rate": 0.002916666666666667, "loss": 2.3078, "step": 1250 }, { "epoch": 12.6, "grad_norm": 0.542679488658905, "learning_rate": 0.0029133333333333333, "loss": 2.3181, "step": 1260 }, { "epoch": 12.7, "grad_norm": 0.5752130746841431, "learning_rate": 0.00291, "loss": 2.3095, "step": 1270 }, { "epoch": 12.8, "grad_norm": 1.2706278562545776, "learning_rate": 0.0029066666666666668, "loss": 2.2843, "step": 1280 }, { "epoch": 12.9, "grad_norm": 0.6558820605278015, "learning_rate": 0.0029033333333333333, "loss": 2.38, "step": 1290 }, { "epoch": 13.0, "grad_norm": 0.4819053113460541, "learning_rate": 0.0029000000000000002, "loss": 2.2603, "step": 1300 }, { "epoch": 13.0, "eval_accuracy": 0.17, "eval_loss": 2.4011728763580322, "eval_runtime": 5.0203, "eval_samples_per_second": 19.919, "eval_steps_per_second": 19.919, "step": 1300 }, { "epoch": 13.1, "grad_norm": 0.534329354763031, "learning_rate": 0.0028966666666666667, "loss": 2.2935, "step": 1310 }, { "epoch": 13.2, "grad_norm": 0.6757941842079163, "learning_rate": 0.0028933333333333333, "loss": 2.3112, "step": 1320 }, { "epoch": 13.3, "grad_norm": 0.5297008156776428, "learning_rate": 0.00289, "loss": 2.2442, "step": 1330 }, { "epoch": 13.4, "grad_norm": 0.7962446212768555, "learning_rate": 0.0028866666666666667, "loss": 2.3753, "step": 1340 }, { "epoch": 13.5, "grad_norm": 0.5598190426826477, "learning_rate": 0.0028833333333333337, "loss": 2.2621, "step": 1350 }, { "epoch": 13.6, "grad_norm": 0.7223344445228577, "learning_rate": 0.0028799999999999997, "loss": 2.273, "step": 1360 }, { "epoch": 13.7, "grad_norm": 1.1084399223327637, "learning_rate": 0.0028766666666666667, "loss": 2.2912, "step": 1370 }, { "epoch": 13.8, "grad_norm": 0.6733573079109192, "learning_rate": 0.002873333333333333, "loss": 2.2698, "step": 1380 }, { "epoch": 13.9, "grad_norm": 0.8303700089454651, "learning_rate": 0.00287, "loss": 2.2308, "step": 1390 }, { "epoch": 14.0, "grad_norm": 0.804675817489624, "learning_rate": 0.0028666666666666667, "loss": 2.2845, "step": 1400 }, { "epoch": 14.0, "eval_accuracy": 0.19, "eval_loss": 3.0855796337127686, "eval_runtime": 18.9592, "eval_samples_per_second": 5.274, "eval_steps_per_second": 5.274, "step": 1400 }, { "epoch": 14.1, "grad_norm": 0.7311877012252808, "learning_rate": 0.002863333333333333, "loss": 2.2091, "step": 1410 }, { "epoch": 14.2, "grad_norm": 0.9788007140159607, "learning_rate": 0.00286, "loss": 2.284, "step": 1420 }, { "epoch": 14.3, "grad_norm": 1.4467419385910034, "learning_rate": 0.0028566666666666666, "loss": 2.2519, "step": 1430 }, { "epoch": 14.4, "grad_norm": 1.0337039232254028, "learning_rate": 0.0028533333333333336, "loss": 2.2974, "step": 1440 }, { "epoch": 14.5, "grad_norm": 0.9267049431800842, "learning_rate": 0.00285, "loss": 2.2513, "step": 1450 }, { "epoch": 14.6, "grad_norm": 1.1804252862930298, "learning_rate": 0.0028466666666666666, "loss": 2.3101, "step": 1460 }, { "epoch": 14.7, "grad_norm": 0.6689174175262451, "learning_rate": 0.0028433333333333336, "loss": 2.3012, "step": 1470 }, { "epoch": 14.8, "grad_norm": 1.6997405290603638, "learning_rate": 0.00284, "loss": 2.2507, "step": 1480 }, { "epoch": 14.9, "grad_norm": 0.5313436388969421, "learning_rate": 0.002836666666666667, "loss": 2.2841, "step": 1490 }, { "epoch": 15.0, "grad_norm": 0.6760014891624451, "learning_rate": 0.002833333333333333, "loss": 2.2813, "step": 1500 }, { "epoch": 15.0, "eval_accuracy": 0.17, "eval_loss": 3.255617618560791, "eval_runtime": 4.647, "eval_samples_per_second": 21.519, "eval_steps_per_second": 21.519, "step": 1500 }, { "epoch": 15.1, "grad_norm": 1.6648482084274292, "learning_rate": 0.00283, "loss": 2.2499, "step": 1510 }, { "epoch": 15.2, "grad_norm": 0.6352823376655579, "learning_rate": 0.0028266666666666666, "loss": 2.228, "step": 1520 }, { "epoch": 15.3, "grad_norm": 0.6928892135620117, "learning_rate": 0.0028233333333333335, "loss": 2.1796, "step": 1530 }, { "epoch": 15.4, "grad_norm": 0.7444634437561035, "learning_rate": 0.00282, "loss": 2.2923, "step": 1540 }, { "epoch": 15.5, "grad_norm": 0.701443076133728, "learning_rate": 0.0028166666666666665, "loss": 2.2578, "step": 1550 }, { "epoch": 15.6, "grad_norm": 0.5810482501983643, "learning_rate": 0.0028133333333333335, "loss": 2.3059, "step": 1560 }, { "epoch": 15.7, "grad_norm": 0.990923285484314, "learning_rate": 0.00281, "loss": 2.2492, "step": 1570 }, { "epoch": 15.8, "grad_norm": 0.616290807723999, "learning_rate": 0.002806666666666667, "loss": 2.1599, "step": 1580 }, { "epoch": 15.9, "grad_norm": 0.5732624530792236, "learning_rate": 0.0028033333333333335, "loss": 2.2297, "step": 1590 }, { "epoch": 16.0, "grad_norm": 0.9005319476127625, "learning_rate": 0.0028, "loss": 2.2232, "step": 1600 }, { "epoch": 16.0, "eval_accuracy": 0.18, "eval_loss": 3.5356717109680176, "eval_runtime": 2.4287, "eval_samples_per_second": 41.174, "eval_steps_per_second": 41.174, "step": 1600 }, { "epoch": 16.1, "grad_norm": 0.7628068923950195, "learning_rate": 0.0027966666666666665, "loss": 2.2383, "step": 1610 }, { "epoch": 16.2, "grad_norm": 0.7052992582321167, "learning_rate": 0.0027933333333333334, "loss": 2.3226, "step": 1620 }, { "epoch": 16.3, "grad_norm": 0.8045329451560974, "learning_rate": 0.0027900000000000004, "loss": 2.2594, "step": 1630 }, { "epoch": 16.4, "grad_norm": 0.7999270558357239, "learning_rate": 0.002786666666666667, "loss": 2.2886, "step": 1640 }, { "epoch": 16.5, "grad_norm": 0.9818239212036133, "learning_rate": 0.0027833333333333334, "loss": 2.2745, "step": 1650 }, { "epoch": 16.6, "grad_norm": 1.048454999923706, "learning_rate": 0.00278, "loss": 2.2978, "step": 1660 }, { "epoch": 16.7, "grad_norm": 0.6741579174995422, "learning_rate": 0.002776666666666667, "loss": 2.1957, "step": 1670 }, { "epoch": 16.8, "grad_norm": 0.7675438523292542, "learning_rate": 0.0027733333333333334, "loss": 2.3012, "step": 1680 }, { "epoch": 16.9, "grad_norm": 0.5897651314735413, "learning_rate": 0.00277, "loss": 2.2825, "step": 1690 }, { "epoch": 17.0, "grad_norm": 1.0253489017486572, "learning_rate": 0.002766666666666667, "loss": 2.2332, "step": 1700 }, { "epoch": 17.0, "eval_accuracy": 0.11, "eval_loss": 3.8757708072662354, "eval_runtime": 1.504, "eval_samples_per_second": 66.491, "eval_steps_per_second": 66.491, "step": 1700 }, { "epoch": 17.1, "grad_norm": 0.5093202590942383, "learning_rate": 0.0027633333333333334, "loss": 2.2725, "step": 1710 }, { "epoch": 17.2, "grad_norm": 0.7032235860824585, "learning_rate": 0.0027600000000000003, "loss": 2.2166, "step": 1720 }, { "epoch": 17.3, "grad_norm": 0.6116345524787903, "learning_rate": 0.002756666666666667, "loss": 2.1844, "step": 1730 }, { "epoch": 17.4, "grad_norm": 0.8476758599281311, "learning_rate": 0.0027533333333333333, "loss": 2.2653, "step": 1740 }, { "epoch": 17.5, "grad_norm": 1.6175342798233032, "learning_rate": 0.00275, "loss": 2.2069, "step": 1750 }, { "epoch": 17.6, "grad_norm": 1.403396487236023, "learning_rate": 0.002746666666666667, "loss": 2.3708, "step": 1760 }, { "epoch": 17.7, "grad_norm": 3.4366719722747803, "learning_rate": 0.0027433333333333333, "loss": 2.2828, "step": 1770 }, { "epoch": 17.8, "grad_norm": 0.8872509598731995, "learning_rate": 0.0027400000000000002, "loss": 2.2382, "step": 1780 }, { "epoch": 17.9, "grad_norm": 3.1236143112182617, "learning_rate": 0.0027366666666666668, "loss": 2.3113, "step": 1790 }, { "epoch": 18.0, "grad_norm": 1.0595662593841553, "learning_rate": 0.0027333333333333333, "loss": 2.3568, "step": 1800 }, { "epoch": 18.0, "eval_accuracy": 0.13, "eval_loss": 3.0675432682037354, "eval_runtime": 1.5416, "eval_samples_per_second": 64.868, "eval_steps_per_second": 64.868, "step": 1800 }, { "epoch": 18.1, "grad_norm": 0.9756940007209778, "learning_rate": 0.0027300000000000002, "loss": 2.2245, "step": 1810 }, { "epoch": 18.2, "grad_norm": 0.7749895453453064, "learning_rate": 0.0027266666666666667, "loss": 2.3375, "step": 1820 }, { "epoch": 18.3, "grad_norm": 0.6627314686775208, "learning_rate": 0.0027233333333333332, "loss": 2.2663, "step": 1830 }, { "epoch": 18.4, "grad_norm": 1.011854648590088, "learning_rate": 0.0027199999999999998, "loss": 2.4041, "step": 1840 }, { "epoch": 18.5, "grad_norm": 0.7713875770568848, "learning_rate": 0.0027166666666666667, "loss": 2.3269, "step": 1850 }, { "epoch": 18.6, "grad_norm": 1.3139779567718506, "learning_rate": 0.0027133333333333337, "loss": 2.23, "step": 1860 }, { "epoch": 18.7, "grad_norm": 1.9220070838928223, "learning_rate": 0.00271, "loss": 2.3241, "step": 1870 }, { "epoch": 18.8, "grad_norm": 0.8482495546340942, "learning_rate": 0.0027066666666666667, "loss": 2.2784, "step": 1880 }, { "epoch": 18.9, "grad_norm": 1.1331626176834106, "learning_rate": 0.002703333333333333, "loss": 2.3171, "step": 1890 }, { "epoch": 19.0, "grad_norm": 0.986213207244873, "learning_rate": 0.0027, "loss": 2.2627, "step": 1900 }, { "epoch": 19.0, "eval_accuracy": 0.16, "eval_loss": 3.130782127380371, "eval_runtime": 1.5734, "eval_samples_per_second": 63.555, "eval_steps_per_second": 63.555, "step": 1900 }, { "epoch": 19.1, "grad_norm": 0.8398575782775879, "learning_rate": 0.0026966666666666667, "loss": 2.2865, "step": 1910 }, { "epoch": 19.2, "grad_norm": 0.8489543199539185, "learning_rate": 0.0026933333333333336, "loss": 2.2557, "step": 1920 }, { "epoch": 19.3, "grad_norm": 0.5991080403327942, "learning_rate": 0.0026899999999999997, "loss": 2.2589, "step": 1930 }, { "epoch": 19.4, "grad_norm": 0.8160009384155273, "learning_rate": 0.0026866666666666666, "loss": 2.255, "step": 1940 }, { "epoch": 19.5, "grad_norm": 0.9468734264373779, "learning_rate": 0.0026833333333333336, "loss": 2.2416, "step": 1950 }, { "epoch": 19.6, "grad_norm": 0.9367495775222778, "learning_rate": 0.00268, "loss": 2.2928, "step": 1960 }, { "epoch": 19.7, "grad_norm": 0.7771756649017334, "learning_rate": 0.0026766666666666666, "loss": 2.2837, "step": 1970 }, { "epoch": 19.8, "grad_norm": 0.5956035852432251, "learning_rate": 0.002673333333333333, "loss": 2.3056, "step": 1980 }, { "epoch": 19.9, "grad_norm": 0.8923712372779846, "learning_rate": 0.00267, "loss": 2.2434, "step": 1990 }, { "epoch": 20.0, "grad_norm": 0.7316953539848328, "learning_rate": 0.0026666666666666666, "loss": 2.2528, "step": 2000 }, { "epoch": 20.0, "eval_accuracy": 0.1, "eval_loss": 2.774110794067383, "eval_runtime": 2.0095, "eval_samples_per_second": 49.763, "eval_steps_per_second": 49.763, "step": 2000 }, { "epoch": 20.1, "grad_norm": 1.061279058456421, "learning_rate": 0.0026633333333333335, "loss": 2.199, "step": 2010 }, { "epoch": 20.2, "grad_norm": 0.8505630493164062, "learning_rate": 0.00266, "loss": 2.3343, "step": 2020 }, { "epoch": 20.3, "grad_norm": 4.665825366973877, "learning_rate": 0.0026566666666666666, "loss": 2.1988, "step": 2030 }, { "epoch": 20.4, "grad_norm": 0.6855554580688477, "learning_rate": 0.0026533333333333335, "loss": 2.1726, "step": 2040 }, { "epoch": 20.5, "grad_norm": 0.9635552167892456, "learning_rate": 0.00265, "loss": 2.3019, "step": 2050 }, { "epoch": 20.6, "grad_norm": 1.7395892143249512, "learning_rate": 0.002646666666666667, "loss": 2.1493, "step": 2060 }, { "epoch": 20.7, "grad_norm": 1.992548942565918, "learning_rate": 0.0026433333333333335, "loss": 2.1646, "step": 2070 }, { "epoch": 20.8, "grad_norm": 0.7224474549293518, "learning_rate": 0.00264, "loss": 2.1725, "step": 2080 }, { "epoch": 20.9, "grad_norm": 0.7668882012367249, "learning_rate": 0.002636666666666667, "loss": 2.1463, "step": 2090 }, { "epoch": 21.0, "grad_norm": 1.1540876626968384, "learning_rate": 0.0026333333333333334, "loss": 2.2039, "step": 2100 }, { "epoch": 21.0, "eval_accuracy": 0.14, "eval_loss": 2.7257165908813477, "eval_runtime": 3.321, "eval_samples_per_second": 30.111, "eval_steps_per_second": 30.111, "step": 2100 }, { "epoch": 21.1, "grad_norm": 1.0657505989074707, "learning_rate": 0.00263, "loss": 2.1861, "step": 2110 }, { "epoch": 21.2, "grad_norm": 0.8397789597511292, "learning_rate": 0.0026266666666666665, "loss": 2.2868, "step": 2120 }, { "epoch": 21.3, "grad_norm": 5.241576194763184, "learning_rate": 0.0026233333333333334, "loss": 2.0992, "step": 2130 }, { "epoch": 21.4, "grad_norm": 1.619246006011963, "learning_rate": 0.00262, "loss": 2.1577, "step": 2140 }, { "epoch": 21.5, "grad_norm": 0.8214967250823975, "learning_rate": 0.002616666666666667, "loss": 2.2025, "step": 2150 }, { "epoch": 21.6, "grad_norm": 0.8782535195350647, "learning_rate": 0.0026133333333333334, "loss": 2.2666, "step": 2160 }, { "epoch": 21.7, "grad_norm": 0.6835685968399048, "learning_rate": 0.00261, "loss": 2.3608, "step": 2170 }, { "epoch": 21.8, "grad_norm": 0.7960027456283569, "learning_rate": 0.002606666666666667, "loss": 2.236, "step": 2180 }, { "epoch": 21.9, "grad_norm": 0.789070188999176, "learning_rate": 0.0026033333333333334, "loss": 2.214, "step": 2190 }, { "epoch": 22.0, "grad_norm": 0.8337671756744385, "learning_rate": 0.0026000000000000003, "loss": 2.389, "step": 2200 }, { "epoch": 22.0, "eval_accuracy": 0.08, "eval_loss": 2.6245250701904297, "eval_runtime": 14.6732, "eval_samples_per_second": 6.815, "eval_steps_per_second": 6.815, "step": 2200 }, { "epoch": 22.1, "grad_norm": 0.6612998247146606, "learning_rate": 0.002596666666666667, "loss": 2.1623, "step": 2210 }, { "epoch": 22.2, "grad_norm": 0.5823114514350891, "learning_rate": 0.0025933333333333333, "loss": 2.2221, "step": 2220 }, { "epoch": 22.3, "grad_norm": 0.6718313694000244, "learning_rate": 0.00259, "loss": 2.2401, "step": 2230 }, { "epoch": 22.4, "grad_norm": 1.033048391342163, "learning_rate": 0.002586666666666667, "loss": 2.2093, "step": 2240 }, { "epoch": 22.5, "grad_norm": 0.9569495320320129, "learning_rate": 0.0025833333333333337, "loss": 2.1865, "step": 2250 }, { "epoch": 22.6, "grad_norm": 0.9927944540977478, "learning_rate": 0.00258, "loss": 2.2509, "step": 2260 }, { "epoch": 22.7, "grad_norm": 1.255365014076233, "learning_rate": 0.0025766666666666668, "loss": 2.2218, "step": 2270 }, { "epoch": 22.8, "grad_norm": 0.8008034229278564, "learning_rate": 0.0025733333333333333, "loss": 2.3508, "step": 2280 }, { "epoch": 22.9, "grad_norm": 1.643989086151123, "learning_rate": 0.0025700000000000002, "loss": 2.3481, "step": 2290 }, { "epoch": 23.0, "grad_norm": 0.7342652678489685, "learning_rate": 0.0025666666666666667, "loss": 2.31, "step": 2300 }, { "epoch": 23.0, "eval_accuracy": 0.1, "eval_loss": 3.1869921684265137, "eval_runtime": 3.5166, "eval_samples_per_second": 28.437, "eval_steps_per_second": 28.437, "step": 2300 }, { "epoch": 23.1, "grad_norm": 4.475462913513184, "learning_rate": 0.0025633333333333333, "loss": 2.258, "step": 2310 }, { "epoch": 23.2, "grad_norm": 1.1528602838516235, "learning_rate": 0.00256, "loss": 2.2602, "step": 2320 }, { "epoch": 23.3, "grad_norm": 0.8095310926437378, "learning_rate": 0.0025566666666666667, "loss": 2.1602, "step": 2330 }, { "epoch": 23.4, "grad_norm": 1.0588278770446777, "learning_rate": 0.0025533333333333337, "loss": 2.1524, "step": 2340 }, { "epoch": 23.5, "grad_norm": 0.8519811630249023, "learning_rate": 0.00255, "loss": 2.1634, "step": 2350 }, { "epoch": 23.6, "grad_norm": 0.8368690013885498, "learning_rate": 0.0025466666666666667, "loss": 2.1851, "step": 2360 }, { "epoch": 23.7, "grad_norm": 0.6062741875648499, "learning_rate": 0.002543333333333333, "loss": 2.1097, "step": 2370 }, { "epoch": 23.8, "grad_norm": 1.054940938949585, "learning_rate": 0.00254, "loss": 2.2839, "step": 2380 }, { "epoch": 23.9, "grad_norm": 2.2694478034973145, "learning_rate": 0.0025366666666666667, "loss": 2.1951, "step": 2390 }, { "epoch": 24.0, "grad_norm": 1.1363869905471802, "learning_rate": 0.002533333333333333, "loss": 2.1471, "step": 2400 }, { "epoch": 24.0, "eval_accuracy": 0.02, "eval_loss": 2.8313043117523193, "eval_runtime": 8.5714, "eval_samples_per_second": 11.667, "eval_steps_per_second": 11.667, "step": 2400 }, { "epoch": 24.1, "grad_norm": 0.9821159839630127, "learning_rate": 0.00253, "loss": 2.296, "step": 2410 }, { "epoch": 24.2, "grad_norm": 18.666667938232422, "learning_rate": 0.0025266666666666666, "loss": 2.194, "step": 2420 }, { "epoch": 24.3, "grad_norm": 0.906703531742096, "learning_rate": 0.0025233333333333336, "loss": 2.1612, "step": 2430 }, { "epoch": 24.4, "grad_norm": 0.8759214282035828, "learning_rate": 0.00252, "loss": 2.3219, "step": 2440 }, { "epoch": 24.5, "grad_norm": 2.061927556991577, "learning_rate": 0.0025166666666666666, "loss": 2.2479, "step": 2450 }, { "epoch": 24.6, "grad_norm": 1.9357784986495972, "learning_rate": 0.002513333333333333, "loss": 2.1494, "step": 2460 }, { "epoch": 24.7, "grad_norm": 0.7855737209320068, "learning_rate": 0.00251, "loss": 2.1368, "step": 2470 }, { "epoch": 24.8, "grad_norm": 1.1116645336151123, "learning_rate": 0.002506666666666667, "loss": 2.167, "step": 2480 }, { "epoch": 24.9, "grad_norm": 1.0230302810668945, "learning_rate": 0.0025033333333333335, "loss": 2.1518, "step": 2490 }, { "epoch": 25.0, "grad_norm": 0.7969598174095154, "learning_rate": 0.0025, "loss": 2.1658, "step": 2500 }, { "epoch": 25.0, "eval_accuracy": 0.11, "eval_loss": 2.9322524070739746, "eval_runtime": 14.5485, "eval_samples_per_second": 6.874, "eval_steps_per_second": 6.874, "step": 2500 }, { "epoch": 25.1, "grad_norm": 1.1143075227737427, "learning_rate": 0.0024966666666666666, "loss": 2.1519, "step": 2510 }, { "epoch": 25.2, "grad_norm": 1.9733251333236694, "learning_rate": 0.0024933333333333335, "loss": 2.2545, "step": 2520 }, { "epoch": 25.3, "grad_norm": 0.7734049558639526, "learning_rate": 0.00249, "loss": 2.3188, "step": 2530 }, { "epoch": 25.4, "grad_norm": 0.8898696303367615, "learning_rate": 0.0024866666666666665, "loss": 2.3433, "step": 2540 }, { "epoch": 25.5, "grad_norm": 0.9042370319366455, "learning_rate": 0.002483333333333333, "loss": 2.1533, "step": 2550 }, { "epoch": 25.6, "grad_norm": 0.7616782784461975, "learning_rate": 0.00248, "loss": 2.1676, "step": 2560 }, { "epoch": 25.7, "grad_norm": 1.0529074668884277, "learning_rate": 0.002476666666666667, "loss": 2.1489, "step": 2570 }, { "epoch": 25.8, "grad_norm": 0.6499335765838623, "learning_rate": 0.0024733333333333335, "loss": 2.1537, "step": 2580 }, { "epoch": 25.9, "grad_norm": 0.8011136054992676, "learning_rate": 0.00247, "loss": 2.1297, "step": 2590 }, { "epoch": 26.0, "grad_norm": 0.7980877757072449, "learning_rate": 0.0024666666666666665, "loss": 2.0946, "step": 2600 }, { "epoch": 26.0, "eval_accuracy": 0.14, "eval_loss": 2.8371801376342773, "eval_runtime": 20.2418, "eval_samples_per_second": 4.94, "eval_steps_per_second": 4.94, "step": 2600 }, { "epoch": 26.1, "grad_norm": 1.0512415170669556, "learning_rate": 0.0024633333333333334, "loss": 2.0609, "step": 2610 }, { "epoch": 26.2, "grad_norm": 0.7277994155883789, "learning_rate": 0.00246, "loss": 2.1957, "step": 2620 }, { "epoch": 26.3, "grad_norm": 0.7225540280342102, "learning_rate": 0.002456666666666667, "loss": 2.2818, "step": 2630 }, { "epoch": 26.4, "grad_norm": 0.833447277545929, "learning_rate": 0.0024533333333333334, "loss": 2.3521, "step": 2640 }, { "epoch": 26.5, "grad_norm": 0.6532344222068787, "learning_rate": 0.00245, "loss": 2.1103, "step": 2650 }, { "epoch": 26.6, "grad_norm": 1.618382215499878, "learning_rate": 0.002446666666666667, "loss": 2.1979, "step": 2660 }, { "epoch": 26.7, "grad_norm": 0.8852543830871582, "learning_rate": 0.0024433333333333334, "loss": 2.224, "step": 2670 }, { "epoch": 26.8, "grad_norm": 0.7051679491996765, "learning_rate": 0.00244, "loss": 2.2168, "step": 2680 }, { "epoch": 26.9, "grad_norm": 0.6945533752441406, "learning_rate": 0.0024366666666666664, "loss": 2.1522, "step": 2690 }, { "epoch": 27.0, "grad_norm": 0.8904722929000854, "learning_rate": 0.0024333333333333334, "loss": 2.0924, "step": 2700 }, { "epoch": 27.0, "eval_accuracy": 0.16, "eval_loss": 2.740328073501587, "eval_runtime": 2.5835, "eval_samples_per_second": 38.707, "eval_steps_per_second": 38.707, "step": 2700 }, { "epoch": 27.1, "grad_norm": 1.0091406106948853, "learning_rate": 0.0024300000000000003, "loss": 2.143, "step": 2710 }, { "epoch": 27.2, "grad_norm": 1.1486680507659912, "learning_rate": 0.002426666666666667, "loss": 2.2661, "step": 2720 }, { "epoch": 27.3, "grad_norm": 1.3828904628753662, "learning_rate": 0.0024233333333333333, "loss": 2.0716, "step": 2730 }, { "epoch": 27.4, "grad_norm": 0.7337507009506226, "learning_rate": 0.00242, "loss": 2.2243, "step": 2740 }, { "epoch": 27.5, "grad_norm": 0.7662250399589539, "learning_rate": 0.002416666666666667, "loss": 2.2204, "step": 2750 }, { "epoch": 27.6, "grad_norm": 1.3254953622817993, "learning_rate": 0.0024133333333333333, "loss": 2.1401, "step": 2760 }, { "epoch": 27.7, "grad_norm": 1.6423826217651367, "learning_rate": 0.0024100000000000002, "loss": 2.1909, "step": 2770 }, { "epoch": 27.8, "grad_norm": 2.5181260108947754, "learning_rate": 0.0024066666666666668, "loss": 2.2194, "step": 2780 }, { "epoch": 27.9, "grad_norm": 1.975514531135559, "learning_rate": 0.0024033333333333333, "loss": 2.1208, "step": 2790 }, { "epoch": 28.0, "grad_norm": 1.0756447315216064, "learning_rate": 0.0024000000000000002, "loss": 2.2634, "step": 2800 }, { "epoch": 28.0, "eval_accuracy": 0.14, "eval_loss": 2.899129867553711, "eval_runtime": 1.6216, "eval_samples_per_second": 61.667, "eval_steps_per_second": 61.667, "step": 2800 }, { "epoch": 28.1, "grad_norm": 0.6582184433937073, "learning_rate": 0.0023966666666666667, "loss": 2.1557, "step": 2810 }, { "epoch": 28.2, "grad_norm": 1.008514642715454, "learning_rate": 0.0023933333333333337, "loss": 2.1055, "step": 2820 }, { "epoch": 28.3, "grad_norm": 1.3647173643112183, "learning_rate": 0.0023899999999999998, "loss": 2.2375, "step": 2830 }, { "epoch": 28.4, "grad_norm": 1.080275058746338, "learning_rate": 0.0023866666666666667, "loss": 2.0351, "step": 2840 }, { "epoch": 28.5, "grad_norm": 0.8758491277694702, "learning_rate": 0.0023833333333333332, "loss": 2.1304, "step": 2850 }, { "epoch": 28.6, "grad_norm": 1.8762778043746948, "learning_rate": 0.00238, "loss": 2.0213, "step": 2860 }, { "epoch": 28.7, "grad_norm": 0.9291443228721619, "learning_rate": 0.0023766666666666667, "loss": 2.312, "step": 2870 }, { "epoch": 28.8, "grad_norm": 0.8882524967193604, "learning_rate": 0.002373333333333333, "loss": 2.2335, "step": 2880 }, { "epoch": 28.9, "grad_norm": 2.439899444580078, "learning_rate": 0.00237, "loss": 2.1726, "step": 2890 }, { "epoch": 29.0, "grad_norm": 0.9601397514343262, "learning_rate": 0.0023666666666666667, "loss": 2.1897, "step": 2900 }, { "epoch": 29.0, "eval_accuracy": 0.13, "eval_loss": 2.877793073654175, "eval_runtime": 1.4621, "eval_samples_per_second": 68.395, "eval_steps_per_second": 68.395, "step": 2900 }, { "epoch": 29.1, "grad_norm": 1.6170096397399902, "learning_rate": 0.0023633333333333336, "loss": 2.19, "step": 2910 }, { "epoch": 29.2, "grad_norm": 1.087302803993225, "learning_rate": 0.00236, "loss": 2.1638, "step": 2920 }, { "epoch": 29.3, "grad_norm": 1.0109162330627441, "learning_rate": 0.0023566666666666666, "loss": 2.2992, "step": 2930 }, { "epoch": 29.4, "grad_norm": 0.9964456558227539, "learning_rate": 0.0023533333333333336, "loss": 2.2524, "step": 2940 }, { "epoch": 29.5, "grad_norm": 0.7667860984802246, "learning_rate": 0.00235, "loss": 2.1753, "step": 2950 }, { "epoch": 29.6, "grad_norm": 0.9033471941947937, "learning_rate": 0.002346666666666667, "loss": 2.1623, "step": 2960 }, { "epoch": 29.7, "grad_norm": 0.9565698504447937, "learning_rate": 0.002343333333333333, "loss": 2.1097, "step": 2970 }, { "epoch": 29.8, "grad_norm": 0.7799054384231567, "learning_rate": 0.00234, "loss": 1.966, "step": 2980 }, { "epoch": 29.9, "grad_norm": 1.8788676261901855, "learning_rate": 0.0023366666666666666, "loss": 2.1329, "step": 2990 }, { "epoch": 30.0, "grad_norm": 1.1009427309036255, "learning_rate": 0.0023333333333333335, "loss": 2.144, "step": 3000 }, { "epoch": 30.0, "eval_accuracy": 0.15, "eval_loss": 2.604327917098999, "eval_runtime": 17.9498, "eval_samples_per_second": 5.571, "eval_steps_per_second": 5.571, "step": 3000 }, { "epoch": 30.1, "grad_norm": 1.678131341934204, "learning_rate": 0.00233, "loss": 1.8398, "step": 3010 }, { "epoch": 30.2, "grad_norm": 1.5525128841400146, "learning_rate": 0.0023266666666666666, "loss": 2.3239, "step": 3020 }, { "epoch": 30.3, "grad_norm": 5.229913711547852, "learning_rate": 0.0023233333333333335, "loss": 2.0991, "step": 3030 }, { "epoch": 30.4, "grad_norm": 7.659727096557617, "learning_rate": 0.00232, "loss": 2.2165, "step": 3040 }, { "epoch": 30.5, "grad_norm": 0.9004424214363098, "learning_rate": 0.002316666666666667, "loss": 2.1321, "step": 3050 }, { "epoch": 30.6, "grad_norm": 0.951036810874939, "learning_rate": 0.0023133333333333335, "loss": 2.2547, "step": 3060 }, { "epoch": 30.7, "grad_norm": 1.09541654586792, "learning_rate": 0.00231, "loss": 2.2086, "step": 3070 }, { "epoch": 30.8, "grad_norm": 1.0075805187225342, "learning_rate": 0.0023066666666666665, "loss": 2.1946, "step": 3080 }, { "epoch": 30.9, "grad_norm": 0.9394136071205139, "learning_rate": 0.0023033333333333334, "loss": 2.0717, "step": 3090 }, { "epoch": 31.0, "grad_norm": 16.980363845825195, "learning_rate": 0.0023000000000000004, "loss": 2.108, "step": 3100 }, { "epoch": 31.0, "eval_accuracy": 0.1, "eval_loss": 2.9230871200561523, "eval_runtime": 2.0771, "eval_samples_per_second": 48.144, "eval_steps_per_second": 48.144, "step": 3100 }, { "epoch": 31.1, "grad_norm": 0.7811866998672485, "learning_rate": 0.0022966666666666665, "loss": 2.0036, "step": 3110 }, { "epoch": 31.2, "grad_norm": 1.2719967365264893, "learning_rate": 0.0022933333333333334, "loss": 2.1995, "step": 3120 }, { "epoch": 31.3, "grad_norm": 1.078188180923462, "learning_rate": 0.00229, "loss": 2.1495, "step": 3130 }, { "epoch": 31.4, "grad_norm": 0.8753488659858704, "learning_rate": 0.002286666666666667, "loss": 2.1775, "step": 3140 }, { "epoch": 31.5, "grad_norm": 2.4827558994293213, "learning_rate": 0.0022833333333333334, "loss": 2.1295, "step": 3150 }, { "epoch": 31.6, "grad_norm": 0.9391091465950012, "learning_rate": 0.00228, "loss": 2.2033, "step": 3160 }, { "epoch": 31.7, "grad_norm": 1.3996204137802124, "learning_rate": 0.0022766666666666664, "loss": 2.1935, "step": 3170 }, { "epoch": 31.8, "grad_norm": 1.8268276453018188, "learning_rate": 0.0022733333333333334, "loss": 2.1358, "step": 3180 }, { "epoch": 31.9, "grad_norm": 0.9824120998382568, "learning_rate": 0.0022700000000000003, "loss": 2.2574, "step": 3190 }, { "epoch": 32.0, "grad_norm": 1.0939769744873047, "learning_rate": 0.002266666666666667, "loss": 2.0792, "step": 3200 }, { "epoch": 32.0, "eval_accuracy": 0.12, "eval_loss": 2.8421480655670166, "eval_runtime": 16.1564, "eval_samples_per_second": 6.19, "eval_steps_per_second": 6.19, "step": 3200 }, { "epoch": 32.1, "grad_norm": 2.173068046569824, "learning_rate": 0.0022633333333333333, "loss": 2.1458, "step": 3210 }, { "epoch": 32.2, "grad_norm": 1.260406255722046, "learning_rate": 0.00226, "loss": 2.2069, "step": 3220 }, { "epoch": 32.3, "grad_norm": 2.277165412902832, "learning_rate": 0.002256666666666667, "loss": 2.0435, "step": 3230 }, { "epoch": 32.4, "grad_norm": 1.674475073814392, "learning_rate": 0.0022533333333333333, "loss": 2.0519, "step": 3240 }, { "epoch": 32.5, "grad_norm": 3.267179250717163, "learning_rate": 0.0022500000000000003, "loss": 2.0692, "step": 3250 }, { "epoch": 32.6, "grad_norm": 1.6023820638656616, "learning_rate": 0.0022466666666666668, "loss": 2.1639, "step": 3260 }, { "epoch": 32.7, "grad_norm": 1.2279607057571411, "learning_rate": 0.0022433333333333333, "loss": 2.2729, "step": 3270 }, { "epoch": 32.8, "grad_norm": 1.635674238204956, "learning_rate": 0.0022400000000000002, "loss": 2.0502, "step": 3280 }, { "epoch": 32.9, "grad_norm": 1.9051593542099, "learning_rate": 0.0022366666666666668, "loss": 2.1046, "step": 3290 }, { "epoch": 33.0, "grad_norm": 2.705409288406372, "learning_rate": 0.0022333333333333333, "loss": 2.1552, "step": 3300 }, { "epoch": 33.0, "eval_accuracy": 0.12, "eval_loss": 2.8105697631835938, "eval_runtime": 1.4693, "eval_samples_per_second": 68.06, "eval_steps_per_second": 68.06, "step": 3300 }, { "epoch": 33.1, "grad_norm": 1.1642463207244873, "learning_rate": 0.0022299999999999998, "loss": 2.0948, "step": 3310 }, { "epoch": 33.2, "grad_norm": 1.0376132726669312, "learning_rate": 0.0022266666666666667, "loss": 1.9741, "step": 3320 }, { "epoch": 33.3, "grad_norm": 0.9662061929702759, "learning_rate": 0.0022233333333333337, "loss": 2.2141, "step": 3330 }, { "epoch": 33.4, "grad_norm": 2.136995315551758, "learning_rate": 0.00222, "loss": 2.1053, "step": 3340 }, { "epoch": 33.5, "grad_norm": 1.45195734500885, "learning_rate": 0.0022166666666666667, "loss": 1.9399, "step": 3350 }, { "epoch": 33.6, "grad_norm": 3.21307635307312, "learning_rate": 0.002213333333333333, "loss": 2.0541, "step": 3360 }, { "epoch": 33.7, "grad_norm": 3.3870184421539307, "learning_rate": 0.00221, "loss": 2.2113, "step": 3370 }, { "epoch": 33.8, "grad_norm": 1.0837563276290894, "learning_rate": 0.0022066666666666667, "loss": 2.1593, "step": 3380 }, { "epoch": 33.9, "grad_norm": 0.9785754084587097, "learning_rate": 0.0022033333333333336, "loss": 1.9864, "step": 3390 }, { "epoch": 34.0, "grad_norm": 0.8373335599899292, "learning_rate": 0.0021999999999999997, "loss": 1.9701, "step": 3400 }, { "epoch": 34.0, "eval_accuracy": 0.11, "eval_loss": 2.8279080390930176, "eval_runtime": 1.9248, "eval_samples_per_second": 51.952, "eval_steps_per_second": 51.952, "step": 3400 }, { "epoch": 34.1, "grad_norm": 3.9834160804748535, "learning_rate": 0.0021966666666666666, "loss": 1.9581, "step": 3410 }, { "epoch": 34.2, "grad_norm": 2.2129085063934326, "learning_rate": 0.0021933333333333336, "loss": 2.1602, "step": 3420 }, { "epoch": 34.3, "grad_norm": 1.1896631717681885, "learning_rate": 0.00219, "loss": 1.9392, "step": 3430 }, { "epoch": 34.4, "grad_norm": 2.016221523284912, "learning_rate": 0.0021866666666666666, "loss": 2.0553, "step": 3440 }, { "epoch": 34.5, "grad_norm": 4.773040771484375, "learning_rate": 0.002183333333333333, "loss": 2.0734, "step": 3450 }, { "epoch": 34.6, "grad_norm": 5.7598700523376465, "learning_rate": 0.00218, "loss": 2.2854, "step": 3460 }, { "epoch": 34.7, "grad_norm": 1.4225116968154907, "learning_rate": 0.0021766666666666666, "loss": 2.0867, "step": 3470 }, { "epoch": 34.8, "grad_norm": 1.354988932609558, "learning_rate": 0.0021733333333333335, "loss": 2.2302, "step": 3480 }, { "epoch": 34.9, "grad_norm": 1.966841220855713, "learning_rate": 0.00217, "loss": 2.1435, "step": 3490 }, { "epoch": 35.0, "grad_norm": 1.5340888500213623, "learning_rate": 0.0021666666666666666, "loss": 1.9291, "step": 3500 }, { "epoch": 35.0, "eval_accuracy": 0.2, "eval_loss": 3.095371961593628, "eval_runtime": 1.5179, "eval_samples_per_second": 65.88, "eval_steps_per_second": 65.88, "step": 3500 }, { "epoch": 35.1, "grad_norm": 0.9103881120681763, "learning_rate": 0.0021633333333333335, "loss": 2.0579, "step": 3510 }, { "epoch": 35.2, "grad_norm": 1.3390625715255737, "learning_rate": 0.00216, "loss": 2.1574, "step": 3520 }, { "epoch": 35.3, "grad_norm": 1.6019049882888794, "learning_rate": 0.002156666666666667, "loss": 2.1393, "step": 3530 }, { "epoch": 35.4, "grad_norm": 1.694638967514038, "learning_rate": 0.002153333333333333, "loss": 1.8902, "step": 3540 }, { "epoch": 35.5, "grad_norm": 0.9266729354858398, "learning_rate": 0.00215, "loss": 2.1477, "step": 3550 }, { "epoch": 35.6, "grad_norm": 1.482827067375183, "learning_rate": 0.0021466666666666665, "loss": 2.2807, "step": 3560 }, { "epoch": 35.7, "grad_norm": 1.5569509267807007, "learning_rate": 0.0021433333333333335, "loss": 1.9552, "step": 3570 }, { "epoch": 35.8, "grad_norm": 2.367547035217285, "learning_rate": 0.00214, "loss": 1.9954, "step": 3580 }, { "epoch": 35.9, "grad_norm": 6.488295555114746, "learning_rate": 0.0021366666666666665, "loss": 1.9197, "step": 3590 }, { "epoch": 36.0, "grad_norm": 2.1058995723724365, "learning_rate": 0.0021333333333333334, "loss": 2.0341, "step": 3600 }, { "epoch": 36.0, "eval_accuracy": 0.14, "eval_loss": 3.829360246658325, "eval_runtime": 1.4462, "eval_samples_per_second": 69.145, "eval_steps_per_second": 69.145, "step": 3600 }, { "epoch": 36.1, "grad_norm": 2.136566162109375, "learning_rate": 0.00213, "loss": 2.0017, "step": 3610 }, { "epoch": 36.2, "grad_norm": 3.5907399654388428, "learning_rate": 0.002126666666666667, "loss": 2.0714, "step": 3620 }, { "epoch": 36.3, "grad_norm": 1.7881414890289307, "learning_rate": 0.0021233333333333334, "loss": 1.892, "step": 3630 }, { "epoch": 36.4, "grad_norm": 2.1000165939331055, "learning_rate": 0.00212, "loss": 1.9525, "step": 3640 }, { "epoch": 36.5, "grad_norm": 1.9690414667129517, "learning_rate": 0.002116666666666667, "loss": 2.1597, "step": 3650 }, { "epoch": 36.6, "grad_norm": 18.85406494140625, "learning_rate": 0.0021133333333333334, "loss": 2.0152, "step": 3660 }, { "epoch": 36.7, "grad_norm": 1.5097402334213257, "learning_rate": 0.0021100000000000003, "loss": 2.1268, "step": 3670 }, { "epoch": 36.8, "grad_norm": 1.0894497632980347, "learning_rate": 0.0021066666666666664, "loss": 1.9798, "step": 3680 }, { "epoch": 36.9, "grad_norm": 1.648740530014038, "learning_rate": 0.0021033333333333334, "loss": 2.0881, "step": 3690 }, { "epoch": 37.0, "grad_norm": 1.3611383438110352, "learning_rate": 0.0021, "loss": 1.9165, "step": 3700 }, { "epoch": 37.0, "eval_accuracy": 0.11, "eval_loss": 4.528919219970703, "eval_runtime": 1.2924, "eval_samples_per_second": 77.378, "eval_steps_per_second": 77.378, "step": 3700 }, { "epoch": 37.1, "grad_norm": 1.7880363464355469, "learning_rate": 0.002096666666666667, "loss": 1.9742, "step": 3710 }, { "epoch": 37.2, "grad_norm": 2.8415615558624268, "learning_rate": 0.0020933333333333333, "loss": 1.895, "step": 3720 }, { "epoch": 37.3, "grad_norm": 1.9049543142318726, "learning_rate": 0.00209, "loss": 2.0672, "step": 3730 }, { "epoch": 37.4, "grad_norm": 2.0513916015625, "learning_rate": 0.002086666666666667, "loss": 2.0711, "step": 3740 }, { "epoch": 37.5, "grad_norm": 3.3003621101379395, "learning_rate": 0.0020833333333333333, "loss": 1.9041, "step": 3750 }, { "epoch": 37.6, "grad_norm": 1.8238269090652466, "learning_rate": 0.0020800000000000003, "loss": 1.7664, "step": 3760 }, { "epoch": 37.7, "grad_norm": 7.668329238891602, "learning_rate": 0.0020766666666666668, "loss": 2.0638, "step": 3770 }, { "epoch": 37.8, "grad_norm": 3.996469497680664, "learning_rate": 0.0020733333333333333, "loss": 2.1055, "step": 3780 }, { "epoch": 37.9, "grad_norm": 2.3909971714019775, "learning_rate": 0.00207, "loss": 2.1815, "step": 3790 }, { "epoch": 38.0, "grad_norm": 1.826292634010315, "learning_rate": 0.0020666666666666667, "loss": 1.9736, "step": 3800 }, { "epoch": 38.0, "eval_accuracy": 0.14, "eval_loss": 3.008984088897705, "eval_runtime": 10.9545, "eval_samples_per_second": 9.129, "eval_steps_per_second": 9.129, "step": 3800 }, { "epoch": 38.1, "grad_norm": 1.2425639629364014, "learning_rate": 0.0020633333333333337, "loss": 1.9483, "step": 3810 }, { "epoch": 38.2, "grad_norm": 1.175968885421753, "learning_rate": 0.00206, "loss": 2.0578, "step": 3820 }, { "epoch": 38.3, "grad_norm": 1.353892207145691, "learning_rate": 0.0020566666666666667, "loss": 2.0149, "step": 3830 }, { "epoch": 38.4, "grad_norm": 4.131348609924316, "learning_rate": 0.0020533333333333332, "loss": 1.9459, "step": 3840 }, { "epoch": 38.5, "grad_norm": 0.8871080875396729, "learning_rate": 0.00205, "loss": 2.1865, "step": 3850 }, { "epoch": 38.6, "grad_norm": 1.6456680297851562, "learning_rate": 0.0020466666666666667, "loss": 2.1644, "step": 3860 }, { "epoch": 38.7, "grad_norm": 2.714493751525879, "learning_rate": 0.002043333333333333, "loss": 2.0765, "step": 3870 }, { "epoch": 38.8, "grad_norm": 2.0388987064361572, "learning_rate": 0.00204, "loss": 2.1691, "step": 3880 }, { "epoch": 38.9, "grad_norm": 3.4107553958892822, "learning_rate": 0.0020366666666666667, "loss": 2.0441, "step": 3890 }, { "epoch": 39.0, "grad_norm": 0.9831299781799316, "learning_rate": 0.0020333333333333336, "loss": 1.9811, "step": 3900 }, { "epoch": 39.0, "eval_accuracy": 0.14, "eval_loss": 5.389962673187256, "eval_runtime": 1.4328, "eval_samples_per_second": 69.795, "eval_steps_per_second": 69.795, "step": 3900 }, { "epoch": 39.1, "grad_norm": 2.0271992683410645, "learning_rate": 0.00203, "loss": 1.9809, "step": 3910 }, { "epoch": 39.2, "grad_norm": 1.5080064535140991, "learning_rate": 0.0020266666666666666, "loss": 2.2516, "step": 3920 }, { "epoch": 39.3, "grad_norm": 1.161217451095581, "learning_rate": 0.002023333333333333, "loss": 1.9206, "step": 3930 }, { "epoch": 39.4, "grad_norm": 1.4843965768814087, "learning_rate": 0.00202, "loss": 1.8808, "step": 3940 }, { "epoch": 39.5, "grad_norm": 1.6773492097854614, "learning_rate": 0.002016666666666667, "loss": 1.8472, "step": 3950 }, { "epoch": 39.6, "grad_norm": 1.0647914409637451, "learning_rate": 0.0020133333333333336, "loss": 2.019, "step": 3960 }, { "epoch": 39.7, "grad_norm": 1.747930884361267, "learning_rate": 0.00201, "loss": 2.1662, "step": 3970 }, { "epoch": 39.8, "grad_norm": 2.1393418312072754, "learning_rate": 0.0020066666666666666, "loss": 2.1175, "step": 3980 }, { "epoch": 39.9, "grad_norm": 2.0009078979492188, "learning_rate": 0.0020033333333333335, "loss": 2.0526, "step": 3990 }, { "epoch": 40.0, "grad_norm": 0.8706101179122925, "learning_rate": 0.002, "loss": 1.9522, "step": 4000 }, { "epoch": 40.0, "eval_accuracy": 0.08, "eval_loss": 3.5710408687591553, "eval_runtime": 11.4581, "eval_samples_per_second": 8.727, "eval_steps_per_second": 8.727, "step": 4000 }, { "epoch": 40.1, "grad_norm": 1.443403959274292, "learning_rate": 0.0019966666666666666, "loss": 1.9578, "step": 4010 }, { "epoch": 40.2, "grad_norm": 1.0098460912704468, "learning_rate": 0.001993333333333333, "loss": 1.9322, "step": 4020 }, { "epoch": 40.3, "grad_norm": 2.6353437900543213, "learning_rate": 0.00199, "loss": 1.9057, "step": 4030 }, { "epoch": 40.4, "grad_norm": 3.636230230331421, "learning_rate": 0.001986666666666667, "loss": 2.2036, "step": 4040 }, { "epoch": 40.5, "grad_norm": 2.8781425952911377, "learning_rate": 0.0019833333333333335, "loss": 2.1279, "step": 4050 }, { "epoch": 40.6, "grad_norm": 2.572105646133423, "learning_rate": 0.00198, "loss": 1.9084, "step": 4060 }, { "epoch": 40.7, "grad_norm": 1.249396800994873, "learning_rate": 0.0019766666666666665, "loss": 1.8248, "step": 4070 }, { "epoch": 40.8, "grad_norm": 7.5078959465026855, "learning_rate": 0.0019733333333333334, "loss": 1.911, "step": 4080 }, { "epoch": 40.9, "grad_norm": 3.5880582332611084, "learning_rate": 0.00197, "loss": 2.0661, "step": 4090 }, { "epoch": 41.0, "grad_norm": 5.388538360595703, "learning_rate": 0.001966666666666667, "loss": 2.047, "step": 4100 }, { "epoch": 41.0, "eval_accuracy": 0.13, "eval_loss": 3.472397565841675, "eval_runtime": 7.0399, "eval_samples_per_second": 14.205, "eval_steps_per_second": 14.205, "step": 4100 }, { "epoch": 41.1, "grad_norm": 1.7672760486602783, "learning_rate": 0.0019633333333333334, "loss": 2.1461, "step": 4110 }, { "epoch": 41.2, "grad_norm": 3.0011463165283203, "learning_rate": 0.00196, "loss": 2.053, "step": 4120 }, { "epoch": 41.3, "grad_norm": 1.1528350114822388, "learning_rate": 0.001956666666666667, "loss": 1.8176, "step": 4130 }, { "epoch": 41.4, "grad_norm": 2.7469072341918945, "learning_rate": 0.0019533333333333334, "loss": 2.1321, "step": 4140 }, { "epoch": 41.5, "grad_norm": 1.233780860900879, "learning_rate": 0.0019500000000000001, "loss": 1.9267, "step": 4150 }, { "epoch": 41.6, "grad_norm": 1.0265371799468994, "learning_rate": 0.0019466666666666666, "loss": 1.9318, "step": 4160 }, { "epoch": 41.7, "grad_norm": 1.1822024583816528, "learning_rate": 0.0019433333333333334, "loss": 2.0635, "step": 4170 }, { "epoch": 41.8, "grad_norm": 6.102161407470703, "learning_rate": 0.0019399999999999999, "loss": 1.8995, "step": 4180 }, { "epoch": 41.9, "grad_norm": 2.581594467163086, "learning_rate": 0.0019366666666666666, "loss": 1.815, "step": 4190 }, { "epoch": 42.0, "grad_norm": 1.29677414894104, "learning_rate": 0.0019333333333333336, "loss": 1.9999, "step": 4200 }, { "epoch": 42.0, "eval_accuracy": 0.11, "eval_loss": 7.260364532470703, "eval_runtime": 19.8343, "eval_samples_per_second": 5.042, "eval_steps_per_second": 5.042, "step": 4200 }, { "epoch": 42.1, "grad_norm": 6.908992290496826, "learning_rate": 0.00193, "loss": 1.8636, "step": 4210 }, { "epoch": 42.2, "grad_norm": 2.6703882217407227, "learning_rate": 0.0019266666666666668, "loss": 1.9093, "step": 4220 }, { "epoch": 42.3, "grad_norm": 3.580500841140747, "learning_rate": 0.0019233333333333333, "loss": 2.0113, "step": 4230 }, { "epoch": 42.4, "grad_norm": 3.339911937713623, "learning_rate": 0.00192, "loss": 1.8378, "step": 4240 }, { "epoch": 42.5, "grad_norm": 1.8307009935379028, "learning_rate": 0.0019166666666666666, "loss": 2.017, "step": 4250 }, { "epoch": 42.6, "grad_norm": 3.4338369369506836, "learning_rate": 0.0019133333333333333, "loss": 2.1168, "step": 4260 }, { "epoch": 42.7, "grad_norm": 5.363007545471191, "learning_rate": 0.0019100000000000002, "loss": 2.1431, "step": 4270 }, { "epoch": 42.8, "grad_norm": 1.6690889596939087, "learning_rate": 0.0019066666666666668, "loss": 1.8596, "step": 4280 }, { "epoch": 42.9, "grad_norm": 3.8428828716278076, "learning_rate": 0.0019033333333333335, "loss": 1.8642, "step": 4290 }, { "epoch": 43.0, "grad_norm": 2.877225160598755, "learning_rate": 0.0019, "loss": 1.9869, "step": 4300 }, { "epoch": 43.0, "eval_accuracy": 0.06, "eval_loss": 7.994565010070801, "eval_runtime": 3.2267, "eval_samples_per_second": 30.991, "eval_steps_per_second": 30.991, "step": 4300 }, { "epoch": 43.1, "grad_norm": 2.577849864959717, "learning_rate": 0.0018966666666666667, "loss": 1.9454, "step": 4310 }, { "epoch": 43.2, "grad_norm": 1.6029572486877441, "learning_rate": 0.0018933333333333332, "loss": 1.7824, "step": 4320 }, { "epoch": 43.3, "grad_norm": 3.6236324310302734, "learning_rate": 0.00189, "loss": 1.9488, "step": 4330 }, { "epoch": 43.4, "grad_norm": 2.585770845413208, "learning_rate": 0.001886666666666667, "loss": 2.0196, "step": 4340 }, { "epoch": 43.5, "grad_norm": 1.989559531211853, "learning_rate": 0.0018833333333333334, "loss": 2.112, "step": 4350 }, { "epoch": 43.6, "grad_norm": 1.21571683883667, "learning_rate": 0.0018800000000000002, "loss": 1.8392, "step": 4360 }, { "epoch": 43.7, "grad_norm": 1.674765944480896, "learning_rate": 0.0018766666666666667, "loss": 1.9925, "step": 4370 }, { "epoch": 43.8, "grad_norm": 1.5830934047698975, "learning_rate": 0.0018733333333333334, "loss": 1.9278, "step": 4380 }, { "epoch": 43.9, "grad_norm": 3.7739739418029785, "learning_rate": 0.00187, "loss": 1.9097, "step": 4390 }, { "epoch": 44.0, "grad_norm": 1.0863910913467407, "learning_rate": 0.0018666666666666666, "loss": 1.9428, "step": 4400 }, { "epoch": 44.0, "eval_accuracy": 0.08, "eval_loss": 6.156602382659912, "eval_runtime": 1.6006, "eval_samples_per_second": 62.478, "eval_steps_per_second": 62.478, "step": 4400 }, { "epoch": 44.1, "grad_norm": 1.9607887268066406, "learning_rate": 0.0018633333333333332, "loss": 2.0214, "step": 4410 }, { "epoch": 44.2, "grad_norm": 0.9546820521354675, "learning_rate": 0.00186, "loss": 2.0561, "step": 4420 }, { "epoch": 44.3, "grad_norm": 3.94052791595459, "learning_rate": 0.0018566666666666668, "loss": 1.8098, "step": 4430 }, { "epoch": 44.4, "grad_norm": 1.6813486814498901, "learning_rate": 0.0018533333333333334, "loss": 1.8502, "step": 4440 }, { "epoch": 44.5, "grad_norm": 2.918163299560547, "learning_rate": 0.00185, "loss": 1.7545, "step": 4450 }, { "epoch": 44.6, "grad_norm": 2.301067352294922, "learning_rate": 0.0018466666666666666, "loss": 2.1371, "step": 4460 }, { "epoch": 44.7, "grad_norm": 4.0886712074279785, "learning_rate": 0.0018433333333333333, "loss": 2.0279, "step": 4470 }, { "epoch": 44.8, "grad_norm": 1.5965591669082642, "learning_rate": 0.0018399999999999998, "loss": 2.0054, "step": 4480 }, { "epoch": 44.9, "grad_norm": 1.5079519748687744, "learning_rate": 0.0018366666666666668, "loss": 1.8201, "step": 4490 }, { "epoch": 45.0, "grad_norm": 2.8402748107910156, "learning_rate": 0.0018333333333333335, "loss": 1.7922, "step": 4500 }, { "epoch": 45.0, "eval_accuracy": 0.03, "eval_loss": 4.991882801055908, "eval_runtime": 1.6352, "eval_samples_per_second": 61.156, "eval_steps_per_second": 61.156, "step": 4500 }, { "epoch": 45.1, "grad_norm": 2.2311179637908936, "learning_rate": 0.00183, "loss": 1.8237, "step": 4510 }, { "epoch": 45.2, "grad_norm": 1.873672604560852, "learning_rate": 0.0018266666666666668, "loss": 1.9774, "step": 4520 }, { "epoch": 45.3, "grad_norm": 2.2289321422576904, "learning_rate": 0.0018233333333333333, "loss": 2.0517, "step": 4530 }, { "epoch": 45.4, "grad_norm": 4.614668846130371, "learning_rate": 0.00182, "loss": 1.8622, "step": 4540 }, { "epoch": 45.5, "grad_norm": 2.254178285598755, "learning_rate": 0.0018166666666666665, "loss": 1.9902, "step": 4550 }, { "epoch": 45.6, "grad_norm": 5.717199325561523, "learning_rate": 0.0018133333333333335, "loss": 2.0937, "step": 4560 }, { "epoch": 45.7, "grad_norm": 2.302830219268799, "learning_rate": 0.0018100000000000002, "loss": 1.8008, "step": 4570 }, { "epoch": 45.8, "grad_norm": 3.8907456398010254, "learning_rate": 0.0018066666666666667, "loss": 1.8008, "step": 4580 }, { "epoch": 45.9, "grad_norm": 3.854527711868286, "learning_rate": 0.0018033333333333334, "loss": 1.9225, "step": 4590 }, { "epoch": 46.0, "grad_norm": 2.202763795852661, "learning_rate": 0.0018, "loss": 1.9047, "step": 4600 }, { "epoch": 46.0, "eval_accuracy": 0.13, "eval_loss": 7.193399429321289, "eval_runtime": 1.5717, "eval_samples_per_second": 63.626, "eval_steps_per_second": 63.626, "step": 4600 }, { "epoch": 46.1, "grad_norm": 0.9213665723800659, "learning_rate": 0.0017966666666666667, "loss": 1.8289, "step": 4610 }, { "epoch": 46.2, "grad_norm": 1.6906572580337524, "learning_rate": 0.0017933333333333332, "loss": 2.1097, "step": 4620 }, { "epoch": 46.3, "grad_norm": 4.417488098144531, "learning_rate": 0.0017900000000000001, "loss": 1.8328, "step": 4630 }, { "epoch": 46.4, "grad_norm": 1.8122247457504272, "learning_rate": 0.0017866666666666667, "loss": 2.0426, "step": 4640 }, { "epoch": 46.5, "grad_norm": 2.3169689178466797, "learning_rate": 0.0017833333333333334, "loss": 1.8678, "step": 4650 }, { "epoch": 46.6, "grad_norm": 2.3043506145477295, "learning_rate": 0.0017800000000000001, "loss": 1.9539, "step": 4660 }, { "epoch": 46.7, "grad_norm": 3.5980923175811768, "learning_rate": 0.0017766666666666666, "loss": 1.9287, "step": 4670 }, { "epoch": 46.8, "grad_norm": 4.76849365234375, "learning_rate": 0.0017733333333333334, "loss": 1.948, "step": 4680 }, { "epoch": 46.9, "grad_norm": 1.292289137840271, "learning_rate": 0.0017699999999999999, "loss": 2.1434, "step": 4690 }, { "epoch": 47.0, "grad_norm": 6.172546863555908, "learning_rate": 0.0017666666666666668, "loss": 1.9419, "step": 4700 }, { "epoch": 47.0, "eval_accuracy": 0.08, "eval_loss": 4.326533317565918, "eval_runtime": 1.6119, "eval_samples_per_second": 62.037, "eval_steps_per_second": 62.037, "step": 4700 }, { "epoch": 47.1, "grad_norm": 4.527221202850342, "learning_rate": 0.0017633333333333333, "loss": 1.67, "step": 4710 }, { "epoch": 47.2, "grad_norm": 2.071593761444092, "learning_rate": 0.00176, "loss": 1.7771, "step": 4720 }, { "epoch": 47.3, "grad_norm": 2.786754846572876, "learning_rate": 0.0017566666666666668, "loss": 2.0374, "step": 4730 }, { "epoch": 47.4, "grad_norm": 2.9459238052368164, "learning_rate": 0.0017533333333333333, "loss": 1.9356, "step": 4740 }, { "epoch": 47.5, "grad_norm": 3.7896053791046143, "learning_rate": 0.0017500000000000003, "loss": 1.936, "step": 4750 }, { "epoch": 47.6, "grad_norm": 3.3444080352783203, "learning_rate": 0.0017466666666666665, "loss": 2.0647, "step": 4760 }, { "epoch": 47.7, "grad_norm": 2.463644027709961, "learning_rate": 0.0017433333333333335, "loss": 1.8612, "step": 4770 }, { "epoch": 47.8, "grad_norm": 2.2192585468292236, "learning_rate": 0.00174, "loss": 1.9938, "step": 4780 }, { "epoch": 47.9, "grad_norm": 2.3443355560302734, "learning_rate": 0.0017366666666666667, "loss": 1.9478, "step": 4790 }, { "epoch": 48.0, "grad_norm": 3.5949223041534424, "learning_rate": 0.0017333333333333333, "loss": 1.7765, "step": 4800 }, { "epoch": 48.0, "eval_accuracy": 0.12, "eval_loss": 4.613639831542969, "eval_runtime": 1.6316, "eval_samples_per_second": 61.29, "eval_steps_per_second": 61.29, "step": 4800 }, { "epoch": 48.1, "grad_norm": 1.3368432521820068, "learning_rate": 0.00173, "loss": 1.9142, "step": 4810 }, { "epoch": 48.2, "grad_norm": 2.000155448913574, "learning_rate": 0.001726666666666667, "loss": 1.9052, "step": 4820 }, { "epoch": 48.3, "grad_norm": 6.261807918548584, "learning_rate": 0.0017233333333333332, "loss": 1.9964, "step": 4830 }, { "epoch": 48.4, "grad_norm": 1.433078408241272, "learning_rate": 0.0017200000000000002, "loss": 1.9076, "step": 4840 }, { "epoch": 48.5, "grad_norm": 2.1348838806152344, "learning_rate": 0.0017166666666666667, "loss": 1.7777, "step": 4850 }, { "epoch": 48.6, "grad_norm": 3.1317050457000732, "learning_rate": 0.0017133333333333334, "loss": 1.8805, "step": 4860 }, { "epoch": 48.7, "grad_norm": 3.248568534851074, "learning_rate": 0.00171, "loss": 1.9639, "step": 4870 }, { "epoch": 48.8, "grad_norm": 1.4480762481689453, "learning_rate": 0.0017066666666666667, "loss": 1.8757, "step": 4880 }, { "epoch": 48.9, "grad_norm": 2.1497910022735596, "learning_rate": 0.0017033333333333336, "loss": 1.7923, "step": 4890 }, { "epoch": 49.0, "grad_norm": 2.5053927898406982, "learning_rate": 0.0017, "loss": 1.7962, "step": 4900 }, { "epoch": 49.0, "eval_accuracy": 0.14, "eval_loss": 13.476518630981445, "eval_runtime": 1.7036, "eval_samples_per_second": 58.7, "eval_steps_per_second": 58.7, "step": 4900 }, { "epoch": 49.1, "grad_norm": 3.2668566703796387, "learning_rate": 0.0016966666666666669, "loss": 1.7602, "step": 4910 }, { "epoch": 49.2, "grad_norm": 1.1898913383483887, "learning_rate": 0.0016933333333333334, "loss": 1.8113, "step": 4920 }, { "epoch": 49.3, "grad_norm": 3.223593235015869, "learning_rate": 0.00169, "loss": 2.0273, "step": 4930 }, { "epoch": 49.4, "grad_norm": 4.745173454284668, "learning_rate": 0.0016866666666666666, "loss": 1.7831, "step": 4940 }, { "epoch": 49.5, "grad_norm": 1.5475022792816162, "learning_rate": 0.0016833333333333333, "loss": 1.9636, "step": 4950 }, { "epoch": 49.6, "grad_norm": 3.3999617099761963, "learning_rate": 0.0016800000000000003, "loss": 1.7679, "step": 4960 }, { "epoch": 49.7, "grad_norm": 2.1823158264160156, "learning_rate": 0.0016766666666666666, "loss": 1.9602, "step": 4970 }, { "epoch": 49.8, "grad_norm": 1.2854535579681396, "learning_rate": 0.0016733333333333335, "loss": 1.8646, "step": 4980 }, { "epoch": 49.9, "grad_norm": 3.2971255779266357, "learning_rate": 0.00167, "loss": 1.9398, "step": 4990 }, { "epoch": 50.0, "grad_norm": 4.854804039001465, "learning_rate": 0.0016666666666666668, "loss": 2.0226, "step": 5000 }, { "epoch": 50.0, "eval_accuracy": 0.08, "eval_loss": 8.122514724731445, "eval_runtime": 1.6511, "eval_samples_per_second": 60.567, "eval_steps_per_second": 60.567, "step": 5000 }, { "epoch": 50.1, "grad_norm": 2.5975425243377686, "learning_rate": 0.0016633333333333333, "loss": 1.9288, "step": 5010 }, { "epoch": 50.2, "grad_norm": 1.7692967653274536, "learning_rate": 0.00166, "loss": 1.8247, "step": 5020 }, { "epoch": 50.3, "grad_norm": 2.7661757469177246, "learning_rate": 0.0016566666666666665, "loss": 2.0096, "step": 5030 }, { "epoch": 50.4, "grad_norm": 1.707748532295227, "learning_rate": 0.0016533333333333333, "loss": 1.6249, "step": 5040 }, { "epoch": 50.5, "grad_norm": 1.9424363374710083, "learning_rate": 0.0016500000000000002, "loss": 1.9504, "step": 5050 }, { "epoch": 50.6, "grad_norm": 5.841362476348877, "learning_rate": 0.0016466666666666667, "loss": 1.7022, "step": 5060 }, { "epoch": 50.7, "grad_norm": 5.629020690917969, "learning_rate": 0.0016433333333333335, "loss": 1.8386, "step": 5070 }, { "epoch": 50.8, "grad_norm": 3.982902765274048, "learning_rate": 0.00164, "loss": 1.9075, "step": 5080 }, { "epoch": 50.9, "grad_norm": 1.95156991481781, "learning_rate": 0.0016366666666666667, "loss": 1.7509, "step": 5090 }, { "epoch": 51.0, "grad_norm": 3.8183364868164062, "learning_rate": 0.0016333333333333332, "loss": 2.1393, "step": 5100 }, { "epoch": 51.0, "eval_accuracy": 0.17, "eval_loss": 7.794131278991699, "eval_runtime": 1.5853, "eval_samples_per_second": 63.08, "eval_steps_per_second": 63.08, "step": 5100 }, { "epoch": 51.1, "grad_norm": 4.704866886138916, "learning_rate": 0.00163, "loss": 1.8829, "step": 5110 }, { "epoch": 51.2, "grad_norm": 5.786809921264648, "learning_rate": 0.0016266666666666669, "loss": 1.8662, "step": 5120 }, { "epoch": 51.3, "grad_norm": 2.3854682445526123, "learning_rate": 0.0016233333333333334, "loss": 1.8345, "step": 5130 }, { "epoch": 51.4, "grad_norm": 1.6624096632003784, "learning_rate": 0.0016200000000000001, "loss": 1.9696, "step": 5140 }, { "epoch": 51.5, "grad_norm": 2.215571880340576, "learning_rate": 0.0016166666666666666, "loss": 1.8693, "step": 5150 }, { "epoch": 51.6, "grad_norm": 4.892175197601318, "learning_rate": 0.0016133333333333334, "loss": 2.2826, "step": 5160 }, { "epoch": 51.7, "grad_norm": 2.0336062908172607, "learning_rate": 0.0016099999999999999, "loss": 1.9523, "step": 5170 }, { "epoch": 51.8, "grad_norm": 1.3163597583770752, "learning_rate": 0.0016066666666666666, "loss": 2.0221, "step": 5180 }, { "epoch": 51.9, "grad_norm": 3.6314053535461426, "learning_rate": 0.0016033333333333336, "loss": 1.8021, "step": 5190 }, { "epoch": 52.0, "grad_norm": 4.095399856567383, "learning_rate": 0.0016, "loss": 1.8256, "step": 5200 }, { "epoch": 52.0, "eval_accuracy": 0.12, "eval_loss": 5.413360118865967, "eval_runtime": 1.6389, "eval_samples_per_second": 61.017, "eval_steps_per_second": 61.017, "step": 5200 }, { "epoch": 52.1, "grad_norm": 5.811031341552734, "learning_rate": 0.0015966666666666668, "loss": 1.7871, "step": 5210 }, { "epoch": 52.2, "grad_norm": 1.6372181177139282, "learning_rate": 0.0015933333333333333, "loss": 2.0306, "step": 5220 }, { "epoch": 52.3, "grad_norm": 1.0381364822387695, "learning_rate": 0.00159, "loss": 1.9718, "step": 5230 }, { "epoch": 52.4, "grad_norm": 3.0742342472076416, "learning_rate": 0.0015866666666666666, "loss": 1.9477, "step": 5240 }, { "epoch": 52.5, "grad_norm": 2.2406508922576904, "learning_rate": 0.0015833333333333335, "loss": 1.9322, "step": 5250 }, { "epoch": 52.6, "grad_norm": 3.015726327896118, "learning_rate": 0.0015799999999999998, "loss": 1.6133, "step": 5260 }, { "epoch": 52.7, "grad_norm": 4.843988418579102, "learning_rate": 0.0015766666666666668, "loss": 1.9038, "step": 5270 }, { "epoch": 52.8, "grad_norm": 3.5391154289245605, "learning_rate": 0.0015733333333333335, "loss": 1.9509, "step": 5280 }, { "epoch": 52.9, "grad_norm": 2.697735548019409, "learning_rate": 0.00157, "loss": 1.9014, "step": 5290 }, { "epoch": 53.0, "grad_norm": 6.837653636932373, "learning_rate": 0.0015666666666666667, "loss": 1.9116, "step": 5300 }, { "epoch": 53.0, "eval_accuracy": 0.08, "eval_loss": 6.112913608551025, "eval_runtime": 1.6689, "eval_samples_per_second": 59.919, "eval_steps_per_second": 59.919, "step": 5300 }, { "epoch": 53.1, "grad_norm": 1.5611952543258667, "learning_rate": 0.0015633333333333332, "loss": 1.6709, "step": 5310 }, { "epoch": 53.2, "grad_norm": 0.9511187672615051, "learning_rate": 0.0015600000000000002, "loss": 1.866, "step": 5320 }, { "epoch": 53.3, "grad_norm": 4.475405216217041, "learning_rate": 0.0015566666666666665, "loss": 1.6536, "step": 5330 }, { "epoch": 53.4, "grad_norm": 4.969283103942871, "learning_rate": 0.0015533333333333334, "loss": 1.8588, "step": 5340 }, { "epoch": 53.5, "grad_norm": 1.5282946825027466, "learning_rate": 0.0015500000000000002, "loss": 1.7311, "step": 5350 }, { "epoch": 53.6, "grad_norm": 2.565603494644165, "learning_rate": 0.0015466666666666667, "loss": 1.9764, "step": 5360 }, { "epoch": 53.7, "grad_norm": 3.92899489402771, "learning_rate": 0.0015433333333333334, "loss": 1.8728, "step": 5370 }, { "epoch": 53.8, "grad_norm": 8.752714157104492, "learning_rate": 0.00154, "loss": 2.0048, "step": 5380 }, { "epoch": 53.9, "grad_norm": 2.1922614574432373, "learning_rate": 0.0015366666666666669, "loss": 1.7953, "step": 5390 }, { "epoch": 54.0, "grad_norm": 1.7674418687820435, "learning_rate": 0.0015333333333333332, "loss": 2.1156, "step": 5400 }, { "epoch": 54.0, "eval_accuracy": 0.14, "eval_loss": 4.145403861999512, "eval_runtime": 1.4782, "eval_samples_per_second": 67.649, "eval_steps_per_second": 67.649, "step": 5400 }, { "epoch": 54.1, "grad_norm": 1.4317039251327515, "learning_rate": 0.0015300000000000001, "loss": 2.1365, "step": 5410 }, { "epoch": 54.2, "grad_norm": 2.728269577026367, "learning_rate": 0.0015266666666666666, "loss": 1.8243, "step": 5420 }, { "epoch": 54.3, "grad_norm": 1.3561785221099854, "learning_rate": 0.0015233333333333334, "loss": 1.6856, "step": 5430 }, { "epoch": 54.4, "grad_norm": 2.300229549407959, "learning_rate": 0.00152, "loss": 1.7025, "step": 5440 }, { "epoch": 54.5, "grad_norm": 2.610546350479126, "learning_rate": 0.0015166666666666666, "loss": 1.8949, "step": 5450 }, { "epoch": 54.6, "grad_norm": 3.494725465774536, "learning_rate": 0.0015133333333333335, "loss": 1.7296, "step": 5460 }, { "epoch": 54.7, "grad_norm": 3.7900161743164062, "learning_rate": 0.0015099999999999998, "loss": 1.9087, "step": 5470 }, { "epoch": 54.8, "grad_norm": 5.745708465576172, "learning_rate": 0.0015066666666666668, "loss": 1.9497, "step": 5480 }, { "epoch": 54.9, "grad_norm": 3.6180849075317383, "learning_rate": 0.0015033333333333333, "loss": 1.8751, "step": 5490 }, { "epoch": 55.0, "grad_norm": 1.9145499467849731, "learning_rate": 0.0015, "loss": 1.7501, "step": 5500 }, { "epoch": 55.0, "eval_accuracy": 0.09, "eval_loss": 6.213360786437988, "eval_runtime": 1.2055, "eval_samples_per_second": 82.957, "eval_steps_per_second": 82.957, "step": 5500 }, { "epoch": 55.1, "grad_norm": 3.158578395843506, "learning_rate": 0.0014966666666666668, "loss": 1.7163, "step": 5510 }, { "epoch": 55.2, "grad_norm": 10.36141586303711, "learning_rate": 0.0014933333333333333, "loss": 1.8999, "step": 5520 }, { "epoch": 55.3, "grad_norm": 6.241248607635498, "learning_rate": 0.00149, "loss": 1.6129, "step": 5530 }, { "epoch": 55.4, "grad_norm": 5.371027946472168, "learning_rate": 0.0014866666666666667, "loss": 1.747, "step": 5540 }, { "epoch": 55.5, "grad_norm": 8.025517463684082, "learning_rate": 0.0014833333333333335, "loss": 1.8701, "step": 5550 }, { "epoch": 55.6, "grad_norm": 1.9207485914230347, "learning_rate": 0.00148, "loss": 1.7299, "step": 5560 }, { "epoch": 55.7, "grad_norm": 5.347723007202148, "learning_rate": 0.0014766666666666667, "loss": 2.0809, "step": 5570 }, { "epoch": 55.8, "grad_norm": 2.564652919769287, "learning_rate": 0.0014733333333333334, "loss": 1.5181, "step": 5580 }, { "epoch": 55.9, "grad_norm": 2.4365596771240234, "learning_rate": 0.00147, "loss": 2.0716, "step": 5590 }, { "epoch": 56.0, "grad_norm": 2.38962721824646, "learning_rate": 0.0014666666666666667, "loss": 1.8722, "step": 5600 }, { "epoch": 56.0, "eval_accuracy": 0.12, "eval_loss": 6.498541831970215, "eval_runtime": 1.059, "eval_samples_per_second": 94.424, "eval_steps_per_second": 94.424, "step": 5600 }, { "epoch": 56.1, "grad_norm": 3.4303345680236816, "learning_rate": 0.0014633333333333332, "loss": 2.0598, "step": 5610 }, { "epoch": 56.2, "grad_norm": 5.073793411254883, "learning_rate": 0.0014600000000000001, "loss": 1.6931, "step": 5620 }, { "epoch": 56.3, "grad_norm": 4.5366644859313965, "learning_rate": 0.0014566666666666667, "loss": 1.7725, "step": 5630 }, { "epoch": 56.4, "grad_norm": 4.9346022605896, "learning_rate": 0.0014533333333333334, "loss": 1.7445, "step": 5640 }, { "epoch": 56.5, "grad_norm": 1.8802194595336914, "learning_rate": 0.0014500000000000001, "loss": 1.8807, "step": 5650 }, { "epoch": 56.6, "grad_norm": 9.372114181518555, "learning_rate": 0.0014466666666666666, "loss": 2.0712, "step": 5660 }, { "epoch": 56.7, "grad_norm": 1.4863404035568237, "learning_rate": 0.0014433333333333334, "loss": 2.0337, "step": 5670 }, { "epoch": 56.8, "grad_norm": 6.14418888092041, "learning_rate": 0.0014399999999999999, "loss": 1.8824, "step": 5680 }, { "epoch": 56.9, "grad_norm": 4.623052597045898, "learning_rate": 0.0014366666666666666, "loss": 1.7163, "step": 5690 }, { "epoch": 57.0, "grad_norm": 2.0986571311950684, "learning_rate": 0.0014333333333333333, "loss": 1.9432, "step": 5700 }, { "epoch": 57.0, "eval_accuracy": 0.12, "eval_loss": 5.271793842315674, "eval_runtime": 1.0742, "eval_samples_per_second": 93.091, "eval_steps_per_second": 93.091, "step": 5700 }, { "epoch": 57.1, "grad_norm": 1.7047914266586304, "learning_rate": 0.00143, "loss": 1.681, "step": 5710 }, { "epoch": 57.2, "grad_norm": 5.937868595123291, "learning_rate": 0.0014266666666666668, "loss": 1.9401, "step": 5720 }, { "epoch": 57.3, "grad_norm": 2.155251979827881, "learning_rate": 0.0014233333333333333, "loss": 1.7128, "step": 5730 }, { "epoch": 57.4, "grad_norm": 3.07235050201416, "learning_rate": 0.00142, "loss": 1.6452, "step": 5740 }, { "epoch": 57.5, "grad_norm": 3.241396427154541, "learning_rate": 0.0014166666666666666, "loss": 1.5336, "step": 5750 }, { "epoch": 57.6, "grad_norm": 2.2947235107421875, "learning_rate": 0.0014133333333333333, "loss": 1.8406, "step": 5760 }, { "epoch": 57.7, "grad_norm": 3.67720627784729, "learning_rate": 0.00141, "loss": 1.8698, "step": 5770 }, { "epoch": 57.8, "grad_norm": 4.078272342681885, "learning_rate": 0.0014066666666666667, "loss": 1.7784, "step": 5780 }, { "epoch": 57.9, "grad_norm": 5.352456569671631, "learning_rate": 0.0014033333333333335, "loss": 2.0788, "step": 5790 }, { "epoch": 58.0, "grad_norm": 2.5838003158569336, "learning_rate": 0.0014, "loss": 1.7713, "step": 5800 }, { "epoch": 58.0, "eval_accuracy": 0.08, "eval_loss": 12.331060409545898, "eval_runtime": 1.0626, "eval_samples_per_second": 94.11, "eval_steps_per_second": 94.11, "step": 5800 }, { "epoch": 58.1, "grad_norm": 1.693384051322937, "learning_rate": 0.0013966666666666667, "loss": 1.656, "step": 5810 }, { "epoch": 58.2, "grad_norm": 3.3912696838378906, "learning_rate": 0.0013933333333333334, "loss": 1.7021, "step": 5820 }, { "epoch": 58.3, "grad_norm": 8.783439636230469, "learning_rate": 0.00139, "loss": 1.9102, "step": 5830 }, { "epoch": 58.4, "grad_norm": 3.9075992107391357, "learning_rate": 0.0013866666666666667, "loss": 1.8775, "step": 5840 }, { "epoch": 58.5, "grad_norm": 2.6207642555236816, "learning_rate": 0.0013833333333333334, "loss": 1.912, "step": 5850 }, { "epoch": 58.6, "grad_norm": 1.5650824308395386, "learning_rate": 0.0013800000000000002, "loss": 1.8781, "step": 5860 }, { "epoch": 58.7, "grad_norm": 1.5719467401504517, "learning_rate": 0.0013766666666666667, "loss": 1.7996, "step": 5870 }, { "epoch": 58.8, "grad_norm": 2.2166717052459717, "learning_rate": 0.0013733333333333334, "loss": 2.0769, "step": 5880 }, { "epoch": 58.9, "grad_norm": 4.164362907409668, "learning_rate": 0.0013700000000000001, "loss": 1.8052, "step": 5890 }, { "epoch": 59.0, "grad_norm": 2.1572577953338623, "learning_rate": 0.0013666666666666666, "loss": 1.6786, "step": 5900 }, { "epoch": 59.0, "eval_accuracy": 0.07, "eval_loss": 7.159940719604492, "eval_runtime": 1.1908, "eval_samples_per_second": 83.98, "eval_steps_per_second": 83.98, "step": 5900 }, { "epoch": 59.1, "grad_norm": 1.205863356590271, "learning_rate": 0.0013633333333333334, "loss": 1.7847, "step": 5910 }, { "epoch": 59.2, "grad_norm": 6.159766674041748, "learning_rate": 0.0013599999999999999, "loss": 1.816, "step": 5920 }, { "epoch": 59.3, "grad_norm": 2.290241003036499, "learning_rate": 0.0013566666666666668, "loss": 1.8227, "step": 5930 }, { "epoch": 59.4, "grad_norm": 5.219218730926514, "learning_rate": 0.0013533333333333333, "loss": 1.6421, "step": 5940 }, { "epoch": 59.5, "grad_norm": 8.509394645690918, "learning_rate": 0.00135, "loss": 1.7888, "step": 5950 }, { "epoch": 59.6, "grad_norm": 3.8931479454040527, "learning_rate": 0.0013466666666666668, "loss": 1.7724, "step": 5960 }, { "epoch": 59.7, "grad_norm": 2.035557270050049, "learning_rate": 0.0013433333333333333, "loss": 1.8974, "step": 5970 }, { "epoch": 59.8, "grad_norm": 1.344543695449829, "learning_rate": 0.00134, "loss": 1.7593, "step": 5980 }, { "epoch": 59.9, "grad_norm": 5.597288131713867, "learning_rate": 0.0013366666666666666, "loss": 1.7556, "step": 5990 }, { "epoch": 60.0, "grad_norm": 5.034604072570801, "learning_rate": 0.0013333333333333333, "loss": 1.5969, "step": 6000 }, { "epoch": 60.0, "eval_accuracy": 0.08, "eval_loss": 6.086874485015869, "eval_runtime": 1.0697, "eval_samples_per_second": 93.482, "eval_steps_per_second": 93.482, "step": 6000 }, { "epoch": 60.1, "grad_norm": 2.9675891399383545, "learning_rate": 0.00133, "loss": 1.8271, "step": 6010 }, { "epoch": 60.2, "grad_norm": 1.6982274055480957, "learning_rate": 0.0013266666666666667, "loss": 1.9085, "step": 6020 }, { "epoch": 60.3, "grad_norm": 4.639615058898926, "learning_rate": 0.0013233333333333335, "loss": 1.9669, "step": 6030 }, { "epoch": 60.4, "grad_norm": 2.2657480239868164, "learning_rate": 0.00132, "loss": 1.7925, "step": 6040 }, { "epoch": 60.5, "grad_norm": 3.4637887477874756, "learning_rate": 0.0013166666666666667, "loss": 1.7884, "step": 6050 }, { "epoch": 60.6, "grad_norm": 3.210871458053589, "learning_rate": 0.0013133333333333332, "loss": 1.6961, "step": 6060 }, { "epoch": 60.7, "grad_norm": 2.510930299758911, "learning_rate": 0.00131, "loss": 1.6188, "step": 6070 }, { "epoch": 60.8, "grad_norm": 2.0399868488311768, "learning_rate": 0.0013066666666666667, "loss": 1.8597, "step": 6080 }, { "epoch": 60.9, "grad_norm": 1.6324414014816284, "learning_rate": 0.0013033333333333334, "loss": 1.6643, "step": 6090 }, { "epoch": 61.0, "grad_norm": 2.4083755016326904, "learning_rate": 0.0013000000000000002, "loss": 1.8203, "step": 6100 }, { "epoch": 61.0, "eval_accuracy": 0.14, "eval_loss": 8.8250093460083, "eval_runtime": 1.051, "eval_samples_per_second": 95.147, "eval_steps_per_second": 95.147, "step": 6100 }, { "epoch": 61.1, "grad_norm": 1.6598178148269653, "learning_rate": 0.0012966666666666667, "loss": 1.5858, "step": 6110 }, { "epoch": 61.2, "grad_norm": 4.348021507263184, "learning_rate": 0.0012933333333333334, "loss": 1.7923, "step": 6120 }, { "epoch": 61.3, "grad_norm": 6.4413065910339355, "learning_rate": 0.00129, "loss": 1.825, "step": 6130 }, { "epoch": 61.4, "grad_norm": 4.386123180389404, "learning_rate": 0.0012866666666666666, "loss": 1.6292, "step": 6140 }, { "epoch": 61.5, "grad_norm": 3.1433169841766357, "learning_rate": 0.0012833333333333334, "loss": 1.8375, "step": 6150 }, { "epoch": 61.6, "grad_norm": 2.4346671104431152, "learning_rate": 0.00128, "loss": 1.5983, "step": 6160 }, { "epoch": 61.7, "grad_norm": 3.656344175338745, "learning_rate": 0.0012766666666666668, "loss": 1.8365, "step": 6170 }, { "epoch": 61.8, "grad_norm": 2.8191497325897217, "learning_rate": 0.0012733333333333333, "loss": 2.0172, "step": 6180 }, { "epoch": 61.9, "grad_norm": 2.2086052894592285, "learning_rate": 0.00127, "loss": 1.7998, "step": 6190 }, { "epoch": 62.0, "grad_norm": 4.561169624328613, "learning_rate": 0.0012666666666666666, "loss": 1.7148, "step": 6200 }, { "epoch": 62.0, "eval_accuracy": 0.11, "eval_loss": 19.09418296813965, "eval_runtime": 1.0612, "eval_samples_per_second": 94.23, "eval_steps_per_second": 94.23, "step": 6200 }, { "epoch": 62.1, "grad_norm": 4.611867427825928, "learning_rate": 0.0012633333333333333, "loss": 1.6205, "step": 6210 }, { "epoch": 62.2, "grad_norm": 3.4768471717834473, "learning_rate": 0.00126, "loss": 1.6133, "step": 6220 }, { "epoch": 62.3, "grad_norm": 2.2685697078704834, "learning_rate": 0.0012566666666666666, "loss": 1.7809, "step": 6230 }, { "epoch": 62.4, "grad_norm": 3.6047987937927246, "learning_rate": 0.0012533333333333335, "loss": 1.9889, "step": 6240 }, { "epoch": 62.5, "grad_norm": 2.9026410579681396, "learning_rate": 0.00125, "loss": 1.614, "step": 6250 }, { "epoch": 62.6, "grad_norm": 3.42441463470459, "learning_rate": 0.0012466666666666668, "loss": 1.9557, "step": 6260 }, { "epoch": 62.7, "grad_norm": 3.3376829624176025, "learning_rate": 0.0012433333333333333, "loss": 1.8862, "step": 6270 }, { "epoch": 62.8, "grad_norm": 2.4634463787078857, "learning_rate": 0.00124, "loss": 1.9031, "step": 6280 }, { "epoch": 62.9, "grad_norm": 9.028009414672852, "learning_rate": 0.0012366666666666667, "loss": 1.9382, "step": 6290 }, { "epoch": 63.0, "grad_norm": 2.2906558513641357, "learning_rate": 0.0012333333333333332, "loss": 1.6627, "step": 6300 }, { "epoch": 63.0, "eval_accuracy": 0.16, "eval_loss": 12.432879447937012, "eval_runtime": 1.0588, "eval_samples_per_second": 94.443, "eval_steps_per_second": 94.443, "step": 6300 }, { "epoch": 63.1, "grad_norm": 4.561711311340332, "learning_rate": 0.00123, "loss": 1.9666, "step": 6310 }, { "epoch": 63.2, "grad_norm": 2.848632574081421, "learning_rate": 0.0012266666666666667, "loss": 1.6077, "step": 6320 }, { "epoch": 63.3, "grad_norm": 2.1941840648651123, "learning_rate": 0.0012233333333333334, "loss": 1.7677, "step": 6330 }, { "epoch": 63.4, "grad_norm": 2.9569039344787598, "learning_rate": 0.00122, "loss": 1.6422, "step": 6340 }, { "epoch": 63.5, "grad_norm": 3.4558959007263184, "learning_rate": 0.0012166666666666667, "loss": 1.6658, "step": 6350 }, { "epoch": 63.6, "grad_norm": 5.855868339538574, "learning_rate": 0.0012133333333333334, "loss": 1.6206, "step": 6360 }, { "epoch": 63.7, "grad_norm": 4.387974739074707, "learning_rate": 0.00121, "loss": 1.7873, "step": 6370 }, { "epoch": 63.8, "grad_norm": 2.80942440032959, "learning_rate": 0.0012066666666666667, "loss": 1.5393, "step": 6380 }, { "epoch": 63.9, "grad_norm": 10.336448669433594, "learning_rate": 0.0012033333333333334, "loss": 1.7802, "step": 6390 }, { "epoch": 64.0, "grad_norm": 21.694013595581055, "learning_rate": 0.0012000000000000001, "loss": 1.7134, "step": 6400 }, { "epoch": 64.0, "eval_accuracy": 0.11, "eval_loss": 5.5367112159729, "eval_runtime": 1.0569, "eval_samples_per_second": 94.621, "eval_steps_per_second": 94.621, "step": 6400 }, { "epoch": 64.1, "grad_norm": 7.776865482330322, "learning_rate": 0.0011966666666666668, "loss": 1.8706, "step": 6410 }, { "epoch": 64.2, "grad_norm": 14.169696807861328, "learning_rate": 0.0011933333333333334, "loss": 1.7689, "step": 6420 }, { "epoch": 64.3, "grad_norm": 3.2558820247650146, "learning_rate": 0.00119, "loss": 1.6053, "step": 6430 }, { "epoch": 64.4, "grad_norm": 4.6091227531433105, "learning_rate": 0.0011866666666666666, "loss": 1.791, "step": 6440 }, { "epoch": 64.5, "grad_norm": 6.979178428649902, "learning_rate": 0.0011833333333333333, "loss": 1.9051, "step": 6450 }, { "epoch": 64.6, "grad_norm": 1.6859291791915894, "learning_rate": 0.00118, "loss": 1.8669, "step": 6460 }, { "epoch": 64.7, "grad_norm": 4.330698013305664, "learning_rate": 0.0011766666666666668, "loss": 1.9325, "step": 6470 }, { "epoch": 64.8, "grad_norm": 4.015768051147461, "learning_rate": 0.0011733333333333335, "loss": 1.7841, "step": 6480 }, { "epoch": 64.9, "grad_norm": 3.9391236305236816, "learning_rate": 0.00117, "loss": 1.7528, "step": 6490 }, { "epoch": 65.0, "grad_norm": 3.1160061359405518, "learning_rate": 0.0011666666666666668, "loss": 1.8841, "step": 6500 }, { "epoch": 65.0, "eval_accuracy": 0.11, "eval_loss": 9.123879432678223, "eval_runtime": 1.0581, "eval_samples_per_second": 94.508, "eval_steps_per_second": 94.508, "step": 6500 }, { "epoch": 65.1, "grad_norm": 3.9809041023254395, "learning_rate": 0.0011633333333333333, "loss": 1.764, "step": 6510 }, { "epoch": 65.2, "grad_norm": 11.246681213378906, "learning_rate": 0.00116, "loss": 1.6808, "step": 6520 }, { "epoch": 65.3, "grad_norm": 5.164696216583252, "learning_rate": 0.0011566666666666667, "loss": 1.6472, "step": 6530 }, { "epoch": 65.4, "grad_norm": 2.7872653007507324, "learning_rate": 0.0011533333333333333, "loss": 2.0198, "step": 6540 }, { "epoch": 65.5, "grad_norm": 7.56327486038208, "learning_rate": 0.0011500000000000002, "loss": 1.929, "step": 6550 }, { "epoch": 65.6, "grad_norm": 4.878328323364258, "learning_rate": 0.0011466666666666667, "loss": 1.6768, "step": 6560 }, { "epoch": 65.7, "grad_norm": 3.8029422760009766, "learning_rate": 0.0011433333333333334, "loss": 1.8311, "step": 6570 }, { "epoch": 65.8, "grad_norm": 7.969758987426758, "learning_rate": 0.00114, "loss": 1.6823, "step": 6580 }, { "epoch": 65.9, "grad_norm": 5.031340599060059, "learning_rate": 0.0011366666666666667, "loss": 1.6746, "step": 6590 }, { "epoch": 66.0, "grad_norm": 2.8956708908081055, "learning_rate": 0.0011333333333333334, "loss": 1.6822, "step": 6600 }, { "epoch": 66.0, "eval_accuracy": 0.11, "eval_loss": 9.47188663482666, "eval_runtime": 1.0551, "eval_samples_per_second": 94.777, "eval_steps_per_second": 94.777, "step": 6600 }, { "epoch": 66.1, "grad_norm": 4.6317219734191895, "learning_rate": 0.00113, "loss": 1.7943, "step": 6610 }, { "epoch": 66.2, "grad_norm": 3.1285109519958496, "learning_rate": 0.0011266666666666667, "loss": 1.8415, "step": 6620 }, { "epoch": 66.3, "grad_norm": 6.469768524169922, "learning_rate": 0.0011233333333333334, "loss": 1.6691, "step": 6630 }, { "epoch": 66.4, "grad_norm": 5.166152477264404, "learning_rate": 0.0011200000000000001, "loss": 1.92, "step": 6640 }, { "epoch": 66.5, "grad_norm": 6.086921691894531, "learning_rate": 0.0011166666666666666, "loss": 1.9099, "step": 6650 }, { "epoch": 66.6, "grad_norm": 3.934988021850586, "learning_rate": 0.0011133333333333334, "loss": 1.6313, "step": 6660 }, { "epoch": 66.7, "grad_norm": 6.046359539031982, "learning_rate": 0.00111, "loss": 1.9824, "step": 6670 }, { "epoch": 66.8, "grad_norm": 5.090197563171387, "learning_rate": 0.0011066666666666666, "loss": 1.9741, "step": 6680 }, { "epoch": 66.9, "grad_norm": 9.034990310668945, "learning_rate": 0.0011033333333333333, "loss": 1.933, "step": 6690 }, { "epoch": 67.0, "grad_norm": 7.297842979431152, "learning_rate": 0.0010999999999999998, "loss": 1.8892, "step": 6700 }, { "epoch": 67.0, "eval_accuracy": 0.09, "eval_loss": 5.6084208488464355, "eval_runtime": 1.1978, "eval_samples_per_second": 83.488, "eval_steps_per_second": 83.488, "step": 6700 }, { "epoch": 67.1, "grad_norm": 3.469296932220459, "learning_rate": 0.0010966666666666668, "loss": 1.7137, "step": 6710 }, { "epoch": 67.2, "grad_norm": 2.396622657775879, "learning_rate": 0.0010933333333333333, "loss": 1.8015, "step": 6720 }, { "epoch": 67.3, "grad_norm": 2.852924108505249, "learning_rate": 0.00109, "loss": 1.8604, "step": 6730 }, { "epoch": 67.4, "grad_norm": 5.766210079193115, "learning_rate": 0.0010866666666666668, "loss": 1.5306, "step": 6740 }, { "epoch": 67.5, "grad_norm": 3.4486300945281982, "learning_rate": 0.0010833333333333333, "loss": 1.797, "step": 6750 }, { "epoch": 67.6, "grad_norm": 5.261917591094971, "learning_rate": 0.00108, "loss": 1.9502, "step": 6760 }, { "epoch": 67.7, "grad_norm": 4.059861660003662, "learning_rate": 0.0010766666666666665, "loss": 1.6326, "step": 6770 }, { "epoch": 67.8, "grad_norm": 10.135790824890137, "learning_rate": 0.0010733333333333333, "loss": 1.7233, "step": 6780 }, { "epoch": 67.9, "grad_norm": 2.4787628650665283, "learning_rate": 0.00107, "loss": 1.8985, "step": 6790 }, { "epoch": 68.0, "grad_norm": 2.303790807723999, "learning_rate": 0.0010666666666666667, "loss": 1.72, "step": 6800 }, { "epoch": 68.0, "eval_accuracy": 0.12, "eval_loss": 8.785449028015137, "eval_runtime": 1.0541, "eval_samples_per_second": 94.863, "eval_steps_per_second": 94.863, "step": 6800 }, { "epoch": 68.1, "grad_norm": 3.1279687881469727, "learning_rate": 0.0010633333333333334, "loss": 1.8552, "step": 6810 }, { "epoch": 68.2, "grad_norm": 4.668986797332764, "learning_rate": 0.00106, "loss": 1.9791, "step": 6820 }, { "epoch": 68.3, "grad_norm": 7.474461555480957, "learning_rate": 0.0010566666666666667, "loss": 1.7152, "step": 6830 }, { "epoch": 68.4, "grad_norm": 10.475133895874023, "learning_rate": 0.0010533333333333332, "loss": 1.6101, "step": 6840 }, { "epoch": 68.5, "grad_norm": 4.837385177612305, "learning_rate": 0.00105, "loss": 1.6287, "step": 6850 }, { "epoch": 68.6, "grad_norm": 4.027728080749512, "learning_rate": 0.0010466666666666667, "loss": 1.5433, "step": 6860 }, { "epoch": 68.7, "grad_norm": 2.9774222373962402, "learning_rate": 0.0010433333333333334, "loss": 1.7617, "step": 6870 }, { "epoch": 68.8, "grad_norm": 2.145850896835327, "learning_rate": 0.0010400000000000001, "loss": 1.7691, "step": 6880 }, { "epoch": 68.9, "grad_norm": 2.6644954681396484, "learning_rate": 0.0010366666666666666, "loss": 1.5255, "step": 6890 }, { "epoch": 69.0, "grad_norm": 5.641127109527588, "learning_rate": 0.0010333333333333334, "loss": 1.8751, "step": 6900 }, { "epoch": 69.0, "eval_accuracy": 0.11, "eval_loss": 7.557100296020508, "eval_runtime": 1.0515, "eval_samples_per_second": 95.106, "eval_steps_per_second": 95.106, "step": 6900 }, { "epoch": 69.1, "grad_norm": 2.8334310054779053, "learning_rate": 0.00103, "loss": 1.7977, "step": 6910 }, { "epoch": 69.2, "grad_norm": 12.787999153137207, "learning_rate": 0.0010266666666666666, "loss": 1.8188, "step": 6920 }, { "epoch": 69.3, "grad_norm": 2.3438947200775146, "learning_rate": 0.0010233333333333333, "loss": 2.0413, "step": 6930 }, { "epoch": 69.4, "grad_norm": 5.885900497436523, "learning_rate": 0.00102, "loss": 1.6987, "step": 6940 }, { "epoch": 69.5, "grad_norm": 2.3748180866241455, "learning_rate": 0.0010166666666666668, "loss": 1.8382, "step": 6950 }, { "epoch": 69.6, "grad_norm": 7.499560832977295, "learning_rate": 0.0010133333333333333, "loss": 1.7506, "step": 6960 }, { "epoch": 69.7, "grad_norm": 4.706414699554443, "learning_rate": 0.00101, "loss": 1.8361, "step": 6970 }, { "epoch": 69.8, "grad_norm": 2.492842435836792, "learning_rate": 0.0010066666666666668, "loss": 1.5254, "step": 6980 }, { "epoch": 69.9, "grad_norm": 4.535306453704834, "learning_rate": 0.0010033333333333333, "loss": 1.7066, "step": 6990 }, { "epoch": 70.0, "grad_norm": 2.8552052974700928, "learning_rate": 0.001, "loss": 1.3783, "step": 7000 }, { "epoch": 70.0, "eval_accuracy": 0.12, "eval_loss": 11.632137298583984, "eval_runtime": 1.069, "eval_samples_per_second": 93.543, "eval_steps_per_second": 93.543, "step": 7000 }, { "epoch": 70.1, "grad_norm": 6.145552635192871, "learning_rate": 0.0009966666666666665, "loss": 1.6017, "step": 7010 }, { "epoch": 70.2, "grad_norm": 7.590050220489502, "learning_rate": 0.0009933333333333335, "loss": 1.8784, "step": 7020 }, { "epoch": 70.3, "grad_norm": 3.6232712268829346, "learning_rate": 0.00099, "loss": 1.8348, "step": 7030 }, { "epoch": 70.4, "grad_norm": 2.6301445960998535, "learning_rate": 0.0009866666666666667, "loss": 1.7113, "step": 7040 }, { "epoch": 70.5, "grad_norm": 3.045260190963745, "learning_rate": 0.0009833333333333335, "loss": 1.6724, "step": 7050 }, { "epoch": 70.6, "grad_norm": 5.87871789932251, "learning_rate": 0.00098, "loss": 1.8135, "step": 7060 }, { "epoch": 70.7, "grad_norm": 4.545201301574707, "learning_rate": 0.0009766666666666667, "loss": 1.8561, "step": 7070 }, { "epoch": 70.8, "grad_norm": 3.054288387298584, "learning_rate": 0.0009733333333333333, "loss": 1.6729, "step": 7080 }, { "epoch": 70.9, "grad_norm": 12.367476463317871, "learning_rate": 0.0009699999999999999, "loss": 1.6861, "step": 7090 }, { "epoch": 71.0, "grad_norm": 3.18570876121521, "learning_rate": 0.0009666666666666668, "loss": 1.6403, "step": 7100 }, { "epoch": 71.0, "eval_accuracy": 0.15, "eval_loss": 7.535396099090576, "eval_runtime": 1.0543, "eval_samples_per_second": 94.854, "eval_steps_per_second": 94.854, "step": 7100 }, { "epoch": 71.1, "grad_norm": 2.6936404705047607, "learning_rate": 0.0009633333333333334, "loss": 1.3978, "step": 7110 }, { "epoch": 71.2, "grad_norm": 3.251457691192627, "learning_rate": 0.00096, "loss": 1.8723, "step": 7120 }, { "epoch": 71.3, "grad_norm": 2.816524028778076, "learning_rate": 0.0009566666666666666, "loss": 1.7214, "step": 7130 }, { "epoch": 71.4, "grad_norm": 2.786759376525879, "learning_rate": 0.0009533333333333334, "loss": 1.767, "step": 7140 }, { "epoch": 71.5, "grad_norm": 6.929011344909668, "learning_rate": 0.00095, "loss": 1.7563, "step": 7150 }, { "epoch": 71.6, "grad_norm": 2.660970687866211, "learning_rate": 0.0009466666666666666, "loss": 1.6773, "step": 7160 }, { "epoch": 71.7, "grad_norm": 1.6034671068191528, "learning_rate": 0.0009433333333333335, "loss": 1.6503, "step": 7170 }, { "epoch": 71.8, "grad_norm": 4.475321292877197, "learning_rate": 0.0009400000000000001, "loss": 1.7623, "step": 7180 }, { "epoch": 71.9, "grad_norm": 9.990358352661133, "learning_rate": 0.0009366666666666667, "loss": 1.8783, "step": 7190 }, { "epoch": 72.0, "grad_norm": 2.7688100337982178, "learning_rate": 0.0009333333333333333, "loss": 2.087, "step": 7200 }, { "epoch": 72.0, "eval_accuracy": 0.11, "eval_loss": 13.724778175354004, "eval_runtime": 1.1925, "eval_samples_per_second": 83.856, "eval_steps_per_second": 83.856, "step": 7200 }, { "epoch": 72.1, "grad_norm": 6.561435222625732, "learning_rate": 0.00093, "loss": 1.7217, "step": 7210 }, { "epoch": 72.2, "grad_norm": 8.489799499511719, "learning_rate": 0.0009266666666666667, "loss": 1.7632, "step": 7220 }, { "epoch": 72.3, "grad_norm": 3.9238219261169434, "learning_rate": 0.0009233333333333333, "loss": 1.5581, "step": 7230 }, { "epoch": 72.4, "grad_norm": 9.072147369384766, "learning_rate": 0.0009199999999999999, "loss": 1.7184, "step": 7240 }, { "epoch": 72.5, "grad_norm": 2.1611063480377197, "learning_rate": 0.0009166666666666668, "loss": 1.6369, "step": 7250 }, { "epoch": 72.6, "grad_norm": 3.966249465942383, "learning_rate": 0.0009133333333333334, "loss": 1.6756, "step": 7260 }, { "epoch": 72.7, "grad_norm": 3.660193681716919, "learning_rate": 0.00091, "loss": 1.9866, "step": 7270 }, { "epoch": 72.8, "grad_norm": 4.286670207977295, "learning_rate": 0.0009066666666666667, "loss": 1.5526, "step": 7280 }, { "epoch": 72.9, "grad_norm": 1.2461152076721191, "learning_rate": 0.0009033333333333334, "loss": 1.7805, "step": 7290 }, { "epoch": 73.0, "grad_norm": 8.252983093261719, "learning_rate": 0.0009, "loss": 1.6402, "step": 7300 }, { "epoch": 73.0, "eval_accuracy": 0.12, "eval_loss": 5.488311290740967, "eval_runtime": 1.0685, "eval_samples_per_second": 93.589, "eval_steps_per_second": 93.589, "step": 7300 }, { "epoch": 73.1, "grad_norm": 3.1921186447143555, "learning_rate": 0.0008966666666666666, "loss": 1.9004, "step": 7310 }, { "epoch": 73.2, "grad_norm": 2.0873894691467285, "learning_rate": 0.0008933333333333333, "loss": 1.6618, "step": 7320 }, { "epoch": 73.3, "grad_norm": 6.314571857452393, "learning_rate": 0.0008900000000000001, "loss": 1.5235, "step": 7330 }, { "epoch": 73.4, "grad_norm": 1.6767210960388184, "learning_rate": 0.0008866666666666667, "loss": 1.598, "step": 7340 }, { "epoch": 73.5, "grad_norm": 4.818593978881836, "learning_rate": 0.0008833333333333334, "loss": 1.9167, "step": 7350 }, { "epoch": 73.6, "grad_norm": 8.4752197265625, "learning_rate": 0.00088, "loss": 1.9592, "step": 7360 }, { "epoch": 73.7, "grad_norm": 3.359546422958374, "learning_rate": 0.0008766666666666667, "loss": 1.8852, "step": 7370 }, { "epoch": 73.8, "grad_norm": 4.165343284606934, "learning_rate": 0.0008733333333333333, "loss": 1.6093, "step": 7380 }, { "epoch": 73.9, "grad_norm": 3.540891647338867, "learning_rate": 0.00087, "loss": 1.6096, "step": 7390 }, { "epoch": 74.0, "grad_norm": 6.227334976196289, "learning_rate": 0.0008666666666666666, "loss": 1.8016, "step": 7400 }, { "epoch": 74.0, "eval_accuracy": 0.13, "eval_loss": 7.835125923156738, "eval_runtime": 1.172, "eval_samples_per_second": 85.321, "eval_steps_per_second": 85.321, "step": 7400 }, { "epoch": 74.1, "grad_norm": 5.684929370880127, "learning_rate": 0.0008633333333333335, "loss": 1.6236, "step": 7410 }, { "epoch": 74.2, "grad_norm": 2.3352484703063965, "learning_rate": 0.0008600000000000001, "loss": 1.6767, "step": 7420 }, { "epoch": 74.3, "grad_norm": 17.188486099243164, "learning_rate": 0.0008566666666666667, "loss": 1.5898, "step": 7430 }, { "epoch": 74.4, "grad_norm": 8.325809478759766, "learning_rate": 0.0008533333333333333, "loss": 1.5762, "step": 7440 }, { "epoch": 74.5, "grad_norm": 3.8976364135742188, "learning_rate": 0.00085, "loss": 1.8546, "step": 7450 }, { "epoch": 74.6, "grad_norm": 4.122636795043945, "learning_rate": 0.0008466666666666667, "loss": 1.6826, "step": 7460 }, { "epoch": 74.7, "grad_norm": 3.0798962116241455, "learning_rate": 0.0008433333333333333, "loss": 1.8085, "step": 7470 }, { "epoch": 74.8, "grad_norm": 8.855138778686523, "learning_rate": 0.0008400000000000001, "loss": 1.8007, "step": 7480 }, { "epoch": 74.9, "grad_norm": 2.781036376953125, "learning_rate": 0.0008366666666666668, "loss": 1.6743, "step": 7490 }, { "epoch": 75.0, "grad_norm": 5.651669025421143, "learning_rate": 0.0008333333333333334, "loss": 1.4308, "step": 7500 }, { "epoch": 75.0, "eval_accuracy": 0.13, "eval_loss": 4.696621417999268, "eval_runtime": 1.1086, "eval_samples_per_second": 90.203, "eval_steps_per_second": 90.203, "step": 7500 }, { "epoch": 75.1, "grad_norm": 2.3721401691436768, "learning_rate": 0.00083, "loss": 1.6892, "step": 7510 }, { "epoch": 75.2, "grad_norm": 3.7006096839904785, "learning_rate": 0.0008266666666666666, "loss": 1.763, "step": 7520 }, { "epoch": 75.3, "grad_norm": 2.3603055477142334, "learning_rate": 0.0008233333333333334, "loss": 1.8769, "step": 7530 }, { "epoch": 75.4, "grad_norm": 1.8393298387527466, "learning_rate": 0.00082, "loss": 1.5171, "step": 7540 }, { "epoch": 75.5, "grad_norm": 5.134054660797119, "learning_rate": 0.0008166666666666666, "loss": 1.7904, "step": 7550 }, { "epoch": 75.6, "grad_norm": 3.733891725540161, "learning_rate": 0.0008133333333333334, "loss": 1.4944, "step": 7560 }, { "epoch": 75.7, "grad_norm": 3.304157257080078, "learning_rate": 0.0008100000000000001, "loss": 1.546, "step": 7570 }, { "epoch": 75.8, "grad_norm": 3.1113600730895996, "learning_rate": 0.0008066666666666667, "loss": 1.9507, "step": 7580 }, { "epoch": 75.9, "grad_norm": 4.361494064331055, "learning_rate": 0.0008033333333333333, "loss": 1.5302, "step": 7590 }, { "epoch": 76.0, "grad_norm": 8.0205717086792, "learning_rate": 0.0008, "loss": 1.6833, "step": 7600 }, { "epoch": 76.0, "eval_accuracy": 0.12, "eval_loss": 5.913761615753174, "eval_runtime": 1.1926, "eval_samples_per_second": 83.853, "eval_steps_per_second": 83.853, "step": 7600 }, { "epoch": 76.1, "grad_norm": 9.288579940795898, "learning_rate": 0.0007966666666666667, "loss": 1.6459, "step": 7610 }, { "epoch": 76.2, "grad_norm": 4.346872806549072, "learning_rate": 0.0007933333333333333, "loss": 1.7913, "step": 7620 }, { "epoch": 76.3, "grad_norm": 1.9732215404510498, "learning_rate": 0.0007899999999999999, "loss": 1.9217, "step": 7630 }, { "epoch": 76.4, "grad_norm": 2.936906337738037, "learning_rate": 0.0007866666666666667, "loss": 1.3812, "step": 7640 }, { "epoch": 76.5, "grad_norm": 1.9223854541778564, "learning_rate": 0.0007833333333333334, "loss": 1.7483, "step": 7650 }, { "epoch": 76.6, "grad_norm": 4.29766321182251, "learning_rate": 0.0007800000000000001, "loss": 1.5003, "step": 7660 }, { "epoch": 76.7, "grad_norm": 4.861231803894043, "learning_rate": 0.0007766666666666667, "loss": 1.824, "step": 7670 }, { "epoch": 76.8, "grad_norm": 6.965978145599365, "learning_rate": 0.0007733333333333333, "loss": 1.8528, "step": 7680 }, { "epoch": 76.9, "grad_norm": 6.294130802154541, "learning_rate": 0.00077, "loss": 1.7658, "step": 7690 }, { "epoch": 77.0, "grad_norm": 2.3056602478027344, "learning_rate": 0.0007666666666666666, "loss": 1.5684, "step": 7700 }, { "epoch": 77.0, "eval_accuracy": 0.15, "eval_loss": 11.986406326293945, "eval_runtime": 1.0745, "eval_samples_per_second": 93.062, "eval_steps_per_second": 93.062, "step": 7700 }, { "epoch": 77.1, "grad_norm": 3.318281888961792, "learning_rate": 0.0007633333333333333, "loss": 1.6998, "step": 7710 }, { "epoch": 77.2, "grad_norm": 6.8521647453308105, "learning_rate": 0.00076, "loss": 1.7175, "step": 7720 }, { "epoch": 77.3, "grad_norm": 2.6658935546875, "learning_rate": 0.0007566666666666668, "loss": 1.6277, "step": 7730 }, { "epoch": 77.4, "grad_norm": 1.4888370037078857, "learning_rate": 0.0007533333333333334, "loss": 1.6303, "step": 7740 }, { "epoch": 77.5, "grad_norm": 2.4818308353424072, "learning_rate": 0.00075, "loss": 1.619, "step": 7750 }, { "epoch": 77.6, "grad_norm": 4.3172712326049805, "learning_rate": 0.0007466666666666666, "loss": 1.8077, "step": 7760 }, { "epoch": 77.7, "grad_norm": 4.909962177276611, "learning_rate": 0.0007433333333333334, "loss": 1.531, "step": 7770 }, { "epoch": 77.8, "grad_norm": 3.2081310749053955, "learning_rate": 0.00074, "loss": 1.7721, "step": 7780 }, { "epoch": 77.9, "grad_norm": 10.378396987915039, "learning_rate": 0.0007366666666666667, "loss": 1.5235, "step": 7790 }, { "epoch": 78.0, "grad_norm": 14.657236099243164, "learning_rate": 0.0007333333333333333, "loss": 1.6765, "step": 7800 }, { "epoch": 78.0, "eval_accuracy": 0.1, "eval_loss": 12.214624404907227, "eval_runtime": 1.0561, "eval_samples_per_second": 94.692, "eval_steps_per_second": 94.692, "step": 7800 }, { "epoch": 78.1, "grad_norm": 6.5051069259643555, "learning_rate": 0.0007300000000000001, "loss": 1.9207, "step": 7810 }, { "epoch": 78.2, "grad_norm": 4.690114498138428, "learning_rate": 0.0007266666666666667, "loss": 1.6504, "step": 7820 }, { "epoch": 78.3, "grad_norm": 4.175870895385742, "learning_rate": 0.0007233333333333333, "loss": 1.745, "step": 7830 }, { "epoch": 78.4, "grad_norm": 2.697542190551758, "learning_rate": 0.0007199999999999999, "loss": 1.8095, "step": 7840 }, { "epoch": 78.5, "grad_norm": 11.4371337890625, "learning_rate": 0.0007166666666666667, "loss": 1.638, "step": 7850 }, { "epoch": 78.6, "grad_norm": 5.61688232421875, "learning_rate": 0.0007133333333333334, "loss": 1.7019, "step": 7860 }, { "epoch": 78.7, "grad_norm": 1.9839328527450562, "learning_rate": 0.00071, "loss": 1.3729, "step": 7870 }, { "epoch": 78.8, "grad_norm": 7.748627662658691, "learning_rate": 0.0007066666666666666, "loss": 1.6178, "step": 7880 }, { "epoch": 78.9, "grad_norm": 3.0208866596221924, "learning_rate": 0.0007033333333333334, "loss": 1.8001, "step": 7890 }, { "epoch": 79.0, "grad_norm": 6.324533462524414, "learning_rate": 0.0007, "loss": 1.7482, "step": 7900 }, { "epoch": 79.0, "eval_accuracy": 0.12, "eval_loss": 4.604106903076172, "eval_runtime": 1.0654, "eval_samples_per_second": 93.863, "eval_steps_per_second": 93.863, "step": 7900 }, { "epoch": 79.1, "grad_norm": 5.001572132110596, "learning_rate": 0.0006966666666666667, "loss": 1.811, "step": 7910 }, { "epoch": 79.2, "grad_norm": 5.4045586585998535, "learning_rate": 0.0006933333333333333, "loss": 1.6131, "step": 7920 }, { "epoch": 79.3, "grad_norm": 9.522829055786133, "learning_rate": 0.0006900000000000001, "loss": 1.5696, "step": 7930 }, { "epoch": 79.4, "grad_norm": 3.1126577854156494, "learning_rate": 0.0006866666666666667, "loss": 1.6667, "step": 7940 }, { "epoch": 79.5, "grad_norm": 9.194778442382812, "learning_rate": 0.0006833333333333333, "loss": 1.7464, "step": 7950 }, { "epoch": 79.6, "grad_norm": 6.9873528480529785, "learning_rate": 0.0006799999999999999, "loss": 1.6279, "step": 7960 }, { "epoch": 79.7, "grad_norm": 2.421323537826538, "learning_rate": 0.0006766666666666667, "loss": 1.6863, "step": 7970 }, { "epoch": 79.8, "grad_norm": 2.4559075832366943, "learning_rate": 0.0006733333333333334, "loss": 1.6846, "step": 7980 }, { "epoch": 79.9, "grad_norm": 5.497502326965332, "learning_rate": 0.00067, "loss": 1.6157, "step": 7990 }, { "epoch": 80.0, "grad_norm": 5.991186141967773, "learning_rate": 0.0006666666666666666, "loss": 1.7836, "step": 8000 }, { "epoch": 80.0, "eval_accuracy": 0.13, "eval_loss": 9.721675872802734, "eval_runtime": 1.1785, "eval_samples_per_second": 84.854, "eval_steps_per_second": 84.854, "step": 8000 }, { "epoch": 80.1, "grad_norm": 3.4409921169281006, "learning_rate": 0.0006633333333333334, "loss": 1.7159, "step": 8010 }, { "epoch": 80.2, "grad_norm": 2.0698366165161133, "learning_rate": 0.00066, "loss": 1.6031, "step": 8020 }, { "epoch": 80.3, "grad_norm": 3.158905029296875, "learning_rate": 0.0006566666666666666, "loss": 1.8234, "step": 8030 }, { "epoch": 80.4, "grad_norm": 7.036154747009277, "learning_rate": 0.0006533333333333333, "loss": 1.5912, "step": 8040 }, { "epoch": 80.5, "grad_norm": 2.4452085494995117, "learning_rate": 0.0006500000000000001, "loss": 1.6557, "step": 8050 }, { "epoch": 80.6, "grad_norm": 12.575709342956543, "learning_rate": 0.0006466666666666667, "loss": 1.7963, "step": 8060 }, { "epoch": 80.7, "grad_norm": 2.6192171573638916, "learning_rate": 0.0006433333333333333, "loss": 1.7268, "step": 8070 }, { "epoch": 80.8, "grad_norm": 3.45434308052063, "learning_rate": 0.00064, "loss": 1.4155, "step": 8080 }, { "epoch": 80.9, "grad_norm": 8.185892105102539, "learning_rate": 0.0006366666666666667, "loss": 1.7059, "step": 8090 }, { "epoch": 81.0, "grad_norm": 5.6343183517456055, "learning_rate": 0.0006333333333333333, "loss": 1.5195, "step": 8100 }, { "epoch": 81.0, "eval_accuracy": 0.12, "eval_loss": 7.513216972351074, "eval_runtime": 1.0678, "eval_samples_per_second": 93.647, "eval_steps_per_second": 93.647, "step": 8100 }, { "epoch": 81.1, "grad_norm": 2.8379461765289307, "learning_rate": 0.00063, "loss": 1.6882, "step": 8110 }, { "epoch": 81.2, "grad_norm": 7.534255027770996, "learning_rate": 0.0006266666666666668, "loss": 1.6796, "step": 8120 }, { "epoch": 81.3, "grad_norm": 1.6739089488983154, "learning_rate": 0.0006233333333333334, "loss": 1.5956, "step": 8130 }, { "epoch": 81.4, "grad_norm": 2.9751076698303223, "learning_rate": 0.00062, "loss": 1.6019, "step": 8140 }, { "epoch": 81.5, "grad_norm": 4.309534549713135, "learning_rate": 0.0006166666666666666, "loss": 1.7701, "step": 8150 }, { "epoch": 81.6, "grad_norm": 4.213230133056641, "learning_rate": 0.0006133333333333334, "loss": 1.7361, "step": 8160 }, { "epoch": 81.7, "grad_norm": 1.757969856262207, "learning_rate": 0.00061, "loss": 1.8667, "step": 8170 }, { "epoch": 81.8, "grad_norm": 4.254034996032715, "learning_rate": 0.0006066666666666667, "loss": 1.4598, "step": 8180 }, { "epoch": 81.9, "grad_norm": 2.253918170928955, "learning_rate": 0.0006033333333333333, "loss": 1.5002, "step": 8190 }, { "epoch": 82.0, "grad_norm": 3.143101453781128, "learning_rate": 0.0006000000000000001, "loss": 1.4384, "step": 8200 }, { "epoch": 82.0, "eval_accuracy": 0.13, "eval_loss": 6.6091179847717285, "eval_runtime": 1.0621, "eval_samples_per_second": 94.153, "eval_steps_per_second": 94.153, "step": 8200 }, { "epoch": 82.1, "grad_norm": 6.236468315124512, "learning_rate": 0.0005966666666666667, "loss": 1.701, "step": 8210 }, { "epoch": 82.2, "grad_norm": 2.7502994537353516, "learning_rate": 0.0005933333333333333, "loss": 1.6615, "step": 8220 }, { "epoch": 82.3, "grad_norm": 4.324734210968018, "learning_rate": 0.00059, "loss": 1.7192, "step": 8230 }, { "epoch": 82.4, "grad_norm": 5.0085320472717285, "learning_rate": 0.0005866666666666668, "loss": 1.8115, "step": 8240 }, { "epoch": 82.5, "grad_norm": 3.843885660171509, "learning_rate": 0.0005833333333333334, "loss": 1.777, "step": 8250 }, { "epoch": 82.6, "grad_norm": 11.834420204162598, "learning_rate": 0.00058, "loss": 1.6285, "step": 8260 }, { "epoch": 82.7, "grad_norm": 4.1545257568359375, "learning_rate": 0.0005766666666666666, "loss": 1.4498, "step": 8270 }, { "epoch": 82.8, "grad_norm": 2.874239683151245, "learning_rate": 0.0005733333333333334, "loss": 1.9519, "step": 8280 }, { "epoch": 82.9, "grad_norm": 2.4866464138031006, "learning_rate": 0.00057, "loss": 1.6679, "step": 8290 }, { "epoch": 83.0, "grad_norm": 11.783166885375977, "learning_rate": 0.0005666666666666667, "loss": 1.5538, "step": 8300 }, { "epoch": 83.0, "eval_accuracy": 0.13, "eval_loss": 7.0785722732543945, "eval_runtime": 1.0594, "eval_samples_per_second": 94.392, "eval_steps_per_second": 94.392, "step": 8300 }, { "epoch": 83.1, "grad_norm": 5.404430389404297, "learning_rate": 0.0005633333333333333, "loss": 1.5581, "step": 8310 }, { "epoch": 83.2, "grad_norm": 13.793869018554688, "learning_rate": 0.0005600000000000001, "loss": 1.7984, "step": 8320 }, { "epoch": 83.3, "grad_norm": 3.788058042526245, "learning_rate": 0.0005566666666666667, "loss": 1.7085, "step": 8330 }, { "epoch": 83.4, "grad_norm": 2.9603164196014404, "learning_rate": 0.0005533333333333333, "loss": 1.6841, "step": 8340 }, { "epoch": 83.5, "grad_norm": 3.9996180534362793, "learning_rate": 0.0005499999999999999, "loss": 1.6758, "step": 8350 }, { "epoch": 83.6, "grad_norm": 3.632449150085449, "learning_rate": 0.0005466666666666667, "loss": 1.5275, "step": 8360 }, { "epoch": 83.7, "grad_norm": 9.344165802001953, "learning_rate": 0.0005433333333333334, "loss": 1.848, "step": 8370 }, { "epoch": 83.8, "grad_norm": 6.6888933181762695, "learning_rate": 0.00054, "loss": 1.5813, "step": 8380 }, { "epoch": 83.9, "grad_norm": 4.866454124450684, "learning_rate": 0.0005366666666666666, "loss": 1.4282, "step": 8390 }, { "epoch": 84.0, "grad_norm": 5.3505659103393555, "learning_rate": 0.0005333333333333334, "loss": 1.5705, "step": 8400 }, { "epoch": 84.0, "eval_accuracy": 0.14, "eval_loss": 12.585135459899902, "eval_runtime": 1.0929, "eval_samples_per_second": 91.504, "eval_steps_per_second": 91.504, "step": 8400 }, { "epoch": 84.1, "grad_norm": 3.3361263275146484, "learning_rate": 0.00053, "loss": 1.6673, "step": 8410 }, { "epoch": 84.2, "grad_norm": 3.2002100944519043, "learning_rate": 0.0005266666666666666, "loss": 1.5196, "step": 8420 }, { "epoch": 84.3, "grad_norm": 4.537071228027344, "learning_rate": 0.0005233333333333333, "loss": 1.4038, "step": 8430 }, { "epoch": 84.4, "grad_norm": 4.313013076782227, "learning_rate": 0.0005200000000000001, "loss": 1.7172, "step": 8440 }, { "epoch": 84.5, "grad_norm": 16.408864974975586, "learning_rate": 0.0005166666666666667, "loss": 1.6465, "step": 8450 }, { "epoch": 84.6, "grad_norm": 3.185908317565918, "learning_rate": 0.0005133333333333333, "loss": 1.8762, "step": 8460 }, { "epoch": 84.7, "grad_norm": 12.016066551208496, "learning_rate": 0.00051, "loss": 1.547, "step": 8470 }, { "epoch": 84.8, "grad_norm": 3.833848237991333, "learning_rate": 0.0005066666666666667, "loss": 1.8839, "step": 8480 }, { "epoch": 84.9, "grad_norm": 6.557989597320557, "learning_rate": 0.0005033333333333334, "loss": 1.5552, "step": 8490 }, { "epoch": 85.0, "grad_norm": 9.092035293579102, "learning_rate": 0.0005, "loss": 1.7255, "step": 8500 }, { "epoch": 85.0, "eval_accuracy": 0.11, "eval_loss": 9.933082580566406, "eval_runtime": 1.0662, "eval_samples_per_second": 93.791, "eval_steps_per_second": 93.791, "step": 8500 }, { "epoch": 85.1, "grad_norm": 4.006185531616211, "learning_rate": 0.0004966666666666667, "loss": 1.5849, "step": 8510 }, { "epoch": 85.2, "grad_norm": 4.64818000793457, "learning_rate": 0.0004933333333333334, "loss": 1.5274, "step": 8520 }, { "epoch": 85.3, "grad_norm": 4.239321708679199, "learning_rate": 0.00049, "loss": 1.3585, "step": 8530 }, { "epoch": 85.4, "grad_norm": 3.4257285594940186, "learning_rate": 0.00048666666666666666, "loss": 1.6392, "step": 8540 }, { "epoch": 85.5, "grad_norm": 11.131654739379883, "learning_rate": 0.0004833333333333334, "loss": 2.0834, "step": 8550 }, { "epoch": 85.6, "grad_norm": 4.093764781951904, "learning_rate": 0.00048, "loss": 1.7804, "step": 8560 }, { "epoch": 85.7, "grad_norm": 7.1940765380859375, "learning_rate": 0.0004766666666666667, "loss": 1.8576, "step": 8570 }, { "epoch": 85.8, "grad_norm": 3.6592063903808594, "learning_rate": 0.0004733333333333333, "loss": 1.6122, "step": 8580 }, { "epoch": 85.9, "grad_norm": 8.182126998901367, "learning_rate": 0.00047000000000000004, "loss": 1.6283, "step": 8590 }, { "epoch": 86.0, "grad_norm": 4.966497898101807, "learning_rate": 0.00046666666666666666, "loss": 1.6063, "step": 8600 }, { "epoch": 86.0, "eval_accuracy": 0.14, "eval_loss": 11.363009452819824, "eval_runtime": 1.1002, "eval_samples_per_second": 90.889, "eval_steps_per_second": 90.889, "step": 8600 }, { "epoch": 86.1, "grad_norm": 2.8917222023010254, "learning_rate": 0.00046333333333333334, "loss": 1.5926, "step": 8610 }, { "epoch": 86.2, "grad_norm": 5.326013088226318, "learning_rate": 0.00045999999999999996, "loss": 1.7023, "step": 8620 }, { "epoch": 86.3, "grad_norm": 6.342537879943848, "learning_rate": 0.0004566666666666667, "loss": 1.7277, "step": 8630 }, { "epoch": 86.4, "grad_norm": 5.517503261566162, "learning_rate": 0.00045333333333333337, "loss": 1.5213, "step": 8640 }, { "epoch": 86.5, "grad_norm": 5.387936592102051, "learning_rate": 0.00045, "loss": 1.3763, "step": 8650 }, { "epoch": 86.6, "grad_norm": 6.751247406005859, "learning_rate": 0.00044666666666666666, "loss": 1.5613, "step": 8660 }, { "epoch": 86.7, "grad_norm": 3.263594627380371, "learning_rate": 0.00044333333333333334, "loss": 1.5917, "step": 8670 }, { "epoch": 86.8, "grad_norm": 4.501608371734619, "learning_rate": 0.00044, "loss": 1.7682, "step": 8680 }, { "epoch": 86.9, "grad_norm": 6.865741729736328, "learning_rate": 0.00043666666666666664, "loss": 1.6396, "step": 8690 }, { "epoch": 87.0, "grad_norm": 18.602689743041992, "learning_rate": 0.0004333333333333333, "loss": 1.5201, "step": 8700 }, { "epoch": 87.0, "eval_accuracy": 0.08, "eval_loss": 20.801061630249023, "eval_runtime": 1.0917, "eval_samples_per_second": 91.601, "eval_steps_per_second": 91.601, "step": 8700 }, { "epoch": 87.1, "grad_norm": 4.5361857414245605, "learning_rate": 0.00043000000000000004, "loss": 1.6544, "step": 8710 }, { "epoch": 87.2, "grad_norm": 9.736603736877441, "learning_rate": 0.00042666666666666667, "loss": 1.6858, "step": 8720 }, { "epoch": 87.3, "grad_norm": 4.952563762664795, "learning_rate": 0.00042333333333333334, "loss": 1.7577, "step": 8730 }, { "epoch": 87.4, "grad_norm": 4.5743608474731445, "learning_rate": 0.00042000000000000007, "loss": 1.5682, "step": 8740 }, { "epoch": 87.5, "grad_norm": 4.293666362762451, "learning_rate": 0.0004166666666666667, "loss": 1.5536, "step": 8750 }, { "epoch": 87.6, "grad_norm": 4.446376800537109, "learning_rate": 0.0004133333333333333, "loss": 1.5963, "step": 8760 }, { "epoch": 87.7, "grad_norm": 6.884150981903076, "learning_rate": 0.00041, "loss": 1.637, "step": 8770 }, { "epoch": 87.8, "grad_norm": 4.1387176513671875, "learning_rate": 0.0004066666666666667, "loss": 1.5257, "step": 8780 }, { "epoch": 87.9, "grad_norm": 4.752466678619385, "learning_rate": 0.00040333333333333334, "loss": 1.5627, "step": 8790 }, { "epoch": 88.0, "grad_norm": 4.676969051361084, "learning_rate": 0.0004, "loss": 1.3734, "step": 8800 }, { "epoch": 88.0, "eval_accuracy": 0.09, "eval_loss": 5.235384941101074, "eval_runtime": 1.0813, "eval_samples_per_second": 92.482, "eval_steps_per_second": 92.482, "step": 8800 }, { "epoch": 88.1, "grad_norm": 5.092541694641113, "learning_rate": 0.00039666666666666664, "loss": 1.8695, "step": 8810 }, { "epoch": 88.2, "grad_norm": 12.015568733215332, "learning_rate": 0.00039333333333333337, "loss": 1.8373, "step": 8820 }, { "epoch": 88.3, "grad_norm": 4.479465961456299, "learning_rate": 0.00039000000000000005, "loss": 1.6962, "step": 8830 }, { "epoch": 88.4, "grad_norm": 8.001754760742188, "learning_rate": 0.00038666666666666667, "loss": 1.6139, "step": 8840 }, { "epoch": 88.5, "grad_norm": 4.856076717376709, "learning_rate": 0.0003833333333333333, "loss": 1.3922, "step": 8850 }, { "epoch": 88.6, "grad_norm": 4.531224727630615, "learning_rate": 0.00038, "loss": 1.688, "step": 8860 }, { "epoch": 88.7, "grad_norm": 6.974000453948975, "learning_rate": 0.0003766666666666667, "loss": 1.8213, "step": 8870 }, { "epoch": 88.8, "grad_norm": 5.6940155029296875, "learning_rate": 0.0003733333333333333, "loss": 1.6231, "step": 8880 }, { "epoch": 88.9, "grad_norm": 6.221618175506592, "learning_rate": 0.00037, "loss": 1.4928, "step": 8890 }, { "epoch": 89.0, "grad_norm": 5.715379238128662, "learning_rate": 0.00036666666666666667, "loss": 1.5931, "step": 8900 }, { "epoch": 89.0, "eval_accuracy": 0.1, "eval_loss": 6.509023666381836, "eval_runtime": 1.1779, "eval_samples_per_second": 84.897, "eval_steps_per_second": 84.897, "step": 8900 }, { "epoch": 89.1, "grad_norm": 4.112030506134033, "learning_rate": 0.00036333333333333335, "loss": 1.4779, "step": 8910 }, { "epoch": 89.2, "grad_norm": 4.962814807891846, "learning_rate": 0.00035999999999999997, "loss": 1.4838, "step": 8920 }, { "epoch": 89.3, "grad_norm": 3.100139856338501, "learning_rate": 0.0003566666666666667, "loss": 1.4203, "step": 8930 }, { "epoch": 89.4, "grad_norm": 2.1554136276245117, "learning_rate": 0.0003533333333333333, "loss": 1.8653, "step": 8940 }, { "epoch": 89.5, "grad_norm": 4.6902360916137695, "learning_rate": 0.00035, "loss": 1.7854, "step": 8950 }, { "epoch": 89.6, "grad_norm": 7.109988689422607, "learning_rate": 0.00034666666666666667, "loss": 1.6059, "step": 8960 }, { "epoch": 89.7, "grad_norm": 5.055539608001709, "learning_rate": 0.00034333333333333335, "loss": 1.5368, "step": 8970 }, { "epoch": 89.8, "grad_norm": 3.6119301319122314, "learning_rate": 0.00033999999999999997, "loss": 1.6468, "step": 8980 }, { "epoch": 89.9, "grad_norm": 4.249040126800537, "learning_rate": 0.0003366666666666667, "loss": 1.6441, "step": 8990 }, { "epoch": 90.0, "grad_norm": 2.1352763175964355, "learning_rate": 0.0003333333333333333, "loss": 1.5562, "step": 9000 }, { "epoch": 90.0, "eval_accuracy": 0.1, "eval_loss": 11.834088325500488, "eval_runtime": 1.0907, "eval_samples_per_second": 91.685, "eval_steps_per_second": 91.685, "step": 9000 }, { "epoch": 90.1, "grad_norm": 6.328755855560303, "learning_rate": 0.00033, "loss": 1.3075, "step": 9010 }, { "epoch": 90.2, "grad_norm": 2.490816593170166, "learning_rate": 0.0003266666666666667, "loss": 1.5389, "step": 9020 }, { "epoch": 90.3, "grad_norm": 2.4213767051696777, "learning_rate": 0.00032333333333333335, "loss": 1.5494, "step": 9030 }, { "epoch": 90.4, "grad_norm": 6.218684673309326, "learning_rate": 0.00032, "loss": 1.714, "step": 9040 }, { "epoch": 90.5, "grad_norm": 8.454752922058105, "learning_rate": 0.00031666666666666665, "loss": 1.751, "step": 9050 }, { "epoch": 90.6, "grad_norm": 6.157979488372803, "learning_rate": 0.0003133333333333334, "loss": 1.6605, "step": 9060 }, { "epoch": 90.7, "grad_norm": 6.605826377868652, "learning_rate": 0.00031, "loss": 1.4179, "step": 9070 }, { "epoch": 90.8, "grad_norm": 3.808640480041504, "learning_rate": 0.0003066666666666667, "loss": 1.8103, "step": 9080 }, { "epoch": 90.9, "grad_norm": 2.5629327297210693, "learning_rate": 0.00030333333333333335, "loss": 1.8102, "step": 9090 }, { "epoch": 91.0, "grad_norm": 6.230813026428223, "learning_rate": 0.00030000000000000003, "loss": 1.576, "step": 9100 }, { "epoch": 91.0, "eval_accuracy": 0.11, "eval_loss": 6.952084541320801, "eval_runtime": 1.0557, "eval_samples_per_second": 94.722, "eval_steps_per_second": 94.722, "step": 9100 }, { "epoch": 91.1, "grad_norm": 6.030466079711914, "learning_rate": 0.00029666666666666665, "loss": 1.3356, "step": 9110 }, { "epoch": 91.2, "grad_norm": 11.793140411376953, "learning_rate": 0.0002933333333333334, "loss": 1.5781, "step": 9120 }, { "epoch": 91.3, "grad_norm": 3.717588186264038, "learning_rate": 0.00029, "loss": 1.6609, "step": 9130 }, { "epoch": 91.4, "grad_norm": 3.572495222091675, "learning_rate": 0.0002866666666666667, "loss": 1.4394, "step": 9140 }, { "epoch": 91.5, "grad_norm": 11.123634338378906, "learning_rate": 0.00028333333333333335, "loss": 1.7692, "step": 9150 }, { "epoch": 91.6, "grad_norm": 4.947868824005127, "learning_rate": 0.00028000000000000003, "loss": 1.9597, "step": 9160 }, { "epoch": 91.7, "grad_norm": 5.078018665313721, "learning_rate": 0.00027666666666666665, "loss": 1.7529, "step": 9170 }, { "epoch": 91.8, "grad_norm": 1.9481812715530396, "learning_rate": 0.00027333333333333333, "loss": 1.5537, "step": 9180 }, { "epoch": 91.9, "grad_norm": 4.905779838562012, "learning_rate": 0.00027, "loss": 1.6519, "step": 9190 }, { "epoch": 92.0, "grad_norm": 9.797691345214844, "learning_rate": 0.0002666666666666667, "loss": 1.542, "step": 9200 }, { "epoch": 92.0, "eval_accuracy": 0.11, "eval_loss": 5.4469685554504395, "eval_runtime": 1.0782, "eval_samples_per_second": 92.746, "eval_steps_per_second": 92.746, "step": 9200 }, { "epoch": 92.1, "grad_norm": 8.36400318145752, "learning_rate": 0.0002633333333333333, "loss": 1.3856, "step": 9210 }, { "epoch": 92.2, "grad_norm": 5.642277717590332, "learning_rate": 0.00026000000000000003, "loss": 1.4981, "step": 9220 }, { "epoch": 92.3, "grad_norm": 6.828677177429199, "learning_rate": 0.00025666666666666665, "loss": 1.6994, "step": 9230 }, { "epoch": 92.4, "grad_norm": 2.652298927307129, "learning_rate": 0.00025333333333333333, "loss": 1.4695, "step": 9240 }, { "epoch": 92.5, "grad_norm": 11.153400421142578, "learning_rate": 0.00025, "loss": 1.7156, "step": 9250 }, { "epoch": 92.6, "grad_norm": 9.4036865234375, "learning_rate": 0.0002466666666666667, "loss": 1.5793, "step": 9260 }, { "epoch": 92.7, "grad_norm": 4.6221089363098145, "learning_rate": 0.00024333333333333333, "loss": 1.5901, "step": 9270 }, { "epoch": 92.8, "grad_norm": 16.04757308959961, "learning_rate": 0.00024, "loss": 1.5083, "step": 9280 }, { "epoch": 92.9, "grad_norm": 3.3790411949157715, "learning_rate": 0.00023666666666666665, "loss": 1.6492, "step": 9290 }, { "epoch": 93.0, "grad_norm": 5.925487995147705, "learning_rate": 0.00023333333333333333, "loss": 1.4968, "step": 9300 }, { "epoch": 93.0, "eval_accuracy": 0.08, "eval_loss": 11.389555931091309, "eval_runtime": 1.0737, "eval_samples_per_second": 93.132, "eval_steps_per_second": 93.132, "step": 9300 }, { "epoch": 93.1, "grad_norm": 3.4330050945281982, "learning_rate": 0.00022999999999999998, "loss": 1.45, "step": 9310 }, { "epoch": 93.2, "grad_norm": 6.9820051193237305, "learning_rate": 0.00022666666666666668, "loss": 1.5511, "step": 9320 }, { "epoch": 93.3, "grad_norm": 3.9312143325805664, "learning_rate": 0.00022333333333333333, "loss": 1.6517, "step": 9330 }, { "epoch": 93.4, "grad_norm": 3.8252358436584473, "learning_rate": 0.00022, "loss": 1.5204, "step": 9340 }, { "epoch": 93.5, "grad_norm": 5.608623027801514, "learning_rate": 0.00021666666666666666, "loss": 1.6045, "step": 9350 }, { "epoch": 93.6, "grad_norm": 3.1002135276794434, "learning_rate": 0.00021333333333333333, "loss": 1.8633, "step": 9360 }, { "epoch": 93.7, "grad_norm": 7.6362080574035645, "learning_rate": 0.00021000000000000004, "loss": 1.8021, "step": 9370 }, { "epoch": 93.8, "grad_norm": 6.949824810028076, "learning_rate": 0.00020666666666666666, "loss": 1.5986, "step": 9380 }, { "epoch": 93.9, "grad_norm": 2.6082653999328613, "learning_rate": 0.00020333333333333336, "loss": 1.6573, "step": 9390 }, { "epoch": 94.0, "grad_norm": 1.7762422561645508, "learning_rate": 0.0002, "loss": 1.5031, "step": 9400 }, { "epoch": 94.0, "eval_accuracy": 0.09, "eval_loss": 11.971654891967773, "eval_runtime": 1.0995, "eval_samples_per_second": 90.954, "eval_steps_per_second": 90.954, "step": 9400 }, { "epoch": 94.1, "grad_norm": 5.909740447998047, "learning_rate": 0.00019666666666666669, "loss": 1.8356, "step": 9410 }, { "epoch": 94.2, "grad_norm": 5.829824447631836, "learning_rate": 0.00019333333333333333, "loss": 1.6169, "step": 9420 }, { "epoch": 94.3, "grad_norm": 5.292634963989258, "learning_rate": 0.00019, "loss": 1.5679, "step": 9430 }, { "epoch": 94.4, "grad_norm": 10.358529090881348, "learning_rate": 0.00018666666666666666, "loss": 1.7761, "step": 9440 }, { "epoch": 94.5, "grad_norm": 7.091001033782959, "learning_rate": 0.00018333333333333334, "loss": 1.3063, "step": 9450 }, { "epoch": 94.6, "grad_norm": 5.417427062988281, "learning_rate": 0.00017999999999999998, "loss": 1.5903, "step": 9460 }, { "epoch": 94.7, "grad_norm": 2.955625295639038, "learning_rate": 0.00017666666666666666, "loss": 1.34, "step": 9470 }, { "epoch": 94.8, "grad_norm": 12.496049880981445, "learning_rate": 0.00017333333333333334, "loss": 1.6369, "step": 9480 }, { "epoch": 94.9, "grad_norm": 5.346241474151611, "learning_rate": 0.00016999999999999999, "loss": 1.6256, "step": 9490 }, { "epoch": 95.0, "grad_norm": 3.4618892669677734, "learning_rate": 0.00016666666666666666, "loss": 1.797, "step": 9500 }, { "epoch": 95.0, "eval_accuracy": 0.15, "eval_loss": 5.659628391265869, "eval_runtime": 1.0964, "eval_samples_per_second": 91.21, "eval_steps_per_second": 91.21, "step": 9500 }, { "epoch": 95.1, "grad_norm": 9.091547012329102, "learning_rate": 0.00016333333333333334, "loss": 1.7098, "step": 9510 }, { "epoch": 95.2, "grad_norm": 4.004639625549316, "learning_rate": 0.00016, "loss": 1.7619, "step": 9520 }, { "epoch": 95.3, "grad_norm": 5.718022346496582, "learning_rate": 0.0001566666666666667, "loss": 1.6164, "step": 9530 }, { "epoch": 95.4, "grad_norm": 6.067481994628906, "learning_rate": 0.00015333333333333334, "loss": 1.4772, "step": 9540 }, { "epoch": 95.5, "grad_norm": 9.880731582641602, "learning_rate": 0.00015000000000000001, "loss": 1.727, "step": 9550 }, { "epoch": 95.6, "grad_norm": 3.9072794914245605, "learning_rate": 0.0001466666666666667, "loss": 1.6101, "step": 9560 }, { "epoch": 95.7, "grad_norm": 5.950568199157715, "learning_rate": 0.00014333333333333334, "loss": 1.6918, "step": 9570 }, { "epoch": 95.8, "grad_norm": 4.8070759773254395, "learning_rate": 0.00014000000000000001, "loss": 1.5439, "step": 9580 }, { "epoch": 95.9, "grad_norm": 2.928107500076294, "learning_rate": 0.00013666666666666666, "loss": 1.7419, "step": 9590 }, { "epoch": 96.0, "grad_norm": 2.5517635345458984, "learning_rate": 0.00013333333333333334, "loss": 1.5389, "step": 9600 }, { "epoch": 96.0, "eval_accuracy": 0.15, "eval_loss": 5.394742488861084, "eval_runtime": 1.2105, "eval_samples_per_second": 82.609, "eval_steps_per_second": 82.609, "step": 9600 }, { "epoch": 96.1, "grad_norm": 6.7149200439453125, "learning_rate": 0.00013000000000000002, "loss": 1.4619, "step": 9610 }, { "epoch": 96.2, "grad_norm": 4.244627952575684, "learning_rate": 0.00012666666666666666, "loss": 1.658, "step": 9620 }, { "epoch": 96.3, "grad_norm": 12.272513389587402, "learning_rate": 0.00012333333333333334, "loss": 1.4024, "step": 9630 }, { "epoch": 96.4, "grad_norm": 4.836441516876221, "learning_rate": 0.00012, "loss": 1.6373, "step": 9640 }, { "epoch": 96.5, "grad_norm": 10.306394577026367, "learning_rate": 0.00011666666666666667, "loss": 1.6761, "step": 9650 }, { "epoch": 96.6, "grad_norm": 15.065468788146973, "learning_rate": 0.00011333333333333334, "loss": 1.5668, "step": 9660 }, { "epoch": 96.7, "grad_norm": 9.095344543457031, "learning_rate": 0.00011, "loss": 1.6632, "step": 9670 }, { "epoch": 96.8, "grad_norm": 15.200200080871582, "learning_rate": 0.00010666666666666667, "loss": 1.751, "step": 9680 }, { "epoch": 96.9, "grad_norm": 5.573326587677002, "learning_rate": 0.00010333333333333333, "loss": 1.4333, "step": 9690 }, { "epoch": 97.0, "grad_norm": 8.93664836883545, "learning_rate": 0.0001, "loss": 1.6494, "step": 9700 }, { "epoch": 97.0, "eval_accuracy": 0.09, "eval_loss": 12.270679473876953, "eval_runtime": 1.1046, "eval_samples_per_second": 90.527, "eval_steps_per_second": 90.527, "step": 9700 }, { "epoch": 97.1, "grad_norm": 7.3307061195373535, "learning_rate": 9.666666666666667e-05, "loss": 1.6132, "step": 9710 }, { "epoch": 97.2, "grad_norm": 4.363010406494141, "learning_rate": 9.333333333333333e-05, "loss": 1.4765, "step": 9720 }, { "epoch": 97.3, "grad_norm": 6.389674186706543, "learning_rate": 8.999999999999999e-05, "loss": 1.5761, "step": 9730 }, { "epoch": 97.4, "grad_norm": 5.851135730743408, "learning_rate": 8.666666666666667e-05, "loss": 1.4239, "step": 9740 }, { "epoch": 97.5, "grad_norm": 3.2834291458129883, "learning_rate": 8.333333333333333e-05, "loss": 1.492, "step": 9750 }, { "epoch": 97.6, "grad_norm": 7.470133304595947, "learning_rate": 8e-05, "loss": 1.397, "step": 9760 }, { "epoch": 97.7, "grad_norm": 10.482823371887207, "learning_rate": 7.666666666666667e-05, "loss": 1.3747, "step": 9770 }, { "epoch": 97.8, "grad_norm": 5.69985818862915, "learning_rate": 7.333333333333334e-05, "loss": 1.6509, "step": 9780 }, { "epoch": 97.9, "grad_norm": 5.918487071990967, "learning_rate": 7.000000000000001e-05, "loss": 1.7359, "step": 9790 }, { "epoch": 98.0, "grad_norm": 5.521181583404541, "learning_rate": 6.666666666666667e-05, "loss": 1.73, "step": 9800 }, { "epoch": 98.0, "eval_accuracy": 0.09, "eval_loss": 7.748157978057861, "eval_runtime": 1.1743, "eval_samples_per_second": 85.156, "eval_steps_per_second": 85.156, "step": 9800 }, { "epoch": 98.1, "grad_norm": 1.7943670749664307, "learning_rate": 6.333333333333333e-05, "loss": 1.521, "step": 9810 }, { "epoch": 98.2, "grad_norm": 5.804259777069092, "learning_rate": 6e-05, "loss": 1.4225, "step": 9820 }, { "epoch": 98.3, "grad_norm": 4.800943374633789, "learning_rate": 5.666666666666667e-05, "loss": 1.6552, "step": 9830 }, { "epoch": 98.4, "grad_norm": 4.801553726196289, "learning_rate": 5.333333333333333e-05, "loss": 1.6209, "step": 9840 }, { "epoch": 98.5, "grad_norm": 6.166553974151611, "learning_rate": 5e-05, "loss": 1.6065, "step": 9850 }, { "epoch": 98.6, "grad_norm": 5.88163948059082, "learning_rate": 4.6666666666666665e-05, "loss": 1.4366, "step": 9860 }, { "epoch": 98.7, "grad_norm": 3.944805145263672, "learning_rate": 4.3333333333333334e-05, "loss": 1.7576, "step": 9870 }, { "epoch": 98.8, "grad_norm": 3.368363618850708, "learning_rate": 4e-05, "loss": 1.4783, "step": 9880 }, { "epoch": 98.9, "grad_norm": 14.498971939086914, "learning_rate": 3.666666666666667e-05, "loss": 1.5058, "step": 9890 }, { "epoch": 99.0, "grad_norm": 15.378142356872559, "learning_rate": 3.3333333333333335e-05, "loss": 1.6781, "step": 9900 }, { "epoch": 99.0, "eval_accuracy": 0.09, "eval_loss": 8.217840194702148, "eval_runtime": 1.0827, "eval_samples_per_second": 92.358, "eval_steps_per_second": 92.358, "step": 9900 }, { "epoch": 99.1, "grad_norm": 4.426601886749268, "learning_rate": 3e-05, "loss": 1.6958, "step": 9910 }, { "epoch": 99.2, "grad_norm": 4.605733394622803, "learning_rate": 2.6666666666666667e-05, "loss": 1.4533, "step": 9920 }, { "epoch": 99.3, "grad_norm": 13.782227516174316, "learning_rate": 2.3333333333333332e-05, "loss": 1.8946, "step": 9930 }, { "epoch": 99.4, "grad_norm": 4.161137580871582, "learning_rate": 2e-05, "loss": 1.6174, "step": 9940 }, { "epoch": 99.5, "grad_norm": 2.4664387702941895, "learning_rate": 1.6666666666666667e-05, "loss": 1.5238, "step": 9950 }, { "epoch": 99.6, "grad_norm": 2.55865216255188, "learning_rate": 1.3333333333333333e-05, "loss": 1.5149, "step": 9960 }, { "epoch": 99.7, "grad_norm": 6.92779016494751, "learning_rate": 1e-05, "loss": 1.6855, "step": 9970 }, { "epoch": 99.8, "grad_norm": 5.996972560882568, "learning_rate": 6.666666666666667e-06, "loss": 1.6467, "step": 9980 }, { "epoch": 99.9, "grad_norm": 4.8729729652404785, "learning_rate": 3.3333333333333333e-06, "loss": 1.4819, "step": 9990 }, { "epoch": 100.0, "grad_norm": 6.14045524597168, "learning_rate": 0.0, "loss": 1.6353, "step": 10000 }, { "epoch": 100.0, "eval_accuracy": 0.09, "eval_loss": 7.3961310386657715, "eval_runtime": 1.1462, "eval_samples_per_second": 87.242, "eval_steps_per_second": 87.242, "step": 10000 }, { "epoch": 100.0, "step": 10000, "total_flos": 5.698654912512e+16, "train_loss": 1.9340028741836548, "train_runtime": 4182.7218, "train_samples_per_second": 9.563, "train_steps_per_second": 2.391 } ], "logging_steps": 10, "max_steps": 10000, "num_input_tokens_seen": 0, "num_train_epochs": 100, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 5.698654912512e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }