|
{ |
|
"best_metric": 0.2, |
|
"best_model_checkpoint": "mobilevit-xx-small-finetuned-eurosat/checkpoint-3500", |
|
"epoch": 100.0, |
|
"eval_steps": 500, |
|
"global_step": 10000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 2.1324617862701416, |
|
"learning_rate": 3e-05, |
|
"loss": 2.3012, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 1.3381329774856567, |
|
"learning_rate": 6e-05, |
|
"loss": 2.3047, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 1.8502155542373657, |
|
"learning_rate": 8.999999999999999e-05, |
|
"loss": 2.2991, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 2.422213554382324, |
|
"learning_rate": 0.00012, |
|
"loss": 2.3029, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 1.453734040260315, |
|
"learning_rate": 0.00015000000000000001, |
|
"loss": 2.3016, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 1.6491554975509644, |
|
"learning_rate": 0.00017999999999999998, |
|
"loss": 2.303, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 2.927738666534424, |
|
"learning_rate": 0.00021000000000000004, |
|
"loss": 2.3005, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 1.2199476957321167, |
|
"learning_rate": 0.00024, |
|
"loss": 2.3069, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 1.4366081953048706, |
|
"learning_rate": 0.00027, |
|
"loss": 2.2955, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 1.102356195449829, |
|
"learning_rate": 0.00030000000000000003, |
|
"loss": 2.2991, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_accuracy": 0.16, |
|
"eval_loss": 2.289586067199707, |
|
"eval_runtime": 1.4788, |
|
"eval_samples_per_second": 67.624, |
|
"eval_steps_per_second": 67.624, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"grad_norm": 1.5379983186721802, |
|
"learning_rate": 0.00033, |
|
"loss": 2.3002, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 0.928782045841217, |
|
"learning_rate": 0.00035999999999999997, |
|
"loss": 2.2956, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"grad_norm": 0.9759466052055359, |
|
"learning_rate": 0.00039000000000000005, |
|
"loss": 2.3028, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 1.5415401458740234, |
|
"learning_rate": 0.00042000000000000007, |
|
"loss": 2.2976, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 1.1042237281799316, |
|
"learning_rate": 0.00045, |
|
"loss": 2.2798, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 1.4493985176086426, |
|
"learning_rate": 0.00048, |
|
"loss": 2.2941, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"grad_norm": 1.538596510887146, |
|
"learning_rate": 0.00051, |
|
"loss": 2.2887, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"grad_norm": 1.4531352519989014, |
|
"learning_rate": 0.00054, |
|
"loss": 2.3009, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"grad_norm": 0.983465313911438, |
|
"learning_rate": 0.00057, |
|
"loss": 2.2891, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 1.0896656513214111, |
|
"learning_rate": 0.0006000000000000001, |
|
"loss": 2.3041, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 2.4577579498291016, |
|
"eval_runtime": 1.4566, |
|
"eval_samples_per_second": 68.653, |
|
"eval_steps_per_second": 68.653, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 2.1, |
|
"grad_norm": 0.838339626789093, |
|
"learning_rate": 0.00063, |
|
"loss": 2.3074, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 2.2, |
|
"grad_norm": 1.0502190589904785, |
|
"learning_rate": 0.00066, |
|
"loss": 2.2746, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 2.3, |
|
"grad_norm": 0.9475522041320801, |
|
"learning_rate": 0.0006900000000000001, |
|
"loss": 2.2484, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"grad_norm": 0.7182848453521729, |
|
"learning_rate": 0.0007199999999999999, |
|
"loss": 2.2644, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 1.08864164352417, |
|
"learning_rate": 0.00075, |
|
"loss": 2.3224, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"grad_norm": 0.9813370108604431, |
|
"learning_rate": 0.0007800000000000001, |
|
"loss": 2.2964, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 2.7, |
|
"grad_norm": 0.8489407300949097, |
|
"learning_rate": 0.0008100000000000001, |
|
"loss": 2.3066, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"grad_norm": 1.1197150945663452, |
|
"learning_rate": 0.0008400000000000001, |
|
"loss": 2.3362, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 2.9, |
|
"grad_norm": 1.279061198234558, |
|
"learning_rate": 0.00087, |
|
"loss": 2.2834, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"grad_norm": 1.2697229385375977, |
|
"learning_rate": 0.0009, |
|
"loss": 2.2833, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 2.302177906036377, |
|
"eval_runtime": 1.3695, |
|
"eval_samples_per_second": 73.017, |
|
"eval_steps_per_second": 73.017, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 3.1, |
|
"grad_norm": 1.1153604984283447, |
|
"learning_rate": 0.00093, |
|
"loss": 2.2568, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"grad_norm": 0.7443063855171204, |
|
"learning_rate": 0.00096, |
|
"loss": 2.2826, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 3.3, |
|
"grad_norm": 0.8337368965148926, |
|
"learning_rate": 0.00099, |
|
"loss": 2.2561, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 3.4, |
|
"grad_norm": 0.8116536736488342, |
|
"learning_rate": 0.00102, |
|
"loss": 2.3272, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 3.5, |
|
"grad_norm": 0.9721486568450928, |
|
"learning_rate": 0.00105, |
|
"loss": 2.2719, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 3.6, |
|
"grad_norm": 1.4430909156799316, |
|
"learning_rate": 0.00108, |
|
"loss": 2.3039, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 3.7, |
|
"grad_norm": 2.4252946376800537, |
|
"learning_rate": 0.00111, |
|
"loss": 2.2797, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 3.8, |
|
"grad_norm": 1.0932201147079468, |
|
"learning_rate": 0.00114, |
|
"loss": 2.2843, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 3.9, |
|
"grad_norm": 1.1340506076812744, |
|
"learning_rate": 0.00117, |
|
"loss": 2.3229, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"grad_norm": 2.5897912979125977, |
|
"learning_rate": 0.0012000000000000001, |
|
"loss": 2.2755, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_accuracy": 0.17, |
|
"eval_loss": 2.4038970470428467, |
|
"eval_runtime": 1.5324, |
|
"eval_samples_per_second": 65.256, |
|
"eval_steps_per_second": 65.256, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 4.1, |
|
"grad_norm": 0.7979876399040222, |
|
"learning_rate": 0.00123, |
|
"loss": 2.2504, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 4.2, |
|
"grad_norm": 1.2705005407333374, |
|
"learning_rate": 0.00126, |
|
"loss": 2.2731, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 4.3, |
|
"grad_norm": 1.4571020603179932, |
|
"learning_rate": 0.00129, |
|
"loss": 2.3268, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 4.4, |
|
"grad_norm": 1.3778339624404907, |
|
"learning_rate": 0.00132, |
|
"loss": 2.3044, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"grad_norm": 1.30875563621521, |
|
"learning_rate": 0.00135, |
|
"loss": 2.2627, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 4.6, |
|
"grad_norm": 0.9140678644180298, |
|
"learning_rate": 0.0013800000000000002, |
|
"loss": 2.2876, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 4.7, |
|
"grad_norm": 0.9151474833488464, |
|
"learning_rate": 0.00141, |
|
"loss": 2.2905, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"grad_norm": 0.8817148804664612, |
|
"learning_rate": 0.0014399999999999999, |
|
"loss": 2.2698, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 4.9, |
|
"grad_norm": 1.2688977718353271, |
|
"learning_rate": 0.00147, |
|
"loss": 2.2646, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"grad_norm": 0.8824284076690674, |
|
"learning_rate": 0.0015, |
|
"loss": 2.3063, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"eval_accuracy": 0.1, |
|
"eval_loss": 2.5689330101013184, |
|
"eval_runtime": 1.5068, |
|
"eval_samples_per_second": 66.367, |
|
"eval_steps_per_second": 66.367, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 5.1, |
|
"grad_norm": 1.2520034313201904, |
|
"learning_rate": 0.0015300000000000001, |
|
"loss": 2.241, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 5.2, |
|
"grad_norm": 1.0238957405090332, |
|
"learning_rate": 0.0015600000000000002, |
|
"loss": 2.27, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 5.3, |
|
"grad_norm": 2.1329076290130615, |
|
"learning_rate": 0.00159, |
|
"loss": 2.2933, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 5.4, |
|
"grad_norm": 1.5213390588760376, |
|
"learning_rate": 0.0016200000000000001, |
|
"loss": 2.3265, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 5.5, |
|
"grad_norm": 1.0696481466293335, |
|
"learning_rate": 0.0016500000000000002, |
|
"loss": 2.2632, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 5.6, |
|
"grad_norm": 2.2588746547698975, |
|
"learning_rate": 0.0016800000000000003, |
|
"loss": 2.3076, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 5.7, |
|
"grad_norm": 0.8829935789108276, |
|
"learning_rate": 0.00171, |
|
"loss": 2.2396, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 5.8, |
|
"grad_norm": 2.340522289276123, |
|
"learning_rate": 0.00174, |
|
"loss": 2.2487, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 5.9, |
|
"grad_norm": 1.1000961065292358, |
|
"learning_rate": 0.0017699999999999999, |
|
"loss": 2.4008, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"grad_norm": 1.0605051517486572, |
|
"learning_rate": 0.0018, |
|
"loss": 2.3247, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"eval_accuracy": 0.05, |
|
"eval_loss": 2.5307223796844482, |
|
"eval_runtime": 1.4509, |
|
"eval_samples_per_second": 68.922, |
|
"eval_steps_per_second": 68.922, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 6.1, |
|
"grad_norm": 0.7217267751693726, |
|
"learning_rate": 0.00183, |
|
"loss": 2.2628, |
|
"step": 610 |
|
}, |
|
{ |
|
"epoch": 6.2, |
|
"grad_norm": 1.2763817310333252, |
|
"learning_rate": 0.00186, |
|
"loss": 2.3345, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 6.3, |
|
"grad_norm": 1.0277924537658691, |
|
"learning_rate": 0.00189, |
|
"loss": 2.21, |
|
"step": 630 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"grad_norm": 1.1366169452667236, |
|
"learning_rate": 0.00192, |
|
"loss": 2.2671, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 6.5, |
|
"grad_norm": 1.314244270324707, |
|
"learning_rate": 0.0019500000000000001, |
|
"loss": 2.2903, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 6.6, |
|
"grad_norm": 1.7358442544937134, |
|
"learning_rate": 0.00198, |
|
"loss": 2.2646, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 6.7, |
|
"grad_norm": 1.7523398399353027, |
|
"learning_rate": 0.00201, |
|
"loss": 2.2954, |
|
"step": 670 |
|
}, |
|
{ |
|
"epoch": 6.8, |
|
"grad_norm": 1.0838252305984497, |
|
"learning_rate": 0.00204, |
|
"loss": 2.284, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 6.9, |
|
"grad_norm": 1.375260591506958, |
|
"learning_rate": 0.00207, |
|
"loss": 2.2751, |
|
"step": 690 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"grad_norm": 0.8118464946746826, |
|
"learning_rate": 0.0021, |
|
"loss": 2.2867, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 4.129552841186523, |
|
"eval_runtime": 1.34, |
|
"eval_samples_per_second": 74.629, |
|
"eval_steps_per_second": 74.629, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 7.1, |
|
"grad_norm": 1.1006956100463867, |
|
"learning_rate": 0.00213, |
|
"loss": 2.2591, |
|
"step": 710 |
|
}, |
|
{ |
|
"epoch": 7.2, |
|
"grad_norm": 1.0100908279418945, |
|
"learning_rate": 0.00216, |
|
"loss": 2.234, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 7.3, |
|
"grad_norm": 0.6693554520606995, |
|
"learning_rate": 0.00219, |
|
"loss": 2.2912, |
|
"step": 730 |
|
}, |
|
{ |
|
"epoch": 7.4, |
|
"grad_norm": 1.4744811058044434, |
|
"learning_rate": 0.00222, |
|
"loss": 2.2978, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"grad_norm": 1.1265888214111328, |
|
"learning_rate": 0.0022500000000000003, |
|
"loss": 2.2747, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 7.6, |
|
"grad_norm": 0.7370518445968628, |
|
"learning_rate": 0.00228, |
|
"loss": 2.254, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 7.7, |
|
"grad_norm": 3.5498600006103516, |
|
"learning_rate": 0.00231, |
|
"loss": 2.3023, |
|
"step": 770 |
|
}, |
|
{ |
|
"epoch": 7.8, |
|
"grad_norm": 0.8357071876525879, |
|
"learning_rate": 0.00234, |
|
"loss": 2.2806, |
|
"step": 780 |
|
}, |
|
{ |
|
"epoch": 7.9, |
|
"grad_norm": 0.9274773597717285, |
|
"learning_rate": 0.00237, |
|
"loss": 2.3048, |
|
"step": 790 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"grad_norm": 1.2820582389831543, |
|
"learning_rate": 0.0024000000000000002, |
|
"loss": 2.2696, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_accuracy": 0.07, |
|
"eval_loss": 3.08689546585083, |
|
"eval_runtime": 19.5044, |
|
"eval_samples_per_second": 5.127, |
|
"eval_steps_per_second": 5.127, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 8.1, |
|
"grad_norm": 0.8906604647636414, |
|
"learning_rate": 0.0024300000000000003, |
|
"loss": 2.2654, |
|
"step": 810 |
|
}, |
|
{ |
|
"epoch": 8.2, |
|
"grad_norm": 0.9984199404716492, |
|
"learning_rate": 0.00246, |
|
"loss": 2.279, |
|
"step": 820 |
|
}, |
|
{ |
|
"epoch": 8.3, |
|
"grad_norm": 1.9721964597702026, |
|
"learning_rate": 0.00249, |
|
"loss": 2.3893, |
|
"step": 830 |
|
}, |
|
{ |
|
"epoch": 8.4, |
|
"grad_norm": 1.0067120790481567, |
|
"learning_rate": 0.00252, |
|
"loss": 2.2639, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 8.5, |
|
"grad_norm": 1.388048529624939, |
|
"learning_rate": 0.00255, |
|
"loss": 2.3113, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 8.6, |
|
"grad_norm": 1.2845227718353271, |
|
"learning_rate": 0.00258, |
|
"loss": 2.2511, |
|
"step": 860 |
|
}, |
|
{ |
|
"epoch": 8.7, |
|
"grad_norm": 0.871728241443634, |
|
"learning_rate": 0.00261, |
|
"loss": 2.3939, |
|
"step": 870 |
|
}, |
|
{ |
|
"epoch": 8.8, |
|
"grad_norm": 0.8184868693351746, |
|
"learning_rate": 0.00264, |
|
"loss": 2.2946, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 8.9, |
|
"grad_norm": 1.132112741470337, |
|
"learning_rate": 0.00267, |
|
"loss": 2.3046, |
|
"step": 890 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"grad_norm": 2.1133577823638916, |
|
"learning_rate": 0.0027, |
|
"loss": 2.2688, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 3.6086204051971436, |
|
"eval_runtime": 20.8005, |
|
"eval_samples_per_second": 4.808, |
|
"eval_steps_per_second": 4.808, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 9.1, |
|
"grad_norm": 2.4818060398101807, |
|
"learning_rate": 0.0027300000000000002, |
|
"loss": 2.3106, |
|
"step": 910 |
|
}, |
|
{ |
|
"epoch": 9.2, |
|
"grad_norm": 3.1399571895599365, |
|
"learning_rate": 0.0027600000000000003, |
|
"loss": 2.2638, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 9.3, |
|
"grad_norm": 0.6101534962654114, |
|
"learning_rate": 0.0027900000000000004, |
|
"loss": 2.3405, |
|
"step": 930 |
|
}, |
|
{ |
|
"epoch": 9.4, |
|
"grad_norm": 0.5602176189422607, |
|
"learning_rate": 0.00282, |
|
"loss": 2.2907, |
|
"step": 940 |
|
}, |
|
{ |
|
"epoch": 9.5, |
|
"grad_norm": 0.9144548773765564, |
|
"learning_rate": 0.00285, |
|
"loss": 2.2859, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 9.6, |
|
"grad_norm": 1.6563771963119507, |
|
"learning_rate": 0.0028799999999999997, |
|
"loss": 2.226, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 9.7, |
|
"grad_norm": 1.130618691444397, |
|
"learning_rate": 0.00291, |
|
"loss": 2.3164, |
|
"step": 970 |
|
}, |
|
{ |
|
"epoch": 9.8, |
|
"grad_norm": 1.309047818183899, |
|
"learning_rate": 0.00294, |
|
"loss": 2.369, |
|
"step": 980 |
|
}, |
|
{ |
|
"epoch": 9.9, |
|
"grad_norm": 0.8424582481384277, |
|
"learning_rate": 0.00297, |
|
"loss": 2.3191, |
|
"step": 990 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"grad_norm": 0.7681222558021545, |
|
"learning_rate": 0.003, |
|
"loss": 2.2616, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 6.5421600341796875, |
|
"eval_runtime": 8.3248, |
|
"eval_samples_per_second": 12.012, |
|
"eval_steps_per_second": 12.012, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 10.1, |
|
"grad_norm": 0.7878401875495911, |
|
"learning_rate": 0.002996666666666667, |
|
"loss": 2.3113, |
|
"step": 1010 |
|
}, |
|
{ |
|
"epoch": 10.2, |
|
"grad_norm": 1.2619870901107788, |
|
"learning_rate": 0.0029933333333333335, |
|
"loss": 2.2792, |
|
"step": 1020 |
|
}, |
|
{ |
|
"epoch": 10.3, |
|
"grad_norm": 0.8518879413604736, |
|
"learning_rate": 0.00299, |
|
"loss": 2.2483, |
|
"step": 1030 |
|
}, |
|
{ |
|
"epoch": 10.4, |
|
"grad_norm": 1.0644011497497559, |
|
"learning_rate": 0.0029866666666666665, |
|
"loss": 2.2962, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 10.5, |
|
"grad_norm": 4.86259651184082, |
|
"learning_rate": 0.0029833333333333335, |
|
"loss": 2.3568, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 10.6, |
|
"grad_norm": 0.6222243905067444, |
|
"learning_rate": 0.00298, |
|
"loss": 2.3044, |
|
"step": 1060 |
|
}, |
|
{ |
|
"epoch": 10.7, |
|
"grad_norm": 0.9417657256126404, |
|
"learning_rate": 0.002976666666666667, |
|
"loss": 2.3293, |
|
"step": 1070 |
|
}, |
|
{ |
|
"epoch": 10.8, |
|
"grad_norm": 0.8060852289199829, |
|
"learning_rate": 0.0029733333333333335, |
|
"loss": 2.3223, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 10.9, |
|
"grad_norm": 13.554573059082031, |
|
"learning_rate": 0.00297, |
|
"loss": 2.3174, |
|
"step": 1090 |
|
}, |
|
{ |
|
"epoch": 11.0, |
|
"grad_norm": 0.6837009191513062, |
|
"learning_rate": 0.002966666666666667, |
|
"loss": 2.3896, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 11.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 3.2714791297912598, |
|
"eval_runtime": 2.1977, |
|
"eval_samples_per_second": 45.503, |
|
"eval_steps_per_second": 45.503, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 11.1, |
|
"grad_norm": 0.7141666412353516, |
|
"learning_rate": 0.0029633333333333334, |
|
"loss": 2.3195, |
|
"step": 1110 |
|
}, |
|
{ |
|
"epoch": 11.2, |
|
"grad_norm": 0.7167306542396545, |
|
"learning_rate": 0.00296, |
|
"loss": 2.296, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 11.3, |
|
"grad_norm": 0.7279971241950989, |
|
"learning_rate": 0.0029566666666666665, |
|
"loss": 2.271, |
|
"step": 1130 |
|
}, |
|
{ |
|
"epoch": 11.4, |
|
"grad_norm": 0.7350410223007202, |
|
"learning_rate": 0.0029533333333333334, |
|
"loss": 2.3213, |
|
"step": 1140 |
|
}, |
|
{ |
|
"epoch": 11.5, |
|
"grad_norm": 0.7864300012588501, |
|
"learning_rate": 0.00295, |
|
"loss": 2.3639, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 11.6, |
|
"grad_norm": 1.0151550769805908, |
|
"learning_rate": 0.002946666666666667, |
|
"loss": 2.3102, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 11.7, |
|
"grad_norm": 0.830095648765564, |
|
"learning_rate": 0.0029433333333333334, |
|
"loss": 2.3059, |
|
"step": 1170 |
|
}, |
|
{ |
|
"epoch": 11.8, |
|
"grad_norm": 0.9856182932853699, |
|
"learning_rate": 0.00294, |
|
"loss": 2.3251, |
|
"step": 1180 |
|
}, |
|
{ |
|
"epoch": 11.9, |
|
"grad_norm": 0.9483402371406555, |
|
"learning_rate": 0.002936666666666667, |
|
"loss": 2.2442, |
|
"step": 1190 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"grad_norm": 0.8080146908760071, |
|
"learning_rate": 0.0029333333333333334, |
|
"loss": 2.3264, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 2.697530746459961, |
|
"eval_runtime": 10.4979, |
|
"eval_samples_per_second": 9.526, |
|
"eval_steps_per_second": 9.526, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 12.1, |
|
"grad_norm": 0.5614495277404785, |
|
"learning_rate": 0.0029300000000000003, |
|
"loss": 2.3242, |
|
"step": 1210 |
|
}, |
|
{ |
|
"epoch": 12.2, |
|
"grad_norm": 0.5666948556900024, |
|
"learning_rate": 0.0029266666666666664, |
|
"loss": 2.2657, |
|
"step": 1220 |
|
}, |
|
{ |
|
"epoch": 12.3, |
|
"grad_norm": 0.6668452024459839, |
|
"learning_rate": 0.0029233333333333333, |
|
"loss": 2.25, |
|
"step": 1230 |
|
}, |
|
{ |
|
"epoch": 12.4, |
|
"grad_norm": 0.724169135093689, |
|
"learning_rate": 0.0029200000000000003, |
|
"loss": 2.3341, |
|
"step": 1240 |
|
}, |
|
{ |
|
"epoch": 12.5, |
|
"grad_norm": 0.5056666135787964, |
|
"learning_rate": 0.002916666666666667, |
|
"loss": 2.3078, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 12.6, |
|
"grad_norm": 0.542679488658905, |
|
"learning_rate": 0.0029133333333333333, |
|
"loss": 2.3181, |
|
"step": 1260 |
|
}, |
|
{ |
|
"epoch": 12.7, |
|
"grad_norm": 0.5752130746841431, |
|
"learning_rate": 0.00291, |
|
"loss": 2.3095, |
|
"step": 1270 |
|
}, |
|
{ |
|
"epoch": 12.8, |
|
"grad_norm": 1.2706278562545776, |
|
"learning_rate": 0.0029066666666666668, |
|
"loss": 2.2843, |
|
"step": 1280 |
|
}, |
|
{ |
|
"epoch": 12.9, |
|
"grad_norm": 0.6558820605278015, |
|
"learning_rate": 0.0029033333333333333, |
|
"loss": 2.38, |
|
"step": 1290 |
|
}, |
|
{ |
|
"epoch": 13.0, |
|
"grad_norm": 0.4819053113460541, |
|
"learning_rate": 0.0029000000000000002, |
|
"loss": 2.2603, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 13.0, |
|
"eval_accuracy": 0.17, |
|
"eval_loss": 2.4011728763580322, |
|
"eval_runtime": 5.0203, |
|
"eval_samples_per_second": 19.919, |
|
"eval_steps_per_second": 19.919, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 13.1, |
|
"grad_norm": 0.534329354763031, |
|
"learning_rate": 0.0028966666666666667, |
|
"loss": 2.2935, |
|
"step": 1310 |
|
}, |
|
{ |
|
"epoch": 13.2, |
|
"grad_norm": 0.6757941842079163, |
|
"learning_rate": 0.0028933333333333333, |
|
"loss": 2.3112, |
|
"step": 1320 |
|
}, |
|
{ |
|
"epoch": 13.3, |
|
"grad_norm": 0.5297008156776428, |
|
"learning_rate": 0.00289, |
|
"loss": 2.2442, |
|
"step": 1330 |
|
}, |
|
{ |
|
"epoch": 13.4, |
|
"grad_norm": 0.7962446212768555, |
|
"learning_rate": 0.0028866666666666667, |
|
"loss": 2.3753, |
|
"step": 1340 |
|
}, |
|
{ |
|
"epoch": 13.5, |
|
"grad_norm": 0.5598190426826477, |
|
"learning_rate": 0.0028833333333333337, |
|
"loss": 2.2621, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 13.6, |
|
"grad_norm": 0.7223344445228577, |
|
"learning_rate": 0.0028799999999999997, |
|
"loss": 2.273, |
|
"step": 1360 |
|
}, |
|
{ |
|
"epoch": 13.7, |
|
"grad_norm": 1.1084399223327637, |
|
"learning_rate": 0.0028766666666666667, |
|
"loss": 2.2912, |
|
"step": 1370 |
|
}, |
|
{ |
|
"epoch": 13.8, |
|
"grad_norm": 0.6733573079109192, |
|
"learning_rate": 0.002873333333333333, |
|
"loss": 2.2698, |
|
"step": 1380 |
|
}, |
|
{ |
|
"epoch": 13.9, |
|
"grad_norm": 0.8303700089454651, |
|
"learning_rate": 0.00287, |
|
"loss": 2.2308, |
|
"step": 1390 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"grad_norm": 0.804675817489624, |
|
"learning_rate": 0.0028666666666666667, |
|
"loss": 2.2845, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"eval_accuracy": 0.19, |
|
"eval_loss": 3.0855796337127686, |
|
"eval_runtime": 18.9592, |
|
"eval_samples_per_second": 5.274, |
|
"eval_steps_per_second": 5.274, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 14.1, |
|
"grad_norm": 0.7311877012252808, |
|
"learning_rate": 0.002863333333333333, |
|
"loss": 2.2091, |
|
"step": 1410 |
|
}, |
|
{ |
|
"epoch": 14.2, |
|
"grad_norm": 0.9788007140159607, |
|
"learning_rate": 0.00286, |
|
"loss": 2.284, |
|
"step": 1420 |
|
}, |
|
{ |
|
"epoch": 14.3, |
|
"grad_norm": 1.4467419385910034, |
|
"learning_rate": 0.0028566666666666666, |
|
"loss": 2.2519, |
|
"step": 1430 |
|
}, |
|
{ |
|
"epoch": 14.4, |
|
"grad_norm": 1.0337039232254028, |
|
"learning_rate": 0.0028533333333333336, |
|
"loss": 2.2974, |
|
"step": 1440 |
|
}, |
|
{ |
|
"epoch": 14.5, |
|
"grad_norm": 0.9267049431800842, |
|
"learning_rate": 0.00285, |
|
"loss": 2.2513, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 14.6, |
|
"grad_norm": 1.1804252862930298, |
|
"learning_rate": 0.0028466666666666666, |
|
"loss": 2.3101, |
|
"step": 1460 |
|
}, |
|
{ |
|
"epoch": 14.7, |
|
"grad_norm": 0.6689174175262451, |
|
"learning_rate": 0.0028433333333333336, |
|
"loss": 2.3012, |
|
"step": 1470 |
|
}, |
|
{ |
|
"epoch": 14.8, |
|
"grad_norm": 1.6997405290603638, |
|
"learning_rate": 0.00284, |
|
"loss": 2.2507, |
|
"step": 1480 |
|
}, |
|
{ |
|
"epoch": 14.9, |
|
"grad_norm": 0.5313436388969421, |
|
"learning_rate": 0.002836666666666667, |
|
"loss": 2.2841, |
|
"step": 1490 |
|
}, |
|
{ |
|
"epoch": 15.0, |
|
"grad_norm": 0.6760014891624451, |
|
"learning_rate": 0.002833333333333333, |
|
"loss": 2.2813, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 15.0, |
|
"eval_accuracy": 0.17, |
|
"eval_loss": 3.255617618560791, |
|
"eval_runtime": 4.647, |
|
"eval_samples_per_second": 21.519, |
|
"eval_steps_per_second": 21.519, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 15.1, |
|
"grad_norm": 1.6648482084274292, |
|
"learning_rate": 0.00283, |
|
"loss": 2.2499, |
|
"step": 1510 |
|
}, |
|
{ |
|
"epoch": 15.2, |
|
"grad_norm": 0.6352823376655579, |
|
"learning_rate": 0.0028266666666666666, |
|
"loss": 2.228, |
|
"step": 1520 |
|
}, |
|
{ |
|
"epoch": 15.3, |
|
"grad_norm": 0.6928892135620117, |
|
"learning_rate": 0.0028233333333333335, |
|
"loss": 2.1796, |
|
"step": 1530 |
|
}, |
|
{ |
|
"epoch": 15.4, |
|
"grad_norm": 0.7444634437561035, |
|
"learning_rate": 0.00282, |
|
"loss": 2.2923, |
|
"step": 1540 |
|
}, |
|
{ |
|
"epoch": 15.5, |
|
"grad_norm": 0.701443076133728, |
|
"learning_rate": 0.0028166666666666665, |
|
"loss": 2.2578, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 15.6, |
|
"grad_norm": 0.5810482501983643, |
|
"learning_rate": 0.0028133333333333335, |
|
"loss": 2.3059, |
|
"step": 1560 |
|
}, |
|
{ |
|
"epoch": 15.7, |
|
"grad_norm": 0.990923285484314, |
|
"learning_rate": 0.00281, |
|
"loss": 2.2492, |
|
"step": 1570 |
|
}, |
|
{ |
|
"epoch": 15.8, |
|
"grad_norm": 0.616290807723999, |
|
"learning_rate": 0.002806666666666667, |
|
"loss": 2.1599, |
|
"step": 1580 |
|
}, |
|
{ |
|
"epoch": 15.9, |
|
"grad_norm": 0.5732624530792236, |
|
"learning_rate": 0.0028033333333333335, |
|
"loss": 2.2297, |
|
"step": 1590 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"grad_norm": 0.9005319476127625, |
|
"learning_rate": 0.0028, |
|
"loss": 2.2232, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"eval_accuracy": 0.18, |
|
"eval_loss": 3.5356717109680176, |
|
"eval_runtime": 2.4287, |
|
"eval_samples_per_second": 41.174, |
|
"eval_steps_per_second": 41.174, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 16.1, |
|
"grad_norm": 0.7628068923950195, |
|
"learning_rate": 0.0027966666666666665, |
|
"loss": 2.2383, |
|
"step": 1610 |
|
}, |
|
{ |
|
"epoch": 16.2, |
|
"grad_norm": 0.7052992582321167, |
|
"learning_rate": 0.0027933333333333334, |
|
"loss": 2.3226, |
|
"step": 1620 |
|
}, |
|
{ |
|
"epoch": 16.3, |
|
"grad_norm": 0.8045329451560974, |
|
"learning_rate": 0.0027900000000000004, |
|
"loss": 2.2594, |
|
"step": 1630 |
|
}, |
|
{ |
|
"epoch": 16.4, |
|
"grad_norm": 0.7999270558357239, |
|
"learning_rate": 0.002786666666666667, |
|
"loss": 2.2886, |
|
"step": 1640 |
|
}, |
|
{ |
|
"epoch": 16.5, |
|
"grad_norm": 0.9818239212036133, |
|
"learning_rate": 0.0027833333333333334, |
|
"loss": 2.2745, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 16.6, |
|
"grad_norm": 1.048454999923706, |
|
"learning_rate": 0.00278, |
|
"loss": 2.2978, |
|
"step": 1660 |
|
}, |
|
{ |
|
"epoch": 16.7, |
|
"grad_norm": 0.6741579174995422, |
|
"learning_rate": 0.002776666666666667, |
|
"loss": 2.1957, |
|
"step": 1670 |
|
}, |
|
{ |
|
"epoch": 16.8, |
|
"grad_norm": 0.7675438523292542, |
|
"learning_rate": 0.0027733333333333334, |
|
"loss": 2.3012, |
|
"step": 1680 |
|
}, |
|
{ |
|
"epoch": 16.9, |
|
"grad_norm": 0.5897651314735413, |
|
"learning_rate": 0.00277, |
|
"loss": 2.2825, |
|
"step": 1690 |
|
}, |
|
{ |
|
"epoch": 17.0, |
|
"grad_norm": 1.0253489017486572, |
|
"learning_rate": 0.002766666666666667, |
|
"loss": 2.2332, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 17.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 3.8757708072662354, |
|
"eval_runtime": 1.504, |
|
"eval_samples_per_second": 66.491, |
|
"eval_steps_per_second": 66.491, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 17.1, |
|
"grad_norm": 0.5093202590942383, |
|
"learning_rate": 0.0027633333333333334, |
|
"loss": 2.2725, |
|
"step": 1710 |
|
}, |
|
{ |
|
"epoch": 17.2, |
|
"grad_norm": 0.7032235860824585, |
|
"learning_rate": 0.0027600000000000003, |
|
"loss": 2.2166, |
|
"step": 1720 |
|
}, |
|
{ |
|
"epoch": 17.3, |
|
"grad_norm": 0.6116345524787903, |
|
"learning_rate": 0.002756666666666667, |
|
"loss": 2.1844, |
|
"step": 1730 |
|
}, |
|
{ |
|
"epoch": 17.4, |
|
"grad_norm": 0.8476758599281311, |
|
"learning_rate": 0.0027533333333333333, |
|
"loss": 2.2653, |
|
"step": 1740 |
|
}, |
|
{ |
|
"epoch": 17.5, |
|
"grad_norm": 1.6175342798233032, |
|
"learning_rate": 0.00275, |
|
"loss": 2.2069, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 17.6, |
|
"grad_norm": 1.403396487236023, |
|
"learning_rate": 0.002746666666666667, |
|
"loss": 2.3708, |
|
"step": 1760 |
|
}, |
|
{ |
|
"epoch": 17.7, |
|
"grad_norm": 3.4366719722747803, |
|
"learning_rate": 0.0027433333333333333, |
|
"loss": 2.2828, |
|
"step": 1770 |
|
}, |
|
{ |
|
"epoch": 17.8, |
|
"grad_norm": 0.8872509598731995, |
|
"learning_rate": 0.0027400000000000002, |
|
"loss": 2.2382, |
|
"step": 1780 |
|
}, |
|
{ |
|
"epoch": 17.9, |
|
"grad_norm": 3.1236143112182617, |
|
"learning_rate": 0.0027366666666666668, |
|
"loss": 2.3113, |
|
"step": 1790 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"grad_norm": 1.0595662593841553, |
|
"learning_rate": 0.0027333333333333333, |
|
"loss": 2.3568, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 3.0675432682037354, |
|
"eval_runtime": 1.5416, |
|
"eval_samples_per_second": 64.868, |
|
"eval_steps_per_second": 64.868, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 18.1, |
|
"grad_norm": 0.9756940007209778, |
|
"learning_rate": 0.0027300000000000002, |
|
"loss": 2.2245, |
|
"step": 1810 |
|
}, |
|
{ |
|
"epoch": 18.2, |
|
"grad_norm": 0.7749895453453064, |
|
"learning_rate": 0.0027266666666666667, |
|
"loss": 2.3375, |
|
"step": 1820 |
|
}, |
|
{ |
|
"epoch": 18.3, |
|
"grad_norm": 0.6627314686775208, |
|
"learning_rate": 0.0027233333333333332, |
|
"loss": 2.2663, |
|
"step": 1830 |
|
}, |
|
{ |
|
"epoch": 18.4, |
|
"grad_norm": 1.011854648590088, |
|
"learning_rate": 0.0027199999999999998, |
|
"loss": 2.4041, |
|
"step": 1840 |
|
}, |
|
{ |
|
"epoch": 18.5, |
|
"grad_norm": 0.7713875770568848, |
|
"learning_rate": 0.0027166666666666667, |
|
"loss": 2.3269, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 18.6, |
|
"grad_norm": 1.3139779567718506, |
|
"learning_rate": 0.0027133333333333337, |
|
"loss": 2.23, |
|
"step": 1860 |
|
}, |
|
{ |
|
"epoch": 18.7, |
|
"grad_norm": 1.9220070838928223, |
|
"learning_rate": 0.00271, |
|
"loss": 2.3241, |
|
"step": 1870 |
|
}, |
|
{ |
|
"epoch": 18.8, |
|
"grad_norm": 0.8482495546340942, |
|
"learning_rate": 0.0027066666666666667, |
|
"loss": 2.2784, |
|
"step": 1880 |
|
}, |
|
{ |
|
"epoch": 18.9, |
|
"grad_norm": 1.1331626176834106, |
|
"learning_rate": 0.002703333333333333, |
|
"loss": 2.3171, |
|
"step": 1890 |
|
}, |
|
{ |
|
"epoch": 19.0, |
|
"grad_norm": 0.986213207244873, |
|
"learning_rate": 0.0027, |
|
"loss": 2.2627, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 19.0, |
|
"eval_accuracy": 0.16, |
|
"eval_loss": 3.130782127380371, |
|
"eval_runtime": 1.5734, |
|
"eval_samples_per_second": 63.555, |
|
"eval_steps_per_second": 63.555, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 19.1, |
|
"grad_norm": 0.8398575782775879, |
|
"learning_rate": 0.0026966666666666667, |
|
"loss": 2.2865, |
|
"step": 1910 |
|
}, |
|
{ |
|
"epoch": 19.2, |
|
"grad_norm": 0.8489543199539185, |
|
"learning_rate": 0.0026933333333333336, |
|
"loss": 2.2557, |
|
"step": 1920 |
|
}, |
|
{ |
|
"epoch": 19.3, |
|
"grad_norm": 0.5991080403327942, |
|
"learning_rate": 0.0026899999999999997, |
|
"loss": 2.2589, |
|
"step": 1930 |
|
}, |
|
{ |
|
"epoch": 19.4, |
|
"grad_norm": 0.8160009384155273, |
|
"learning_rate": 0.0026866666666666666, |
|
"loss": 2.255, |
|
"step": 1940 |
|
}, |
|
{ |
|
"epoch": 19.5, |
|
"grad_norm": 0.9468734264373779, |
|
"learning_rate": 0.0026833333333333336, |
|
"loss": 2.2416, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 19.6, |
|
"grad_norm": 0.9367495775222778, |
|
"learning_rate": 0.00268, |
|
"loss": 2.2928, |
|
"step": 1960 |
|
}, |
|
{ |
|
"epoch": 19.7, |
|
"grad_norm": 0.7771756649017334, |
|
"learning_rate": 0.0026766666666666666, |
|
"loss": 2.2837, |
|
"step": 1970 |
|
}, |
|
{ |
|
"epoch": 19.8, |
|
"grad_norm": 0.5956035852432251, |
|
"learning_rate": 0.002673333333333333, |
|
"loss": 2.3056, |
|
"step": 1980 |
|
}, |
|
{ |
|
"epoch": 19.9, |
|
"grad_norm": 0.8923712372779846, |
|
"learning_rate": 0.00267, |
|
"loss": 2.2434, |
|
"step": 1990 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"grad_norm": 0.7316953539848328, |
|
"learning_rate": 0.0026666666666666666, |
|
"loss": 2.2528, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"eval_accuracy": 0.1, |
|
"eval_loss": 2.774110794067383, |
|
"eval_runtime": 2.0095, |
|
"eval_samples_per_second": 49.763, |
|
"eval_steps_per_second": 49.763, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 20.1, |
|
"grad_norm": 1.061279058456421, |
|
"learning_rate": 0.0026633333333333335, |
|
"loss": 2.199, |
|
"step": 2010 |
|
}, |
|
{ |
|
"epoch": 20.2, |
|
"grad_norm": 0.8505630493164062, |
|
"learning_rate": 0.00266, |
|
"loss": 2.3343, |
|
"step": 2020 |
|
}, |
|
{ |
|
"epoch": 20.3, |
|
"grad_norm": 4.665825366973877, |
|
"learning_rate": 0.0026566666666666666, |
|
"loss": 2.1988, |
|
"step": 2030 |
|
}, |
|
{ |
|
"epoch": 20.4, |
|
"grad_norm": 0.6855554580688477, |
|
"learning_rate": 0.0026533333333333335, |
|
"loss": 2.1726, |
|
"step": 2040 |
|
}, |
|
{ |
|
"epoch": 20.5, |
|
"grad_norm": 0.9635552167892456, |
|
"learning_rate": 0.00265, |
|
"loss": 2.3019, |
|
"step": 2050 |
|
}, |
|
{ |
|
"epoch": 20.6, |
|
"grad_norm": 1.7395892143249512, |
|
"learning_rate": 0.002646666666666667, |
|
"loss": 2.1493, |
|
"step": 2060 |
|
}, |
|
{ |
|
"epoch": 20.7, |
|
"grad_norm": 1.992548942565918, |
|
"learning_rate": 0.0026433333333333335, |
|
"loss": 2.1646, |
|
"step": 2070 |
|
}, |
|
{ |
|
"epoch": 20.8, |
|
"grad_norm": 0.7224474549293518, |
|
"learning_rate": 0.00264, |
|
"loss": 2.1725, |
|
"step": 2080 |
|
}, |
|
{ |
|
"epoch": 20.9, |
|
"grad_norm": 0.7668882012367249, |
|
"learning_rate": 0.002636666666666667, |
|
"loss": 2.1463, |
|
"step": 2090 |
|
}, |
|
{ |
|
"epoch": 21.0, |
|
"grad_norm": 1.1540876626968384, |
|
"learning_rate": 0.0026333333333333334, |
|
"loss": 2.2039, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 21.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 2.7257165908813477, |
|
"eval_runtime": 3.321, |
|
"eval_samples_per_second": 30.111, |
|
"eval_steps_per_second": 30.111, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 21.1, |
|
"grad_norm": 1.0657505989074707, |
|
"learning_rate": 0.00263, |
|
"loss": 2.1861, |
|
"step": 2110 |
|
}, |
|
{ |
|
"epoch": 21.2, |
|
"grad_norm": 0.8397789597511292, |
|
"learning_rate": 0.0026266666666666665, |
|
"loss": 2.2868, |
|
"step": 2120 |
|
}, |
|
{ |
|
"epoch": 21.3, |
|
"grad_norm": 5.241576194763184, |
|
"learning_rate": 0.0026233333333333334, |
|
"loss": 2.0992, |
|
"step": 2130 |
|
}, |
|
{ |
|
"epoch": 21.4, |
|
"grad_norm": 1.619246006011963, |
|
"learning_rate": 0.00262, |
|
"loss": 2.1577, |
|
"step": 2140 |
|
}, |
|
{ |
|
"epoch": 21.5, |
|
"grad_norm": 0.8214967250823975, |
|
"learning_rate": 0.002616666666666667, |
|
"loss": 2.2025, |
|
"step": 2150 |
|
}, |
|
{ |
|
"epoch": 21.6, |
|
"grad_norm": 0.8782535195350647, |
|
"learning_rate": 0.0026133333333333334, |
|
"loss": 2.2666, |
|
"step": 2160 |
|
}, |
|
{ |
|
"epoch": 21.7, |
|
"grad_norm": 0.6835685968399048, |
|
"learning_rate": 0.00261, |
|
"loss": 2.3608, |
|
"step": 2170 |
|
}, |
|
{ |
|
"epoch": 21.8, |
|
"grad_norm": 0.7960027456283569, |
|
"learning_rate": 0.002606666666666667, |
|
"loss": 2.236, |
|
"step": 2180 |
|
}, |
|
{ |
|
"epoch": 21.9, |
|
"grad_norm": 0.789070188999176, |
|
"learning_rate": 0.0026033333333333334, |
|
"loss": 2.214, |
|
"step": 2190 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"grad_norm": 0.8337671756744385, |
|
"learning_rate": 0.0026000000000000003, |
|
"loss": 2.389, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 2.6245250701904297, |
|
"eval_runtime": 14.6732, |
|
"eval_samples_per_second": 6.815, |
|
"eval_steps_per_second": 6.815, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 22.1, |
|
"grad_norm": 0.6612998247146606, |
|
"learning_rate": 0.002596666666666667, |
|
"loss": 2.1623, |
|
"step": 2210 |
|
}, |
|
{ |
|
"epoch": 22.2, |
|
"grad_norm": 0.5823114514350891, |
|
"learning_rate": 0.0025933333333333333, |
|
"loss": 2.2221, |
|
"step": 2220 |
|
}, |
|
{ |
|
"epoch": 22.3, |
|
"grad_norm": 0.6718313694000244, |
|
"learning_rate": 0.00259, |
|
"loss": 2.2401, |
|
"step": 2230 |
|
}, |
|
{ |
|
"epoch": 22.4, |
|
"grad_norm": 1.033048391342163, |
|
"learning_rate": 0.002586666666666667, |
|
"loss": 2.2093, |
|
"step": 2240 |
|
}, |
|
{ |
|
"epoch": 22.5, |
|
"grad_norm": 0.9569495320320129, |
|
"learning_rate": 0.0025833333333333337, |
|
"loss": 2.1865, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 22.6, |
|
"grad_norm": 0.9927944540977478, |
|
"learning_rate": 0.00258, |
|
"loss": 2.2509, |
|
"step": 2260 |
|
}, |
|
{ |
|
"epoch": 22.7, |
|
"grad_norm": 1.255365014076233, |
|
"learning_rate": 0.0025766666666666668, |
|
"loss": 2.2218, |
|
"step": 2270 |
|
}, |
|
{ |
|
"epoch": 22.8, |
|
"grad_norm": 0.8008034229278564, |
|
"learning_rate": 0.0025733333333333333, |
|
"loss": 2.3508, |
|
"step": 2280 |
|
}, |
|
{ |
|
"epoch": 22.9, |
|
"grad_norm": 1.643989086151123, |
|
"learning_rate": 0.0025700000000000002, |
|
"loss": 2.3481, |
|
"step": 2290 |
|
}, |
|
{ |
|
"epoch": 23.0, |
|
"grad_norm": 0.7342652678489685, |
|
"learning_rate": 0.0025666666666666667, |
|
"loss": 2.31, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 23.0, |
|
"eval_accuracy": 0.1, |
|
"eval_loss": 3.1869921684265137, |
|
"eval_runtime": 3.5166, |
|
"eval_samples_per_second": 28.437, |
|
"eval_steps_per_second": 28.437, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 23.1, |
|
"grad_norm": 4.475462913513184, |
|
"learning_rate": 0.0025633333333333333, |
|
"loss": 2.258, |
|
"step": 2310 |
|
}, |
|
{ |
|
"epoch": 23.2, |
|
"grad_norm": 1.1528602838516235, |
|
"learning_rate": 0.00256, |
|
"loss": 2.2602, |
|
"step": 2320 |
|
}, |
|
{ |
|
"epoch": 23.3, |
|
"grad_norm": 0.8095310926437378, |
|
"learning_rate": 0.0025566666666666667, |
|
"loss": 2.1602, |
|
"step": 2330 |
|
}, |
|
{ |
|
"epoch": 23.4, |
|
"grad_norm": 1.0588278770446777, |
|
"learning_rate": 0.0025533333333333337, |
|
"loss": 2.1524, |
|
"step": 2340 |
|
}, |
|
{ |
|
"epoch": 23.5, |
|
"grad_norm": 0.8519811630249023, |
|
"learning_rate": 0.00255, |
|
"loss": 2.1634, |
|
"step": 2350 |
|
}, |
|
{ |
|
"epoch": 23.6, |
|
"grad_norm": 0.8368690013885498, |
|
"learning_rate": 0.0025466666666666667, |
|
"loss": 2.1851, |
|
"step": 2360 |
|
}, |
|
{ |
|
"epoch": 23.7, |
|
"grad_norm": 0.6062741875648499, |
|
"learning_rate": 0.002543333333333333, |
|
"loss": 2.1097, |
|
"step": 2370 |
|
}, |
|
{ |
|
"epoch": 23.8, |
|
"grad_norm": 1.054940938949585, |
|
"learning_rate": 0.00254, |
|
"loss": 2.2839, |
|
"step": 2380 |
|
}, |
|
{ |
|
"epoch": 23.9, |
|
"grad_norm": 2.2694478034973145, |
|
"learning_rate": 0.0025366666666666667, |
|
"loss": 2.1951, |
|
"step": 2390 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"grad_norm": 1.1363869905471802, |
|
"learning_rate": 0.002533333333333333, |
|
"loss": 2.1471, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"eval_accuracy": 0.02, |
|
"eval_loss": 2.8313043117523193, |
|
"eval_runtime": 8.5714, |
|
"eval_samples_per_second": 11.667, |
|
"eval_steps_per_second": 11.667, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 24.1, |
|
"grad_norm": 0.9821159839630127, |
|
"learning_rate": 0.00253, |
|
"loss": 2.296, |
|
"step": 2410 |
|
}, |
|
{ |
|
"epoch": 24.2, |
|
"grad_norm": 18.666667938232422, |
|
"learning_rate": 0.0025266666666666666, |
|
"loss": 2.194, |
|
"step": 2420 |
|
}, |
|
{ |
|
"epoch": 24.3, |
|
"grad_norm": 0.906703531742096, |
|
"learning_rate": 0.0025233333333333336, |
|
"loss": 2.1612, |
|
"step": 2430 |
|
}, |
|
{ |
|
"epoch": 24.4, |
|
"grad_norm": 0.8759214282035828, |
|
"learning_rate": 0.00252, |
|
"loss": 2.3219, |
|
"step": 2440 |
|
}, |
|
{ |
|
"epoch": 24.5, |
|
"grad_norm": 2.061927556991577, |
|
"learning_rate": 0.0025166666666666666, |
|
"loss": 2.2479, |
|
"step": 2450 |
|
}, |
|
{ |
|
"epoch": 24.6, |
|
"grad_norm": 1.9357784986495972, |
|
"learning_rate": 0.002513333333333333, |
|
"loss": 2.1494, |
|
"step": 2460 |
|
}, |
|
{ |
|
"epoch": 24.7, |
|
"grad_norm": 0.7855737209320068, |
|
"learning_rate": 0.00251, |
|
"loss": 2.1368, |
|
"step": 2470 |
|
}, |
|
{ |
|
"epoch": 24.8, |
|
"grad_norm": 1.1116645336151123, |
|
"learning_rate": 0.002506666666666667, |
|
"loss": 2.167, |
|
"step": 2480 |
|
}, |
|
{ |
|
"epoch": 24.9, |
|
"grad_norm": 1.0230302810668945, |
|
"learning_rate": 0.0025033333333333335, |
|
"loss": 2.1518, |
|
"step": 2490 |
|
}, |
|
{ |
|
"epoch": 25.0, |
|
"grad_norm": 0.7969598174095154, |
|
"learning_rate": 0.0025, |
|
"loss": 2.1658, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 25.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 2.9322524070739746, |
|
"eval_runtime": 14.5485, |
|
"eval_samples_per_second": 6.874, |
|
"eval_steps_per_second": 6.874, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 25.1, |
|
"grad_norm": 1.1143075227737427, |
|
"learning_rate": 0.0024966666666666666, |
|
"loss": 2.1519, |
|
"step": 2510 |
|
}, |
|
{ |
|
"epoch": 25.2, |
|
"grad_norm": 1.9733251333236694, |
|
"learning_rate": 0.0024933333333333335, |
|
"loss": 2.2545, |
|
"step": 2520 |
|
}, |
|
{ |
|
"epoch": 25.3, |
|
"grad_norm": 0.7734049558639526, |
|
"learning_rate": 0.00249, |
|
"loss": 2.3188, |
|
"step": 2530 |
|
}, |
|
{ |
|
"epoch": 25.4, |
|
"grad_norm": 0.8898696303367615, |
|
"learning_rate": 0.0024866666666666665, |
|
"loss": 2.3433, |
|
"step": 2540 |
|
}, |
|
{ |
|
"epoch": 25.5, |
|
"grad_norm": 0.9042370319366455, |
|
"learning_rate": 0.002483333333333333, |
|
"loss": 2.1533, |
|
"step": 2550 |
|
}, |
|
{ |
|
"epoch": 25.6, |
|
"grad_norm": 0.7616782784461975, |
|
"learning_rate": 0.00248, |
|
"loss": 2.1676, |
|
"step": 2560 |
|
}, |
|
{ |
|
"epoch": 25.7, |
|
"grad_norm": 1.0529074668884277, |
|
"learning_rate": 0.002476666666666667, |
|
"loss": 2.1489, |
|
"step": 2570 |
|
}, |
|
{ |
|
"epoch": 25.8, |
|
"grad_norm": 0.6499335765838623, |
|
"learning_rate": 0.0024733333333333335, |
|
"loss": 2.1537, |
|
"step": 2580 |
|
}, |
|
{ |
|
"epoch": 25.9, |
|
"grad_norm": 0.8011136054992676, |
|
"learning_rate": 0.00247, |
|
"loss": 2.1297, |
|
"step": 2590 |
|
}, |
|
{ |
|
"epoch": 26.0, |
|
"grad_norm": 0.7980877757072449, |
|
"learning_rate": 0.0024666666666666665, |
|
"loss": 2.0946, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 26.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 2.8371801376342773, |
|
"eval_runtime": 20.2418, |
|
"eval_samples_per_second": 4.94, |
|
"eval_steps_per_second": 4.94, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 26.1, |
|
"grad_norm": 1.0512415170669556, |
|
"learning_rate": 0.0024633333333333334, |
|
"loss": 2.0609, |
|
"step": 2610 |
|
}, |
|
{ |
|
"epoch": 26.2, |
|
"grad_norm": 0.7277994155883789, |
|
"learning_rate": 0.00246, |
|
"loss": 2.1957, |
|
"step": 2620 |
|
}, |
|
{ |
|
"epoch": 26.3, |
|
"grad_norm": 0.7225540280342102, |
|
"learning_rate": 0.002456666666666667, |
|
"loss": 2.2818, |
|
"step": 2630 |
|
}, |
|
{ |
|
"epoch": 26.4, |
|
"grad_norm": 0.833447277545929, |
|
"learning_rate": 0.0024533333333333334, |
|
"loss": 2.3521, |
|
"step": 2640 |
|
}, |
|
{ |
|
"epoch": 26.5, |
|
"grad_norm": 0.6532344222068787, |
|
"learning_rate": 0.00245, |
|
"loss": 2.1103, |
|
"step": 2650 |
|
}, |
|
{ |
|
"epoch": 26.6, |
|
"grad_norm": 1.618382215499878, |
|
"learning_rate": 0.002446666666666667, |
|
"loss": 2.1979, |
|
"step": 2660 |
|
}, |
|
{ |
|
"epoch": 26.7, |
|
"grad_norm": 0.8852543830871582, |
|
"learning_rate": 0.0024433333333333334, |
|
"loss": 2.224, |
|
"step": 2670 |
|
}, |
|
{ |
|
"epoch": 26.8, |
|
"grad_norm": 0.7051679491996765, |
|
"learning_rate": 0.00244, |
|
"loss": 2.2168, |
|
"step": 2680 |
|
}, |
|
{ |
|
"epoch": 26.9, |
|
"grad_norm": 0.6945533752441406, |
|
"learning_rate": 0.0024366666666666664, |
|
"loss": 2.1522, |
|
"step": 2690 |
|
}, |
|
{ |
|
"epoch": 27.0, |
|
"grad_norm": 0.8904722929000854, |
|
"learning_rate": 0.0024333333333333334, |
|
"loss": 2.0924, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 27.0, |
|
"eval_accuracy": 0.16, |
|
"eval_loss": 2.740328073501587, |
|
"eval_runtime": 2.5835, |
|
"eval_samples_per_second": 38.707, |
|
"eval_steps_per_second": 38.707, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 27.1, |
|
"grad_norm": 1.0091406106948853, |
|
"learning_rate": 0.0024300000000000003, |
|
"loss": 2.143, |
|
"step": 2710 |
|
}, |
|
{ |
|
"epoch": 27.2, |
|
"grad_norm": 1.1486680507659912, |
|
"learning_rate": 0.002426666666666667, |
|
"loss": 2.2661, |
|
"step": 2720 |
|
}, |
|
{ |
|
"epoch": 27.3, |
|
"grad_norm": 1.3828904628753662, |
|
"learning_rate": 0.0024233333333333333, |
|
"loss": 2.0716, |
|
"step": 2730 |
|
}, |
|
{ |
|
"epoch": 27.4, |
|
"grad_norm": 0.7337507009506226, |
|
"learning_rate": 0.00242, |
|
"loss": 2.2243, |
|
"step": 2740 |
|
}, |
|
{ |
|
"epoch": 27.5, |
|
"grad_norm": 0.7662250399589539, |
|
"learning_rate": 0.002416666666666667, |
|
"loss": 2.2204, |
|
"step": 2750 |
|
}, |
|
{ |
|
"epoch": 27.6, |
|
"grad_norm": 1.3254953622817993, |
|
"learning_rate": 0.0024133333333333333, |
|
"loss": 2.1401, |
|
"step": 2760 |
|
}, |
|
{ |
|
"epoch": 27.7, |
|
"grad_norm": 1.6423826217651367, |
|
"learning_rate": 0.0024100000000000002, |
|
"loss": 2.1909, |
|
"step": 2770 |
|
}, |
|
{ |
|
"epoch": 27.8, |
|
"grad_norm": 2.5181260108947754, |
|
"learning_rate": 0.0024066666666666668, |
|
"loss": 2.2194, |
|
"step": 2780 |
|
}, |
|
{ |
|
"epoch": 27.9, |
|
"grad_norm": 1.975514531135559, |
|
"learning_rate": 0.0024033333333333333, |
|
"loss": 2.1208, |
|
"step": 2790 |
|
}, |
|
{ |
|
"epoch": 28.0, |
|
"grad_norm": 1.0756447315216064, |
|
"learning_rate": 0.0024000000000000002, |
|
"loss": 2.2634, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 28.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 2.899129867553711, |
|
"eval_runtime": 1.6216, |
|
"eval_samples_per_second": 61.667, |
|
"eval_steps_per_second": 61.667, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 28.1, |
|
"grad_norm": 0.6582184433937073, |
|
"learning_rate": 0.0023966666666666667, |
|
"loss": 2.1557, |
|
"step": 2810 |
|
}, |
|
{ |
|
"epoch": 28.2, |
|
"grad_norm": 1.008514642715454, |
|
"learning_rate": 0.0023933333333333337, |
|
"loss": 2.1055, |
|
"step": 2820 |
|
}, |
|
{ |
|
"epoch": 28.3, |
|
"grad_norm": 1.3647173643112183, |
|
"learning_rate": 0.0023899999999999998, |
|
"loss": 2.2375, |
|
"step": 2830 |
|
}, |
|
{ |
|
"epoch": 28.4, |
|
"grad_norm": 1.080275058746338, |
|
"learning_rate": 0.0023866666666666667, |
|
"loss": 2.0351, |
|
"step": 2840 |
|
}, |
|
{ |
|
"epoch": 28.5, |
|
"grad_norm": 0.8758491277694702, |
|
"learning_rate": 0.0023833333333333332, |
|
"loss": 2.1304, |
|
"step": 2850 |
|
}, |
|
{ |
|
"epoch": 28.6, |
|
"grad_norm": 1.8762778043746948, |
|
"learning_rate": 0.00238, |
|
"loss": 2.0213, |
|
"step": 2860 |
|
}, |
|
{ |
|
"epoch": 28.7, |
|
"grad_norm": 0.9291443228721619, |
|
"learning_rate": 0.0023766666666666667, |
|
"loss": 2.312, |
|
"step": 2870 |
|
}, |
|
{ |
|
"epoch": 28.8, |
|
"grad_norm": 0.8882524967193604, |
|
"learning_rate": 0.002373333333333333, |
|
"loss": 2.2335, |
|
"step": 2880 |
|
}, |
|
{ |
|
"epoch": 28.9, |
|
"grad_norm": 2.439899444580078, |
|
"learning_rate": 0.00237, |
|
"loss": 2.1726, |
|
"step": 2890 |
|
}, |
|
{ |
|
"epoch": 29.0, |
|
"grad_norm": 0.9601397514343262, |
|
"learning_rate": 0.0023666666666666667, |
|
"loss": 2.1897, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 29.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 2.877793073654175, |
|
"eval_runtime": 1.4621, |
|
"eval_samples_per_second": 68.395, |
|
"eval_steps_per_second": 68.395, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 29.1, |
|
"grad_norm": 1.6170096397399902, |
|
"learning_rate": 0.0023633333333333336, |
|
"loss": 2.19, |
|
"step": 2910 |
|
}, |
|
{ |
|
"epoch": 29.2, |
|
"grad_norm": 1.087302803993225, |
|
"learning_rate": 0.00236, |
|
"loss": 2.1638, |
|
"step": 2920 |
|
}, |
|
{ |
|
"epoch": 29.3, |
|
"grad_norm": 1.0109162330627441, |
|
"learning_rate": 0.0023566666666666666, |
|
"loss": 2.2992, |
|
"step": 2930 |
|
}, |
|
{ |
|
"epoch": 29.4, |
|
"grad_norm": 0.9964456558227539, |
|
"learning_rate": 0.0023533333333333336, |
|
"loss": 2.2524, |
|
"step": 2940 |
|
}, |
|
{ |
|
"epoch": 29.5, |
|
"grad_norm": 0.7667860984802246, |
|
"learning_rate": 0.00235, |
|
"loss": 2.1753, |
|
"step": 2950 |
|
}, |
|
{ |
|
"epoch": 29.6, |
|
"grad_norm": 0.9033471941947937, |
|
"learning_rate": 0.002346666666666667, |
|
"loss": 2.1623, |
|
"step": 2960 |
|
}, |
|
{ |
|
"epoch": 29.7, |
|
"grad_norm": 0.9565698504447937, |
|
"learning_rate": 0.002343333333333333, |
|
"loss": 2.1097, |
|
"step": 2970 |
|
}, |
|
{ |
|
"epoch": 29.8, |
|
"grad_norm": 0.7799054384231567, |
|
"learning_rate": 0.00234, |
|
"loss": 1.966, |
|
"step": 2980 |
|
}, |
|
{ |
|
"epoch": 29.9, |
|
"grad_norm": 1.8788676261901855, |
|
"learning_rate": 0.0023366666666666666, |
|
"loss": 2.1329, |
|
"step": 2990 |
|
}, |
|
{ |
|
"epoch": 30.0, |
|
"grad_norm": 1.1009427309036255, |
|
"learning_rate": 0.0023333333333333335, |
|
"loss": 2.144, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 30.0, |
|
"eval_accuracy": 0.15, |
|
"eval_loss": 2.604327917098999, |
|
"eval_runtime": 17.9498, |
|
"eval_samples_per_second": 5.571, |
|
"eval_steps_per_second": 5.571, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 30.1, |
|
"grad_norm": 1.678131341934204, |
|
"learning_rate": 0.00233, |
|
"loss": 1.8398, |
|
"step": 3010 |
|
}, |
|
{ |
|
"epoch": 30.2, |
|
"grad_norm": 1.5525128841400146, |
|
"learning_rate": 0.0023266666666666666, |
|
"loss": 2.3239, |
|
"step": 3020 |
|
}, |
|
{ |
|
"epoch": 30.3, |
|
"grad_norm": 5.229913711547852, |
|
"learning_rate": 0.0023233333333333335, |
|
"loss": 2.0991, |
|
"step": 3030 |
|
}, |
|
{ |
|
"epoch": 30.4, |
|
"grad_norm": 7.659727096557617, |
|
"learning_rate": 0.00232, |
|
"loss": 2.2165, |
|
"step": 3040 |
|
}, |
|
{ |
|
"epoch": 30.5, |
|
"grad_norm": 0.9004424214363098, |
|
"learning_rate": 0.002316666666666667, |
|
"loss": 2.1321, |
|
"step": 3050 |
|
}, |
|
{ |
|
"epoch": 30.6, |
|
"grad_norm": 0.951036810874939, |
|
"learning_rate": 0.0023133333333333335, |
|
"loss": 2.2547, |
|
"step": 3060 |
|
}, |
|
{ |
|
"epoch": 30.7, |
|
"grad_norm": 1.09541654586792, |
|
"learning_rate": 0.00231, |
|
"loss": 2.2086, |
|
"step": 3070 |
|
}, |
|
{ |
|
"epoch": 30.8, |
|
"grad_norm": 1.0075805187225342, |
|
"learning_rate": 0.0023066666666666665, |
|
"loss": 2.1946, |
|
"step": 3080 |
|
}, |
|
{ |
|
"epoch": 30.9, |
|
"grad_norm": 0.9394136071205139, |
|
"learning_rate": 0.0023033333333333334, |
|
"loss": 2.0717, |
|
"step": 3090 |
|
}, |
|
{ |
|
"epoch": 31.0, |
|
"grad_norm": 16.980363845825195, |
|
"learning_rate": 0.0023000000000000004, |
|
"loss": 2.108, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 31.0, |
|
"eval_accuracy": 0.1, |
|
"eval_loss": 2.9230871200561523, |
|
"eval_runtime": 2.0771, |
|
"eval_samples_per_second": 48.144, |
|
"eval_steps_per_second": 48.144, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 31.1, |
|
"grad_norm": 0.7811866998672485, |
|
"learning_rate": 0.0022966666666666665, |
|
"loss": 2.0036, |
|
"step": 3110 |
|
}, |
|
{ |
|
"epoch": 31.2, |
|
"grad_norm": 1.2719967365264893, |
|
"learning_rate": 0.0022933333333333334, |
|
"loss": 2.1995, |
|
"step": 3120 |
|
}, |
|
{ |
|
"epoch": 31.3, |
|
"grad_norm": 1.078188180923462, |
|
"learning_rate": 0.00229, |
|
"loss": 2.1495, |
|
"step": 3130 |
|
}, |
|
{ |
|
"epoch": 31.4, |
|
"grad_norm": 0.8753488659858704, |
|
"learning_rate": 0.002286666666666667, |
|
"loss": 2.1775, |
|
"step": 3140 |
|
}, |
|
{ |
|
"epoch": 31.5, |
|
"grad_norm": 2.4827558994293213, |
|
"learning_rate": 0.0022833333333333334, |
|
"loss": 2.1295, |
|
"step": 3150 |
|
}, |
|
{ |
|
"epoch": 31.6, |
|
"grad_norm": 0.9391091465950012, |
|
"learning_rate": 0.00228, |
|
"loss": 2.2033, |
|
"step": 3160 |
|
}, |
|
{ |
|
"epoch": 31.7, |
|
"grad_norm": 1.3996204137802124, |
|
"learning_rate": 0.0022766666666666664, |
|
"loss": 2.1935, |
|
"step": 3170 |
|
}, |
|
{ |
|
"epoch": 31.8, |
|
"grad_norm": 1.8268276453018188, |
|
"learning_rate": 0.0022733333333333334, |
|
"loss": 2.1358, |
|
"step": 3180 |
|
}, |
|
{ |
|
"epoch": 31.9, |
|
"grad_norm": 0.9824120998382568, |
|
"learning_rate": 0.0022700000000000003, |
|
"loss": 2.2574, |
|
"step": 3190 |
|
}, |
|
{ |
|
"epoch": 32.0, |
|
"grad_norm": 1.0939769744873047, |
|
"learning_rate": 0.002266666666666667, |
|
"loss": 2.0792, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 32.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 2.8421480655670166, |
|
"eval_runtime": 16.1564, |
|
"eval_samples_per_second": 6.19, |
|
"eval_steps_per_second": 6.19, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 32.1, |
|
"grad_norm": 2.173068046569824, |
|
"learning_rate": 0.0022633333333333333, |
|
"loss": 2.1458, |
|
"step": 3210 |
|
}, |
|
{ |
|
"epoch": 32.2, |
|
"grad_norm": 1.260406255722046, |
|
"learning_rate": 0.00226, |
|
"loss": 2.2069, |
|
"step": 3220 |
|
}, |
|
{ |
|
"epoch": 32.3, |
|
"grad_norm": 2.277165412902832, |
|
"learning_rate": 0.002256666666666667, |
|
"loss": 2.0435, |
|
"step": 3230 |
|
}, |
|
{ |
|
"epoch": 32.4, |
|
"grad_norm": 1.674475073814392, |
|
"learning_rate": 0.0022533333333333333, |
|
"loss": 2.0519, |
|
"step": 3240 |
|
}, |
|
{ |
|
"epoch": 32.5, |
|
"grad_norm": 3.267179250717163, |
|
"learning_rate": 0.0022500000000000003, |
|
"loss": 2.0692, |
|
"step": 3250 |
|
}, |
|
{ |
|
"epoch": 32.6, |
|
"grad_norm": 1.6023820638656616, |
|
"learning_rate": 0.0022466666666666668, |
|
"loss": 2.1639, |
|
"step": 3260 |
|
}, |
|
{ |
|
"epoch": 32.7, |
|
"grad_norm": 1.2279607057571411, |
|
"learning_rate": 0.0022433333333333333, |
|
"loss": 2.2729, |
|
"step": 3270 |
|
}, |
|
{ |
|
"epoch": 32.8, |
|
"grad_norm": 1.635674238204956, |
|
"learning_rate": 0.0022400000000000002, |
|
"loss": 2.0502, |
|
"step": 3280 |
|
}, |
|
{ |
|
"epoch": 32.9, |
|
"grad_norm": 1.9051593542099, |
|
"learning_rate": 0.0022366666666666668, |
|
"loss": 2.1046, |
|
"step": 3290 |
|
}, |
|
{ |
|
"epoch": 33.0, |
|
"grad_norm": 2.705409288406372, |
|
"learning_rate": 0.0022333333333333333, |
|
"loss": 2.1552, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 33.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 2.8105697631835938, |
|
"eval_runtime": 1.4693, |
|
"eval_samples_per_second": 68.06, |
|
"eval_steps_per_second": 68.06, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 33.1, |
|
"grad_norm": 1.1642463207244873, |
|
"learning_rate": 0.0022299999999999998, |
|
"loss": 2.0948, |
|
"step": 3310 |
|
}, |
|
{ |
|
"epoch": 33.2, |
|
"grad_norm": 1.0376132726669312, |
|
"learning_rate": 0.0022266666666666667, |
|
"loss": 1.9741, |
|
"step": 3320 |
|
}, |
|
{ |
|
"epoch": 33.3, |
|
"grad_norm": 0.9662061929702759, |
|
"learning_rate": 0.0022233333333333337, |
|
"loss": 2.2141, |
|
"step": 3330 |
|
}, |
|
{ |
|
"epoch": 33.4, |
|
"grad_norm": 2.136995315551758, |
|
"learning_rate": 0.00222, |
|
"loss": 2.1053, |
|
"step": 3340 |
|
}, |
|
{ |
|
"epoch": 33.5, |
|
"grad_norm": 1.45195734500885, |
|
"learning_rate": 0.0022166666666666667, |
|
"loss": 1.9399, |
|
"step": 3350 |
|
}, |
|
{ |
|
"epoch": 33.6, |
|
"grad_norm": 3.21307635307312, |
|
"learning_rate": 0.002213333333333333, |
|
"loss": 2.0541, |
|
"step": 3360 |
|
}, |
|
{ |
|
"epoch": 33.7, |
|
"grad_norm": 3.3870184421539307, |
|
"learning_rate": 0.00221, |
|
"loss": 2.2113, |
|
"step": 3370 |
|
}, |
|
{ |
|
"epoch": 33.8, |
|
"grad_norm": 1.0837563276290894, |
|
"learning_rate": 0.0022066666666666667, |
|
"loss": 2.1593, |
|
"step": 3380 |
|
}, |
|
{ |
|
"epoch": 33.9, |
|
"grad_norm": 0.9785754084587097, |
|
"learning_rate": 0.0022033333333333336, |
|
"loss": 1.9864, |
|
"step": 3390 |
|
}, |
|
{ |
|
"epoch": 34.0, |
|
"grad_norm": 0.8373335599899292, |
|
"learning_rate": 0.0021999999999999997, |
|
"loss": 1.9701, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 34.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 2.8279080390930176, |
|
"eval_runtime": 1.9248, |
|
"eval_samples_per_second": 51.952, |
|
"eval_steps_per_second": 51.952, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 34.1, |
|
"grad_norm": 3.9834160804748535, |
|
"learning_rate": 0.0021966666666666666, |
|
"loss": 1.9581, |
|
"step": 3410 |
|
}, |
|
{ |
|
"epoch": 34.2, |
|
"grad_norm": 2.2129085063934326, |
|
"learning_rate": 0.0021933333333333336, |
|
"loss": 2.1602, |
|
"step": 3420 |
|
}, |
|
{ |
|
"epoch": 34.3, |
|
"grad_norm": 1.1896631717681885, |
|
"learning_rate": 0.00219, |
|
"loss": 1.9392, |
|
"step": 3430 |
|
}, |
|
{ |
|
"epoch": 34.4, |
|
"grad_norm": 2.016221523284912, |
|
"learning_rate": 0.0021866666666666666, |
|
"loss": 2.0553, |
|
"step": 3440 |
|
}, |
|
{ |
|
"epoch": 34.5, |
|
"grad_norm": 4.773040771484375, |
|
"learning_rate": 0.002183333333333333, |
|
"loss": 2.0734, |
|
"step": 3450 |
|
}, |
|
{ |
|
"epoch": 34.6, |
|
"grad_norm": 5.7598700523376465, |
|
"learning_rate": 0.00218, |
|
"loss": 2.2854, |
|
"step": 3460 |
|
}, |
|
{ |
|
"epoch": 34.7, |
|
"grad_norm": 1.4225116968154907, |
|
"learning_rate": 0.0021766666666666666, |
|
"loss": 2.0867, |
|
"step": 3470 |
|
}, |
|
{ |
|
"epoch": 34.8, |
|
"grad_norm": 1.354988932609558, |
|
"learning_rate": 0.0021733333333333335, |
|
"loss": 2.2302, |
|
"step": 3480 |
|
}, |
|
{ |
|
"epoch": 34.9, |
|
"grad_norm": 1.966841220855713, |
|
"learning_rate": 0.00217, |
|
"loss": 2.1435, |
|
"step": 3490 |
|
}, |
|
{ |
|
"epoch": 35.0, |
|
"grad_norm": 1.5340888500213623, |
|
"learning_rate": 0.0021666666666666666, |
|
"loss": 1.9291, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 35.0, |
|
"eval_accuracy": 0.2, |
|
"eval_loss": 3.095371961593628, |
|
"eval_runtime": 1.5179, |
|
"eval_samples_per_second": 65.88, |
|
"eval_steps_per_second": 65.88, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 35.1, |
|
"grad_norm": 0.9103881120681763, |
|
"learning_rate": 0.0021633333333333335, |
|
"loss": 2.0579, |
|
"step": 3510 |
|
}, |
|
{ |
|
"epoch": 35.2, |
|
"grad_norm": 1.3390625715255737, |
|
"learning_rate": 0.00216, |
|
"loss": 2.1574, |
|
"step": 3520 |
|
}, |
|
{ |
|
"epoch": 35.3, |
|
"grad_norm": 1.6019049882888794, |
|
"learning_rate": 0.002156666666666667, |
|
"loss": 2.1393, |
|
"step": 3530 |
|
}, |
|
{ |
|
"epoch": 35.4, |
|
"grad_norm": 1.694638967514038, |
|
"learning_rate": 0.002153333333333333, |
|
"loss": 1.8902, |
|
"step": 3540 |
|
}, |
|
{ |
|
"epoch": 35.5, |
|
"grad_norm": 0.9266729354858398, |
|
"learning_rate": 0.00215, |
|
"loss": 2.1477, |
|
"step": 3550 |
|
}, |
|
{ |
|
"epoch": 35.6, |
|
"grad_norm": 1.482827067375183, |
|
"learning_rate": 0.0021466666666666665, |
|
"loss": 2.2807, |
|
"step": 3560 |
|
}, |
|
{ |
|
"epoch": 35.7, |
|
"grad_norm": 1.5569509267807007, |
|
"learning_rate": 0.0021433333333333335, |
|
"loss": 1.9552, |
|
"step": 3570 |
|
}, |
|
{ |
|
"epoch": 35.8, |
|
"grad_norm": 2.367547035217285, |
|
"learning_rate": 0.00214, |
|
"loss": 1.9954, |
|
"step": 3580 |
|
}, |
|
{ |
|
"epoch": 35.9, |
|
"grad_norm": 6.488295555114746, |
|
"learning_rate": 0.0021366666666666665, |
|
"loss": 1.9197, |
|
"step": 3590 |
|
}, |
|
{ |
|
"epoch": 36.0, |
|
"grad_norm": 2.1058995723724365, |
|
"learning_rate": 0.0021333333333333334, |
|
"loss": 2.0341, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 36.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 3.829360246658325, |
|
"eval_runtime": 1.4462, |
|
"eval_samples_per_second": 69.145, |
|
"eval_steps_per_second": 69.145, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 36.1, |
|
"grad_norm": 2.136566162109375, |
|
"learning_rate": 0.00213, |
|
"loss": 2.0017, |
|
"step": 3610 |
|
}, |
|
{ |
|
"epoch": 36.2, |
|
"grad_norm": 3.5907399654388428, |
|
"learning_rate": 0.002126666666666667, |
|
"loss": 2.0714, |
|
"step": 3620 |
|
}, |
|
{ |
|
"epoch": 36.3, |
|
"grad_norm": 1.7881414890289307, |
|
"learning_rate": 0.0021233333333333334, |
|
"loss": 1.892, |
|
"step": 3630 |
|
}, |
|
{ |
|
"epoch": 36.4, |
|
"grad_norm": 2.1000165939331055, |
|
"learning_rate": 0.00212, |
|
"loss": 1.9525, |
|
"step": 3640 |
|
}, |
|
{ |
|
"epoch": 36.5, |
|
"grad_norm": 1.9690414667129517, |
|
"learning_rate": 0.002116666666666667, |
|
"loss": 2.1597, |
|
"step": 3650 |
|
}, |
|
{ |
|
"epoch": 36.6, |
|
"grad_norm": 18.85406494140625, |
|
"learning_rate": 0.0021133333333333334, |
|
"loss": 2.0152, |
|
"step": 3660 |
|
}, |
|
{ |
|
"epoch": 36.7, |
|
"grad_norm": 1.5097402334213257, |
|
"learning_rate": 0.0021100000000000003, |
|
"loss": 2.1268, |
|
"step": 3670 |
|
}, |
|
{ |
|
"epoch": 36.8, |
|
"grad_norm": 1.0894497632980347, |
|
"learning_rate": 0.0021066666666666664, |
|
"loss": 1.9798, |
|
"step": 3680 |
|
}, |
|
{ |
|
"epoch": 36.9, |
|
"grad_norm": 1.648740530014038, |
|
"learning_rate": 0.0021033333333333334, |
|
"loss": 2.0881, |
|
"step": 3690 |
|
}, |
|
{ |
|
"epoch": 37.0, |
|
"grad_norm": 1.3611383438110352, |
|
"learning_rate": 0.0021, |
|
"loss": 1.9165, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 37.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 4.528919219970703, |
|
"eval_runtime": 1.2924, |
|
"eval_samples_per_second": 77.378, |
|
"eval_steps_per_second": 77.378, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 37.1, |
|
"grad_norm": 1.7880363464355469, |
|
"learning_rate": 0.002096666666666667, |
|
"loss": 1.9742, |
|
"step": 3710 |
|
}, |
|
{ |
|
"epoch": 37.2, |
|
"grad_norm": 2.8415615558624268, |
|
"learning_rate": 0.0020933333333333333, |
|
"loss": 1.895, |
|
"step": 3720 |
|
}, |
|
{ |
|
"epoch": 37.3, |
|
"grad_norm": 1.9049543142318726, |
|
"learning_rate": 0.00209, |
|
"loss": 2.0672, |
|
"step": 3730 |
|
}, |
|
{ |
|
"epoch": 37.4, |
|
"grad_norm": 2.0513916015625, |
|
"learning_rate": 0.002086666666666667, |
|
"loss": 2.0711, |
|
"step": 3740 |
|
}, |
|
{ |
|
"epoch": 37.5, |
|
"grad_norm": 3.3003621101379395, |
|
"learning_rate": 0.0020833333333333333, |
|
"loss": 1.9041, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 37.6, |
|
"grad_norm": 1.8238269090652466, |
|
"learning_rate": 0.0020800000000000003, |
|
"loss": 1.7664, |
|
"step": 3760 |
|
}, |
|
{ |
|
"epoch": 37.7, |
|
"grad_norm": 7.668329238891602, |
|
"learning_rate": 0.0020766666666666668, |
|
"loss": 2.0638, |
|
"step": 3770 |
|
}, |
|
{ |
|
"epoch": 37.8, |
|
"grad_norm": 3.996469497680664, |
|
"learning_rate": 0.0020733333333333333, |
|
"loss": 2.1055, |
|
"step": 3780 |
|
}, |
|
{ |
|
"epoch": 37.9, |
|
"grad_norm": 2.3909971714019775, |
|
"learning_rate": 0.00207, |
|
"loss": 2.1815, |
|
"step": 3790 |
|
}, |
|
{ |
|
"epoch": 38.0, |
|
"grad_norm": 1.826292634010315, |
|
"learning_rate": 0.0020666666666666667, |
|
"loss": 1.9736, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 38.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 3.008984088897705, |
|
"eval_runtime": 10.9545, |
|
"eval_samples_per_second": 9.129, |
|
"eval_steps_per_second": 9.129, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 38.1, |
|
"grad_norm": 1.2425639629364014, |
|
"learning_rate": 0.0020633333333333337, |
|
"loss": 1.9483, |
|
"step": 3810 |
|
}, |
|
{ |
|
"epoch": 38.2, |
|
"grad_norm": 1.175968885421753, |
|
"learning_rate": 0.00206, |
|
"loss": 2.0578, |
|
"step": 3820 |
|
}, |
|
{ |
|
"epoch": 38.3, |
|
"grad_norm": 1.353892207145691, |
|
"learning_rate": 0.0020566666666666667, |
|
"loss": 2.0149, |
|
"step": 3830 |
|
}, |
|
{ |
|
"epoch": 38.4, |
|
"grad_norm": 4.131348609924316, |
|
"learning_rate": 0.0020533333333333332, |
|
"loss": 1.9459, |
|
"step": 3840 |
|
}, |
|
{ |
|
"epoch": 38.5, |
|
"grad_norm": 0.8871080875396729, |
|
"learning_rate": 0.00205, |
|
"loss": 2.1865, |
|
"step": 3850 |
|
}, |
|
{ |
|
"epoch": 38.6, |
|
"grad_norm": 1.6456680297851562, |
|
"learning_rate": 0.0020466666666666667, |
|
"loss": 2.1644, |
|
"step": 3860 |
|
}, |
|
{ |
|
"epoch": 38.7, |
|
"grad_norm": 2.714493751525879, |
|
"learning_rate": 0.002043333333333333, |
|
"loss": 2.0765, |
|
"step": 3870 |
|
}, |
|
{ |
|
"epoch": 38.8, |
|
"grad_norm": 2.0388987064361572, |
|
"learning_rate": 0.00204, |
|
"loss": 2.1691, |
|
"step": 3880 |
|
}, |
|
{ |
|
"epoch": 38.9, |
|
"grad_norm": 3.4107553958892822, |
|
"learning_rate": 0.0020366666666666667, |
|
"loss": 2.0441, |
|
"step": 3890 |
|
}, |
|
{ |
|
"epoch": 39.0, |
|
"grad_norm": 0.9831299781799316, |
|
"learning_rate": 0.0020333333333333336, |
|
"loss": 1.9811, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 39.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 5.389962673187256, |
|
"eval_runtime": 1.4328, |
|
"eval_samples_per_second": 69.795, |
|
"eval_steps_per_second": 69.795, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 39.1, |
|
"grad_norm": 2.0271992683410645, |
|
"learning_rate": 0.00203, |
|
"loss": 1.9809, |
|
"step": 3910 |
|
}, |
|
{ |
|
"epoch": 39.2, |
|
"grad_norm": 1.5080064535140991, |
|
"learning_rate": 0.0020266666666666666, |
|
"loss": 2.2516, |
|
"step": 3920 |
|
}, |
|
{ |
|
"epoch": 39.3, |
|
"grad_norm": 1.161217451095581, |
|
"learning_rate": 0.002023333333333333, |
|
"loss": 1.9206, |
|
"step": 3930 |
|
}, |
|
{ |
|
"epoch": 39.4, |
|
"grad_norm": 1.4843965768814087, |
|
"learning_rate": 0.00202, |
|
"loss": 1.8808, |
|
"step": 3940 |
|
}, |
|
{ |
|
"epoch": 39.5, |
|
"grad_norm": 1.6773492097854614, |
|
"learning_rate": 0.002016666666666667, |
|
"loss": 1.8472, |
|
"step": 3950 |
|
}, |
|
{ |
|
"epoch": 39.6, |
|
"grad_norm": 1.0647914409637451, |
|
"learning_rate": 0.0020133333333333336, |
|
"loss": 2.019, |
|
"step": 3960 |
|
}, |
|
{ |
|
"epoch": 39.7, |
|
"grad_norm": 1.747930884361267, |
|
"learning_rate": 0.00201, |
|
"loss": 2.1662, |
|
"step": 3970 |
|
}, |
|
{ |
|
"epoch": 39.8, |
|
"grad_norm": 2.1393418312072754, |
|
"learning_rate": 0.0020066666666666666, |
|
"loss": 2.1175, |
|
"step": 3980 |
|
}, |
|
{ |
|
"epoch": 39.9, |
|
"grad_norm": 2.0009078979492188, |
|
"learning_rate": 0.0020033333333333335, |
|
"loss": 2.0526, |
|
"step": 3990 |
|
}, |
|
{ |
|
"epoch": 40.0, |
|
"grad_norm": 0.8706101179122925, |
|
"learning_rate": 0.002, |
|
"loss": 1.9522, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 40.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 3.5710408687591553, |
|
"eval_runtime": 11.4581, |
|
"eval_samples_per_second": 8.727, |
|
"eval_steps_per_second": 8.727, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 40.1, |
|
"grad_norm": 1.443403959274292, |
|
"learning_rate": 0.0019966666666666666, |
|
"loss": 1.9578, |
|
"step": 4010 |
|
}, |
|
{ |
|
"epoch": 40.2, |
|
"grad_norm": 1.0098460912704468, |
|
"learning_rate": 0.001993333333333333, |
|
"loss": 1.9322, |
|
"step": 4020 |
|
}, |
|
{ |
|
"epoch": 40.3, |
|
"grad_norm": 2.6353437900543213, |
|
"learning_rate": 0.00199, |
|
"loss": 1.9057, |
|
"step": 4030 |
|
}, |
|
{ |
|
"epoch": 40.4, |
|
"grad_norm": 3.636230230331421, |
|
"learning_rate": 0.001986666666666667, |
|
"loss": 2.2036, |
|
"step": 4040 |
|
}, |
|
{ |
|
"epoch": 40.5, |
|
"grad_norm": 2.8781425952911377, |
|
"learning_rate": 0.0019833333333333335, |
|
"loss": 2.1279, |
|
"step": 4050 |
|
}, |
|
{ |
|
"epoch": 40.6, |
|
"grad_norm": 2.572105646133423, |
|
"learning_rate": 0.00198, |
|
"loss": 1.9084, |
|
"step": 4060 |
|
}, |
|
{ |
|
"epoch": 40.7, |
|
"grad_norm": 1.249396800994873, |
|
"learning_rate": 0.0019766666666666665, |
|
"loss": 1.8248, |
|
"step": 4070 |
|
}, |
|
{ |
|
"epoch": 40.8, |
|
"grad_norm": 7.5078959465026855, |
|
"learning_rate": 0.0019733333333333334, |
|
"loss": 1.911, |
|
"step": 4080 |
|
}, |
|
{ |
|
"epoch": 40.9, |
|
"grad_norm": 3.5880582332611084, |
|
"learning_rate": 0.00197, |
|
"loss": 2.0661, |
|
"step": 4090 |
|
}, |
|
{ |
|
"epoch": 41.0, |
|
"grad_norm": 5.388538360595703, |
|
"learning_rate": 0.001966666666666667, |
|
"loss": 2.047, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 41.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 3.472397565841675, |
|
"eval_runtime": 7.0399, |
|
"eval_samples_per_second": 14.205, |
|
"eval_steps_per_second": 14.205, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 41.1, |
|
"grad_norm": 1.7672760486602783, |
|
"learning_rate": 0.0019633333333333334, |
|
"loss": 2.1461, |
|
"step": 4110 |
|
}, |
|
{ |
|
"epoch": 41.2, |
|
"grad_norm": 3.0011463165283203, |
|
"learning_rate": 0.00196, |
|
"loss": 2.053, |
|
"step": 4120 |
|
}, |
|
{ |
|
"epoch": 41.3, |
|
"grad_norm": 1.1528350114822388, |
|
"learning_rate": 0.001956666666666667, |
|
"loss": 1.8176, |
|
"step": 4130 |
|
}, |
|
{ |
|
"epoch": 41.4, |
|
"grad_norm": 2.7469072341918945, |
|
"learning_rate": 0.0019533333333333334, |
|
"loss": 2.1321, |
|
"step": 4140 |
|
}, |
|
{ |
|
"epoch": 41.5, |
|
"grad_norm": 1.233780860900879, |
|
"learning_rate": 0.0019500000000000001, |
|
"loss": 1.9267, |
|
"step": 4150 |
|
}, |
|
{ |
|
"epoch": 41.6, |
|
"grad_norm": 1.0265371799468994, |
|
"learning_rate": 0.0019466666666666666, |
|
"loss": 1.9318, |
|
"step": 4160 |
|
}, |
|
{ |
|
"epoch": 41.7, |
|
"grad_norm": 1.1822024583816528, |
|
"learning_rate": 0.0019433333333333334, |
|
"loss": 2.0635, |
|
"step": 4170 |
|
}, |
|
{ |
|
"epoch": 41.8, |
|
"grad_norm": 6.102161407470703, |
|
"learning_rate": 0.0019399999999999999, |
|
"loss": 1.8995, |
|
"step": 4180 |
|
}, |
|
{ |
|
"epoch": 41.9, |
|
"grad_norm": 2.581594467163086, |
|
"learning_rate": 0.0019366666666666666, |
|
"loss": 1.815, |
|
"step": 4190 |
|
}, |
|
{ |
|
"epoch": 42.0, |
|
"grad_norm": 1.29677414894104, |
|
"learning_rate": 0.0019333333333333336, |
|
"loss": 1.9999, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 42.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 7.260364532470703, |
|
"eval_runtime": 19.8343, |
|
"eval_samples_per_second": 5.042, |
|
"eval_steps_per_second": 5.042, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 42.1, |
|
"grad_norm": 6.908992290496826, |
|
"learning_rate": 0.00193, |
|
"loss": 1.8636, |
|
"step": 4210 |
|
}, |
|
{ |
|
"epoch": 42.2, |
|
"grad_norm": 2.6703882217407227, |
|
"learning_rate": 0.0019266666666666668, |
|
"loss": 1.9093, |
|
"step": 4220 |
|
}, |
|
{ |
|
"epoch": 42.3, |
|
"grad_norm": 3.580500841140747, |
|
"learning_rate": 0.0019233333333333333, |
|
"loss": 2.0113, |
|
"step": 4230 |
|
}, |
|
{ |
|
"epoch": 42.4, |
|
"grad_norm": 3.339911937713623, |
|
"learning_rate": 0.00192, |
|
"loss": 1.8378, |
|
"step": 4240 |
|
}, |
|
{ |
|
"epoch": 42.5, |
|
"grad_norm": 1.8307009935379028, |
|
"learning_rate": 0.0019166666666666666, |
|
"loss": 2.017, |
|
"step": 4250 |
|
}, |
|
{ |
|
"epoch": 42.6, |
|
"grad_norm": 3.4338369369506836, |
|
"learning_rate": 0.0019133333333333333, |
|
"loss": 2.1168, |
|
"step": 4260 |
|
}, |
|
{ |
|
"epoch": 42.7, |
|
"grad_norm": 5.363007545471191, |
|
"learning_rate": 0.0019100000000000002, |
|
"loss": 2.1431, |
|
"step": 4270 |
|
}, |
|
{ |
|
"epoch": 42.8, |
|
"grad_norm": 1.6690889596939087, |
|
"learning_rate": 0.0019066666666666668, |
|
"loss": 1.8596, |
|
"step": 4280 |
|
}, |
|
{ |
|
"epoch": 42.9, |
|
"grad_norm": 3.8428828716278076, |
|
"learning_rate": 0.0019033333333333335, |
|
"loss": 1.8642, |
|
"step": 4290 |
|
}, |
|
{ |
|
"epoch": 43.0, |
|
"grad_norm": 2.877225160598755, |
|
"learning_rate": 0.0019, |
|
"loss": 1.9869, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 43.0, |
|
"eval_accuracy": 0.06, |
|
"eval_loss": 7.994565010070801, |
|
"eval_runtime": 3.2267, |
|
"eval_samples_per_second": 30.991, |
|
"eval_steps_per_second": 30.991, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 43.1, |
|
"grad_norm": 2.577849864959717, |
|
"learning_rate": 0.0018966666666666667, |
|
"loss": 1.9454, |
|
"step": 4310 |
|
}, |
|
{ |
|
"epoch": 43.2, |
|
"grad_norm": 1.6029572486877441, |
|
"learning_rate": 0.0018933333333333332, |
|
"loss": 1.7824, |
|
"step": 4320 |
|
}, |
|
{ |
|
"epoch": 43.3, |
|
"grad_norm": 3.6236324310302734, |
|
"learning_rate": 0.00189, |
|
"loss": 1.9488, |
|
"step": 4330 |
|
}, |
|
{ |
|
"epoch": 43.4, |
|
"grad_norm": 2.585770845413208, |
|
"learning_rate": 0.001886666666666667, |
|
"loss": 2.0196, |
|
"step": 4340 |
|
}, |
|
{ |
|
"epoch": 43.5, |
|
"grad_norm": 1.989559531211853, |
|
"learning_rate": 0.0018833333333333334, |
|
"loss": 2.112, |
|
"step": 4350 |
|
}, |
|
{ |
|
"epoch": 43.6, |
|
"grad_norm": 1.21571683883667, |
|
"learning_rate": 0.0018800000000000002, |
|
"loss": 1.8392, |
|
"step": 4360 |
|
}, |
|
{ |
|
"epoch": 43.7, |
|
"grad_norm": 1.674765944480896, |
|
"learning_rate": 0.0018766666666666667, |
|
"loss": 1.9925, |
|
"step": 4370 |
|
}, |
|
{ |
|
"epoch": 43.8, |
|
"grad_norm": 1.5830934047698975, |
|
"learning_rate": 0.0018733333333333334, |
|
"loss": 1.9278, |
|
"step": 4380 |
|
}, |
|
{ |
|
"epoch": 43.9, |
|
"grad_norm": 3.7739739418029785, |
|
"learning_rate": 0.00187, |
|
"loss": 1.9097, |
|
"step": 4390 |
|
}, |
|
{ |
|
"epoch": 44.0, |
|
"grad_norm": 1.0863910913467407, |
|
"learning_rate": 0.0018666666666666666, |
|
"loss": 1.9428, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 44.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 6.156602382659912, |
|
"eval_runtime": 1.6006, |
|
"eval_samples_per_second": 62.478, |
|
"eval_steps_per_second": 62.478, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 44.1, |
|
"grad_norm": 1.9607887268066406, |
|
"learning_rate": 0.0018633333333333332, |
|
"loss": 2.0214, |
|
"step": 4410 |
|
}, |
|
{ |
|
"epoch": 44.2, |
|
"grad_norm": 0.9546820521354675, |
|
"learning_rate": 0.00186, |
|
"loss": 2.0561, |
|
"step": 4420 |
|
}, |
|
{ |
|
"epoch": 44.3, |
|
"grad_norm": 3.94052791595459, |
|
"learning_rate": 0.0018566666666666668, |
|
"loss": 1.8098, |
|
"step": 4430 |
|
}, |
|
{ |
|
"epoch": 44.4, |
|
"grad_norm": 1.6813486814498901, |
|
"learning_rate": 0.0018533333333333334, |
|
"loss": 1.8502, |
|
"step": 4440 |
|
}, |
|
{ |
|
"epoch": 44.5, |
|
"grad_norm": 2.918163299560547, |
|
"learning_rate": 0.00185, |
|
"loss": 1.7545, |
|
"step": 4450 |
|
}, |
|
{ |
|
"epoch": 44.6, |
|
"grad_norm": 2.301067352294922, |
|
"learning_rate": 0.0018466666666666666, |
|
"loss": 2.1371, |
|
"step": 4460 |
|
}, |
|
{ |
|
"epoch": 44.7, |
|
"grad_norm": 4.0886712074279785, |
|
"learning_rate": 0.0018433333333333333, |
|
"loss": 2.0279, |
|
"step": 4470 |
|
}, |
|
{ |
|
"epoch": 44.8, |
|
"grad_norm": 1.5965591669082642, |
|
"learning_rate": 0.0018399999999999998, |
|
"loss": 2.0054, |
|
"step": 4480 |
|
}, |
|
{ |
|
"epoch": 44.9, |
|
"grad_norm": 1.5079519748687744, |
|
"learning_rate": 0.0018366666666666668, |
|
"loss": 1.8201, |
|
"step": 4490 |
|
}, |
|
{ |
|
"epoch": 45.0, |
|
"grad_norm": 2.8402748107910156, |
|
"learning_rate": 0.0018333333333333335, |
|
"loss": 1.7922, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 45.0, |
|
"eval_accuracy": 0.03, |
|
"eval_loss": 4.991882801055908, |
|
"eval_runtime": 1.6352, |
|
"eval_samples_per_second": 61.156, |
|
"eval_steps_per_second": 61.156, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 45.1, |
|
"grad_norm": 2.2311179637908936, |
|
"learning_rate": 0.00183, |
|
"loss": 1.8237, |
|
"step": 4510 |
|
}, |
|
{ |
|
"epoch": 45.2, |
|
"grad_norm": 1.873672604560852, |
|
"learning_rate": 0.0018266666666666668, |
|
"loss": 1.9774, |
|
"step": 4520 |
|
}, |
|
{ |
|
"epoch": 45.3, |
|
"grad_norm": 2.2289321422576904, |
|
"learning_rate": 0.0018233333333333333, |
|
"loss": 2.0517, |
|
"step": 4530 |
|
}, |
|
{ |
|
"epoch": 45.4, |
|
"grad_norm": 4.614668846130371, |
|
"learning_rate": 0.00182, |
|
"loss": 1.8622, |
|
"step": 4540 |
|
}, |
|
{ |
|
"epoch": 45.5, |
|
"grad_norm": 2.254178285598755, |
|
"learning_rate": 0.0018166666666666665, |
|
"loss": 1.9902, |
|
"step": 4550 |
|
}, |
|
{ |
|
"epoch": 45.6, |
|
"grad_norm": 5.717199325561523, |
|
"learning_rate": 0.0018133333333333335, |
|
"loss": 2.0937, |
|
"step": 4560 |
|
}, |
|
{ |
|
"epoch": 45.7, |
|
"grad_norm": 2.302830219268799, |
|
"learning_rate": 0.0018100000000000002, |
|
"loss": 1.8008, |
|
"step": 4570 |
|
}, |
|
{ |
|
"epoch": 45.8, |
|
"grad_norm": 3.8907456398010254, |
|
"learning_rate": 0.0018066666666666667, |
|
"loss": 1.8008, |
|
"step": 4580 |
|
}, |
|
{ |
|
"epoch": 45.9, |
|
"grad_norm": 3.854527711868286, |
|
"learning_rate": 0.0018033333333333334, |
|
"loss": 1.9225, |
|
"step": 4590 |
|
}, |
|
{ |
|
"epoch": 46.0, |
|
"grad_norm": 2.202763795852661, |
|
"learning_rate": 0.0018, |
|
"loss": 1.9047, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 46.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 7.193399429321289, |
|
"eval_runtime": 1.5717, |
|
"eval_samples_per_second": 63.626, |
|
"eval_steps_per_second": 63.626, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 46.1, |
|
"grad_norm": 0.9213665723800659, |
|
"learning_rate": 0.0017966666666666667, |
|
"loss": 1.8289, |
|
"step": 4610 |
|
}, |
|
{ |
|
"epoch": 46.2, |
|
"grad_norm": 1.6906572580337524, |
|
"learning_rate": 0.0017933333333333332, |
|
"loss": 2.1097, |
|
"step": 4620 |
|
}, |
|
{ |
|
"epoch": 46.3, |
|
"grad_norm": 4.417488098144531, |
|
"learning_rate": 0.0017900000000000001, |
|
"loss": 1.8328, |
|
"step": 4630 |
|
}, |
|
{ |
|
"epoch": 46.4, |
|
"grad_norm": 1.8122247457504272, |
|
"learning_rate": 0.0017866666666666667, |
|
"loss": 2.0426, |
|
"step": 4640 |
|
}, |
|
{ |
|
"epoch": 46.5, |
|
"grad_norm": 2.3169689178466797, |
|
"learning_rate": 0.0017833333333333334, |
|
"loss": 1.8678, |
|
"step": 4650 |
|
}, |
|
{ |
|
"epoch": 46.6, |
|
"grad_norm": 2.3043506145477295, |
|
"learning_rate": 0.0017800000000000001, |
|
"loss": 1.9539, |
|
"step": 4660 |
|
}, |
|
{ |
|
"epoch": 46.7, |
|
"grad_norm": 3.5980923175811768, |
|
"learning_rate": 0.0017766666666666666, |
|
"loss": 1.9287, |
|
"step": 4670 |
|
}, |
|
{ |
|
"epoch": 46.8, |
|
"grad_norm": 4.76849365234375, |
|
"learning_rate": 0.0017733333333333334, |
|
"loss": 1.948, |
|
"step": 4680 |
|
}, |
|
{ |
|
"epoch": 46.9, |
|
"grad_norm": 1.292289137840271, |
|
"learning_rate": 0.0017699999999999999, |
|
"loss": 2.1434, |
|
"step": 4690 |
|
}, |
|
{ |
|
"epoch": 47.0, |
|
"grad_norm": 6.172546863555908, |
|
"learning_rate": 0.0017666666666666668, |
|
"loss": 1.9419, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 47.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 4.326533317565918, |
|
"eval_runtime": 1.6119, |
|
"eval_samples_per_second": 62.037, |
|
"eval_steps_per_second": 62.037, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 47.1, |
|
"grad_norm": 4.527221202850342, |
|
"learning_rate": 0.0017633333333333333, |
|
"loss": 1.67, |
|
"step": 4710 |
|
}, |
|
{ |
|
"epoch": 47.2, |
|
"grad_norm": 2.071593761444092, |
|
"learning_rate": 0.00176, |
|
"loss": 1.7771, |
|
"step": 4720 |
|
}, |
|
{ |
|
"epoch": 47.3, |
|
"grad_norm": 2.786754846572876, |
|
"learning_rate": 0.0017566666666666668, |
|
"loss": 2.0374, |
|
"step": 4730 |
|
}, |
|
{ |
|
"epoch": 47.4, |
|
"grad_norm": 2.9459238052368164, |
|
"learning_rate": 0.0017533333333333333, |
|
"loss": 1.9356, |
|
"step": 4740 |
|
}, |
|
{ |
|
"epoch": 47.5, |
|
"grad_norm": 3.7896053791046143, |
|
"learning_rate": 0.0017500000000000003, |
|
"loss": 1.936, |
|
"step": 4750 |
|
}, |
|
{ |
|
"epoch": 47.6, |
|
"grad_norm": 3.3444080352783203, |
|
"learning_rate": 0.0017466666666666665, |
|
"loss": 2.0647, |
|
"step": 4760 |
|
}, |
|
{ |
|
"epoch": 47.7, |
|
"grad_norm": 2.463644027709961, |
|
"learning_rate": 0.0017433333333333335, |
|
"loss": 1.8612, |
|
"step": 4770 |
|
}, |
|
{ |
|
"epoch": 47.8, |
|
"grad_norm": 2.2192585468292236, |
|
"learning_rate": 0.00174, |
|
"loss": 1.9938, |
|
"step": 4780 |
|
}, |
|
{ |
|
"epoch": 47.9, |
|
"grad_norm": 2.3443355560302734, |
|
"learning_rate": 0.0017366666666666667, |
|
"loss": 1.9478, |
|
"step": 4790 |
|
}, |
|
{ |
|
"epoch": 48.0, |
|
"grad_norm": 3.5949223041534424, |
|
"learning_rate": 0.0017333333333333333, |
|
"loss": 1.7765, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 48.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 4.613639831542969, |
|
"eval_runtime": 1.6316, |
|
"eval_samples_per_second": 61.29, |
|
"eval_steps_per_second": 61.29, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 48.1, |
|
"grad_norm": 1.3368432521820068, |
|
"learning_rate": 0.00173, |
|
"loss": 1.9142, |
|
"step": 4810 |
|
}, |
|
{ |
|
"epoch": 48.2, |
|
"grad_norm": 2.000155448913574, |
|
"learning_rate": 0.001726666666666667, |
|
"loss": 1.9052, |
|
"step": 4820 |
|
}, |
|
{ |
|
"epoch": 48.3, |
|
"grad_norm": 6.261807918548584, |
|
"learning_rate": 0.0017233333333333332, |
|
"loss": 1.9964, |
|
"step": 4830 |
|
}, |
|
{ |
|
"epoch": 48.4, |
|
"grad_norm": 1.433078408241272, |
|
"learning_rate": 0.0017200000000000002, |
|
"loss": 1.9076, |
|
"step": 4840 |
|
}, |
|
{ |
|
"epoch": 48.5, |
|
"grad_norm": 2.1348838806152344, |
|
"learning_rate": 0.0017166666666666667, |
|
"loss": 1.7777, |
|
"step": 4850 |
|
}, |
|
{ |
|
"epoch": 48.6, |
|
"grad_norm": 3.1317050457000732, |
|
"learning_rate": 0.0017133333333333334, |
|
"loss": 1.8805, |
|
"step": 4860 |
|
}, |
|
{ |
|
"epoch": 48.7, |
|
"grad_norm": 3.248568534851074, |
|
"learning_rate": 0.00171, |
|
"loss": 1.9639, |
|
"step": 4870 |
|
}, |
|
{ |
|
"epoch": 48.8, |
|
"grad_norm": 1.4480762481689453, |
|
"learning_rate": 0.0017066666666666667, |
|
"loss": 1.8757, |
|
"step": 4880 |
|
}, |
|
{ |
|
"epoch": 48.9, |
|
"grad_norm": 2.1497910022735596, |
|
"learning_rate": 0.0017033333333333336, |
|
"loss": 1.7923, |
|
"step": 4890 |
|
}, |
|
{ |
|
"epoch": 49.0, |
|
"grad_norm": 2.5053927898406982, |
|
"learning_rate": 0.0017, |
|
"loss": 1.7962, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 49.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 13.476518630981445, |
|
"eval_runtime": 1.7036, |
|
"eval_samples_per_second": 58.7, |
|
"eval_steps_per_second": 58.7, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 49.1, |
|
"grad_norm": 3.2668566703796387, |
|
"learning_rate": 0.0016966666666666669, |
|
"loss": 1.7602, |
|
"step": 4910 |
|
}, |
|
{ |
|
"epoch": 49.2, |
|
"grad_norm": 1.1898913383483887, |
|
"learning_rate": 0.0016933333333333334, |
|
"loss": 1.8113, |
|
"step": 4920 |
|
}, |
|
{ |
|
"epoch": 49.3, |
|
"grad_norm": 3.223593235015869, |
|
"learning_rate": 0.00169, |
|
"loss": 2.0273, |
|
"step": 4930 |
|
}, |
|
{ |
|
"epoch": 49.4, |
|
"grad_norm": 4.745173454284668, |
|
"learning_rate": 0.0016866666666666666, |
|
"loss": 1.7831, |
|
"step": 4940 |
|
}, |
|
{ |
|
"epoch": 49.5, |
|
"grad_norm": 1.5475022792816162, |
|
"learning_rate": 0.0016833333333333333, |
|
"loss": 1.9636, |
|
"step": 4950 |
|
}, |
|
{ |
|
"epoch": 49.6, |
|
"grad_norm": 3.3999617099761963, |
|
"learning_rate": 0.0016800000000000003, |
|
"loss": 1.7679, |
|
"step": 4960 |
|
}, |
|
{ |
|
"epoch": 49.7, |
|
"grad_norm": 2.1823158264160156, |
|
"learning_rate": 0.0016766666666666666, |
|
"loss": 1.9602, |
|
"step": 4970 |
|
}, |
|
{ |
|
"epoch": 49.8, |
|
"grad_norm": 1.2854535579681396, |
|
"learning_rate": 0.0016733333333333335, |
|
"loss": 1.8646, |
|
"step": 4980 |
|
}, |
|
{ |
|
"epoch": 49.9, |
|
"grad_norm": 3.2971255779266357, |
|
"learning_rate": 0.00167, |
|
"loss": 1.9398, |
|
"step": 4990 |
|
}, |
|
{ |
|
"epoch": 50.0, |
|
"grad_norm": 4.854804039001465, |
|
"learning_rate": 0.0016666666666666668, |
|
"loss": 2.0226, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 50.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 8.122514724731445, |
|
"eval_runtime": 1.6511, |
|
"eval_samples_per_second": 60.567, |
|
"eval_steps_per_second": 60.567, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 50.1, |
|
"grad_norm": 2.5975425243377686, |
|
"learning_rate": 0.0016633333333333333, |
|
"loss": 1.9288, |
|
"step": 5010 |
|
}, |
|
{ |
|
"epoch": 50.2, |
|
"grad_norm": 1.7692967653274536, |
|
"learning_rate": 0.00166, |
|
"loss": 1.8247, |
|
"step": 5020 |
|
}, |
|
{ |
|
"epoch": 50.3, |
|
"grad_norm": 2.7661757469177246, |
|
"learning_rate": 0.0016566666666666665, |
|
"loss": 2.0096, |
|
"step": 5030 |
|
}, |
|
{ |
|
"epoch": 50.4, |
|
"grad_norm": 1.707748532295227, |
|
"learning_rate": 0.0016533333333333333, |
|
"loss": 1.6249, |
|
"step": 5040 |
|
}, |
|
{ |
|
"epoch": 50.5, |
|
"grad_norm": 1.9424363374710083, |
|
"learning_rate": 0.0016500000000000002, |
|
"loss": 1.9504, |
|
"step": 5050 |
|
}, |
|
{ |
|
"epoch": 50.6, |
|
"grad_norm": 5.841362476348877, |
|
"learning_rate": 0.0016466666666666667, |
|
"loss": 1.7022, |
|
"step": 5060 |
|
}, |
|
{ |
|
"epoch": 50.7, |
|
"grad_norm": 5.629020690917969, |
|
"learning_rate": 0.0016433333333333335, |
|
"loss": 1.8386, |
|
"step": 5070 |
|
}, |
|
{ |
|
"epoch": 50.8, |
|
"grad_norm": 3.982902765274048, |
|
"learning_rate": 0.00164, |
|
"loss": 1.9075, |
|
"step": 5080 |
|
}, |
|
{ |
|
"epoch": 50.9, |
|
"grad_norm": 1.95156991481781, |
|
"learning_rate": 0.0016366666666666667, |
|
"loss": 1.7509, |
|
"step": 5090 |
|
}, |
|
{ |
|
"epoch": 51.0, |
|
"grad_norm": 3.8183364868164062, |
|
"learning_rate": 0.0016333333333333332, |
|
"loss": 2.1393, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 51.0, |
|
"eval_accuracy": 0.17, |
|
"eval_loss": 7.794131278991699, |
|
"eval_runtime": 1.5853, |
|
"eval_samples_per_second": 63.08, |
|
"eval_steps_per_second": 63.08, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 51.1, |
|
"grad_norm": 4.704866886138916, |
|
"learning_rate": 0.00163, |
|
"loss": 1.8829, |
|
"step": 5110 |
|
}, |
|
{ |
|
"epoch": 51.2, |
|
"grad_norm": 5.786809921264648, |
|
"learning_rate": 0.0016266666666666669, |
|
"loss": 1.8662, |
|
"step": 5120 |
|
}, |
|
{ |
|
"epoch": 51.3, |
|
"grad_norm": 2.3854682445526123, |
|
"learning_rate": 0.0016233333333333334, |
|
"loss": 1.8345, |
|
"step": 5130 |
|
}, |
|
{ |
|
"epoch": 51.4, |
|
"grad_norm": 1.6624096632003784, |
|
"learning_rate": 0.0016200000000000001, |
|
"loss": 1.9696, |
|
"step": 5140 |
|
}, |
|
{ |
|
"epoch": 51.5, |
|
"grad_norm": 2.215571880340576, |
|
"learning_rate": 0.0016166666666666666, |
|
"loss": 1.8693, |
|
"step": 5150 |
|
}, |
|
{ |
|
"epoch": 51.6, |
|
"grad_norm": 4.892175197601318, |
|
"learning_rate": 0.0016133333333333334, |
|
"loss": 2.2826, |
|
"step": 5160 |
|
}, |
|
{ |
|
"epoch": 51.7, |
|
"grad_norm": 2.0336062908172607, |
|
"learning_rate": 0.0016099999999999999, |
|
"loss": 1.9523, |
|
"step": 5170 |
|
}, |
|
{ |
|
"epoch": 51.8, |
|
"grad_norm": 1.3163597583770752, |
|
"learning_rate": 0.0016066666666666666, |
|
"loss": 2.0221, |
|
"step": 5180 |
|
}, |
|
{ |
|
"epoch": 51.9, |
|
"grad_norm": 3.6314053535461426, |
|
"learning_rate": 0.0016033333333333336, |
|
"loss": 1.8021, |
|
"step": 5190 |
|
}, |
|
{ |
|
"epoch": 52.0, |
|
"grad_norm": 4.095399856567383, |
|
"learning_rate": 0.0016, |
|
"loss": 1.8256, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 52.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 5.413360118865967, |
|
"eval_runtime": 1.6389, |
|
"eval_samples_per_second": 61.017, |
|
"eval_steps_per_second": 61.017, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 52.1, |
|
"grad_norm": 5.811031341552734, |
|
"learning_rate": 0.0015966666666666668, |
|
"loss": 1.7871, |
|
"step": 5210 |
|
}, |
|
{ |
|
"epoch": 52.2, |
|
"grad_norm": 1.6372181177139282, |
|
"learning_rate": 0.0015933333333333333, |
|
"loss": 2.0306, |
|
"step": 5220 |
|
}, |
|
{ |
|
"epoch": 52.3, |
|
"grad_norm": 1.0381364822387695, |
|
"learning_rate": 0.00159, |
|
"loss": 1.9718, |
|
"step": 5230 |
|
}, |
|
{ |
|
"epoch": 52.4, |
|
"grad_norm": 3.0742342472076416, |
|
"learning_rate": 0.0015866666666666666, |
|
"loss": 1.9477, |
|
"step": 5240 |
|
}, |
|
{ |
|
"epoch": 52.5, |
|
"grad_norm": 2.2406508922576904, |
|
"learning_rate": 0.0015833333333333335, |
|
"loss": 1.9322, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 52.6, |
|
"grad_norm": 3.015726327896118, |
|
"learning_rate": 0.0015799999999999998, |
|
"loss": 1.6133, |
|
"step": 5260 |
|
}, |
|
{ |
|
"epoch": 52.7, |
|
"grad_norm": 4.843988418579102, |
|
"learning_rate": 0.0015766666666666668, |
|
"loss": 1.9038, |
|
"step": 5270 |
|
}, |
|
{ |
|
"epoch": 52.8, |
|
"grad_norm": 3.5391154289245605, |
|
"learning_rate": 0.0015733333333333335, |
|
"loss": 1.9509, |
|
"step": 5280 |
|
}, |
|
{ |
|
"epoch": 52.9, |
|
"grad_norm": 2.697735548019409, |
|
"learning_rate": 0.00157, |
|
"loss": 1.9014, |
|
"step": 5290 |
|
}, |
|
{ |
|
"epoch": 53.0, |
|
"grad_norm": 6.837653636932373, |
|
"learning_rate": 0.0015666666666666667, |
|
"loss": 1.9116, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 53.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 6.112913608551025, |
|
"eval_runtime": 1.6689, |
|
"eval_samples_per_second": 59.919, |
|
"eval_steps_per_second": 59.919, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 53.1, |
|
"grad_norm": 1.5611952543258667, |
|
"learning_rate": 0.0015633333333333332, |
|
"loss": 1.6709, |
|
"step": 5310 |
|
}, |
|
{ |
|
"epoch": 53.2, |
|
"grad_norm": 0.9511187672615051, |
|
"learning_rate": 0.0015600000000000002, |
|
"loss": 1.866, |
|
"step": 5320 |
|
}, |
|
{ |
|
"epoch": 53.3, |
|
"grad_norm": 4.475405216217041, |
|
"learning_rate": 0.0015566666666666665, |
|
"loss": 1.6536, |
|
"step": 5330 |
|
}, |
|
{ |
|
"epoch": 53.4, |
|
"grad_norm": 4.969283103942871, |
|
"learning_rate": 0.0015533333333333334, |
|
"loss": 1.8588, |
|
"step": 5340 |
|
}, |
|
{ |
|
"epoch": 53.5, |
|
"grad_norm": 1.5282946825027466, |
|
"learning_rate": 0.0015500000000000002, |
|
"loss": 1.7311, |
|
"step": 5350 |
|
}, |
|
{ |
|
"epoch": 53.6, |
|
"grad_norm": 2.565603494644165, |
|
"learning_rate": 0.0015466666666666667, |
|
"loss": 1.9764, |
|
"step": 5360 |
|
}, |
|
{ |
|
"epoch": 53.7, |
|
"grad_norm": 3.92899489402771, |
|
"learning_rate": 0.0015433333333333334, |
|
"loss": 1.8728, |
|
"step": 5370 |
|
}, |
|
{ |
|
"epoch": 53.8, |
|
"grad_norm": 8.752714157104492, |
|
"learning_rate": 0.00154, |
|
"loss": 2.0048, |
|
"step": 5380 |
|
}, |
|
{ |
|
"epoch": 53.9, |
|
"grad_norm": 2.1922614574432373, |
|
"learning_rate": 0.0015366666666666669, |
|
"loss": 1.7953, |
|
"step": 5390 |
|
}, |
|
{ |
|
"epoch": 54.0, |
|
"grad_norm": 1.7674418687820435, |
|
"learning_rate": 0.0015333333333333332, |
|
"loss": 2.1156, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 54.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 4.145403861999512, |
|
"eval_runtime": 1.4782, |
|
"eval_samples_per_second": 67.649, |
|
"eval_steps_per_second": 67.649, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 54.1, |
|
"grad_norm": 1.4317039251327515, |
|
"learning_rate": 0.0015300000000000001, |
|
"loss": 2.1365, |
|
"step": 5410 |
|
}, |
|
{ |
|
"epoch": 54.2, |
|
"grad_norm": 2.728269577026367, |
|
"learning_rate": 0.0015266666666666666, |
|
"loss": 1.8243, |
|
"step": 5420 |
|
}, |
|
{ |
|
"epoch": 54.3, |
|
"grad_norm": 1.3561785221099854, |
|
"learning_rate": 0.0015233333333333334, |
|
"loss": 1.6856, |
|
"step": 5430 |
|
}, |
|
{ |
|
"epoch": 54.4, |
|
"grad_norm": 2.300229549407959, |
|
"learning_rate": 0.00152, |
|
"loss": 1.7025, |
|
"step": 5440 |
|
}, |
|
{ |
|
"epoch": 54.5, |
|
"grad_norm": 2.610546350479126, |
|
"learning_rate": 0.0015166666666666666, |
|
"loss": 1.8949, |
|
"step": 5450 |
|
}, |
|
{ |
|
"epoch": 54.6, |
|
"grad_norm": 3.494725465774536, |
|
"learning_rate": 0.0015133333333333335, |
|
"loss": 1.7296, |
|
"step": 5460 |
|
}, |
|
{ |
|
"epoch": 54.7, |
|
"grad_norm": 3.7900161743164062, |
|
"learning_rate": 0.0015099999999999998, |
|
"loss": 1.9087, |
|
"step": 5470 |
|
}, |
|
{ |
|
"epoch": 54.8, |
|
"grad_norm": 5.745708465576172, |
|
"learning_rate": 0.0015066666666666668, |
|
"loss": 1.9497, |
|
"step": 5480 |
|
}, |
|
{ |
|
"epoch": 54.9, |
|
"grad_norm": 3.6180849075317383, |
|
"learning_rate": 0.0015033333333333333, |
|
"loss": 1.8751, |
|
"step": 5490 |
|
}, |
|
{ |
|
"epoch": 55.0, |
|
"grad_norm": 1.9145499467849731, |
|
"learning_rate": 0.0015, |
|
"loss": 1.7501, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 55.0, |
|
"eval_accuracy": 0.09, |
|
"eval_loss": 6.213360786437988, |
|
"eval_runtime": 1.2055, |
|
"eval_samples_per_second": 82.957, |
|
"eval_steps_per_second": 82.957, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 55.1, |
|
"grad_norm": 3.158578395843506, |
|
"learning_rate": 0.0014966666666666668, |
|
"loss": 1.7163, |
|
"step": 5510 |
|
}, |
|
{ |
|
"epoch": 55.2, |
|
"grad_norm": 10.36141586303711, |
|
"learning_rate": 0.0014933333333333333, |
|
"loss": 1.8999, |
|
"step": 5520 |
|
}, |
|
{ |
|
"epoch": 55.3, |
|
"grad_norm": 6.241248607635498, |
|
"learning_rate": 0.00149, |
|
"loss": 1.6129, |
|
"step": 5530 |
|
}, |
|
{ |
|
"epoch": 55.4, |
|
"grad_norm": 5.371027946472168, |
|
"learning_rate": 0.0014866666666666667, |
|
"loss": 1.747, |
|
"step": 5540 |
|
}, |
|
{ |
|
"epoch": 55.5, |
|
"grad_norm": 8.025517463684082, |
|
"learning_rate": 0.0014833333333333335, |
|
"loss": 1.8701, |
|
"step": 5550 |
|
}, |
|
{ |
|
"epoch": 55.6, |
|
"grad_norm": 1.9207485914230347, |
|
"learning_rate": 0.00148, |
|
"loss": 1.7299, |
|
"step": 5560 |
|
}, |
|
{ |
|
"epoch": 55.7, |
|
"grad_norm": 5.347723007202148, |
|
"learning_rate": 0.0014766666666666667, |
|
"loss": 2.0809, |
|
"step": 5570 |
|
}, |
|
{ |
|
"epoch": 55.8, |
|
"grad_norm": 2.564652919769287, |
|
"learning_rate": 0.0014733333333333334, |
|
"loss": 1.5181, |
|
"step": 5580 |
|
}, |
|
{ |
|
"epoch": 55.9, |
|
"grad_norm": 2.4365596771240234, |
|
"learning_rate": 0.00147, |
|
"loss": 2.0716, |
|
"step": 5590 |
|
}, |
|
{ |
|
"epoch": 56.0, |
|
"grad_norm": 2.38962721824646, |
|
"learning_rate": 0.0014666666666666667, |
|
"loss": 1.8722, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 56.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 6.498541831970215, |
|
"eval_runtime": 1.059, |
|
"eval_samples_per_second": 94.424, |
|
"eval_steps_per_second": 94.424, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 56.1, |
|
"grad_norm": 3.4303345680236816, |
|
"learning_rate": 0.0014633333333333332, |
|
"loss": 2.0598, |
|
"step": 5610 |
|
}, |
|
{ |
|
"epoch": 56.2, |
|
"grad_norm": 5.073793411254883, |
|
"learning_rate": 0.0014600000000000001, |
|
"loss": 1.6931, |
|
"step": 5620 |
|
}, |
|
{ |
|
"epoch": 56.3, |
|
"grad_norm": 4.5366644859313965, |
|
"learning_rate": 0.0014566666666666667, |
|
"loss": 1.7725, |
|
"step": 5630 |
|
}, |
|
{ |
|
"epoch": 56.4, |
|
"grad_norm": 4.9346022605896, |
|
"learning_rate": 0.0014533333333333334, |
|
"loss": 1.7445, |
|
"step": 5640 |
|
}, |
|
{ |
|
"epoch": 56.5, |
|
"grad_norm": 1.8802194595336914, |
|
"learning_rate": 0.0014500000000000001, |
|
"loss": 1.8807, |
|
"step": 5650 |
|
}, |
|
{ |
|
"epoch": 56.6, |
|
"grad_norm": 9.372114181518555, |
|
"learning_rate": 0.0014466666666666666, |
|
"loss": 2.0712, |
|
"step": 5660 |
|
}, |
|
{ |
|
"epoch": 56.7, |
|
"grad_norm": 1.4863404035568237, |
|
"learning_rate": 0.0014433333333333334, |
|
"loss": 2.0337, |
|
"step": 5670 |
|
}, |
|
{ |
|
"epoch": 56.8, |
|
"grad_norm": 6.14418888092041, |
|
"learning_rate": 0.0014399999999999999, |
|
"loss": 1.8824, |
|
"step": 5680 |
|
}, |
|
{ |
|
"epoch": 56.9, |
|
"grad_norm": 4.623052597045898, |
|
"learning_rate": 0.0014366666666666666, |
|
"loss": 1.7163, |
|
"step": 5690 |
|
}, |
|
{ |
|
"epoch": 57.0, |
|
"grad_norm": 2.0986571311950684, |
|
"learning_rate": 0.0014333333333333333, |
|
"loss": 1.9432, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 57.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 5.271793842315674, |
|
"eval_runtime": 1.0742, |
|
"eval_samples_per_second": 93.091, |
|
"eval_steps_per_second": 93.091, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 57.1, |
|
"grad_norm": 1.7047914266586304, |
|
"learning_rate": 0.00143, |
|
"loss": 1.681, |
|
"step": 5710 |
|
}, |
|
{ |
|
"epoch": 57.2, |
|
"grad_norm": 5.937868595123291, |
|
"learning_rate": 0.0014266666666666668, |
|
"loss": 1.9401, |
|
"step": 5720 |
|
}, |
|
{ |
|
"epoch": 57.3, |
|
"grad_norm": 2.155251979827881, |
|
"learning_rate": 0.0014233333333333333, |
|
"loss": 1.7128, |
|
"step": 5730 |
|
}, |
|
{ |
|
"epoch": 57.4, |
|
"grad_norm": 3.07235050201416, |
|
"learning_rate": 0.00142, |
|
"loss": 1.6452, |
|
"step": 5740 |
|
}, |
|
{ |
|
"epoch": 57.5, |
|
"grad_norm": 3.241396427154541, |
|
"learning_rate": 0.0014166666666666666, |
|
"loss": 1.5336, |
|
"step": 5750 |
|
}, |
|
{ |
|
"epoch": 57.6, |
|
"grad_norm": 2.2947235107421875, |
|
"learning_rate": 0.0014133333333333333, |
|
"loss": 1.8406, |
|
"step": 5760 |
|
}, |
|
{ |
|
"epoch": 57.7, |
|
"grad_norm": 3.67720627784729, |
|
"learning_rate": 0.00141, |
|
"loss": 1.8698, |
|
"step": 5770 |
|
}, |
|
{ |
|
"epoch": 57.8, |
|
"grad_norm": 4.078272342681885, |
|
"learning_rate": 0.0014066666666666667, |
|
"loss": 1.7784, |
|
"step": 5780 |
|
}, |
|
{ |
|
"epoch": 57.9, |
|
"grad_norm": 5.352456569671631, |
|
"learning_rate": 0.0014033333333333335, |
|
"loss": 2.0788, |
|
"step": 5790 |
|
}, |
|
{ |
|
"epoch": 58.0, |
|
"grad_norm": 2.5838003158569336, |
|
"learning_rate": 0.0014, |
|
"loss": 1.7713, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 58.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 12.331060409545898, |
|
"eval_runtime": 1.0626, |
|
"eval_samples_per_second": 94.11, |
|
"eval_steps_per_second": 94.11, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 58.1, |
|
"grad_norm": 1.693384051322937, |
|
"learning_rate": 0.0013966666666666667, |
|
"loss": 1.656, |
|
"step": 5810 |
|
}, |
|
{ |
|
"epoch": 58.2, |
|
"grad_norm": 3.3912696838378906, |
|
"learning_rate": 0.0013933333333333334, |
|
"loss": 1.7021, |
|
"step": 5820 |
|
}, |
|
{ |
|
"epoch": 58.3, |
|
"grad_norm": 8.783439636230469, |
|
"learning_rate": 0.00139, |
|
"loss": 1.9102, |
|
"step": 5830 |
|
}, |
|
{ |
|
"epoch": 58.4, |
|
"grad_norm": 3.9075992107391357, |
|
"learning_rate": 0.0013866666666666667, |
|
"loss": 1.8775, |
|
"step": 5840 |
|
}, |
|
{ |
|
"epoch": 58.5, |
|
"grad_norm": 2.6207642555236816, |
|
"learning_rate": 0.0013833333333333334, |
|
"loss": 1.912, |
|
"step": 5850 |
|
}, |
|
{ |
|
"epoch": 58.6, |
|
"grad_norm": 1.5650824308395386, |
|
"learning_rate": 0.0013800000000000002, |
|
"loss": 1.8781, |
|
"step": 5860 |
|
}, |
|
{ |
|
"epoch": 58.7, |
|
"grad_norm": 1.5719467401504517, |
|
"learning_rate": 0.0013766666666666667, |
|
"loss": 1.7996, |
|
"step": 5870 |
|
}, |
|
{ |
|
"epoch": 58.8, |
|
"grad_norm": 2.2166717052459717, |
|
"learning_rate": 0.0013733333333333334, |
|
"loss": 2.0769, |
|
"step": 5880 |
|
}, |
|
{ |
|
"epoch": 58.9, |
|
"grad_norm": 4.164362907409668, |
|
"learning_rate": 0.0013700000000000001, |
|
"loss": 1.8052, |
|
"step": 5890 |
|
}, |
|
{ |
|
"epoch": 59.0, |
|
"grad_norm": 2.1572577953338623, |
|
"learning_rate": 0.0013666666666666666, |
|
"loss": 1.6786, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 59.0, |
|
"eval_accuracy": 0.07, |
|
"eval_loss": 7.159940719604492, |
|
"eval_runtime": 1.1908, |
|
"eval_samples_per_second": 83.98, |
|
"eval_steps_per_second": 83.98, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 59.1, |
|
"grad_norm": 1.205863356590271, |
|
"learning_rate": 0.0013633333333333334, |
|
"loss": 1.7847, |
|
"step": 5910 |
|
}, |
|
{ |
|
"epoch": 59.2, |
|
"grad_norm": 6.159766674041748, |
|
"learning_rate": 0.0013599999999999999, |
|
"loss": 1.816, |
|
"step": 5920 |
|
}, |
|
{ |
|
"epoch": 59.3, |
|
"grad_norm": 2.290241003036499, |
|
"learning_rate": 0.0013566666666666668, |
|
"loss": 1.8227, |
|
"step": 5930 |
|
}, |
|
{ |
|
"epoch": 59.4, |
|
"grad_norm": 5.219218730926514, |
|
"learning_rate": 0.0013533333333333333, |
|
"loss": 1.6421, |
|
"step": 5940 |
|
}, |
|
{ |
|
"epoch": 59.5, |
|
"grad_norm": 8.509394645690918, |
|
"learning_rate": 0.00135, |
|
"loss": 1.7888, |
|
"step": 5950 |
|
}, |
|
{ |
|
"epoch": 59.6, |
|
"grad_norm": 3.8931479454040527, |
|
"learning_rate": 0.0013466666666666668, |
|
"loss": 1.7724, |
|
"step": 5960 |
|
}, |
|
{ |
|
"epoch": 59.7, |
|
"grad_norm": 2.035557270050049, |
|
"learning_rate": 0.0013433333333333333, |
|
"loss": 1.8974, |
|
"step": 5970 |
|
}, |
|
{ |
|
"epoch": 59.8, |
|
"grad_norm": 1.344543695449829, |
|
"learning_rate": 0.00134, |
|
"loss": 1.7593, |
|
"step": 5980 |
|
}, |
|
{ |
|
"epoch": 59.9, |
|
"grad_norm": 5.597288131713867, |
|
"learning_rate": 0.0013366666666666666, |
|
"loss": 1.7556, |
|
"step": 5990 |
|
}, |
|
{ |
|
"epoch": 60.0, |
|
"grad_norm": 5.034604072570801, |
|
"learning_rate": 0.0013333333333333333, |
|
"loss": 1.5969, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 60.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 6.086874485015869, |
|
"eval_runtime": 1.0697, |
|
"eval_samples_per_second": 93.482, |
|
"eval_steps_per_second": 93.482, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 60.1, |
|
"grad_norm": 2.9675891399383545, |
|
"learning_rate": 0.00133, |
|
"loss": 1.8271, |
|
"step": 6010 |
|
}, |
|
{ |
|
"epoch": 60.2, |
|
"grad_norm": 1.6982274055480957, |
|
"learning_rate": 0.0013266666666666667, |
|
"loss": 1.9085, |
|
"step": 6020 |
|
}, |
|
{ |
|
"epoch": 60.3, |
|
"grad_norm": 4.639615058898926, |
|
"learning_rate": 0.0013233333333333335, |
|
"loss": 1.9669, |
|
"step": 6030 |
|
}, |
|
{ |
|
"epoch": 60.4, |
|
"grad_norm": 2.2657480239868164, |
|
"learning_rate": 0.00132, |
|
"loss": 1.7925, |
|
"step": 6040 |
|
}, |
|
{ |
|
"epoch": 60.5, |
|
"grad_norm": 3.4637887477874756, |
|
"learning_rate": 0.0013166666666666667, |
|
"loss": 1.7884, |
|
"step": 6050 |
|
}, |
|
{ |
|
"epoch": 60.6, |
|
"grad_norm": 3.210871458053589, |
|
"learning_rate": 0.0013133333333333332, |
|
"loss": 1.6961, |
|
"step": 6060 |
|
}, |
|
{ |
|
"epoch": 60.7, |
|
"grad_norm": 2.510930299758911, |
|
"learning_rate": 0.00131, |
|
"loss": 1.6188, |
|
"step": 6070 |
|
}, |
|
{ |
|
"epoch": 60.8, |
|
"grad_norm": 2.0399868488311768, |
|
"learning_rate": 0.0013066666666666667, |
|
"loss": 1.8597, |
|
"step": 6080 |
|
}, |
|
{ |
|
"epoch": 60.9, |
|
"grad_norm": 1.6324414014816284, |
|
"learning_rate": 0.0013033333333333334, |
|
"loss": 1.6643, |
|
"step": 6090 |
|
}, |
|
{ |
|
"epoch": 61.0, |
|
"grad_norm": 2.4083755016326904, |
|
"learning_rate": 0.0013000000000000002, |
|
"loss": 1.8203, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 61.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 8.8250093460083, |
|
"eval_runtime": 1.051, |
|
"eval_samples_per_second": 95.147, |
|
"eval_steps_per_second": 95.147, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 61.1, |
|
"grad_norm": 1.6598178148269653, |
|
"learning_rate": 0.0012966666666666667, |
|
"loss": 1.5858, |
|
"step": 6110 |
|
}, |
|
{ |
|
"epoch": 61.2, |
|
"grad_norm": 4.348021507263184, |
|
"learning_rate": 0.0012933333333333334, |
|
"loss": 1.7923, |
|
"step": 6120 |
|
}, |
|
{ |
|
"epoch": 61.3, |
|
"grad_norm": 6.4413065910339355, |
|
"learning_rate": 0.00129, |
|
"loss": 1.825, |
|
"step": 6130 |
|
}, |
|
{ |
|
"epoch": 61.4, |
|
"grad_norm": 4.386123180389404, |
|
"learning_rate": 0.0012866666666666666, |
|
"loss": 1.6292, |
|
"step": 6140 |
|
}, |
|
{ |
|
"epoch": 61.5, |
|
"grad_norm": 3.1433169841766357, |
|
"learning_rate": 0.0012833333333333334, |
|
"loss": 1.8375, |
|
"step": 6150 |
|
}, |
|
{ |
|
"epoch": 61.6, |
|
"grad_norm": 2.4346671104431152, |
|
"learning_rate": 0.00128, |
|
"loss": 1.5983, |
|
"step": 6160 |
|
}, |
|
{ |
|
"epoch": 61.7, |
|
"grad_norm": 3.656344175338745, |
|
"learning_rate": 0.0012766666666666668, |
|
"loss": 1.8365, |
|
"step": 6170 |
|
}, |
|
{ |
|
"epoch": 61.8, |
|
"grad_norm": 2.8191497325897217, |
|
"learning_rate": 0.0012733333333333333, |
|
"loss": 2.0172, |
|
"step": 6180 |
|
}, |
|
{ |
|
"epoch": 61.9, |
|
"grad_norm": 2.2086052894592285, |
|
"learning_rate": 0.00127, |
|
"loss": 1.7998, |
|
"step": 6190 |
|
}, |
|
{ |
|
"epoch": 62.0, |
|
"grad_norm": 4.561169624328613, |
|
"learning_rate": 0.0012666666666666666, |
|
"loss": 1.7148, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 62.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 19.09418296813965, |
|
"eval_runtime": 1.0612, |
|
"eval_samples_per_second": 94.23, |
|
"eval_steps_per_second": 94.23, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 62.1, |
|
"grad_norm": 4.611867427825928, |
|
"learning_rate": 0.0012633333333333333, |
|
"loss": 1.6205, |
|
"step": 6210 |
|
}, |
|
{ |
|
"epoch": 62.2, |
|
"grad_norm": 3.4768471717834473, |
|
"learning_rate": 0.00126, |
|
"loss": 1.6133, |
|
"step": 6220 |
|
}, |
|
{ |
|
"epoch": 62.3, |
|
"grad_norm": 2.2685697078704834, |
|
"learning_rate": 0.0012566666666666666, |
|
"loss": 1.7809, |
|
"step": 6230 |
|
}, |
|
{ |
|
"epoch": 62.4, |
|
"grad_norm": 3.6047987937927246, |
|
"learning_rate": 0.0012533333333333335, |
|
"loss": 1.9889, |
|
"step": 6240 |
|
}, |
|
{ |
|
"epoch": 62.5, |
|
"grad_norm": 2.9026410579681396, |
|
"learning_rate": 0.00125, |
|
"loss": 1.614, |
|
"step": 6250 |
|
}, |
|
{ |
|
"epoch": 62.6, |
|
"grad_norm": 3.42441463470459, |
|
"learning_rate": 0.0012466666666666668, |
|
"loss": 1.9557, |
|
"step": 6260 |
|
}, |
|
{ |
|
"epoch": 62.7, |
|
"grad_norm": 3.3376829624176025, |
|
"learning_rate": 0.0012433333333333333, |
|
"loss": 1.8862, |
|
"step": 6270 |
|
}, |
|
{ |
|
"epoch": 62.8, |
|
"grad_norm": 2.4634463787078857, |
|
"learning_rate": 0.00124, |
|
"loss": 1.9031, |
|
"step": 6280 |
|
}, |
|
{ |
|
"epoch": 62.9, |
|
"grad_norm": 9.028009414672852, |
|
"learning_rate": 0.0012366666666666667, |
|
"loss": 1.9382, |
|
"step": 6290 |
|
}, |
|
{ |
|
"epoch": 63.0, |
|
"grad_norm": 2.2906558513641357, |
|
"learning_rate": 0.0012333333333333332, |
|
"loss": 1.6627, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 63.0, |
|
"eval_accuracy": 0.16, |
|
"eval_loss": 12.432879447937012, |
|
"eval_runtime": 1.0588, |
|
"eval_samples_per_second": 94.443, |
|
"eval_steps_per_second": 94.443, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 63.1, |
|
"grad_norm": 4.561711311340332, |
|
"learning_rate": 0.00123, |
|
"loss": 1.9666, |
|
"step": 6310 |
|
}, |
|
{ |
|
"epoch": 63.2, |
|
"grad_norm": 2.848632574081421, |
|
"learning_rate": 0.0012266666666666667, |
|
"loss": 1.6077, |
|
"step": 6320 |
|
}, |
|
{ |
|
"epoch": 63.3, |
|
"grad_norm": 2.1941840648651123, |
|
"learning_rate": 0.0012233333333333334, |
|
"loss": 1.7677, |
|
"step": 6330 |
|
}, |
|
{ |
|
"epoch": 63.4, |
|
"grad_norm": 2.9569039344787598, |
|
"learning_rate": 0.00122, |
|
"loss": 1.6422, |
|
"step": 6340 |
|
}, |
|
{ |
|
"epoch": 63.5, |
|
"grad_norm": 3.4558959007263184, |
|
"learning_rate": 0.0012166666666666667, |
|
"loss": 1.6658, |
|
"step": 6350 |
|
}, |
|
{ |
|
"epoch": 63.6, |
|
"grad_norm": 5.855868339538574, |
|
"learning_rate": 0.0012133333333333334, |
|
"loss": 1.6206, |
|
"step": 6360 |
|
}, |
|
{ |
|
"epoch": 63.7, |
|
"grad_norm": 4.387974739074707, |
|
"learning_rate": 0.00121, |
|
"loss": 1.7873, |
|
"step": 6370 |
|
}, |
|
{ |
|
"epoch": 63.8, |
|
"grad_norm": 2.80942440032959, |
|
"learning_rate": 0.0012066666666666667, |
|
"loss": 1.5393, |
|
"step": 6380 |
|
}, |
|
{ |
|
"epoch": 63.9, |
|
"grad_norm": 10.336448669433594, |
|
"learning_rate": 0.0012033333333333334, |
|
"loss": 1.7802, |
|
"step": 6390 |
|
}, |
|
{ |
|
"epoch": 64.0, |
|
"grad_norm": 21.694013595581055, |
|
"learning_rate": 0.0012000000000000001, |
|
"loss": 1.7134, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 64.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 5.5367112159729, |
|
"eval_runtime": 1.0569, |
|
"eval_samples_per_second": 94.621, |
|
"eval_steps_per_second": 94.621, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 64.1, |
|
"grad_norm": 7.776865482330322, |
|
"learning_rate": 0.0011966666666666668, |
|
"loss": 1.8706, |
|
"step": 6410 |
|
}, |
|
{ |
|
"epoch": 64.2, |
|
"grad_norm": 14.169696807861328, |
|
"learning_rate": 0.0011933333333333334, |
|
"loss": 1.7689, |
|
"step": 6420 |
|
}, |
|
{ |
|
"epoch": 64.3, |
|
"grad_norm": 3.2558820247650146, |
|
"learning_rate": 0.00119, |
|
"loss": 1.6053, |
|
"step": 6430 |
|
}, |
|
{ |
|
"epoch": 64.4, |
|
"grad_norm": 4.6091227531433105, |
|
"learning_rate": 0.0011866666666666666, |
|
"loss": 1.791, |
|
"step": 6440 |
|
}, |
|
{ |
|
"epoch": 64.5, |
|
"grad_norm": 6.979178428649902, |
|
"learning_rate": 0.0011833333333333333, |
|
"loss": 1.9051, |
|
"step": 6450 |
|
}, |
|
{ |
|
"epoch": 64.6, |
|
"grad_norm": 1.6859291791915894, |
|
"learning_rate": 0.00118, |
|
"loss": 1.8669, |
|
"step": 6460 |
|
}, |
|
{ |
|
"epoch": 64.7, |
|
"grad_norm": 4.330698013305664, |
|
"learning_rate": 0.0011766666666666668, |
|
"loss": 1.9325, |
|
"step": 6470 |
|
}, |
|
{ |
|
"epoch": 64.8, |
|
"grad_norm": 4.015768051147461, |
|
"learning_rate": 0.0011733333333333335, |
|
"loss": 1.7841, |
|
"step": 6480 |
|
}, |
|
{ |
|
"epoch": 64.9, |
|
"grad_norm": 3.9391236305236816, |
|
"learning_rate": 0.00117, |
|
"loss": 1.7528, |
|
"step": 6490 |
|
}, |
|
{ |
|
"epoch": 65.0, |
|
"grad_norm": 3.1160061359405518, |
|
"learning_rate": 0.0011666666666666668, |
|
"loss": 1.8841, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 65.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 9.123879432678223, |
|
"eval_runtime": 1.0581, |
|
"eval_samples_per_second": 94.508, |
|
"eval_steps_per_second": 94.508, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 65.1, |
|
"grad_norm": 3.9809041023254395, |
|
"learning_rate": 0.0011633333333333333, |
|
"loss": 1.764, |
|
"step": 6510 |
|
}, |
|
{ |
|
"epoch": 65.2, |
|
"grad_norm": 11.246681213378906, |
|
"learning_rate": 0.00116, |
|
"loss": 1.6808, |
|
"step": 6520 |
|
}, |
|
{ |
|
"epoch": 65.3, |
|
"grad_norm": 5.164696216583252, |
|
"learning_rate": 0.0011566666666666667, |
|
"loss": 1.6472, |
|
"step": 6530 |
|
}, |
|
{ |
|
"epoch": 65.4, |
|
"grad_norm": 2.7872653007507324, |
|
"learning_rate": 0.0011533333333333333, |
|
"loss": 2.0198, |
|
"step": 6540 |
|
}, |
|
{ |
|
"epoch": 65.5, |
|
"grad_norm": 7.56327486038208, |
|
"learning_rate": 0.0011500000000000002, |
|
"loss": 1.929, |
|
"step": 6550 |
|
}, |
|
{ |
|
"epoch": 65.6, |
|
"grad_norm": 4.878328323364258, |
|
"learning_rate": 0.0011466666666666667, |
|
"loss": 1.6768, |
|
"step": 6560 |
|
}, |
|
{ |
|
"epoch": 65.7, |
|
"grad_norm": 3.8029422760009766, |
|
"learning_rate": 0.0011433333333333334, |
|
"loss": 1.8311, |
|
"step": 6570 |
|
}, |
|
{ |
|
"epoch": 65.8, |
|
"grad_norm": 7.969758987426758, |
|
"learning_rate": 0.00114, |
|
"loss": 1.6823, |
|
"step": 6580 |
|
}, |
|
{ |
|
"epoch": 65.9, |
|
"grad_norm": 5.031340599060059, |
|
"learning_rate": 0.0011366666666666667, |
|
"loss": 1.6746, |
|
"step": 6590 |
|
}, |
|
{ |
|
"epoch": 66.0, |
|
"grad_norm": 2.8956708908081055, |
|
"learning_rate": 0.0011333333333333334, |
|
"loss": 1.6822, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 66.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 9.47188663482666, |
|
"eval_runtime": 1.0551, |
|
"eval_samples_per_second": 94.777, |
|
"eval_steps_per_second": 94.777, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 66.1, |
|
"grad_norm": 4.6317219734191895, |
|
"learning_rate": 0.00113, |
|
"loss": 1.7943, |
|
"step": 6610 |
|
}, |
|
{ |
|
"epoch": 66.2, |
|
"grad_norm": 3.1285109519958496, |
|
"learning_rate": 0.0011266666666666667, |
|
"loss": 1.8415, |
|
"step": 6620 |
|
}, |
|
{ |
|
"epoch": 66.3, |
|
"grad_norm": 6.469768524169922, |
|
"learning_rate": 0.0011233333333333334, |
|
"loss": 1.6691, |
|
"step": 6630 |
|
}, |
|
{ |
|
"epoch": 66.4, |
|
"grad_norm": 5.166152477264404, |
|
"learning_rate": 0.0011200000000000001, |
|
"loss": 1.92, |
|
"step": 6640 |
|
}, |
|
{ |
|
"epoch": 66.5, |
|
"grad_norm": 6.086921691894531, |
|
"learning_rate": 0.0011166666666666666, |
|
"loss": 1.9099, |
|
"step": 6650 |
|
}, |
|
{ |
|
"epoch": 66.6, |
|
"grad_norm": 3.934988021850586, |
|
"learning_rate": 0.0011133333333333334, |
|
"loss": 1.6313, |
|
"step": 6660 |
|
}, |
|
{ |
|
"epoch": 66.7, |
|
"grad_norm": 6.046359539031982, |
|
"learning_rate": 0.00111, |
|
"loss": 1.9824, |
|
"step": 6670 |
|
}, |
|
{ |
|
"epoch": 66.8, |
|
"grad_norm": 5.090197563171387, |
|
"learning_rate": 0.0011066666666666666, |
|
"loss": 1.9741, |
|
"step": 6680 |
|
}, |
|
{ |
|
"epoch": 66.9, |
|
"grad_norm": 9.034990310668945, |
|
"learning_rate": 0.0011033333333333333, |
|
"loss": 1.933, |
|
"step": 6690 |
|
}, |
|
{ |
|
"epoch": 67.0, |
|
"grad_norm": 7.297842979431152, |
|
"learning_rate": 0.0010999999999999998, |
|
"loss": 1.8892, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 67.0, |
|
"eval_accuracy": 0.09, |
|
"eval_loss": 5.6084208488464355, |
|
"eval_runtime": 1.1978, |
|
"eval_samples_per_second": 83.488, |
|
"eval_steps_per_second": 83.488, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 67.1, |
|
"grad_norm": 3.469296932220459, |
|
"learning_rate": 0.0010966666666666668, |
|
"loss": 1.7137, |
|
"step": 6710 |
|
}, |
|
{ |
|
"epoch": 67.2, |
|
"grad_norm": 2.396622657775879, |
|
"learning_rate": 0.0010933333333333333, |
|
"loss": 1.8015, |
|
"step": 6720 |
|
}, |
|
{ |
|
"epoch": 67.3, |
|
"grad_norm": 2.852924108505249, |
|
"learning_rate": 0.00109, |
|
"loss": 1.8604, |
|
"step": 6730 |
|
}, |
|
{ |
|
"epoch": 67.4, |
|
"grad_norm": 5.766210079193115, |
|
"learning_rate": 0.0010866666666666668, |
|
"loss": 1.5306, |
|
"step": 6740 |
|
}, |
|
{ |
|
"epoch": 67.5, |
|
"grad_norm": 3.4486300945281982, |
|
"learning_rate": 0.0010833333333333333, |
|
"loss": 1.797, |
|
"step": 6750 |
|
}, |
|
{ |
|
"epoch": 67.6, |
|
"grad_norm": 5.261917591094971, |
|
"learning_rate": 0.00108, |
|
"loss": 1.9502, |
|
"step": 6760 |
|
}, |
|
{ |
|
"epoch": 67.7, |
|
"grad_norm": 4.059861660003662, |
|
"learning_rate": 0.0010766666666666665, |
|
"loss": 1.6326, |
|
"step": 6770 |
|
}, |
|
{ |
|
"epoch": 67.8, |
|
"grad_norm": 10.135790824890137, |
|
"learning_rate": 0.0010733333333333333, |
|
"loss": 1.7233, |
|
"step": 6780 |
|
}, |
|
{ |
|
"epoch": 67.9, |
|
"grad_norm": 2.4787628650665283, |
|
"learning_rate": 0.00107, |
|
"loss": 1.8985, |
|
"step": 6790 |
|
}, |
|
{ |
|
"epoch": 68.0, |
|
"grad_norm": 2.303790807723999, |
|
"learning_rate": 0.0010666666666666667, |
|
"loss": 1.72, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 68.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 8.785449028015137, |
|
"eval_runtime": 1.0541, |
|
"eval_samples_per_second": 94.863, |
|
"eval_steps_per_second": 94.863, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 68.1, |
|
"grad_norm": 3.1279687881469727, |
|
"learning_rate": 0.0010633333333333334, |
|
"loss": 1.8552, |
|
"step": 6810 |
|
}, |
|
{ |
|
"epoch": 68.2, |
|
"grad_norm": 4.668986797332764, |
|
"learning_rate": 0.00106, |
|
"loss": 1.9791, |
|
"step": 6820 |
|
}, |
|
{ |
|
"epoch": 68.3, |
|
"grad_norm": 7.474461555480957, |
|
"learning_rate": 0.0010566666666666667, |
|
"loss": 1.7152, |
|
"step": 6830 |
|
}, |
|
{ |
|
"epoch": 68.4, |
|
"grad_norm": 10.475133895874023, |
|
"learning_rate": 0.0010533333333333332, |
|
"loss": 1.6101, |
|
"step": 6840 |
|
}, |
|
{ |
|
"epoch": 68.5, |
|
"grad_norm": 4.837385177612305, |
|
"learning_rate": 0.00105, |
|
"loss": 1.6287, |
|
"step": 6850 |
|
}, |
|
{ |
|
"epoch": 68.6, |
|
"grad_norm": 4.027728080749512, |
|
"learning_rate": 0.0010466666666666667, |
|
"loss": 1.5433, |
|
"step": 6860 |
|
}, |
|
{ |
|
"epoch": 68.7, |
|
"grad_norm": 2.9774222373962402, |
|
"learning_rate": 0.0010433333333333334, |
|
"loss": 1.7617, |
|
"step": 6870 |
|
}, |
|
{ |
|
"epoch": 68.8, |
|
"grad_norm": 2.145850896835327, |
|
"learning_rate": 0.0010400000000000001, |
|
"loss": 1.7691, |
|
"step": 6880 |
|
}, |
|
{ |
|
"epoch": 68.9, |
|
"grad_norm": 2.6644954681396484, |
|
"learning_rate": 0.0010366666666666666, |
|
"loss": 1.5255, |
|
"step": 6890 |
|
}, |
|
{ |
|
"epoch": 69.0, |
|
"grad_norm": 5.641127109527588, |
|
"learning_rate": 0.0010333333333333334, |
|
"loss": 1.8751, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 69.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 7.557100296020508, |
|
"eval_runtime": 1.0515, |
|
"eval_samples_per_second": 95.106, |
|
"eval_steps_per_second": 95.106, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 69.1, |
|
"grad_norm": 2.8334310054779053, |
|
"learning_rate": 0.00103, |
|
"loss": 1.7977, |
|
"step": 6910 |
|
}, |
|
{ |
|
"epoch": 69.2, |
|
"grad_norm": 12.787999153137207, |
|
"learning_rate": 0.0010266666666666666, |
|
"loss": 1.8188, |
|
"step": 6920 |
|
}, |
|
{ |
|
"epoch": 69.3, |
|
"grad_norm": 2.3438947200775146, |
|
"learning_rate": 0.0010233333333333333, |
|
"loss": 2.0413, |
|
"step": 6930 |
|
}, |
|
{ |
|
"epoch": 69.4, |
|
"grad_norm": 5.885900497436523, |
|
"learning_rate": 0.00102, |
|
"loss": 1.6987, |
|
"step": 6940 |
|
}, |
|
{ |
|
"epoch": 69.5, |
|
"grad_norm": 2.3748180866241455, |
|
"learning_rate": 0.0010166666666666668, |
|
"loss": 1.8382, |
|
"step": 6950 |
|
}, |
|
{ |
|
"epoch": 69.6, |
|
"grad_norm": 7.499560832977295, |
|
"learning_rate": 0.0010133333333333333, |
|
"loss": 1.7506, |
|
"step": 6960 |
|
}, |
|
{ |
|
"epoch": 69.7, |
|
"grad_norm": 4.706414699554443, |
|
"learning_rate": 0.00101, |
|
"loss": 1.8361, |
|
"step": 6970 |
|
}, |
|
{ |
|
"epoch": 69.8, |
|
"grad_norm": 2.492842435836792, |
|
"learning_rate": 0.0010066666666666668, |
|
"loss": 1.5254, |
|
"step": 6980 |
|
}, |
|
{ |
|
"epoch": 69.9, |
|
"grad_norm": 4.535306453704834, |
|
"learning_rate": 0.0010033333333333333, |
|
"loss": 1.7066, |
|
"step": 6990 |
|
}, |
|
{ |
|
"epoch": 70.0, |
|
"grad_norm": 2.8552052974700928, |
|
"learning_rate": 0.001, |
|
"loss": 1.3783, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 70.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 11.632137298583984, |
|
"eval_runtime": 1.069, |
|
"eval_samples_per_second": 93.543, |
|
"eval_steps_per_second": 93.543, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 70.1, |
|
"grad_norm": 6.145552635192871, |
|
"learning_rate": 0.0009966666666666665, |
|
"loss": 1.6017, |
|
"step": 7010 |
|
}, |
|
{ |
|
"epoch": 70.2, |
|
"grad_norm": 7.590050220489502, |
|
"learning_rate": 0.0009933333333333335, |
|
"loss": 1.8784, |
|
"step": 7020 |
|
}, |
|
{ |
|
"epoch": 70.3, |
|
"grad_norm": 3.6232712268829346, |
|
"learning_rate": 0.00099, |
|
"loss": 1.8348, |
|
"step": 7030 |
|
}, |
|
{ |
|
"epoch": 70.4, |
|
"grad_norm": 2.6301445960998535, |
|
"learning_rate": 0.0009866666666666667, |
|
"loss": 1.7113, |
|
"step": 7040 |
|
}, |
|
{ |
|
"epoch": 70.5, |
|
"grad_norm": 3.045260190963745, |
|
"learning_rate": 0.0009833333333333335, |
|
"loss": 1.6724, |
|
"step": 7050 |
|
}, |
|
{ |
|
"epoch": 70.6, |
|
"grad_norm": 5.87871789932251, |
|
"learning_rate": 0.00098, |
|
"loss": 1.8135, |
|
"step": 7060 |
|
}, |
|
{ |
|
"epoch": 70.7, |
|
"grad_norm": 4.545201301574707, |
|
"learning_rate": 0.0009766666666666667, |
|
"loss": 1.8561, |
|
"step": 7070 |
|
}, |
|
{ |
|
"epoch": 70.8, |
|
"grad_norm": 3.054288387298584, |
|
"learning_rate": 0.0009733333333333333, |
|
"loss": 1.6729, |
|
"step": 7080 |
|
}, |
|
{ |
|
"epoch": 70.9, |
|
"grad_norm": 12.367476463317871, |
|
"learning_rate": 0.0009699999999999999, |
|
"loss": 1.6861, |
|
"step": 7090 |
|
}, |
|
{ |
|
"epoch": 71.0, |
|
"grad_norm": 3.18570876121521, |
|
"learning_rate": 0.0009666666666666668, |
|
"loss": 1.6403, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 71.0, |
|
"eval_accuracy": 0.15, |
|
"eval_loss": 7.535396099090576, |
|
"eval_runtime": 1.0543, |
|
"eval_samples_per_second": 94.854, |
|
"eval_steps_per_second": 94.854, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 71.1, |
|
"grad_norm": 2.6936404705047607, |
|
"learning_rate": 0.0009633333333333334, |
|
"loss": 1.3978, |
|
"step": 7110 |
|
}, |
|
{ |
|
"epoch": 71.2, |
|
"grad_norm": 3.251457691192627, |
|
"learning_rate": 0.00096, |
|
"loss": 1.8723, |
|
"step": 7120 |
|
}, |
|
{ |
|
"epoch": 71.3, |
|
"grad_norm": 2.816524028778076, |
|
"learning_rate": 0.0009566666666666666, |
|
"loss": 1.7214, |
|
"step": 7130 |
|
}, |
|
{ |
|
"epoch": 71.4, |
|
"grad_norm": 2.786759376525879, |
|
"learning_rate": 0.0009533333333333334, |
|
"loss": 1.767, |
|
"step": 7140 |
|
}, |
|
{ |
|
"epoch": 71.5, |
|
"grad_norm": 6.929011344909668, |
|
"learning_rate": 0.00095, |
|
"loss": 1.7563, |
|
"step": 7150 |
|
}, |
|
{ |
|
"epoch": 71.6, |
|
"grad_norm": 2.660970687866211, |
|
"learning_rate": 0.0009466666666666666, |
|
"loss": 1.6773, |
|
"step": 7160 |
|
}, |
|
{ |
|
"epoch": 71.7, |
|
"grad_norm": 1.6034671068191528, |
|
"learning_rate": 0.0009433333333333335, |
|
"loss": 1.6503, |
|
"step": 7170 |
|
}, |
|
{ |
|
"epoch": 71.8, |
|
"grad_norm": 4.475321292877197, |
|
"learning_rate": 0.0009400000000000001, |
|
"loss": 1.7623, |
|
"step": 7180 |
|
}, |
|
{ |
|
"epoch": 71.9, |
|
"grad_norm": 9.990358352661133, |
|
"learning_rate": 0.0009366666666666667, |
|
"loss": 1.8783, |
|
"step": 7190 |
|
}, |
|
{ |
|
"epoch": 72.0, |
|
"grad_norm": 2.7688100337982178, |
|
"learning_rate": 0.0009333333333333333, |
|
"loss": 2.087, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 72.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 13.724778175354004, |
|
"eval_runtime": 1.1925, |
|
"eval_samples_per_second": 83.856, |
|
"eval_steps_per_second": 83.856, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 72.1, |
|
"grad_norm": 6.561435222625732, |
|
"learning_rate": 0.00093, |
|
"loss": 1.7217, |
|
"step": 7210 |
|
}, |
|
{ |
|
"epoch": 72.2, |
|
"grad_norm": 8.489799499511719, |
|
"learning_rate": 0.0009266666666666667, |
|
"loss": 1.7632, |
|
"step": 7220 |
|
}, |
|
{ |
|
"epoch": 72.3, |
|
"grad_norm": 3.9238219261169434, |
|
"learning_rate": 0.0009233333333333333, |
|
"loss": 1.5581, |
|
"step": 7230 |
|
}, |
|
{ |
|
"epoch": 72.4, |
|
"grad_norm": 9.072147369384766, |
|
"learning_rate": 0.0009199999999999999, |
|
"loss": 1.7184, |
|
"step": 7240 |
|
}, |
|
{ |
|
"epoch": 72.5, |
|
"grad_norm": 2.1611063480377197, |
|
"learning_rate": 0.0009166666666666668, |
|
"loss": 1.6369, |
|
"step": 7250 |
|
}, |
|
{ |
|
"epoch": 72.6, |
|
"grad_norm": 3.966249465942383, |
|
"learning_rate": 0.0009133333333333334, |
|
"loss": 1.6756, |
|
"step": 7260 |
|
}, |
|
{ |
|
"epoch": 72.7, |
|
"grad_norm": 3.660193681716919, |
|
"learning_rate": 0.00091, |
|
"loss": 1.9866, |
|
"step": 7270 |
|
}, |
|
{ |
|
"epoch": 72.8, |
|
"grad_norm": 4.286670207977295, |
|
"learning_rate": 0.0009066666666666667, |
|
"loss": 1.5526, |
|
"step": 7280 |
|
}, |
|
{ |
|
"epoch": 72.9, |
|
"grad_norm": 1.2461152076721191, |
|
"learning_rate": 0.0009033333333333334, |
|
"loss": 1.7805, |
|
"step": 7290 |
|
}, |
|
{ |
|
"epoch": 73.0, |
|
"grad_norm": 8.252983093261719, |
|
"learning_rate": 0.0009, |
|
"loss": 1.6402, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 73.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 5.488311290740967, |
|
"eval_runtime": 1.0685, |
|
"eval_samples_per_second": 93.589, |
|
"eval_steps_per_second": 93.589, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 73.1, |
|
"grad_norm": 3.1921186447143555, |
|
"learning_rate": 0.0008966666666666666, |
|
"loss": 1.9004, |
|
"step": 7310 |
|
}, |
|
{ |
|
"epoch": 73.2, |
|
"grad_norm": 2.0873894691467285, |
|
"learning_rate": 0.0008933333333333333, |
|
"loss": 1.6618, |
|
"step": 7320 |
|
}, |
|
{ |
|
"epoch": 73.3, |
|
"grad_norm": 6.314571857452393, |
|
"learning_rate": 0.0008900000000000001, |
|
"loss": 1.5235, |
|
"step": 7330 |
|
}, |
|
{ |
|
"epoch": 73.4, |
|
"grad_norm": 1.6767210960388184, |
|
"learning_rate": 0.0008866666666666667, |
|
"loss": 1.598, |
|
"step": 7340 |
|
}, |
|
{ |
|
"epoch": 73.5, |
|
"grad_norm": 4.818593978881836, |
|
"learning_rate": 0.0008833333333333334, |
|
"loss": 1.9167, |
|
"step": 7350 |
|
}, |
|
{ |
|
"epoch": 73.6, |
|
"grad_norm": 8.4752197265625, |
|
"learning_rate": 0.00088, |
|
"loss": 1.9592, |
|
"step": 7360 |
|
}, |
|
{ |
|
"epoch": 73.7, |
|
"grad_norm": 3.359546422958374, |
|
"learning_rate": 0.0008766666666666667, |
|
"loss": 1.8852, |
|
"step": 7370 |
|
}, |
|
{ |
|
"epoch": 73.8, |
|
"grad_norm": 4.165343284606934, |
|
"learning_rate": 0.0008733333333333333, |
|
"loss": 1.6093, |
|
"step": 7380 |
|
}, |
|
{ |
|
"epoch": 73.9, |
|
"grad_norm": 3.540891647338867, |
|
"learning_rate": 0.00087, |
|
"loss": 1.6096, |
|
"step": 7390 |
|
}, |
|
{ |
|
"epoch": 74.0, |
|
"grad_norm": 6.227334976196289, |
|
"learning_rate": 0.0008666666666666666, |
|
"loss": 1.8016, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 74.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 7.835125923156738, |
|
"eval_runtime": 1.172, |
|
"eval_samples_per_second": 85.321, |
|
"eval_steps_per_second": 85.321, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 74.1, |
|
"grad_norm": 5.684929370880127, |
|
"learning_rate": 0.0008633333333333335, |
|
"loss": 1.6236, |
|
"step": 7410 |
|
}, |
|
{ |
|
"epoch": 74.2, |
|
"grad_norm": 2.3352484703063965, |
|
"learning_rate": 0.0008600000000000001, |
|
"loss": 1.6767, |
|
"step": 7420 |
|
}, |
|
{ |
|
"epoch": 74.3, |
|
"grad_norm": 17.188486099243164, |
|
"learning_rate": 0.0008566666666666667, |
|
"loss": 1.5898, |
|
"step": 7430 |
|
}, |
|
{ |
|
"epoch": 74.4, |
|
"grad_norm": 8.325809478759766, |
|
"learning_rate": 0.0008533333333333333, |
|
"loss": 1.5762, |
|
"step": 7440 |
|
}, |
|
{ |
|
"epoch": 74.5, |
|
"grad_norm": 3.8976364135742188, |
|
"learning_rate": 0.00085, |
|
"loss": 1.8546, |
|
"step": 7450 |
|
}, |
|
{ |
|
"epoch": 74.6, |
|
"grad_norm": 4.122636795043945, |
|
"learning_rate": 0.0008466666666666667, |
|
"loss": 1.6826, |
|
"step": 7460 |
|
}, |
|
{ |
|
"epoch": 74.7, |
|
"grad_norm": 3.0798962116241455, |
|
"learning_rate": 0.0008433333333333333, |
|
"loss": 1.8085, |
|
"step": 7470 |
|
}, |
|
{ |
|
"epoch": 74.8, |
|
"grad_norm": 8.855138778686523, |
|
"learning_rate": 0.0008400000000000001, |
|
"loss": 1.8007, |
|
"step": 7480 |
|
}, |
|
{ |
|
"epoch": 74.9, |
|
"grad_norm": 2.781036376953125, |
|
"learning_rate": 0.0008366666666666668, |
|
"loss": 1.6743, |
|
"step": 7490 |
|
}, |
|
{ |
|
"epoch": 75.0, |
|
"grad_norm": 5.651669025421143, |
|
"learning_rate": 0.0008333333333333334, |
|
"loss": 1.4308, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 75.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 4.696621417999268, |
|
"eval_runtime": 1.1086, |
|
"eval_samples_per_second": 90.203, |
|
"eval_steps_per_second": 90.203, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 75.1, |
|
"grad_norm": 2.3721401691436768, |
|
"learning_rate": 0.00083, |
|
"loss": 1.6892, |
|
"step": 7510 |
|
}, |
|
{ |
|
"epoch": 75.2, |
|
"grad_norm": 3.7006096839904785, |
|
"learning_rate": 0.0008266666666666666, |
|
"loss": 1.763, |
|
"step": 7520 |
|
}, |
|
{ |
|
"epoch": 75.3, |
|
"grad_norm": 2.3603055477142334, |
|
"learning_rate": 0.0008233333333333334, |
|
"loss": 1.8769, |
|
"step": 7530 |
|
}, |
|
{ |
|
"epoch": 75.4, |
|
"grad_norm": 1.8393298387527466, |
|
"learning_rate": 0.00082, |
|
"loss": 1.5171, |
|
"step": 7540 |
|
}, |
|
{ |
|
"epoch": 75.5, |
|
"grad_norm": 5.134054660797119, |
|
"learning_rate": 0.0008166666666666666, |
|
"loss": 1.7904, |
|
"step": 7550 |
|
}, |
|
{ |
|
"epoch": 75.6, |
|
"grad_norm": 3.733891725540161, |
|
"learning_rate": 0.0008133333333333334, |
|
"loss": 1.4944, |
|
"step": 7560 |
|
}, |
|
{ |
|
"epoch": 75.7, |
|
"grad_norm": 3.304157257080078, |
|
"learning_rate": 0.0008100000000000001, |
|
"loss": 1.546, |
|
"step": 7570 |
|
}, |
|
{ |
|
"epoch": 75.8, |
|
"grad_norm": 3.1113600730895996, |
|
"learning_rate": 0.0008066666666666667, |
|
"loss": 1.9507, |
|
"step": 7580 |
|
}, |
|
{ |
|
"epoch": 75.9, |
|
"grad_norm": 4.361494064331055, |
|
"learning_rate": 0.0008033333333333333, |
|
"loss": 1.5302, |
|
"step": 7590 |
|
}, |
|
{ |
|
"epoch": 76.0, |
|
"grad_norm": 8.0205717086792, |
|
"learning_rate": 0.0008, |
|
"loss": 1.6833, |
|
"step": 7600 |
|
}, |
|
{ |
|
"epoch": 76.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 5.913761615753174, |
|
"eval_runtime": 1.1926, |
|
"eval_samples_per_second": 83.853, |
|
"eval_steps_per_second": 83.853, |
|
"step": 7600 |
|
}, |
|
{ |
|
"epoch": 76.1, |
|
"grad_norm": 9.288579940795898, |
|
"learning_rate": 0.0007966666666666667, |
|
"loss": 1.6459, |
|
"step": 7610 |
|
}, |
|
{ |
|
"epoch": 76.2, |
|
"grad_norm": 4.346872806549072, |
|
"learning_rate": 0.0007933333333333333, |
|
"loss": 1.7913, |
|
"step": 7620 |
|
}, |
|
{ |
|
"epoch": 76.3, |
|
"grad_norm": 1.9732215404510498, |
|
"learning_rate": 0.0007899999999999999, |
|
"loss": 1.9217, |
|
"step": 7630 |
|
}, |
|
{ |
|
"epoch": 76.4, |
|
"grad_norm": 2.936906337738037, |
|
"learning_rate": 0.0007866666666666667, |
|
"loss": 1.3812, |
|
"step": 7640 |
|
}, |
|
{ |
|
"epoch": 76.5, |
|
"grad_norm": 1.9223854541778564, |
|
"learning_rate": 0.0007833333333333334, |
|
"loss": 1.7483, |
|
"step": 7650 |
|
}, |
|
{ |
|
"epoch": 76.6, |
|
"grad_norm": 4.29766321182251, |
|
"learning_rate": 0.0007800000000000001, |
|
"loss": 1.5003, |
|
"step": 7660 |
|
}, |
|
{ |
|
"epoch": 76.7, |
|
"grad_norm": 4.861231803894043, |
|
"learning_rate": 0.0007766666666666667, |
|
"loss": 1.824, |
|
"step": 7670 |
|
}, |
|
{ |
|
"epoch": 76.8, |
|
"grad_norm": 6.965978145599365, |
|
"learning_rate": 0.0007733333333333333, |
|
"loss": 1.8528, |
|
"step": 7680 |
|
}, |
|
{ |
|
"epoch": 76.9, |
|
"grad_norm": 6.294130802154541, |
|
"learning_rate": 0.00077, |
|
"loss": 1.7658, |
|
"step": 7690 |
|
}, |
|
{ |
|
"epoch": 77.0, |
|
"grad_norm": 2.3056602478027344, |
|
"learning_rate": 0.0007666666666666666, |
|
"loss": 1.5684, |
|
"step": 7700 |
|
}, |
|
{ |
|
"epoch": 77.0, |
|
"eval_accuracy": 0.15, |
|
"eval_loss": 11.986406326293945, |
|
"eval_runtime": 1.0745, |
|
"eval_samples_per_second": 93.062, |
|
"eval_steps_per_second": 93.062, |
|
"step": 7700 |
|
}, |
|
{ |
|
"epoch": 77.1, |
|
"grad_norm": 3.318281888961792, |
|
"learning_rate": 0.0007633333333333333, |
|
"loss": 1.6998, |
|
"step": 7710 |
|
}, |
|
{ |
|
"epoch": 77.2, |
|
"grad_norm": 6.8521647453308105, |
|
"learning_rate": 0.00076, |
|
"loss": 1.7175, |
|
"step": 7720 |
|
}, |
|
{ |
|
"epoch": 77.3, |
|
"grad_norm": 2.6658935546875, |
|
"learning_rate": 0.0007566666666666668, |
|
"loss": 1.6277, |
|
"step": 7730 |
|
}, |
|
{ |
|
"epoch": 77.4, |
|
"grad_norm": 1.4888370037078857, |
|
"learning_rate": 0.0007533333333333334, |
|
"loss": 1.6303, |
|
"step": 7740 |
|
}, |
|
{ |
|
"epoch": 77.5, |
|
"grad_norm": 2.4818308353424072, |
|
"learning_rate": 0.00075, |
|
"loss": 1.619, |
|
"step": 7750 |
|
}, |
|
{ |
|
"epoch": 77.6, |
|
"grad_norm": 4.3172712326049805, |
|
"learning_rate": 0.0007466666666666666, |
|
"loss": 1.8077, |
|
"step": 7760 |
|
}, |
|
{ |
|
"epoch": 77.7, |
|
"grad_norm": 4.909962177276611, |
|
"learning_rate": 0.0007433333333333334, |
|
"loss": 1.531, |
|
"step": 7770 |
|
}, |
|
{ |
|
"epoch": 77.8, |
|
"grad_norm": 3.2081310749053955, |
|
"learning_rate": 0.00074, |
|
"loss": 1.7721, |
|
"step": 7780 |
|
}, |
|
{ |
|
"epoch": 77.9, |
|
"grad_norm": 10.378396987915039, |
|
"learning_rate": 0.0007366666666666667, |
|
"loss": 1.5235, |
|
"step": 7790 |
|
}, |
|
{ |
|
"epoch": 78.0, |
|
"grad_norm": 14.657236099243164, |
|
"learning_rate": 0.0007333333333333333, |
|
"loss": 1.6765, |
|
"step": 7800 |
|
}, |
|
{ |
|
"epoch": 78.0, |
|
"eval_accuracy": 0.1, |
|
"eval_loss": 12.214624404907227, |
|
"eval_runtime": 1.0561, |
|
"eval_samples_per_second": 94.692, |
|
"eval_steps_per_second": 94.692, |
|
"step": 7800 |
|
}, |
|
{ |
|
"epoch": 78.1, |
|
"grad_norm": 6.5051069259643555, |
|
"learning_rate": 0.0007300000000000001, |
|
"loss": 1.9207, |
|
"step": 7810 |
|
}, |
|
{ |
|
"epoch": 78.2, |
|
"grad_norm": 4.690114498138428, |
|
"learning_rate": 0.0007266666666666667, |
|
"loss": 1.6504, |
|
"step": 7820 |
|
}, |
|
{ |
|
"epoch": 78.3, |
|
"grad_norm": 4.175870895385742, |
|
"learning_rate": 0.0007233333333333333, |
|
"loss": 1.745, |
|
"step": 7830 |
|
}, |
|
{ |
|
"epoch": 78.4, |
|
"grad_norm": 2.697542190551758, |
|
"learning_rate": 0.0007199999999999999, |
|
"loss": 1.8095, |
|
"step": 7840 |
|
}, |
|
{ |
|
"epoch": 78.5, |
|
"grad_norm": 11.4371337890625, |
|
"learning_rate": 0.0007166666666666667, |
|
"loss": 1.638, |
|
"step": 7850 |
|
}, |
|
{ |
|
"epoch": 78.6, |
|
"grad_norm": 5.61688232421875, |
|
"learning_rate": 0.0007133333333333334, |
|
"loss": 1.7019, |
|
"step": 7860 |
|
}, |
|
{ |
|
"epoch": 78.7, |
|
"grad_norm": 1.9839328527450562, |
|
"learning_rate": 0.00071, |
|
"loss": 1.3729, |
|
"step": 7870 |
|
}, |
|
{ |
|
"epoch": 78.8, |
|
"grad_norm": 7.748627662658691, |
|
"learning_rate": 0.0007066666666666666, |
|
"loss": 1.6178, |
|
"step": 7880 |
|
}, |
|
{ |
|
"epoch": 78.9, |
|
"grad_norm": 3.0208866596221924, |
|
"learning_rate": 0.0007033333333333334, |
|
"loss": 1.8001, |
|
"step": 7890 |
|
}, |
|
{ |
|
"epoch": 79.0, |
|
"grad_norm": 6.324533462524414, |
|
"learning_rate": 0.0007, |
|
"loss": 1.7482, |
|
"step": 7900 |
|
}, |
|
{ |
|
"epoch": 79.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 4.604106903076172, |
|
"eval_runtime": 1.0654, |
|
"eval_samples_per_second": 93.863, |
|
"eval_steps_per_second": 93.863, |
|
"step": 7900 |
|
}, |
|
{ |
|
"epoch": 79.1, |
|
"grad_norm": 5.001572132110596, |
|
"learning_rate": 0.0006966666666666667, |
|
"loss": 1.811, |
|
"step": 7910 |
|
}, |
|
{ |
|
"epoch": 79.2, |
|
"grad_norm": 5.4045586585998535, |
|
"learning_rate": 0.0006933333333333333, |
|
"loss": 1.6131, |
|
"step": 7920 |
|
}, |
|
{ |
|
"epoch": 79.3, |
|
"grad_norm": 9.522829055786133, |
|
"learning_rate": 0.0006900000000000001, |
|
"loss": 1.5696, |
|
"step": 7930 |
|
}, |
|
{ |
|
"epoch": 79.4, |
|
"grad_norm": 3.1126577854156494, |
|
"learning_rate": 0.0006866666666666667, |
|
"loss": 1.6667, |
|
"step": 7940 |
|
}, |
|
{ |
|
"epoch": 79.5, |
|
"grad_norm": 9.194778442382812, |
|
"learning_rate": 0.0006833333333333333, |
|
"loss": 1.7464, |
|
"step": 7950 |
|
}, |
|
{ |
|
"epoch": 79.6, |
|
"grad_norm": 6.9873528480529785, |
|
"learning_rate": 0.0006799999999999999, |
|
"loss": 1.6279, |
|
"step": 7960 |
|
}, |
|
{ |
|
"epoch": 79.7, |
|
"grad_norm": 2.421323537826538, |
|
"learning_rate": 0.0006766666666666667, |
|
"loss": 1.6863, |
|
"step": 7970 |
|
}, |
|
{ |
|
"epoch": 79.8, |
|
"grad_norm": 2.4559075832366943, |
|
"learning_rate": 0.0006733333333333334, |
|
"loss": 1.6846, |
|
"step": 7980 |
|
}, |
|
{ |
|
"epoch": 79.9, |
|
"grad_norm": 5.497502326965332, |
|
"learning_rate": 0.00067, |
|
"loss": 1.6157, |
|
"step": 7990 |
|
}, |
|
{ |
|
"epoch": 80.0, |
|
"grad_norm": 5.991186141967773, |
|
"learning_rate": 0.0006666666666666666, |
|
"loss": 1.7836, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 80.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 9.721675872802734, |
|
"eval_runtime": 1.1785, |
|
"eval_samples_per_second": 84.854, |
|
"eval_steps_per_second": 84.854, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 80.1, |
|
"grad_norm": 3.4409921169281006, |
|
"learning_rate": 0.0006633333333333334, |
|
"loss": 1.7159, |
|
"step": 8010 |
|
}, |
|
{ |
|
"epoch": 80.2, |
|
"grad_norm": 2.0698366165161133, |
|
"learning_rate": 0.00066, |
|
"loss": 1.6031, |
|
"step": 8020 |
|
}, |
|
{ |
|
"epoch": 80.3, |
|
"grad_norm": 3.158905029296875, |
|
"learning_rate": 0.0006566666666666666, |
|
"loss": 1.8234, |
|
"step": 8030 |
|
}, |
|
{ |
|
"epoch": 80.4, |
|
"grad_norm": 7.036154747009277, |
|
"learning_rate": 0.0006533333333333333, |
|
"loss": 1.5912, |
|
"step": 8040 |
|
}, |
|
{ |
|
"epoch": 80.5, |
|
"grad_norm": 2.4452085494995117, |
|
"learning_rate": 0.0006500000000000001, |
|
"loss": 1.6557, |
|
"step": 8050 |
|
}, |
|
{ |
|
"epoch": 80.6, |
|
"grad_norm": 12.575709342956543, |
|
"learning_rate": 0.0006466666666666667, |
|
"loss": 1.7963, |
|
"step": 8060 |
|
}, |
|
{ |
|
"epoch": 80.7, |
|
"grad_norm": 2.6192171573638916, |
|
"learning_rate": 0.0006433333333333333, |
|
"loss": 1.7268, |
|
"step": 8070 |
|
}, |
|
{ |
|
"epoch": 80.8, |
|
"grad_norm": 3.45434308052063, |
|
"learning_rate": 0.00064, |
|
"loss": 1.4155, |
|
"step": 8080 |
|
}, |
|
{ |
|
"epoch": 80.9, |
|
"grad_norm": 8.185892105102539, |
|
"learning_rate": 0.0006366666666666667, |
|
"loss": 1.7059, |
|
"step": 8090 |
|
}, |
|
{ |
|
"epoch": 81.0, |
|
"grad_norm": 5.6343183517456055, |
|
"learning_rate": 0.0006333333333333333, |
|
"loss": 1.5195, |
|
"step": 8100 |
|
}, |
|
{ |
|
"epoch": 81.0, |
|
"eval_accuracy": 0.12, |
|
"eval_loss": 7.513216972351074, |
|
"eval_runtime": 1.0678, |
|
"eval_samples_per_second": 93.647, |
|
"eval_steps_per_second": 93.647, |
|
"step": 8100 |
|
}, |
|
{ |
|
"epoch": 81.1, |
|
"grad_norm": 2.8379461765289307, |
|
"learning_rate": 0.00063, |
|
"loss": 1.6882, |
|
"step": 8110 |
|
}, |
|
{ |
|
"epoch": 81.2, |
|
"grad_norm": 7.534255027770996, |
|
"learning_rate": 0.0006266666666666668, |
|
"loss": 1.6796, |
|
"step": 8120 |
|
}, |
|
{ |
|
"epoch": 81.3, |
|
"grad_norm": 1.6739089488983154, |
|
"learning_rate": 0.0006233333333333334, |
|
"loss": 1.5956, |
|
"step": 8130 |
|
}, |
|
{ |
|
"epoch": 81.4, |
|
"grad_norm": 2.9751076698303223, |
|
"learning_rate": 0.00062, |
|
"loss": 1.6019, |
|
"step": 8140 |
|
}, |
|
{ |
|
"epoch": 81.5, |
|
"grad_norm": 4.309534549713135, |
|
"learning_rate": 0.0006166666666666666, |
|
"loss": 1.7701, |
|
"step": 8150 |
|
}, |
|
{ |
|
"epoch": 81.6, |
|
"grad_norm": 4.213230133056641, |
|
"learning_rate": 0.0006133333333333334, |
|
"loss": 1.7361, |
|
"step": 8160 |
|
}, |
|
{ |
|
"epoch": 81.7, |
|
"grad_norm": 1.757969856262207, |
|
"learning_rate": 0.00061, |
|
"loss": 1.8667, |
|
"step": 8170 |
|
}, |
|
{ |
|
"epoch": 81.8, |
|
"grad_norm": 4.254034996032715, |
|
"learning_rate": 0.0006066666666666667, |
|
"loss": 1.4598, |
|
"step": 8180 |
|
}, |
|
{ |
|
"epoch": 81.9, |
|
"grad_norm": 2.253918170928955, |
|
"learning_rate": 0.0006033333333333333, |
|
"loss": 1.5002, |
|
"step": 8190 |
|
}, |
|
{ |
|
"epoch": 82.0, |
|
"grad_norm": 3.143101453781128, |
|
"learning_rate": 0.0006000000000000001, |
|
"loss": 1.4384, |
|
"step": 8200 |
|
}, |
|
{ |
|
"epoch": 82.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 6.6091179847717285, |
|
"eval_runtime": 1.0621, |
|
"eval_samples_per_second": 94.153, |
|
"eval_steps_per_second": 94.153, |
|
"step": 8200 |
|
}, |
|
{ |
|
"epoch": 82.1, |
|
"grad_norm": 6.236468315124512, |
|
"learning_rate": 0.0005966666666666667, |
|
"loss": 1.701, |
|
"step": 8210 |
|
}, |
|
{ |
|
"epoch": 82.2, |
|
"grad_norm": 2.7502994537353516, |
|
"learning_rate": 0.0005933333333333333, |
|
"loss": 1.6615, |
|
"step": 8220 |
|
}, |
|
{ |
|
"epoch": 82.3, |
|
"grad_norm": 4.324734210968018, |
|
"learning_rate": 0.00059, |
|
"loss": 1.7192, |
|
"step": 8230 |
|
}, |
|
{ |
|
"epoch": 82.4, |
|
"grad_norm": 5.0085320472717285, |
|
"learning_rate": 0.0005866666666666668, |
|
"loss": 1.8115, |
|
"step": 8240 |
|
}, |
|
{ |
|
"epoch": 82.5, |
|
"grad_norm": 3.843885660171509, |
|
"learning_rate": 0.0005833333333333334, |
|
"loss": 1.777, |
|
"step": 8250 |
|
}, |
|
{ |
|
"epoch": 82.6, |
|
"grad_norm": 11.834420204162598, |
|
"learning_rate": 0.00058, |
|
"loss": 1.6285, |
|
"step": 8260 |
|
}, |
|
{ |
|
"epoch": 82.7, |
|
"grad_norm": 4.1545257568359375, |
|
"learning_rate": 0.0005766666666666666, |
|
"loss": 1.4498, |
|
"step": 8270 |
|
}, |
|
{ |
|
"epoch": 82.8, |
|
"grad_norm": 2.874239683151245, |
|
"learning_rate": 0.0005733333333333334, |
|
"loss": 1.9519, |
|
"step": 8280 |
|
}, |
|
{ |
|
"epoch": 82.9, |
|
"grad_norm": 2.4866464138031006, |
|
"learning_rate": 0.00057, |
|
"loss": 1.6679, |
|
"step": 8290 |
|
}, |
|
{ |
|
"epoch": 83.0, |
|
"grad_norm": 11.783166885375977, |
|
"learning_rate": 0.0005666666666666667, |
|
"loss": 1.5538, |
|
"step": 8300 |
|
}, |
|
{ |
|
"epoch": 83.0, |
|
"eval_accuracy": 0.13, |
|
"eval_loss": 7.0785722732543945, |
|
"eval_runtime": 1.0594, |
|
"eval_samples_per_second": 94.392, |
|
"eval_steps_per_second": 94.392, |
|
"step": 8300 |
|
}, |
|
{ |
|
"epoch": 83.1, |
|
"grad_norm": 5.404430389404297, |
|
"learning_rate": 0.0005633333333333333, |
|
"loss": 1.5581, |
|
"step": 8310 |
|
}, |
|
{ |
|
"epoch": 83.2, |
|
"grad_norm": 13.793869018554688, |
|
"learning_rate": 0.0005600000000000001, |
|
"loss": 1.7984, |
|
"step": 8320 |
|
}, |
|
{ |
|
"epoch": 83.3, |
|
"grad_norm": 3.788058042526245, |
|
"learning_rate": 0.0005566666666666667, |
|
"loss": 1.7085, |
|
"step": 8330 |
|
}, |
|
{ |
|
"epoch": 83.4, |
|
"grad_norm": 2.9603164196014404, |
|
"learning_rate": 0.0005533333333333333, |
|
"loss": 1.6841, |
|
"step": 8340 |
|
}, |
|
{ |
|
"epoch": 83.5, |
|
"grad_norm": 3.9996180534362793, |
|
"learning_rate": 0.0005499999999999999, |
|
"loss": 1.6758, |
|
"step": 8350 |
|
}, |
|
{ |
|
"epoch": 83.6, |
|
"grad_norm": 3.632449150085449, |
|
"learning_rate": 0.0005466666666666667, |
|
"loss": 1.5275, |
|
"step": 8360 |
|
}, |
|
{ |
|
"epoch": 83.7, |
|
"grad_norm": 9.344165802001953, |
|
"learning_rate": 0.0005433333333333334, |
|
"loss": 1.848, |
|
"step": 8370 |
|
}, |
|
{ |
|
"epoch": 83.8, |
|
"grad_norm": 6.6888933181762695, |
|
"learning_rate": 0.00054, |
|
"loss": 1.5813, |
|
"step": 8380 |
|
}, |
|
{ |
|
"epoch": 83.9, |
|
"grad_norm": 4.866454124450684, |
|
"learning_rate": 0.0005366666666666666, |
|
"loss": 1.4282, |
|
"step": 8390 |
|
}, |
|
{ |
|
"epoch": 84.0, |
|
"grad_norm": 5.3505659103393555, |
|
"learning_rate": 0.0005333333333333334, |
|
"loss": 1.5705, |
|
"step": 8400 |
|
}, |
|
{ |
|
"epoch": 84.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 12.585135459899902, |
|
"eval_runtime": 1.0929, |
|
"eval_samples_per_second": 91.504, |
|
"eval_steps_per_second": 91.504, |
|
"step": 8400 |
|
}, |
|
{ |
|
"epoch": 84.1, |
|
"grad_norm": 3.3361263275146484, |
|
"learning_rate": 0.00053, |
|
"loss": 1.6673, |
|
"step": 8410 |
|
}, |
|
{ |
|
"epoch": 84.2, |
|
"grad_norm": 3.2002100944519043, |
|
"learning_rate": 0.0005266666666666666, |
|
"loss": 1.5196, |
|
"step": 8420 |
|
}, |
|
{ |
|
"epoch": 84.3, |
|
"grad_norm": 4.537071228027344, |
|
"learning_rate": 0.0005233333333333333, |
|
"loss": 1.4038, |
|
"step": 8430 |
|
}, |
|
{ |
|
"epoch": 84.4, |
|
"grad_norm": 4.313013076782227, |
|
"learning_rate": 0.0005200000000000001, |
|
"loss": 1.7172, |
|
"step": 8440 |
|
}, |
|
{ |
|
"epoch": 84.5, |
|
"grad_norm": 16.408864974975586, |
|
"learning_rate": 0.0005166666666666667, |
|
"loss": 1.6465, |
|
"step": 8450 |
|
}, |
|
{ |
|
"epoch": 84.6, |
|
"grad_norm": 3.185908317565918, |
|
"learning_rate": 0.0005133333333333333, |
|
"loss": 1.8762, |
|
"step": 8460 |
|
}, |
|
{ |
|
"epoch": 84.7, |
|
"grad_norm": 12.016066551208496, |
|
"learning_rate": 0.00051, |
|
"loss": 1.547, |
|
"step": 8470 |
|
}, |
|
{ |
|
"epoch": 84.8, |
|
"grad_norm": 3.833848237991333, |
|
"learning_rate": 0.0005066666666666667, |
|
"loss": 1.8839, |
|
"step": 8480 |
|
}, |
|
{ |
|
"epoch": 84.9, |
|
"grad_norm": 6.557989597320557, |
|
"learning_rate": 0.0005033333333333334, |
|
"loss": 1.5552, |
|
"step": 8490 |
|
}, |
|
{ |
|
"epoch": 85.0, |
|
"grad_norm": 9.092035293579102, |
|
"learning_rate": 0.0005, |
|
"loss": 1.7255, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 85.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 9.933082580566406, |
|
"eval_runtime": 1.0662, |
|
"eval_samples_per_second": 93.791, |
|
"eval_steps_per_second": 93.791, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 85.1, |
|
"grad_norm": 4.006185531616211, |
|
"learning_rate": 0.0004966666666666667, |
|
"loss": 1.5849, |
|
"step": 8510 |
|
}, |
|
{ |
|
"epoch": 85.2, |
|
"grad_norm": 4.64818000793457, |
|
"learning_rate": 0.0004933333333333334, |
|
"loss": 1.5274, |
|
"step": 8520 |
|
}, |
|
{ |
|
"epoch": 85.3, |
|
"grad_norm": 4.239321708679199, |
|
"learning_rate": 0.00049, |
|
"loss": 1.3585, |
|
"step": 8530 |
|
}, |
|
{ |
|
"epoch": 85.4, |
|
"grad_norm": 3.4257285594940186, |
|
"learning_rate": 0.00048666666666666666, |
|
"loss": 1.6392, |
|
"step": 8540 |
|
}, |
|
{ |
|
"epoch": 85.5, |
|
"grad_norm": 11.131654739379883, |
|
"learning_rate": 0.0004833333333333334, |
|
"loss": 2.0834, |
|
"step": 8550 |
|
}, |
|
{ |
|
"epoch": 85.6, |
|
"grad_norm": 4.093764781951904, |
|
"learning_rate": 0.00048, |
|
"loss": 1.7804, |
|
"step": 8560 |
|
}, |
|
{ |
|
"epoch": 85.7, |
|
"grad_norm": 7.1940765380859375, |
|
"learning_rate": 0.0004766666666666667, |
|
"loss": 1.8576, |
|
"step": 8570 |
|
}, |
|
{ |
|
"epoch": 85.8, |
|
"grad_norm": 3.6592063903808594, |
|
"learning_rate": 0.0004733333333333333, |
|
"loss": 1.6122, |
|
"step": 8580 |
|
}, |
|
{ |
|
"epoch": 85.9, |
|
"grad_norm": 8.182126998901367, |
|
"learning_rate": 0.00047000000000000004, |
|
"loss": 1.6283, |
|
"step": 8590 |
|
}, |
|
{ |
|
"epoch": 86.0, |
|
"grad_norm": 4.966497898101807, |
|
"learning_rate": 0.00046666666666666666, |
|
"loss": 1.6063, |
|
"step": 8600 |
|
}, |
|
{ |
|
"epoch": 86.0, |
|
"eval_accuracy": 0.14, |
|
"eval_loss": 11.363009452819824, |
|
"eval_runtime": 1.1002, |
|
"eval_samples_per_second": 90.889, |
|
"eval_steps_per_second": 90.889, |
|
"step": 8600 |
|
}, |
|
{ |
|
"epoch": 86.1, |
|
"grad_norm": 2.8917222023010254, |
|
"learning_rate": 0.00046333333333333334, |
|
"loss": 1.5926, |
|
"step": 8610 |
|
}, |
|
{ |
|
"epoch": 86.2, |
|
"grad_norm": 5.326013088226318, |
|
"learning_rate": 0.00045999999999999996, |
|
"loss": 1.7023, |
|
"step": 8620 |
|
}, |
|
{ |
|
"epoch": 86.3, |
|
"grad_norm": 6.342537879943848, |
|
"learning_rate": 0.0004566666666666667, |
|
"loss": 1.7277, |
|
"step": 8630 |
|
}, |
|
{ |
|
"epoch": 86.4, |
|
"grad_norm": 5.517503261566162, |
|
"learning_rate": 0.00045333333333333337, |
|
"loss": 1.5213, |
|
"step": 8640 |
|
}, |
|
{ |
|
"epoch": 86.5, |
|
"grad_norm": 5.387936592102051, |
|
"learning_rate": 0.00045, |
|
"loss": 1.3763, |
|
"step": 8650 |
|
}, |
|
{ |
|
"epoch": 86.6, |
|
"grad_norm": 6.751247406005859, |
|
"learning_rate": 0.00044666666666666666, |
|
"loss": 1.5613, |
|
"step": 8660 |
|
}, |
|
{ |
|
"epoch": 86.7, |
|
"grad_norm": 3.263594627380371, |
|
"learning_rate": 0.00044333333333333334, |
|
"loss": 1.5917, |
|
"step": 8670 |
|
}, |
|
{ |
|
"epoch": 86.8, |
|
"grad_norm": 4.501608371734619, |
|
"learning_rate": 0.00044, |
|
"loss": 1.7682, |
|
"step": 8680 |
|
}, |
|
{ |
|
"epoch": 86.9, |
|
"grad_norm": 6.865741729736328, |
|
"learning_rate": 0.00043666666666666664, |
|
"loss": 1.6396, |
|
"step": 8690 |
|
}, |
|
{ |
|
"epoch": 87.0, |
|
"grad_norm": 18.602689743041992, |
|
"learning_rate": 0.0004333333333333333, |
|
"loss": 1.5201, |
|
"step": 8700 |
|
}, |
|
{ |
|
"epoch": 87.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 20.801061630249023, |
|
"eval_runtime": 1.0917, |
|
"eval_samples_per_second": 91.601, |
|
"eval_steps_per_second": 91.601, |
|
"step": 8700 |
|
}, |
|
{ |
|
"epoch": 87.1, |
|
"grad_norm": 4.5361857414245605, |
|
"learning_rate": 0.00043000000000000004, |
|
"loss": 1.6544, |
|
"step": 8710 |
|
}, |
|
{ |
|
"epoch": 87.2, |
|
"grad_norm": 9.736603736877441, |
|
"learning_rate": 0.00042666666666666667, |
|
"loss": 1.6858, |
|
"step": 8720 |
|
}, |
|
{ |
|
"epoch": 87.3, |
|
"grad_norm": 4.952563762664795, |
|
"learning_rate": 0.00042333333333333334, |
|
"loss": 1.7577, |
|
"step": 8730 |
|
}, |
|
{ |
|
"epoch": 87.4, |
|
"grad_norm": 4.5743608474731445, |
|
"learning_rate": 0.00042000000000000007, |
|
"loss": 1.5682, |
|
"step": 8740 |
|
}, |
|
{ |
|
"epoch": 87.5, |
|
"grad_norm": 4.293666362762451, |
|
"learning_rate": 0.0004166666666666667, |
|
"loss": 1.5536, |
|
"step": 8750 |
|
}, |
|
{ |
|
"epoch": 87.6, |
|
"grad_norm": 4.446376800537109, |
|
"learning_rate": 0.0004133333333333333, |
|
"loss": 1.5963, |
|
"step": 8760 |
|
}, |
|
{ |
|
"epoch": 87.7, |
|
"grad_norm": 6.884150981903076, |
|
"learning_rate": 0.00041, |
|
"loss": 1.637, |
|
"step": 8770 |
|
}, |
|
{ |
|
"epoch": 87.8, |
|
"grad_norm": 4.1387176513671875, |
|
"learning_rate": 0.0004066666666666667, |
|
"loss": 1.5257, |
|
"step": 8780 |
|
}, |
|
{ |
|
"epoch": 87.9, |
|
"grad_norm": 4.752466678619385, |
|
"learning_rate": 0.00040333333333333334, |
|
"loss": 1.5627, |
|
"step": 8790 |
|
}, |
|
{ |
|
"epoch": 88.0, |
|
"grad_norm": 4.676969051361084, |
|
"learning_rate": 0.0004, |
|
"loss": 1.3734, |
|
"step": 8800 |
|
}, |
|
{ |
|
"epoch": 88.0, |
|
"eval_accuracy": 0.09, |
|
"eval_loss": 5.235384941101074, |
|
"eval_runtime": 1.0813, |
|
"eval_samples_per_second": 92.482, |
|
"eval_steps_per_second": 92.482, |
|
"step": 8800 |
|
}, |
|
{ |
|
"epoch": 88.1, |
|
"grad_norm": 5.092541694641113, |
|
"learning_rate": 0.00039666666666666664, |
|
"loss": 1.8695, |
|
"step": 8810 |
|
}, |
|
{ |
|
"epoch": 88.2, |
|
"grad_norm": 12.015568733215332, |
|
"learning_rate": 0.00039333333333333337, |
|
"loss": 1.8373, |
|
"step": 8820 |
|
}, |
|
{ |
|
"epoch": 88.3, |
|
"grad_norm": 4.479465961456299, |
|
"learning_rate": 0.00039000000000000005, |
|
"loss": 1.6962, |
|
"step": 8830 |
|
}, |
|
{ |
|
"epoch": 88.4, |
|
"grad_norm": 8.001754760742188, |
|
"learning_rate": 0.00038666666666666667, |
|
"loss": 1.6139, |
|
"step": 8840 |
|
}, |
|
{ |
|
"epoch": 88.5, |
|
"grad_norm": 4.856076717376709, |
|
"learning_rate": 0.0003833333333333333, |
|
"loss": 1.3922, |
|
"step": 8850 |
|
}, |
|
{ |
|
"epoch": 88.6, |
|
"grad_norm": 4.531224727630615, |
|
"learning_rate": 0.00038, |
|
"loss": 1.688, |
|
"step": 8860 |
|
}, |
|
{ |
|
"epoch": 88.7, |
|
"grad_norm": 6.974000453948975, |
|
"learning_rate": 0.0003766666666666667, |
|
"loss": 1.8213, |
|
"step": 8870 |
|
}, |
|
{ |
|
"epoch": 88.8, |
|
"grad_norm": 5.6940155029296875, |
|
"learning_rate": 0.0003733333333333333, |
|
"loss": 1.6231, |
|
"step": 8880 |
|
}, |
|
{ |
|
"epoch": 88.9, |
|
"grad_norm": 6.221618175506592, |
|
"learning_rate": 0.00037, |
|
"loss": 1.4928, |
|
"step": 8890 |
|
}, |
|
{ |
|
"epoch": 89.0, |
|
"grad_norm": 5.715379238128662, |
|
"learning_rate": 0.00036666666666666667, |
|
"loss": 1.5931, |
|
"step": 8900 |
|
}, |
|
{ |
|
"epoch": 89.0, |
|
"eval_accuracy": 0.1, |
|
"eval_loss": 6.509023666381836, |
|
"eval_runtime": 1.1779, |
|
"eval_samples_per_second": 84.897, |
|
"eval_steps_per_second": 84.897, |
|
"step": 8900 |
|
}, |
|
{ |
|
"epoch": 89.1, |
|
"grad_norm": 4.112030506134033, |
|
"learning_rate": 0.00036333333333333335, |
|
"loss": 1.4779, |
|
"step": 8910 |
|
}, |
|
{ |
|
"epoch": 89.2, |
|
"grad_norm": 4.962814807891846, |
|
"learning_rate": 0.00035999999999999997, |
|
"loss": 1.4838, |
|
"step": 8920 |
|
}, |
|
{ |
|
"epoch": 89.3, |
|
"grad_norm": 3.100139856338501, |
|
"learning_rate": 0.0003566666666666667, |
|
"loss": 1.4203, |
|
"step": 8930 |
|
}, |
|
{ |
|
"epoch": 89.4, |
|
"grad_norm": 2.1554136276245117, |
|
"learning_rate": 0.0003533333333333333, |
|
"loss": 1.8653, |
|
"step": 8940 |
|
}, |
|
{ |
|
"epoch": 89.5, |
|
"grad_norm": 4.6902360916137695, |
|
"learning_rate": 0.00035, |
|
"loss": 1.7854, |
|
"step": 8950 |
|
}, |
|
{ |
|
"epoch": 89.6, |
|
"grad_norm": 7.109988689422607, |
|
"learning_rate": 0.00034666666666666667, |
|
"loss": 1.6059, |
|
"step": 8960 |
|
}, |
|
{ |
|
"epoch": 89.7, |
|
"grad_norm": 5.055539608001709, |
|
"learning_rate": 0.00034333333333333335, |
|
"loss": 1.5368, |
|
"step": 8970 |
|
}, |
|
{ |
|
"epoch": 89.8, |
|
"grad_norm": 3.6119301319122314, |
|
"learning_rate": 0.00033999999999999997, |
|
"loss": 1.6468, |
|
"step": 8980 |
|
}, |
|
{ |
|
"epoch": 89.9, |
|
"grad_norm": 4.249040126800537, |
|
"learning_rate": 0.0003366666666666667, |
|
"loss": 1.6441, |
|
"step": 8990 |
|
}, |
|
{ |
|
"epoch": 90.0, |
|
"grad_norm": 2.1352763175964355, |
|
"learning_rate": 0.0003333333333333333, |
|
"loss": 1.5562, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 90.0, |
|
"eval_accuracy": 0.1, |
|
"eval_loss": 11.834088325500488, |
|
"eval_runtime": 1.0907, |
|
"eval_samples_per_second": 91.685, |
|
"eval_steps_per_second": 91.685, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 90.1, |
|
"grad_norm": 6.328755855560303, |
|
"learning_rate": 0.00033, |
|
"loss": 1.3075, |
|
"step": 9010 |
|
}, |
|
{ |
|
"epoch": 90.2, |
|
"grad_norm": 2.490816593170166, |
|
"learning_rate": 0.0003266666666666667, |
|
"loss": 1.5389, |
|
"step": 9020 |
|
}, |
|
{ |
|
"epoch": 90.3, |
|
"grad_norm": 2.4213767051696777, |
|
"learning_rate": 0.00032333333333333335, |
|
"loss": 1.5494, |
|
"step": 9030 |
|
}, |
|
{ |
|
"epoch": 90.4, |
|
"grad_norm": 6.218684673309326, |
|
"learning_rate": 0.00032, |
|
"loss": 1.714, |
|
"step": 9040 |
|
}, |
|
{ |
|
"epoch": 90.5, |
|
"grad_norm": 8.454752922058105, |
|
"learning_rate": 0.00031666666666666665, |
|
"loss": 1.751, |
|
"step": 9050 |
|
}, |
|
{ |
|
"epoch": 90.6, |
|
"grad_norm": 6.157979488372803, |
|
"learning_rate": 0.0003133333333333334, |
|
"loss": 1.6605, |
|
"step": 9060 |
|
}, |
|
{ |
|
"epoch": 90.7, |
|
"grad_norm": 6.605826377868652, |
|
"learning_rate": 0.00031, |
|
"loss": 1.4179, |
|
"step": 9070 |
|
}, |
|
{ |
|
"epoch": 90.8, |
|
"grad_norm": 3.808640480041504, |
|
"learning_rate": 0.0003066666666666667, |
|
"loss": 1.8103, |
|
"step": 9080 |
|
}, |
|
{ |
|
"epoch": 90.9, |
|
"grad_norm": 2.5629327297210693, |
|
"learning_rate": 0.00030333333333333335, |
|
"loss": 1.8102, |
|
"step": 9090 |
|
}, |
|
{ |
|
"epoch": 91.0, |
|
"grad_norm": 6.230813026428223, |
|
"learning_rate": 0.00030000000000000003, |
|
"loss": 1.576, |
|
"step": 9100 |
|
}, |
|
{ |
|
"epoch": 91.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 6.952084541320801, |
|
"eval_runtime": 1.0557, |
|
"eval_samples_per_second": 94.722, |
|
"eval_steps_per_second": 94.722, |
|
"step": 9100 |
|
}, |
|
{ |
|
"epoch": 91.1, |
|
"grad_norm": 6.030466079711914, |
|
"learning_rate": 0.00029666666666666665, |
|
"loss": 1.3356, |
|
"step": 9110 |
|
}, |
|
{ |
|
"epoch": 91.2, |
|
"grad_norm": 11.793140411376953, |
|
"learning_rate": 0.0002933333333333334, |
|
"loss": 1.5781, |
|
"step": 9120 |
|
}, |
|
{ |
|
"epoch": 91.3, |
|
"grad_norm": 3.717588186264038, |
|
"learning_rate": 0.00029, |
|
"loss": 1.6609, |
|
"step": 9130 |
|
}, |
|
{ |
|
"epoch": 91.4, |
|
"grad_norm": 3.572495222091675, |
|
"learning_rate": 0.0002866666666666667, |
|
"loss": 1.4394, |
|
"step": 9140 |
|
}, |
|
{ |
|
"epoch": 91.5, |
|
"grad_norm": 11.123634338378906, |
|
"learning_rate": 0.00028333333333333335, |
|
"loss": 1.7692, |
|
"step": 9150 |
|
}, |
|
{ |
|
"epoch": 91.6, |
|
"grad_norm": 4.947868824005127, |
|
"learning_rate": 0.00028000000000000003, |
|
"loss": 1.9597, |
|
"step": 9160 |
|
}, |
|
{ |
|
"epoch": 91.7, |
|
"grad_norm": 5.078018665313721, |
|
"learning_rate": 0.00027666666666666665, |
|
"loss": 1.7529, |
|
"step": 9170 |
|
}, |
|
{ |
|
"epoch": 91.8, |
|
"grad_norm": 1.9481812715530396, |
|
"learning_rate": 0.00027333333333333333, |
|
"loss": 1.5537, |
|
"step": 9180 |
|
}, |
|
{ |
|
"epoch": 91.9, |
|
"grad_norm": 4.905779838562012, |
|
"learning_rate": 0.00027, |
|
"loss": 1.6519, |
|
"step": 9190 |
|
}, |
|
{ |
|
"epoch": 92.0, |
|
"grad_norm": 9.797691345214844, |
|
"learning_rate": 0.0002666666666666667, |
|
"loss": 1.542, |
|
"step": 9200 |
|
}, |
|
{ |
|
"epoch": 92.0, |
|
"eval_accuracy": 0.11, |
|
"eval_loss": 5.4469685554504395, |
|
"eval_runtime": 1.0782, |
|
"eval_samples_per_second": 92.746, |
|
"eval_steps_per_second": 92.746, |
|
"step": 9200 |
|
}, |
|
{ |
|
"epoch": 92.1, |
|
"grad_norm": 8.36400318145752, |
|
"learning_rate": 0.0002633333333333333, |
|
"loss": 1.3856, |
|
"step": 9210 |
|
}, |
|
{ |
|
"epoch": 92.2, |
|
"grad_norm": 5.642277717590332, |
|
"learning_rate": 0.00026000000000000003, |
|
"loss": 1.4981, |
|
"step": 9220 |
|
}, |
|
{ |
|
"epoch": 92.3, |
|
"grad_norm": 6.828677177429199, |
|
"learning_rate": 0.00025666666666666665, |
|
"loss": 1.6994, |
|
"step": 9230 |
|
}, |
|
{ |
|
"epoch": 92.4, |
|
"grad_norm": 2.652298927307129, |
|
"learning_rate": 0.00025333333333333333, |
|
"loss": 1.4695, |
|
"step": 9240 |
|
}, |
|
{ |
|
"epoch": 92.5, |
|
"grad_norm": 11.153400421142578, |
|
"learning_rate": 0.00025, |
|
"loss": 1.7156, |
|
"step": 9250 |
|
}, |
|
{ |
|
"epoch": 92.6, |
|
"grad_norm": 9.4036865234375, |
|
"learning_rate": 0.0002466666666666667, |
|
"loss": 1.5793, |
|
"step": 9260 |
|
}, |
|
{ |
|
"epoch": 92.7, |
|
"grad_norm": 4.6221089363098145, |
|
"learning_rate": 0.00024333333333333333, |
|
"loss": 1.5901, |
|
"step": 9270 |
|
}, |
|
{ |
|
"epoch": 92.8, |
|
"grad_norm": 16.04757308959961, |
|
"learning_rate": 0.00024, |
|
"loss": 1.5083, |
|
"step": 9280 |
|
}, |
|
{ |
|
"epoch": 92.9, |
|
"grad_norm": 3.3790411949157715, |
|
"learning_rate": 0.00023666666666666665, |
|
"loss": 1.6492, |
|
"step": 9290 |
|
}, |
|
{ |
|
"epoch": 93.0, |
|
"grad_norm": 5.925487995147705, |
|
"learning_rate": 0.00023333333333333333, |
|
"loss": 1.4968, |
|
"step": 9300 |
|
}, |
|
{ |
|
"epoch": 93.0, |
|
"eval_accuracy": 0.08, |
|
"eval_loss": 11.389555931091309, |
|
"eval_runtime": 1.0737, |
|
"eval_samples_per_second": 93.132, |
|
"eval_steps_per_second": 93.132, |
|
"step": 9300 |
|
}, |
|
{ |
|
"epoch": 93.1, |
|
"grad_norm": 3.4330050945281982, |
|
"learning_rate": 0.00022999999999999998, |
|
"loss": 1.45, |
|
"step": 9310 |
|
}, |
|
{ |
|
"epoch": 93.2, |
|
"grad_norm": 6.9820051193237305, |
|
"learning_rate": 0.00022666666666666668, |
|
"loss": 1.5511, |
|
"step": 9320 |
|
}, |
|
{ |
|
"epoch": 93.3, |
|
"grad_norm": 3.9312143325805664, |
|
"learning_rate": 0.00022333333333333333, |
|
"loss": 1.6517, |
|
"step": 9330 |
|
}, |
|
{ |
|
"epoch": 93.4, |
|
"grad_norm": 3.8252358436584473, |
|
"learning_rate": 0.00022, |
|
"loss": 1.5204, |
|
"step": 9340 |
|
}, |
|
{ |
|
"epoch": 93.5, |
|
"grad_norm": 5.608623027801514, |
|
"learning_rate": 0.00021666666666666666, |
|
"loss": 1.6045, |
|
"step": 9350 |
|
}, |
|
{ |
|
"epoch": 93.6, |
|
"grad_norm": 3.1002135276794434, |
|
"learning_rate": 0.00021333333333333333, |
|
"loss": 1.8633, |
|
"step": 9360 |
|
}, |
|
{ |
|
"epoch": 93.7, |
|
"grad_norm": 7.6362080574035645, |
|
"learning_rate": 0.00021000000000000004, |
|
"loss": 1.8021, |
|
"step": 9370 |
|
}, |
|
{ |
|
"epoch": 93.8, |
|
"grad_norm": 6.949824810028076, |
|
"learning_rate": 0.00020666666666666666, |
|
"loss": 1.5986, |
|
"step": 9380 |
|
}, |
|
{ |
|
"epoch": 93.9, |
|
"grad_norm": 2.6082653999328613, |
|
"learning_rate": 0.00020333333333333336, |
|
"loss": 1.6573, |
|
"step": 9390 |
|
}, |
|
{ |
|
"epoch": 94.0, |
|
"grad_norm": 1.7762422561645508, |
|
"learning_rate": 0.0002, |
|
"loss": 1.5031, |
|
"step": 9400 |
|
}, |
|
{ |
|
"epoch": 94.0, |
|
"eval_accuracy": 0.09, |
|
"eval_loss": 11.971654891967773, |
|
"eval_runtime": 1.0995, |
|
"eval_samples_per_second": 90.954, |
|
"eval_steps_per_second": 90.954, |
|
"step": 9400 |
|
}, |
|
{ |
|
"epoch": 94.1, |
|
"grad_norm": 5.909740447998047, |
|
"learning_rate": 0.00019666666666666669, |
|
"loss": 1.8356, |
|
"step": 9410 |
|
}, |
|
{ |
|
"epoch": 94.2, |
|
"grad_norm": 5.829824447631836, |
|
"learning_rate": 0.00019333333333333333, |
|
"loss": 1.6169, |
|
"step": 9420 |
|
}, |
|
{ |
|
"epoch": 94.3, |
|
"grad_norm": 5.292634963989258, |
|
"learning_rate": 0.00019, |
|
"loss": 1.5679, |
|
"step": 9430 |
|
}, |
|
{ |
|
"epoch": 94.4, |
|
"grad_norm": 10.358529090881348, |
|
"learning_rate": 0.00018666666666666666, |
|
"loss": 1.7761, |
|
"step": 9440 |
|
}, |
|
{ |
|
"epoch": 94.5, |
|
"grad_norm": 7.091001033782959, |
|
"learning_rate": 0.00018333333333333334, |
|
"loss": 1.3063, |
|
"step": 9450 |
|
}, |
|
{ |
|
"epoch": 94.6, |
|
"grad_norm": 5.417427062988281, |
|
"learning_rate": 0.00017999999999999998, |
|
"loss": 1.5903, |
|
"step": 9460 |
|
}, |
|
{ |
|
"epoch": 94.7, |
|
"grad_norm": 2.955625295639038, |
|
"learning_rate": 0.00017666666666666666, |
|
"loss": 1.34, |
|
"step": 9470 |
|
}, |
|
{ |
|
"epoch": 94.8, |
|
"grad_norm": 12.496049880981445, |
|
"learning_rate": 0.00017333333333333334, |
|
"loss": 1.6369, |
|
"step": 9480 |
|
}, |
|
{ |
|
"epoch": 94.9, |
|
"grad_norm": 5.346241474151611, |
|
"learning_rate": 0.00016999999999999999, |
|
"loss": 1.6256, |
|
"step": 9490 |
|
}, |
|
{ |
|
"epoch": 95.0, |
|
"grad_norm": 3.4618892669677734, |
|
"learning_rate": 0.00016666666666666666, |
|
"loss": 1.797, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 95.0, |
|
"eval_accuracy": 0.15, |
|
"eval_loss": 5.659628391265869, |
|
"eval_runtime": 1.0964, |
|
"eval_samples_per_second": 91.21, |
|
"eval_steps_per_second": 91.21, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 95.1, |
|
"grad_norm": 9.091547012329102, |
|
"learning_rate": 0.00016333333333333334, |
|
"loss": 1.7098, |
|
"step": 9510 |
|
}, |
|
{ |
|
"epoch": 95.2, |
|
"grad_norm": 4.004639625549316, |
|
"learning_rate": 0.00016, |
|
"loss": 1.7619, |
|
"step": 9520 |
|
}, |
|
{ |
|
"epoch": 95.3, |
|
"grad_norm": 5.718022346496582, |
|
"learning_rate": 0.0001566666666666667, |
|
"loss": 1.6164, |
|
"step": 9530 |
|
}, |
|
{ |
|
"epoch": 95.4, |
|
"grad_norm": 6.067481994628906, |
|
"learning_rate": 0.00015333333333333334, |
|
"loss": 1.4772, |
|
"step": 9540 |
|
}, |
|
{ |
|
"epoch": 95.5, |
|
"grad_norm": 9.880731582641602, |
|
"learning_rate": 0.00015000000000000001, |
|
"loss": 1.727, |
|
"step": 9550 |
|
}, |
|
{ |
|
"epoch": 95.6, |
|
"grad_norm": 3.9072794914245605, |
|
"learning_rate": 0.0001466666666666667, |
|
"loss": 1.6101, |
|
"step": 9560 |
|
}, |
|
{ |
|
"epoch": 95.7, |
|
"grad_norm": 5.950568199157715, |
|
"learning_rate": 0.00014333333333333334, |
|
"loss": 1.6918, |
|
"step": 9570 |
|
}, |
|
{ |
|
"epoch": 95.8, |
|
"grad_norm": 4.8070759773254395, |
|
"learning_rate": 0.00014000000000000001, |
|
"loss": 1.5439, |
|
"step": 9580 |
|
}, |
|
{ |
|
"epoch": 95.9, |
|
"grad_norm": 2.928107500076294, |
|
"learning_rate": 0.00013666666666666666, |
|
"loss": 1.7419, |
|
"step": 9590 |
|
}, |
|
{ |
|
"epoch": 96.0, |
|
"grad_norm": 2.5517635345458984, |
|
"learning_rate": 0.00013333333333333334, |
|
"loss": 1.5389, |
|
"step": 9600 |
|
}, |
|
{ |
|
"epoch": 96.0, |
|
"eval_accuracy": 0.15, |
|
"eval_loss": 5.394742488861084, |
|
"eval_runtime": 1.2105, |
|
"eval_samples_per_second": 82.609, |
|
"eval_steps_per_second": 82.609, |
|
"step": 9600 |
|
}, |
|
{ |
|
"epoch": 96.1, |
|
"grad_norm": 6.7149200439453125, |
|
"learning_rate": 0.00013000000000000002, |
|
"loss": 1.4619, |
|
"step": 9610 |
|
}, |
|
{ |
|
"epoch": 96.2, |
|
"grad_norm": 4.244627952575684, |
|
"learning_rate": 0.00012666666666666666, |
|
"loss": 1.658, |
|
"step": 9620 |
|
}, |
|
{ |
|
"epoch": 96.3, |
|
"grad_norm": 12.272513389587402, |
|
"learning_rate": 0.00012333333333333334, |
|
"loss": 1.4024, |
|
"step": 9630 |
|
}, |
|
{ |
|
"epoch": 96.4, |
|
"grad_norm": 4.836441516876221, |
|
"learning_rate": 0.00012, |
|
"loss": 1.6373, |
|
"step": 9640 |
|
}, |
|
{ |
|
"epoch": 96.5, |
|
"grad_norm": 10.306394577026367, |
|
"learning_rate": 0.00011666666666666667, |
|
"loss": 1.6761, |
|
"step": 9650 |
|
}, |
|
{ |
|
"epoch": 96.6, |
|
"grad_norm": 15.065468788146973, |
|
"learning_rate": 0.00011333333333333334, |
|
"loss": 1.5668, |
|
"step": 9660 |
|
}, |
|
{ |
|
"epoch": 96.7, |
|
"grad_norm": 9.095344543457031, |
|
"learning_rate": 0.00011, |
|
"loss": 1.6632, |
|
"step": 9670 |
|
}, |
|
{ |
|
"epoch": 96.8, |
|
"grad_norm": 15.200200080871582, |
|
"learning_rate": 0.00010666666666666667, |
|
"loss": 1.751, |
|
"step": 9680 |
|
}, |
|
{ |
|
"epoch": 96.9, |
|
"grad_norm": 5.573326587677002, |
|
"learning_rate": 0.00010333333333333333, |
|
"loss": 1.4333, |
|
"step": 9690 |
|
}, |
|
{ |
|
"epoch": 97.0, |
|
"grad_norm": 8.93664836883545, |
|
"learning_rate": 0.0001, |
|
"loss": 1.6494, |
|
"step": 9700 |
|
}, |
|
{ |
|
"epoch": 97.0, |
|
"eval_accuracy": 0.09, |
|
"eval_loss": 12.270679473876953, |
|
"eval_runtime": 1.1046, |
|
"eval_samples_per_second": 90.527, |
|
"eval_steps_per_second": 90.527, |
|
"step": 9700 |
|
}, |
|
{ |
|
"epoch": 97.1, |
|
"grad_norm": 7.3307061195373535, |
|
"learning_rate": 9.666666666666667e-05, |
|
"loss": 1.6132, |
|
"step": 9710 |
|
}, |
|
{ |
|
"epoch": 97.2, |
|
"grad_norm": 4.363010406494141, |
|
"learning_rate": 9.333333333333333e-05, |
|
"loss": 1.4765, |
|
"step": 9720 |
|
}, |
|
{ |
|
"epoch": 97.3, |
|
"grad_norm": 6.389674186706543, |
|
"learning_rate": 8.999999999999999e-05, |
|
"loss": 1.5761, |
|
"step": 9730 |
|
}, |
|
{ |
|
"epoch": 97.4, |
|
"grad_norm": 5.851135730743408, |
|
"learning_rate": 8.666666666666667e-05, |
|
"loss": 1.4239, |
|
"step": 9740 |
|
}, |
|
{ |
|
"epoch": 97.5, |
|
"grad_norm": 3.2834291458129883, |
|
"learning_rate": 8.333333333333333e-05, |
|
"loss": 1.492, |
|
"step": 9750 |
|
}, |
|
{ |
|
"epoch": 97.6, |
|
"grad_norm": 7.470133304595947, |
|
"learning_rate": 8e-05, |
|
"loss": 1.397, |
|
"step": 9760 |
|
}, |
|
{ |
|
"epoch": 97.7, |
|
"grad_norm": 10.482823371887207, |
|
"learning_rate": 7.666666666666667e-05, |
|
"loss": 1.3747, |
|
"step": 9770 |
|
}, |
|
{ |
|
"epoch": 97.8, |
|
"grad_norm": 5.69985818862915, |
|
"learning_rate": 7.333333333333334e-05, |
|
"loss": 1.6509, |
|
"step": 9780 |
|
}, |
|
{ |
|
"epoch": 97.9, |
|
"grad_norm": 5.918487071990967, |
|
"learning_rate": 7.000000000000001e-05, |
|
"loss": 1.7359, |
|
"step": 9790 |
|
}, |
|
{ |
|
"epoch": 98.0, |
|
"grad_norm": 5.521181583404541, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 1.73, |
|
"step": 9800 |
|
}, |
|
{ |
|
"epoch": 98.0, |
|
"eval_accuracy": 0.09, |
|
"eval_loss": 7.748157978057861, |
|
"eval_runtime": 1.1743, |
|
"eval_samples_per_second": 85.156, |
|
"eval_steps_per_second": 85.156, |
|
"step": 9800 |
|
}, |
|
{ |
|
"epoch": 98.1, |
|
"grad_norm": 1.7943670749664307, |
|
"learning_rate": 6.333333333333333e-05, |
|
"loss": 1.521, |
|
"step": 9810 |
|
}, |
|
{ |
|
"epoch": 98.2, |
|
"grad_norm": 5.804259777069092, |
|
"learning_rate": 6e-05, |
|
"loss": 1.4225, |
|
"step": 9820 |
|
}, |
|
{ |
|
"epoch": 98.3, |
|
"grad_norm": 4.800943374633789, |
|
"learning_rate": 5.666666666666667e-05, |
|
"loss": 1.6552, |
|
"step": 9830 |
|
}, |
|
{ |
|
"epoch": 98.4, |
|
"grad_norm": 4.801553726196289, |
|
"learning_rate": 5.333333333333333e-05, |
|
"loss": 1.6209, |
|
"step": 9840 |
|
}, |
|
{ |
|
"epoch": 98.5, |
|
"grad_norm": 6.166553974151611, |
|
"learning_rate": 5e-05, |
|
"loss": 1.6065, |
|
"step": 9850 |
|
}, |
|
{ |
|
"epoch": 98.6, |
|
"grad_norm": 5.88163948059082, |
|
"learning_rate": 4.6666666666666665e-05, |
|
"loss": 1.4366, |
|
"step": 9860 |
|
}, |
|
{ |
|
"epoch": 98.7, |
|
"grad_norm": 3.944805145263672, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 1.7576, |
|
"step": 9870 |
|
}, |
|
{ |
|
"epoch": 98.8, |
|
"grad_norm": 3.368363618850708, |
|
"learning_rate": 4e-05, |
|
"loss": 1.4783, |
|
"step": 9880 |
|
}, |
|
{ |
|
"epoch": 98.9, |
|
"grad_norm": 14.498971939086914, |
|
"learning_rate": 3.666666666666667e-05, |
|
"loss": 1.5058, |
|
"step": 9890 |
|
}, |
|
{ |
|
"epoch": 99.0, |
|
"grad_norm": 15.378142356872559, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 1.6781, |
|
"step": 9900 |
|
}, |
|
{ |
|
"epoch": 99.0, |
|
"eval_accuracy": 0.09, |
|
"eval_loss": 8.217840194702148, |
|
"eval_runtime": 1.0827, |
|
"eval_samples_per_second": 92.358, |
|
"eval_steps_per_second": 92.358, |
|
"step": 9900 |
|
}, |
|
{ |
|
"epoch": 99.1, |
|
"grad_norm": 4.426601886749268, |
|
"learning_rate": 3e-05, |
|
"loss": 1.6958, |
|
"step": 9910 |
|
}, |
|
{ |
|
"epoch": 99.2, |
|
"grad_norm": 4.605733394622803, |
|
"learning_rate": 2.6666666666666667e-05, |
|
"loss": 1.4533, |
|
"step": 9920 |
|
}, |
|
{ |
|
"epoch": 99.3, |
|
"grad_norm": 13.782227516174316, |
|
"learning_rate": 2.3333333333333332e-05, |
|
"loss": 1.8946, |
|
"step": 9930 |
|
}, |
|
{ |
|
"epoch": 99.4, |
|
"grad_norm": 4.161137580871582, |
|
"learning_rate": 2e-05, |
|
"loss": 1.6174, |
|
"step": 9940 |
|
}, |
|
{ |
|
"epoch": 99.5, |
|
"grad_norm": 2.4664387702941895, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 1.5238, |
|
"step": 9950 |
|
}, |
|
{ |
|
"epoch": 99.6, |
|
"grad_norm": 2.55865216255188, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 1.5149, |
|
"step": 9960 |
|
}, |
|
{ |
|
"epoch": 99.7, |
|
"grad_norm": 6.92779016494751, |
|
"learning_rate": 1e-05, |
|
"loss": 1.6855, |
|
"step": 9970 |
|
}, |
|
{ |
|
"epoch": 99.8, |
|
"grad_norm": 5.996972560882568, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 1.6467, |
|
"step": 9980 |
|
}, |
|
{ |
|
"epoch": 99.9, |
|
"grad_norm": 4.8729729652404785, |
|
"learning_rate": 3.3333333333333333e-06, |
|
"loss": 1.4819, |
|
"step": 9990 |
|
}, |
|
{ |
|
"epoch": 100.0, |
|
"grad_norm": 6.14045524597168, |
|
"learning_rate": 0.0, |
|
"loss": 1.6353, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 100.0, |
|
"eval_accuracy": 0.09, |
|
"eval_loss": 7.3961310386657715, |
|
"eval_runtime": 1.1462, |
|
"eval_samples_per_second": 87.242, |
|
"eval_steps_per_second": 87.242, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 100.0, |
|
"step": 10000, |
|
"total_flos": 5.698654912512e+16, |
|
"train_loss": 1.9340028741836548, |
|
"train_runtime": 4182.7218, |
|
"train_samples_per_second": 9.563, |
|
"train_steps_per_second": 2.391 |
|
} |
|
], |
|
"logging_steps": 10, |
|
"max_steps": 10000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 100, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 5.698654912512e+16, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|