Manuappu5670's picture
Training in progress, epoch 1
f08feb3 verified
{
"best_metric": 0.2,
"best_model_checkpoint": "mobilevit-xx-small-finetuned-eurosat/checkpoint-3500",
"epoch": 100.0,
"eval_steps": 500,
"global_step": 10000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.1,
"grad_norm": 2.1324617862701416,
"learning_rate": 3e-05,
"loss": 2.3012,
"step": 10
},
{
"epoch": 0.2,
"grad_norm": 1.3381329774856567,
"learning_rate": 6e-05,
"loss": 2.3047,
"step": 20
},
{
"epoch": 0.3,
"grad_norm": 1.8502155542373657,
"learning_rate": 8.999999999999999e-05,
"loss": 2.2991,
"step": 30
},
{
"epoch": 0.4,
"grad_norm": 2.422213554382324,
"learning_rate": 0.00012,
"loss": 2.3029,
"step": 40
},
{
"epoch": 0.5,
"grad_norm": 1.453734040260315,
"learning_rate": 0.00015000000000000001,
"loss": 2.3016,
"step": 50
},
{
"epoch": 0.6,
"grad_norm": 1.6491554975509644,
"learning_rate": 0.00017999999999999998,
"loss": 2.303,
"step": 60
},
{
"epoch": 0.7,
"grad_norm": 2.927738666534424,
"learning_rate": 0.00021000000000000004,
"loss": 2.3005,
"step": 70
},
{
"epoch": 0.8,
"grad_norm": 1.2199476957321167,
"learning_rate": 0.00024,
"loss": 2.3069,
"step": 80
},
{
"epoch": 0.9,
"grad_norm": 1.4366081953048706,
"learning_rate": 0.00027,
"loss": 2.2955,
"step": 90
},
{
"epoch": 1.0,
"grad_norm": 1.102356195449829,
"learning_rate": 0.00030000000000000003,
"loss": 2.2991,
"step": 100
},
{
"epoch": 1.0,
"eval_accuracy": 0.16,
"eval_loss": 2.289586067199707,
"eval_runtime": 1.4788,
"eval_samples_per_second": 67.624,
"eval_steps_per_second": 67.624,
"step": 100
},
{
"epoch": 1.1,
"grad_norm": 1.5379983186721802,
"learning_rate": 0.00033,
"loss": 2.3002,
"step": 110
},
{
"epoch": 1.2,
"grad_norm": 0.928782045841217,
"learning_rate": 0.00035999999999999997,
"loss": 2.2956,
"step": 120
},
{
"epoch": 1.3,
"grad_norm": 0.9759466052055359,
"learning_rate": 0.00039000000000000005,
"loss": 2.3028,
"step": 130
},
{
"epoch": 1.4,
"grad_norm": 1.5415401458740234,
"learning_rate": 0.00042000000000000007,
"loss": 2.2976,
"step": 140
},
{
"epoch": 1.5,
"grad_norm": 1.1042237281799316,
"learning_rate": 0.00045,
"loss": 2.2798,
"step": 150
},
{
"epoch": 1.6,
"grad_norm": 1.4493985176086426,
"learning_rate": 0.00048,
"loss": 2.2941,
"step": 160
},
{
"epoch": 1.7,
"grad_norm": 1.538596510887146,
"learning_rate": 0.00051,
"loss": 2.2887,
"step": 170
},
{
"epoch": 1.8,
"grad_norm": 1.4531352519989014,
"learning_rate": 0.00054,
"loss": 2.3009,
"step": 180
},
{
"epoch": 1.9,
"grad_norm": 0.983465313911438,
"learning_rate": 0.00057,
"loss": 2.2891,
"step": 190
},
{
"epoch": 2.0,
"grad_norm": 1.0896656513214111,
"learning_rate": 0.0006000000000000001,
"loss": 2.3041,
"step": 200
},
{
"epoch": 2.0,
"eval_accuracy": 0.12,
"eval_loss": 2.4577579498291016,
"eval_runtime": 1.4566,
"eval_samples_per_second": 68.653,
"eval_steps_per_second": 68.653,
"step": 200
},
{
"epoch": 2.1,
"grad_norm": 0.838339626789093,
"learning_rate": 0.00063,
"loss": 2.3074,
"step": 210
},
{
"epoch": 2.2,
"grad_norm": 1.0502190589904785,
"learning_rate": 0.00066,
"loss": 2.2746,
"step": 220
},
{
"epoch": 2.3,
"grad_norm": 0.9475522041320801,
"learning_rate": 0.0006900000000000001,
"loss": 2.2484,
"step": 230
},
{
"epoch": 2.4,
"grad_norm": 0.7182848453521729,
"learning_rate": 0.0007199999999999999,
"loss": 2.2644,
"step": 240
},
{
"epoch": 2.5,
"grad_norm": 1.08864164352417,
"learning_rate": 0.00075,
"loss": 2.3224,
"step": 250
},
{
"epoch": 2.6,
"grad_norm": 0.9813370108604431,
"learning_rate": 0.0007800000000000001,
"loss": 2.2964,
"step": 260
},
{
"epoch": 2.7,
"grad_norm": 0.8489407300949097,
"learning_rate": 0.0008100000000000001,
"loss": 2.3066,
"step": 270
},
{
"epoch": 2.8,
"grad_norm": 1.1197150945663452,
"learning_rate": 0.0008400000000000001,
"loss": 2.3362,
"step": 280
},
{
"epoch": 2.9,
"grad_norm": 1.279061198234558,
"learning_rate": 0.00087,
"loss": 2.2834,
"step": 290
},
{
"epoch": 3.0,
"grad_norm": 1.2697229385375977,
"learning_rate": 0.0009,
"loss": 2.2833,
"step": 300
},
{
"epoch": 3.0,
"eval_accuracy": 0.12,
"eval_loss": 2.302177906036377,
"eval_runtime": 1.3695,
"eval_samples_per_second": 73.017,
"eval_steps_per_second": 73.017,
"step": 300
},
{
"epoch": 3.1,
"grad_norm": 1.1153604984283447,
"learning_rate": 0.00093,
"loss": 2.2568,
"step": 310
},
{
"epoch": 3.2,
"grad_norm": 0.7443063855171204,
"learning_rate": 0.00096,
"loss": 2.2826,
"step": 320
},
{
"epoch": 3.3,
"grad_norm": 0.8337368965148926,
"learning_rate": 0.00099,
"loss": 2.2561,
"step": 330
},
{
"epoch": 3.4,
"grad_norm": 0.8116536736488342,
"learning_rate": 0.00102,
"loss": 2.3272,
"step": 340
},
{
"epoch": 3.5,
"grad_norm": 0.9721486568450928,
"learning_rate": 0.00105,
"loss": 2.2719,
"step": 350
},
{
"epoch": 3.6,
"grad_norm": 1.4430909156799316,
"learning_rate": 0.00108,
"loss": 2.3039,
"step": 360
},
{
"epoch": 3.7,
"grad_norm": 2.4252946376800537,
"learning_rate": 0.00111,
"loss": 2.2797,
"step": 370
},
{
"epoch": 3.8,
"grad_norm": 1.0932201147079468,
"learning_rate": 0.00114,
"loss": 2.2843,
"step": 380
},
{
"epoch": 3.9,
"grad_norm": 1.1340506076812744,
"learning_rate": 0.00117,
"loss": 2.3229,
"step": 390
},
{
"epoch": 4.0,
"grad_norm": 2.5897912979125977,
"learning_rate": 0.0012000000000000001,
"loss": 2.2755,
"step": 400
},
{
"epoch": 4.0,
"eval_accuracy": 0.17,
"eval_loss": 2.4038970470428467,
"eval_runtime": 1.5324,
"eval_samples_per_second": 65.256,
"eval_steps_per_second": 65.256,
"step": 400
},
{
"epoch": 4.1,
"grad_norm": 0.7979876399040222,
"learning_rate": 0.00123,
"loss": 2.2504,
"step": 410
},
{
"epoch": 4.2,
"grad_norm": 1.2705005407333374,
"learning_rate": 0.00126,
"loss": 2.2731,
"step": 420
},
{
"epoch": 4.3,
"grad_norm": 1.4571020603179932,
"learning_rate": 0.00129,
"loss": 2.3268,
"step": 430
},
{
"epoch": 4.4,
"grad_norm": 1.3778339624404907,
"learning_rate": 0.00132,
"loss": 2.3044,
"step": 440
},
{
"epoch": 4.5,
"grad_norm": 1.30875563621521,
"learning_rate": 0.00135,
"loss": 2.2627,
"step": 450
},
{
"epoch": 4.6,
"grad_norm": 0.9140678644180298,
"learning_rate": 0.0013800000000000002,
"loss": 2.2876,
"step": 460
},
{
"epoch": 4.7,
"grad_norm": 0.9151474833488464,
"learning_rate": 0.00141,
"loss": 2.2905,
"step": 470
},
{
"epoch": 4.8,
"grad_norm": 0.8817148804664612,
"learning_rate": 0.0014399999999999999,
"loss": 2.2698,
"step": 480
},
{
"epoch": 4.9,
"grad_norm": 1.2688977718353271,
"learning_rate": 0.00147,
"loss": 2.2646,
"step": 490
},
{
"epoch": 5.0,
"grad_norm": 0.8824284076690674,
"learning_rate": 0.0015,
"loss": 2.3063,
"step": 500
},
{
"epoch": 5.0,
"eval_accuracy": 0.1,
"eval_loss": 2.5689330101013184,
"eval_runtime": 1.5068,
"eval_samples_per_second": 66.367,
"eval_steps_per_second": 66.367,
"step": 500
},
{
"epoch": 5.1,
"grad_norm": 1.2520034313201904,
"learning_rate": 0.0015300000000000001,
"loss": 2.241,
"step": 510
},
{
"epoch": 5.2,
"grad_norm": 1.0238957405090332,
"learning_rate": 0.0015600000000000002,
"loss": 2.27,
"step": 520
},
{
"epoch": 5.3,
"grad_norm": 2.1329076290130615,
"learning_rate": 0.00159,
"loss": 2.2933,
"step": 530
},
{
"epoch": 5.4,
"grad_norm": 1.5213390588760376,
"learning_rate": 0.0016200000000000001,
"loss": 2.3265,
"step": 540
},
{
"epoch": 5.5,
"grad_norm": 1.0696481466293335,
"learning_rate": 0.0016500000000000002,
"loss": 2.2632,
"step": 550
},
{
"epoch": 5.6,
"grad_norm": 2.2588746547698975,
"learning_rate": 0.0016800000000000003,
"loss": 2.3076,
"step": 560
},
{
"epoch": 5.7,
"grad_norm": 0.8829935789108276,
"learning_rate": 0.00171,
"loss": 2.2396,
"step": 570
},
{
"epoch": 5.8,
"grad_norm": 2.340522289276123,
"learning_rate": 0.00174,
"loss": 2.2487,
"step": 580
},
{
"epoch": 5.9,
"grad_norm": 1.1000961065292358,
"learning_rate": 0.0017699999999999999,
"loss": 2.4008,
"step": 590
},
{
"epoch": 6.0,
"grad_norm": 1.0605051517486572,
"learning_rate": 0.0018,
"loss": 2.3247,
"step": 600
},
{
"epoch": 6.0,
"eval_accuracy": 0.05,
"eval_loss": 2.5307223796844482,
"eval_runtime": 1.4509,
"eval_samples_per_second": 68.922,
"eval_steps_per_second": 68.922,
"step": 600
},
{
"epoch": 6.1,
"grad_norm": 0.7217267751693726,
"learning_rate": 0.00183,
"loss": 2.2628,
"step": 610
},
{
"epoch": 6.2,
"grad_norm": 1.2763817310333252,
"learning_rate": 0.00186,
"loss": 2.3345,
"step": 620
},
{
"epoch": 6.3,
"grad_norm": 1.0277924537658691,
"learning_rate": 0.00189,
"loss": 2.21,
"step": 630
},
{
"epoch": 6.4,
"grad_norm": 1.1366169452667236,
"learning_rate": 0.00192,
"loss": 2.2671,
"step": 640
},
{
"epoch": 6.5,
"grad_norm": 1.314244270324707,
"learning_rate": 0.0019500000000000001,
"loss": 2.2903,
"step": 650
},
{
"epoch": 6.6,
"grad_norm": 1.7358442544937134,
"learning_rate": 0.00198,
"loss": 2.2646,
"step": 660
},
{
"epoch": 6.7,
"grad_norm": 1.7523398399353027,
"learning_rate": 0.00201,
"loss": 2.2954,
"step": 670
},
{
"epoch": 6.8,
"grad_norm": 1.0838252305984497,
"learning_rate": 0.00204,
"loss": 2.284,
"step": 680
},
{
"epoch": 6.9,
"grad_norm": 1.375260591506958,
"learning_rate": 0.00207,
"loss": 2.2751,
"step": 690
},
{
"epoch": 7.0,
"grad_norm": 0.8118464946746826,
"learning_rate": 0.0021,
"loss": 2.2867,
"step": 700
},
{
"epoch": 7.0,
"eval_accuracy": 0.08,
"eval_loss": 4.129552841186523,
"eval_runtime": 1.34,
"eval_samples_per_second": 74.629,
"eval_steps_per_second": 74.629,
"step": 700
},
{
"epoch": 7.1,
"grad_norm": 1.1006956100463867,
"learning_rate": 0.00213,
"loss": 2.2591,
"step": 710
},
{
"epoch": 7.2,
"grad_norm": 1.0100908279418945,
"learning_rate": 0.00216,
"loss": 2.234,
"step": 720
},
{
"epoch": 7.3,
"grad_norm": 0.6693554520606995,
"learning_rate": 0.00219,
"loss": 2.2912,
"step": 730
},
{
"epoch": 7.4,
"grad_norm": 1.4744811058044434,
"learning_rate": 0.00222,
"loss": 2.2978,
"step": 740
},
{
"epoch": 7.5,
"grad_norm": 1.1265888214111328,
"learning_rate": 0.0022500000000000003,
"loss": 2.2747,
"step": 750
},
{
"epoch": 7.6,
"grad_norm": 0.7370518445968628,
"learning_rate": 0.00228,
"loss": 2.254,
"step": 760
},
{
"epoch": 7.7,
"grad_norm": 3.5498600006103516,
"learning_rate": 0.00231,
"loss": 2.3023,
"step": 770
},
{
"epoch": 7.8,
"grad_norm": 0.8357071876525879,
"learning_rate": 0.00234,
"loss": 2.2806,
"step": 780
},
{
"epoch": 7.9,
"grad_norm": 0.9274773597717285,
"learning_rate": 0.00237,
"loss": 2.3048,
"step": 790
},
{
"epoch": 8.0,
"grad_norm": 1.2820582389831543,
"learning_rate": 0.0024000000000000002,
"loss": 2.2696,
"step": 800
},
{
"epoch": 8.0,
"eval_accuracy": 0.07,
"eval_loss": 3.08689546585083,
"eval_runtime": 19.5044,
"eval_samples_per_second": 5.127,
"eval_steps_per_second": 5.127,
"step": 800
},
{
"epoch": 8.1,
"grad_norm": 0.8906604647636414,
"learning_rate": 0.0024300000000000003,
"loss": 2.2654,
"step": 810
},
{
"epoch": 8.2,
"grad_norm": 0.9984199404716492,
"learning_rate": 0.00246,
"loss": 2.279,
"step": 820
},
{
"epoch": 8.3,
"grad_norm": 1.9721964597702026,
"learning_rate": 0.00249,
"loss": 2.3893,
"step": 830
},
{
"epoch": 8.4,
"grad_norm": 1.0067120790481567,
"learning_rate": 0.00252,
"loss": 2.2639,
"step": 840
},
{
"epoch": 8.5,
"grad_norm": 1.388048529624939,
"learning_rate": 0.00255,
"loss": 2.3113,
"step": 850
},
{
"epoch": 8.6,
"grad_norm": 1.2845227718353271,
"learning_rate": 0.00258,
"loss": 2.2511,
"step": 860
},
{
"epoch": 8.7,
"grad_norm": 0.871728241443634,
"learning_rate": 0.00261,
"loss": 2.3939,
"step": 870
},
{
"epoch": 8.8,
"grad_norm": 0.8184868693351746,
"learning_rate": 0.00264,
"loss": 2.2946,
"step": 880
},
{
"epoch": 8.9,
"grad_norm": 1.132112741470337,
"learning_rate": 0.00267,
"loss": 2.3046,
"step": 890
},
{
"epoch": 9.0,
"grad_norm": 2.1133577823638916,
"learning_rate": 0.0027,
"loss": 2.2688,
"step": 900
},
{
"epoch": 9.0,
"eval_accuracy": 0.08,
"eval_loss": 3.6086204051971436,
"eval_runtime": 20.8005,
"eval_samples_per_second": 4.808,
"eval_steps_per_second": 4.808,
"step": 900
},
{
"epoch": 9.1,
"grad_norm": 2.4818060398101807,
"learning_rate": 0.0027300000000000002,
"loss": 2.3106,
"step": 910
},
{
"epoch": 9.2,
"grad_norm": 3.1399571895599365,
"learning_rate": 0.0027600000000000003,
"loss": 2.2638,
"step": 920
},
{
"epoch": 9.3,
"grad_norm": 0.6101534962654114,
"learning_rate": 0.0027900000000000004,
"loss": 2.3405,
"step": 930
},
{
"epoch": 9.4,
"grad_norm": 0.5602176189422607,
"learning_rate": 0.00282,
"loss": 2.2907,
"step": 940
},
{
"epoch": 9.5,
"grad_norm": 0.9144548773765564,
"learning_rate": 0.00285,
"loss": 2.2859,
"step": 950
},
{
"epoch": 9.6,
"grad_norm": 1.6563771963119507,
"learning_rate": 0.0028799999999999997,
"loss": 2.226,
"step": 960
},
{
"epoch": 9.7,
"grad_norm": 1.130618691444397,
"learning_rate": 0.00291,
"loss": 2.3164,
"step": 970
},
{
"epoch": 9.8,
"grad_norm": 1.309047818183899,
"learning_rate": 0.00294,
"loss": 2.369,
"step": 980
},
{
"epoch": 9.9,
"grad_norm": 0.8424582481384277,
"learning_rate": 0.00297,
"loss": 2.3191,
"step": 990
},
{
"epoch": 10.0,
"grad_norm": 0.7681222558021545,
"learning_rate": 0.003,
"loss": 2.2616,
"step": 1000
},
{
"epoch": 10.0,
"eval_accuracy": 0.13,
"eval_loss": 6.5421600341796875,
"eval_runtime": 8.3248,
"eval_samples_per_second": 12.012,
"eval_steps_per_second": 12.012,
"step": 1000
},
{
"epoch": 10.1,
"grad_norm": 0.7878401875495911,
"learning_rate": 0.002996666666666667,
"loss": 2.3113,
"step": 1010
},
{
"epoch": 10.2,
"grad_norm": 1.2619870901107788,
"learning_rate": 0.0029933333333333335,
"loss": 2.2792,
"step": 1020
},
{
"epoch": 10.3,
"grad_norm": 0.8518879413604736,
"learning_rate": 0.00299,
"loss": 2.2483,
"step": 1030
},
{
"epoch": 10.4,
"grad_norm": 1.0644011497497559,
"learning_rate": 0.0029866666666666665,
"loss": 2.2962,
"step": 1040
},
{
"epoch": 10.5,
"grad_norm": 4.86259651184082,
"learning_rate": 0.0029833333333333335,
"loss": 2.3568,
"step": 1050
},
{
"epoch": 10.6,
"grad_norm": 0.6222243905067444,
"learning_rate": 0.00298,
"loss": 2.3044,
"step": 1060
},
{
"epoch": 10.7,
"grad_norm": 0.9417657256126404,
"learning_rate": 0.002976666666666667,
"loss": 2.3293,
"step": 1070
},
{
"epoch": 10.8,
"grad_norm": 0.8060852289199829,
"learning_rate": 0.0029733333333333335,
"loss": 2.3223,
"step": 1080
},
{
"epoch": 10.9,
"grad_norm": 13.554573059082031,
"learning_rate": 0.00297,
"loss": 2.3174,
"step": 1090
},
{
"epoch": 11.0,
"grad_norm": 0.6837009191513062,
"learning_rate": 0.002966666666666667,
"loss": 2.3896,
"step": 1100
},
{
"epoch": 11.0,
"eval_accuracy": 0.11,
"eval_loss": 3.2714791297912598,
"eval_runtime": 2.1977,
"eval_samples_per_second": 45.503,
"eval_steps_per_second": 45.503,
"step": 1100
},
{
"epoch": 11.1,
"grad_norm": 0.7141666412353516,
"learning_rate": 0.0029633333333333334,
"loss": 2.3195,
"step": 1110
},
{
"epoch": 11.2,
"grad_norm": 0.7167306542396545,
"learning_rate": 0.00296,
"loss": 2.296,
"step": 1120
},
{
"epoch": 11.3,
"grad_norm": 0.7279971241950989,
"learning_rate": 0.0029566666666666665,
"loss": 2.271,
"step": 1130
},
{
"epoch": 11.4,
"grad_norm": 0.7350410223007202,
"learning_rate": 0.0029533333333333334,
"loss": 2.3213,
"step": 1140
},
{
"epoch": 11.5,
"grad_norm": 0.7864300012588501,
"learning_rate": 0.00295,
"loss": 2.3639,
"step": 1150
},
{
"epoch": 11.6,
"grad_norm": 1.0151550769805908,
"learning_rate": 0.002946666666666667,
"loss": 2.3102,
"step": 1160
},
{
"epoch": 11.7,
"grad_norm": 0.830095648765564,
"learning_rate": 0.0029433333333333334,
"loss": 2.3059,
"step": 1170
},
{
"epoch": 11.8,
"grad_norm": 0.9856182932853699,
"learning_rate": 0.00294,
"loss": 2.3251,
"step": 1180
},
{
"epoch": 11.9,
"grad_norm": 0.9483402371406555,
"learning_rate": 0.002936666666666667,
"loss": 2.2442,
"step": 1190
},
{
"epoch": 12.0,
"grad_norm": 0.8080146908760071,
"learning_rate": 0.0029333333333333334,
"loss": 2.3264,
"step": 1200
},
{
"epoch": 12.0,
"eval_accuracy": 0.08,
"eval_loss": 2.697530746459961,
"eval_runtime": 10.4979,
"eval_samples_per_second": 9.526,
"eval_steps_per_second": 9.526,
"step": 1200
},
{
"epoch": 12.1,
"grad_norm": 0.5614495277404785,
"learning_rate": 0.0029300000000000003,
"loss": 2.3242,
"step": 1210
},
{
"epoch": 12.2,
"grad_norm": 0.5666948556900024,
"learning_rate": 0.0029266666666666664,
"loss": 2.2657,
"step": 1220
},
{
"epoch": 12.3,
"grad_norm": 0.6668452024459839,
"learning_rate": 0.0029233333333333333,
"loss": 2.25,
"step": 1230
},
{
"epoch": 12.4,
"grad_norm": 0.724169135093689,
"learning_rate": 0.0029200000000000003,
"loss": 2.3341,
"step": 1240
},
{
"epoch": 12.5,
"grad_norm": 0.5056666135787964,
"learning_rate": 0.002916666666666667,
"loss": 2.3078,
"step": 1250
},
{
"epoch": 12.6,
"grad_norm": 0.542679488658905,
"learning_rate": 0.0029133333333333333,
"loss": 2.3181,
"step": 1260
},
{
"epoch": 12.7,
"grad_norm": 0.5752130746841431,
"learning_rate": 0.00291,
"loss": 2.3095,
"step": 1270
},
{
"epoch": 12.8,
"grad_norm": 1.2706278562545776,
"learning_rate": 0.0029066666666666668,
"loss": 2.2843,
"step": 1280
},
{
"epoch": 12.9,
"grad_norm": 0.6558820605278015,
"learning_rate": 0.0029033333333333333,
"loss": 2.38,
"step": 1290
},
{
"epoch": 13.0,
"grad_norm": 0.4819053113460541,
"learning_rate": 0.0029000000000000002,
"loss": 2.2603,
"step": 1300
},
{
"epoch": 13.0,
"eval_accuracy": 0.17,
"eval_loss": 2.4011728763580322,
"eval_runtime": 5.0203,
"eval_samples_per_second": 19.919,
"eval_steps_per_second": 19.919,
"step": 1300
},
{
"epoch": 13.1,
"grad_norm": 0.534329354763031,
"learning_rate": 0.0028966666666666667,
"loss": 2.2935,
"step": 1310
},
{
"epoch": 13.2,
"grad_norm": 0.6757941842079163,
"learning_rate": 0.0028933333333333333,
"loss": 2.3112,
"step": 1320
},
{
"epoch": 13.3,
"grad_norm": 0.5297008156776428,
"learning_rate": 0.00289,
"loss": 2.2442,
"step": 1330
},
{
"epoch": 13.4,
"grad_norm": 0.7962446212768555,
"learning_rate": 0.0028866666666666667,
"loss": 2.3753,
"step": 1340
},
{
"epoch": 13.5,
"grad_norm": 0.5598190426826477,
"learning_rate": 0.0028833333333333337,
"loss": 2.2621,
"step": 1350
},
{
"epoch": 13.6,
"grad_norm": 0.7223344445228577,
"learning_rate": 0.0028799999999999997,
"loss": 2.273,
"step": 1360
},
{
"epoch": 13.7,
"grad_norm": 1.1084399223327637,
"learning_rate": 0.0028766666666666667,
"loss": 2.2912,
"step": 1370
},
{
"epoch": 13.8,
"grad_norm": 0.6733573079109192,
"learning_rate": 0.002873333333333333,
"loss": 2.2698,
"step": 1380
},
{
"epoch": 13.9,
"grad_norm": 0.8303700089454651,
"learning_rate": 0.00287,
"loss": 2.2308,
"step": 1390
},
{
"epoch": 14.0,
"grad_norm": 0.804675817489624,
"learning_rate": 0.0028666666666666667,
"loss": 2.2845,
"step": 1400
},
{
"epoch": 14.0,
"eval_accuracy": 0.19,
"eval_loss": 3.0855796337127686,
"eval_runtime": 18.9592,
"eval_samples_per_second": 5.274,
"eval_steps_per_second": 5.274,
"step": 1400
},
{
"epoch": 14.1,
"grad_norm": 0.7311877012252808,
"learning_rate": 0.002863333333333333,
"loss": 2.2091,
"step": 1410
},
{
"epoch": 14.2,
"grad_norm": 0.9788007140159607,
"learning_rate": 0.00286,
"loss": 2.284,
"step": 1420
},
{
"epoch": 14.3,
"grad_norm": 1.4467419385910034,
"learning_rate": 0.0028566666666666666,
"loss": 2.2519,
"step": 1430
},
{
"epoch": 14.4,
"grad_norm": 1.0337039232254028,
"learning_rate": 0.0028533333333333336,
"loss": 2.2974,
"step": 1440
},
{
"epoch": 14.5,
"grad_norm": 0.9267049431800842,
"learning_rate": 0.00285,
"loss": 2.2513,
"step": 1450
},
{
"epoch": 14.6,
"grad_norm": 1.1804252862930298,
"learning_rate": 0.0028466666666666666,
"loss": 2.3101,
"step": 1460
},
{
"epoch": 14.7,
"grad_norm": 0.6689174175262451,
"learning_rate": 0.0028433333333333336,
"loss": 2.3012,
"step": 1470
},
{
"epoch": 14.8,
"grad_norm": 1.6997405290603638,
"learning_rate": 0.00284,
"loss": 2.2507,
"step": 1480
},
{
"epoch": 14.9,
"grad_norm": 0.5313436388969421,
"learning_rate": 0.002836666666666667,
"loss": 2.2841,
"step": 1490
},
{
"epoch": 15.0,
"grad_norm": 0.6760014891624451,
"learning_rate": 0.002833333333333333,
"loss": 2.2813,
"step": 1500
},
{
"epoch": 15.0,
"eval_accuracy": 0.17,
"eval_loss": 3.255617618560791,
"eval_runtime": 4.647,
"eval_samples_per_second": 21.519,
"eval_steps_per_second": 21.519,
"step": 1500
},
{
"epoch": 15.1,
"grad_norm": 1.6648482084274292,
"learning_rate": 0.00283,
"loss": 2.2499,
"step": 1510
},
{
"epoch": 15.2,
"grad_norm": 0.6352823376655579,
"learning_rate": 0.0028266666666666666,
"loss": 2.228,
"step": 1520
},
{
"epoch": 15.3,
"grad_norm": 0.6928892135620117,
"learning_rate": 0.0028233333333333335,
"loss": 2.1796,
"step": 1530
},
{
"epoch": 15.4,
"grad_norm": 0.7444634437561035,
"learning_rate": 0.00282,
"loss": 2.2923,
"step": 1540
},
{
"epoch": 15.5,
"grad_norm": 0.701443076133728,
"learning_rate": 0.0028166666666666665,
"loss": 2.2578,
"step": 1550
},
{
"epoch": 15.6,
"grad_norm": 0.5810482501983643,
"learning_rate": 0.0028133333333333335,
"loss": 2.3059,
"step": 1560
},
{
"epoch": 15.7,
"grad_norm": 0.990923285484314,
"learning_rate": 0.00281,
"loss": 2.2492,
"step": 1570
},
{
"epoch": 15.8,
"grad_norm": 0.616290807723999,
"learning_rate": 0.002806666666666667,
"loss": 2.1599,
"step": 1580
},
{
"epoch": 15.9,
"grad_norm": 0.5732624530792236,
"learning_rate": 0.0028033333333333335,
"loss": 2.2297,
"step": 1590
},
{
"epoch": 16.0,
"grad_norm": 0.9005319476127625,
"learning_rate": 0.0028,
"loss": 2.2232,
"step": 1600
},
{
"epoch": 16.0,
"eval_accuracy": 0.18,
"eval_loss": 3.5356717109680176,
"eval_runtime": 2.4287,
"eval_samples_per_second": 41.174,
"eval_steps_per_second": 41.174,
"step": 1600
},
{
"epoch": 16.1,
"grad_norm": 0.7628068923950195,
"learning_rate": 0.0027966666666666665,
"loss": 2.2383,
"step": 1610
},
{
"epoch": 16.2,
"grad_norm": 0.7052992582321167,
"learning_rate": 0.0027933333333333334,
"loss": 2.3226,
"step": 1620
},
{
"epoch": 16.3,
"grad_norm": 0.8045329451560974,
"learning_rate": 0.0027900000000000004,
"loss": 2.2594,
"step": 1630
},
{
"epoch": 16.4,
"grad_norm": 0.7999270558357239,
"learning_rate": 0.002786666666666667,
"loss": 2.2886,
"step": 1640
},
{
"epoch": 16.5,
"grad_norm": 0.9818239212036133,
"learning_rate": 0.0027833333333333334,
"loss": 2.2745,
"step": 1650
},
{
"epoch": 16.6,
"grad_norm": 1.048454999923706,
"learning_rate": 0.00278,
"loss": 2.2978,
"step": 1660
},
{
"epoch": 16.7,
"grad_norm": 0.6741579174995422,
"learning_rate": 0.002776666666666667,
"loss": 2.1957,
"step": 1670
},
{
"epoch": 16.8,
"grad_norm": 0.7675438523292542,
"learning_rate": 0.0027733333333333334,
"loss": 2.3012,
"step": 1680
},
{
"epoch": 16.9,
"grad_norm": 0.5897651314735413,
"learning_rate": 0.00277,
"loss": 2.2825,
"step": 1690
},
{
"epoch": 17.0,
"grad_norm": 1.0253489017486572,
"learning_rate": 0.002766666666666667,
"loss": 2.2332,
"step": 1700
},
{
"epoch": 17.0,
"eval_accuracy": 0.11,
"eval_loss": 3.8757708072662354,
"eval_runtime": 1.504,
"eval_samples_per_second": 66.491,
"eval_steps_per_second": 66.491,
"step": 1700
},
{
"epoch": 17.1,
"grad_norm": 0.5093202590942383,
"learning_rate": 0.0027633333333333334,
"loss": 2.2725,
"step": 1710
},
{
"epoch": 17.2,
"grad_norm": 0.7032235860824585,
"learning_rate": 0.0027600000000000003,
"loss": 2.2166,
"step": 1720
},
{
"epoch": 17.3,
"grad_norm": 0.6116345524787903,
"learning_rate": 0.002756666666666667,
"loss": 2.1844,
"step": 1730
},
{
"epoch": 17.4,
"grad_norm": 0.8476758599281311,
"learning_rate": 0.0027533333333333333,
"loss": 2.2653,
"step": 1740
},
{
"epoch": 17.5,
"grad_norm": 1.6175342798233032,
"learning_rate": 0.00275,
"loss": 2.2069,
"step": 1750
},
{
"epoch": 17.6,
"grad_norm": 1.403396487236023,
"learning_rate": 0.002746666666666667,
"loss": 2.3708,
"step": 1760
},
{
"epoch": 17.7,
"grad_norm": 3.4366719722747803,
"learning_rate": 0.0027433333333333333,
"loss": 2.2828,
"step": 1770
},
{
"epoch": 17.8,
"grad_norm": 0.8872509598731995,
"learning_rate": 0.0027400000000000002,
"loss": 2.2382,
"step": 1780
},
{
"epoch": 17.9,
"grad_norm": 3.1236143112182617,
"learning_rate": 0.0027366666666666668,
"loss": 2.3113,
"step": 1790
},
{
"epoch": 18.0,
"grad_norm": 1.0595662593841553,
"learning_rate": 0.0027333333333333333,
"loss": 2.3568,
"step": 1800
},
{
"epoch": 18.0,
"eval_accuracy": 0.13,
"eval_loss": 3.0675432682037354,
"eval_runtime": 1.5416,
"eval_samples_per_second": 64.868,
"eval_steps_per_second": 64.868,
"step": 1800
},
{
"epoch": 18.1,
"grad_norm": 0.9756940007209778,
"learning_rate": 0.0027300000000000002,
"loss": 2.2245,
"step": 1810
},
{
"epoch": 18.2,
"grad_norm": 0.7749895453453064,
"learning_rate": 0.0027266666666666667,
"loss": 2.3375,
"step": 1820
},
{
"epoch": 18.3,
"grad_norm": 0.6627314686775208,
"learning_rate": 0.0027233333333333332,
"loss": 2.2663,
"step": 1830
},
{
"epoch": 18.4,
"grad_norm": 1.011854648590088,
"learning_rate": 0.0027199999999999998,
"loss": 2.4041,
"step": 1840
},
{
"epoch": 18.5,
"grad_norm": 0.7713875770568848,
"learning_rate": 0.0027166666666666667,
"loss": 2.3269,
"step": 1850
},
{
"epoch": 18.6,
"grad_norm": 1.3139779567718506,
"learning_rate": 0.0027133333333333337,
"loss": 2.23,
"step": 1860
},
{
"epoch": 18.7,
"grad_norm": 1.9220070838928223,
"learning_rate": 0.00271,
"loss": 2.3241,
"step": 1870
},
{
"epoch": 18.8,
"grad_norm": 0.8482495546340942,
"learning_rate": 0.0027066666666666667,
"loss": 2.2784,
"step": 1880
},
{
"epoch": 18.9,
"grad_norm": 1.1331626176834106,
"learning_rate": 0.002703333333333333,
"loss": 2.3171,
"step": 1890
},
{
"epoch": 19.0,
"grad_norm": 0.986213207244873,
"learning_rate": 0.0027,
"loss": 2.2627,
"step": 1900
},
{
"epoch": 19.0,
"eval_accuracy": 0.16,
"eval_loss": 3.130782127380371,
"eval_runtime": 1.5734,
"eval_samples_per_second": 63.555,
"eval_steps_per_second": 63.555,
"step": 1900
},
{
"epoch": 19.1,
"grad_norm": 0.8398575782775879,
"learning_rate": 0.0026966666666666667,
"loss": 2.2865,
"step": 1910
},
{
"epoch": 19.2,
"grad_norm": 0.8489543199539185,
"learning_rate": 0.0026933333333333336,
"loss": 2.2557,
"step": 1920
},
{
"epoch": 19.3,
"grad_norm": 0.5991080403327942,
"learning_rate": 0.0026899999999999997,
"loss": 2.2589,
"step": 1930
},
{
"epoch": 19.4,
"grad_norm": 0.8160009384155273,
"learning_rate": 0.0026866666666666666,
"loss": 2.255,
"step": 1940
},
{
"epoch": 19.5,
"grad_norm": 0.9468734264373779,
"learning_rate": 0.0026833333333333336,
"loss": 2.2416,
"step": 1950
},
{
"epoch": 19.6,
"grad_norm": 0.9367495775222778,
"learning_rate": 0.00268,
"loss": 2.2928,
"step": 1960
},
{
"epoch": 19.7,
"grad_norm": 0.7771756649017334,
"learning_rate": 0.0026766666666666666,
"loss": 2.2837,
"step": 1970
},
{
"epoch": 19.8,
"grad_norm": 0.5956035852432251,
"learning_rate": 0.002673333333333333,
"loss": 2.3056,
"step": 1980
},
{
"epoch": 19.9,
"grad_norm": 0.8923712372779846,
"learning_rate": 0.00267,
"loss": 2.2434,
"step": 1990
},
{
"epoch": 20.0,
"grad_norm": 0.7316953539848328,
"learning_rate": 0.0026666666666666666,
"loss": 2.2528,
"step": 2000
},
{
"epoch": 20.0,
"eval_accuracy": 0.1,
"eval_loss": 2.774110794067383,
"eval_runtime": 2.0095,
"eval_samples_per_second": 49.763,
"eval_steps_per_second": 49.763,
"step": 2000
},
{
"epoch": 20.1,
"grad_norm": 1.061279058456421,
"learning_rate": 0.0026633333333333335,
"loss": 2.199,
"step": 2010
},
{
"epoch": 20.2,
"grad_norm": 0.8505630493164062,
"learning_rate": 0.00266,
"loss": 2.3343,
"step": 2020
},
{
"epoch": 20.3,
"grad_norm": 4.665825366973877,
"learning_rate": 0.0026566666666666666,
"loss": 2.1988,
"step": 2030
},
{
"epoch": 20.4,
"grad_norm": 0.6855554580688477,
"learning_rate": 0.0026533333333333335,
"loss": 2.1726,
"step": 2040
},
{
"epoch": 20.5,
"grad_norm": 0.9635552167892456,
"learning_rate": 0.00265,
"loss": 2.3019,
"step": 2050
},
{
"epoch": 20.6,
"grad_norm": 1.7395892143249512,
"learning_rate": 0.002646666666666667,
"loss": 2.1493,
"step": 2060
},
{
"epoch": 20.7,
"grad_norm": 1.992548942565918,
"learning_rate": 0.0026433333333333335,
"loss": 2.1646,
"step": 2070
},
{
"epoch": 20.8,
"grad_norm": 0.7224474549293518,
"learning_rate": 0.00264,
"loss": 2.1725,
"step": 2080
},
{
"epoch": 20.9,
"grad_norm": 0.7668882012367249,
"learning_rate": 0.002636666666666667,
"loss": 2.1463,
"step": 2090
},
{
"epoch": 21.0,
"grad_norm": 1.1540876626968384,
"learning_rate": 0.0026333333333333334,
"loss": 2.2039,
"step": 2100
},
{
"epoch": 21.0,
"eval_accuracy": 0.14,
"eval_loss": 2.7257165908813477,
"eval_runtime": 3.321,
"eval_samples_per_second": 30.111,
"eval_steps_per_second": 30.111,
"step": 2100
},
{
"epoch": 21.1,
"grad_norm": 1.0657505989074707,
"learning_rate": 0.00263,
"loss": 2.1861,
"step": 2110
},
{
"epoch": 21.2,
"grad_norm": 0.8397789597511292,
"learning_rate": 0.0026266666666666665,
"loss": 2.2868,
"step": 2120
},
{
"epoch": 21.3,
"grad_norm": 5.241576194763184,
"learning_rate": 0.0026233333333333334,
"loss": 2.0992,
"step": 2130
},
{
"epoch": 21.4,
"grad_norm": 1.619246006011963,
"learning_rate": 0.00262,
"loss": 2.1577,
"step": 2140
},
{
"epoch": 21.5,
"grad_norm": 0.8214967250823975,
"learning_rate": 0.002616666666666667,
"loss": 2.2025,
"step": 2150
},
{
"epoch": 21.6,
"grad_norm": 0.8782535195350647,
"learning_rate": 0.0026133333333333334,
"loss": 2.2666,
"step": 2160
},
{
"epoch": 21.7,
"grad_norm": 0.6835685968399048,
"learning_rate": 0.00261,
"loss": 2.3608,
"step": 2170
},
{
"epoch": 21.8,
"grad_norm": 0.7960027456283569,
"learning_rate": 0.002606666666666667,
"loss": 2.236,
"step": 2180
},
{
"epoch": 21.9,
"grad_norm": 0.789070188999176,
"learning_rate": 0.0026033333333333334,
"loss": 2.214,
"step": 2190
},
{
"epoch": 22.0,
"grad_norm": 0.8337671756744385,
"learning_rate": 0.0026000000000000003,
"loss": 2.389,
"step": 2200
},
{
"epoch": 22.0,
"eval_accuracy": 0.08,
"eval_loss": 2.6245250701904297,
"eval_runtime": 14.6732,
"eval_samples_per_second": 6.815,
"eval_steps_per_second": 6.815,
"step": 2200
},
{
"epoch": 22.1,
"grad_norm": 0.6612998247146606,
"learning_rate": 0.002596666666666667,
"loss": 2.1623,
"step": 2210
},
{
"epoch": 22.2,
"grad_norm": 0.5823114514350891,
"learning_rate": 0.0025933333333333333,
"loss": 2.2221,
"step": 2220
},
{
"epoch": 22.3,
"grad_norm": 0.6718313694000244,
"learning_rate": 0.00259,
"loss": 2.2401,
"step": 2230
},
{
"epoch": 22.4,
"grad_norm": 1.033048391342163,
"learning_rate": 0.002586666666666667,
"loss": 2.2093,
"step": 2240
},
{
"epoch": 22.5,
"grad_norm": 0.9569495320320129,
"learning_rate": 0.0025833333333333337,
"loss": 2.1865,
"step": 2250
},
{
"epoch": 22.6,
"grad_norm": 0.9927944540977478,
"learning_rate": 0.00258,
"loss": 2.2509,
"step": 2260
},
{
"epoch": 22.7,
"grad_norm": 1.255365014076233,
"learning_rate": 0.0025766666666666668,
"loss": 2.2218,
"step": 2270
},
{
"epoch": 22.8,
"grad_norm": 0.8008034229278564,
"learning_rate": 0.0025733333333333333,
"loss": 2.3508,
"step": 2280
},
{
"epoch": 22.9,
"grad_norm": 1.643989086151123,
"learning_rate": 0.0025700000000000002,
"loss": 2.3481,
"step": 2290
},
{
"epoch": 23.0,
"grad_norm": 0.7342652678489685,
"learning_rate": 0.0025666666666666667,
"loss": 2.31,
"step": 2300
},
{
"epoch": 23.0,
"eval_accuracy": 0.1,
"eval_loss": 3.1869921684265137,
"eval_runtime": 3.5166,
"eval_samples_per_second": 28.437,
"eval_steps_per_second": 28.437,
"step": 2300
},
{
"epoch": 23.1,
"grad_norm": 4.475462913513184,
"learning_rate": 0.0025633333333333333,
"loss": 2.258,
"step": 2310
},
{
"epoch": 23.2,
"grad_norm": 1.1528602838516235,
"learning_rate": 0.00256,
"loss": 2.2602,
"step": 2320
},
{
"epoch": 23.3,
"grad_norm": 0.8095310926437378,
"learning_rate": 0.0025566666666666667,
"loss": 2.1602,
"step": 2330
},
{
"epoch": 23.4,
"grad_norm": 1.0588278770446777,
"learning_rate": 0.0025533333333333337,
"loss": 2.1524,
"step": 2340
},
{
"epoch": 23.5,
"grad_norm": 0.8519811630249023,
"learning_rate": 0.00255,
"loss": 2.1634,
"step": 2350
},
{
"epoch": 23.6,
"grad_norm": 0.8368690013885498,
"learning_rate": 0.0025466666666666667,
"loss": 2.1851,
"step": 2360
},
{
"epoch": 23.7,
"grad_norm": 0.6062741875648499,
"learning_rate": 0.002543333333333333,
"loss": 2.1097,
"step": 2370
},
{
"epoch": 23.8,
"grad_norm": 1.054940938949585,
"learning_rate": 0.00254,
"loss": 2.2839,
"step": 2380
},
{
"epoch": 23.9,
"grad_norm": 2.2694478034973145,
"learning_rate": 0.0025366666666666667,
"loss": 2.1951,
"step": 2390
},
{
"epoch": 24.0,
"grad_norm": 1.1363869905471802,
"learning_rate": 0.002533333333333333,
"loss": 2.1471,
"step": 2400
},
{
"epoch": 24.0,
"eval_accuracy": 0.02,
"eval_loss": 2.8313043117523193,
"eval_runtime": 8.5714,
"eval_samples_per_second": 11.667,
"eval_steps_per_second": 11.667,
"step": 2400
},
{
"epoch": 24.1,
"grad_norm": 0.9821159839630127,
"learning_rate": 0.00253,
"loss": 2.296,
"step": 2410
},
{
"epoch": 24.2,
"grad_norm": 18.666667938232422,
"learning_rate": 0.0025266666666666666,
"loss": 2.194,
"step": 2420
},
{
"epoch": 24.3,
"grad_norm": 0.906703531742096,
"learning_rate": 0.0025233333333333336,
"loss": 2.1612,
"step": 2430
},
{
"epoch": 24.4,
"grad_norm": 0.8759214282035828,
"learning_rate": 0.00252,
"loss": 2.3219,
"step": 2440
},
{
"epoch": 24.5,
"grad_norm": 2.061927556991577,
"learning_rate": 0.0025166666666666666,
"loss": 2.2479,
"step": 2450
},
{
"epoch": 24.6,
"grad_norm": 1.9357784986495972,
"learning_rate": 0.002513333333333333,
"loss": 2.1494,
"step": 2460
},
{
"epoch": 24.7,
"grad_norm": 0.7855737209320068,
"learning_rate": 0.00251,
"loss": 2.1368,
"step": 2470
},
{
"epoch": 24.8,
"grad_norm": 1.1116645336151123,
"learning_rate": 0.002506666666666667,
"loss": 2.167,
"step": 2480
},
{
"epoch": 24.9,
"grad_norm": 1.0230302810668945,
"learning_rate": 0.0025033333333333335,
"loss": 2.1518,
"step": 2490
},
{
"epoch": 25.0,
"grad_norm": 0.7969598174095154,
"learning_rate": 0.0025,
"loss": 2.1658,
"step": 2500
},
{
"epoch": 25.0,
"eval_accuracy": 0.11,
"eval_loss": 2.9322524070739746,
"eval_runtime": 14.5485,
"eval_samples_per_second": 6.874,
"eval_steps_per_second": 6.874,
"step": 2500
},
{
"epoch": 25.1,
"grad_norm": 1.1143075227737427,
"learning_rate": 0.0024966666666666666,
"loss": 2.1519,
"step": 2510
},
{
"epoch": 25.2,
"grad_norm": 1.9733251333236694,
"learning_rate": 0.0024933333333333335,
"loss": 2.2545,
"step": 2520
},
{
"epoch": 25.3,
"grad_norm": 0.7734049558639526,
"learning_rate": 0.00249,
"loss": 2.3188,
"step": 2530
},
{
"epoch": 25.4,
"grad_norm": 0.8898696303367615,
"learning_rate": 0.0024866666666666665,
"loss": 2.3433,
"step": 2540
},
{
"epoch": 25.5,
"grad_norm": 0.9042370319366455,
"learning_rate": 0.002483333333333333,
"loss": 2.1533,
"step": 2550
},
{
"epoch": 25.6,
"grad_norm": 0.7616782784461975,
"learning_rate": 0.00248,
"loss": 2.1676,
"step": 2560
},
{
"epoch": 25.7,
"grad_norm": 1.0529074668884277,
"learning_rate": 0.002476666666666667,
"loss": 2.1489,
"step": 2570
},
{
"epoch": 25.8,
"grad_norm": 0.6499335765838623,
"learning_rate": 0.0024733333333333335,
"loss": 2.1537,
"step": 2580
},
{
"epoch": 25.9,
"grad_norm": 0.8011136054992676,
"learning_rate": 0.00247,
"loss": 2.1297,
"step": 2590
},
{
"epoch": 26.0,
"grad_norm": 0.7980877757072449,
"learning_rate": 0.0024666666666666665,
"loss": 2.0946,
"step": 2600
},
{
"epoch": 26.0,
"eval_accuracy": 0.14,
"eval_loss": 2.8371801376342773,
"eval_runtime": 20.2418,
"eval_samples_per_second": 4.94,
"eval_steps_per_second": 4.94,
"step": 2600
},
{
"epoch": 26.1,
"grad_norm": 1.0512415170669556,
"learning_rate": 0.0024633333333333334,
"loss": 2.0609,
"step": 2610
},
{
"epoch": 26.2,
"grad_norm": 0.7277994155883789,
"learning_rate": 0.00246,
"loss": 2.1957,
"step": 2620
},
{
"epoch": 26.3,
"grad_norm": 0.7225540280342102,
"learning_rate": 0.002456666666666667,
"loss": 2.2818,
"step": 2630
},
{
"epoch": 26.4,
"grad_norm": 0.833447277545929,
"learning_rate": 0.0024533333333333334,
"loss": 2.3521,
"step": 2640
},
{
"epoch": 26.5,
"grad_norm": 0.6532344222068787,
"learning_rate": 0.00245,
"loss": 2.1103,
"step": 2650
},
{
"epoch": 26.6,
"grad_norm": 1.618382215499878,
"learning_rate": 0.002446666666666667,
"loss": 2.1979,
"step": 2660
},
{
"epoch": 26.7,
"grad_norm": 0.8852543830871582,
"learning_rate": 0.0024433333333333334,
"loss": 2.224,
"step": 2670
},
{
"epoch": 26.8,
"grad_norm": 0.7051679491996765,
"learning_rate": 0.00244,
"loss": 2.2168,
"step": 2680
},
{
"epoch": 26.9,
"grad_norm": 0.6945533752441406,
"learning_rate": 0.0024366666666666664,
"loss": 2.1522,
"step": 2690
},
{
"epoch": 27.0,
"grad_norm": 0.8904722929000854,
"learning_rate": 0.0024333333333333334,
"loss": 2.0924,
"step": 2700
},
{
"epoch": 27.0,
"eval_accuracy": 0.16,
"eval_loss": 2.740328073501587,
"eval_runtime": 2.5835,
"eval_samples_per_second": 38.707,
"eval_steps_per_second": 38.707,
"step": 2700
},
{
"epoch": 27.1,
"grad_norm": 1.0091406106948853,
"learning_rate": 0.0024300000000000003,
"loss": 2.143,
"step": 2710
},
{
"epoch": 27.2,
"grad_norm": 1.1486680507659912,
"learning_rate": 0.002426666666666667,
"loss": 2.2661,
"step": 2720
},
{
"epoch": 27.3,
"grad_norm": 1.3828904628753662,
"learning_rate": 0.0024233333333333333,
"loss": 2.0716,
"step": 2730
},
{
"epoch": 27.4,
"grad_norm": 0.7337507009506226,
"learning_rate": 0.00242,
"loss": 2.2243,
"step": 2740
},
{
"epoch": 27.5,
"grad_norm": 0.7662250399589539,
"learning_rate": 0.002416666666666667,
"loss": 2.2204,
"step": 2750
},
{
"epoch": 27.6,
"grad_norm": 1.3254953622817993,
"learning_rate": 0.0024133333333333333,
"loss": 2.1401,
"step": 2760
},
{
"epoch": 27.7,
"grad_norm": 1.6423826217651367,
"learning_rate": 0.0024100000000000002,
"loss": 2.1909,
"step": 2770
},
{
"epoch": 27.8,
"grad_norm": 2.5181260108947754,
"learning_rate": 0.0024066666666666668,
"loss": 2.2194,
"step": 2780
},
{
"epoch": 27.9,
"grad_norm": 1.975514531135559,
"learning_rate": 0.0024033333333333333,
"loss": 2.1208,
"step": 2790
},
{
"epoch": 28.0,
"grad_norm": 1.0756447315216064,
"learning_rate": 0.0024000000000000002,
"loss": 2.2634,
"step": 2800
},
{
"epoch": 28.0,
"eval_accuracy": 0.14,
"eval_loss": 2.899129867553711,
"eval_runtime": 1.6216,
"eval_samples_per_second": 61.667,
"eval_steps_per_second": 61.667,
"step": 2800
},
{
"epoch": 28.1,
"grad_norm": 0.6582184433937073,
"learning_rate": 0.0023966666666666667,
"loss": 2.1557,
"step": 2810
},
{
"epoch": 28.2,
"grad_norm": 1.008514642715454,
"learning_rate": 0.0023933333333333337,
"loss": 2.1055,
"step": 2820
},
{
"epoch": 28.3,
"grad_norm": 1.3647173643112183,
"learning_rate": 0.0023899999999999998,
"loss": 2.2375,
"step": 2830
},
{
"epoch": 28.4,
"grad_norm": 1.080275058746338,
"learning_rate": 0.0023866666666666667,
"loss": 2.0351,
"step": 2840
},
{
"epoch": 28.5,
"grad_norm": 0.8758491277694702,
"learning_rate": 0.0023833333333333332,
"loss": 2.1304,
"step": 2850
},
{
"epoch": 28.6,
"grad_norm": 1.8762778043746948,
"learning_rate": 0.00238,
"loss": 2.0213,
"step": 2860
},
{
"epoch": 28.7,
"grad_norm": 0.9291443228721619,
"learning_rate": 0.0023766666666666667,
"loss": 2.312,
"step": 2870
},
{
"epoch": 28.8,
"grad_norm": 0.8882524967193604,
"learning_rate": 0.002373333333333333,
"loss": 2.2335,
"step": 2880
},
{
"epoch": 28.9,
"grad_norm": 2.439899444580078,
"learning_rate": 0.00237,
"loss": 2.1726,
"step": 2890
},
{
"epoch": 29.0,
"grad_norm": 0.9601397514343262,
"learning_rate": 0.0023666666666666667,
"loss": 2.1897,
"step": 2900
},
{
"epoch": 29.0,
"eval_accuracy": 0.13,
"eval_loss": 2.877793073654175,
"eval_runtime": 1.4621,
"eval_samples_per_second": 68.395,
"eval_steps_per_second": 68.395,
"step": 2900
},
{
"epoch": 29.1,
"grad_norm": 1.6170096397399902,
"learning_rate": 0.0023633333333333336,
"loss": 2.19,
"step": 2910
},
{
"epoch": 29.2,
"grad_norm": 1.087302803993225,
"learning_rate": 0.00236,
"loss": 2.1638,
"step": 2920
},
{
"epoch": 29.3,
"grad_norm": 1.0109162330627441,
"learning_rate": 0.0023566666666666666,
"loss": 2.2992,
"step": 2930
},
{
"epoch": 29.4,
"grad_norm": 0.9964456558227539,
"learning_rate": 0.0023533333333333336,
"loss": 2.2524,
"step": 2940
},
{
"epoch": 29.5,
"grad_norm": 0.7667860984802246,
"learning_rate": 0.00235,
"loss": 2.1753,
"step": 2950
},
{
"epoch": 29.6,
"grad_norm": 0.9033471941947937,
"learning_rate": 0.002346666666666667,
"loss": 2.1623,
"step": 2960
},
{
"epoch": 29.7,
"grad_norm": 0.9565698504447937,
"learning_rate": 0.002343333333333333,
"loss": 2.1097,
"step": 2970
},
{
"epoch": 29.8,
"grad_norm": 0.7799054384231567,
"learning_rate": 0.00234,
"loss": 1.966,
"step": 2980
},
{
"epoch": 29.9,
"grad_norm": 1.8788676261901855,
"learning_rate": 0.0023366666666666666,
"loss": 2.1329,
"step": 2990
},
{
"epoch": 30.0,
"grad_norm": 1.1009427309036255,
"learning_rate": 0.0023333333333333335,
"loss": 2.144,
"step": 3000
},
{
"epoch": 30.0,
"eval_accuracy": 0.15,
"eval_loss": 2.604327917098999,
"eval_runtime": 17.9498,
"eval_samples_per_second": 5.571,
"eval_steps_per_second": 5.571,
"step": 3000
},
{
"epoch": 30.1,
"grad_norm": 1.678131341934204,
"learning_rate": 0.00233,
"loss": 1.8398,
"step": 3010
},
{
"epoch": 30.2,
"grad_norm": 1.5525128841400146,
"learning_rate": 0.0023266666666666666,
"loss": 2.3239,
"step": 3020
},
{
"epoch": 30.3,
"grad_norm": 5.229913711547852,
"learning_rate": 0.0023233333333333335,
"loss": 2.0991,
"step": 3030
},
{
"epoch": 30.4,
"grad_norm": 7.659727096557617,
"learning_rate": 0.00232,
"loss": 2.2165,
"step": 3040
},
{
"epoch": 30.5,
"grad_norm": 0.9004424214363098,
"learning_rate": 0.002316666666666667,
"loss": 2.1321,
"step": 3050
},
{
"epoch": 30.6,
"grad_norm": 0.951036810874939,
"learning_rate": 0.0023133333333333335,
"loss": 2.2547,
"step": 3060
},
{
"epoch": 30.7,
"grad_norm": 1.09541654586792,
"learning_rate": 0.00231,
"loss": 2.2086,
"step": 3070
},
{
"epoch": 30.8,
"grad_norm": 1.0075805187225342,
"learning_rate": 0.0023066666666666665,
"loss": 2.1946,
"step": 3080
},
{
"epoch": 30.9,
"grad_norm": 0.9394136071205139,
"learning_rate": 0.0023033333333333334,
"loss": 2.0717,
"step": 3090
},
{
"epoch": 31.0,
"grad_norm": 16.980363845825195,
"learning_rate": 0.0023000000000000004,
"loss": 2.108,
"step": 3100
},
{
"epoch": 31.0,
"eval_accuracy": 0.1,
"eval_loss": 2.9230871200561523,
"eval_runtime": 2.0771,
"eval_samples_per_second": 48.144,
"eval_steps_per_second": 48.144,
"step": 3100
},
{
"epoch": 31.1,
"grad_norm": 0.7811866998672485,
"learning_rate": 0.0022966666666666665,
"loss": 2.0036,
"step": 3110
},
{
"epoch": 31.2,
"grad_norm": 1.2719967365264893,
"learning_rate": 0.0022933333333333334,
"loss": 2.1995,
"step": 3120
},
{
"epoch": 31.3,
"grad_norm": 1.078188180923462,
"learning_rate": 0.00229,
"loss": 2.1495,
"step": 3130
},
{
"epoch": 31.4,
"grad_norm": 0.8753488659858704,
"learning_rate": 0.002286666666666667,
"loss": 2.1775,
"step": 3140
},
{
"epoch": 31.5,
"grad_norm": 2.4827558994293213,
"learning_rate": 0.0022833333333333334,
"loss": 2.1295,
"step": 3150
},
{
"epoch": 31.6,
"grad_norm": 0.9391091465950012,
"learning_rate": 0.00228,
"loss": 2.2033,
"step": 3160
},
{
"epoch": 31.7,
"grad_norm": 1.3996204137802124,
"learning_rate": 0.0022766666666666664,
"loss": 2.1935,
"step": 3170
},
{
"epoch": 31.8,
"grad_norm": 1.8268276453018188,
"learning_rate": 0.0022733333333333334,
"loss": 2.1358,
"step": 3180
},
{
"epoch": 31.9,
"grad_norm": 0.9824120998382568,
"learning_rate": 0.0022700000000000003,
"loss": 2.2574,
"step": 3190
},
{
"epoch": 32.0,
"grad_norm": 1.0939769744873047,
"learning_rate": 0.002266666666666667,
"loss": 2.0792,
"step": 3200
},
{
"epoch": 32.0,
"eval_accuracy": 0.12,
"eval_loss": 2.8421480655670166,
"eval_runtime": 16.1564,
"eval_samples_per_second": 6.19,
"eval_steps_per_second": 6.19,
"step": 3200
},
{
"epoch": 32.1,
"grad_norm": 2.173068046569824,
"learning_rate": 0.0022633333333333333,
"loss": 2.1458,
"step": 3210
},
{
"epoch": 32.2,
"grad_norm": 1.260406255722046,
"learning_rate": 0.00226,
"loss": 2.2069,
"step": 3220
},
{
"epoch": 32.3,
"grad_norm": 2.277165412902832,
"learning_rate": 0.002256666666666667,
"loss": 2.0435,
"step": 3230
},
{
"epoch": 32.4,
"grad_norm": 1.674475073814392,
"learning_rate": 0.0022533333333333333,
"loss": 2.0519,
"step": 3240
},
{
"epoch": 32.5,
"grad_norm": 3.267179250717163,
"learning_rate": 0.0022500000000000003,
"loss": 2.0692,
"step": 3250
},
{
"epoch": 32.6,
"grad_norm": 1.6023820638656616,
"learning_rate": 0.0022466666666666668,
"loss": 2.1639,
"step": 3260
},
{
"epoch": 32.7,
"grad_norm": 1.2279607057571411,
"learning_rate": 0.0022433333333333333,
"loss": 2.2729,
"step": 3270
},
{
"epoch": 32.8,
"grad_norm": 1.635674238204956,
"learning_rate": 0.0022400000000000002,
"loss": 2.0502,
"step": 3280
},
{
"epoch": 32.9,
"grad_norm": 1.9051593542099,
"learning_rate": 0.0022366666666666668,
"loss": 2.1046,
"step": 3290
},
{
"epoch": 33.0,
"grad_norm": 2.705409288406372,
"learning_rate": 0.0022333333333333333,
"loss": 2.1552,
"step": 3300
},
{
"epoch": 33.0,
"eval_accuracy": 0.12,
"eval_loss": 2.8105697631835938,
"eval_runtime": 1.4693,
"eval_samples_per_second": 68.06,
"eval_steps_per_second": 68.06,
"step": 3300
},
{
"epoch": 33.1,
"grad_norm": 1.1642463207244873,
"learning_rate": 0.0022299999999999998,
"loss": 2.0948,
"step": 3310
},
{
"epoch": 33.2,
"grad_norm": 1.0376132726669312,
"learning_rate": 0.0022266666666666667,
"loss": 1.9741,
"step": 3320
},
{
"epoch": 33.3,
"grad_norm": 0.9662061929702759,
"learning_rate": 0.0022233333333333337,
"loss": 2.2141,
"step": 3330
},
{
"epoch": 33.4,
"grad_norm": 2.136995315551758,
"learning_rate": 0.00222,
"loss": 2.1053,
"step": 3340
},
{
"epoch": 33.5,
"grad_norm": 1.45195734500885,
"learning_rate": 0.0022166666666666667,
"loss": 1.9399,
"step": 3350
},
{
"epoch": 33.6,
"grad_norm": 3.21307635307312,
"learning_rate": 0.002213333333333333,
"loss": 2.0541,
"step": 3360
},
{
"epoch": 33.7,
"grad_norm": 3.3870184421539307,
"learning_rate": 0.00221,
"loss": 2.2113,
"step": 3370
},
{
"epoch": 33.8,
"grad_norm": 1.0837563276290894,
"learning_rate": 0.0022066666666666667,
"loss": 2.1593,
"step": 3380
},
{
"epoch": 33.9,
"grad_norm": 0.9785754084587097,
"learning_rate": 0.0022033333333333336,
"loss": 1.9864,
"step": 3390
},
{
"epoch": 34.0,
"grad_norm": 0.8373335599899292,
"learning_rate": 0.0021999999999999997,
"loss": 1.9701,
"step": 3400
},
{
"epoch": 34.0,
"eval_accuracy": 0.11,
"eval_loss": 2.8279080390930176,
"eval_runtime": 1.9248,
"eval_samples_per_second": 51.952,
"eval_steps_per_second": 51.952,
"step": 3400
},
{
"epoch": 34.1,
"grad_norm": 3.9834160804748535,
"learning_rate": 0.0021966666666666666,
"loss": 1.9581,
"step": 3410
},
{
"epoch": 34.2,
"grad_norm": 2.2129085063934326,
"learning_rate": 0.0021933333333333336,
"loss": 2.1602,
"step": 3420
},
{
"epoch": 34.3,
"grad_norm": 1.1896631717681885,
"learning_rate": 0.00219,
"loss": 1.9392,
"step": 3430
},
{
"epoch": 34.4,
"grad_norm": 2.016221523284912,
"learning_rate": 0.0021866666666666666,
"loss": 2.0553,
"step": 3440
},
{
"epoch": 34.5,
"grad_norm": 4.773040771484375,
"learning_rate": 0.002183333333333333,
"loss": 2.0734,
"step": 3450
},
{
"epoch": 34.6,
"grad_norm": 5.7598700523376465,
"learning_rate": 0.00218,
"loss": 2.2854,
"step": 3460
},
{
"epoch": 34.7,
"grad_norm": 1.4225116968154907,
"learning_rate": 0.0021766666666666666,
"loss": 2.0867,
"step": 3470
},
{
"epoch": 34.8,
"grad_norm": 1.354988932609558,
"learning_rate": 0.0021733333333333335,
"loss": 2.2302,
"step": 3480
},
{
"epoch": 34.9,
"grad_norm": 1.966841220855713,
"learning_rate": 0.00217,
"loss": 2.1435,
"step": 3490
},
{
"epoch": 35.0,
"grad_norm": 1.5340888500213623,
"learning_rate": 0.0021666666666666666,
"loss": 1.9291,
"step": 3500
},
{
"epoch": 35.0,
"eval_accuracy": 0.2,
"eval_loss": 3.095371961593628,
"eval_runtime": 1.5179,
"eval_samples_per_second": 65.88,
"eval_steps_per_second": 65.88,
"step": 3500
},
{
"epoch": 35.1,
"grad_norm": 0.9103881120681763,
"learning_rate": 0.0021633333333333335,
"loss": 2.0579,
"step": 3510
},
{
"epoch": 35.2,
"grad_norm": 1.3390625715255737,
"learning_rate": 0.00216,
"loss": 2.1574,
"step": 3520
},
{
"epoch": 35.3,
"grad_norm": 1.6019049882888794,
"learning_rate": 0.002156666666666667,
"loss": 2.1393,
"step": 3530
},
{
"epoch": 35.4,
"grad_norm": 1.694638967514038,
"learning_rate": 0.002153333333333333,
"loss": 1.8902,
"step": 3540
},
{
"epoch": 35.5,
"grad_norm": 0.9266729354858398,
"learning_rate": 0.00215,
"loss": 2.1477,
"step": 3550
},
{
"epoch": 35.6,
"grad_norm": 1.482827067375183,
"learning_rate": 0.0021466666666666665,
"loss": 2.2807,
"step": 3560
},
{
"epoch": 35.7,
"grad_norm": 1.5569509267807007,
"learning_rate": 0.0021433333333333335,
"loss": 1.9552,
"step": 3570
},
{
"epoch": 35.8,
"grad_norm": 2.367547035217285,
"learning_rate": 0.00214,
"loss": 1.9954,
"step": 3580
},
{
"epoch": 35.9,
"grad_norm": 6.488295555114746,
"learning_rate": 0.0021366666666666665,
"loss": 1.9197,
"step": 3590
},
{
"epoch": 36.0,
"grad_norm": 2.1058995723724365,
"learning_rate": 0.0021333333333333334,
"loss": 2.0341,
"step": 3600
},
{
"epoch": 36.0,
"eval_accuracy": 0.14,
"eval_loss": 3.829360246658325,
"eval_runtime": 1.4462,
"eval_samples_per_second": 69.145,
"eval_steps_per_second": 69.145,
"step": 3600
},
{
"epoch": 36.1,
"grad_norm": 2.136566162109375,
"learning_rate": 0.00213,
"loss": 2.0017,
"step": 3610
},
{
"epoch": 36.2,
"grad_norm": 3.5907399654388428,
"learning_rate": 0.002126666666666667,
"loss": 2.0714,
"step": 3620
},
{
"epoch": 36.3,
"grad_norm": 1.7881414890289307,
"learning_rate": 0.0021233333333333334,
"loss": 1.892,
"step": 3630
},
{
"epoch": 36.4,
"grad_norm": 2.1000165939331055,
"learning_rate": 0.00212,
"loss": 1.9525,
"step": 3640
},
{
"epoch": 36.5,
"grad_norm": 1.9690414667129517,
"learning_rate": 0.002116666666666667,
"loss": 2.1597,
"step": 3650
},
{
"epoch": 36.6,
"grad_norm": 18.85406494140625,
"learning_rate": 0.0021133333333333334,
"loss": 2.0152,
"step": 3660
},
{
"epoch": 36.7,
"grad_norm": 1.5097402334213257,
"learning_rate": 0.0021100000000000003,
"loss": 2.1268,
"step": 3670
},
{
"epoch": 36.8,
"grad_norm": 1.0894497632980347,
"learning_rate": 0.0021066666666666664,
"loss": 1.9798,
"step": 3680
},
{
"epoch": 36.9,
"grad_norm": 1.648740530014038,
"learning_rate": 0.0021033333333333334,
"loss": 2.0881,
"step": 3690
},
{
"epoch": 37.0,
"grad_norm": 1.3611383438110352,
"learning_rate": 0.0021,
"loss": 1.9165,
"step": 3700
},
{
"epoch": 37.0,
"eval_accuracy": 0.11,
"eval_loss": 4.528919219970703,
"eval_runtime": 1.2924,
"eval_samples_per_second": 77.378,
"eval_steps_per_second": 77.378,
"step": 3700
},
{
"epoch": 37.1,
"grad_norm": 1.7880363464355469,
"learning_rate": 0.002096666666666667,
"loss": 1.9742,
"step": 3710
},
{
"epoch": 37.2,
"grad_norm": 2.8415615558624268,
"learning_rate": 0.0020933333333333333,
"loss": 1.895,
"step": 3720
},
{
"epoch": 37.3,
"grad_norm": 1.9049543142318726,
"learning_rate": 0.00209,
"loss": 2.0672,
"step": 3730
},
{
"epoch": 37.4,
"grad_norm": 2.0513916015625,
"learning_rate": 0.002086666666666667,
"loss": 2.0711,
"step": 3740
},
{
"epoch": 37.5,
"grad_norm": 3.3003621101379395,
"learning_rate": 0.0020833333333333333,
"loss": 1.9041,
"step": 3750
},
{
"epoch": 37.6,
"grad_norm": 1.8238269090652466,
"learning_rate": 0.0020800000000000003,
"loss": 1.7664,
"step": 3760
},
{
"epoch": 37.7,
"grad_norm": 7.668329238891602,
"learning_rate": 0.0020766666666666668,
"loss": 2.0638,
"step": 3770
},
{
"epoch": 37.8,
"grad_norm": 3.996469497680664,
"learning_rate": 0.0020733333333333333,
"loss": 2.1055,
"step": 3780
},
{
"epoch": 37.9,
"grad_norm": 2.3909971714019775,
"learning_rate": 0.00207,
"loss": 2.1815,
"step": 3790
},
{
"epoch": 38.0,
"grad_norm": 1.826292634010315,
"learning_rate": 0.0020666666666666667,
"loss": 1.9736,
"step": 3800
},
{
"epoch": 38.0,
"eval_accuracy": 0.14,
"eval_loss": 3.008984088897705,
"eval_runtime": 10.9545,
"eval_samples_per_second": 9.129,
"eval_steps_per_second": 9.129,
"step": 3800
},
{
"epoch": 38.1,
"grad_norm": 1.2425639629364014,
"learning_rate": 0.0020633333333333337,
"loss": 1.9483,
"step": 3810
},
{
"epoch": 38.2,
"grad_norm": 1.175968885421753,
"learning_rate": 0.00206,
"loss": 2.0578,
"step": 3820
},
{
"epoch": 38.3,
"grad_norm": 1.353892207145691,
"learning_rate": 0.0020566666666666667,
"loss": 2.0149,
"step": 3830
},
{
"epoch": 38.4,
"grad_norm": 4.131348609924316,
"learning_rate": 0.0020533333333333332,
"loss": 1.9459,
"step": 3840
},
{
"epoch": 38.5,
"grad_norm": 0.8871080875396729,
"learning_rate": 0.00205,
"loss": 2.1865,
"step": 3850
},
{
"epoch": 38.6,
"grad_norm": 1.6456680297851562,
"learning_rate": 0.0020466666666666667,
"loss": 2.1644,
"step": 3860
},
{
"epoch": 38.7,
"grad_norm": 2.714493751525879,
"learning_rate": 0.002043333333333333,
"loss": 2.0765,
"step": 3870
},
{
"epoch": 38.8,
"grad_norm": 2.0388987064361572,
"learning_rate": 0.00204,
"loss": 2.1691,
"step": 3880
},
{
"epoch": 38.9,
"grad_norm": 3.4107553958892822,
"learning_rate": 0.0020366666666666667,
"loss": 2.0441,
"step": 3890
},
{
"epoch": 39.0,
"grad_norm": 0.9831299781799316,
"learning_rate": 0.0020333333333333336,
"loss": 1.9811,
"step": 3900
},
{
"epoch": 39.0,
"eval_accuracy": 0.14,
"eval_loss": 5.389962673187256,
"eval_runtime": 1.4328,
"eval_samples_per_second": 69.795,
"eval_steps_per_second": 69.795,
"step": 3900
},
{
"epoch": 39.1,
"grad_norm": 2.0271992683410645,
"learning_rate": 0.00203,
"loss": 1.9809,
"step": 3910
},
{
"epoch": 39.2,
"grad_norm": 1.5080064535140991,
"learning_rate": 0.0020266666666666666,
"loss": 2.2516,
"step": 3920
},
{
"epoch": 39.3,
"grad_norm": 1.161217451095581,
"learning_rate": 0.002023333333333333,
"loss": 1.9206,
"step": 3930
},
{
"epoch": 39.4,
"grad_norm": 1.4843965768814087,
"learning_rate": 0.00202,
"loss": 1.8808,
"step": 3940
},
{
"epoch": 39.5,
"grad_norm": 1.6773492097854614,
"learning_rate": 0.002016666666666667,
"loss": 1.8472,
"step": 3950
},
{
"epoch": 39.6,
"grad_norm": 1.0647914409637451,
"learning_rate": 0.0020133333333333336,
"loss": 2.019,
"step": 3960
},
{
"epoch": 39.7,
"grad_norm": 1.747930884361267,
"learning_rate": 0.00201,
"loss": 2.1662,
"step": 3970
},
{
"epoch": 39.8,
"grad_norm": 2.1393418312072754,
"learning_rate": 0.0020066666666666666,
"loss": 2.1175,
"step": 3980
},
{
"epoch": 39.9,
"grad_norm": 2.0009078979492188,
"learning_rate": 0.0020033333333333335,
"loss": 2.0526,
"step": 3990
},
{
"epoch": 40.0,
"grad_norm": 0.8706101179122925,
"learning_rate": 0.002,
"loss": 1.9522,
"step": 4000
},
{
"epoch": 40.0,
"eval_accuracy": 0.08,
"eval_loss": 3.5710408687591553,
"eval_runtime": 11.4581,
"eval_samples_per_second": 8.727,
"eval_steps_per_second": 8.727,
"step": 4000
},
{
"epoch": 40.1,
"grad_norm": 1.443403959274292,
"learning_rate": 0.0019966666666666666,
"loss": 1.9578,
"step": 4010
},
{
"epoch": 40.2,
"grad_norm": 1.0098460912704468,
"learning_rate": 0.001993333333333333,
"loss": 1.9322,
"step": 4020
},
{
"epoch": 40.3,
"grad_norm": 2.6353437900543213,
"learning_rate": 0.00199,
"loss": 1.9057,
"step": 4030
},
{
"epoch": 40.4,
"grad_norm": 3.636230230331421,
"learning_rate": 0.001986666666666667,
"loss": 2.2036,
"step": 4040
},
{
"epoch": 40.5,
"grad_norm": 2.8781425952911377,
"learning_rate": 0.0019833333333333335,
"loss": 2.1279,
"step": 4050
},
{
"epoch": 40.6,
"grad_norm": 2.572105646133423,
"learning_rate": 0.00198,
"loss": 1.9084,
"step": 4060
},
{
"epoch": 40.7,
"grad_norm": 1.249396800994873,
"learning_rate": 0.0019766666666666665,
"loss": 1.8248,
"step": 4070
},
{
"epoch": 40.8,
"grad_norm": 7.5078959465026855,
"learning_rate": 0.0019733333333333334,
"loss": 1.911,
"step": 4080
},
{
"epoch": 40.9,
"grad_norm": 3.5880582332611084,
"learning_rate": 0.00197,
"loss": 2.0661,
"step": 4090
},
{
"epoch": 41.0,
"grad_norm": 5.388538360595703,
"learning_rate": 0.001966666666666667,
"loss": 2.047,
"step": 4100
},
{
"epoch": 41.0,
"eval_accuracy": 0.13,
"eval_loss": 3.472397565841675,
"eval_runtime": 7.0399,
"eval_samples_per_second": 14.205,
"eval_steps_per_second": 14.205,
"step": 4100
},
{
"epoch": 41.1,
"grad_norm": 1.7672760486602783,
"learning_rate": 0.0019633333333333334,
"loss": 2.1461,
"step": 4110
},
{
"epoch": 41.2,
"grad_norm": 3.0011463165283203,
"learning_rate": 0.00196,
"loss": 2.053,
"step": 4120
},
{
"epoch": 41.3,
"grad_norm": 1.1528350114822388,
"learning_rate": 0.001956666666666667,
"loss": 1.8176,
"step": 4130
},
{
"epoch": 41.4,
"grad_norm": 2.7469072341918945,
"learning_rate": 0.0019533333333333334,
"loss": 2.1321,
"step": 4140
},
{
"epoch": 41.5,
"grad_norm": 1.233780860900879,
"learning_rate": 0.0019500000000000001,
"loss": 1.9267,
"step": 4150
},
{
"epoch": 41.6,
"grad_norm": 1.0265371799468994,
"learning_rate": 0.0019466666666666666,
"loss": 1.9318,
"step": 4160
},
{
"epoch": 41.7,
"grad_norm": 1.1822024583816528,
"learning_rate": 0.0019433333333333334,
"loss": 2.0635,
"step": 4170
},
{
"epoch": 41.8,
"grad_norm": 6.102161407470703,
"learning_rate": 0.0019399999999999999,
"loss": 1.8995,
"step": 4180
},
{
"epoch": 41.9,
"grad_norm": 2.581594467163086,
"learning_rate": 0.0019366666666666666,
"loss": 1.815,
"step": 4190
},
{
"epoch": 42.0,
"grad_norm": 1.29677414894104,
"learning_rate": 0.0019333333333333336,
"loss": 1.9999,
"step": 4200
},
{
"epoch": 42.0,
"eval_accuracy": 0.11,
"eval_loss": 7.260364532470703,
"eval_runtime": 19.8343,
"eval_samples_per_second": 5.042,
"eval_steps_per_second": 5.042,
"step": 4200
},
{
"epoch": 42.1,
"grad_norm": 6.908992290496826,
"learning_rate": 0.00193,
"loss": 1.8636,
"step": 4210
},
{
"epoch": 42.2,
"grad_norm": 2.6703882217407227,
"learning_rate": 0.0019266666666666668,
"loss": 1.9093,
"step": 4220
},
{
"epoch": 42.3,
"grad_norm": 3.580500841140747,
"learning_rate": 0.0019233333333333333,
"loss": 2.0113,
"step": 4230
},
{
"epoch": 42.4,
"grad_norm": 3.339911937713623,
"learning_rate": 0.00192,
"loss": 1.8378,
"step": 4240
},
{
"epoch": 42.5,
"grad_norm": 1.8307009935379028,
"learning_rate": 0.0019166666666666666,
"loss": 2.017,
"step": 4250
},
{
"epoch": 42.6,
"grad_norm": 3.4338369369506836,
"learning_rate": 0.0019133333333333333,
"loss": 2.1168,
"step": 4260
},
{
"epoch": 42.7,
"grad_norm": 5.363007545471191,
"learning_rate": 0.0019100000000000002,
"loss": 2.1431,
"step": 4270
},
{
"epoch": 42.8,
"grad_norm": 1.6690889596939087,
"learning_rate": 0.0019066666666666668,
"loss": 1.8596,
"step": 4280
},
{
"epoch": 42.9,
"grad_norm": 3.8428828716278076,
"learning_rate": 0.0019033333333333335,
"loss": 1.8642,
"step": 4290
},
{
"epoch": 43.0,
"grad_norm": 2.877225160598755,
"learning_rate": 0.0019,
"loss": 1.9869,
"step": 4300
},
{
"epoch": 43.0,
"eval_accuracy": 0.06,
"eval_loss": 7.994565010070801,
"eval_runtime": 3.2267,
"eval_samples_per_second": 30.991,
"eval_steps_per_second": 30.991,
"step": 4300
},
{
"epoch": 43.1,
"grad_norm": 2.577849864959717,
"learning_rate": 0.0018966666666666667,
"loss": 1.9454,
"step": 4310
},
{
"epoch": 43.2,
"grad_norm": 1.6029572486877441,
"learning_rate": 0.0018933333333333332,
"loss": 1.7824,
"step": 4320
},
{
"epoch": 43.3,
"grad_norm": 3.6236324310302734,
"learning_rate": 0.00189,
"loss": 1.9488,
"step": 4330
},
{
"epoch": 43.4,
"grad_norm": 2.585770845413208,
"learning_rate": 0.001886666666666667,
"loss": 2.0196,
"step": 4340
},
{
"epoch": 43.5,
"grad_norm": 1.989559531211853,
"learning_rate": 0.0018833333333333334,
"loss": 2.112,
"step": 4350
},
{
"epoch": 43.6,
"grad_norm": 1.21571683883667,
"learning_rate": 0.0018800000000000002,
"loss": 1.8392,
"step": 4360
},
{
"epoch": 43.7,
"grad_norm": 1.674765944480896,
"learning_rate": 0.0018766666666666667,
"loss": 1.9925,
"step": 4370
},
{
"epoch": 43.8,
"grad_norm": 1.5830934047698975,
"learning_rate": 0.0018733333333333334,
"loss": 1.9278,
"step": 4380
},
{
"epoch": 43.9,
"grad_norm": 3.7739739418029785,
"learning_rate": 0.00187,
"loss": 1.9097,
"step": 4390
},
{
"epoch": 44.0,
"grad_norm": 1.0863910913467407,
"learning_rate": 0.0018666666666666666,
"loss": 1.9428,
"step": 4400
},
{
"epoch": 44.0,
"eval_accuracy": 0.08,
"eval_loss": 6.156602382659912,
"eval_runtime": 1.6006,
"eval_samples_per_second": 62.478,
"eval_steps_per_second": 62.478,
"step": 4400
},
{
"epoch": 44.1,
"grad_norm": 1.9607887268066406,
"learning_rate": 0.0018633333333333332,
"loss": 2.0214,
"step": 4410
},
{
"epoch": 44.2,
"grad_norm": 0.9546820521354675,
"learning_rate": 0.00186,
"loss": 2.0561,
"step": 4420
},
{
"epoch": 44.3,
"grad_norm": 3.94052791595459,
"learning_rate": 0.0018566666666666668,
"loss": 1.8098,
"step": 4430
},
{
"epoch": 44.4,
"grad_norm": 1.6813486814498901,
"learning_rate": 0.0018533333333333334,
"loss": 1.8502,
"step": 4440
},
{
"epoch": 44.5,
"grad_norm": 2.918163299560547,
"learning_rate": 0.00185,
"loss": 1.7545,
"step": 4450
},
{
"epoch": 44.6,
"grad_norm": 2.301067352294922,
"learning_rate": 0.0018466666666666666,
"loss": 2.1371,
"step": 4460
},
{
"epoch": 44.7,
"grad_norm": 4.0886712074279785,
"learning_rate": 0.0018433333333333333,
"loss": 2.0279,
"step": 4470
},
{
"epoch": 44.8,
"grad_norm": 1.5965591669082642,
"learning_rate": 0.0018399999999999998,
"loss": 2.0054,
"step": 4480
},
{
"epoch": 44.9,
"grad_norm": 1.5079519748687744,
"learning_rate": 0.0018366666666666668,
"loss": 1.8201,
"step": 4490
},
{
"epoch": 45.0,
"grad_norm": 2.8402748107910156,
"learning_rate": 0.0018333333333333335,
"loss": 1.7922,
"step": 4500
},
{
"epoch": 45.0,
"eval_accuracy": 0.03,
"eval_loss": 4.991882801055908,
"eval_runtime": 1.6352,
"eval_samples_per_second": 61.156,
"eval_steps_per_second": 61.156,
"step": 4500
},
{
"epoch": 45.1,
"grad_norm": 2.2311179637908936,
"learning_rate": 0.00183,
"loss": 1.8237,
"step": 4510
},
{
"epoch": 45.2,
"grad_norm": 1.873672604560852,
"learning_rate": 0.0018266666666666668,
"loss": 1.9774,
"step": 4520
},
{
"epoch": 45.3,
"grad_norm": 2.2289321422576904,
"learning_rate": 0.0018233333333333333,
"loss": 2.0517,
"step": 4530
},
{
"epoch": 45.4,
"grad_norm": 4.614668846130371,
"learning_rate": 0.00182,
"loss": 1.8622,
"step": 4540
},
{
"epoch": 45.5,
"grad_norm": 2.254178285598755,
"learning_rate": 0.0018166666666666665,
"loss": 1.9902,
"step": 4550
},
{
"epoch": 45.6,
"grad_norm": 5.717199325561523,
"learning_rate": 0.0018133333333333335,
"loss": 2.0937,
"step": 4560
},
{
"epoch": 45.7,
"grad_norm": 2.302830219268799,
"learning_rate": 0.0018100000000000002,
"loss": 1.8008,
"step": 4570
},
{
"epoch": 45.8,
"grad_norm": 3.8907456398010254,
"learning_rate": 0.0018066666666666667,
"loss": 1.8008,
"step": 4580
},
{
"epoch": 45.9,
"grad_norm": 3.854527711868286,
"learning_rate": 0.0018033333333333334,
"loss": 1.9225,
"step": 4590
},
{
"epoch": 46.0,
"grad_norm": 2.202763795852661,
"learning_rate": 0.0018,
"loss": 1.9047,
"step": 4600
},
{
"epoch": 46.0,
"eval_accuracy": 0.13,
"eval_loss": 7.193399429321289,
"eval_runtime": 1.5717,
"eval_samples_per_second": 63.626,
"eval_steps_per_second": 63.626,
"step": 4600
},
{
"epoch": 46.1,
"grad_norm": 0.9213665723800659,
"learning_rate": 0.0017966666666666667,
"loss": 1.8289,
"step": 4610
},
{
"epoch": 46.2,
"grad_norm": 1.6906572580337524,
"learning_rate": 0.0017933333333333332,
"loss": 2.1097,
"step": 4620
},
{
"epoch": 46.3,
"grad_norm": 4.417488098144531,
"learning_rate": 0.0017900000000000001,
"loss": 1.8328,
"step": 4630
},
{
"epoch": 46.4,
"grad_norm": 1.8122247457504272,
"learning_rate": 0.0017866666666666667,
"loss": 2.0426,
"step": 4640
},
{
"epoch": 46.5,
"grad_norm": 2.3169689178466797,
"learning_rate": 0.0017833333333333334,
"loss": 1.8678,
"step": 4650
},
{
"epoch": 46.6,
"grad_norm": 2.3043506145477295,
"learning_rate": 0.0017800000000000001,
"loss": 1.9539,
"step": 4660
},
{
"epoch": 46.7,
"grad_norm": 3.5980923175811768,
"learning_rate": 0.0017766666666666666,
"loss": 1.9287,
"step": 4670
},
{
"epoch": 46.8,
"grad_norm": 4.76849365234375,
"learning_rate": 0.0017733333333333334,
"loss": 1.948,
"step": 4680
},
{
"epoch": 46.9,
"grad_norm": 1.292289137840271,
"learning_rate": 0.0017699999999999999,
"loss": 2.1434,
"step": 4690
},
{
"epoch": 47.0,
"grad_norm": 6.172546863555908,
"learning_rate": 0.0017666666666666668,
"loss": 1.9419,
"step": 4700
},
{
"epoch": 47.0,
"eval_accuracy": 0.08,
"eval_loss": 4.326533317565918,
"eval_runtime": 1.6119,
"eval_samples_per_second": 62.037,
"eval_steps_per_second": 62.037,
"step": 4700
},
{
"epoch": 47.1,
"grad_norm": 4.527221202850342,
"learning_rate": 0.0017633333333333333,
"loss": 1.67,
"step": 4710
},
{
"epoch": 47.2,
"grad_norm": 2.071593761444092,
"learning_rate": 0.00176,
"loss": 1.7771,
"step": 4720
},
{
"epoch": 47.3,
"grad_norm": 2.786754846572876,
"learning_rate": 0.0017566666666666668,
"loss": 2.0374,
"step": 4730
},
{
"epoch": 47.4,
"grad_norm": 2.9459238052368164,
"learning_rate": 0.0017533333333333333,
"loss": 1.9356,
"step": 4740
},
{
"epoch": 47.5,
"grad_norm": 3.7896053791046143,
"learning_rate": 0.0017500000000000003,
"loss": 1.936,
"step": 4750
},
{
"epoch": 47.6,
"grad_norm": 3.3444080352783203,
"learning_rate": 0.0017466666666666665,
"loss": 2.0647,
"step": 4760
},
{
"epoch": 47.7,
"grad_norm": 2.463644027709961,
"learning_rate": 0.0017433333333333335,
"loss": 1.8612,
"step": 4770
},
{
"epoch": 47.8,
"grad_norm": 2.2192585468292236,
"learning_rate": 0.00174,
"loss": 1.9938,
"step": 4780
},
{
"epoch": 47.9,
"grad_norm": 2.3443355560302734,
"learning_rate": 0.0017366666666666667,
"loss": 1.9478,
"step": 4790
},
{
"epoch": 48.0,
"grad_norm": 3.5949223041534424,
"learning_rate": 0.0017333333333333333,
"loss": 1.7765,
"step": 4800
},
{
"epoch": 48.0,
"eval_accuracy": 0.12,
"eval_loss": 4.613639831542969,
"eval_runtime": 1.6316,
"eval_samples_per_second": 61.29,
"eval_steps_per_second": 61.29,
"step": 4800
},
{
"epoch": 48.1,
"grad_norm": 1.3368432521820068,
"learning_rate": 0.00173,
"loss": 1.9142,
"step": 4810
},
{
"epoch": 48.2,
"grad_norm": 2.000155448913574,
"learning_rate": 0.001726666666666667,
"loss": 1.9052,
"step": 4820
},
{
"epoch": 48.3,
"grad_norm": 6.261807918548584,
"learning_rate": 0.0017233333333333332,
"loss": 1.9964,
"step": 4830
},
{
"epoch": 48.4,
"grad_norm": 1.433078408241272,
"learning_rate": 0.0017200000000000002,
"loss": 1.9076,
"step": 4840
},
{
"epoch": 48.5,
"grad_norm": 2.1348838806152344,
"learning_rate": 0.0017166666666666667,
"loss": 1.7777,
"step": 4850
},
{
"epoch": 48.6,
"grad_norm": 3.1317050457000732,
"learning_rate": 0.0017133333333333334,
"loss": 1.8805,
"step": 4860
},
{
"epoch": 48.7,
"grad_norm": 3.248568534851074,
"learning_rate": 0.00171,
"loss": 1.9639,
"step": 4870
},
{
"epoch": 48.8,
"grad_norm": 1.4480762481689453,
"learning_rate": 0.0017066666666666667,
"loss": 1.8757,
"step": 4880
},
{
"epoch": 48.9,
"grad_norm": 2.1497910022735596,
"learning_rate": 0.0017033333333333336,
"loss": 1.7923,
"step": 4890
},
{
"epoch": 49.0,
"grad_norm": 2.5053927898406982,
"learning_rate": 0.0017,
"loss": 1.7962,
"step": 4900
},
{
"epoch": 49.0,
"eval_accuracy": 0.14,
"eval_loss": 13.476518630981445,
"eval_runtime": 1.7036,
"eval_samples_per_second": 58.7,
"eval_steps_per_second": 58.7,
"step": 4900
},
{
"epoch": 49.1,
"grad_norm": 3.2668566703796387,
"learning_rate": 0.0016966666666666669,
"loss": 1.7602,
"step": 4910
},
{
"epoch": 49.2,
"grad_norm": 1.1898913383483887,
"learning_rate": 0.0016933333333333334,
"loss": 1.8113,
"step": 4920
},
{
"epoch": 49.3,
"grad_norm": 3.223593235015869,
"learning_rate": 0.00169,
"loss": 2.0273,
"step": 4930
},
{
"epoch": 49.4,
"grad_norm": 4.745173454284668,
"learning_rate": 0.0016866666666666666,
"loss": 1.7831,
"step": 4940
},
{
"epoch": 49.5,
"grad_norm": 1.5475022792816162,
"learning_rate": 0.0016833333333333333,
"loss": 1.9636,
"step": 4950
},
{
"epoch": 49.6,
"grad_norm": 3.3999617099761963,
"learning_rate": 0.0016800000000000003,
"loss": 1.7679,
"step": 4960
},
{
"epoch": 49.7,
"grad_norm": 2.1823158264160156,
"learning_rate": 0.0016766666666666666,
"loss": 1.9602,
"step": 4970
},
{
"epoch": 49.8,
"grad_norm": 1.2854535579681396,
"learning_rate": 0.0016733333333333335,
"loss": 1.8646,
"step": 4980
},
{
"epoch": 49.9,
"grad_norm": 3.2971255779266357,
"learning_rate": 0.00167,
"loss": 1.9398,
"step": 4990
},
{
"epoch": 50.0,
"grad_norm": 4.854804039001465,
"learning_rate": 0.0016666666666666668,
"loss": 2.0226,
"step": 5000
},
{
"epoch": 50.0,
"eval_accuracy": 0.08,
"eval_loss": 8.122514724731445,
"eval_runtime": 1.6511,
"eval_samples_per_second": 60.567,
"eval_steps_per_second": 60.567,
"step": 5000
},
{
"epoch": 50.1,
"grad_norm": 2.5975425243377686,
"learning_rate": 0.0016633333333333333,
"loss": 1.9288,
"step": 5010
},
{
"epoch": 50.2,
"grad_norm": 1.7692967653274536,
"learning_rate": 0.00166,
"loss": 1.8247,
"step": 5020
},
{
"epoch": 50.3,
"grad_norm": 2.7661757469177246,
"learning_rate": 0.0016566666666666665,
"loss": 2.0096,
"step": 5030
},
{
"epoch": 50.4,
"grad_norm": 1.707748532295227,
"learning_rate": 0.0016533333333333333,
"loss": 1.6249,
"step": 5040
},
{
"epoch": 50.5,
"grad_norm": 1.9424363374710083,
"learning_rate": 0.0016500000000000002,
"loss": 1.9504,
"step": 5050
},
{
"epoch": 50.6,
"grad_norm": 5.841362476348877,
"learning_rate": 0.0016466666666666667,
"loss": 1.7022,
"step": 5060
},
{
"epoch": 50.7,
"grad_norm": 5.629020690917969,
"learning_rate": 0.0016433333333333335,
"loss": 1.8386,
"step": 5070
},
{
"epoch": 50.8,
"grad_norm": 3.982902765274048,
"learning_rate": 0.00164,
"loss": 1.9075,
"step": 5080
},
{
"epoch": 50.9,
"grad_norm": 1.95156991481781,
"learning_rate": 0.0016366666666666667,
"loss": 1.7509,
"step": 5090
},
{
"epoch": 51.0,
"grad_norm": 3.8183364868164062,
"learning_rate": 0.0016333333333333332,
"loss": 2.1393,
"step": 5100
},
{
"epoch": 51.0,
"eval_accuracy": 0.17,
"eval_loss": 7.794131278991699,
"eval_runtime": 1.5853,
"eval_samples_per_second": 63.08,
"eval_steps_per_second": 63.08,
"step": 5100
},
{
"epoch": 51.1,
"grad_norm": 4.704866886138916,
"learning_rate": 0.00163,
"loss": 1.8829,
"step": 5110
},
{
"epoch": 51.2,
"grad_norm": 5.786809921264648,
"learning_rate": 0.0016266666666666669,
"loss": 1.8662,
"step": 5120
},
{
"epoch": 51.3,
"grad_norm": 2.3854682445526123,
"learning_rate": 0.0016233333333333334,
"loss": 1.8345,
"step": 5130
},
{
"epoch": 51.4,
"grad_norm": 1.6624096632003784,
"learning_rate": 0.0016200000000000001,
"loss": 1.9696,
"step": 5140
},
{
"epoch": 51.5,
"grad_norm": 2.215571880340576,
"learning_rate": 0.0016166666666666666,
"loss": 1.8693,
"step": 5150
},
{
"epoch": 51.6,
"grad_norm": 4.892175197601318,
"learning_rate": 0.0016133333333333334,
"loss": 2.2826,
"step": 5160
},
{
"epoch": 51.7,
"grad_norm": 2.0336062908172607,
"learning_rate": 0.0016099999999999999,
"loss": 1.9523,
"step": 5170
},
{
"epoch": 51.8,
"grad_norm": 1.3163597583770752,
"learning_rate": 0.0016066666666666666,
"loss": 2.0221,
"step": 5180
},
{
"epoch": 51.9,
"grad_norm": 3.6314053535461426,
"learning_rate": 0.0016033333333333336,
"loss": 1.8021,
"step": 5190
},
{
"epoch": 52.0,
"grad_norm": 4.095399856567383,
"learning_rate": 0.0016,
"loss": 1.8256,
"step": 5200
},
{
"epoch": 52.0,
"eval_accuracy": 0.12,
"eval_loss": 5.413360118865967,
"eval_runtime": 1.6389,
"eval_samples_per_second": 61.017,
"eval_steps_per_second": 61.017,
"step": 5200
},
{
"epoch": 52.1,
"grad_norm": 5.811031341552734,
"learning_rate": 0.0015966666666666668,
"loss": 1.7871,
"step": 5210
},
{
"epoch": 52.2,
"grad_norm": 1.6372181177139282,
"learning_rate": 0.0015933333333333333,
"loss": 2.0306,
"step": 5220
},
{
"epoch": 52.3,
"grad_norm": 1.0381364822387695,
"learning_rate": 0.00159,
"loss": 1.9718,
"step": 5230
},
{
"epoch": 52.4,
"grad_norm": 3.0742342472076416,
"learning_rate": 0.0015866666666666666,
"loss": 1.9477,
"step": 5240
},
{
"epoch": 52.5,
"grad_norm": 2.2406508922576904,
"learning_rate": 0.0015833333333333335,
"loss": 1.9322,
"step": 5250
},
{
"epoch": 52.6,
"grad_norm": 3.015726327896118,
"learning_rate": 0.0015799999999999998,
"loss": 1.6133,
"step": 5260
},
{
"epoch": 52.7,
"grad_norm": 4.843988418579102,
"learning_rate": 0.0015766666666666668,
"loss": 1.9038,
"step": 5270
},
{
"epoch": 52.8,
"grad_norm": 3.5391154289245605,
"learning_rate": 0.0015733333333333335,
"loss": 1.9509,
"step": 5280
},
{
"epoch": 52.9,
"grad_norm": 2.697735548019409,
"learning_rate": 0.00157,
"loss": 1.9014,
"step": 5290
},
{
"epoch": 53.0,
"grad_norm": 6.837653636932373,
"learning_rate": 0.0015666666666666667,
"loss": 1.9116,
"step": 5300
},
{
"epoch": 53.0,
"eval_accuracy": 0.08,
"eval_loss": 6.112913608551025,
"eval_runtime": 1.6689,
"eval_samples_per_second": 59.919,
"eval_steps_per_second": 59.919,
"step": 5300
},
{
"epoch": 53.1,
"grad_norm": 1.5611952543258667,
"learning_rate": 0.0015633333333333332,
"loss": 1.6709,
"step": 5310
},
{
"epoch": 53.2,
"grad_norm": 0.9511187672615051,
"learning_rate": 0.0015600000000000002,
"loss": 1.866,
"step": 5320
},
{
"epoch": 53.3,
"grad_norm": 4.475405216217041,
"learning_rate": 0.0015566666666666665,
"loss": 1.6536,
"step": 5330
},
{
"epoch": 53.4,
"grad_norm": 4.969283103942871,
"learning_rate": 0.0015533333333333334,
"loss": 1.8588,
"step": 5340
},
{
"epoch": 53.5,
"grad_norm": 1.5282946825027466,
"learning_rate": 0.0015500000000000002,
"loss": 1.7311,
"step": 5350
},
{
"epoch": 53.6,
"grad_norm": 2.565603494644165,
"learning_rate": 0.0015466666666666667,
"loss": 1.9764,
"step": 5360
},
{
"epoch": 53.7,
"grad_norm": 3.92899489402771,
"learning_rate": 0.0015433333333333334,
"loss": 1.8728,
"step": 5370
},
{
"epoch": 53.8,
"grad_norm": 8.752714157104492,
"learning_rate": 0.00154,
"loss": 2.0048,
"step": 5380
},
{
"epoch": 53.9,
"grad_norm": 2.1922614574432373,
"learning_rate": 0.0015366666666666669,
"loss": 1.7953,
"step": 5390
},
{
"epoch": 54.0,
"grad_norm": 1.7674418687820435,
"learning_rate": 0.0015333333333333332,
"loss": 2.1156,
"step": 5400
},
{
"epoch": 54.0,
"eval_accuracy": 0.14,
"eval_loss": 4.145403861999512,
"eval_runtime": 1.4782,
"eval_samples_per_second": 67.649,
"eval_steps_per_second": 67.649,
"step": 5400
},
{
"epoch": 54.1,
"grad_norm": 1.4317039251327515,
"learning_rate": 0.0015300000000000001,
"loss": 2.1365,
"step": 5410
},
{
"epoch": 54.2,
"grad_norm": 2.728269577026367,
"learning_rate": 0.0015266666666666666,
"loss": 1.8243,
"step": 5420
},
{
"epoch": 54.3,
"grad_norm": 1.3561785221099854,
"learning_rate": 0.0015233333333333334,
"loss": 1.6856,
"step": 5430
},
{
"epoch": 54.4,
"grad_norm": 2.300229549407959,
"learning_rate": 0.00152,
"loss": 1.7025,
"step": 5440
},
{
"epoch": 54.5,
"grad_norm": 2.610546350479126,
"learning_rate": 0.0015166666666666666,
"loss": 1.8949,
"step": 5450
},
{
"epoch": 54.6,
"grad_norm": 3.494725465774536,
"learning_rate": 0.0015133333333333335,
"loss": 1.7296,
"step": 5460
},
{
"epoch": 54.7,
"grad_norm": 3.7900161743164062,
"learning_rate": 0.0015099999999999998,
"loss": 1.9087,
"step": 5470
},
{
"epoch": 54.8,
"grad_norm": 5.745708465576172,
"learning_rate": 0.0015066666666666668,
"loss": 1.9497,
"step": 5480
},
{
"epoch": 54.9,
"grad_norm": 3.6180849075317383,
"learning_rate": 0.0015033333333333333,
"loss": 1.8751,
"step": 5490
},
{
"epoch": 55.0,
"grad_norm": 1.9145499467849731,
"learning_rate": 0.0015,
"loss": 1.7501,
"step": 5500
},
{
"epoch": 55.0,
"eval_accuracy": 0.09,
"eval_loss": 6.213360786437988,
"eval_runtime": 1.2055,
"eval_samples_per_second": 82.957,
"eval_steps_per_second": 82.957,
"step": 5500
},
{
"epoch": 55.1,
"grad_norm": 3.158578395843506,
"learning_rate": 0.0014966666666666668,
"loss": 1.7163,
"step": 5510
},
{
"epoch": 55.2,
"grad_norm": 10.36141586303711,
"learning_rate": 0.0014933333333333333,
"loss": 1.8999,
"step": 5520
},
{
"epoch": 55.3,
"grad_norm": 6.241248607635498,
"learning_rate": 0.00149,
"loss": 1.6129,
"step": 5530
},
{
"epoch": 55.4,
"grad_norm": 5.371027946472168,
"learning_rate": 0.0014866666666666667,
"loss": 1.747,
"step": 5540
},
{
"epoch": 55.5,
"grad_norm": 8.025517463684082,
"learning_rate": 0.0014833333333333335,
"loss": 1.8701,
"step": 5550
},
{
"epoch": 55.6,
"grad_norm": 1.9207485914230347,
"learning_rate": 0.00148,
"loss": 1.7299,
"step": 5560
},
{
"epoch": 55.7,
"grad_norm": 5.347723007202148,
"learning_rate": 0.0014766666666666667,
"loss": 2.0809,
"step": 5570
},
{
"epoch": 55.8,
"grad_norm": 2.564652919769287,
"learning_rate": 0.0014733333333333334,
"loss": 1.5181,
"step": 5580
},
{
"epoch": 55.9,
"grad_norm": 2.4365596771240234,
"learning_rate": 0.00147,
"loss": 2.0716,
"step": 5590
},
{
"epoch": 56.0,
"grad_norm": 2.38962721824646,
"learning_rate": 0.0014666666666666667,
"loss": 1.8722,
"step": 5600
},
{
"epoch": 56.0,
"eval_accuracy": 0.12,
"eval_loss": 6.498541831970215,
"eval_runtime": 1.059,
"eval_samples_per_second": 94.424,
"eval_steps_per_second": 94.424,
"step": 5600
},
{
"epoch": 56.1,
"grad_norm": 3.4303345680236816,
"learning_rate": 0.0014633333333333332,
"loss": 2.0598,
"step": 5610
},
{
"epoch": 56.2,
"grad_norm": 5.073793411254883,
"learning_rate": 0.0014600000000000001,
"loss": 1.6931,
"step": 5620
},
{
"epoch": 56.3,
"grad_norm": 4.5366644859313965,
"learning_rate": 0.0014566666666666667,
"loss": 1.7725,
"step": 5630
},
{
"epoch": 56.4,
"grad_norm": 4.9346022605896,
"learning_rate": 0.0014533333333333334,
"loss": 1.7445,
"step": 5640
},
{
"epoch": 56.5,
"grad_norm": 1.8802194595336914,
"learning_rate": 0.0014500000000000001,
"loss": 1.8807,
"step": 5650
},
{
"epoch": 56.6,
"grad_norm": 9.372114181518555,
"learning_rate": 0.0014466666666666666,
"loss": 2.0712,
"step": 5660
},
{
"epoch": 56.7,
"grad_norm": 1.4863404035568237,
"learning_rate": 0.0014433333333333334,
"loss": 2.0337,
"step": 5670
},
{
"epoch": 56.8,
"grad_norm": 6.14418888092041,
"learning_rate": 0.0014399999999999999,
"loss": 1.8824,
"step": 5680
},
{
"epoch": 56.9,
"grad_norm": 4.623052597045898,
"learning_rate": 0.0014366666666666666,
"loss": 1.7163,
"step": 5690
},
{
"epoch": 57.0,
"grad_norm": 2.0986571311950684,
"learning_rate": 0.0014333333333333333,
"loss": 1.9432,
"step": 5700
},
{
"epoch": 57.0,
"eval_accuracy": 0.12,
"eval_loss": 5.271793842315674,
"eval_runtime": 1.0742,
"eval_samples_per_second": 93.091,
"eval_steps_per_second": 93.091,
"step": 5700
},
{
"epoch": 57.1,
"grad_norm": 1.7047914266586304,
"learning_rate": 0.00143,
"loss": 1.681,
"step": 5710
},
{
"epoch": 57.2,
"grad_norm": 5.937868595123291,
"learning_rate": 0.0014266666666666668,
"loss": 1.9401,
"step": 5720
},
{
"epoch": 57.3,
"grad_norm": 2.155251979827881,
"learning_rate": 0.0014233333333333333,
"loss": 1.7128,
"step": 5730
},
{
"epoch": 57.4,
"grad_norm": 3.07235050201416,
"learning_rate": 0.00142,
"loss": 1.6452,
"step": 5740
},
{
"epoch": 57.5,
"grad_norm": 3.241396427154541,
"learning_rate": 0.0014166666666666666,
"loss": 1.5336,
"step": 5750
},
{
"epoch": 57.6,
"grad_norm": 2.2947235107421875,
"learning_rate": 0.0014133333333333333,
"loss": 1.8406,
"step": 5760
},
{
"epoch": 57.7,
"grad_norm": 3.67720627784729,
"learning_rate": 0.00141,
"loss": 1.8698,
"step": 5770
},
{
"epoch": 57.8,
"grad_norm": 4.078272342681885,
"learning_rate": 0.0014066666666666667,
"loss": 1.7784,
"step": 5780
},
{
"epoch": 57.9,
"grad_norm": 5.352456569671631,
"learning_rate": 0.0014033333333333335,
"loss": 2.0788,
"step": 5790
},
{
"epoch": 58.0,
"grad_norm": 2.5838003158569336,
"learning_rate": 0.0014,
"loss": 1.7713,
"step": 5800
},
{
"epoch": 58.0,
"eval_accuracy": 0.08,
"eval_loss": 12.331060409545898,
"eval_runtime": 1.0626,
"eval_samples_per_second": 94.11,
"eval_steps_per_second": 94.11,
"step": 5800
},
{
"epoch": 58.1,
"grad_norm": 1.693384051322937,
"learning_rate": 0.0013966666666666667,
"loss": 1.656,
"step": 5810
},
{
"epoch": 58.2,
"grad_norm": 3.3912696838378906,
"learning_rate": 0.0013933333333333334,
"loss": 1.7021,
"step": 5820
},
{
"epoch": 58.3,
"grad_norm": 8.783439636230469,
"learning_rate": 0.00139,
"loss": 1.9102,
"step": 5830
},
{
"epoch": 58.4,
"grad_norm": 3.9075992107391357,
"learning_rate": 0.0013866666666666667,
"loss": 1.8775,
"step": 5840
},
{
"epoch": 58.5,
"grad_norm": 2.6207642555236816,
"learning_rate": 0.0013833333333333334,
"loss": 1.912,
"step": 5850
},
{
"epoch": 58.6,
"grad_norm": 1.5650824308395386,
"learning_rate": 0.0013800000000000002,
"loss": 1.8781,
"step": 5860
},
{
"epoch": 58.7,
"grad_norm": 1.5719467401504517,
"learning_rate": 0.0013766666666666667,
"loss": 1.7996,
"step": 5870
},
{
"epoch": 58.8,
"grad_norm": 2.2166717052459717,
"learning_rate": 0.0013733333333333334,
"loss": 2.0769,
"step": 5880
},
{
"epoch": 58.9,
"grad_norm": 4.164362907409668,
"learning_rate": 0.0013700000000000001,
"loss": 1.8052,
"step": 5890
},
{
"epoch": 59.0,
"grad_norm": 2.1572577953338623,
"learning_rate": 0.0013666666666666666,
"loss": 1.6786,
"step": 5900
},
{
"epoch": 59.0,
"eval_accuracy": 0.07,
"eval_loss": 7.159940719604492,
"eval_runtime": 1.1908,
"eval_samples_per_second": 83.98,
"eval_steps_per_second": 83.98,
"step": 5900
},
{
"epoch": 59.1,
"grad_norm": 1.205863356590271,
"learning_rate": 0.0013633333333333334,
"loss": 1.7847,
"step": 5910
},
{
"epoch": 59.2,
"grad_norm": 6.159766674041748,
"learning_rate": 0.0013599999999999999,
"loss": 1.816,
"step": 5920
},
{
"epoch": 59.3,
"grad_norm": 2.290241003036499,
"learning_rate": 0.0013566666666666668,
"loss": 1.8227,
"step": 5930
},
{
"epoch": 59.4,
"grad_norm": 5.219218730926514,
"learning_rate": 0.0013533333333333333,
"loss": 1.6421,
"step": 5940
},
{
"epoch": 59.5,
"grad_norm": 8.509394645690918,
"learning_rate": 0.00135,
"loss": 1.7888,
"step": 5950
},
{
"epoch": 59.6,
"grad_norm": 3.8931479454040527,
"learning_rate": 0.0013466666666666668,
"loss": 1.7724,
"step": 5960
},
{
"epoch": 59.7,
"grad_norm": 2.035557270050049,
"learning_rate": 0.0013433333333333333,
"loss": 1.8974,
"step": 5970
},
{
"epoch": 59.8,
"grad_norm": 1.344543695449829,
"learning_rate": 0.00134,
"loss": 1.7593,
"step": 5980
},
{
"epoch": 59.9,
"grad_norm": 5.597288131713867,
"learning_rate": 0.0013366666666666666,
"loss": 1.7556,
"step": 5990
},
{
"epoch": 60.0,
"grad_norm": 5.034604072570801,
"learning_rate": 0.0013333333333333333,
"loss": 1.5969,
"step": 6000
},
{
"epoch": 60.0,
"eval_accuracy": 0.08,
"eval_loss": 6.086874485015869,
"eval_runtime": 1.0697,
"eval_samples_per_second": 93.482,
"eval_steps_per_second": 93.482,
"step": 6000
},
{
"epoch": 60.1,
"grad_norm": 2.9675891399383545,
"learning_rate": 0.00133,
"loss": 1.8271,
"step": 6010
},
{
"epoch": 60.2,
"grad_norm": 1.6982274055480957,
"learning_rate": 0.0013266666666666667,
"loss": 1.9085,
"step": 6020
},
{
"epoch": 60.3,
"grad_norm": 4.639615058898926,
"learning_rate": 0.0013233333333333335,
"loss": 1.9669,
"step": 6030
},
{
"epoch": 60.4,
"grad_norm": 2.2657480239868164,
"learning_rate": 0.00132,
"loss": 1.7925,
"step": 6040
},
{
"epoch": 60.5,
"grad_norm": 3.4637887477874756,
"learning_rate": 0.0013166666666666667,
"loss": 1.7884,
"step": 6050
},
{
"epoch": 60.6,
"grad_norm": 3.210871458053589,
"learning_rate": 0.0013133333333333332,
"loss": 1.6961,
"step": 6060
},
{
"epoch": 60.7,
"grad_norm": 2.510930299758911,
"learning_rate": 0.00131,
"loss": 1.6188,
"step": 6070
},
{
"epoch": 60.8,
"grad_norm": 2.0399868488311768,
"learning_rate": 0.0013066666666666667,
"loss": 1.8597,
"step": 6080
},
{
"epoch": 60.9,
"grad_norm": 1.6324414014816284,
"learning_rate": 0.0013033333333333334,
"loss": 1.6643,
"step": 6090
},
{
"epoch": 61.0,
"grad_norm": 2.4083755016326904,
"learning_rate": 0.0013000000000000002,
"loss": 1.8203,
"step": 6100
},
{
"epoch": 61.0,
"eval_accuracy": 0.14,
"eval_loss": 8.8250093460083,
"eval_runtime": 1.051,
"eval_samples_per_second": 95.147,
"eval_steps_per_second": 95.147,
"step": 6100
},
{
"epoch": 61.1,
"grad_norm": 1.6598178148269653,
"learning_rate": 0.0012966666666666667,
"loss": 1.5858,
"step": 6110
},
{
"epoch": 61.2,
"grad_norm": 4.348021507263184,
"learning_rate": 0.0012933333333333334,
"loss": 1.7923,
"step": 6120
},
{
"epoch": 61.3,
"grad_norm": 6.4413065910339355,
"learning_rate": 0.00129,
"loss": 1.825,
"step": 6130
},
{
"epoch": 61.4,
"grad_norm": 4.386123180389404,
"learning_rate": 0.0012866666666666666,
"loss": 1.6292,
"step": 6140
},
{
"epoch": 61.5,
"grad_norm": 3.1433169841766357,
"learning_rate": 0.0012833333333333334,
"loss": 1.8375,
"step": 6150
},
{
"epoch": 61.6,
"grad_norm": 2.4346671104431152,
"learning_rate": 0.00128,
"loss": 1.5983,
"step": 6160
},
{
"epoch": 61.7,
"grad_norm": 3.656344175338745,
"learning_rate": 0.0012766666666666668,
"loss": 1.8365,
"step": 6170
},
{
"epoch": 61.8,
"grad_norm": 2.8191497325897217,
"learning_rate": 0.0012733333333333333,
"loss": 2.0172,
"step": 6180
},
{
"epoch": 61.9,
"grad_norm": 2.2086052894592285,
"learning_rate": 0.00127,
"loss": 1.7998,
"step": 6190
},
{
"epoch": 62.0,
"grad_norm": 4.561169624328613,
"learning_rate": 0.0012666666666666666,
"loss": 1.7148,
"step": 6200
},
{
"epoch": 62.0,
"eval_accuracy": 0.11,
"eval_loss": 19.09418296813965,
"eval_runtime": 1.0612,
"eval_samples_per_second": 94.23,
"eval_steps_per_second": 94.23,
"step": 6200
},
{
"epoch": 62.1,
"grad_norm": 4.611867427825928,
"learning_rate": 0.0012633333333333333,
"loss": 1.6205,
"step": 6210
},
{
"epoch": 62.2,
"grad_norm": 3.4768471717834473,
"learning_rate": 0.00126,
"loss": 1.6133,
"step": 6220
},
{
"epoch": 62.3,
"grad_norm": 2.2685697078704834,
"learning_rate": 0.0012566666666666666,
"loss": 1.7809,
"step": 6230
},
{
"epoch": 62.4,
"grad_norm": 3.6047987937927246,
"learning_rate": 0.0012533333333333335,
"loss": 1.9889,
"step": 6240
},
{
"epoch": 62.5,
"grad_norm": 2.9026410579681396,
"learning_rate": 0.00125,
"loss": 1.614,
"step": 6250
},
{
"epoch": 62.6,
"grad_norm": 3.42441463470459,
"learning_rate": 0.0012466666666666668,
"loss": 1.9557,
"step": 6260
},
{
"epoch": 62.7,
"grad_norm": 3.3376829624176025,
"learning_rate": 0.0012433333333333333,
"loss": 1.8862,
"step": 6270
},
{
"epoch": 62.8,
"grad_norm": 2.4634463787078857,
"learning_rate": 0.00124,
"loss": 1.9031,
"step": 6280
},
{
"epoch": 62.9,
"grad_norm": 9.028009414672852,
"learning_rate": 0.0012366666666666667,
"loss": 1.9382,
"step": 6290
},
{
"epoch": 63.0,
"grad_norm": 2.2906558513641357,
"learning_rate": 0.0012333333333333332,
"loss": 1.6627,
"step": 6300
},
{
"epoch": 63.0,
"eval_accuracy": 0.16,
"eval_loss": 12.432879447937012,
"eval_runtime": 1.0588,
"eval_samples_per_second": 94.443,
"eval_steps_per_second": 94.443,
"step": 6300
},
{
"epoch": 63.1,
"grad_norm": 4.561711311340332,
"learning_rate": 0.00123,
"loss": 1.9666,
"step": 6310
},
{
"epoch": 63.2,
"grad_norm": 2.848632574081421,
"learning_rate": 0.0012266666666666667,
"loss": 1.6077,
"step": 6320
},
{
"epoch": 63.3,
"grad_norm": 2.1941840648651123,
"learning_rate": 0.0012233333333333334,
"loss": 1.7677,
"step": 6330
},
{
"epoch": 63.4,
"grad_norm": 2.9569039344787598,
"learning_rate": 0.00122,
"loss": 1.6422,
"step": 6340
},
{
"epoch": 63.5,
"grad_norm": 3.4558959007263184,
"learning_rate": 0.0012166666666666667,
"loss": 1.6658,
"step": 6350
},
{
"epoch": 63.6,
"grad_norm": 5.855868339538574,
"learning_rate": 0.0012133333333333334,
"loss": 1.6206,
"step": 6360
},
{
"epoch": 63.7,
"grad_norm": 4.387974739074707,
"learning_rate": 0.00121,
"loss": 1.7873,
"step": 6370
},
{
"epoch": 63.8,
"grad_norm": 2.80942440032959,
"learning_rate": 0.0012066666666666667,
"loss": 1.5393,
"step": 6380
},
{
"epoch": 63.9,
"grad_norm": 10.336448669433594,
"learning_rate": 0.0012033333333333334,
"loss": 1.7802,
"step": 6390
},
{
"epoch": 64.0,
"grad_norm": 21.694013595581055,
"learning_rate": 0.0012000000000000001,
"loss": 1.7134,
"step": 6400
},
{
"epoch": 64.0,
"eval_accuracy": 0.11,
"eval_loss": 5.5367112159729,
"eval_runtime": 1.0569,
"eval_samples_per_second": 94.621,
"eval_steps_per_second": 94.621,
"step": 6400
},
{
"epoch": 64.1,
"grad_norm": 7.776865482330322,
"learning_rate": 0.0011966666666666668,
"loss": 1.8706,
"step": 6410
},
{
"epoch": 64.2,
"grad_norm": 14.169696807861328,
"learning_rate": 0.0011933333333333334,
"loss": 1.7689,
"step": 6420
},
{
"epoch": 64.3,
"grad_norm": 3.2558820247650146,
"learning_rate": 0.00119,
"loss": 1.6053,
"step": 6430
},
{
"epoch": 64.4,
"grad_norm": 4.6091227531433105,
"learning_rate": 0.0011866666666666666,
"loss": 1.791,
"step": 6440
},
{
"epoch": 64.5,
"grad_norm": 6.979178428649902,
"learning_rate": 0.0011833333333333333,
"loss": 1.9051,
"step": 6450
},
{
"epoch": 64.6,
"grad_norm": 1.6859291791915894,
"learning_rate": 0.00118,
"loss": 1.8669,
"step": 6460
},
{
"epoch": 64.7,
"grad_norm": 4.330698013305664,
"learning_rate": 0.0011766666666666668,
"loss": 1.9325,
"step": 6470
},
{
"epoch": 64.8,
"grad_norm": 4.015768051147461,
"learning_rate": 0.0011733333333333335,
"loss": 1.7841,
"step": 6480
},
{
"epoch": 64.9,
"grad_norm": 3.9391236305236816,
"learning_rate": 0.00117,
"loss": 1.7528,
"step": 6490
},
{
"epoch": 65.0,
"grad_norm": 3.1160061359405518,
"learning_rate": 0.0011666666666666668,
"loss": 1.8841,
"step": 6500
},
{
"epoch": 65.0,
"eval_accuracy": 0.11,
"eval_loss": 9.123879432678223,
"eval_runtime": 1.0581,
"eval_samples_per_second": 94.508,
"eval_steps_per_second": 94.508,
"step": 6500
},
{
"epoch": 65.1,
"grad_norm": 3.9809041023254395,
"learning_rate": 0.0011633333333333333,
"loss": 1.764,
"step": 6510
},
{
"epoch": 65.2,
"grad_norm": 11.246681213378906,
"learning_rate": 0.00116,
"loss": 1.6808,
"step": 6520
},
{
"epoch": 65.3,
"grad_norm": 5.164696216583252,
"learning_rate": 0.0011566666666666667,
"loss": 1.6472,
"step": 6530
},
{
"epoch": 65.4,
"grad_norm": 2.7872653007507324,
"learning_rate": 0.0011533333333333333,
"loss": 2.0198,
"step": 6540
},
{
"epoch": 65.5,
"grad_norm": 7.56327486038208,
"learning_rate": 0.0011500000000000002,
"loss": 1.929,
"step": 6550
},
{
"epoch": 65.6,
"grad_norm": 4.878328323364258,
"learning_rate": 0.0011466666666666667,
"loss": 1.6768,
"step": 6560
},
{
"epoch": 65.7,
"grad_norm": 3.8029422760009766,
"learning_rate": 0.0011433333333333334,
"loss": 1.8311,
"step": 6570
},
{
"epoch": 65.8,
"grad_norm": 7.969758987426758,
"learning_rate": 0.00114,
"loss": 1.6823,
"step": 6580
},
{
"epoch": 65.9,
"grad_norm": 5.031340599060059,
"learning_rate": 0.0011366666666666667,
"loss": 1.6746,
"step": 6590
},
{
"epoch": 66.0,
"grad_norm": 2.8956708908081055,
"learning_rate": 0.0011333333333333334,
"loss": 1.6822,
"step": 6600
},
{
"epoch": 66.0,
"eval_accuracy": 0.11,
"eval_loss": 9.47188663482666,
"eval_runtime": 1.0551,
"eval_samples_per_second": 94.777,
"eval_steps_per_second": 94.777,
"step": 6600
},
{
"epoch": 66.1,
"grad_norm": 4.6317219734191895,
"learning_rate": 0.00113,
"loss": 1.7943,
"step": 6610
},
{
"epoch": 66.2,
"grad_norm": 3.1285109519958496,
"learning_rate": 0.0011266666666666667,
"loss": 1.8415,
"step": 6620
},
{
"epoch": 66.3,
"grad_norm": 6.469768524169922,
"learning_rate": 0.0011233333333333334,
"loss": 1.6691,
"step": 6630
},
{
"epoch": 66.4,
"grad_norm": 5.166152477264404,
"learning_rate": 0.0011200000000000001,
"loss": 1.92,
"step": 6640
},
{
"epoch": 66.5,
"grad_norm": 6.086921691894531,
"learning_rate": 0.0011166666666666666,
"loss": 1.9099,
"step": 6650
},
{
"epoch": 66.6,
"grad_norm": 3.934988021850586,
"learning_rate": 0.0011133333333333334,
"loss": 1.6313,
"step": 6660
},
{
"epoch": 66.7,
"grad_norm": 6.046359539031982,
"learning_rate": 0.00111,
"loss": 1.9824,
"step": 6670
},
{
"epoch": 66.8,
"grad_norm": 5.090197563171387,
"learning_rate": 0.0011066666666666666,
"loss": 1.9741,
"step": 6680
},
{
"epoch": 66.9,
"grad_norm": 9.034990310668945,
"learning_rate": 0.0011033333333333333,
"loss": 1.933,
"step": 6690
},
{
"epoch": 67.0,
"grad_norm": 7.297842979431152,
"learning_rate": 0.0010999999999999998,
"loss": 1.8892,
"step": 6700
},
{
"epoch": 67.0,
"eval_accuracy": 0.09,
"eval_loss": 5.6084208488464355,
"eval_runtime": 1.1978,
"eval_samples_per_second": 83.488,
"eval_steps_per_second": 83.488,
"step": 6700
},
{
"epoch": 67.1,
"grad_norm": 3.469296932220459,
"learning_rate": 0.0010966666666666668,
"loss": 1.7137,
"step": 6710
},
{
"epoch": 67.2,
"grad_norm": 2.396622657775879,
"learning_rate": 0.0010933333333333333,
"loss": 1.8015,
"step": 6720
},
{
"epoch": 67.3,
"grad_norm": 2.852924108505249,
"learning_rate": 0.00109,
"loss": 1.8604,
"step": 6730
},
{
"epoch": 67.4,
"grad_norm": 5.766210079193115,
"learning_rate": 0.0010866666666666668,
"loss": 1.5306,
"step": 6740
},
{
"epoch": 67.5,
"grad_norm": 3.4486300945281982,
"learning_rate": 0.0010833333333333333,
"loss": 1.797,
"step": 6750
},
{
"epoch": 67.6,
"grad_norm": 5.261917591094971,
"learning_rate": 0.00108,
"loss": 1.9502,
"step": 6760
},
{
"epoch": 67.7,
"grad_norm": 4.059861660003662,
"learning_rate": 0.0010766666666666665,
"loss": 1.6326,
"step": 6770
},
{
"epoch": 67.8,
"grad_norm": 10.135790824890137,
"learning_rate": 0.0010733333333333333,
"loss": 1.7233,
"step": 6780
},
{
"epoch": 67.9,
"grad_norm": 2.4787628650665283,
"learning_rate": 0.00107,
"loss": 1.8985,
"step": 6790
},
{
"epoch": 68.0,
"grad_norm": 2.303790807723999,
"learning_rate": 0.0010666666666666667,
"loss": 1.72,
"step": 6800
},
{
"epoch": 68.0,
"eval_accuracy": 0.12,
"eval_loss": 8.785449028015137,
"eval_runtime": 1.0541,
"eval_samples_per_second": 94.863,
"eval_steps_per_second": 94.863,
"step": 6800
},
{
"epoch": 68.1,
"grad_norm": 3.1279687881469727,
"learning_rate": 0.0010633333333333334,
"loss": 1.8552,
"step": 6810
},
{
"epoch": 68.2,
"grad_norm": 4.668986797332764,
"learning_rate": 0.00106,
"loss": 1.9791,
"step": 6820
},
{
"epoch": 68.3,
"grad_norm": 7.474461555480957,
"learning_rate": 0.0010566666666666667,
"loss": 1.7152,
"step": 6830
},
{
"epoch": 68.4,
"grad_norm": 10.475133895874023,
"learning_rate": 0.0010533333333333332,
"loss": 1.6101,
"step": 6840
},
{
"epoch": 68.5,
"grad_norm": 4.837385177612305,
"learning_rate": 0.00105,
"loss": 1.6287,
"step": 6850
},
{
"epoch": 68.6,
"grad_norm": 4.027728080749512,
"learning_rate": 0.0010466666666666667,
"loss": 1.5433,
"step": 6860
},
{
"epoch": 68.7,
"grad_norm": 2.9774222373962402,
"learning_rate": 0.0010433333333333334,
"loss": 1.7617,
"step": 6870
},
{
"epoch": 68.8,
"grad_norm": 2.145850896835327,
"learning_rate": 0.0010400000000000001,
"loss": 1.7691,
"step": 6880
},
{
"epoch": 68.9,
"grad_norm": 2.6644954681396484,
"learning_rate": 0.0010366666666666666,
"loss": 1.5255,
"step": 6890
},
{
"epoch": 69.0,
"grad_norm": 5.641127109527588,
"learning_rate": 0.0010333333333333334,
"loss": 1.8751,
"step": 6900
},
{
"epoch": 69.0,
"eval_accuracy": 0.11,
"eval_loss": 7.557100296020508,
"eval_runtime": 1.0515,
"eval_samples_per_second": 95.106,
"eval_steps_per_second": 95.106,
"step": 6900
},
{
"epoch": 69.1,
"grad_norm": 2.8334310054779053,
"learning_rate": 0.00103,
"loss": 1.7977,
"step": 6910
},
{
"epoch": 69.2,
"grad_norm": 12.787999153137207,
"learning_rate": 0.0010266666666666666,
"loss": 1.8188,
"step": 6920
},
{
"epoch": 69.3,
"grad_norm": 2.3438947200775146,
"learning_rate": 0.0010233333333333333,
"loss": 2.0413,
"step": 6930
},
{
"epoch": 69.4,
"grad_norm": 5.885900497436523,
"learning_rate": 0.00102,
"loss": 1.6987,
"step": 6940
},
{
"epoch": 69.5,
"grad_norm": 2.3748180866241455,
"learning_rate": 0.0010166666666666668,
"loss": 1.8382,
"step": 6950
},
{
"epoch": 69.6,
"grad_norm": 7.499560832977295,
"learning_rate": 0.0010133333333333333,
"loss": 1.7506,
"step": 6960
},
{
"epoch": 69.7,
"grad_norm": 4.706414699554443,
"learning_rate": 0.00101,
"loss": 1.8361,
"step": 6970
},
{
"epoch": 69.8,
"grad_norm": 2.492842435836792,
"learning_rate": 0.0010066666666666668,
"loss": 1.5254,
"step": 6980
},
{
"epoch": 69.9,
"grad_norm": 4.535306453704834,
"learning_rate": 0.0010033333333333333,
"loss": 1.7066,
"step": 6990
},
{
"epoch": 70.0,
"grad_norm": 2.8552052974700928,
"learning_rate": 0.001,
"loss": 1.3783,
"step": 7000
},
{
"epoch": 70.0,
"eval_accuracy": 0.12,
"eval_loss": 11.632137298583984,
"eval_runtime": 1.069,
"eval_samples_per_second": 93.543,
"eval_steps_per_second": 93.543,
"step": 7000
},
{
"epoch": 70.1,
"grad_norm": 6.145552635192871,
"learning_rate": 0.0009966666666666665,
"loss": 1.6017,
"step": 7010
},
{
"epoch": 70.2,
"grad_norm": 7.590050220489502,
"learning_rate": 0.0009933333333333335,
"loss": 1.8784,
"step": 7020
},
{
"epoch": 70.3,
"grad_norm": 3.6232712268829346,
"learning_rate": 0.00099,
"loss": 1.8348,
"step": 7030
},
{
"epoch": 70.4,
"grad_norm": 2.6301445960998535,
"learning_rate": 0.0009866666666666667,
"loss": 1.7113,
"step": 7040
},
{
"epoch": 70.5,
"grad_norm": 3.045260190963745,
"learning_rate": 0.0009833333333333335,
"loss": 1.6724,
"step": 7050
},
{
"epoch": 70.6,
"grad_norm": 5.87871789932251,
"learning_rate": 0.00098,
"loss": 1.8135,
"step": 7060
},
{
"epoch": 70.7,
"grad_norm": 4.545201301574707,
"learning_rate": 0.0009766666666666667,
"loss": 1.8561,
"step": 7070
},
{
"epoch": 70.8,
"grad_norm": 3.054288387298584,
"learning_rate": 0.0009733333333333333,
"loss": 1.6729,
"step": 7080
},
{
"epoch": 70.9,
"grad_norm": 12.367476463317871,
"learning_rate": 0.0009699999999999999,
"loss": 1.6861,
"step": 7090
},
{
"epoch": 71.0,
"grad_norm": 3.18570876121521,
"learning_rate": 0.0009666666666666668,
"loss": 1.6403,
"step": 7100
},
{
"epoch": 71.0,
"eval_accuracy": 0.15,
"eval_loss": 7.535396099090576,
"eval_runtime": 1.0543,
"eval_samples_per_second": 94.854,
"eval_steps_per_second": 94.854,
"step": 7100
},
{
"epoch": 71.1,
"grad_norm": 2.6936404705047607,
"learning_rate": 0.0009633333333333334,
"loss": 1.3978,
"step": 7110
},
{
"epoch": 71.2,
"grad_norm": 3.251457691192627,
"learning_rate": 0.00096,
"loss": 1.8723,
"step": 7120
},
{
"epoch": 71.3,
"grad_norm": 2.816524028778076,
"learning_rate": 0.0009566666666666666,
"loss": 1.7214,
"step": 7130
},
{
"epoch": 71.4,
"grad_norm": 2.786759376525879,
"learning_rate": 0.0009533333333333334,
"loss": 1.767,
"step": 7140
},
{
"epoch": 71.5,
"grad_norm": 6.929011344909668,
"learning_rate": 0.00095,
"loss": 1.7563,
"step": 7150
},
{
"epoch": 71.6,
"grad_norm": 2.660970687866211,
"learning_rate": 0.0009466666666666666,
"loss": 1.6773,
"step": 7160
},
{
"epoch": 71.7,
"grad_norm": 1.6034671068191528,
"learning_rate": 0.0009433333333333335,
"loss": 1.6503,
"step": 7170
},
{
"epoch": 71.8,
"grad_norm": 4.475321292877197,
"learning_rate": 0.0009400000000000001,
"loss": 1.7623,
"step": 7180
},
{
"epoch": 71.9,
"grad_norm": 9.990358352661133,
"learning_rate": 0.0009366666666666667,
"loss": 1.8783,
"step": 7190
},
{
"epoch": 72.0,
"grad_norm": 2.7688100337982178,
"learning_rate": 0.0009333333333333333,
"loss": 2.087,
"step": 7200
},
{
"epoch": 72.0,
"eval_accuracy": 0.11,
"eval_loss": 13.724778175354004,
"eval_runtime": 1.1925,
"eval_samples_per_second": 83.856,
"eval_steps_per_second": 83.856,
"step": 7200
},
{
"epoch": 72.1,
"grad_norm": 6.561435222625732,
"learning_rate": 0.00093,
"loss": 1.7217,
"step": 7210
},
{
"epoch": 72.2,
"grad_norm": 8.489799499511719,
"learning_rate": 0.0009266666666666667,
"loss": 1.7632,
"step": 7220
},
{
"epoch": 72.3,
"grad_norm": 3.9238219261169434,
"learning_rate": 0.0009233333333333333,
"loss": 1.5581,
"step": 7230
},
{
"epoch": 72.4,
"grad_norm": 9.072147369384766,
"learning_rate": 0.0009199999999999999,
"loss": 1.7184,
"step": 7240
},
{
"epoch": 72.5,
"grad_norm": 2.1611063480377197,
"learning_rate": 0.0009166666666666668,
"loss": 1.6369,
"step": 7250
},
{
"epoch": 72.6,
"grad_norm": 3.966249465942383,
"learning_rate": 0.0009133333333333334,
"loss": 1.6756,
"step": 7260
},
{
"epoch": 72.7,
"grad_norm": 3.660193681716919,
"learning_rate": 0.00091,
"loss": 1.9866,
"step": 7270
},
{
"epoch": 72.8,
"grad_norm": 4.286670207977295,
"learning_rate": 0.0009066666666666667,
"loss": 1.5526,
"step": 7280
},
{
"epoch": 72.9,
"grad_norm": 1.2461152076721191,
"learning_rate": 0.0009033333333333334,
"loss": 1.7805,
"step": 7290
},
{
"epoch": 73.0,
"grad_norm": 8.252983093261719,
"learning_rate": 0.0009,
"loss": 1.6402,
"step": 7300
},
{
"epoch": 73.0,
"eval_accuracy": 0.12,
"eval_loss": 5.488311290740967,
"eval_runtime": 1.0685,
"eval_samples_per_second": 93.589,
"eval_steps_per_second": 93.589,
"step": 7300
},
{
"epoch": 73.1,
"grad_norm": 3.1921186447143555,
"learning_rate": 0.0008966666666666666,
"loss": 1.9004,
"step": 7310
},
{
"epoch": 73.2,
"grad_norm": 2.0873894691467285,
"learning_rate": 0.0008933333333333333,
"loss": 1.6618,
"step": 7320
},
{
"epoch": 73.3,
"grad_norm": 6.314571857452393,
"learning_rate": 0.0008900000000000001,
"loss": 1.5235,
"step": 7330
},
{
"epoch": 73.4,
"grad_norm": 1.6767210960388184,
"learning_rate": 0.0008866666666666667,
"loss": 1.598,
"step": 7340
},
{
"epoch": 73.5,
"grad_norm": 4.818593978881836,
"learning_rate": 0.0008833333333333334,
"loss": 1.9167,
"step": 7350
},
{
"epoch": 73.6,
"grad_norm": 8.4752197265625,
"learning_rate": 0.00088,
"loss": 1.9592,
"step": 7360
},
{
"epoch": 73.7,
"grad_norm": 3.359546422958374,
"learning_rate": 0.0008766666666666667,
"loss": 1.8852,
"step": 7370
},
{
"epoch": 73.8,
"grad_norm": 4.165343284606934,
"learning_rate": 0.0008733333333333333,
"loss": 1.6093,
"step": 7380
},
{
"epoch": 73.9,
"grad_norm": 3.540891647338867,
"learning_rate": 0.00087,
"loss": 1.6096,
"step": 7390
},
{
"epoch": 74.0,
"grad_norm": 6.227334976196289,
"learning_rate": 0.0008666666666666666,
"loss": 1.8016,
"step": 7400
},
{
"epoch": 74.0,
"eval_accuracy": 0.13,
"eval_loss": 7.835125923156738,
"eval_runtime": 1.172,
"eval_samples_per_second": 85.321,
"eval_steps_per_second": 85.321,
"step": 7400
},
{
"epoch": 74.1,
"grad_norm": 5.684929370880127,
"learning_rate": 0.0008633333333333335,
"loss": 1.6236,
"step": 7410
},
{
"epoch": 74.2,
"grad_norm": 2.3352484703063965,
"learning_rate": 0.0008600000000000001,
"loss": 1.6767,
"step": 7420
},
{
"epoch": 74.3,
"grad_norm": 17.188486099243164,
"learning_rate": 0.0008566666666666667,
"loss": 1.5898,
"step": 7430
},
{
"epoch": 74.4,
"grad_norm": 8.325809478759766,
"learning_rate": 0.0008533333333333333,
"loss": 1.5762,
"step": 7440
},
{
"epoch": 74.5,
"grad_norm": 3.8976364135742188,
"learning_rate": 0.00085,
"loss": 1.8546,
"step": 7450
},
{
"epoch": 74.6,
"grad_norm": 4.122636795043945,
"learning_rate": 0.0008466666666666667,
"loss": 1.6826,
"step": 7460
},
{
"epoch": 74.7,
"grad_norm": 3.0798962116241455,
"learning_rate": 0.0008433333333333333,
"loss": 1.8085,
"step": 7470
},
{
"epoch": 74.8,
"grad_norm": 8.855138778686523,
"learning_rate": 0.0008400000000000001,
"loss": 1.8007,
"step": 7480
},
{
"epoch": 74.9,
"grad_norm": 2.781036376953125,
"learning_rate": 0.0008366666666666668,
"loss": 1.6743,
"step": 7490
},
{
"epoch": 75.0,
"grad_norm": 5.651669025421143,
"learning_rate": 0.0008333333333333334,
"loss": 1.4308,
"step": 7500
},
{
"epoch": 75.0,
"eval_accuracy": 0.13,
"eval_loss": 4.696621417999268,
"eval_runtime": 1.1086,
"eval_samples_per_second": 90.203,
"eval_steps_per_second": 90.203,
"step": 7500
},
{
"epoch": 75.1,
"grad_norm": 2.3721401691436768,
"learning_rate": 0.00083,
"loss": 1.6892,
"step": 7510
},
{
"epoch": 75.2,
"grad_norm": 3.7006096839904785,
"learning_rate": 0.0008266666666666666,
"loss": 1.763,
"step": 7520
},
{
"epoch": 75.3,
"grad_norm": 2.3603055477142334,
"learning_rate": 0.0008233333333333334,
"loss": 1.8769,
"step": 7530
},
{
"epoch": 75.4,
"grad_norm": 1.8393298387527466,
"learning_rate": 0.00082,
"loss": 1.5171,
"step": 7540
},
{
"epoch": 75.5,
"grad_norm": 5.134054660797119,
"learning_rate": 0.0008166666666666666,
"loss": 1.7904,
"step": 7550
},
{
"epoch": 75.6,
"grad_norm": 3.733891725540161,
"learning_rate": 0.0008133333333333334,
"loss": 1.4944,
"step": 7560
},
{
"epoch": 75.7,
"grad_norm": 3.304157257080078,
"learning_rate": 0.0008100000000000001,
"loss": 1.546,
"step": 7570
},
{
"epoch": 75.8,
"grad_norm": 3.1113600730895996,
"learning_rate": 0.0008066666666666667,
"loss": 1.9507,
"step": 7580
},
{
"epoch": 75.9,
"grad_norm": 4.361494064331055,
"learning_rate": 0.0008033333333333333,
"loss": 1.5302,
"step": 7590
},
{
"epoch": 76.0,
"grad_norm": 8.0205717086792,
"learning_rate": 0.0008,
"loss": 1.6833,
"step": 7600
},
{
"epoch": 76.0,
"eval_accuracy": 0.12,
"eval_loss": 5.913761615753174,
"eval_runtime": 1.1926,
"eval_samples_per_second": 83.853,
"eval_steps_per_second": 83.853,
"step": 7600
},
{
"epoch": 76.1,
"grad_norm": 9.288579940795898,
"learning_rate": 0.0007966666666666667,
"loss": 1.6459,
"step": 7610
},
{
"epoch": 76.2,
"grad_norm": 4.346872806549072,
"learning_rate": 0.0007933333333333333,
"loss": 1.7913,
"step": 7620
},
{
"epoch": 76.3,
"grad_norm": 1.9732215404510498,
"learning_rate": 0.0007899999999999999,
"loss": 1.9217,
"step": 7630
},
{
"epoch": 76.4,
"grad_norm": 2.936906337738037,
"learning_rate": 0.0007866666666666667,
"loss": 1.3812,
"step": 7640
},
{
"epoch": 76.5,
"grad_norm": 1.9223854541778564,
"learning_rate": 0.0007833333333333334,
"loss": 1.7483,
"step": 7650
},
{
"epoch": 76.6,
"grad_norm": 4.29766321182251,
"learning_rate": 0.0007800000000000001,
"loss": 1.5003,
"step": 7660
},
{
"epoch": 76.7,
"grad_norm": 4.861231803894043,
"learning_rate": 0.0007766666666666667,
"loss": 1.824,
"step": 7670
},
{
"epoch": 76.8,
"grad_norm": 6.965978145599365,
"learning_rate": 0.0007733333333333333,
"loss": 1.8528,
"step": 7680
},
{
"epoch": 76.9,
"grad_norm": 6.294130802154541,
"learning_rate": 0.00077,
"loss": 1.7658,
"step": 7690
},
{
"epoch": 77.0,
"grad_norm": 2.3056602478027344,
"learning_rate": 0.0007666666666666666,
"loss": 1.5684,
"step": 7700
},
{
"epoch": 77.0,
"eval_accuracy": 0.15,
"eval_loss": 11.986406326293945,
"eval_runtime": 1.0745,
"eval_samples_per_second": 93.062,
"eval_steps_per_second": 93.062,
"step": 7700
},
{
"epoch": 77.1,
"grad_norm": 3.318281888961792,
"learning_rate": 0.0007633333333333333,
"loss": 1.6998,
"step": 7710
},
{
"epoch": 77.2,
"grad_norm": 6.8521647453308105,
"learning_rate": 0.00076,
"loss": 1.7175,
"step": 7720
},
{
"epoch": 77.3,
"grad_norm": 2.6658935546875,
"learning_rate": 0.0007566666666666668,
"loss": 1.6277,
"step": 7730
},
{
"epoch": 77.4,
"grad_norm": 1.4888370037078857,
"learning_rate": 0.0007533333333333334,
"loss": 1.6303,
"step": 7740
},
{
"epoch": 77.5,
"grad_norm": 2.4818308353424072,
"learning_rate": 0.00075,
"loss": 1.619,
"step": 7750
},
{
"epoch": 77.6,
"grad_norm": 4.3172712326049805,
"learning_rate": 0.0007466666666666666,
"loss": 1.8077,
"step": 7760
},
{
"epoch": 77.7,
"grad_norm": 4.909962177276611,
"learning_rate": 0.0007433333333333334,
"loss": 1.531,
"step": 7770
},
{
"epoch": 77.8,
"grad_norm": 3.2081310749053955,
"learning_rate": 0.00074,
"loss": 1.7721,
"step": 7780
},
{
"epoch": 77.9,
"grad_norm": 10.378396987915039,
"learning_rate": 0.0007366666666666667,
"loss": 1.5235,
"step": 7790
},
{
"epoch": 78.0,
"grad_norm": 14.657236099243164,
"learning_rate": 0.0007333333333333333,
"loss": 1.6765,
"step": 7800
},
{
"epoch": 78.0,
"eval_accuracy": 0.1,
"eval_loss": 12.214624404907227,
"eval_runtime": 1.0561,
"eval_samples_per_second": 94.692,
"eval_steps_per_second": 94.692,
"step": 7800
},
{
"epoch": 78.1,
"grad_norm": 6.5051069259643555,
"learning_rate": 0.0007300000000000001,
"loss": 1.9207,
"step": 7810
},
{
"epoch": 78.2,
"grad_norm": 4.690114498138428,
"learning_rate": 0.0007266666666666667,
"loss": 1.6504,
"step": 7820
},
{
"epoch": 78.3,
"grad_norm": 4.175870895385742,
"learning_rate": 0.0007233333333333333,
"loss": 1.745,
"step": 7830
},
{
"epoch": 78.4,
"grad_norm": 2.697542190551758,
"learning_rate": 0.0007199999999999999,
"loss": 1.8095,
"step": 7840
},
{
"epoch": 78.5,
"grad_norm": 11.4371337890625,
"learning_rate": 0.0007166666666666667,
"loss": 1.638,
"step": 7850
},
{
"epoch": 78.6,
"grad_norm": 5.61688232421875,
"learning_rate": 0.0007133333333333334,
"loss": 1.7019,
"step": 7860
},
{
"epoch": 78.7,
"grad_norm": 1.9839328527450562,
"learning_rate": 0.00071,
"loss": 1.3729,
"step": 7870
},
{
"epoch": 78.8,
"grad_norm": 7.748627662658691,
"learning_rate": 0.0007066666666666666,
"loss": 1.6178,
"step": 7880
},
{
"epoch": 78.9,
"grad_norm": 3.0208866596221924,
"learning_rate": 0.0007033333333333334,
"loss": 1.8001,
"step": 7890
},
{
"epoch": 79.0,
"grad_norm": 6.324533462524414,
"learning_rate": 0.0007,
"loss": 1.7482,
"step": 7900
},
{
"epoch": 79.0,
"eval_accuracy": 0.12,
"eval_loss": 4.604106903076172,
"eval_runtime": 1.0654,
"eval_samples_per_second": 93.863,
"eval_steps_per_second": 93.863,
"step": 7900
},
{
"epoch": 79.1,
"grad_norm": 5.001572132110596,
"learning_rate": 0.0006966666666666667,
"loss": 1.811,
"step": 7910
},
{
"epoch": 79.2,
"grad_norm": 5.4045586585998535,
"learning_rate": 0.0006933333333333333,
"loss": 1.6131,
"step": 7920
},
{
"epoch": 79.3,
"grad_norm": 9.522829055786133,
"learning_rate": 0.0006900000000000001,
"loss": 1.5696,
"step": 7930
},
{
"epoch": 79.4,
"grad_norm": 3.1126577854156494,
"learning_rate": 0.0006866666666666667,
"loss": 1.6667,
"step": 7940
},
{
"epoch": 79.5,
"grad_norm": 9.194778442382812,
"learning_rate": 0.0006833333333333333,
"loss": 1.7464,
"step": 7950
},
{
"epoch": 79.6,
"grad_norm": 6.9873528480529785,
"learning_rate": 0.0006799999999999999,
"loss": 1.6279,
"step": 7960
},
{
"epoch": 79.7,
"grad_norm": 2.421323537826538,
"learning_rate": 0.0006766666666666667,
"loss": 1.6863,
"step": 7970
},
{
"epoch": 79.8,
"grad_norm": 2.4559075832366943,
"learning_rate": 0.0006733333333333334,
"loss": 1.6846,
"step": 7980
},
{
"epoch": 79.9,
"grad_norm": 5.497502326965332,
"learning_rate": 0.00067,
"loss": 1.6157,
"step": 7990
},
{
"epoch": 80.0,
"grad_norm": 5.991186141967773,
"learning_rate": 0.0006666666666666666,
"loss": 1.7836,
"step": 8000
},
{
"epoch": 80.0,
"eval_accuracy": 0.13,
"eval_loss": 9.721675872802734,
"eval_runtime": 1.1785,
"eval_samples_per_second": 84.854,
"eval_steps_per_second": 84.854,
"step": 8000
},
{
"epoch": 80.1,
"grad_norm": 3.4409921169281006,
"learning_rate": 0.0006633333333333334,
"loss": 1.7159,
"step": 8010
},
{
"epoch": 80.2,
"grad_norm": 2.0698366165161133,
"learning_rate": 0.00066,
"loss": 1.6031,
"step": 8020
},
{
"epoch": 80.3,
"grad_norm": 3.158905029296875,
"learning_rate": 0.0006566666666666666,
"loss": 1.8234,
"step": 8030
},
{
"epoch": 80.4,
"grad_norm": 7.036154747009277,
"learning_rate": 0.0006533333333333333,
"loss": 1.5912,
"step": 8040
},
{
"epoch": 80.5,
"grad_norm": 2.4452085494995117,
"learning_rate": 0.0006500000000000001,
"loss": 1.6557,
"step": 8050
},
{
"epoch": 80.6,
"grad_norm": 12.575709342956543,
"learning_rate": 0.0006466666666666667,
"loss": 1.7963,
"step": 8060
},
{
"epoch": 80.7,
"grad_norm": 2.6192171573638916,
"learning_rate": 0.0006433333333333333,
"loss": 1.7268,
"step": 8070
},
{
"epoch": 80.8,
"grad_norm": 3.45434308052063,
"learning_rate": 0.00064,
"loss": 1.4155,
"step": 8080
},
{
"epoch": 80.9,
"grad_norm": 8.185892105102539,
"learning_rate": 0.0006366666666666667,
"loss": 1.7059,
"step": 8090
},
{
"epoch": 81.0,
"grad_norm": 5.6343183517456055,
"learning_rate": 0.0006333333333333333,
"loss": 1.5195,
"step": 8100
},
{
"epoch": 81.0,
"eval_accuracy": 0.12,
"eval_loss": 7.513216972351074,
"eval_runtime": 1.0678,
"eval_samples_per_second": 93.647,
"eval_steps_per_second": 93.647,
"step": 8100
},
{
"epoch": 81.1,
"grad_norm": 2.8379461765289307,
"learning_rate": 0.00063,
"loss": 1.6882,
"step": 8110
},
{
"epoch": 81.2,
"grad_norm": 7.534255027770996,
"learning_rate": 0.0006266666666666668,
"loss": 1.6796,
"step": 8120
},
{
"epoch": 81.3,
"grad_norm": 1.6739089488983154,
"learning_rate": 0.0006233333333333334,
"loss": 1.5956,
"step": 8130
},
{
"epoch": 81.4,
"grad_norm": 2.9751076698303223,
"learning_rate": 0.00062,
"loss": 1.6019,
"step": 8140
},
{
"epoch": 81.5,
"grad_norm": 4.309534549713135,
"learning_rate": 0.0006166666666666666,
"loss": 1.7701,
"step": 8150
},
{
"epoch": 81.6,
"grad_norm": 4.213230133056641,
"learning_rate": 0.0006133333333333334,
"loss": 1.7361,
"step": 8160
},
{
"epoch": 81.7,
"grad_norm": 1.757969856262207,
"learning_rate": 0.00061,
"loss": 1.8667,
"step": 8170
},
{
"epoch": 81.8,
"grad_norm": 4.254034996032715,
"learning_rate": 0.0006066666666666667,
"loss": 1.4598,
"step": 8180
},
{
"epoch": 81.9,
"grad_norm": 2.253918170928955,
"learning_rate": 0.0006033333333333333,
"loss": 1.5002,
"step": 8190
},
{
"epoch": 82.0,
"grad_norm": 3.143101453781128,
"learning_rate": 0.0006000000000000001,
"loss": 1.4384,
"step": 8200
},
{
"epoch": 82.0,
"eval_accuracy": 0.13,
"eval_loss": 6.6091179847717285,
"eval_runtime": 1.0621,
"eval_samples_per_second": 94.153,
"eval_steps_per_second": 94.153,
"step": 8200
},
{
"epoch": 82.1,
"grad_norm": 6.236468315124512,
"learning_rate": 0.0005966666666666667,
"loss": 1.701,
"step": 8210
},
{
"epoch": 82.2,
"grad_norm": 2.7502994537353516,
"learning_rate": 0.0005933333333333333,
"loss": 1.6615,
"step": 8220
},
{
"epoch": 82.3,
"grad_norm": 4.324734210968018,
"learning_rate": 0.00059,
"loss": 1.7192,
"step": 8230
},
{
"epoch": 82.4,
"grad_norm": 5.0085320472717285,
"learning_rate": 0.0005866666666666668,
"loss": 1.8115,
"step": 8240
},
{
"epoch": 82.5,
"grad_norm": 3.843885660171509,
"learning_rate": 0.0005833333333333334,
"loss": 1.777,
"step": 8250
},
{
"epoch": 82.6,
"grad_norm": 11.834420204162598,
"learning_rate": 0.00058,
"loss": 1.6285,
"step": 8260
},
{
"epoch": 82.7,
"grad_norm": 4.1545257568359375,
"learning_rate": 0.0005766666666666666,
"loss": 1.4498,
"step": 8270
},
{
"epoch": 82.8,
"grad_norm": 2.874239683151245,
"learning_rate": 0.0005733333333333334,
"loss": 1.9519,
"step": 8280
},
{
"epoch": 82.9,
"grad_norm": 2.4866464138031006,
"learning_rate": 0.00057,
"loss": 1.6679,
"step": 8290
},
{
"epoch": 83.0,
"grad_norm": 11.783166885375977,
"learning_rate": 0.0005666666666666667,
"loss": 1.5538,
"step": 8300
},
{
"epoch": 83.0,
"eval_accuracy": 0.13,
"eval_loss": 7.0785722732543945,
"eval_runtime": 1.0594,
"eval_samples_per_second": 94.392,
"eval_steps_per_second": 94.392,
"step": 8300
},
{
"epoch": 83.1,
"grad_norm": 5.404430389404297,
"learning_rate": 0.0005633333333333333,
"loss": 1.5581,
"step": 8310
},
{
"epoch": 83.2,
"grad_norm": 13.793869018554688,
"learning_rate": 0.0005600000000000001,
"loss": 1.7984,
"step": 8320
},
{
"epoch": 83.3,
"grad_norm": 3.788058042526245,
"learning_rate": 0.0005566666666666667,
"loss": 1.7085,
"step": 8330
},
{
"epoch": 83.4,
"grad_norm": 2.9603164196014404,
"learning_rate": 0.0005533333333333333,
"loss": 1.6841,
"step": 8340
},
{
"epoch": 83.5,
"grad_norm": 3.9996180534362793,
"learning_rate": 0.0005499999999999999,
"loss": 1.6758,
"step": 8350
},
{
"epoch": 83.6,
"grad_norm": 3.632449150085449,
"learning_rate": 0.0005466666666666667,
"loss": 1.5275,
"step": 8360
},
{
"epoch": 83.7,
"grad_norm": 9.344165802001953,
"learning_rate": 0.0005433333333333334,
"loss": 1.848,
"step": 8370
},
{
"epoch": 83.8,
"grad_norm": 6.6888933181762695,
"learning_rate": 0.00054,
"loss": 1.5813,
"step": 8380
},
{
"epoch": 83.9,
"grad_norm": 4.866454124450684,
"learning_rate": 0.0005366666666666666,
"loss": 1.4282,
"step": 8390
},
{
"epoch": 84.0,
"grad_norm": 5.3505659103393555,
"learning_rate": 0.0005333333333333334,
"loss": 1.5705,
"step": 8400
},
{
"epoch": 84.0,
"eval_accuracy": 0.14,
"eval_loss": 12.585135459899902,
"eval_runtime": 1.0929,
"eval_samples_per_second": 91.504,
"eval_steps_per_second": 91.504,
"step": 8400
},
{
"epoch": 84.1,
"grad_norm": 3.3361263275146484,
"learning_rate": 0.00053,
"loss": 1.6673,
"step": 8410
},
{
"epoch": 84.2,
"grad_norm": 3.2002100944519043,
"learning_rate": 0.0005266666666666666,
"loss": 1.5196,
"step": 8420
},
{
"epoch": 84.3,
"grad_norm": 4.537071228027344,
"learning_rate": 0.0005233333333333333,
"loss": 1.4038,
"step": 8430
},
{
"epoch": 84.4,
"grad_norm": 4.313013076782227,
"learning_rate": 0.0005200000000000001,
"loss": 1.7172,
"step": 8440
},
{
"epoch": 84.5,
"grad_norm": 16.408864974975586,
"learning_rate": 0.0005166666666666667,
"loss": 1.6465,
"step": 8450
},
{
"epoch": 84.6,
"grad_norm": 3.185908317565918,
"learning_rate": 0.0005133333333333333,
"loss": 1.8762,
"step": 8460
},
{
"epoch": 84.7,
"grad_norm": 12.016066551208496,
"learning_rate": 0.00051,
"loss": 1.547,
"step": 8470
},
{
"epoch": 84.8,
"grad_norm": 3.833848237991333,
"learning_rate": 0.0005066666666666667,
"loss": 1.8839,
"step": 8480
},
{
"epoch": 84.9,
"grad_norm": 6.557989597320557,
"learning_rate": 0.0005033333333333334,
"loss": 1.5552,
"step": 8490
},
{
"epoch": 85.0,
"grad_norm": 9.092035293579102,
"learning_rate": 0.0005,
"loss": 1.7255,
"step": 8500
},
{
"epoch": 85.0,
"eval_accuracy": 0.11,
"eval_loss": 9.933082580566406,
"eval_runtime": 1.0662,
"eval_samples_per_second": 93.791,
"eval_steps_per_second": 93.791,
"step": 8500
},
{
"epoch": 85.1,
"grad_norm": 4.006185531616211,
"learning_rate": 0.0004966666666666667,
"loss": 1.5849,
"step": 8510
},
{
"epoch": 85.2,
"grad_norm": 4.64818000793457,
"learning_rate": 0.0004933333333333334,
"loss": 1.5274,
"step": 8520
},
{
"epoch": 85.3,
"grad_norm": 4.239321708679199,
"learning_rate": 0.00049,
"loss": 1.3585,
"step": 8530
},
{
"epoch": 85.4,
"grad_norm": 3.4257285594940186,
"learning_rate": 0.00048666666666666666,
"loss": 1.6392,
"step": 8540
},
{
"epoch": 85.5,
"grad_norm": 11.131654739379883,
"learning_rate": 0.0004833333333333334,
"loss": 2.0834,
"step": 8550
},
{
"epoch": 85.6,
"grad_norm": 4.093764781951904,
"learning_rate": 0.00048,
"loss": 1.7804,
"step": 8560
},
{
"epoch": 85.7,
"grad_norm": 7.1940765380859375,
"learning_rate": 0.0004766666666666667,
"loss": 1.8576,
"step": 8570
},
{
"epoch": 85.8,
"grad_norm": 3.6592063903808594,
"learning_rate": 0.0004733333333333333,
"loss": 1.6122,
"step": 8580
},
{
"epoch": 85.9,
"grad_norm": 8.182126998901367,
"learning_rate": 0.00047000000000000004,
"loss": 1.6283,
"step": 8590
},
{
"epoch": 86.0,
"grad_norm": 4.966497898101807,
"learning_rate": 0.00046666666666666666,
"loss": 1.6063,
"step": 8600
},
{
"epoch": 86.0,
"eval_accuracy": 0.14,
"eval_loss": 11.363009452819824,
"eval_runtime": 1.1002,
"eval_samples_per_second": 90.889,
"eval_steps_per_second": 90.889,
"step": 8600
},
{
"epoch": 86.1,
"grad_norm": 2.8917222023010254,
"learning_rate": 0.00046333333333333334,
"loss": 1.5926,
"step": 8610
},
{
"epoch": 86.2,
"grad_norm": 5.326013088226318,
"learning_rate": 0.00045999999999999996,
"loss": 1.7023,
"step": 8620
},
{
"epoch": 86.3,
"grad_norm": 6.342537879943848,
"learning_rate": 0.0004566666666666667,
"loss": 1.7277,
"step": 8630
},
{
"epoch": 86.4,
"grad_norm": 5.517503261566162,
"learning_rate": 0.00045333333333333337,
"loss": 1.5213,
"step": 8640
},
{
"epoch": 86.5,
"grad_norm": 5.387936592102051,
"learning_rate": 0.00045,
"loss": 1.3763,
"step": 8650
},
{
"epoch": 86.6,
"grad_norm": 6.751247406005859,
"learning_rate": 0.00044666666666666666,
"loss": 1.5613,
"step": 8660
},
{
"epoch": 86.7,
"grad_norm": 3.263594627380371,
"learning_rate": 0.00044333333333333334,
"loss": 1.5917,
"step": 8670
},
{
"epoch": 86.8,
"grad_norm": 4.501608371734619,
"learning_rate": 0.00044,
"loss": 1.7682,
"step": 8680
},
{
"epoch": 86.9,
"grad_norm": 6.865741729736328,
"learning_rate": 0.00043666666666666664,
"loss": 1.6396,
"step": 8690
},
{
"epoch": 87.0,
"grad_norm": 18.602689743041992,
"learning_rate": 0.0004333333333333333,
"loss": 1.5201,
"step": 8700
},
{
"epoch": 87.0,
"eval_accuracy": 0.08,
"eval_loss": 20.801061630249023,
"eval_runtime": 1.0917,
"eval_samples_per_second": 91.601,
"eval_steps_per_second": 91.601,
"step": 8700
},
{
"epoch": 87.1,
"grad_norm": 4.5361857414245605,
"learning_rate": 0.00043000000000000004,
"loss": 1.6544,
"step": 8710
},
{
"epoch": 87.2,
"grad_norm": 9.736603736877441,
"learning_rate": 0.00042666666666666667,
"loss": 1.6858,
"step": 8720
},
{
"epoch": 87.3,
"grad_norm": 4.952563762664795,
"learning_rate": 0.00042333333333333334,
"loss": 1.7577,
"step": 8730
},
{
"epoch": 87.4,
"grad_norm": 4.5743608474731445,
"learning_rate": 0.00042000000000000007,
"loss": 1.5682,
"step": 8740
},
{
"epoch": 87.5,
"grad_norm": 4.293666362762451,
"learning_rate": 0.0004166666666666667,
"loss": 1.5536,
"step": 8750
},
{
"epoch": 87.6,
"grad_norm": 4.446376800537109,
"learning_rate": 0.0004133333333333333,
"loss": 1.5963,
"step": 8760
},
{
"epoch": 87.7,
"grad_norm": 6.884150981903076,
"learning_rate": 0.00041,
"loss": 1.637,
"step": 8770
},
{
"epoch": 87.8,
"grad_norm": 4.1387176513671875,
"learning_rate": 0.0004066666666666667,
"loss": 1.5257,
"step": 8780
},
{
"epoch": 87.9,
"grad_norm": 4.752466678619385,
"learning_rate": 0.00040333333333333334,
"loss": 1.5627,
"step": 8790
},
{
"epoch": 88.0,
"grad_norm": 4.676969051361084,
"learning_rate": 0.0004,
"loss": 1.3734,
"step": 8800
},
{
"epoch": 88.0,
"eval_accuracy": 0.09,
"eval_loss": 5.235384941101074,
"eval_runtime": 1.0813,
"eval_samples_per_second": 92.482,
"eval_steps_per_second": 92.482,
"step": 8800
},
{
"epoch": 88.1,
"grad_norm": 5.092541694641113,
"learning_rate": 0.00039666666666666664,
"loss": 1.8695,
"step": 8810
},
{
"epoch": 88.2,
"grad_norm": 12.015568733215332,
"learning_rate": 0.00039333333333333337,
"loss": 1.8373,
"step": 8820
},
{
"epoch": 88.3,
"grad_norm": 4.479465961456299,
"learning_rate": 0.00039000000000000005,
"loss": 1.6962,
"step": 8830
},
{
"epoch": 88.4,
"grad_norm": 8.001754760742188,
"learning_rate": 0.00038666666666666667,
"loss": 1.6139,
"step": 8840
},
{
"epoch": 88.5,
"grad_norm": 4.856076717376709,
"learning_rate": 0.0003833333333333333,
"loss": 1.3922,
"step": 8850
},
{
"epoch": 88.6,
"grad_norm": 4.531224727630615,
"learning_rate": 0.00038,
"loss": 1.688,
"step": 8860
},
{
"epoch": 88.7,
"grad_norm": 6.974000453948975,
"learning_rate": 0.0003766666666666667,
"loss": 1.8213,
"step": 8870
},
{
"epoch": 88.8,
"grad_norm": 5.6940155029296875,
"learning_rate": 0.0003733333333333333,
"loss": 1.6231,
"step": 8880
},
{
"epoch": 88.9,
"grad_norm": 6.221618175506592,
"learning_rate": 0.00037,
"loss": 1.4928,
"step": 8890
},
{
"epoch": 89.0,
"grad_norm": 5.715379238128662,
"learning_rate": 0.00036666666666666667,
"loss": 1.5931,
"step": 8900
},
{
"epoch": 89.0,
"eval_accuracy": 0.1,
"eval_loss": 6.509023666381836,
"eval_runtime": 1.1779,
"eval_samples_per_second": 84.897,
"eval_steps_per_second": 84.897,
"step": 8900
},
{
"epoch": 89.1,
"grad_norm": 4.112030506134033,
"learning_rate": 0.00036333333333333335,
"loss": 1.4779,
"step": 8910
},
{
"epoch": 89.2,
"grad_norm": 4.962814807891846,
"learning_rate": 0.00035999999999999997,
"loss": 1.4838,
"step": 8920
},
{
"epoch": 89.3,
"grad_norm": 3.100139856338501,
"learning_rate": 0.0003566666666666667,
"loss": 1.4203,
"step": 8930
},
{
"epoch": 89.4,
"grad_norm": 2.1554136276245117,
"learning_rate": 0.0003533333333333333,
"loss": 1.8653,
"step": 8940
},
{
"epoch": 89.5,
"grad_norm": 4.6902360916137695,
"learning_rate": 0.00035,
"loss": 1.7854,
"step": 8950
},
{
"epoch": 89.6,
"grad_norm": 7.109988689422607,
"learning_rate": 0.00034666666666666667,
"loss": 1.6059,
"step": 8960
},
{
"epoch": 89.7,
"grad_norm": 5.055539608001709,
"learning_rate": 0.00034333333333333335,
"loss": 1.5368,
"step": 8970
},
{
"epoch": 89.8,
"grad_norm": 3.6119301319122314,
"learning_rate": 0.00033999999999999997,
"loss": 1.6468,
"step": 8980
},
{
"epoch": 89.9,
"grad_norm": 4.249040126800537,
"learning_rate": 0.0003366666666666667,
"loss": 1.6441,
"step": 8990
},
{
"epoch": 90.0,
"grad_norm": 2.1352763175964355,
"learning_rate": 0.0003333333333333333,
"loss": 1.5562,
"step": 9000
},
{
"epoch": 90.0,
"eval_accuracy": 0.1,
"eval_loss": 11.834088325500488,
"eval_runtime": 1.0907,
"eval_samples_per_second": 91.685,
"eval_steps_per_second": 91.685,
"step": 9000
},
{
"epoch": 90.1,
"grad_norm": 6.328755855560303,
"learning_rate": 0.00033,
"loss": 1.3075,
"step": 9010
},
{
"epoch": 90.2,
"grad_norm": 2.490816593170166,
"learning_rate": 0.0003266666666666667,
"loss": 1.5389,
"step": 9020
},
{
"epoch": 90.3,
"grad_norm": 2.4213767051696777,
"learning_rate": 0.00032333333333333335,
"loss": 1.5494,
"step": 9030
},
{
"epoch": 90.4,
"grad_norm": 6.218684673309326,
"learning_rate": 0.00032,
"loss": 1.714,
"step": 9040
},
{
"epoch": 90.5,
"grad_norm": 8.454752922058105,
"learning_rate": 0.00031666666666666665,
"loss": 1.751,
"step": 9050
},
{
"epoch": 90.6,
"grad_norm": 6.157979488372803,
"learning_rate": 0.0003133333333333334,
"loss": 1.6605,
"step": 9060
},
{
"epoch": 90.7,
"grad_norm": 6.605826377868652,
"learning_rate": 0.00031,
"loss": 1.4179,
"step": 9070
},
{
"epoch": 90.8,
"grad_norm": 3.808640480041504,
"learning_rate": 0.0003066666666666667,
"loss": 1.8103,
"step": 9080
},
{
"epoch": 90.9,
"grad_norm": 2.5629327297210693,
"learning_rate": 0.00030333333333333335,
"loss": 1.8102,
"step": 9090
},
{
"epoch": 91.0,
"grad_norm": 6.230813026428223,
"learning_rate": 0.00030000000000000003,
"loss": 1.576,
"step": 9100
},
{
"epoch": 91.0,
"eval_accuracy": 0.11,
"eval_loss": 6.952084541320801,
"eval_runtime": 1.0557,
"eval_samples_per_second": 94.722,
"eval_steps_per_second": 94.722,
"step": 9100
},
{
"epoch": 91.1,
"grad_norm": 6.030466079711914,
"learning_rate": 0.00029666666666666665,
"loss": 1.3356,
"step": 9110
},
{
"epoch": 91.2,
"grad_norm": 11.793140411376953,
"learning_rate": 0.0002933333333333334,
"loss": 1.5781,
"step": 9120
},
{
"epoch": 91.3,
"grad_norm": 3.717588186264038,
"learning_rate": 0.00029,
"loss": 1.6609,
"step": 9130
},
{
"epoch": 91.4,
"grad_norm": 3.572495222091675,
"learning_rate": 0.0002866666666666667,
"loss": 1.4394,
"step": 9140
},
{
"epoch": 91.5,
"grad_norm": 11.123634338378906,
"learning_rate": 0.00028333333333333335,
"loss": 1.7692,
"step": 9150
},
{
"epoch": 91.6,
"grad_norm": 4.947868824005127,
"learning_rate": 0.00028000000000000003,
"loss": 1.9597,
"step": 9160
},
{
"epoch": 91.7,
"grad_norm": 5.078018665313721,
"learning_rate": 0.00027666666666666665,
"loss": 1.7529,
"step": 9170
},
{
"epoch": 91.8,
"grad_norm": 1.9481812715530396,
"learning_rate": 0.00027333333333333333,
"loss": 1.5537,
"step": 9180
},
{
"epoch": 91.9,
"grad_norm": 4.905779838562012,
"learning_rate": 0.00027,
"loss": 1.6519,
"step": 9190
},
{
"epoch": 92.0,
"grad_norm": 9.797691345214844,
"learning_rate": 0.0002666666666666667,
"loss": 1.542,
"step": 9200
},
{
"epoch": 92.0,
"eval_accuracy": 0.11,
"eval_loss": 5.4469685554504395,
"eval_runtime": 1.0782,
"eval_samples_per_second": 92.746,
"eval_steps_per_second": 92.746,
"step": 9200
},
{
"epoch": 92.1,
"grad_norm": 8.36400318145752,
"learning_rate": 0.0002633333333333333,
"loss": 1.3856,
"step": 9210
},
{
"epoch": 92.2,
"grad_norm": 5.642277717590332,
"learning_rate": 0.00026000000000000003,
"loss": 1.4981,
"step": 9220
},
{
"epoch": 92.3,
"grad_norm": 6.828677177429199,
"learning_rate": 0.00025666666666666665,
"loss": 1.6994,
"step": 9230
},
{
"epoch": 92.4,
"grad_norm": 2.652298927307129,
"learning_rate": 0.00025333333333333333,
"loss": 1.4695,
"step": 9240
},
{
"epoch": 92.5,
"grad_norm": 11.153400421142578,
"learning_rate": 0.00025,
"loss": 1.7156,
"step": 9250
},
{
"epoch": 92.6,
"grad_norm": 9.4036865234375,
"learning_rate": 0.0002466666666666667,
"loss": 1.5793,
"step": 9260
},
{
"epoch": 92.7,
"grad_norm": 4.6221089363098145,
"learning_rate": 0.00024333333333333333,
"loss": 1.5901,
"step": 9270
},
{
"epoch": 92.8,
"grad_norm": 16.04757308959961,
"learning_rate": 0.00024,
"loss": 1.5083,
"step": 9280
},
{
"epoch": 92.9,
"grad_norm": 3.3790411949157715,
"learning_rate": 0.00023666666666666665,
"loss": 1.6492,
"step": 9290
},
{
"epoch": 93.0,
"grad_norm": 5.925487995147705,
"learning_rate": 0.00023333333333333333,
"loss": 1.4968,
"step": 9300
},
{
"epoch": 93.0,
"eval_accuracy": 0.08,
"eval_loss": 11.389555931091309,
"eval_runtime": 1.0737,
"eval_samples_per_second": 93.132,
"eval_steps_per_second": 93.132,
"step": 9300
},
{
"epoch": 93.1,
"grad_norm": 3.4330050945281982,
"learning_rate": 0.00022999999999999998,
"loss": 1.45,
"step": 9310
},
{
"epoch": 93.2,
"grad_norm": 6.9820051193237305,
"learning_rate": 0.00022666666666666668,
"loss": 1.5511,
"step": 9320
},
{
"epoch": 93.3,
"grad_norm": 3.9312143325805664,
"learning_rate": 0.00022333333333333333,
"loss": 1.6517,
"step": 9330
},
{
"epoch": 93.4,
"grad_norm": 3.8252358436584473,
"learning_rate": 0.00022,
"loss": 1.5204,
"step": 9340
},
{
"epoch": 93.5,
"grad_norm": 5.608623027801514,
"learning_rate": 0.00021666666666666666,
"loss": 1.6045,
"step": 9350
},
{
"epoch": 93.6,
"grad_norm": 3.1002135276794434,
"learning_rate": 0.00021333333333333333,
"loss": 1.8633,
"step": 9360
},
{
"epoch": 93.7,
"grad_norm": 7.6362080574035645,
"learning_rate": 0.00021000000000000004,
"loss": 1.8021,
"step": 9370
},
{
"epoch": 93.8,
"grad_norm": 6.949824810028076,
"learning_rate": 0.00020666666666666666,
"loss": 1.5986,
"step": 9380
},
{
"epoch": 93.9,
"grad_norm": 2.6082653999328613,
"learning_rate": 0.00020333333333333336,
"loss": 1.6573,
"step": 9390
},
{
"epoch": 94.0,
"grad_norm": 1.7762422561645508,
"learning_rate": 0.0002,
"loss": 1.5031,
"step": 9400
},
{
"epoch": 94.0,
"eval_accuracy": 0.09,
"eval_loss": 11.971654891967773,
"eval_runtime": 1.0995,
"eval_samples_per_second": 90.954,
"eval_steps_per_second": 90.954,
"step": 9400
},
{
"epoch": 94.1,
"grad_norm": 5.909740447998047,
"learning_rate": 0.00019666666666666669,
"loss": 1.8356,
"step": 9410
},
{
"epoch": 94.2,
"grad_norm": 5.829824447631836,
"learning_rate": 0.00019333333333333333,
"loss": 1.6169,
"step": 9420
},
{
"epoch": 94.3,
"grad_norm": 5.292634963989258,
"learning_rate": 0.00019,
"loss": 1.5679,
"step": 9430
},
{
"epoch": 94.4,
"grad_norm": 10.358529090881348,
"learning_rate": 0.00018666666666666666,
"loss": 1.7761,
"step": 9440
},
{
"epoch": 94.5,
"grad_norm": 7.091001033782959,
"learning_rate": 0.00018333333333333334,
"loss": 1.3063,
"step": 9450
},
{
"epoch": 94.6,
"grad_norm": 5.417427062988281,
"learning_rate": 0.00017999999999999998,
"loss": 1.5903,
"step": 9460
},
{
"epoch": 94.7,
"grad_norm": 2.955625295639038,
"learning_rate": 0.00017666666666666666,
"loss": 1.34,
"step": 9470
},
{
"epoch": 94.8,
"grad_norm": 12.496049880981445,
"learning_rate": 0.00017333333333333334,
"loss": 1.6369,
"step": 9480
},
{
"epoch": 94.9,
"grad_norm": 5.346241474151611,
"learning_rate": 0.00016999999999999999,
"loss": 1.6256,
"step": 9490
},
{
"epoch": 95.0,
"grad_norm": 3.4618892669677734,
"learning_rate": 0.00016666666666666666,
"loss": 1.797,
"step": 9500
},
{
"epoch": 95.0,
"eval_accuracy": 0.15,
"eval_loss": 5.659628391265869,
"eval_runtime": 1.0964,
"eval_samples_per_second": 91.21,
"eval_steps_per_second": 91.21,
"step": 9500
},
{
"epoch": 95.1,
"grad_norm": 9.091547012329102,
"learning_rate": 0.00016333333333333334,
"loss": 1.7098,
"step": 9510
},
{
"epoch": 95.2,
"grad_norm": 4.004639625549316,
"learning_rate": 0.00016,
"loss": 1.7619,
"step": 9520
},
{
"epoch": 95.3,
"grad_norm": 5.718022346496582,
"learning_rate": 0.0001566666666666667,
"loss": 1.6164,
"step": 9530
},
{
"epoch": 95.4,
"grad_norm": 6.067481994628906,
"learning_rate": 0.00015333333333333334,
"loss": 1.4772,
"step": 9540
},
{
"epoch": 95.5,
"grad_norm": 9.880731582641602,
"learning_rate": 0.00015000000000000001,
"loss": 1.727,
"step": 9550
},
{
"epoch": 95.6,
"grad_norm": 3.9072794914245605,
"learning_rate": 0.0001466666666666667,
"loss": 1.6101,
"step": 9560
},
{
"epoch": 95.7,
"grad_norm": 5.950568199157715,
"learning_rate": 0.00014333333333333334,
"loss": 1.6918,
"step": 9570
},
{
"epoch": 95.8,
"grad_norm": 4.8070759773254395,
"learning_rate": 0.00014000000000000001,
"loss": 1.5439,
"step": 9580
},
{
"epoch": 95.9,
"grad_norm": 2.928107500076294,
"learning_rate": 0.00013666666666666666,
"loss": 1.7419,
"step": 9590
},
{
"epoch": 96.0,
"grad_norm": 2.5517635345458984,
"learning_rate": 0.00013333333333333334,
"loss": 1.5389,
"step": 9600
},
{
"epoch": 96.0,
"eval_accuracy": 0.15,
"eval_loss": 5.394742488861084,
"eval_runtime": 1.2105,
"eval_samples_per_second": 82.609,
"eval_steps_per_second": 82.609,
"step": 9600
},
{
"epoch": 96.1,
"grad_norm": 6.7149200439453125,
"learning_rate": 0.00013000000000000002,
"loss": 1.4619,
"step": 9610
},
{
"epoch": 96.2,
"grad_norm": 4.244627952575684,
"learning_rate": 0.00012666666666666666,
"loss": 1.658,
"step": 9620
},
{
"epoch": 96.3,
"grad_norm": 12.272513389587402,
"learning_rate": 0.00012333333333333334,
"loss": 1.4024,
"step": 9630
},
{
"epoch": 96.4,
"grad_norm": 4.836441516876221,
"learning_rate": 0.00012,
"loss": 1.6373,
"step": 9640
},
{
"epoch": 96.5,
"grad_norm": 10.306394577026367,
"learning_rate": 0.00011666666666666667,
"loss": 1.6761,
"step": 9650
},
{
"epoch": 96.6,
"grad_norm": 15.065468788146973,
"learning_rate": 0.00011333333333333334,
"loss": 1.5668,
"step": 9660
},
{
"epoch": 96.7,
"grad_norm": 9.095344543457031,
"learning_rate": 0.00011,
"loss": 1.6632,
"step": 9670
},
{
"epoch": 96.8,
"grad_norm": 15.200200080871582,
"learning_rate": 0.00010666666666666667,
"loss": 1.751,
"step": 9680
},
{
"epoch": 96.9,
"grad_norm": 5.573326587677002,
"learning_rate": 0.00010333333333333333,
"loss": 1.4333,
"step": 9690
},
{
"epoch": 97.0,
"grad_norm": 8.93664836883545,
"learning_rate": 0.0001,
"loss": 1.6494,
"step": 9700
},
{
"epoch": 97.0,
"eval_accuracy": 0.09,
"eval_loss": 12.270679473876953,
"eval_runtime": 1.1046,
"eval_samples_per_second": 90.527,
"eval_steps_per_second": 90.527,
"step": 9700
},
{
"epoch": 97.1,
"grad_norm": 7.3307061195373535,
"learning_rate": 9.666666666666667e-05,
"loss": 1.6132,
"step": 9710
},
{
"epoch": 97.2,
"grad_norm": 4.363010406494141,
"learning_rate": 9.333333333333333e-05,
"loss": 1.4765,
"step": 9720
},
{
"epoch": 97.3,
"grad_norm": 6.389674186706543,
"learning_rate": 8.999999999999999e-05,
"loss": 1.5761,
"step": 9730
},
{
"epoch": 97.4,
"grad_norm": 5.851135730743408,
"learning_rate": 8.666666666666667e-05,
"loss": 1.4239,
"step": 9740
},
{
"epoch": 97.5,
"grad_norm": 3.2834291458129883,
"learning_rate": 8.333333333333333e-05,
"loss": 1.492,
"step": 9750
},
{
"epoch": 97.6,
"grad_norm": 7.470133304595947,
"learning_rate": 8e-05,
"loss": 1.397,
"step": 9760
},
{
"epoch": 97.7,
"grad_norm": 10.482823371887207,
"learning_rate": 7.666666666666667e-05,
"loss": 1.3747,
"step": 9770
},
{
"epoch": 97.8,
"grad_norm": 5.69985818862915,
"learning_rate": 7.333333333333334e-05,
"loss": 1.6509,
"step": 9780
},
{
"epoch": 97.9,
"grad_norm": 5.918487071990967,
"learning_rate": 7.000000000000001e-05,
"loss": 1.7359,
"step": 9790
},
{
"epoch": 98.0,
"grad_norm": 5.521181583404541,
"learning_rate": 6.666666666666667e-05,
"loss": 1.73,
"step": 9800
},
{
"epoch": 98.0,
"eval_accuracy": 0.09,
"eval_loss": 7.748157978057861,
"eval_runtime": 1.1743,
"eval_samples_per_second": 85.156,
"eval_steps_per_second": 85.156,
"step": 9800
},
{
"epoch": 98.1,
"grad_norm": 1.7943670749664307,
"learning_rate": 6.333333333333333e-05,
"loss": 1.521,
"step": 9810
},
{
"epoch": 98.2,
"grad_norm": 5.804259777069092,
"learning_rate": 6e-05,
"loss": 1.4225,
"step": 9820
},
{
"epoch": 98.3,
"grad_norm": 4.800943374633789,
"learning_rate": 5.666666666666667e-05,
"loss": 1.6552,
"step": 9830
},
{
"epoch": 98.4,
"grad_norm": 4.801553726196289,
"learning_rate": 5.333333333333333e-05,
"loss": 1.6209,
"step": 9840
},
{
"epoch": 98.5,
"grad_norm": 6.166553974151611,
"learning_rate": 5e-05,
"loss": 1.6065,
"step": 9850
},
{
"epoch": 98.6,
"grad_norm": 5.88163948059082,
"learning_rate": 4.6666666666666665e-05,
"loss": 1.4366,
"step": 9860
},
{
"epoch": 98.7,
"grad_norm": 3.944805145263672,
"learning_rate": 4.3333333333333334e-05,
"loss": 1.7576,
"step": 9870
},
{
"epoch": 98.8,
"grad_norm": 3.368363618850708,
"learning_rate": 4e-05,
"loss": 1.4783,
"step": 9880
},
{
"epoch": 98.9,
"grad_norm": 14.498971939086914,
"learning_rate": 3.666666666666667e-05,
"loss": 1.5058,
"step": 9890
},
{
"epoch": 99.0,
"grad_norm": 15.378142356872559,
"learning_rate": 3.3333333333333335e-05,
"loss": 1.6781,
"step": 9900
},
{
"epoch": 99.0,
"eval_accuracy": 0.09,
"eval_loss": 8.217840194702148,
"eval_runtime": 1.0827,
"eval_samples_per_second": 92.358,
"eval_steps_per_second": 92.358,
"step": 9900
},
{
"epoch": 99.1,
"grad_norm": 4.426601886749268,
"learning_rate": 3e-05,
"loss": 1.6958,
"step": 9910
},
{
"epoch": 99.2,
"grad_norm": 4.605733394622803,
"learning_rate": 2.6666666666666667e-05,
"loss": 1.4533,
"step": 9920
},
{
"epoch": 99.3,
"grad_norm": 13.782227516174316,
"learning_rate": 2.3333333333333332e-05,
"loss": 1.8946,
"step": 9930
},
{
"epoch": 99.4,
"grad_norm": 4.161137580871582,
"learning_rate": 2e-05,
"loss": 1.6174,
"step": 9940
},
{
"epoch": 99.5,
"grad_norm": 2.4664387702941895,
"learning_rate": 1.6666666666666667e-05,
"loss": 1.5238,
"step": 9950
},
{
"epoch": 99.6,
"grad_norm": 2.55865216255188,
"learning_rate": 1.3333333333333333e-05,
"loss": 1.5149,
"step": 9960
},
{
"epoch": 99.7,
"grad_norm": 6.92779016494751,
"learning_rate": 1e-05,
"loss": 1.6855,
"step": 9970
},
{
"epoch": 99.8,
"grad_norm": 5.996972560882568,
"learning_rate": 6.666666666666667e-06,
"loss": 1.6467,
"step": 9980
},
{
"epoch": 99.9,
"grad_norm": 4.8729729652404785,
"learning_rate": 3.3333333333333333e-06,
"loss": 1.4819,
"step": 9990
},
{
"epoch": 100.0,
"grad_norm": 6.14045524597168,
"learning_rate": 0.0,
"loss": 1.6353,
"step": 10000
},
{
"epoch": 100.0,
"eval_accuracy": 0.09,
"eval_loss": 7.3961310386657715,
"eval_runtime": 1.1462,
"eval_samples_per_second": 87.242,
"eval_steps_per_second": 87.242,
"step": 10000
},
{
"epoch": 100.0,
"step": 10000,
"total_flos": 5.698654912512e+16,
"train_loss": 1.9340028741836548,
"train_runtime": 4182.7218,
"train_samples_per_second": 9.563,
"train_steps_per_second": 2.391
}
],
"logging_steps": 10,
"max_steps": 10000,
"num_input_tokens_seen": 0,
"num_train_epochs": 100,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 5.698654912512e+16,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}