mobilevit-xx-small-finetuned-eurosat / trainer_state.json

Training in progress, epoch 1

f08feb3 verified 5 months ago

179 kB

	{
	"best_metric": 0.2,
	"best_model_checkpoint": "mobilevit-xx-small-finetuned-eurosat/checkpoint-3500",
	"epoch": 100.0,
	"eval_steps": 500,
	"global_step": 10000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1,
	"grad_norm": 2.1324617862701416,
	"learning_rate": 3e-05,
	"loss": 2.3012,
	"step": 10
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.3381329774856567,
	"learning_rate": 6e-05,
	"loss": 2.3047,
	"step": 20
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.8502155542373657,
	"learning_rate": 8.999999999999999e-05,
	"loss": 2.2991,
	"step": 30
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.422213554382324,
	"learning_rate": 0.00012,
	"loss": 2.3029,
	"step": 40
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.453734040260315,
	"learning_rate": 0.00015000000000000001,
	"loss": 2.3016,
	"step": 50
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.6491554975509644,
	"learning_rate": 0.00017999999999999998,
	"loss": 2.303,
	"step": 60
	},
	{
	"epoch": 0.7,
	"grad_norm": 2.927738666534424,
	"learning_rate": 0.00021000000000000004,
	"loss": 2.3005,
	"step": 70
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.2199476957321167,
	"learning_rate": 0.00024,
	"loss": 2.3069,
	"step": 80
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.4366081953048706,
	"learning_rate": 0.00027,
	"loss": 2.2955,
	"step": 90
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.102356195449829,
	"learning_rate": 0.00030000000000000003,
	"loss": 2.2991,
	"step": 100
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.16,
	"eval_loss": 2.289586067199707,
	"eval_runtime": 1.4788,
	"eval_samples_per_second": 67.624,
	"eval_steps_per_second": 67.624,
	"step": 100
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.5379983186721802,
	"learning_rate": 0.00033,
	"loss": 2.3002,
	"step": 110
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.928782045841217,
	"learning_rate": 0.00035999999999999997,
	"loss": 2.2956,
	"step": 120
	},
	{
	"epoch": 1.3,
	"grad_norm": 0.9759466052055359,
	"learning_rate": 0.00039000000000000005,
	"loss": 2.3028,
	"step": 130
	},
	{
	"epoch": 1.4,
	"grad_norm": 1.5415401458740234,
	"learning_rate": 0.00042000000000000007,
	"loss": 2.2976,
	"step": 140
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.1042237281799316,
	"learning_rate": 0.00045,
	"loss": 2.2798,
	"step": 150
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.4493985176086426,
	"learning_rate": 0.00048,
	"loss": 2.2941,
	"step": 160
	},
	{
	"epoch": 1.7,
	"grad_norm": 1.538596510887146,
	"learning_rate": 0.00051,
	"loss": 2.2887,
	"step": 170
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.4531352519989014,
	"learning_rate": 0.00054,
	"loss": 2.3009,
	"step": 180
	},
	{
	"epoch": 1.9,
	"grad_norm": 0.983465313911438,
	"learning_rate": 0.00057,
	"loss": 2.2891,
	"step": 190
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.0896656513214111,
	"learning_rate": 0.0006000000000000001,
	"loss": 2.3041,
	"step": 200
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.12,
	"eval_loss": 2.4577579498291016,
	"eval_runtime": 1.4566,
	"eval_samples_per_second": 68.653,
	"eval_steps_per_second": 68.653,
	"step": 200
	},
	{
	"epoch": 2.1,
	"grad_norm": 0.838339626789093,
	"learning_rate": 0.00063,
	"loss": 2.3074,
	"step": 210
	},
	{
	"epoch": 2.2,
	"grad_norm": 1.0502190589904785,
	"learning_rate": 0.00066,
	"loss": 2.2746,
	"step": 220
	},
	{
	"epoch": 2.3,
	"grad_norm": 0.9475522041320801,
	"learning_rate": 0.0006900000000000001,
	"loss": 2.2484,
	"step": 230
	},
	{
	"epoch": 2.4,
	"grad_norm": 0.7182848453521729,
	"learning_rate": 0.0007199999999999999,
	"loss": 2.2644,
	"step": 240
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.08864164352417,
	"learning_rate": 0.00075,
	"loss": 2.3224,
	"step": 250
	},
	{
	"epoch": 2.6,
	"grad_norm": 0.9813370108604431,
	"learning_rate": 0.0007800000000000001,
	"loss": 2.2964,
	"step": 260
	},
	{
	"epoch": 2.7,
	"grad_norm": 0.8489407300949097,
	"learning_rate": 0.0008100000000000001,
	"loss": 2.3066,
	"step": 270
	},
	{
	"epoch": 2.8,
	"grad_norm": 1.1197150945663452,
	"learning_rate": 0.0008400000000000001,
	"loss": 2.3362,
	"step": 280
	},
	{
	"epoch": 2.9,
	"grad_norm": 1.279061198234558,
	"learning_rate": 0.00087,
	"loss": 2.2834,
	"step": 290
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.2697229385375977,
	"learning_rate": 0.0009,
	"loss": 2.2833,
	"step": 300
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.12,
	"eval_loss": 2.302177906036377,
	"eval_runtime": 1.3695,
	"eval_samples_per_second": 73.017,
	"eval_steps_per_second": 73.017,
	"step": 300
	},
	{
	"epoch": 3.1,
	"grad_norm": 1.1153604984283447,
	"learning_rate": 0.00093,
	"loss": 2.2568,
	"step": 310
	},
	{
	"epoch": 3.2,
	"grad_norm": 0.7443063855171204,
	"learning_rate": 0.00096,
	"loss": 2.2826,
	"step": 320
	},
	{
	"epoch": 3.3,
	"grad_norm": 0.8337368965148926,
	"learning_rate": 0.00099,
	"loss": 2.2561,
	"step": 330
	},
	{
	"epoch": 3.4,
	"grad_norm": 0.8116536736488342,
	"learning_rate": 0.00102,
	"loss": 2.3272,
	"step": 340
	},
	{
	"epoch": 3.5,
	"grad_norm": 0.9721486568450928,
	"learning_rate": 0.00105,
	"loss": 2.2719,
	"step": 350
	},
	{
	"epoch": 3.6,
	"grad_norm": 1.4430909156799316,
	"learning_rate": 0.00108,
	"loss": 2.3039,
	"step": 360
	},
	{
	"epoch": 3.7,
	"grad_norm": 2.4252946376800537,
	"learning_rate": 0.00111,
	"loss": 2.2797,
	"step": 370
	},
	{
	"epoch": 3.8,
	"grad_norm": 1.0932201147079468,
	"learning_rate": 0.00114,
	"loss": 2.2843,
	"step": 380
	},
	{
	"epoch": 3.9,
	"grad_norm": 1.1340506076812744,
	"learning_rate": 0.00117,
	"loss": 2.3229,
	"step": 390
	},
	{
	"epoch": 4.0,
	"grad_norm": 2.5897912979125977,
	"learning_rate": 0.0012000000000000001,
	"loss": 2.2755,
	"step": 400
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.17,
	"eval_loss": 2.4038970470428467,
	"eval_runtime": 1.5324,
	"eval_samples_per_second": 65.256,
	"eval_steps_per_second": 65.256,
	"step": 400
	},
	{
	"epoch": 4.1,
	"grad_norm": 0.7979876399040222,
	"learning_rate": 0.00123,
	"loss": 2.2504,
	"step": 410
	},
	{
	"epoch": 4.2,
	"grad_norm": 1.2705005407333374,
	"learning_rate": 0.00126,
	"loss": 2.2731,
	"step": 420
	},
	{
	"epoch": 4.3,
	"grad_norm": 1.4571020603179932,
	"learning_rate": 0.00129,
	"loss": 2.3268,
	"step": 430
	},
	{
	"epoch": 4.4,
	"grad_norm": 1.3778339624404907,
	"learning_rate": 0.00132,
	"loss": 2.3044,
	"step": 440
	},
	{
	"epoch": 4.5,
	"grad_norm": 1.30875563621521,
	"learning_rate": 0.00135,
	"loss": 2.2627,
	"step": 450
	},
	{
	"epoch": 4.6,
	"grad_norm": 0.9140678644180298,
	"learning_rate": 0.0013800000000000002,
	"loss": 2.2876,
	"step": 460
	},
	{
	"epoch": 4.7,
	"grad_norm": 0.9151474833488464,
	"learning_rate": 0.00141,
	"loss": 2.2905,
	"step": 470
	},
	{
	"epoch": 4.8,
	"grad_norm": 0.8817148804664612,
	"learning_rate": 0.0014399999999999999,
	"loss": 2.2698,
	"step": 480
	},
	{
	"epoch": 4.9,
	"grad_norm": 1.2688977718353271,
	"learning_rate": 0.00147,
	"loss": 2.2646,
	"step": 490
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.8824284076690674,
	"learning_rate": 0.0015,
	"loss": 2.3063,
	"step": 500
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.1,
	"eval_loss": 2.5689330101013184,
	"eval_runtime": 1.5068,
	"eval_samples_per_second": 66.367,
	"eval_steps_per_second": 66.367,
	"step": 500
	},
	{
	"epoch": 5.1,
	"grad_norm": 1.2520034313201904,
	"learning_rate": 0.0015300000000000001,
	"loss": 2.241,
	"step": 510
	},
	{
	"epoch": 5.2,
	"grad_norm": 1.0238957405090332,
	"learning_rate": 0.0015600000000000002,
	"loss": 2.27,
	"step": 520
	},
	{
	"epoch": 5.3,
	"grad_norm": 2.1329076290130615,
	"learning_rate": 0.00159,
	"loss": 2.2933,
	"step": 530
	},
	{
	"epoch": 5.4,
	"grad_norm": 1.5213390588760376,
	"learning_rate": 0.0016200000000000001,
	"loss": 2.3265,
	"step": 540
	},
	{
	"epoch": 5.5,
	"grad_norm": 1.0696481466293335,
	"learning_rate": 0.0016500000000000002,
	"loss": 2.2632,
	"step": 550
	},
	{
	"epoch": 5.6,
	"grad_norm": 2.2588746547698975,
	"learning_rate": 0.0016800000000000003,
	"loss": 2.3076,
	"step": 560
	},
	{
	"epoch": 5.7,
	"grad_norm": 0.8829935789108276,
	"learning_rate": 0.00171,
	"loss": 2.2396,
	"step": 570
	},
	{
	"epoch": 5.8,
	"grad_norm": 2.340522289276123,
	"learning_rate": 0.00174,
	"loss": 2.2487,
	"step": 580
	},
	{
	"epoch": 5.9,
	"grad_norm": 1.1000961065292358,
	"learning_rate": 0.0017699999999999999,
	"loss": 2.4008,
	"step": 590
	},
	{
	"epoch": 6.0,
	"grad_norm": 1.0605051517486572,
	"learning_rate": 0.0018,
	"loss": 2.3247,
	"step": 600
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.05,
	"eval_loss": 2.5307223796844482,
	"eval_runtime": 1.4509,
	"eval_samples_per_second": 68.922,
	"eval_steps_per_second": 68.922,
	"step": 600
	},
	{
	"epoch": 6.1,
	"grad_norm": 0.7217267751693726,
	"learning_rate": 0.00183,
	"loss": 2.2628,
	"step": 610
	},
	{
	"epoch": 6.2,
	"grad_norm": 1.2763817310333252,
	"learning_rate": 0.00186,
	"loss": 2.3345,
	"step": 620
	},
	{
	"epoch": 6.3,
	"grad_norm": 1.0277924537658691,
	"learning_rate": 0.00189,
	"loss": 2.21,
	"step": 630
	},
	{
	"epoch": 6.4,
	"grad_norm": 1.1366169452667236,
	"learning_rate": 0.00192,
	"loss": 2.2671,
	"step": 640
	},
	{
	"epoch": 6.5,
	"grad_norm": 1.314244270324707,
	"learning_rate": 0.0019500000000000001,
	"loss": 2.2903,
	"step": 650
	},
	{
	"epoch": 6.6,
	"grad_norm": 1.7358442544937134,
	"learning_rate": 0.00198,
	"loss": 2.2646,
	"step": 660
	},
	{
	"epoch": 6.7,
	"grad_norm": 1.7523398399353027,
	"learning_rate": 0.00201,
	"loss": 2.2954,
	"step": 670
	},
	{
	"epoch": 6.8,
	"grad_norm": 1.0838252305984497,
	"learning_rate": 0.00204,
	"loss": 2.284,
	"step": 680
	},
	{
	"epoch": 6.9,
	"grad_norm": 1.375260591506958,
	"learning_rate": 0.00207,
	"loss": 2.2751,
	"step": 690
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.8118464946746826,
	"learning_rate": 0.0021,
	"loss": 2.2867,
	"step": 700
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.08,
	"eval_loss": 4.129552841186523,
	"eval_runtime": 1.34,
	"eval_samples_per_second": 74.629,
	"eval_steps_per_second": 74.629,
	"step": 700
	},
	{
	"epoch": 7.1,
	"grad_norm": 1.1006956100463867,
	"learning_rate": 0.00213,
	"loss": 2.2591,
	"step": 710
	},
	{
	"epoch": 7.2,
	"grad_norm": 1.0100908279418945,
	"learning_rate": 0.00216,
	"loss": 2.234,
	"step": 720
	},
	{
	"epoch": 7.3,
	"grad_norm": 0.6693554520606995,
	"learning_rate": 0.00219,
	"loss": 2.2912,
	"step": 730
	},
	{
	"epoch": 7.4,
	"grad_norm": 1.4744811058044434,
	"learning_rate": 0.00222,
	"loss": 2.2978,
	"step": 740
	},
	{
	"epoch": 7.5,
	"grad_norm": 1.1265888214111328,
	"learning_rate": 0.0022500000000000003,
	"loss": 2.2747,
	"step": 750
	},
	{
	"epoch": 7.6,
	"grad_norm": 0.7370518445968628,
	"learning_rate": 0.00228,
	"loss": 2.254,
	"step": 760
	},
	{
	"epoch": 7.7,
	"grad_norm": 3.5498600006103516,
	"learning_rate": 0.00231,
	"loss": 2.3023,
	"step": 770
	},
	{
	"epoch": 7.8,
	"grad_norm": 0.8357071876525879,
	"learning_rate": 0.00234,
	"loss": 2.2806,
	"step": 780
	},
	{
	"epoch": 7.9,
	"grad_norm": 0.9274773597717285,
	"learning_rate": 0.00237,
	"loss": 2.3048,
	"step": 790
	},
	{
	"epoch": 8.0,
	"grad_norm": 1.2820582389831543,
	"learning_rate": 0.0024000000000000002,
	"loss": 2.2696,
	"step": 800
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.07,
	"eval_loss": 3.08689546585083,
	"eval_runtime": 19.5044,
	"eval_samples_per_second": 5.127,
	"eval_steps_per_second": 5.127,
	"step": 800
	},
	{
	"epoch": 8.1,
	"grad_norm": 0.8906604647636414,
	"learning_rate": 0.0024300000000000003,
	"loss": 2.2654,
	"step": 810
	},
	{
	"epoch": 8.2,
	"grad_norm": 0.9984199404716492,
	"learning_rate": 0.00246,
	"loss": 2.279,
	"step": 820
	},
	{
	"epoch": 8.3,
	"grad_norm": 1.9721964597702026,
	"learning_rate": 0.00249,
	"loss": 2.3893,
	"step": 830
	},
	{
	"epoch": 8.4,
	"grad_norm": 1.0067120790481567,
	"learning_rate": 0.00252,
	"loss": 2.2639,
	"step": 840
	},
	{
	"epoch": 8.5,
	"grad_norm": 1.388048529624939,
	"learning_rate": 0.00255,
	"loss": 2.3113,
	"step": 850
	},
	{
	"epoch": 8.6,
	"grad_norm": 1.2845227718353271,
	"learning_rate": 0.00258,
	"loss": 2.2511,
	"step": 860
	},
	{
	"epoch": 8.7,
	"grad_norm": 0.871728241443634,
	"learning_rate": 0.00261,
	"loss": 2.3939,
	"step": 870
	},
	{
	"epoch": 8.8,
	"grad_norm": 0.8184868693351746,
	"learning_rate": 0.00264,
	"loss": 2.2946,
	"step": 880
	},
	{
	"epoch": 8.9,
	"grad_norm": 1.132112741470337,
	"learning_rate": 0.00267,
	"loss": 2.3046,
	"step": 890
	},
	{
	"epoch": 9.0,
	"grad_norm": 2.1133577823638916,
	"learning_rate": 0.0027,
	"loss": 2.2688,
	"step": 900
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.08,
	"eval_loss": 3.6086204051971436,
	"eval_runtime": 20.8005,
	"eval_samples_per_second": 4.808,
	"eval_steps_per_second": 4.808,
	"step": 900
	},
	{
	"epoch": 9.1,
	"grad_norm": 2.4818060398101807,
	"learning_rate": 0.0027300000000000002,
	"loss": 2.3106,
	"step": 910
	},
	{
	"epoch": 9.2,
	"grad_norm": 3.1399571895599365,
	"learning_rate": 0.0027600000000000003,
	"loss": 2.2638,
	"step": 920
	},
	{
	"epoch": 9.3,
	"grad_norm": 0.6101534962654114,
	"learning_rate": 0.0027900000000000004,
	"loss": 2.3405,
	"step": 930
	},
	{
	"epoch": 9.4,
	"grad_norm": 0.5602176189422607,
	"learning_rate": 0.00282,
	"loss": 2.2907,
	"step": 940
	},
	{
	"epoch": 9.5,
	"grad_norm": 0.9144548773765564,
	"learning_rate": 0.00285,
	"loss": 2.2859,
	"step": 950
	},
	{
	"epoch": 9.6,
	"grad_norm": 1.6563771963119507,
	"learning_rate": 0.0028799999999999997,
	"loss": 2.226,
	"step": 960
	},
	{
	"epoch": 9.7,
	"grad_norm": 1.130618691444397,
	"learning_rate": 0.00291,
	"loss": 2.3164,
	"step": 970
	},
	{
	"epoch": 9.8,
	"grad_norm": 1.309047818183899,
	"learning_rate": 0.00294,
	"loss": 2.369,
	"step": 980
	},
	{
	"epoch": 9.9,
	"grad_norm": 0.8424582481384277,
	"learning_rate": 0.00297,
	"loss": 2.3191,
	"step": 990
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.7681222558021545,
	"learning_rate": 0.003,
	"loss": 2.2616,
	"step": 1000
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.13,
	"eval_loss": 6.5421600341796875,
	"eval_runtime": 8.3248,
	"eval_samples_per_second": 12.012,
	"eval_steps_per_second": 12.012,
	"step": 1000
	},
	{
	"epoch": 10.1,
	"grad_norm": 0.7878401875495911,
	"learning_rate": 0.002996666666666667,
	"loss": 2.3113,
	"step": 1010
	},
	{
	"epoch": 10.2,
	"grad_norm": 1.2619870901107788,
	"learning_rate": 0.0029933333333333335,
	"loss": 2.2792,
	"step": 1020
	},
	{
	"epoch": 10.3,
	"grad_norm": 0.8518879413604736,
	"learning_rate": 0.00299,
	"loss": 2.2483,
	"step": 1030
	},
	{
	"epoch": 10.4,
	"grad_norm": 1.0644011497497559,
	"learning_rate": 0.0029866666666666665,
	"loss": 2.2962,
	"step": 1040
	},
	{
	"epoch": 10.5,
	"grad_norm": 4.86259651184082,
	"learning_rate": 0.0029833333333333335,
	"loss": 2.3568,
	"step": 1050
	},
	{
	"epoch": 10.6,
	"grad_norm": 0.6222243905067444,
	"learning_rate": 0.00298,
	"loss": 2.3044,
	"step": 1060
	},
	{
	"epoch": 10.7,
	"grad_norm": 0.9417657256126404,
	"learning_rate": 0.002976666666666667,
	"loss": 2.3293,
	"step": 1070
	},
	{
	"epoch": 10.8,
	"grad_norm": 0.8060852289199829,
	"learning_rate": 0.0029733333333333335,
	"loss": 2.3223,
	"step": 1080
	},
	{
	"epoch": 10.9,
	"grad_norm": 13.554573059082031,
	"learning_rate": 0.00297,
	"loss": 2.3174,
	"step": 1090
	},
	{
	"epoch": 11.0,
	"grad_norm": 0.6837009191513062,
	"learning_rate": 0.002966666666666667,
	"loss": 2.3896,
	"step": 1100
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.11,
	"eval_loss": 3.2714791297912598,
	"eval_runtime": 2.1977,
	"eval_samples_per_second": 45.503,
	"eval_steps_per_second": 45.503,
	"step": 1100
	},
	{
	"epoch": 11.1,
	"grad_norm": 0.7141666412353516,
	"learning_rate": 0.0029633333333333334,
	"loss": 2.3195,
	"step": 1110
	},
	{
	"epoch": 11.2,
	"grad_norm": 0.7167306542396545,
	"learning_rate": 0.00296,
	"loss": 2.296,
	"step": 1120
	},
	{
	"epoch": 11.3,
	"grad_norm": 0.7279971241950989,
	"learning_rate": 0.0029566666666666665,
	"loss": 2.271,
	"step": 1130
	},
	{
	"epoch": 11.4,
	"grad_norm": 0.7350410223007202,
	"learning_rate": 0.0029533333333333334,
	"loss": 2.3213,
	"step": 1140
	},
	{
	"epoch": 11.5,
	"grad_norm": 0.7864300012588501,
	"learning_rate": 0.00295,
	"loss": 2.3639,
	"step": 1150
	},
	{
	"epoch": 11.6,
	"grad_norm": 1.0151550769805908,
	"learning_rate": 0.002946666666666667,
	"loss": 2.3102,
	"step": 1160
	},
	{
	"epoch": 11.7,
	"grad_norm": 0.830095648765564,
	"learning_rate": 0.0029433333333333334,
	"loss": 2.3059,
	"step": 1170
	},
	{
	"epoch": 11.8,
	"grad_norm": 0.9856182932853699,
	"learning_rate": 0.00294,
	"loss": 2.3251,
	"step": 1180
	},
	{
	"epoch": 11.9,
	"grad_norm": 0.9483402371406555,
	"learning_rate": 0.002936666666666667,
	"loss": 2.2442,
	"step": 1190
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.8080146908760071,
	"learning_rate": 0.0029333333333333334,
	"loss": 2.3264,
	"step": 1200
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.08,
	"eval_loss": 2.697530746459961,
	"eval_runtime": 10.4979,
	"eval_samples_per_second": 9.526,
	"eval_steps_per_second": 9.526,
	"step": 1200
	},
	{
	"epoch": 12.1,
	"grad_norm": 0.5614495277404785,
	"learning_rate": 0.0029300000000000003,
	"loss": 2.3242,
	"step": 1210
	},
	{
	"epoch": 12.2,
	"grad_norm": 0.5666948556900024,
	"learning_rate": 0.0029266666666666664,
	"loss": 2.2657,
	"step": 1220
	},
	{
	"epoch": 12.3,
	"grad_norm": 0.6668452024459839,
	"learning_rate": 0.0029233333333333333,
	"loss": 2.25,
	"step": 1230
	},
	{
	"epoch": 12.4,
	"grad_norm": 0.724169135093689,
	"learning_rate": 0.0029200000000000003,
	"loss": 2.3341,
	"step": 1240
	},
	{
	"epoch": 12.5,
	"grad_norm": 0.5056666135787964,
	"learning_rate": 0.002916666666666667,
	"loss": 2.3078,
	"step": 1250
	},
	{
	"epoch": 12.6,
	"grad_norm": 0.542679488658905,
	"learning_rate": 0.0029133333333333333,
	"loss": 2.3181,
	"step": 1260
	},
	{
	"epoch": 12.7,
	"grad_norm": 0.5752130746841431,
	"learning_rate": 0.00291,
	"loss": 2.3095,
	"step": 1270
	},
	{
	"epoch": 12.8,
	"grad_norm": 1.2706278562545776,
	"learning_rate": 0.0029066666666666668,
	"loss": 2.2843,
	"step": 1280
	},
	{
	"epoch": 12.9,
	"grad_norm": 0.6558820605278015,
	"learning_rate": 0.0029033333333333333,
	"loss": 2.38,
	"step": 1290
	},
	{
	"epoch": 13.0,
	"grad_norm": 0.4819053113460541,
	"learning_rate": 0.0029000000000000002,
	"loss": 2.2603,
	"step": 1300
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.17,
	"eval_loss": 2.4011728763580322,
	"eval_runtime": 5.0203,
	"eval_samples_per_second": 19.919,
	"eval_steps_per_second": 19.919,
	"step": 1300
	},
	{
	"epoch": 13.1,
	"grad_norm": 0.534329354763031,
	"learning_rate": 0.0028966666666666667,
	"loss": 2.2935,
	"step": 1310
	},
	{
	"epoch": 13.2,
	"grad_norm": 0.6757941842079163,
	"learning_rate": 0.0028933333333333333,
	"loss": 2.3112,
	"step": 1320
	},
	{
	"epoch": 13.3,
	"grad_norm": 0.5297008156776428,
	"learning_rate": 0.00289,
	"loss": 2.2442,
	"step": 1330
	},
	{
	"epoch": 13.4,
	"grad_norm": 0.7962446212768555,
	"learning_rate": 0.0028866666666666667,
	"loss": 2.3753,
	"step": 1340
	},
	{
	"epoch": 13.5,
	"grad_norm": 0.5598190426826477,
	"learning_rate": 0.0028833333333333337,
	"loss": 2.2621,
	"step": 1350
	},
	{
	"epoch": 13.6,
	"grad_norm": 0.7223344445228577,
	"learning_rate": 0.0028799999999999997,
	"loss": 2.273,
	"step": 1360
	},
	{
	"epoch": 13.7,
	"grad_norm": 1.1084399223327637,
	"learning_rate": 0.0028766666666666667,
	"loss": 2.2912,
	"step": 1370
	},
	{
	"epoch": 13.8,
	"grad_norm": 0.6733573079109192,
	"learning_rate": 0.002873333333333333,
	"loss": 2.2698,
	"step": 1380
	},
	{
	"epoch": 13.9,
	"grad_norm": 0.8303700089454651,
	"learning_rate": 0.00287,
	"loss": 2.2308,
	"step": 1390
	},
	{
	"epoch": 14.0,
	"grad_norm": 0.804675817489624,
	"learning_rate": 0.0028666666666666667,
	"loss": 2.2845,
	"step": 1400
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.19,
	"eval_loss": 3.0855796337127686,
	"eval_runtime": 18.9592,
	"eval_samples_per_second": 5.274,
	"eval_steps_per_second": 5.274,
	"step": 1400
	},
	{
	"epoch": 14.1,
	"grad_norm": 0.7311877012252808,
	"learning_rate": 0.002863333333333333,
	"loss": 2.2091,
	"step": 1410
	},
	{
	"epoch": 14.2,
	"grad_norm": 0.9788007140159607,
	"learning_rate": 0.00286,
	"loss": 2.284,
	"step": 1420
	},
	{
	"epoch": 14.3,
	"grad_norm": 1.4467419385910034,
	"learning_rate": 0.0028566666666666666,
	"loss": 2.2519,
	"step": 1430
	},
	{
	"epoch": 14.4,
	"grad_norm": 1.0337039232254028,
	"learning_rate": 0.0028533333333333336,
	"loss": 2.2974,
	"step": 1440
	},
	{
	"epoch": 14.5,
	"grad_norm": 0.9267049431800842,
	"learning_rate": 0.00285,
	"loss": 2.2513,
	"step": 1450
	},
	{
	"epoch": 14.6,
	"grad_norm": 1.1804252862930298,
	"learning_rate": 0.0028466666666666666,
	"loss": 2.3101,
	"step": 1460
	},
	{
	"epoch": 14.7,
	"grad_norm": 0.6689174175262451,
	"learning_rate": 0.0028433333333333336,
	"loss": 2.3012,
	"step": 1470
	},
	{
	"epoch": 14.8,
	"grad_norm": 1.6997405290603638,
	"learning_rate": 0.00284,
	"loss": 2.2507,
	"step": 1480
	},
	{
	"epoch": 14.9,
	"grad_norm": 0.5313436388969421,
	"learning_rate": 0.002836666666666667,
	"loss": 2.2841,
	"step": 1490
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.6760014891624451,
	"learning_rate": 0.002833333333333333,
	"loss": 2.2813,
	"step": 1500
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.17,
	"eval_loss": 3.255617618560791,
	"eval_runtime": 4.647,
	"eval_samples_per_second": 21.519,
	"eval_steps_per_second": 21.519,
	"step": 1500
	},
	{
	"epoch": 15.1,
	"grad_norm": 1.6648482084274292,
	"learning_rate": 0.00283,
	"loss": 2.2499,
	"step": 1510
	},
	{
	"epoch": 15.2,
	"grad_norm": 0.6352823376655579,
	"learning_rate": 0.0028266666666666666,
	"loss": 2.228,
	"step": 1520
	},
	{
	"epoch": 15.3,
	"grad_norm": 0.6928892135620117,
	"learning_rate": 0.0028233333333333335,
	"loss": 2.1796,
	"step": 1530
	},
	{
	"epoch": 15.4,
	"grad_norm": 0.7444634437561035,
	"learning_rate": 0.00282,
	"loss": 2.2923,
	"step": 1540
	},
	{
	"epoch": 15.5,
	"grad_norm": 0.701443076133728,
	"learning_rate": 0.0028166666666666665,
	"loss": 2.2578,
	"step": 1550
	},
	{
	"epoch": 15.6,
	"grad_norm": 0.5810482501983643,
	"learning_rate": 0.0028133333333333335,
	"loss": 2.3059,
	"step": 1560
	},
	{
	"epoch": 15.7,
	"grad_norm": 0.990923285484314,
	"learning_rate": 0.00281,
	"loss": 2.2492,
	"step": 1570
	},
	{
	"epoch": 15.8,
	"grad_norm": 0.616290807723999,
	"learning_rate": 0.002806666666666667,
	"loss": 2.1599,
	"step": 1580
	},
	{
	"epoch": 15.9,
	"grad_norm": 0.5732624530792236,
	"learning_rate": 0.0028033333333333335,
	"loss": 2.2297,
	"step": 1590
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.9005319476127625,
	"learning_rate": 0.0028,
	"loss": 2.2232,
	"step": 1600
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.18,
	"eval_loss": 3.5356717109680176,
	"eval_runtime": 2.4287,
	"eval_samples_per_second": 41.174,
	"eval_steps_per_second": 41.174,
	"step": 1600
	},
	{
	"epoch": 16.1,
	"grad_norm": 0.7628068923950195,
	"learning_rate": 0.0027966666666666665,
	"loss": 2.2383,
	"step": 1610
	},
	{
	"epoch": 16.2,
	"grad_norm": 0.7052992582321167,
	"learning_rate": 0.0027933333333333334,
	"loss": 2.3226,
	"step": 1620
	},
	{
	"epoch": 16.3,
	"grad_norm": 0.8045329451560974,
	"learning_rate": 0.0027900000000000004,
	"loss": 2.2594,
	"step": 1630
	},
	{
	"epoch": 16.4,
	"grad_norm": 0.7999270558357239,
	"learning_rate": 0.002786666666666667,
	"loss": 2.2886,
	"step": 1640
	},
	{
	"epoch": 16.5,
	"grad_norm": 0.9818239212036133,
	"learning_rate": 0.0027833333333333334,
	"loss": 2.2745,
	"step": 1650
	},
	{
	"epoch": 16.6,
	"grad_norm": 1.048454999923706,
	"learning_rate": 0.00278,
	"loss": 2.2978,
	"step": 1660
	},
	{
	"epoch": 16.7,
	"grad_norm": 0.6741579174995422,
	"learning_rate": 0.002776666666666667,
	"loss": 2.1957,
	"step": 1670
	},
	{
	"epoch": 16.8,
	"grad_norm": 0.7675438523292542,
	"learning_rate": 0.0027733333333333334,
	"loss": 2.3012,
	"step": 1680
	},
	{
	"epoch": 16.9,
	"grad_norm": 0.5897651314735413,
	"learning_rate": 0.00277,
	"loss": 2.2825,
	"step": 1690
	},
	{
	"epoch": 17.0,
	"grad_norm": 1.0253489017486572,
	"learning_rate": 0.002766666666666667,
	"loss": 2.2332,
	"step": 1700
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.11,
	"eval_loss": 3.8757708072662354,
	"eval_runtime": 1.504,
	"eval_samples_per_second": 66.491,
	"eval_steps_per_second": 66.491,
	"step": 1700
	},
	{
	"epoch": 17.1,
	"grad_norm": 0.5093202590942383,
	"learning_rate": 0.0027633333333333334,
	"loss": 2.2725,
	"step": 1710
	},
	{
	"epoch": 17.2,
	"grad_norm": 0.7032235860824585,
	"learning_rate": 0.0027600000000000003,
	"loss": 2.2166,
	"step": 1720
	},
	{
	"epoch": 17.3,
	"grad_norm": 0.6116345524787903,
	"learning_rate": 0.002756666666666667,
	"loss": 2.1844,
	"step": 1730
	},
	{
	"epoch": 17.4,
	"grad_norm": 0.8476758599281311,
	"learning_rate": 0.0027533333333333333,
	"loss": 2.2653,
	"step": 1740
	},
	{
	"epoch": 17.5,
	"grad_norm": 1.6175342798233032,
	"learning_rate": 0.00275,
	"loss": 2.2069,
	"step": 1750
	},
	{
	"epoch": 17.6,
	"grad_norm": 1.403396487236023,
	"learning_rate": 0.002746666666666667,
	"loss": 2.3708,
	"step": 1760
	},
	{
	"epoch": 17.7,
	"grad_norm": 3.4366719722747803,
	"learning_rate": 0.0027433333333333333,
	"loss": 2.2828,
	"step": 1770
	},
	{
	"epoch": 17.8,
	"grad_norm": 0.8872509598731995,
	"learning_rate": 0.0027400000000000002,
	"loss": 2.2382,
	"step": 1780
	},
	{
	"epoch": 17.9,
	"grad_norm": 3.1236143112182617,
	"learning_rate": 0.0027366666666666668,
	"loss": 2.3113,
	"step": 1790
	},
	{
	"epoch": 18.0,
	"grad_norm": 1.0595662593841553,
	"learning_rate": 0.0027333333333333333,
	"loss": 2.3568,
	"step": 1800
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.13,
	"eval_loss": 3.0675432682037354,
	"eval_runtime": 1.5416,
	"eval_samples_per_second": 64.868,
	"eval_steps_per_second": 64.868,
	"step": 1800
	},
	{
	"epoch": 18.1,
	"grad_norm": 0.9756940007209778,
	"learning_rate": 0.0027300000000000002,
	"loss": 2.2245,
	"step": 1810
	},
	{
	"epoch": 18.2,
	"grad_norm": 0.7749895453453064,
	"learning_rate": 0.0027266666666666667,
	"loss": 2.3375,
	"step": 1820
	},
	{
	"epoch": 18.3,
	"grad_norm": 0.6627314686775208,
	"learning_rate": 0.0027233333333333332,
	"loss": 2.2663,
	"step": 1830
	},
	{
	"epoch": 18.4,
	"grad_norm": 1.011854648590088,
	"learning_rate": 0.0027199999999999998,
	"loss": 2.4041,
	"step": 1840
	},
	{
	"epoch": 18.5,
	"grad_norm": 0.7713875770568848,
	"learning_rate": 0.0027166666666666667,
	"loss": 2.3269,
	"step": 1850
	},
	{
	"epoch": 18.6,
	"grad_norm": 1.3139779567718506,
	"learning_rate": 0.0027133333333333337,
	"loss": 2.23,
	"step": 1860
	},
	{
	"epoch": 18.7,
	"grad_norm": 1.9220070838928223,
	"learning_rate": 0.00271,
	"loss": 2.3241,
	"step": 1870
	},
	{
	"epoch": 18.8,
	"grad_norm": 0.8482495546340942,
	"learning_rate": 0.0027066666666666667,
	"loss": 2.2784,
	"step": 1880
	},
	{
	"epoch": 18.9,
	"grad_norm": 1.1331626176834106,
	"learning_rate": 0.002703333333333333,
	"loss": 2.3171,
	"step": 1890
	},
	{
	"epoch": 19.0,
	"grad_norm": 0.986213207244873,
	"learning_rate": 0.0027,
	"loss": 2.2627,
	"step": 1900
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.16,
	"eval_loss": 3.130782127380371,
	"eval_runtime": 1.5734,
	"eval_samples_per_second": 63.555,
	"eval_steps_per_second": 63.555,
	"step": 1900
	},
	{
	"epoch": 19.1,
	"grad_norm": 0.8398575782775879,
	"learning_rate": 0.0026966666666666667,
	"loss": 2.2865,
	"step": 1910
	},
	{
	"epoch": 19.2,
	"grad_norm": 0.8489543199539185,
	"learning_rate": 0.0026933333333333336,
	"loss": 2.2557,
	"step": 1920
	},
	{
	"epoch": 19.3,
	"grad_norm": 0.5991080403327942,
	"learning_rate": 0.0026899999999999997,
	"loss": 2.2589,
	"step": 1930
	},
	{
	"epoch": 19.4,
	"grad_norm": 0.8160009384155273,
	"learning_rate": 0.0026866666666666666,
	"loss": 2.255,
	"step": 1940
	},
	{
	"epoch": 19.5,
	"grad_norm": 0.9468734264373779,
	"learning_rate": 0.0026833333333333336,
	"loss": 2.2416,
	"step": 1950
	},
	{
	"epoch": 19.6,
	"grad_norm": 0.9367495775222778,
	"learning_rate": 0.00268,
	"loss": 2.2928,
	"step": 1960
	},
	{
	"epoch": 19.7,
	"grad_norm": 0.7771756649017334,
	"learning_rate": 0.0026766666666666666,
	"loss": 2.2837,
	"step": 1970
	},
	{
	"epoch": 19.8,
	"grad_norm": 0.5956035852432251,
	"learning_rate": 0.002673333333333333,
	"loss": 2.3056,
	"step": 1980
	},
	{
	"epoch": 19.9,
	"grad_norm": 0.8923712372779846,
	"learning_rate": 0.00267,
	"loss": 2.2434,
	"step": 1990
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.7316953539848328,
	"learning_rate": 0.0026666666666666666,
	"loss": 2.2528,
	"step": 2000
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.1,
	"eval_loss": 2.774110794067383,
	"eval_runtime": 2.0095,
	"eval_samples_per_second": 49.763,
	"eval_steps_per_second": 49.763,
	"step": 2000
	},
	{
	"epoch": 20.1,
	"grad_norm": 1.061279058456421,
	"learning_rate": 0.0026633333333333335,
	"loss": 2.199,
	"step": 2010
	},
	{
	"epoch": 20.2,
	"grad_norm": 0.8505630493164062,
	"learning_rate": 0.00266,
	"loss": 2.3343,
	"step": 2020
	},
	{
	"epoch": 20.3,
	"grad_norm": 4.665825366973877,
	"learning_rate": 0.0026566666666666666,
	"loss": 2.1988,
	"step": 2030
	},
	{
	"epoch": 20.4,
	"grad_norm": 0.6855554580688477,
	"learning_rate": 0.0026533333333333335,
	"loss": 2.1726,
	"step": 2040
	},
	{
	"epoch": 20.5,
	"grad_norm": 0.9635552167892456,
	"learning_rate": 0.00265,
	"loss": 2.3019,
	"step": 2050
	},
	{
	"epoch": 20.6,
	"grad_norm": 1.7395892143249512,
	"learning_rate": 0.002646666666666667,
	"loss": 2.1493,
	"step": 2060
	},
	{
	"epoch": 20.7,
	"grad_norm": 1.992548942565918,
	"learning_rate": 0.0026433333333333335,
	"loss": 2.1646,
	"step": 2070
	},
	{
	"epoch": 20.8,
	"grad_norm": 0.7224474549293518,
	"learning_rate": 0.00264,
	"loss": 2.1725,
	"step": 2080
	},
	{
	"epoch": 20.9,
	"grad_norm": 0.7668882012367249,
	"learning_rate": 0.002636666666666667,
	"loss": 2.1463,
	"step": 2090
	},
	{
	"epoch": 21.0,
	"grad_norm": 1.1540876626968384,
	"learning_rate": 0.0026333333333333334,
	"loss": 2.2039,
	"step": 2100
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.14,
	"eval_loss": 2.7257165908813477,
	"eval_runtime": 3.321,
	"eval_samples_per_second": 30.111,
	"eval_steps_per_second": 30.111,
	"step": 2100
	},
	{
	"epoch": 21.1,
	"grad_norm": 1.0657505989074707,
	"learning_rate": 0.00263,
	"loss": 2.1861,
	"step": 2110
	},
	{
	"epoch": 21.2,
	"grad_norm": 0.8397789597511292,
	"learning_rate": 0.0026266666666666665,
	"loss": 2.2868,
	"step": 2120
	},
	{
	"epoch": 21.3,
	"grad_norm": 5.241576194763184,
	"learning_rate": 0.0026233333333333334,
	"loss": 2.0992,
	"step": 2130
	},
	{
	"epoch": 21.4,
	"grad_norm": 1.619246006011963,
	"learning_rate": 0.00262,
	"loss": 2.1577,
	"step": 2140
	},
	{
	"epoch": 21.5,
	"grad_norm": 0.8214967250823975,
	"learning_rate": 0.002616666666666667,
	"loss": 2.2025,
	"step": 2150
	},
	{
	"epoch": 21.6,
	"grad_norm": 0.8782535195350647,
	"learning_rate": 0.0026133333333333334,
	"loss": 2.2666,
	"step": 2160
	},
	{
	"epoch": 21.7,
	"grad_norm": 0.6835685968399048,
	"learning_rate": 0.00261,
	"loss": 2.3608,
	"step": 2170
	},
	{
	"epoch": 21.8,
	"grad_norm": 0.7960027456283569,
	"learning_rate": 0.002606666666666667,
	"loss": 2.236,
	"step": 2180
	},
	{
	"epoch": 21.9,
	"grad_norm": 0.789070188999176,
	"learning_rate": 0.0026033333333333334,
	"loss": 2.214,
	"step": 2190
	},
	{
	"epoch": 22.0,
	"grad_norm": 0.8337671756744385,
	"learning_rate": 0.0026000000000000003,
	"loss": 2.389,
	"step": 2200
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.08,
	"eval_loss": 2.6245250701904297,
	"eval_runtime": 14.6732,
	"eval_samples_per_second": 6.815,
	"eval_steps_per_second": 6.815,
	"step": 2200
	},
	{
	"epoch": 22.1,
	"grad_norm": 0.6612998247146606,
	"learning_rate": 0.002596666666666667,
	"loss": 2.1623,
	"step": 2210
	},
	{
	"epoch": 22.2,
	"grad_norm": 0.5823114514350891,
	"learning_rate": 0.0025933333333333333,
	"loss": 2.2221,
	"step": 2220
	},
	{
	"epoch": 22.3,
	"grad_norm": 0.6718313694000244,
	"learning_rate": 0.00259,
	"loss": 2.2401,
	"step": 2230
	},
	{
	"epoch": 22.4,
	"grad_norm": 1.033048391342163,
	"learning_rate": 0.002586666666666667,
	"loss": 2.2093,
	"step": 2240
	},
	{
	"epoch": 22.5,
	"grad_norm": 0.9569495320320129,
	"learning_rate": 0.0025833333333333337,
	"loss": 2.1865,
	"step": 2250
	},
	{
	"epoch": 22.6,
	"grad_norm": 0.9927944540977478,
	"learning_rate": 0.00258,
	"loss": 2.2509,
	"step": 2260
	},
	{
	"epoch": 22.7,
	"grad_norm": 1.255365014076233,
	"learning_rate": 0.0025766666666666668,
	"loss": 2.2218,
	"step": 2270
	},
	{
	"epoch": 22.8,
	"grad_norm": 0.8008034229278564,
	"learning_rate": 0.0025733333333333333,
	"loss": 2.3508,
	"step": 2280
	},
	{
	"epoch": 22.9,
	"grad_norm": 1.643989086151123,
	"learning_rate": 0.0025700000000000002,
	"loss": 2.3481,
	"step": 2290
	},
	{
	"epoch": 23.0,
	"grad_norm": 0.7342652678489685,
	"learning_rate": 0.0025666666666666667,
	"loss": 2.31,
	"step": 2300
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.1,
	"eval_loss": 3.1869921684265137,
	"eval_runtime": 3.5166,
	"eval_samples_per_second": 28.437,
	"eval_steps_per_second": 28.437,
	"step": 2300
	},
	{
	"epoch": 23.1,
	"grad_norm": 4.475462913513184,
	"learning_rate": 0.0025633333333333333,
	"loss": 2.258,
	"step": 2310
	},
	{
	"epoch": 23.2,
	"grad_norm": 1.1528602838516235,
	"learning_rate": 0.00256,
	"loss": 2.2602,
	"step": 2320
	},
	{
	"epoch": 23.3,
	"grad_norm": 0.8095310926437378,
	"learning_rate": 0.0025566666666666667,
	"loss": 2.1602,
	"step": 2330
	},
	{
	"epoch": 23.4,
	"grad_norm": 1.0588278770446777,
	"learning_rate": 0.0025533333333333337,
	"loss": 2.1524,
	"step": 2340
	},
	{
	"epoch": 23.5,
	"grad_norm": 0.8519811630249023,
	"learning_rate": 0.00255,
	"loss": 2.1634,
	"step": 2350
	},
	{
	"epoch": 23.6,
	"grad_norm": 0.8368690013885498,
	"learning_rate": 0.0025466666666666667,
	"loss": 2.1851,
	"step": 2360
	},
	{
	"epoch": 23.7,
	"grad_norm": 0.6062741875648499,
	"learning_rate": 0.002543333333333333,
	"loss": 2.1097,
	"step": 2370
	},
	{
	"epoch": 23.8,
	"grad_norm": 1.054940938949585,
	"learning_rate": 0.00254,
	"loss": 2.2839,
	"step": 2380
	},
	{
	"epoch": 23.9,
	"grad_norm": 2.2694478034973145,
	"learning_rate": 0.0025366666666666667,
	"loss": 2.1951,
	"step": 2390
	},
	{
	"epoch": 24.0,
	"grad_norm": 1.1363869905471802,
	"learning_rate": 0.002533333333333333,
	"loss": 2.1471,
	"step": 2400
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.02,
	"eval_loss": 2.8313043117523193,
	"eval_runtime": 8.5714,
	"eval_samples_per_second": 11.667,
	"eval_steps_per_second": 11.667,
	"step": 2400
	},
	{
	"epoch": 24.1,
	"grad_norm": 0.9821159839630127,
	"learning_rate": 0.00253,
	"loss": 2.296,
	"step": 2410
	},
	{
	"epoch": 24.2,
	"grad_norm": 18.666667938232422,
	"learning_rate": 0.0025266666666666666,
	"loss": 2.194,
	"step": 2420
	},
	{
	"epoch": 24.3,
	"grad_norm": 0.906703531742096,
	"learning_rate": 0.0025233333333333336,
	"loss": 2.1612,
	"step": 2430
	},
	{
	"epoch": 24.4,
	"grad_norm": 0.8759214282035828,
	"learning_rate": 0.00252,
	"loss": 2.3219,
	"step": 2440
	},
	{
	"epoch": 24.5,
	"grad_norm": 2.061927556991577,
	"learning_rate": 0.0025166666666666666,
	"loss": 2.2479,
	"step": 2450
	},
	{
	"epoch": 24.6,
	"grad_norm": 1.9357784986495972,
	"learning_rate": 0.002513333333333333,
	"loss": 2.1494,
	"step": 2460
	},
	{
	"epoch": 24.7,
	"grad_norm": 0.7855737209320068,
	"learning_rate": 0.00251,
	"loss": 2.1368,
	"step": 2470
	},
	{
	"epoch": 24.8,
	"grad_norm": 1.1116645336151123,
	"learning_rate": 0.002506666666666667,
	"loss": 2.167,
	"step": 2480
	},
	{
	"epoch": 24.9,
	"grad_norm": 1.0230302810668945,
	"learning_rate": 0.0025033333333333335,
	"loss": 2.1518,
	"step": 2490
	},
	{
	"epoch": 25.0,
	"grad_norm": 0.7969598174095154,
	"learning_rate": 0.0025,
	"loss": 2.1658,
	"step": 2500
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.11,
	"eval_loss": 2.9322524070739746,
	"eval_runtime": 14.5485,
	"eval_samples_per_second": 6.874,
	"eval_steps_per_second": 6.874,
	"step": 2500
	},
	{
	"epoch": 25.1,
	"grad_norm": 1.1143075227737427,
	"learning_rate": 0.0024966666666666666,
	"loss": 2.1519,
	"step": 2510
	},
	{
	"epoch": 25.2,
	"grad_norm": 1.9733251333236694,
	"learning_rate": 0.0024933333333333335,
	"loss": 2.2545,
	"step": 2520
	},
	{
	"epoch": 25.3,
	"grad_norm": 0.7734049558639526,
	"learning_rate": 0.00249,
	"loss": 2.3188,
	"step": 2530
	},
	{
	"epoch": 25.4,
	"grad_norm": 0.8898696303367615,
	"learning_rate": 0.0024866666666666665,
	"loss": 2.3433,
	"step": 2540
	},
	{
	"epoch": 25.5,
	"grad_norm": 0.9042370319366455,
	"learning_rate": 0.002483333333333333,
	"loss": 2.1533,
	"step": 2550
	},
	{
	"epoch": 25.6,
	"grad_norm": 0.7616782784461975,
	"learning_rate": 0.00248,
	"loss": 2.1676,
	"step": 2560
	},
	{
	"epoch": 25.7,
	"grad_norm": 1.0529074668884277,
	"learning_rate": 0.002476666666666667,
	"loss": 2.1489,
	"step": 2570
	},
	{
	"epoch": 25.8,
	"grad_norm": 0.6499335765838623,
	"learning_rate": 0.0024733333333333335,
	"loss": 2.1537,
	"step": 2580
	},
	{
	"epoch": 25.9,
	"grad_norm": 0.8011136054992676,
	"learning_rate": 0.00247,
	"loss": 2.1297,
	"step": 2590
	},
	{
	"epoch": 26.0,
	"grad_norm": 0.7980877757072449,
	"learning_rate": 0.0024666666666666665,
	"loss": 2.0946,
	"step": 2600
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.14,
	"eval_loss": 2.8371801376342773,
	"eval_runtime": 20.2418,
	"eval_samples_per_second": 4.94,
	"eval_steps_per_second": 4.94,
	"step": 2600
	},
	{
	"epoch": 26.1,
	"grad_norm": 1.0512415170669556,
	"learning_rate": 0.0024633333333333334,
	"loss": 2.0609,
	"step": 2610
	},
	{
	"epoch": 26.2,
	"grad_norm": 0.7277994155883789,
	"learning_rate": 0.00246,
	"loss": 2.1957,
	"step": 2620
	},
	{
	"epoch": 26.3,
	"grad_norm": 0.7225540280342102,
	"learning_rate": 0.002456666666666667,
	"loss": 2.2818,
	"step": 2630
	},
	{
	"epoch": 26.4,
	"grad_norm": 0.833447277545929,
	"learning_rate": 0.0024533333333333334,
	"loss": 2.3521,
	"step": 2640
	},
	{
	"epoch": 26.5,
	"grad_norm": 0.6532344222068787,
	"learning_rate": 0.00245,
	"loss": 2.1103,
	"step": 2650
	},
	{
	"epoch": 26.6,
	"grad_norm": 1.618382215499878,
	"learning_rate": 0.002446666666666667,
	"loss": 2.1979,
	"step": 2660
	},
	{
	"epoch": 26.7,
	"grad_norm": 0.8852543830871582,
	"learning_rate": 0.0024433333333333334,
	"loss": 2.224,
	"step": 2670
	},
	{
	"epoch": 26.8,
	"grad_norm": 0.7051679491996765,
	"learning_rate": 0.00244,
	"loss": 2.2168,
	"step": 2680
	},
	{
	"epoch": 26.9,
	"grad_norm": 0.6945533752441406,
	"learning_rate": 0.0024366666666666664,
	"loss": 2.1522,
	"step": 2690
	},
	{
	"epoch": 27.0,
	"grad_norm": 0.8904722929000854,
	"learning_rate": 0.0024333333333333334,
	"loss": 2.0924,
	"step": 2700
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.16,
	"eval_loss": 2.740328073501587,
	"eval_runtime": 2.5835,
	"eval_samples_per_second": 38.707,
	"eval_steps_per_second": 38.707,
	"step": 2700
	},
	{
	"epoch": 27.1,
	"grad_norm": 1.0091406106948853,
	"learning_rate": 0.0024300000000000003,
	"loss": 2.143,
	"step": 2710
	},
	{
	"epoch": 27.2,
	"grad_norm": 1.1486680507659912,
	"learning_rate": 0.002426666666666667,
	"loss": 2.2661,
	"step": 2720
	},
	{
	"epoch": 27.3,
	"grad_norm": 1.3828904628753662,
	"learning_rate": 0.0024233333333333333,
	"loss": 2.0716,
	"step": 2730
	},
	{
	"epoch": 27.4,
	"grad_norm": 0.7337507009506226,
	"learning_rate": 0.00242,
	"loss": 2.2243,
	"step": 2740
	},
	{
	"epoch": 27.5,
	"grad_norm": 0.7662250399589539,
	"learning_rate": 0.002416666666666667,
	"loss": 2.2204,
	"step": 2750
	},
	{
	"epoch": 27.6,
	"grad_norm": 1.3254953622817993,
	"learning_rate": 0.0024133333333333333,
	"loss": 2.1401,
	"step": 2760
	},
	{
	"epoch": 27.7,
	"grad_norm": 1.6423826217651367,
	"learning_rate": 0.0024100000000000002,
	"loss": 2.1909,
	"step": 2770
	},
	{
	"epoch": 27.8,
	"grad_norm": 2.5181260108947754,
	"learning_rate": 0.0024066666666666668,
	"loss": 2.2194,
	"step": 2780
	},
	{
	"epoch": 27.9,
	"grad_norm": 1.975514531135559,
	"learning_rate": 0.0024033333333333333,
	"loss": 2.1208,
	"step": 2790
	},
	{
	"epoch": 28.0,
	"grad_norm": 1.0756447315216064,
	"learning_rate": 0.0024000000000000002,
	"loss": 2.2634,
	"step": 2800
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.14,
	"eval_loss": 2.899129867553711,
	"eval_runtime": 1.6216,
	"eval_samples_per_second": 61.667,
	"eval_steps_per_second": 61.667,
	"step": 2800
	},
	{
	"epoch": 28.1,
	"grad_norm": 0.6582184433937073,
	"learning_rate": 0.0023966666666666667,
	"loss": 2.1557,
	"step": 2810
	},
	{
	"epoch": 28.2,
	"grad_norm": 1.008514642715454,
	"learning_rate": 0.0023933333333333337,
	"loss": 2.1055,
	"step": 2820
	},
	{
	"epoch": 28.3,
	"grad_norm": 1.3647173643112183,
	"learning_rate": 0.0023899999999999998,
	"loss": 2.2375,
	"step": 2830
	},
	{
	"epoch": 28.4,
	"grad_norm": 1.080275058746338,
	"learning_rate": 0.0023866666666666667,
	"loss": 2.0351,
	"step": 2840
	},
	{
	"epoch": 28.5,
	"grad_norm": 0.8758491277694702,
	"learning_rate": 0.0023833333333333332,
	"loss": 2.1304,
	"step": 2850
	},
	{
	"epoch": 28.6,
	"grad_norm": 1.8762778043746948,
	"learning_rate": 0.00238,
	"loss": 2.0213,
	"step": 2860
	},
	{
	"epoch": 28.7,
	"grad_norm": 0.9291443228721619,
	"learning_rate": 0.0023766666666666667,
	"loss": 2.312,
	"step": 2870
	},
	{
	"epoch": 28.8,
	"grad_norm": 0.8882524967193604,
	"learning_rate": 0.002373333333333333,
	"loss": 2.2335,
	"step": 2880
	},
	{
	"epoch": 28.9,
	"grad_norm": 2.439899444580078,
	"learning_rate": 0.00237,
	"loss": 2.1726,
	"step": 2890
	},
	{
	"epoch": 29.0,
	"grad_norm": 0.9601397514343262,
	"learning_rate": 0.0023666666666666667,
	"loss": 2.1897,
	"step": 2900
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.13,
	"eval_loss": 2.877793073654175,
	"eval_runtime": 1.4621,
	"eval_samples_per_second": 68.395,
	"eval_steps_per_second": 68.395,
	"step": 2900
	},
	{
	"epoch": 29.1,
	"grad_norm": 1.6170096397399902,
	"learning_rate": 0.0023633333333333336,
	"loss": 2.19,
	"step": 2910
	},
	{
	"epoch": 29.2,
	"grad_norm": 1.087302803993225,
	"learning_rate": 0.00236,
	"loss": 2.1638,
	"step": 2920
	},
	{
	"epoch": 29.3,
	"grad_norm": 1.0109162330627441,
	"learning_rate": 0.0023566666666666666,
	"loss": 2.2992,
	"step": 2930
	},
	{
	"epoch": 29.4,
	"grad_norm": 0.9964456558227539,
	"learning_rate": 0.0023533333333333336,
	"loss": 2.2524,
	"step": 2940
	},
	{
	"epoch": 29.5,
	"grad_norm": 0.7667860984802246,
	"learning_rate": 0.00235,
	"loss": 2.1753,
	"step": 2950
	},
	{
	"epoch": 29.6,
	"grad_norm": 0.9033471941947937,
	"learning_rate": 0.002346666666666667,
	"loss": 2.1623,
	"step": 2960
	},
	{
	"epoch": 29.7,
	"grad_norm": 0.9565698504447937,
	"learning_rate": 0.002343333333333333,
	"loss": 2.1097,
	"step": 2970
	},
	{
	"epoch": 29.8,
	"grad_norm": 0.7799054384231567,
	"learning_rate": 0.00234,
	"loss": 1.966,
	"step": 2980
	},
	{
	"epoch": 29.9,
	"grad_norm": 1.8788676261901855,
	"learning_rate": 0.0023366666666666666,
	"loss": 2.1329,
	"step": 2990
	},
	{
	"epoch": 30.0,
	"grad_norm": 1.1009427309036255,
	"learning_rate": 0.0023333333333333335,
	"loss": 2.144,
	"step": 3000
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.15,
	"eval_loss": 2.604327917098999,
	"eval_runtime": 17.9498,
	"eval_samples_per_second": 5.571,
	"eval_steps_per_second": 5.571,
	"step": 3000
	},
	{
	"epoch": 30.1,
	"grad_norm": 1.678131341934204,
	"learning_rate": 0.00233,
	"loss": 1.8398,
	"step": 3010
	},
	{
	"epoch": 30.2,
	"grad_norm": 1.5525128841400146,
	"learning_rate": 0.0023266666666666666,
	"loss": 2.3239,
	"step": 3020
	},
	{
	"epoch": 30.3,
	"grad_norm": 5.229913711547852,
	"learning_rate": 0.0023233333333333335,
	"loss": 2.0991,
	"step": 3030
	},
	{
	"epoch": 30.4,
	"grad_norm": 7.659727096557617,
	"learning_rate": 0.00232,
	"loss": 2.2165,
	"step": 3040
	},
	{
	"epoch": 30.5,
	"grad_norm": 0.9004424214363098,
	"learning_rate": 0.002316666666666667,
	"loss": 2.1321,
	"step": 3050
	},
	{
	"epoch": 30.6,
	"grad_norm": 0.951036810874939,
	"learning_rate": 0.0023133333333333335,
	"loss": 2.2547,
	"step": 3060
	},
	{
	"epoch": 30.7,
	"grad_norm": 1.09541654586792,
	"learning_rate": 0.00231,
	"loss": 2.2086,
	"step": 3070
	},
	{
	"epoch": 30.8,
	"grad_norm": 1.0075805187225342,
	"learning_rate": 0.0023066666666666665,
	"loss": 2.1946,
	"step": 3080
	},
	{
	"epoch": 30.9,
	"grad_norm": 0.9394136071205139,
	"learning_rate": 0.0023033333333333334,
	"loss": 2.0717,
	"step": 3090
	},
	{
	"epoch": 31.0,
	"grad_norm": 16.980363845825195,
	"learning_rate": 0.0023000000000000004,
	"loss": 2.108,
	"step": 3100
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 0.1,
	"eval_loss": 2.9230871200561523,
	"eval_runtime": 2.0771,
	"eval_samples_per_second": 48.144,
	"eval_steps_per_second": 48.144,
	"step": 3100
	},
	{
	"epoch": 31.1,
	"grad_norm": 0.7811866998672485,
	"learning_rate": 0.0022966666666666665,
	"loss": 2.0036,
	"step": 3110
	},
	{
	"epoch": 31.2,
	"grad_norm": 1.2719967365264893,
	"learning_rate": 0.0022933333333333334,
	"loss": 2.1995,
	"step": 3120
	},
	{
	"epoch": 31.3,
	"grad_norm": 1.078188180923462,
	"learning_rate": 0.00229,
	"loss": 2.1495,
	"step": 3130
	},
	{
	"epoch": 31.4,
	"grad_norm": 0.8753488659858704,
	"learning_rate": 0.002286666666666667,
	"loss": 2.1775,
	"step": 3140
	},
	{
	"epoch": 31.5,
	"grad_norm": 2.4827558994293213,
	"learning_rate": 0.0022833333333333334,
	"loss": 2.1295,
	"step": 3150
	},
	{
	"epoch": 31.6,
	"grad_norm": 0.9391091465950012,
	"learning_rate": 0.00228,
	"loss": 2.2033,
	"step": 3160
	},
	{
	"epoch": 31.7,
	"grad_norm": 1.3996204137802124,
	"learning_rate": 0.0022766666666666664,
	"loss": 2.1935,
	"step": 3170
	},
	{
	"epoch": 31.8,
	"grad_norm": 1.8268276453018188,
	"learning_rate": 0.0022733333333333334,
	"loss": 2.1358,
	"step": 3180
	},
	{
	"epoch": 31.9,
	"grad_norm": 0.9824120998382568,
	"learning_rate": 0.0022700000000000003,
	"loss": 2.2574,
	"step": 3190
	},
	{
	"epoch": 32.0,
	"grad_norm": 1.0939769744873047,
	"learning_rate": 0.002266666666666667,
	"loss": 2.0792,
	"step": 3200
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.12,
	"eval_loss": 2.8421480655670166,
	"eval_runtime": 16.1564,
	"eval_samples_per_second": 6.19,
	"eval_steps_per_second": 6.19,
	"step": 3200
	},
	{
	"epoch": 32.1,
	"grad_norm": 2.173068046569824,
	"learning_rate": 0.0022633333333333333,
	"loss": 2.1458,
	"step": 3210
	},
	{
	"epoch": 32.2,
	"grad_norm": 1.260406255722046,
	"learning_rate": 0.00226,
	"loss": 2.2069,
	"step": 3220
	},
	{
	"epoch": 32.3,
	"grad_norm": 2.277165412902832,
	"learning_rate": 0.002256666666666667,
	"loss": 2.0435,
	"step": 3230
	},
	{
	"epoch": 32.4,
	"grad_norm": 1.674475073814392,
	"learning_rate": 0.0022533333333333333,
	"loss": 2.0519,
	"step": 3240
	},
	{
	"epoch": 32.5,
	"grad_norm": 3.267179250717163,
	"learning_rate": 0.0022500000000000003,
	"loss": 2.0692,
	"step": 3250
	},
	{
	"epoch": 32.6,
	"grad_norm": 1.6023820638656616,
	"learning_rate": 0.0022466666666666668,
	"loss": 2.1639,
	"step": 3260
	},
	{
	"epoch": 32.7,
	"grad_norm": 1.2279607057571411,
	"learning_rate": 0.0022433333333333333,
	"loss": 2.2729,
	"step": 3270
	},
	{
	"epoch": 32.8,
	"grad_norm": 1.635674238204956,
	"learning_rate": 0.0022400000000000002,
	"loss": 2.0502,
	"step": 3280
	},
	{
	"epoch": 32.9,
	"grad_norm": 1.9051593542099,
	"learning_rate": 0.0022366666666666668,
	"loss": 2.1046,
	"step": 3290
	},
	{
	"epoch": 33.0,
	"grad_norm": 2.705409288406372,
	"learning_rate": 0.0022333333333333333,
	"loss": 2.1552,
	"step": 3300
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.12,
	"eval_loss": 2.8105697631835938,
	"eval_runtime": 1.4693,
	"eval_samples_per_second": 68.06,
	"eval_steps_per_second": 68.06,
	"step": 3300
	},
	{
	"epoch": 33.1,
	"grad_norm": 1.1642463207244873,
	"learning_rate": 0.0022299999999999998,
	"loss": 2.0948,
	"step": 3310
	},
	{
	"epoch": 33.2,
	"grad_norm": 1.0376132726669312,
	"learning_rate": 0.0022266666666666667,
	"loss": 1.9741,
	"step": 3320
	},
	{
	"epoch": 33.3,
	"grad_norm": 0.9662061929702759,
	"learning_rate": 0.0022233333333333337,
	"loss": 2.2141,
	"step": 3330
	},
	{
	"epoch": 33.4,
	"grad_norm": 2.136995315551758,
	"learning_rate": 0.00222,
	"loss": 2.1053,
	"step": 3340
	},
	{
	"epoch": 33.5,
	"grad_norm": 1.45195734500885,
	"learning_rate": 0.0022166666666666667,
	"loss": 1.9399,
	"step": 3350
	},
	{
	"epoch": 33.6,
	"grad_norm": 3.21307635307312,
	"learning_rate": 0.002213333333333333,
	"loss": 2.0541,
	"step": 3360
	},
	{
	"epoch": 33.7,
	"grad_norm": 3.3870184421539307,
	"learning_rate": 0.00221,
	"loss": 2.2113,
	"step": 3370
	},
	{
	"epoch": 33.8,
	"grad_norm": 1.0837563276290894,
	"learning_rate": 0.0022066666666666667,
	"loss": 2.1593,
	"step": 3380
	},
	{
	"epoch": 33.9,
	"grad_norm": 0.9785754084587097,
	"learning_rate": 0.0022033333333333336,
	"loss": 1.9864,
	"step": 3390
	},
	{
	"epoch": 34.0,
	"grad_norm": 0.8373335599899292,
	"learning_rate": 0.0021999999999999997,
	"loss": 1.9701,
	"step": 3400
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.11,
	"eval_loss": 2.8279080390930176,
	"eval_runtime": 1.9248,
	"eval_samples_per_second": 51.952,
	"eval_steps_per_second": 51.952,
	"step": 3400
	},
	{
	"epoch": 34.1,
	"grad_norm": 3.9834160804748535,
	"learning_rate": 0.0021966666666666666,
	"loss": 1.9581,
	"step": 3410
	},
	{
	"epoch": 34.2,
	"grad_norm": 2.2129085063934326,
	"learning_rate": 0.0021933333333333336,
	"loss": 2.1602,
	"step": 3420
	},
	{
	"epoch": 34.3,
	"grad_norm": 1.1896631717681885,
	"learning_rate": 0.00219,
	"loss": 1.9392,
	"step": 3430
	},
	{
	"epoch": 34.4,
	"grad_norm": 2.016221523284912,
	"learning_rate": 0.0021866666666666666,
	"loss": 2.0553,
	"step": 3440
	},
	{
	"epoch": 34.5,
	"grad_norm": 4.773040771484375,
	"learning_rate": 0.002183333333333333,
	"loss": 2.0734,
	"step": 3450
	},
	{
	"epoch": 34.6,
	"grad_norm": 5.7598700523376465,
	"learning_rate": 0.00218,
	"loss": 2.2854,
	"step": 3460
	},
	{
	"epoch": 34.7,
	"grad_norm": 1.4225116968154907,
	"learning_rate": 0.0021766666666666666,
	"loss": 2.0867,
	"step": 3470
	},
	{
	"epoch": 34.8,
	"grad_norm": 1.354988932609558,
	"learning_rate": 0.0021733333333333335,
	"loss": 2.2302,
	"step": 3480
	},
	{
	"epoch": 34.9,
	"grad_norm": 1.966841220855713,
	"learning_rate": 0.00217,
	"loss": 2.1435,
	"step": 3490
	},
	{
	"epoch": 35.0,
	"grad_norm": 1.5340888500213623,
	"learning_rate": 0.0021666666666666666,
	"loss": 1.9291,
	"step": 3500
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.2,
	"eval_loss": 3.095371961593628,
	"eval_runtime": 1.5179,
	"eval_samples_per_second": 65.88,
	"eval_steps_per_second": 65.88,
	"step": 3500
	},
	{
	"epoch": 35.1,
	"grad_norm": 0.9103881120681763,
	"learning_rate": 0.0021633333333333335,
	"loss": 2.0579,
	"step": 3510
	},
	{
	"epoch": 35.2,
	"grad_norm": 1.3390625715255737,
	"learning_rate": 0.00216,
	"loss": 2.1574,
	"step": 3520
	},
	{
	"epoch": 35.3,
	"grad_norm": 1.6019049882888794,
	"learning_rate": 0.002156666666666667,
	"loss": 2.1393,
	"step": 3530
	},
	{
	"epoch": 35.4,
	"grad_norm": 1.694638967514038,
	"learning_rate": 0.002153333333333333,
	"loss": 1.8902,
	"step": 3540
	},
	{
	"epoch": 35.5,
	"grad_norm": 0.9266729354858398,
	"learning_rate": 0.00215,
	"loss": 2.1477,
	"step": 3550
	},
	{
	"epoch": 35.6,
	"grad_norm": 1.482827067375183,
	"learning_rate": 0.0021466666666666665,
	"loss": 2.2807,
	"step": 3560
	},
	{
	"epoch": 35.7,
	"grad_norm": 1.5569509267807007,
	"learning_rate": 0.0021433333333333335,
	"loss": 1.9552,
	"step": 3570
	},
	{
	"epoch": 35.8,
	"grad_norm": 2.367547035217285,
	"learning_rate": 0.00214,
	"loss": 1.9954,
	"step": 3580
	},
	{
	"epoch": 35.9,
	"grad_norm": 6.488295555114746,
	"learning_rate": 0.0021366666666666665,
	"loss": 1.9197,
	"step": 3590
	},
	{
	"epoch": 36.0,
	"grad_norm": 2.1058995723724365,
	"learning_rate": 0.0021333333333333334,
	"loss": 2.0341,
	"step": 3600
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.14,
	"eval_loss": 3.829360246658325,
	"eval_runtime": 1.4462,
	"eval_samples_per_second": 69.145,
	"eval_steps_per_second": 69.145,
	"step": 3600
	},
	{
	"epoch": 36.1,
	"grad_norm": 2.136566162109375,
	"learning_rate": 0.00213,
	"loss": 2.0017,
	"step": 3610
	},
	{
	"epoch": 36.2,
	"grad_norm": 3.5907399654388428,
	"learning_rate": 0.002126666666666667,
	"loss": 2.0714,
	"step": 3620
	},
	{
	"epoch": 36.3,
	"grad_norm": 1.7881414890289307,
	"learning_rate": 0.0021233333333333334,
	"loss": 1.892,
	"step": 3630
	},
	{
	"epoch": 36.4,
	"grad_norm": 2.1000165939331055,
	"learning_rate": 0.00212,
	"loss": 1.9525,
	"step": 3640
	},
	{
	"epoch": 36.5,
	"grad_norm": 1.9690414667129517,
	"learning_rate": 0.002116666666666667,
	"loss": 2.1597,
	"step": 3650
	},
	{
	"epoch": 36.6,
	"grad_norm": 18.85406494140625,
	"learning_rate": 0.0021133333333333334,
	"loss": 2.0152,
	"step": 3660
	},
	{
	"epoch": 36.7,
	"grad_norm": 1.5097402334213257,
	"learning_rate": 0.0021100000000000003,
	"loss": 2.1268,
	"step": 3670
	},
	{
	"epoch": 36.8,
	"grad_norm": 1.0894497632980347,
	"learning_rate": 0.0021066666666666664,
	"loss": 1.9798,
	"step": 3680
	},
	{
	"epoch": 36.9,
	"grad_norm": 1.648740530014038,
	"learning_rate": 0.0021033333333333334,
	"loss": 2.0881,
	"step": 3690
	},
	{
	"epoch": 37.0,
	"grad_norm": 1.3611383438110352,
	"learning_rate": 0.0021,
	"loss": 1.9165,
	"step": 3700
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.11,
	"eval_loss": 4.528919219970703,
	"eval_runtime": 1.2924,
	"eval_samples_per_second": 77.378,
	"eval_steps_per_second": 77.378,
	"step": 3700
	},
	{
	"epoch": 37.1,
	"grad_norm": 1.7880363464355469,
	"learning_rate": 0.002096666666666667,
	"loss": 1.9742,
	"step": 3710
	},
	{
	"epoch": 37.2,
	"grad_norm": 2.8415615558624268,
	"learning_rate": 0.0020933333333333333,
	"loss": 1.895,
	"step": 3720
	},
	{
	"epoch": 37.3,
	"grad_norm": 1.9049543142318726,
	"learning_rate": 0.00209,
	"loss": 2.0672,
	"step": 3730
	},
	{
	"epoch": 37.4,
	"grad_norm": 2.0513916015625,
	"learning_rate": 0.002086666666666667,
	"loss": 2.0711,
	"step": 3740
	},
	{
	"epoch": 37.5,
	"grad_norm": 3.3003621101379395,
	"learning_rate": 0.0020833333333333333,
	"loss": 1.9041,
	"step": 3750
	},
	{
	"epoch": 37.6,
	"grad_norm": 1.8238269090652466,
	"learning_rate": 0.0020800000000000003,
	"loss": 1.7664,
	"step": 3760
	},
	{
	"epoch": 37.7,
	"grad_norm": 7.668329238891602,
	"learning_rate": 0.0020766666666666668,
	"loss": 2.0638,
	"step": 3770
	},
	{
	"epoch": 37.8,
	"grad_norm": 3.996469497680664,
	"learning_rate": 0.0020733333333333333,
	"loss": 2.1055,
	"step": 3780
	},
	{
	"epoch": 37.9,
	"grad_norm": 2.3909971714019775,
	"learning_rate": 0.00207,
	"loss": 2.1815,
	"step": 3790
	},
	{
	"epoch": 38.0,
	"grad_norm": 1.826292634010315,
	"learning_rate": 0.0020666666666666667,
	"loss": 1.9736,
	"step": 3800
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.14,
	"eval_loss": 3.008984088897705,
	"eval_runtime": 10.9545,
	"eval_samples_per_second": 9.129,
	"eval_steps_per_second": 9.129,
	"step": 3800
	},
	{
	"epoch": 38.1,
	"grad_norm": 1.2425639629364014,
	"learning_rate": 0.0020633333333333337,
	"loss": 1.9483,
	"step": 3810
	},
	{
	"epoch": 38.2,
	"grad_norm": 1.175968885421753,
	"learning_rate": 0.00206,
	"loss": 2.0578,
	"step": 3820
	},
	{
	"epoch": 38.3,
	"grad_norm": 1.353892207145691,
	"learning_rate": 0.0020566666666666667,
	"loss": 2.0149,
	"step": 3830
	},
	{
	"epoch": 38.4,
	"grad_norm": 4.131348609924316,
	"learning_rate": 0.0020533333333333332,
	"loss": 1.9459,
	"step": 3840
	},
	{
	"epoch": 38.5,
	"grad_norm": 0.8871080875396729,
	"learning_rate": 0.00205,
	"loss": 2.1865,
	"step": 3850
	},
	{
	"epoch": 38.6,
	"grad_norm": 1.6456680297851562,
	"learning_rate": 0.0020466666666666667,
	"loss": 2.1644,
	"step": 3860
	},
	{
	"epoch": 38.7,
	"grad_norm": 2.714493751525879,
	"learning_rate": 0.002043333333333333,
	"loss": 2.0765,
	"step": 3870
	},
	{
	"epoch": 38.8,
	"grad_norm": 2.0388987064361572,
	"learning_rate": 0.00204,
	"loss": 2.1691,
	"step": 3880
	},
	{
	"epoch": 38.9,
	"grad_norm": 3.4107553958892822,
	"learning_rate": 0.0020366666666666667,
	"loss": 2.0441,
	"step": 3890
	},
	{
	"epoch": 39.0,
	"grad_norm": 0.9831299781799316,
	"learning_rate": 0.0020333333333333336,
	"loss": 1.9811,
	"step": 3900
	},
	{
	"epoch": 39.0,
	"eval_accuracy": 0.14,
	"eval_loss": 5.389962673187256,
	"eval_runtime": 1.4328,
	"eval_samples_per_second": 69.795,
	"eval_steps_per_second": 69.795,
	"step": 3900
	},
	{
	"epoch": 39.1,
	"grad_norm": 2.0271992683410645,
	"learning_rate": 0.00203,
	"loss": 1.9809,
	"step": 3910
	},
	{
	"epoch": 39.2,
	"grad_norm": 1.5080064535140991,
	"learning_rate": 0.0020266666666666666,
	"loss": 2.2516,
	"step": 3920
	},
	{
	"epoch": 39.3,
	"grad_norm": 1.161217451095581,
	"learning_rate": 0.002023333333333333,
	"loss": 1.9206,
	"step": 3930
	},
	{
	"epoch": 39.4,
	"grad_norm": 1.4843965768814087,
	"learning_rate": 0.00202,
	"loss": 1.8808,
	"step": 3940
	},
	{
	"epoch": 39.5,
	"grad_norm": 1.6773492097854614,
	"learning_rate": 0.002016666666666667,
	"loss": 1.8472,
	"step": 3950
	},
	{
	"epoch": 39.6,
	"grad_norm": 1.0647914409637451,
	"learning_rate": 0.0020133333333333336,
	"loss": 2.019,
	"step": 3960
	},
	{
	"epoch": 39.7,
	"grad_norm": 1.747930884361267,
	"learning_rate": 0.00201,
	"loss": 2.1662,
	"step": 3970
	},
	{
	"epoch": 39.8,
	"grad_norm": 2.1393418312072754,
	"learning_rate": 0.0020066666666666666,
	"loss": 2.1175,
	"step": 3980
	},
	{
	"epoch": 39.9,
	"grad_norm": 2.0009078979492188,
	"learning_rate": 0.0020033333333333335,
	"loss": 2.0526,
	"step": 3990
	},
	{
	"epoch": 40.0,
	"grad_norm": 0.8706101179122925,
	"learning_rate": 0.002,
	"loss": 1.9522,
	"step": 4000
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.08,
	"eval_loss": 3.5710408687591553,
	"eval_runtime": 11.4581,
	"eval_samples_per_second": 8.727,
	"eval_steps_per_second": 8.727,
	"step": 4000
	},
	{
	"epoch": 40.1,
	"grad_norm": 1.443403959274292,
	"learning_rate": 0.0019966666666666666,
	"loss": 1.9578,
	"step": 4010
	},
	{
	"epoch": 40.2,
	"grad_norm": 1.0098460912704468,
	"learning_rate": 0.001993333333333333,
	"loss": 1.9322,
	"step": 4020
	},
	{
	"epoch": 40.3,
	"grad_norm": 2.6353437900543213,
	"learning_rate": 0.00199,
	"loss": 1.9057,
	"step": 4030
	},
	{
	"epoch": 40.4,
	"grad_norm": 3.636230230331421,
	"learning_rate": 0.001986666666666667,
	"loss": 2.2036,
	"step": 4040
	},
	{
	"epoch": 40.5,
	"grad_norm": 2.8781425952911377,
	"learning_rate": 0.0019833333333333335,
	"loss": 2.1279,
	"step": 4050
	},
	{
	"epoch": 40.6,
	"grad_norm": 2.572105646133423,
	"learning_rate": 0.00198,
	"loss": 1.9084,
	"step": 4060
	},
	{
	"epoch": 40.7,
	"grad_norm": 1.249396800994873,
	"learning_rate": 0.0019766666666666665,
	"loss": 1.8248,
	"step": 4070
	},
	{
	"epoch": 40.8,
	"grad_norm": 7.5078959465026855,
	"learning_rate": 0.0019733333333333334,
	"loss": 1.911,
	"step": 4080
	},
	{
	"epoch": 40.9,
	"grad_norm": 3.5880582332611084,
	"learning_rate": 0.00197,
	"loss": 2.0661,
	"step": 4090
	},
	{
	"epoch": 41.0,
	"grad_norm": 5.388538360595703,
	"learning_rate": 0.001966666666666667,
	"loss": 2.047,
	"step": 4100
	},
	{
	"epoch": 41.0,
	"eval_accuracy": 0.13,
	"eval_loss": 3.472397565841675,
	"eval_runtime": 7.0399,
	"eval_samples_per_second": 14.205,
	"eval_steps_per_second": 14.205,
	"step": 4100
	},
	{
	"epoch": 41.1,
	"grad_norm": 1.7672760486602783,
	"learning_rate": 0.0019633333333333334,
	"loss": 2.1461,
	"step": 4110
	},
	{
	"epoch": 41.2,
	"grad_norm": 3.0011463165283203,
	"learning_rate": 0.00196,
	"loss": 2.053,
	"step": 4120
	},
	{
	"epoch": 41.3,
	"grad_norm": 1.1528350114822388,
	"learning_rate": 0.001956666666666667,
	"loss": 1.8176,
	"step": 4130
	},
	{
	"epoch": 41.4,
	"grad_norm": 2.7469072341918945,
	"learning_rate": 0.0019533333333333334,
	"loss": 2.1321,
	"step": 4140
	},
	{
	"epoch": 41.5,
	"grad_norm": 1.233780860900879,
	"learning_rate": 0.0019500000000000001,
	"loss": 1.9267,
	"step": 4150
	},
	{
	"epoch": 41.6,
	"grad_norm": 1.0265371799468994,
	"learning_rate": 0.0019466666666666666,
	"loss": 1.9318,
	"step": 4160
	},
	{
	"epoch": 41.7,
	"grad_norm": 1.1822024583816528,
	"learning_rate": 0.0019433333333333334,
	"loss": 2.0635,
	"step": 4170
	},
	{
	"epoch": 41.8,
	"grad_norm": 6.102161407470703,
	"learning_rate": 0.0019399999999999999,
	"loss": 1.8995,
	"step": 4180
	},
	{
	"epoch": 41.9,
	"grad_norm": 2.581594467163086,
	"learning_rate": 0.0019366666666666666,
	"loss": 1.815,
	"step": 4190
	},
	{
	"epoch": 42.0,
	"grad_norm": 1.29677414894104,
	"learning_rate": 0.0019333333333333336,
	"loss": 1.9999,
	"step": 4200
	},
	{
	"epoch": 42.0,
	"eval_accuracy": 0.11,
	"eval_loss": 7.260364532470703,
	"eval_runtime": 19.8343,
	"eval_samples_per_second": 5.042,
	"eval_steps_per_second": 5.042,
	"step": 4200
	},
	{
	"epoch": 42.1,
	"grad_norm": 6.908992290496826,
	"learning_rate": 0.00193,
	"loss": 1.8636,
	"step": 4210
	},
	{
	"epoch": 42.2,
	"grad_norm": 2.6703882217407227,
	"learning_rate": 0.0019266666666666668,
	"loss": 1.9093,
	"step": 4220
	},
	{
	"epoch": 42.3,
	"grad_norm": 3.580500841140747,
	"learning_rate": 0.0019233333333333333,
	"loss": 2.0113,
	"step": 4230
	},
	{
	"epoch": 42.4,
	"grad_norm": 3.339911937713623,
	"learning_rate": 0.00192,
	"loss": 1.8378,
	"step": 4240
	},
	{
	"epoch": 42.5,
	"grad_norm": 1.8307009935379028,
	"learning_rate": 0.0019166666666666666,
	"loss": 2.017,
	"step": 4250
	},
	{
	"epoch": 42.6,
	"grad_norm": 3.4338369369506836,
	"learning_rate": 0.0019133333333333333,
	"loss": 2.1168,
	"step": 4260
	},
	{
	"epoch": 42.7,
	"grad_norm": 5.363007545471191,
	"learning_rate": 0.0019100000000000002,
	"loss": 2.1431,
	"step": 4270
	},
	{
	"epoch": 42.8,
	"grad_norm": 1.6690889596939087,
	"learning_rate": 0.0019066666666666668,
	"loss": 1.8596,
	"step": 4280
	},
	{
	"epoch": 42.9,
	"grad_norm": 3.8428828716278076,
	"learning_rate": 0.0019033333333333335,
	"loss": 1.8642,
	"step": 4290
	},
	{
	"epoch": 43.0,
	"grad_norm": 2.877225160598755,
	"learning_rate": 0.0019,
	"loss": 1.9869,
	"step": 4300
	},
	{
	"epoch": 43.0,
	"eval_accuracy": 0.06,
	"eval_loss": 7.994565010070801,
	"eval_runtime": 3.2267,
	"eval_samples_per_second": 30.991,
	"eval_steps_per_second": 30.991,
	"step": 4300
	},
	{
	"epoch": 43.1,
	"grad_norm": 2.577849864959717,
	"learning_rate": 0.0018966666666666667,
	"loss": 1.9454,
	"step": 4310
	},
	{
	"epoch": 43.2,
	"grad_norm": 1.6029572486877441,
	"learning_rate": 0.0018933333333333332,
	"loss": 1.7824,
	"step": 4320
	},
	{
	"epoch": 43.3,
	"grad_norm": 3.6236324310302734,
	"learning_rate": 0.00189,
	"loss": 1.9488,
	"step": 4330
	},
	{
	"epoch": 43.4,
	"grad_norm": 2.585770845413208,
	"learning_rate": 0.001886666666666667,
	"loss": 2.0196,
	"step": 4340
	},
	{
	"epoch": 43.5,
	"grad_norm": 1.989559531211853,
	"learning_rate": 0.0018833333333333334,
	"loss": 2.112,
	"step": 4350
	},
	{
	"epoch": 43.6,
	"grad_norm": 1.21571683883667,
	"learning_rate": 0.0018800000000000002,
	"loss": 1.8392,
	"step": 4360
	},
	{
	"epoch": 43.7,
	"grad_norm": 1.674765944480896,
	"learning_rate": 0.0018766666666666667,
	"loss": 1.9925,
	"step": 4370
	},
	{
	"epoch": 43.8,
	"grad_norm": 1.5830934047698975,
	"learning_rate": 0.0018733333333333334,
	"loss": 1.9278,
	"step": 4380
	},
	{
	"epoch": 43.9,
	"grad_norm": 3.7739739418029785,
	"learning_rate": 0.00187,
	"loss": 1.9097,
	"step": 4390
	},
	{
	"epoch": 44.0,
	"grad_norm": 1.0863910913467407,
	"learning_rate": 0.0018666666666666666,
	"loss": 1.9428,
	"step": 4400
	},
	{
	"epoch": 44.0,
	"eval_accuracy": 0.08,
	"eval_loss": 6.156602382659912,
	"eval_runtime": 1.6006,
	"eval_samples_per_second": 62.478,
	"eval_steps_per_second": 62.478,
	"step": 4400
	},
	{
	"epoch": 44.1,
	"grad_norm": 1.9607887268066406,
	"learning_rate": 0.0018633333333333332,
	"loss": 2.0214,
	"step": 4410
	},
	{
	"epoch": 44.2,
	"grad_norm": 0.9546820521354675,
	"learning_rate": 0.00186,
	"loss": 2.0561,
	"step": 4420
	},
	{
	"epoch": 44.3,
	"grad_norm": 3.94052791595459,
	"learning_rate": 0.0018566666666666668,
	"loss": 1.8098,
	"step": 4430
	},
	{
	"epoch": 44.4,
	"grad_norm": 1.6813486814498901,
	"learning_rate": 0.0018533333333333334,
	"loss": 1.8502,
	"step": 4440
	},
	{
	"epoch": 44.5,
	"grad_norm": 2.918163299560547,
	"learning_rate": 0.00185,
	"loss": 1.7545,
	"step": 4450
	},
	{
	"epoch": 44.6,
	"grad_norm": 2.301067352294922,
	"learning_rate": 0.0018466666666666666,
	"loss": 2.1371,
	"step": 4460
	},
	{
	"epoch": 44.7,
	"grad_norm": 4.0886712074279785,
	"learning_rate": 0.0018433333333333333,
	"loss": 2.0279,
	"step": 4470
	},
	{
	"epoch": 44.8,
	"grad_norm": 1.5965591669082642,
	"learning_rate": 0.0018399999999999998,
	"loss": 2.0054,
	"step": 4480
	},
	{
	"epoch": 44.9,
	"grad_norm": 1.5079519748687744,
	"learning_rate": 0.0018366666666666668,
	"loss": 1.8201,
	"step": 4490
	},
	{
	"epoch": 45.0,
	"grad_norm": 2.8402748107910156,
	"learning_rate": 0.0018333333333333335,
	"loss": 1.7922,
	"step": 4500
	},
	{
	"epoch": 45.0,
	"eval_accuracy": 0.03,
	"eval_loss": 4.991882801055908,
	"eval_runtime": 1.6352,
	"eval_samples_per_second": 61.156,
	"eval_steps_per_second": 61.156,
	"step": 4500
	},
	{
	"epoch": 45.1,
	"grad_norm": 2.2311179637908936,
	"learning_rate": 0.00183,
	"loss": 1.8237,
	"step": 4510
	},
	{
	"epoch": 45.2,
	"grad_norm": 1.873672604560852,
	"learning_rate": 0.0018266666666666668,
	"loss": 1.9774,
	"step": 4520
	},
	{
	"epoch": 45.3,
	"grad_norm": 2.2289321422576904,
	"learning_rate": 0.0018233333333333333,
	"loss": 2.0517,
	"step": 4530
	},
	{
	"epoch": 45.4,
	"grad_norm": 4.614668846130371,
	"learning_rate": 0.00182,
	"loss": 1.8622,
	"step": 4540
	},
	{
	"epoch": 45.5,
	"grad_norm": 2.254178285598755,
	"learning_rate": 0.0018166666666666665,
	"loss": 1.9902,
	"step": 4550
	},
	{
	"epoch": 45.6,
	"grad_norm": 5.717199325561523,
	"learning_rate": 0.0018133333333333335,
	"loss": 2.0937,
	"step": 4560
	},
	{
	"epoch": 45.7,
	"grad_norm": 2.302830219268799,
	"learning_rate": 0.0018100000000000002,
	"loss": 1.8008,
	"step": 4570
	},
	{
	"epoch": 45.8,
	"grad_norm": 3.8907456398010254,
	"learning_rate": 0.0018066666666666667,
	"loss": 1.8008,
	"step": 4580
	},
	{
	"epoch": 45.9,
	"grad_norm": 3.854527711868286,
	"learning_rate": 0.0018033333333333334,
	"loss": 1.9225,
	"step": 4590
	},
	{
	"epoch": 46.0,
	"grad_norm": 2.202763795852661,
	"learning_rate": 0.0018,
	"loss": 1.9047,
	"step": 4600
	},
	{
	"epoch": 46.0,
	"eval_accuracy": 0.13,
	"eval_loss": 7.193399429321289,
	"eval_runtime": 1.5717,
	"eval_samples_per_second": 63.626,
	"eval_steps_per_second": 63.626,
	"step": 4600
	},
	{
	"epoch": 46.1,
	"grad_norm": 0.9213665723800659,
	"learning_rate": 0.0017966666666666667,
	"loss": 1.8289,
	"step": 4610
	},
	{
	"epoch": 46.2,
	"grad_norm": 1.6906572580337524,
	"learning_rate": 0.0017933333333333332,
	"loss": 2.1097,
	"step": 4620
	},
	{
	"epoch": 46.3,
	"grad_norm": 4.417488098144531,
	"learning_rate": 0.0017900000000000001,
	"loss": 1.8328,
	"step": 4630
	},
	{
	"epoch": 46.4,
	"grad_norm": 1.8122247457504272,
	"learning_rate": 0.0017866666666666667,
	"loss": 2.0426,
	"step": 4640
	},
	{
	"epoch": 46.5,
	"grad_norm": 2.3169689178466797,
	"learning_rate": 0.0017833333333333334,
	"loss": 1.8678,
	"step": 4650
	},
	{
	"epoch": 46.6,
	"grad_norm": 2.3043506145477295,
	"learning_rate": 0.0017800000000000001,
	"loss": 1.9539,
	"step": 4660
	},
	{
	"epoch": 46.7,
	"grad_norm": 3.5980923175811768,
	"learning_rate": 0.0017766666666666666,
	"loss": 1.9287,
	"step": 4670
	},
	{
	"epoch": 46.8,
	"grad_norm": 4.76849365234375,
	"learning_rate": 0.0017733333333333334,
	"loss": 1.948,
	"step": 4680
	},
	{
	"epoch": 46.9,
	"grad_norm": 1.292289137840271,
	"learning_rate": 0.0017699999999999999,
	"loss": 2.1434,
	"step": 4690
	},
	{
	"epoch": 47.0,
	"grad_norm": 6.172546863555908,
	"learning_rate": 0.0017666666666666668,
	"loss": 1.9419,
	"step": 4700
	},
	{
	"epoch": 47.0,
	"eval_accuracy": 0.08,
	"eval_loss": 4.326533317565918,
	"eval_runtime": 1.6119,
	"eval_samples_per_second": 62.037,
	"eval_steps_per_second": 62.037,
	"step": 4700
	},
	{
	"epoch": 47.1,
	"grad_norm": 4.527221202850342,
	"learning_rate": 0.0017633333333333333,
	"loss": 1.67,
	"step": 4710
	},
	{
	"epoch": 47.2,
	"grad_norm": 2.071593761444092,
	"learning_rate": 0.00176,
	"loss": 1.7771,
	"step": 4720
	},
	{
	"epoch": 47.3,
	"grad_norm": 2.786754846572876,
	"learning_rate": 0.0017566666666666668,
	"loss": 2.0374,
	"step": 4730
	},
	{
	"epoch": 47.4,
	"grad_norm": 2.9459238052368164,
	"learning_rate": 0.0017533333333333333,
	"loss": 1.9356,
	"step": 4740
	},
	{
	"epoch": 47.5,
	"grad_norm": 3.7896053791046143,
	"learning_rate": 0.0017500000000000003,
	"loss": 1.936,
	"step": 4750
	},
	{
	"epoch": 47.6,
	"grad_norm": 3.3444080352783203,
	"learning_rate": 0.0017466666666666665,
	"loss": 2.0647,
	"step": 4760
	},
	{
	"epoch": 47.7,
	"grad_norm": 2.463644027709961,
	"learning_rate": 0.0017433333333333335,
	"loss": 1.8612,
	"step": 4770
	},
	{
	"epoch": 47.8,
	"grad_norm": 2.2192585468292236,
	"learning_rate": 0.00174,
	"loss": 1.9938,
	"step": 4780
	},
	{
	"epoch": 47.9,
	"grad_norm": 2.3443355560302734,
	"learning_rate": 0.0017366666666666667,
	"loss": 1.9478,
	"step": 4790
	},
	{
	"epoch": 48.0,
	"grad_norm": 3.5949223041534424,
	"learning_rate": 0.0017333333333333333,
	"loss": 1.7765,
	"step": 4800
	},
	{
	"epoch": 48.0,
	"eval_accuracy": 0.12,
	"eval_loss": 4.613639831542969,
	"eval_runtime": 1.6316,
	"eval_samples_per_second": 61.29,
	"eval_steps_per_second": 61.29,
	"step": 4800
	},
	{
	"epoch": 48.1,
	"grad_norm": 1.3368432521820068,
	"learning_rate": 0.00173,
	"loss": 1.9142,
	"step": 4810
	},
	{
	"epoch": 48.2,
	"grad_norm": 2.000155448913574,
	"learning_rate": 0.001726666666666667,
	"loss": 1.9052,
	"step": 4820
	},
	{
	"epoch": 48.3,
	"grad_norm": 6.261807918548584,
	"learning_rate": 0.0017233333333333332,
	"loss": 1.9964,
	"step": 4830
	},
	{
	"epoch": 48.4,
	"grad_norm": 1.433078408241272,
	"learning_rate": 0.0017200000000000002,
	"loss": 1.9076,
	"step": 4840
	},
	{
	"epoch": 48.5,
	"grad_norm": 2.1348838806152344,
	"learning_rate": 0.0017166666666666667,
	"loss": 1.7777,
	"step": 4850
	},
	{
	"epoch": 48.6,
	"grad_norm": 3.1317050457000732,
	"learning_rate": 0.0017133333333333334,
	"loss": 1.8805,
	"step": 4860
	},
	{
	"epoch": 48.7,
	"grad_norm": 3.248568534851074,
	"learning_rate": 0.00171,
	"loss": 1.9639,
	"step": 4870
	},
	{
	"epoch": 48.8,
	"grad_norm": 1.4480762481689453,
	"learning_rate": 0.0017066666666666667,
	"loss": 1.8757,
	"step": 4880
	},
	{
	"epoch": 48.9,
	"grad_norm": 2.1497910022735596,
	"learning_rate": 0.0017033333333333336,
	"loss": 1.7923,
	"step": 4890
	},
	{
	"epoch": 49.0,
	"grad_norm": 2.5053927898406982,
	"learning_rate": 0.0017,
	"loss": 1.7962,
	"step": 4900
	},
	{
	"epoch": 49.0,
	"eval_accuracy": 0.14,
	"eval_loss": 13.476518630981445,
	"eval_runtime": 1.7036,
	"eval_samples_per_second": 58.7,
	"eval_steps_per_second": 58.7,
	"step": 4900
	},
	{
	"epoch": 49.1,
	"grad_norm": 3.2668566703796387,
	"learning_rate": 0.0016966666666666669,
	"loss": 1.7602,
	"step": 4910
	},
	{
	"epoch": 49.2,
	"grad_norm": 1.1898913383483887,
	"learning_rate": 0.0016933333333333334,
	"loss": 1.8113,
	"step": 4920
	},
	{
	"epoch": 49.3,
	"grad_norm": 3.223593235015869,
	"learning_rate": 0.00169,
	"loss": 2.0273,
	"step": 4930
	},
	{
	"epoch": 49.4,
	"grad_norm": 4.745173454284668,
	"learning_rate": 0.0016866666666666666,
	"loss": 1.7831,
	"step": 4940
	},
	{
	"epoch": 49.5,
	"grad_norm": 1.5475022792816162,
	"learning_rate": 0.0016833333333333333,
	"loss": 1.9636,
	"step": 4950
	},
	{
	"epoch": 49.6,
	"grad_norm": 3.3999617099761963,
	"learning_rate": 0.0016800000000000003,
	"loss": 1.7679,
	"step": 4960
	},
	{
	"epoch": 49.7,
	"grad_norm": 2.1823158264160156,
	"learning_rate": 0.0016766666666666666,
	"loss": 1.9602,
	"step": 4970
	},
	{
	"epoch": 49.8,
	"grad_norm": 1.2854535579681396,
	"learning_rate": 0.0016733333333333335,
	"loss": 1.8646,
	"step": 4980
	},
	{
	"epoch": 49.9,
	"grad_norm": 3.2971255779266357,
	"learning_rate": 0.00167,
	"loss": 1.9398,
	"step": 4990
	},
	{
	"epoch": 50.0,
	"grad_norm": 4.854804039001465,
	"learning_rate": 0.0016666666666666668,
	"loss": 2.0226,
	"step": 5000
	},
	{
	"epoch": 50.0,
	"eval_accuracy": 0.08,
	"eval_loss": 8.122514724731445,
	"eval_runtime": 1.6511,
	"eval_samples_per_second": 60.567,
	"eval_steps_per_second": 60.567,
	"step": 5000
	},
	{
	"epoch": 50.1,
	"grad_norm": 2.5975425243377686,
	"learning_rate": 0.0016633333333333333,
	"loss": 1.9288,
	"step": 5010
	},
	{
	"epoch": 50.2,
	"grad_norm": 1.7692967653274536,
	"learning_rate": 0.00166,
	"loss": 1.8247,
	"step": 5020
	},
	{
	"epoch": 50.3,
	"grad_norm": 2.7661757469177246,
	"learning_rate": 0.0016566666666666665,
	"loss": 2.0096,
	"step": 5030
	},
	{
	"epoch": 50.4,
	"grad_norm": 1.707748532295227,
	"learning_rate": 0.0016533333333333333,
	"loss": 1.6249,
	"step": 5040
	},
	{
	"epoch": 50.5,
	"grad_norm": 1.9424363374710083,
	"learning_rate": 0.0016500000000000002,
	"loss": 1.9504,
	"step": 5050
	},
	{
	"epoch": 50.6,
	"grad_norm": 5.841362476348877,
	"learning_rate": 0.0016466666666666667,
	"loss": 1.7022,
	"step": 5060
	},
	{
	"epoch": 50.7,
	"grad_norm": 5.629020690917969,
	"learning_rate": 0.0016433333333333335,
	"loss": 1.8386,
	"step": 5070
	},
	{
	"epoch": 50.8,
	"grad_norm": 3.982902765274048,
	"learning_rate": 0.00164,
	"loss": 1.9075,
	"step": 5080
	},
	{
	"epoch": 50.9,
	"grad_norm": 1.95156991481781,
	"learning_rate": 0.0016366666666666667,
	"loss": 1.7509,
	"step": 5090
	},
	{
	"epoch": 51.0,
	"grad_norm": 3.8183364868164062,
	"learning_rate": 0.0016333333333333332,
	"loss": 2.1393,
	"step": 5100
	},
	{
	"epoch": 51.0,
	"eval_accuracy": 0.17,
	"eval_loss": 7.794131278991699,
	"eval_runtime": 1.5853,
	"eval_samples_per_second": 63.08,
	"eval_steps_per_second": 63.08,
	"step": 5100
	},
	{
	"epoch": 51.1,
	"grad_norm": 4.704866886138916,
	"learning_rate": 0.00163,
	"loss": 1.8829,
	"step": 5110
	},
	{
	"epoch": 51.2,
	"grad_norm": 5.786809921264648,
	"learning_rate": 0.0016266666666666669,
	"loss": 1.8662,
	"step": 5120
	},
	{
	"epoch": 51.3,
	"grad_norm": 2.3854682445526123,
	"learning_rate": 0.0016233333333333334,
	"loss": 1.8345,
	"step": 5130
	},
	{
	"epoch": 51.4,
	"grad_norm": 1.6624096632003784,
	"learning_rate": 0.0016200000000000001,
	"loss": 1.9696,
	"step": 5140
	},
	{
	"epoch": 51.5,
	"grad_norm": 2.215571880340576,
	"learning_rate": 0.0016166666666666666,
	"loss": 1.8693,
	"step": 5150
	},
	{
	"epoch": 51.6,
	"grad_norm": 4.892175197601318,
	"learning_rate": 0.0016133333333333334,
	"loss": 2.2826,
	"step": 5160
	},
	{
	"epoch": 51.7,
	"grad_norm": 2.0336062908172607,
	"learning_rate": 0.0016099999999999999,
	"loss": 1.9523,
	"step": 5170
	},
	{
	"epoch": 51.8,
	"grad_norm": 1.3163597583770752,
	"learning_rate": 0.0016066666666666666,
	"loss": 2.0221,
	"step": 5180
	},
	{
	"epoch": 51.9,
	"grad_norm": 3.6314053535461426,
	"learning_rate": 0.0016033333333333336,
	"loss": 1.8021,
	"step": 5190
	},
	{
	"epoch": 52.0,
	"grad_norm": 4.095399856567383,
	"learning_rate": 0.0016,
	"loss": 1.8256,
	"step": 5200
	},
	{
	"epoch": 52.0,
	"eval_accuracy": 0.12,
	"eval_loss": 5.413360118865967,
	"eval_runtime": 1.6389,
	"eval_samples_per_second": 61.017,
	"eval_steps_per_second": 61.017,
	"step": 5200
	},
	{
	"epoch": 52.1,
	"grad_norm": 5.811031341552734,
	"learning_rate": 0.0015966666666666668,
	"loss": 1.7871,
	"step": 5210
	},
	{
	"epoch": 52.2,
	"grad_norm": 1.6372181177139282,
	"learning_rate": 0.0015933333333333333,
	"loss": 2.0306,
	"step": 5220
	},
	{
	"epoch": 52.3,
	"grad_norm": 1.0381364822387695,
	"learning_rate": 0.00159,
	"loss": 1.9718,
	"step": 5230
	},
	{
	"epoch": 52.4,
	"grad_norm": 3.0742342472076416,
	"learning_rate": 0.0015866666666666666,
	"loss": 1.9477,
	"step": 5240
	},
	{
	"epoch": 52.5,
	"grad_norm": 2.2406508922576904,
	"learning_rate": 0.0015833333333333335,
	"loss": 1.9322,
	"step": 5250
	},
	{
	"epoch": 52.6,
	"grad_norm": 3.015726327896118,
	"learning_rate": 0.0015799999999999998,
	"loss": 1.6133,
	"step": 5260
	},
	{
	"epoch": 52.7,
	"grad_norm": 4.843988418579102,
	"learning_rate": 0.0015766666666666668,
	"loss": 1.9038,
	"step": 5270
	},
	{
	"epoch": 52.8,
	"grad_norm": 3.5391154289245605,
	"learning_rate": 0.0015733333333333335,
	"loss": 1.9509,
	"step": 5280
	},
	{
	"epoch": 52.9,
	"grad_norm": 2.697735548019409,
	"learning_rate": 0.00157,
	"loss": 1.9014,
	"step": 5290
	},
	{
	"epoch": 53.0,
	"grad_norm": 6.837653636932373,
	"learning_rate": 0.0015666666666666667,
	"loss": 1.9116,
	"step": 5300
	},
	{
	"epoch": 53.0,
	"eval_accuracy": 0.08,
	"eval_loss": 6.112913608551025,
	"eval_runtime": 1.6689,
	"eval_samples_per_second": 59.919,
	"eval_steps_per_second": 59.919,
	"step": 5300
	},
	{
	"epoch": 53.1,
	"grad_norm": 1.5611952543258667,
	"learning_rate": 0.0015633333333333332,
	"loss": 1.6709,
	"step": 5310
	},
	{
	"epoch": 53.2,
	"grad_norm": 0.9511187672615051,
	"learning_rate": 0.0015600000000000002,
	"loss": 1.866,
	"step": 5320
	},
	{
	"epoch": 53.3,
	"grad_norm": 4.475405216217041,
	"learning_rate": 0.0015566666666666665,
	"loss": 1.6536,
	"step": 5330
	},
	{
	"epoch": 53.4,
	"grad_norm": 4.969283103942871,
	"learning_rate": 0.0015533333333333334,
	"loss": 1.8588,
	"step": 5340
	},
	{
	"epoch": 53.5,
	"grad_norm": 1.5282946825027466,
	"learning_rate": 0.0015500000000000002,
	"loss": 1.7311,
	"step": 5350
	},
	{
	"epoch": 53.6,
	"grad_norm": 2.565603494644165,
	"learning_rate": 0.0015466666666666667,
	"loss": 1.9764,
	"step": 5360
	},
	{
	"epoch": 53.7,
	"grad_norm": 3.92899489402771,
	"learning_rate": 0.0015433333333333334,
	"loss": 1.8728,
	"step": 5370
	},
	{
	"epoch": 53.8,
	"grad_norm": 8.752714157104492,
	"learning_rate": 0.00154,
	"loss": 2.0048,
	"step": 5380
	},
	{
	"epoch": 53.9,
	"grad_norm": 2.1922614574432373,
	"learning_rate": 0.0015366666666666669,
	"loss": 1.7953,
	"step": 5390
	},
	{
	"epoch": 54.0,
	"grad_norm": 1.7674418687820435,
	"learning_rate": 0.0015333333333333332,
	"loss": 2.1156,
	"step": 5400
	},
	{
	"epoch": 54.0,
	"eval_accuracy": 0.14,
	"eval_loss": 4.145403861999512,
	"eval_runtime": 1.4782,
	"eval_samples_per_second": 67.649,
	"eval_steps_per_second": 67.649,
	"step": 5400
	},
	{
	"epoch": 54.1,
	"grad_norm": 1.4317039251327515,
	"learning_rate": 0.0015300000000000001,
	"loss": 2.1365,
	"step": 5410
	},
	{
	"epoch": 54.2,
	"grad_norm": 2.728269577026367,
	"learning_rate": 0.0015266666666666666,
	"loss": 1.8243,
	"step": 5420
	},
	{
	"epoch": 54.3,
	"grad_norm": 1.3561785221099854,
	"learning_rate": 0.0015233333333333334,
	"loss": 1.6856,
	"step": 5430
	},
	{
	"epoch": 54.4,
	"grad_norm": 2.300229549407959,
	"learning_rate": 0.00152,
	"loss": 1.7025,
	"step": 5440
	},
	{
	"epoch": 54.5,
	"grad_norm": 2.610546350479126,
	"learning_rate": 0.0015166666666666666,
	"loss": 1.8949,
	"step": 5450
	},
	{
	"epoch": 54.6,
	"grad_norm": 3.494725465774536,
	"learning_rate": 0.0015133333333333335,
	"loss": 1.7296,
	"step": 5460
	},
	{
	"epoch": 54.7,
	"grad_norm": 3.7900161743164062,
	"learning_rate": 0.0015099999999999998,
	"loss": 1.9087,
	"step": 5470
	},
	{
	"epoch": 54.8,
	"grad_norm": 5.745708465576172,
	"learning_rate": 0.0015066666666666668,
	"loss": 1.9497,
	"step": 5480
	},
	{
	"epoch": 54.9,
	"grad_norm": 3.6180849075317383,
	"learning_rate": 0.0015033333333333333,
	"loss": 1.8751,
	"step": 5490
	},
	{
	"epoch": 55.0,
	"grad_norm": 1.9145499467849731,
	"learning_rate": 0.0015,
	"loss": 1.7501,
	"step": 5500
	},
	{
	"epoch": 55.0,
	"eval_accuracy": 0.09,
	"eval_loss": 6.213360786437988,
	"eval_runtime": 1.2055,
	"eval_samples_per_second": 82.957,
	"eval_steps_per_second": 82.957,
	"step": 5500
	},
	{
	"epoch": 55.1,
	"grad_norm": 3.158578395843506,
	"learning_rate": 0.0014966666666666668,
	"loss": 1.7163,
	"step": 5510
	},
	{
	"epoch": 55.2,
	"grad_norm": 10.36141586303711,
	"learning_rate": 0.0014933333333333333,
	"loss": 1.8999,
	"step": 5520
	},
	{
	"epoch": 55.3,
	"grad_norm": 6.241248607635498,
	"learning_rate": 0.00149,
	"loss": 1.6129,
	"step": 5530
	},
	{
	"epoch": 55.4,
	"grad_norm": 5.371027946472168,
	"learning_rate": 0.0014866666666666667,
	"loss": 1.747,
	"step": 5540
	},
	{
	"epoch": 55.5,
	"grad_norm": 8.025517463684082,
	"learning_rate": 0.0014833333333333335,
	"loss": 1.8701,
	"step": 5550
	},
	{
	"epoch": 55.6,
	"grad_norm": 1.9207485914230347,
	"learning_rate": 0.00148,
	"loss": 1.7299,
	"step": 5560
	},
	{
	"epoch": 55.7,
	"grad_norm": 5.347723007202148,
	"learning_rate": 0.0014766666666666667,
	"loss": 2.0809,
	"step": 5570
	},
	{
	"epoch": 55.8,
	"grad_norm": 2.564652919769287,
	"learning_rate": 0.0014733333333333334,
	"loss": 1.5181,
	"step": 5580
	},
	{
	"epoch": 55.9,
	"grad_norm": 2.4365596771240234,
	"learning_rate": 0.00147,
	"loss": 2.0716,
	"step": 5590
	},
	{
	"epoch": 56.0,
	"grad_norm": 2.38962721824646,
	"learning_rate": 0.0014666666666666667,
	"loss": 1.8722,
	"step": 5600
	},
	{
	"epoch": 56.0,
	"eval_accuracy": 0.12,
	"eval_loss": 6.498541831970215,
	"eval_runtime": 1.059,
	"eval_samples_per_second": 94.424,
	"eval_steps_per_second": 94.424,
	"step": 5600
	},
	{
	"epoch": 56.1,
	"grad_norm": 3.4303345680236816,
	"learning_rate": 0.0014633333333333332,
	"loss": 2.0598,
	"step": 5610
	},
	{
	"epoch": 56.2,
	"grad_norm": 5.073793411254883,
	"learning_rate": 0.0014600000000000001,
	"loss": 1.6931,
	"step": 5620
	},
	{
	"epoch": 56.3,
	"grad_norm": 4.5366644859313965,
	"learning_rate": 0.0014566666666666667,
	"loss": 1.7725,
	"step": 5630
	},
	{
	"epoch": 56.4,
	"grad_norm": 4.9346022605896,
	"learning_rate": 0.0014533333333333334,
	"loss": 1.7445,
	"step": 5640
	},
	{
	"epoch": 56.5,
	"grad_norm": 1.8802194595336914,
	"learning_rate": 0.0014500000000000001,
	"loss": 1.8807,
	"step": 5650
	},
	{
	"epoch": 56.6,
	"grad_norm": 9.372114181518555,
	"learning_rate": 0.0014466666666666666,
	"loss": 2.0712,
	"step": 5660
	},
	{
	"epoch": 56.7,
	"grad_norm": 1.4863404035568237,
	"learning_rate": 0.0014433333333333334,
	"loss": 2.0337,
	"step": 5670
	},
	{
	"epoch": 56.8,
	"grad_norm": 6.14418888092041,
	"learning_rate": 0.0014399999999999999,
	"loss": 1.8824,
	"step": 5680
	},
	{
	"epoch": 56.9,
	"grad_norm": 4.623052597045898,
	"learning_rate": 0.0014366666666666666,
	"loss": 1.7163,
	"step": 5690
	},
	{
	"epoch": 57.0,
	"grad_norm": 2.0986571311950684,
	"learning_rate": 0.0014333333333333333,
	"loss": 1.9432,
	"step": 5700
	},
	{
	"epoch": 57.0,
	"eval_accuracy": 0.12,
	"eval_loss": 5.271793842315674,
	"eval_runtime": 1.0742,
	"eval_samples_per_second": 93.091,
	"eval_steps_per_second": 93.091,
	"step": 5700
	},
	{
	"epoch": 57.1,
	"grad_norm": 1.7047914266586304,
	"learning_rate": 0.00143,
	"loss": 1.681,
	"step": 5710
	},
	{
	"epoch": 57.2,
	"grad_norm": 5.937868595123291,
	"learning_rate": 0.0014266666666666668,
	"loss": 1.9401,
	"step": 5720
	},
	{
	"epoch": 57.3,
	"grad_norm": 2.155251979827881,
	"learning_rate": 0.0014233333333333333,
	"loss": 1.7128,
	"step": 5730
	},
	{
	"epoch": 57.4,
	"grad_norm": 3.07235050201416,
	"learning_rate": 0.00142,
	"loss": 1.6452,
	"step": 5740
	},
	{
	"epoch": 57.5,
	"grad_norm": 3.241396427154541,
	"learning_rate": 0.0014166666666666666,
	"loss": 1.5336,
	"step": 5750
	},
	{
	"epoch": 57.6,
	"grad_norm": 2.2947235107421875,
	"learning_rate": 0.0014133333333333333,
	"loss": 1.8406,
	"step": 5760
	},
	{
	"epoch": 57.7,
	"grad_norm": 3.67720627784729,
	"learning_rate": 0.00141,
	"loss": 1.8698,
	"step": 5770
	},
	{
	"epoch": 57.8,
	"grad_norm": 4.078272342681885,
	"learning_rate": 0.0014066666666666667,
	"loss": 1.7784,
	"step": 5780
	},
	{
	"epoch": 57.9,
	"grad_norm": 5.352456569671631,
	"learning_rate": 0.0014033333333333335,
	"loss": 2.0788,
	"step": 5790
	},
	{
	"epoch": 58.0,
	"grad_norm": 2.5838003158569336,
	"learning_rate": 0.0014,
	"loss": 1.7713,
	"step": 5800
	},
	{
	"epoch": 58.0,
	"eval_accuracy": 0.08,
	"eval_loss": 12.331060409545898,
	"eval_runtime": 1.0626,
	"eval_samples_per_second": 94.11,
	"eval_steps_per_second": 94.11,
	"step": 5800
	},
	{
	"epoch": 58.1,
	"grad_norm": 1.693384051322937,
	"learning_rate": 0.0013966666666666667,
	"loss": 1.656,
	"step": 5810
	},
	{
	"epoch": 58.2,
	"grad_norm": 3.3912696838378906,
	"learning_rate": 0.0013933333333333334,
	"loss": 1.7021,
	"step": 5820
	},
	{
	"epoch": 58.3,
	"grad_norm": 8.783439636230469,
	"learning_rate": 0.00139,
	"loss": 1.9102,
	"step": 5830
	},
	{
	"epoch": 58.4,
	"grad_norm": 3.9075992107391357,
	"learning_rate": 0.0013866666666666667,
	"loss": 1.8775,
	"step": 5840
	},
	{
	"epoch": 58.5,
	"grad_norm": 2.6207642555236816,
	"learning_rate": 0.0013833333333333334,
	"loss": 1.912,
	"step": 5850
	},
	{
	"epoch": 58.6,
	"grad_norm": 1.5650824308395386,
	"learning_rate": 0.0013800000000000002,
	"loss": 1.8781,
	"step": 5860
	},
	{
	"epoch": 58.7,
	"grad_norm": 1.5719467401504517,
	"learning_rate": 0.0013766666666666667,
	"loss": 1.7996,
	"step": 5870
	},
	{
	"epoch": 58.8,
	"grad_norm": 2.2166717052459717,
	"learning_rate": 0.0013733333333333334,
	"loss": 2.0769,
	"step": 5880
	},
	{
	"epoch": 58.9,
	"grad_norm": 4.164362907409668,
	"learning_rate": 0.0013700000000000001,
	"loss": 1.8052,
	"step": 5890
	},
	{
	"epoch": 59.0,
	"grad_norm": 2.1572577953338623,
	"learning_rate": 0.0013666666666666666,
	"loss": 1.6786,
	"step": 5900
	},
	{
	"epoch": 59.0,
	"eval_accuracy": 0.07,
	"eval_loss": 7.159940719604492,
	"eval_runtime": 1.1908,
	"eval_samples_per_second": 83.98,
	"eval_steps_per_second": 83.98,
	"step": 5900
	},
	{
	"epoch": 59.1,
	"grad_norm": 1.205863356590271,
	"learning_rate": 0.0013633333333333334,
	"loss": 1.7847,
	"step": 5910
	},
	{
	"epoch": 59.2,
	"grad_norm": 6.159766674041748,
	"learning_rate": 0.0013599999999999999,
	"loss": 1.816,
	"step": 5920
	},
	{
	"epoch": 59.3,
	"grad_norm": 2.290241003036499,
	"learning_rate": 0.0013566666666666668,
	"loss": 1.8227,
	"step": 5930
	},
	{
	"epoch": 59.4,
	"grad_norm": 5.219218730926514,
	"learning_rate": 0.0013533333333333333,
	"loss": 1.6421,
	"step": 5940
	},
	{
	"epoch": 59.5,
	"grad_norm": 8.509394645690918,
	"learning_rate": 0.00135,
	"loss": 1.7888,
	"step": 5950
	},
	{
	"epoch": 59.6,
	"grad_norm": 3.8931479454040527,
	"learning_rate": 0.0013466666666666668,
	"loss": 1.7724,
	"step": 5960
	},
	{
	"epoch": 59.7,
	"grad_norm": 2.035557270050049,
	"learning_rate": 0.0013433333333333333,
	"loss": 1.8974,
	"step": 5970
	},
	{
	"epoch": 59.8,
	"grad_norm": 1.344543695449829,
	"learning_rate": 0.00134,
	"loss": 1.7593,
	"step": 5980
	},
	{
	"epoch": 59.9,
	"grad_norm": 5.597288131713867,
	"learning_rate": 0.0013366666666666666,
	"loss": 1.7556,
	"step": 5990
	},
	{
	"epoch": 60.0,
	"grad_norm": 5.034604072570801,
	"learning_rate": 0.0013333333333333333,
	"loss": 1.5969,
	"step": 6000
	},
	{
	"epoch": 60.0,
	"eval_accuracy": 0.08,
	"eval_loss": 6.086874485015869,
	"eval_runtime": 1.0697,
	"eval_samples_per_second": 93.482,
	"eval_steps_per_second": 93.482,
	"step": 6000
	},
	{
	"epoch": 60.1,
	"grad_norm": 2.9675891399383545,
	"learning_rate": 0.00133,
	"loss": 1.8271,
	"step": 6010
	},
	{
	"epoch": 60.2,
	"grad_norm": 1.6982274055480957,
	"learning_rate": 0.0013266666666666667,
	"loss": 1.9085,
	"step": 6020
	},
	{
	"epoch": 60.3,
	"grad_norm": 4.639615058898926,
	"learning_rate": 0.0013233333333333335,
	"loss": 1.9669,
	"step": 6030
	},
	{
	"epoch": 60.4,
	"grad_norm": 2.2657480239868164,
	"learning_rate": 0.00132,
	"loss": 1.7925,
	"step": 6040
	},
	{
	"epoch": 60.5,
	"grad_norm": 3.4637887477874756,
	"learning_rate": 0.0013166666666666667,
	"loss": 1.7884,
	"step": 6050
	},
	{
	"epoch": 60.6,
	"grad_norm": 3.210871458053589,
	"learning_rate": 0.0013133333333333332,
	"loss": 1.6961,
	"step": 6060
	},
	{
	"epoch": 60.7,
	"grad_norm": 2.510930299758911,
	"learning_rate": 0.00131,
	"loss": 1.6188,
	"step": 6070
	},
	{
	"epoch": 60.8,
	"grad_norm": 2.0399868488311768,
	"learning_rate": 0.0013066666666666667,
	"loss": 1.8597,
	"step": 6080
	},
	{
	"epoch": 60.9,
	"grad_norm": 1.6324414014816284,
	"learning_rate": 0.0013033333333333334,
	"loss": 1.6643,
	"step": 6090
	},
	{
	"epoch": 61.0,
	"grad_norm": 2.4083755016326904,
	"learning_rate": 0.0013000000000000002,
	"loss": 1.8203,
	"step": 6100
	},
	{
	"epoch": 61.0,
	"eval_accuracy": 0.14,
	"eval_loss": 8.8250093460083,
	"eval_runtime": 1.051,
	"eval_samples_per_second": 95.147,
	"eval_steps_per_second": 95.147,
	"step": 6100
	},
	{
	"epoch": 61.1,
	"grad_norm": 1.6598178148269653,
	"learning_rate": 0.0012966666666666667,
	"loss": 1.5858,
	"step": 6110
	},
	{
	"epoch": 61.2,
	"grad_norm": 4.348021507263184,
	"learning_rate": 0.0012933333333333334,
	"loss": 1.7923,
	"step": 6120
	},
	{
	"epoch": 61.3,
	"grad_norm": 6.4413065910339355,
	"learning_rate": 0.00129,
	"loss": 1.825,
	"step": 6130
	},
	{
	"epoch": 61.4,
	"grad_norm": 4.386123180389404,
	"learning_rate": 0.0012866666666666666,
	"loss": 1.6292,
	"step": 6140
	},
	{
	"epoch": 61.5,
	"grad_norm": 3.1433169841766357,
	"learning_rate": 0.0012833333333333334,
	"loss": 1.8375,
	"step": 6150
	},
	{
	"epoch": 61.6,
	"grad_norm": 2.4346671104431152,
	"learning_rate": 0.00128,
	"loss": 1.5983,
	"step": 6160
	},
	{
	"epoch": 61.7,
	"grad_norm": 3.656344175338745,
	"learning_rate": 0.0012766666666666668,
	"loss": 1.8365,
	"step": 6170
	},
	{
	"epoch": 61.8,
	"grad_norm": 2.8191497325897217,
	"learning_rate": 0.0012733333333333333,
	"loss": 2.0172,
	"step": 6180
	},
	{
	"epoch": 61.9,
	"grad_norm": 2.2086052894592285,
	"learning_rate": 0.00127,
	"loss": 1.7998,
	"step": 6190
	},
	{
	"epoch": 62.0,
	"grad_norm": 4.561169624328613,
	"learning_rate": 0.0012666666666666666,
	"loss": 1.7148,
	"step": 6200
	},
	{
	"epoch": 62.0,
	"eval_accuracy": 0.11,
	"eval_loss": 19.09418296813965,
	"eval_runtime": 1.0612,
	"eval_samples_per_second": 94.23,
	"eval_steps_per_second": 94.23,
	"step": 6200
	},
	{
	"epoch": 62.1,
	"grad_norm": 4.611867427825928,
	"learning_rate": 0.0012633333333333333,
	"loss": 1.6205,
	"step": 6210
	},
	{
	"epoch": 62.2,
	"grad_norm": 3.4768471717834473,
	"learning_rate": 0.00126,
	"loss": 1.6133,
	"step": 6220
	},
	{
	"epoch": 62.3,
	"grad_norm": 2.2685697078704834,
	"learning_rate": 0.0012566666666666666,
	"loss": 1.7809,
	"step": 6230
	},
	{
	"epoch": 62.4,
	"grad_norm": 3.6047987937927246,
	"learning_rate": 0.0012533333333333335,
	"loss": 1.9889,
	"step": 6240
	},
	{
	"epoch": 62.5,
	"grad_norm": 2.9026410579681396,
	"learning_rate": 0.00125,
	"loss": 1.614,
	"step": 6250
	},
	{
	"epoch": 62.6,
	"grad_norm": 3.42441463470459,
	"learning_rate": 0.0012466666666666668,
	"loss": 1.9557,
	"step": 6260
	},
	{
	"epoch": 62.7,
	"grad_norm": 3.3376829624176025,
	"learning_rate": 0.0012433333333333333,
	"loss": 1.8862,
	"step": 6270
	},
	{
	"epoch": 62.8,
	"grad_norm": 2.4634463787078857,
	"learning_rate": 0.00124,
	"loss": 1.9031,
	"step": 6280
	},
	{
	"epoch": 62.9,
	"grad_norm": 9.028009414672852,
	"learning_rate": 0.0012366666666666667,
	"loss": 1.9382,
	"step": 6290
	},
	{
	"epoch": 63.0,
	"grad_norm": 2.2906558513641357,
	"learning_rate": 0.0012333333333333332,
	"loss": 1.6627,
	"step": 6300
	},
	{
	"epoch": 63.0,
	"eval_accuracy": 0.16,
	"eval_loss": 12.432879447937012,
	"eval_runtime": 1.0588,
	"eval_samples_per_second": 94.443,
	"eval_steps_per_second": 94.443,
	"step": 6300
	},
	{
	"epoch": 63.1,
	"grad_norm": 4.561711311340332,
	"learning_rate": 0.00123,
	"loss": 1.9666,
	"step": 6310
	},
	{
	"epoch": 63.2,
	"grad_norm": 2.848632574081421,
	"learning_rate": 0.0012266666666666667,
	"loss": 1.6077,
	"step": 6320
	},
	{
	"epoch": 63.3,
	"grad_norm": 2.1941840648651123,
	"learning_rate": 0.0012233333333333334,
	"loss": 1.7677,
	"step": 6330
	},
	{
	"epoch": 63.4,
	"grad_norm": 2.9569039344787598,
	"learning_rate": 0.00122,
	"loss": 1.6422,
	"step": 6340
	},
	{
	"epoch": 63.5,
	"grad_norm": 3.4558959007263184,
	"learning_rate": 0.0012166666666666667,
	"loss": 1.6658,
	"step": 6350
	},
	{
	"epoch": 63.6,
	"grad_norm": 5.855868339538574,
	"learning_rate": 0.0012133333333333334,
	"loss": 1.6206,
	"step": 6360
	},
	{
	"epoch": 63.7,
	"grad_norm": 4.387974739074707,
	"learning_rate": 0.00121,
	"loss": 1.7873,
	"step": 6370
	},
	{
	"epoch": 63.8,
	"grad_norm": 2.80942440032959,
	"learning_rate": 0.0012066666666666667,
	"loss": 1.5393,
	"step": 6380
	},
	{
	"epoch": 63.9,
	"grad_norm": 10.336448669433594,
	"learning_rate": 0.0012033333333333334,
	"loss": 1.7802,
	"step": 6390
	},
	{
	"epoch": 64.0,
	"grad_norm": 21.694013595581055,
	"learning_rate": 0.0012000000000000001,
	"loss": 1.7134,
	"step": 6400
	},
	{
	"epoch": 64.0,
	"eval_accuracy": 0.11,
	"eval_loss": 5.5367112159729,
	"eval_runtime": 1.0569,
	"eval_samples_per_second": 94.621,
	"eval_steps_per_second": 94.621,
	"step": 6400
	},
	{
	"epoch": 64.1,
	"grad_norm": 7.776865482330322,
	"learning_rate": 0.0011966666666666668,
	"loss": 1.8706,
	"step": 6410
	},
	{
	"epoch": 64.2,
	"grad_norm": 14.169696807861328,
	"learning_rate": 0.0011933333333333334,
	"loss": 1.7689,
	"step": 6420
	},
	{
	"epoch": 64.3,
	"grad_norm": 3.2558820247650146,
	"learning_rate": 0.00119,
	"loss": 1.6053,
	"step": 6430
	},
	{
	"epoch": 64.4,
	"grad_norm": 4.6091227531433105,
	"learning_rate": 0.0011866666666666666,
	"loss": 1.791,
	"step": 6440
	},
	{
	"epoch": 64.5,
	"grad_norm": 6.979178428649902,
	"learning_rate": 0.0011833333333333333,
	"loss": 1.9051,
	"step": 6450
	},
	{
	"epoch": 64.6,
	"grad_norm": 1.6859291791915894,
	"learning_rate": 0.00118,
	"loss": 1.8669,
	"step": 6460
	},
	{
	"epoch": 64.7,
	"grad_norm": 4.330698013305664,
	"learning_rate": 0.0011766666666666668,
	"loss": 1.9325,
	"step": 6470
	},
	{
	"epoch": 64.8,
	"grad_norm": 4.015768051147461,
	"learning_rate": 0.0011733333333333335,
	"loss": 1.7841,
	"step": 6480
	},
	{
	"epoch": 64.9,
	"grad_norm": 3.9391236305236816,
	"learning_rate": 0.00117,
	"loss": 1.7528,
	"step": 6490
	},
	{
	"epoch": 65.0,
	"grad_norm": 3.1160061359405518,
	"learning_rate": 0.0011666666666666668,
	"loss": 1.8841,
	"step": 6500
	},
	{
	"epoch": 65.0,
	"eval_accuracy": 0.11,
	"eval_loss": 9.123879432678223,
	"eval_runtime": 1.0581,
	"eval_samples_per_second": 94.508,
	"eval_steps_per_second": 94.508,
	"step": 6500
	},
	{
	"epoch": 65.1,
	"grad_norm": 3.9809041023254395,
	"learning_rate": 0.0011633333333333333,
	"loss": 1.764,
	"step": 6510
	},
	{
	"epoch": 65.2,
	"grad_norm": 11.246681213378906,
	"learning_rate": 0.00116,
	"loss": 1.6808,
	"step": 6520
	},
	{
	"epoch": 65.3,
	"grad_norm": 5.164696216583252,
	"learning_rate": 0.0011566666666666667,
	"loss": 1.6472,
	"step": 6530
	},
	{
	"epoch": 65.4,
	"grad_norm": 2.7872653007507324,
	"learning_rate": 0.0011533333333333333,
	"loss": 2.0198,
	"step": 6540
	},
	{
	"epoch": 65.5,
	"grad_norm": 7.56327486038208,
	"learning_rate": 0.0011500000000000002,
	"loss": 1.929,
	"step": 6550
	},
	{
	"epoch": 65.6,
	"grad_norm": 4.878328323364258,
	"learning_rate": 0.0011466666666666667,
	"loss": 1.6768,
	"step": 6560
	},
	{
	"epoch": 65.7,
	"grad_norm": 3.8029422760009766,
	"learning_rate": 0.0011433333333333334,
	"loss": 1.8311,
	"step": 6570
	},
	{
	"epoch": 65.8,
	"grad_norm": 7.969758987426758,
	"learning_rate": 0.00114,
	"loss": 1.6823,
	"step": 6580
	},
	{
	"epoch": 65.9,
	"grad_norm": 5.031340599060059,
	"learning_rate": 0.0011366666666666667,
	"loss": 1.6746,
	"step": 6590
	},
	{
	"epoch": 66.0,
	"grad_norm": 2.8956708908081055,
	"learning_rate": 0.0011333333333333334,
	"loss": 1.6822,
	"step": 6600
	},
	{
	"epoch": 66.0,
	"eval_accuracy": 0.11,
	"eval_loss": 9.47188663482666,
	"eval_runtime": 1.0551,
	"eval_samples_per_second": 94.777,
	"eval_steps_per_second": 94.777,
	"step": 6600
	},
	{
	"epoch": 66.1,
	"grad_norm": 4.6317219734191895,
	"learning_rate": 0.00113,
	"loss": 1.7943,
	"step": 6610
	},
	{
	"epoch": 66.2,
	"grad_norm": 3.1285109519958496,
	"learning_rate": 0.0011266666666666667,
	"loss": 1.8415,
	"step": 6620
	},
	{
	"epoch": 66.3,
	"grad_norm": 6.469768524169922,
	"learning_rate": 0.0011233333333333334,
	"loss": 1.6691,
	"step": 6630
	},
	{
	"epoch": 66.4,
	"grad_norm": 5.166152477264404,
	"learning_rate": 0.0011200000000000001,
	"loss": 1.92,
	"step": 6640
	},
	{
	"epoch": 66.5,
	"grad_norm": 6.086921691894531,
	"learning_rate": 0.0011166666666666666,
	"loss": 1.9099,
	"step": 6650
	},
	{
	"epoch": 66.6,
	"grad_norm": 3.934988021850586,
	"learning_rate": 0.0011133333333333334,
	"loss": 1.6313,
	"step": 6660
	},
	{
	"epoch": 66.7,
	"grad_norm": 6.046359539031982,
	"learning_rate": 0.00111,
	"loss": 1.9824,
	"step": 6670
	},
	{
	"epoch": 66.8,
	"grad_norm": 5.090197563171387,
	"learning_rate": 0.0011066666666666666,
	"loss": 1.9741,
	"step": 6680
	},
	{
	"epoch": 66.9,
	"grad_norm": 9.034990310668945,
	"learning_rate": 0.0011033333333333333,
	"loss": 1.933,
	"step": 6690
	},
	{
	"epoch": 67.0,
	"grad_norm": 7.297842979431152,
	"learning_rate": 0.0010999999999999998,
	"loss": 1.8892,
	"step": 6700
	},
	{
	"epoch": 67.0,
	"eval_accuracy": 0.09,
	"eval_loss": 5.6084208488464355,
	"eval_runtime": 1.1978,
	"eval_samples_per_second": 83.488,
	"eval_steps_per_second": 83.488,
	"step": 6700
	},
	{
	"epoch": 67.1,
	"grad_norm": 3.469296932220459,
	"learning_rate": 0.0010966666666666668,
	"loss": 1.7137,
	"step": 6710
	},
	{
	"epoch": 67.2,
	"grad_norm": 2.396622657775879,
	"learning_rate": 0.0010933333333333333,
	"loss": 1.8015,
	"step": 6720
	},
	{
	"epoch": 67.3,
	"grad_norm": 2.852924108505249,
	"learning_rate": 0.00109,
	"loss": 1.8604,
	"step": 6730
	},
	{
	"epoch": 67.4,
	"grad_norm": 5.766210079193115,
	"learning_rate": 0.0010866666666666668,
	"loss": 1.5306,
	"step": 6740
	},
	{
	"epoch": 67.5,
	"grad_norm": 3.4486300945281982,
	"learning_rate": 0.0010833333333333333,
	"loss": 1.797,
	"step": 6750
	},
	{
	"epoch": 67.6,
	"grad_norm": 5.261917591094971,
	"learning_rate": 0.00108,
	"loss": 1.9502,
	"step": 6760
	},
	{
	"epoch": 67.7,
	"grad_norm": 4.059861660003662,
	"learning_rate": 0.0010766666666666665,
	"loss": 1.6326,
	"step": 6770
	},
	{
	"epoch": 67.8,
	"grad_norm": 10.135790824890137,
	"learning_rate": 0.0010733333333333333,
	"loss": 1.7233,
	"step": 6780
	},
	{
	"epoch": 67.9,
	"grad_norm": 2.4787628650665283,
	"learning_rate": 0.00107,
	"loss": 1.8985,
	"step": 6790
	},
	{
	"epoch": 68.0,
	"grad_norm": 2.303790807723999,
	"learning_rate": 0.0010666666666666667,
	"loss": 1.72,
	"step": 6800
	},
	{
	"epoch": 68.0,
	"eval_accuracy": 0.12,
	"eval_loss": 8.785449028015137,
	"eval_runtime": 1.0541,
	"eval_samples_per_second": 94.863,
	"eval_steps_per_second": 94.863,
	"step": 6800
	},
	{
	"epoch": 68.1,
	"grad_norm": 3.1279687881469727,
	"learning_rate": 0.0010633333333333334,
	"loss": 1.8552,
	"step": 6810
	},
	{
	"epoch": 68.2,
	"grad_norm": 4.668986797332764,
	"learning_rate": 0.00106,
	"loss": 1.9791,
	"step": 6820
	},
	{
	"epoch": 68.3,
	"grad_norm": 7.474461555480957,
	"learning_rate": 0.0010566666666666667,
	"loss": 1.7152,
	"step": 6830
	},
	{
	"epoch": 68.4,
	"grad_norm": 10.475133895874023,
	"learning_rate": 0.0010533333333333332,
	"loss": 1.6101,
	"step": 6840
	},
	{
	"epoch": 68.5,
	"grad_norm": 4.837385177612305,
	"learning_rate": 0.00105,
	"loss": 1.6287,
	"step": 6850
	},
	{
	"epoch": 68.6,
	"grad_norm": 4.027728080749512,
	"learning_rate": 0.0010466666666666667,
	"loss": 1.5433,
	"step": 6860
	},
	{
	"epoch": 68.7,
	"grad_norm": 2.9774222373962402,
	"learning_rate": 0.0010433333333333334,
	"loss": 1.7617,
	"step": 6870
	},
	{
	"epoch": 68.8,
	"grad_norm": 2.145850896835327,
	"learning_rate": 0.0010400000000000001,
	"loss": 1.7691,
	"step": 6880
	},
	{
	"epoch": 68.9,
	"grad_norm": 2.6644954681396484,
	"learning_rate": 0.0010366666666666666,
	"loss": 1.5255,
	"step": 6890
	},
	{
	"epoch": 69.0,
	"grad_norm": 5.641127109527588,
	"learning_rate": 0.0010333333333333334,
	"loss": 1.8751,
	"step": 6900
	},
	{
	"epoch": 69.0,
	"eval_accuracy": 0.11,
	"eval_loss": 7.557100296020508,
	"eval_runtime": 1.0515,
	"eval_samples_per_second": 95.106,
	"eval_steps_per_second": 95.106,
	"step": 6900
	},
	{
	"epoch": 69.1,
	"grad_norm": 2.8334310054779053,
	"learning_rate": 0.00103,
	"loss": 1.7977,
	"step": 6910
	},
	{
	"epoch": 69.2,
	"grad_norm": 12.787999153137207,
	"learning_rate": 0.0010266666666666666,
	"loss": 1.8188,
	"step": 6920
	},
	{
	"epoch": 69.3,
	"grad_norm": 2.3438947200775146,
	"learning_rate": 0.0010233333333333333,
	"loss": 2.0413,
	"step": 6930
	},
	{
	"epoch": 69.4,
	"grad_norm": 5.885900497436523,
	"learning_rate": 0.00102,
	"loss": 1.6987,
	"step": 6940
	},
	{
	"epoch": 69.5,
	"grad_norm": 2.3748180866241455,
	"learning_rate": 0.0010166666666666668,
	"loss": 1.8382,
	"step": 6950
	},
	{
	"epoch": 69.6,
	"grad_norm": 7.499560832977295,
	"learning_rate": 0.0010133333333333333,
	"loss": 1.7506,
	"step": 6960
	},
	{
	"epoch": 69.7,
	"grad_norm": 4.706414699554443,
	"learning_rate": 0.00101,
	"loss": 1.8361,
	"step": 6970
	},
	{
	"epoch": 69.8,
	"grad_norm": 2.492842435836792,
	"learning_rate": 0.0010066666666666668,
	"loss": 1.5254,
	"step": 6980
	},
	{
	"epoch": 69.9,
	"grad_norm": 4.535306453704834,
	"learning_rate": 0.0010033333333333333,
	"loss": 1.7066,
	"step": 6990
	},
	{
	"epoch": 70.0,
	"grad_norm": 2.8552052974700928,
	"learning_rate": 0.001,
	"loss": 1.3783,
	"step": 7000
	},
	{
	"epoch": 70.0,
	"eval_accuracy": 0.12,
	"eval_loss": 11.632137298583984,
	"eval_runtime": 1.069,
	"eval_samples_per_second": 93.543,
	"eval_steps_per_second": 93.543,
	"step": 7000
	},
	{
	"epoch": 70.1,
	"grad_norm": 6.145552635192871,
	"learning_rate": 0.0009966666666666665,
	"loss": 1.6017,
	"step": 7010
	},
	{
	"epoch": 70.2,
	"grad_norm": 7.590050220489502,
	"learning_rate": 0.0009933333333333335,
	"loss": 1.8784,
	"step": 7020
	},
	{
	"epoch": 70.3,
	"grad_norm": 3.6232712268829346,
	"learning_rate": 0.00099,
	"loss": 1.8348,
	"step": 7030
	},
	{
	"epoch": 70.4,
	"grad_norm": 2.6301445960998535,
	"learning_rate": 0.0009866666666666667,
	"loss": 1.7113,
	"step": 7040
	},
	{
	"epoch": 70.5,
	"grad_norm": 3.045260190963745,
	"learning_rate": 0.0009833333333333335,
	"loss": 1.6724,
	"step": 7050
	},
	{
	"epoch": 70.6,
	"grad_norm": 5.87871789932251,
	"learning_rate": 0.00098,
	"loss": 1.8135,
	"step": 7060
	},
	{
	"epoch": 70.7,
	"grad_norm": 4.545201301574707,
	"learning_rate": 0.0009766666666666667,
	"loss": 1.8561,
	"step": 7070
	},
	{
	"epoch": 70.8,
	"grad_norm": 3.054288387298584,
	"learning_rate": 0.0009733333333333333,
	"loss": 1.6729,
	"step": 7080
	},
	{
	"epoch": 70.9,
	"grad_norm": 12.367476463317871,
	"learning_rate": 0.0009699999999999999,
	"loss": 1.6861,
	"step": 7090
	},
	{
	"epoch": 71.0,
	"grad_norm": 3.18570876121521,
	"learning_rate": 0.0009666666666666668,
	"loss": 1.6403,
	"step": 7100
	},
	{
	"epoch": 71.0,
	"eval_accuracy": 0.15,
	"eval_loss": 7.535396099090576,
	"eval_runtime": 1.0543,
	"eval_samples_per_second": 94.854,
	"eval_steps_per_second": 94.854,
	"step": 7100
	},
	{
	"epoch": 71.1,
	"grad_norm": 2.6936404705047607,
	"learning_rate": 0.0009633333333333334,
	"loss": 1.3978,
	"step": 7110
	},
	{
	"epoch": 71.2,
	"grad_norm": 3.251457691192627,
	"learning_rate": 0.00096,
	"loss": 1.8723,
	"step": 7120
	},
	{
	"epoch": 71.3,
	"grad_norm": 2.816524028778076,
	"learning_rate": 0.0009566666666666666,
	"loss": 1.7214,
	"step": 7130
	},
	{
	"epoch": 71.4,
	"grad_norm": 2.786759376525879,
	"learning_rate": 0.0009533333333333334,
	"loss": 1.767,
	"step": 7140
	},
	{
	"epoch": 71.5,
	"grad_norm": 6.929011344909668,
	"learning_rate": 0.00095,
	"loss": 1.7563,
	"step": 7150
	},
	{
	"epoch": 71.6,
	"grad_norm": 2.660970687866211,
	"learning_rate": 0.0009466666666666666,
	"loss": 1.6773,
	"step": 7160
	},
	{
	"epoch": 71.7,
	"grad_norm": 1.6034671068191528,
	"learning_rate": 0.0009433333333333335,
	"loss": 1.6503,
	"step": 7170
	},
	{
	"epoch": 71.8,
	"grad_norm": 4.475321292877197,
	"learning_rate": 0.0009400000000000001,
	"loss": 1.7623,
	"step": 7180
	},
	{
	"epoch": 71.9,
	"grad_norm": 9.990358352661133,
	"learning_rate": 0.0009366666666666667,
	"loss": 1.8783,
	"step": 7190
	},
	{
	"epoch": 72.0,
	"grad_norm": 2.7688100337982178,
	"learning_rate": 0.0009333333333333333,
	"loss": 2.087,
	"step": 7200
	},
	{
	"epoch": 72.0,
	"eval_accuracy": 0.11,
	"eval_loss": 13.724778175354004,
	"eval_runtime": 1.1925,
	"eval_samples_per_second": 83.856,
	"eval_steps_per_second": 83.856,
	"step": 7200
	},
	{
	"epoch": 72.1,
	"grad_norm": 6.561435222625732,
	"learning_rate": 0.00093,
	"loss": 1.7217,
	"step": 7210
	},
	{
	"epoch": 72.2,
	"grad_norm": 8.489799499511719,
	"learning_rate": 0.0009266666666666667,
	"loss": 1.7632,
	"step": 7220
	},
	{
	"epoch": 72.3,
	"grad_norm": 3.9238219261169434,
	"learning_rate": 0.0009233333333333333,
	"loss": 1.5581,
	"step": 7230
	},
	{
	"epoch": 72.4,
	"grad_norm": 9.072147369384766,
	"learning_rate": 0.0009199999999999999,
	"loss": 1.7184,
	"step": 7240
	},
	{
	"epoch": 72.5,
	"grad_norm": 2.1611063480377197,
	"learning_rate": 0.0009166666666666668,
	"loss": 1.6369,
	"step": 7250
	},
	{
	"epoch": 72.6,
	"grad_norm": 3.966249465942383,
	"learning_rate": 0.0009133333333333334,
	"loss": 1.6756,
	"step": 7260
	},
	{
	"epoch": 72.7,
	"grad_norm": 3.660193681716919,
	"learning_rate": 0.00091,
	"loss": 1.9866,
	"step": 7270
	},
	{
	"epoch": 72.8,
	"grad_norm": 4.286670207977295,
	"learning_rate": 0.0009066666666666667,
	"loss": 1.5526,
	"step": 7280
	},
	{
	"epoch": 72.9,
	"grad_norm": 1.2461152076721191,
	"learning_rate": 0.0009033333333333334,
	"loss": 1.7805,
	"step": 7290
	},
	{
	"epoch": 73.0,
	"grad_norm": 8.252983093261719,
	"learning_rate": 0.0009,
	"loss": 1.6402,
	"step": 7300
	},
	{
	"epoch": 73.0,
	"eval_accuracy": 0.12,
	"eval_loss": 5.488311290740967,
	"eval_runtime": 1.0685,
	"eval_samples_per_second": 93.589,
	"eval_steps_per_second": 93.589,
	"step": 7300
	},
	{
	"epoch": 73.1,
	"grad_norm": 3.1921186447143555,
	"learning_rate": 0.0008966666666666666,
	"loss": 1.9004,
	"step": 7310
	},
	{
	"epoch": 73.2,
	"grad_norm": 2.0873894691467285,
	"learning_rate": 0.0008933333333333333,
	"loss": 1.6618,
	"step": 7320
	},
	{
	"epoch": 73.3,
	"grad_norm": 6.314571857452393,
	"learning_rate": 0.0008900000000000001,
	"loss": 1.5235,
	"step": 7330
	},
	{
	"epoch": 73.4,
	"grad_norm": 1.6767210960388184,
	"learning_rate": 0.0008866666666666667,
	"loss": 1.598,
	"step": 7340
	},
	{
	"epoch": 73.5,
	"grad_norm": 4.818593978881836,
	"learning_rate": 0.0008833333333333334,
	"loss": 1.9167,
	"step": 7350
	},
	{
	"epoch": 73.6,
	"grad_norm": 8.4752197265625,
	"learning_rate": 0.00088,
	"loss": 1.9592,
	"step": 7360
	},
	{
	"epoch": 73.7,
	"grad_norm": 3.359546422958374,
	"learning_rate": 0.0008766666666666667,
	"loss": 1.8852,
	"step": 7370
	},
	{
	"epoch": 73.8,
	"grad_norm": 4.165343284606934,
	"learning_rate": 0.0008733333333333333,
	"loss": 1.6093,
	"step": 7380
	},
	{
	"epoch": 73.9,
	"grad_norm": 3.540891647338867,
	"learning_rate": 0.00087,
	"loss": 1.6096,
	"step": 7390
	},
	{
	"epoch": 74.0,
	"grad_norm": 6.227334976196289,
	"learning_rate": 0.0008666666666666666,
	"loss": 1.8016,
	"step": 7400
	},
	{
	"epoch": 74.0,
	"eval_accuracy": 0.13,
	"eval_loss": 7.835125923156738,
	"eval_runtime": 1.172,
	"eval_samples_per_second": 85.321,
	"eval_steps_per_second": 85.321,
	"step": 7400
	},
	{
	"epoch": 74.1,
	"grad_norm": 5.684929370880127,
	"learning_rate": 0.0008633333333333335,
	"loss": 1.6236,
	"step": 7410
	},
	{
	"epoch": 74.2,
	"grad_norm": 2.3352484703063965,
	"learning_rate": 0.0008600000000000001,
	"loss": 1.6767,
	"step": 7420
	},
	{
	"epoch": 74.3,
	"grad_norm": 17.188486099243164,
	"learning_rate": 0.0008566666666666667,
	"loss": 1.5898,
	"step": 7430
	},
	{
	"epoch": 74.4,
	"grad_norm": 8.325809478759766,
	"learning_rate": 0.0008533333333333333,
	"loss": 1.5762,
	"step": 7440
	},
	{
	"epoch": 74.5,
	"grad_norm": 3.8976364135742188,
	"learning_rate": 0.00085,
	"loss": 1.8546,
	"step": 7450
	},
	{
	"epoch": 74.6,
	"grad_norm": 4.122636795043945,
	"learning_rate": 0.0008466666666666667,
	"loss": 1.6826,
	"step": 7460
	},
	{
	"epoch": 74.7,
	"grad_norm": 3.0798962116241455,
	"learning_rate": 0.0008433333333333333,
	"loss": 1.8085,
	"step": 7470
	},
	{
	"epoch": 74.8,
	"grad_norm": 8.855138778686523,
	"learning_rate": 0.0008400000000000001,
	"loss": 1.8007,
	"step": 7480
	},
	{
	"epoch": 74.9,
	"grad_norm": 2.781036376953125,
	"learning_rate": 0.0008366666666666668,
	"loss": 1.6743,
	"step": 7490
	},
	{
	"epoch": 75.0,
	"grad_norm": 5.651669025421143,
	"learning_rate": 0.0008333333333333334,
	"loss": 1.4308,
	"step": 7500
	},
	{
	"epoch": 75.0,
	"eval_accuracy": 0.13,
	"eval_loss": 4.696621417999268,
	"eval_runtime": 1.1086,
	"eval_samples_per_second": 90.203,
	"eval_steps_per_second": 90.203,
	"step": 7500
	},
	{
	"epoch": 75.1,
	"grad_norm": 2.3721401691436768,
	"learning_rate": 0.00083,
	"loss": 1.6892,
	"step": 7510
	},
	{
	"epoch": 75.2,
	"grad_norm": 3.7006096839904785,
	"learning_rate": 0.0008266666666666666,
	"loss": 1.763,
	"step": 7520
	},
	{
	"epoch": 75.3,
	"grad_norm": 2.3603055477142334,
	"learning_rate": 0.0008233333333333334,
	"loss": 1.8769,
	"step": 7530
	},
	{
	"epoch": 75.4,
	"grad_norm": 1.8393298387527466,
	"learning_rate": 0.00082,
	"loss": 1.5171,
	"step": 7540
	},
	{
	"epoch": 75.5,
	"grad_norm": 5.134054660797119,
	"learning_rate": 0.0008166666666666666,
	"loss": 1.7904,
	"step": 7550
	},
	{
	"epoch": 75.6,
	"grad_norm": 3.733891725540161,
	"learning_rate": 0.0008133333333333334,
	"loss": 1.4944,
	"step": 7560
	},
	{
	"epoch": 75.7,
	"grad_norm": 3.304157257080078,
	"learning_rate": 0.0008100000000000001,
	"loss": 1.546,
	"step": 7570
	},
	{
	"epoch": 75.8,
	"grad_norm": 3.1113600730895996,
	"learning_rate": 0.0008066666666666667,
	"loss": 1.9507,
	"step": 7580
	},
	{
	"epoch": 75.9,
	"grad_norm": 4.361494064331055,
	"learning_rate": 0.0008033333333333333,
	"loss": 1.5302,
	"step": 7590
	},
	{
	"epoch": 76.0,
	"grad_norm": 8.0205717086792,
	"learning_rate": 0.0008,
	"loss": 1.6833,
	"step": 7600
	},
	{
	"epoch": 76.0,
	"eval_accuracy": 0.12,
	"eval_loss": 5.913761615753174,
	"eval_runtime": 1.1926,
	"eval_samples_per_second": 83.853,
	"eval_steps_per_second": 83.853,
	"step": 7600
	},
	{
	"epoch": 76.1,
	"grad_norm": 9.288579940795898,
	"learning_rate": 0.0007966666666666667,
	"loss": 1.6459,
	"step": 7610
	},
	{
	"epoch": 76.2,
	"grad_norm": 4.346872806549072,
	"learning_rate": 0.0007933333333333333,
	"loss": 1.7913,
	"step": 7620
	},
	{
	"epoch": 76.3,
	"grad_norm": 1.9732215404510498,
	"learning_rate": 0.0007899999999999999,
	"loss": 1.9217,
	"step": 7630
	},
	{
	"epoch": 76.4,
	"grad_norm": 2.936906337738037,
	"learning_rate": 0.0007866666666666667,
	"loss": 1.3812,
	"step": 7640
	},
	{
	"epoch": 76.5,
	"grad_norm": 1.9223854541778564,
	"learning_rate": 0.0007833333333333334,
	"loss": 1.7483,
	"step": 7650
	},
	{
	"epoch": 76.6,
	"grad_norm": 4.29766321182251,
	"learning_rate": 0.0007800000000000001,
	"loss": 1.5003,
	"step": 7660
	},
	{
	"epoch": 76.7,
	"grad_norm": 4.861231803894043,
	"learning_rate": 0.0007766666666666667,
	"loss": 1.824,
	"step": 7670
	},
	{
	"epoch": 76.8,
	"grad_norm": 6.965978145599365,
	"learning_rate": 0.0007733333333333333,
	"loss": 1.8528,
	"step": 7680
	},
	{
	"epoch": 76.9,
	"grad_norm": 6.294130802154541,
	"learning_rate": 0.00077,
	"loss": 1.7658,
	"step": 7690
	},
	{
	"epoch": 77.0,
	"grad_norm": 2.3056602478027344,
	"learning_rate": 0.0007666666666666666,
	"loss": 1.5684,
	"step": 7700
	},
	{
	"epoch": 77.0,
	"eval_accuracy": 0.15,
	"eval_loss": 11.986406326293945,
	"eval_runtime": 1.0745,
	"eval_samples_per_second": 93.062,
	"eval_steps_per_second": 93.062,
	"step": 7700
	},
	{
	"epoch": 77.1,
	"grad_norm": 3.318281888961792,
	"learning_rate": 0.0007633333333333333,
	"loss": 1.6998,
	"step": 7710
	},
	{
	"epoch": 77.2,
	"grad_norm": 6.8521647453308105,
	"learning_rate": 0.00076,
	"loss": 1.7175,
	"step": 7720
	},
	{
	"epoch": 77.3,
	"grad_norm": 2.6658935546875,
	"learning_rate": 0.0007566666666666668,
	"loss": 1.6277,
	"step": 7730
	},
	{
	"epoch": 77.4,
	"grad_norm": 1.4888370037078857,
	"learning_rate": 0.0007533333333333334,
	"loss": 1.6303,
	"step": 7740
	},
	{
	"epoch": 77.5,
	"grad_norm": 2.4818308353424072,
	"learning_rate": 0.00075,
	"loss": 1.619,
	"step": 7750
	},
	{
	"epoch": 77.6,
	"grad_norm": 4.3172712326049805,
	"learning_rate": 0.0007466666666666666,
	"loss": 1.8077,
	"step": 7760
	},
	{
	"epoch": 77.7,
	"grad_norm": 4.909962177276611,
	"learning_rate": 0.0007433333333333334,
	"loss": 1.531,
	"step": 7770
	},
	{
	"epoch": 77.8,
	"grad_norm": 3.2081310749053955,
	"learning_rate": 0.00074,
	"loss": 1.7721,
	"step": 7780
	},
	{
	"epoch": 77.9,
	"grad_norm": 10.378396987915039,
	"learning_rate": 0.0007366666666666667,
	"loss": 1.5235,
	"step": 7790
	},
	{
	"epoch": 78.0,
	"grad_norm": 14.657236099243164,
	"learning_rate": 0.0007333333333333333,
	"loss": 1.6765,
	"step": 7800
	},
	{
	"epoch": 78.0,
	"eval_accuracy": 0.1,
	"eval_loss": 12.214624404907227,
	"eval_runtime": 1.0561,
	"eval_samples_per_second": 94.692,
	"eval_steps_per_second": 94.692,
	"step": 7800
	},
	{
	"epoch": 78.1,
	"grad_norm": 6.5051069259643555,
	"learning_rate": 0.0007300000000000001,
	"loss": 1.9207,
	"step": 7810
	},
	{
	"epoch": 78.2,
	"grad_norm": 4.690114498138428,
	"learning_rate": 0.0007266666666666667,
	"loss": 1.6504,
	"step": 7820
	},
	{
	"epoch": 78.3,
	"grad_norm": 4.175870895385742,
	"learning_rate": 0.0007233333333333333,
	"loss": 1.745,
	"step": 7830
	},
	{
	"epoch": 78.4,
	"grad_norm": 2.697542190551758,
	"learning_rate": 0.0007199999999999999,
	"loss": 1.8095,
	"step": 7840
	},
	{
	"epoch": 78.5,
	"grad_norm": 11.4371337890625,
	"learning_rate": 0.0007166666666666667,
	"loss": 1.638,
	"step": 7850
	},
	{
	"epoch": 78.6,
	"grad_norm": 5.61688232421875,
	"learning_rate": 0.0007133333333333334,
	"loss": 1.7019,
	"step": 7860
	},
	{
	"epoch": 78.7,
	"grad_norm": 1.9839328527450562,
	"learning_rate": 0.00071,
	"loss": 1.3729,
	"step": 7870
	},
	{
	"epoch": 78.8,
	"grad_norm": 7.748627662658691,
	"learning_rate": 0.0007066666666666666,
	"loss": 1.6178,
	"step": 7880
	},
	{
	"epoch": 78.9,
	"grad_norm": 3.0208866596221924,
	"learning_rate": 0.0007033333333333334,
	"loss": 1.8001,
	"step": 7890
	},
	{
	"epoch": 79.0,
	"grad_norm": 6.324533462524414,
	"learning_rate": 0.0007,
	"loss": 1.7482,
	"step": 7900
	},
	{
	"epoch": 79.0,
	"eval_accuracy": 0.12,
	"eval_loss": 4.604106903076172,
	"eval_runtime": 1.0654,
	"eval_samples_per_second": 93.863,
	"eval_steps_per_second": 93.863,
	"step": 7900
	},
	{
	"epoch": 79.1,
	"grad_norm": 5.001572132110596,
	"learning_rate": 0.0006966666666666667,
	"loss": 1.811,
	"step": 7910
	},
	{
	"epoch": 79.2,
	"grad_norm": 5.4045586585998535,
	"learning_rate": 0.0006933333333333333,
	"loss": 1.6131,
	"step": 7920
	},
	{
	"epoch": 79.3,
	"grad_norm": 9.522829055786133,
	"learning_rate": 0.0006900000000000001,
	"loss": 1.5696,
	"step": 7930
	},
	{
	"epoch": 79.4,
	"grad_norm": 3.1126577854156494,
	"learning_rate": 0.0006866666666666667,
	"loss": 1.6667,
	"step": 7940
	},
	{
	"epoch": 79.5,
	"grad_norm": 9.194778442382812,
	"learning_rate": 0.0006833333333333333,
	"loss": 1.7464,
	"step": 7950
	},
	{
	"epoch": 79.6,
	"grad_norm": 6.9873528480529785,
	"learning_rate": 0.0006799999999999999,
	"loss": 1.6279,
	"step": 7960
	},
	{
	"epoch": 79.7,
	"grad_norm": 2.421323537826538,
	"learning_rate": 0.0006766666666666667,
	"loss": 1.6863,
	"step": 7970
	},
	{
	"epoch": 79.8,
	"grad_norm": 2.4559075832366943,
	"learning_rate": 0.0006733333333333334,
	"loss": 1.6846,
	"step": 7980
	},
	{
	"epoch": 79.9,
	"grad_norm": 5.497502326965332,
	"learning_rate": 0.00067,
	"loss": 1.6157,
	"step": 7990
	},
	{
	"epoch": 80.0,
	"grad_norm": 5.991186141967773,
	"learning_rate": 0.0006666666666666666,
	"loss": 1.7836,
	"step": 8000
	},
	{
	"epoch": 80.0,
	"eval_accuracy": 0.13,
	"eval_loss": 9.721675872802734,
	"eval_runtime": 1.1785,
	"eval_samples_per_second": 84.854,
	"eval_steps_per_second": 84.854,
	"step": 8000
	},
	{
	"epoch": 80.1,
	"grad_norm": 3.4409921169281006,
	"learning_rate": 0.0006633333333333334,
	"loss": 1.7159,
	"step": 8010
	},
	{
	"epoch": 80.2,
	"grad_norm": 2.0698366165161133,
	"learning_rate": 0.00066,
	"loss": 1.6031,
	"step": 8020
	},
	{
	"epoch": 80.3,
	"grad_norm": 3.158905029296875,
	"learning_rate": 0.0006566666666666666,
	"loss": 1.8234,
	"step": 8030
	},
	{
	"epoch": 80.4,
	"grad_norm": 7.036154747009277,
	"learning_rate": 0.0006533333333333333,
	"loss": 1.5912,
	"step": 8040
	},
	{
	"epoch": 80.5,
	"grad_norm": 2.4452085494995117,
	"learning_rate": 0.0006500000000000001,
	"loss": 1.6557,
	"step": 8050
	},
	{
	"epoch": 80.6,
	"grad_norm": 12.575709342956543,
	"learning_rate": 0.0006466666666666667,
	"loss": 1.7963,
	"step": 8060
	},
	{
	"epoch": 80.7,
	"grad_norm": 2.6192171573638916,
	"learning_rate": 0.0006433333333333333,
	"loss": 1.7268,
	"step": 8070
	},
	{
	"epoch": 80.8,
	"grad_norm": 3.45434308052063,
	"learning_rate": 0.00064,
	"loss": 1.4155,
	"step": 8080
	},
	{
	"epoch": 80.9,
	"grad_norm": 8.185892105102539,
	"learning_rate": 0.0006366666666666667,
	"loss": 1.7059,
	"step": 8090
	},
	{
	"epoch": 81.0,
	"grad_norm": 5.6343183517456055,
	"learning_rate": 0.0006333333333333333,
	"loss": 1.5195,
	"step": 8100
	},
	{
	"epoch": 81.0,
	"eval_accuracy": 0.12,
	"eval_loss": 7.513216972351074,
	"eval_runtime": 1.0678,
	"eval_samples_per_second": 93.647,
	"eval_steps_per_second": 93.647,
	"step": 8100
	},
	{
	"epoch": 81.1,
	"grad_norm": 2.8379461765289307,
	"learning_rate": 0.00063,
	"loss": 1.6882,
	"step": 8110
	},
	{
	"epoch": 81.2,
	"grad_norm": 7.534255027770996,
	"learning_rate": 0.0006266666666666668,
	"loss": 1.6796,
	"step": 8120
	},
	{
	"epoch": 81.3,
	"grad_norm": 1.6739089488983154,
	"learning_rate": 0.0006233333333333334,
	"loss": 1.5956,
	"step": 8130
	},
	{
	"epoch": 81.4,
	"grad_norm": 2.9751076698303223,
	"learning_rate": 0.00062,
	"loss": 1.6019,
	"step": 8140
	},
	{
	"epoch": 81.5,
	"grad_norm": 4.309534549713135,
	"learning_rate": 0.0006166666666666666,
	"loss": 1.7701,
	"step": 8150
	},
	{
	"epoch": 81.6,
	"grad_norm": 4.213230133056641,
	"learning_rate": 0.0006133333333333334,
	"loss": 1.7361,
	"step": 8160
	},
	{
	"epoch": 81.7,
	"grad_norm": 1.757969856262207,
	"learning_rate": 0.00061,
	"loss": 1.8667,
	"step": 8170
	},
	{
	"epoch": 81.8,
	"grad_norm": 4.254034996032715,
	"learning_rate": 0.0006066666666666667,
	"loss": 1.4598,
	"step": 8180
	},
	{
	"epoch": 81.9,
	"grad_norm": 2.253918170928955,
	"learning_rate": 0.0006033333333333333,
	"loss": 1.5002,
	"step": 8190
	},
	{
	"epoch": 82.0,
	"grad_norm": 3.143101453781128,
	"learning_rate": 0.0006000000000000001,
	"loss": 1.4384,
	"step": 8200
	},
	{
	"epoch": 82.0,
	"eval_accuracy": 0.13,
	"eval_loss": 6.6091179847717285,
	"eval_runtime": 1.0621,
	"eval_samples_per_second": 94.153,
	"eval_steps_per_second": 94.153,
	"step": 8200
	},
	{
	"epoch": 82.1,
	"grad_norm": 6.236468315124512,
	"learning_rate": 0.0005966666666666667,
	"loss": 1.701,
	"step": 8210
	},
	{
	"epoch": 82.2,
	"grad_norm": 2.7502994537353516,
	"learning_rate": 0.0005933333333333333,
	"loss": 1.6615,
	"step": 8220
	},
	{
	"epoch": 82.3,
	"grad_norm": 4.324734210968018,
	"learning_rate": 0.00059,
	"loss": 1.7192,
	"step": 8230
	},
	{
	"epoch": 82.4,
	"grad_norm": 5.0085320472717285,
	"learning_rate": 0.0005866666666666668,
	"loss": 1.8115,
	"step": 8240
	},
	{
	"epoch": 82.5,
	"grad_norm": 3.843885660171509,
	"learning_rate": 0.0005833333333333334,
	"loss": 1.777,
	"step": 8250
	},
	{
	"epoch": 82.6,
	"grad_norm": 11.834420204162598,
	"learning_rate": 0.00058,
	"loss": 1.6285,
	"step": 8260
	},
	{
	"epoch": 82.7,
	"grad_norm": 4.1545257568359375,
	"learning_rate": 0.0005766666666666666,
	"loss": 1.4498,
	"step": 8270
	},
	{
	"epoch": 82.8,
	"grad_norm": 2.874239683151245,
	"learning_rate": 0.0005733333333333334,
	"loss": 1.9519,
	"step": 8280
	},
	{
	"epoch": 82.9,
	"grad_norm": 2.4866464138031006,
	"learning_rate": 0.00057,
	"loss": 1.6679,
	"step": 8290
	},
	{
	"epoch": 83.0,
	"grad_norm": 11.783166885375977,
	"learning_rate": 0.0005666666666666667,
	"loss": 1.5538,
	"step": 8300
	},
	{
	"epoch": 83.0,
	"eval_accuracy": 0.13,
	"eval_loss": 7.0785722732543945,
	"eval_runtime": 1.0594,
	"eval_samples_per_second": 94.392,
	"eval_steps_per_second": 94.392,
	"step": 8300
	},
	{
	"epoch": 83.1,
	"grad_norm": 5.404430389404297,
	"learning_rate": 0.0005633333333333333,
	"loss": 1.5581,
	"step": 8310
	},
	{
	"epoch": 83.2,
	"grad_norm": 13.793869018554688,
	"learning_rate": 0.0005600000000000001,
	"loss": 1.7984,
	"step": 8320
	},
	{
	"epoch": 83.3,
	"grad_norm": 3.788058042526245,
	"learning_rate": 0.0005566666666666667,
	"loss": 1.7085,
	"step": 8330
	},
	{
	"epoch": 83.4,
	"grad_norm": 2.9603164196014404,
	"learning_rate": 0.0005533333333333333,
	"loss": 1.6841,
	"step": 8340
	},
	{
	"epoch": 83.5,
	"grad_norm": 3.9996180534362793,
	"learning_rate": 0.0005499999999999999,
	"loss": 1.6758,
	"step": 8350
	},
	{
	"epoch": 83.6,
	"grad_norm": 3.632449150085449,
	"learning_rate": 0.0005466666666666667,
	"loss": 1.5275,
	"step": 8360
	},
	{
	"epoch": 83.7,
	"grad_norm": 9.344165802001953,
	"learning_rate": 0.0005433333333333334,
	"loss": 1.848,
	"step": 8370
	},
	{
	"epoch": 83.8,
	"grad_norm": 6.6888933181762695,
	"learning_rate": 0.00054,
	"loss": 1.5813,
	"step": 8380
	},
	{
	"epoch": 83.9,
	"grad_norm": 4.866454124450684,
	"learning_rate": 0.0005366666666666666,
	"loss": 1.4282,
	"step": 8390
	},
	{
	"epoch": 84.0,
	"grad_norm": 5.3505659103393555,
	"learning_rate": 0.0005333333333333334,
	"loss": 1.5705,
	"step": 8400
	},
	{
	"epoch": 84.0,
	"eval_accuracy": 0.14,
	"eval_loss": 12.585135459899902,
	"eval_runtime": 1.0929,
	"eval_samples_per_second": 91.504,
	"eval_steps_per_second": 91.504,
	"step": 8400
	},
	{
	"epoch": 84.1,
	"grad_norm": 3.3361263275146484,
	"learning_rate": 0.00053,
	"loss": 1.6673,
	"step": 8410
	},
	{
	"epoch": 84.2,
	"grad_norm": 3.2002100944519043,
	"learning_rate": 0.0005266666666666666,
	"loss": 1.5196,
	"step": 8420
	},
	{
	"epoch": 84.3,
	"grad_norm": 4.537071228027344,
	"learning_rate": 0.0005233333333333333,
	"loss": 1.4038,
	"step": 8430
	},
	{
	"epoch": 84.4,
	"grad_norm": 4.313013076782227,
	"learning_rate": 0.0005200000000000001,
	"loss": 1.7172,
	"step": 8440
	},
	{
	"epoch": 84.5,
	"grad_norm": 16.408864974975586,
	"learning_rate": 0.0005166666666666667,
	"loss": 1.6465,
	"step": 8450
	},
	{
	"epoch": 84.6,
	"grad_norm": 3.185908317565918,
	"learning_rate": 0.0005133333333333333,
	"loss": 1.8762,
	"step": 8460
	},
	{
	"epoch": 84.7,
	"grad_norm": 12.016066551208496,
	"learning_rate": 0.00051,
	"loss": 1.547,
	"step": 8470
	},
	{
	"epoch": 84.8,
	"grad_norm": 3.833848237991333,
	"learning_rate": 0.0005066666666666667,
	"loss": 1.8839,
	"step": 8480
	},
	{
	"epoch": 84.9,
	"grad_norm": 6.557989597320557,
	"learning_rate": 0.0005033333333333334,
	"loss": 1.5552,
	"step": 8490
	},
	{
	"epoch": 85.0,
	"grad_norm": 9.092035293579102,
	"learning_rate": 0.0005,
	"loss": 1.7255,
	"step": 8500
	},
	{
	"epoch": 85.0,
	"eval_accuracy": 0.11,
	"eval_loss": 9.933082580566406,
	"eval_runtime": 1.0662,
	"eval_samples_per_second": 93.791,
	"eval_steps_per_second": 93.791,
	"step": 8500
	},
	{
	"epoch": 85.1,
	"grad_norm": 4.006185531616211,
	"learning_rate": 0.0004966666666666667,
	"loss": 1.5849,
	"step": 8510
	},
	{
	"epoch": 85.2,
	"grad_norm": 4.64818000793457,
	"learning_rate": 0.0004933333333333334,
	"loss": 1.5274,
	"step": 8520
	},
	{
	"epoch": 85.3,
	"grad_norm": 4.239321708679199,
	"learning_rate": 0.00049,
	"loss": 1.3585,
	"step": 8530
	},
	{
	"epoch": 85.4,
	"grad_norm": 3.4257285594940186,
	"learning_rate": 0.00048666666666666666,
	"loss": 1.6392,
	"step": 8540
	},
	{
	"epoch": 85.5,
	"grad_norm": 11.131654739379883,
	"learning_rate": 0.0004833333333333334,
	"loss": 2.0834,
	"step": 8550
	},
	{
	"epoch": 85.6,
	"grad_norm": 4.093764781951904,
	"learning_rate": 0.00048,
	"loss": 1.7804,
	"step": 8560
	},
	{
	"epoch": 85.7,
	"grad_norm": 7.1940765380859375,
	"learning_rate": 0.0004766666666666667,
	"loss": 1.8576,
	"step": 8570
	},
	{
	"epoch": 85.8,
	"grad_norm": 3.6592063903808594,
	"learning_rate": 0.0004733333333333333,
	"loss": 1.6122,
	"step": 8580
	},
	{
	"epoch": 85.9,
	"grad_norm": 8.182126998901367,
	"learning_rate": 0.00047000000000000004,
	"loss": 1.6283,
	"step": 8590
	},
	{
	"epoch": 86.0,
	"grad_norm": 4.966497898101807,
	"learning_rate": 0.00046666666666666666,
	"loss": 1.6063,
	"step": 8600
	},
	{
	"epoch": 86.0,
	"eval_accuracy": 0.14,
	"eval_loss": 11.363009452819824,
	"eval_runtime": 1.1002,
	"eval_samples_per_second": 90.889,
	"eval_steps_per_second": 90.889,
	"step": 8600
	},
	{
	"epoch": 86.1,
	"grad_norm": 2.8917222023010254,
	"learning_rate": 0.00046333333333333334,
	"loss": 1.5926,
	"step": 8610
	},
	{
	"epoch": 86.2,
	"grad_norm": 5.326013088226318,
	"learning_rate": 0.00045999999999999996,
	"loss": 1.7023,
	"step": 8620
	},
	{
	"epoch": 86.3,
	"grad_norm": 6.342537879943848,
	"learning_rate": 0.0004566666666666667,
	"loss": 1.7277,
	"step": 8630
	},
	{
	"epoch": 86.4,
	"grad_norm": 5.517503261566162,
	"learning_rate": 0.00045333333333333337,
	"loss": 1.5213,
	"step": 8640
	},
	{
	"epoch": 86.5,
	"grad_norm": 5.387936592102051,
	"learning_rate": 0.00045,
	"loss": 1.3763,
	"step": 8650
	},
	{
	"epoch": 86.6,
	"grad_norm": 6.751247406005859,
	"learning_rate": 0.00044666666666666666,
	"loss": 1.5613,
	"step": 8660
	},
	{
	"epoch": 86.7,
	"grad_norm": 3.263594627380371,
	"learning_rate": 0.00044333333333333334,
	"loss": 1.5917,
	"step": 8670
	},
	{
	"epoch": 86.8,
	"grad_norm": 4.501608371734619,
	"learning_rate": 0.00044,
	"loss": 1.7682,
	"step": 8680
	},
	{
	"epoch": 86.9,
	"grad_norm": 6.865741729736328,
	"learning_rate": 0.00043666666666666664,
	"loss": 1.6396,
	"step": 8690
	},
	{
	"epoch": 87.0,
	"grad_norm": 18.602689743041992,
	"learning_rate": 0.0004333333333333333,
	"loss": 1.5201,
	"step": 8700
	},
	{
	"epoch": 87.0,
	"eval_accuracy": 0.08,
	"eval_loss": 20.801061630249023,
	"eval_runtime": 1.0917,
	"eval_samples_per_second": 91.601,
	"eval_steps_per_second": 91.601,
	"step": 8700
	},
	{
	"epoch": 87.1,
	"grad_norm": 4.5361857414245605,
	"learning_rate": 0.00043000000000000004,
	"loss": 1.6544,
	"step": 8710
	},
	{
	"epoch": 87.2,
	"grad_norm": 9.736603736877441,
	"learning_rate": 0.00042666666666666667,
	"loss": 1.6858,
	"step": 8720
	},
	{
	"epoch": 87.3,
	"grad_norm": 4.952563762664795,
	"learning_rate": 0.00042333333333333334,
	"loss": 1.7577,
	"step": 8730
	},
	{
	"epoch": 87.4,
	"grad_norm": 4.5743608474731445,
	"learning_rate": 0.00042000000000000007,
	"loss": 1.5682,
	"step": 8740
	},
	{
	"epoch": 87.5,
	"grad_norm": 4.293666362762451,
	"learning_rate": 0.0004166666666666667,
	"loss": 1.5536,
	"step": 8750
	},
	{
	"epoch": 87.6,
	"grad_norm": 4.446376800537109,
	"learning_rate": 0.0004133333333333333,
	"loss": 1.5963,
	"step": 8760
	},
	{
	"epoch": 87.7,
	"grad_norm": 6.884150981903076,
	"learning_rate": 0.00041,
	"loss": 1.637,
	"step": 8770
	},
	{
	"epoch": 87.8,
	"grad_norm": 4.1387176513671875,
	"learning_rate": 0.0004066666666666667,
	"loss": 1.5257,
	"step": 8780
	},
	{
	"epoch": 87.9,
	"grad_norm": 4.752466678619385,
	"learning_rate": 0.00040333333333333334,
	"loss": 1.5627,
	"step": 8790
	},
	{
	"epoch": 88.0,
	"grad_norm": 4.676969051361084,
	"learning_rate": 0.0004,
	"loss": 1.3734,
	"step": 8800
	},
	{
	"epoch": 88.0,
	"eval_accuracy": 0.09,
	"eval_loss": 5.235384941101074,
	"eval_runtime": 1.0813,
	"eval_samples_per_second": 92.482,
	"eval_steps_per_second": 92.482,
	"step": 8800
	},
	{
	"epoch": 88.1,
	"grad_norm": 5.092541694641113,
	"learning_rate": 0.00039666666666666664,
	"loss": 1.8695,
	"step": 8810
	},
	{
	"epoch": 88.2,
	"grad_norm": 12.015568733215332,
	"learning_rate": 0.00039333333333333337,
	"loss": 1.8373,
	"step": 8820
	},
	{
	"epoch": 88.3,
	"grad_norm": 4.479465961456299,
	"learning_rate": 0.00039000000000000005,
	"loss": 1.6962,
	"step": 8830
	},
	{
	"epoch": 88.4,
	"grad_norm": 8.001754760742188,
	"learning_rate": 0.00038666666666666667,
	"loss": 1.6139,
	"step": 8840
	},
	{
	"epoch": 88.5,
	"grad_norm": 4.856076717376709,
	"learning_rate": 0.0003833333333333333,
	"loss": 1.3922,
	"step": 8850
	},
	{
	"epoch": 88.6,
	"grad_norm": 4.531224727630615,
	"learning_rate": 0.00038,
	"loss": 1.688,
	"step": 8860
	},
	{
	"epoch": 88.7,
	"grad_norm": 6.974000453948975,
	"learning_rate": 0.0003766666666666667,
	"loss": 1.8213,
	"step": 8870
	},
	{
	"epoch": 88.8,
	"grad_norm": 5.6940155029296875,
	"learning_rate": 0.0003733333333333333,
	"loss": 1.6231,
	"step": 8880
	},
	{
	"epoch": 88.9,
	"grad_norm": 6.221618175506592,
	"learning_rate": 0.00037,
	"loss": 1.4928,
	"step": 8890
	},
	{
	"epoch": 89.0,
	"grad_norm": 5.715379238128662,
	"learning_rate": 0.00036666666666666667,
	"loss": 1.5931,
	"step": 8900
	},
	{
	"epoch": 89.0,
	"eval_accuracy": 0.1,
	"eval_loss": 6.509023666381836,
	"eval_runtime": 1.1779,
	"eval_samples_per_second": 84.897,
	"eval_steps_per_second": 84.897,
	"step": 8900
	},
	{
	"epoch": 89.1,
	"grad_norm": 4.112030506134033,
	"learning_rate": 0.00036333333333333335,
	"loss": 1.4779,
	"step": 8910
	},
	{
	"epoch": 89.2,
	"grad_norm": 4.962814807891846,
	"learning_rate": 0.00035999999999999997,
	"loss": 1.4838,
	"step": 8920
	},
	{
	"epoch": 89.3,
	"grad_norm": 3.100139856338501,
	"learning_rate": 0.0003566666666666667,
	"loss": 1.4203,
	"step": 8930
	},
	{
	"epoch": 89.4,
	"grad_norm": 2.1554136276245117,
	"learning_rate": 0.0003533333333333333,
	"loss": 1.8653,
	"step": 8940
	},
	{
	"epoch": 89.5,
	"grad_norm": 4.6902360916137695,
	"learning_rate": 0.00035,
	"loss": 1.7854,
	"step": 8950
	},
	{
	"epoch": 89.6,
	"grad_norm": 7.109988689422607,
	"learning_rate": 0.00034666666666666667,
	"loss": 1.6059,
	"step": 8960
	},
	{
	"epoch": 89.7,
	"grad_norm": 5.055539608001709,
	"learning_rate": 0.00034333333333333335,
	"loss": 1.5368,
	"step": 8970
	},
	{
	"epoch": 89.8,
	"grad_norm": 3.6119301319122314,
	"learning_rate": 0.00033999999999999997,
	"loss": 1.6468,
	"step": 8980
	},
	{
	"epoch": 89.9,
	"grad_norm": 4.249040126800537,
	"learning_rate": 0.0003366666666666667,
	"loss": 1.6441,
	"step": 8990
	},
	{
	"epoch": 90.0,
	"grad_norm": 2.1352763175964355,
	"learning_rate": 0.0003333333333333333,
	"loss": 1.5562,
	"step": 9000
	},
	{
	"epoch": 90.0,
	"eval_accuracy": 0.1,
	"eval_loss": 11.834088325500488,
	"eval_runtime": 1.0907,
	"eval_samples_per_second": 91.685,
	"eval_steps_per_second": 91.685,
	"step": 9000
	},
	{
	"epoch": 90.1,
	"grad_norm": 6.328755855560303,
	"learning_rate": 0.00033,
	"loss": 1.3075,
	"step": 9010
	},
	{
	"epoch": 90.2,
	"grad_norm": 2.490816593170166,
	"learning_rate": 0.0003266666666666667,
	"loss": 1.5389,
	"step": 9020
	},
	{
	"epoch": 90.3,
	"grad_norm": 2.4213767051696777,
	"learning_rate": 0.00032333333333333335,
	"loss": 1.5494,
	"step": 9030
	},
	{
	"epoch": 90.4,
	"grad_norm": 6.218684673309326,
	"learning_rate": 0.00032,
	"loss": 1.714,
	"step": 9040
	},
	{
	"epoch": 90.5,
	"grad_norm": 8.454752922058105,
	"learning_rate": 0.00031666666666666665,
	"loss": 1.751,
	"step": 9050
	},
	{
	"epoch": 90.6,
	"grad_norm": 6.157979488372803,
	"learning_rate": 0.0003133333333333334,
	"loss": 1.6605,
	"step": 9060
	},
	{
	"epoch": 90.7,
	"grad_norm": 6.605826377868652,
	"learning_rate": 0.00031,
	"loss": 1.4179,
	"step": 9070
	},
	{
	"epoch": 90.8,
	"grad_norm": 3.808640480041504,
	"learning_rate": 0.0003066666666666667,
	"loss": 1.8103,
	"step": 9080
	},
	{
	"epoch": 90.9,
	"grad_norm": 2.5629327297210693,
	"learning_rate": 0.00030333333333333335,
	"loss": 1.8102,
	"step": 9090
	},
	{
	"epoch": 91.0,
	"grad_norm": 6.230813026428223,
	"learning_rate": 0.00030000000000000003,
	"loss": 1.576,
	"step": 9100
	},
	{
	"epoch": 91.0,
	"eval_accuracy": 0.11,
	"eval_loss": 6.952084541320801,
	"eval_runtime": 1.0557,
	"eval_samples_per_second": 94.722,
	"eval_steps_per_second": 94.722,
	"step": 9100
	},
	{
	"epoch": 91.1,
	"grad_norm": 6.030466079711914,
	"learning_rate": 0.00029666666666666665,
	"loss": 1.3356,
	"step": 9110
	},
	{
	"epoch": 91.2,
	"grad_norm": 11.793140411376953,
	"learning_rate": 0.0002933333333333334,
	"loss": 1.5781,
	"step": 9120
	},
	{
	"epoch": 91.3,
	"grad_norm": 3.717588186264038,
	"learning_rate": 0.00029,
	"loss": 1.6609,
	"step": 9130
	},
	{
	"epoch": 91.4,
	"grad_norm": 3.572495222091675,
	"learning_rate": 0.0002866666666666667,
	"loss": 1.4394,
	"step": 9140
	},
	{
	"epoch": 91.5,
	"grad_norm": 11.123634338378906,
	"learning_rate": 0.00028333333333333335,
	"loss": 1.7692,
	"step": 9150
	},
	{
	"epoch": 91.6,
	"grad_norm": 4.947868824005127,
	"learning_rate": 0.00028000000000000003,
	"loss": 1.9597,
	"step": 9160
	},
	{
	"epoch": 91.7,
	"grad_norm": 5.078018665313721,
	"learning_rate": 0.00027666666666666665,
	"loss": 1.7529,
	"step": 9170
	},
	{
	"epoch": 91.8,
	"grad_norm": 1.9481812715530396,
	"learning_rate": 0.00027333333333333333,
	"loss": 1.5537,
	"step": 9180
	},
	{
	"epoch": 91.9,
	"grad_norm": 4.905779838562012,
	"learning_rate": 0.00027,
	"loss": 1.6519,
	"step": 9190
	},
	{
	"epoch": 92.0,
	"grad_norm": 9.797691345214844,
	"learning_rate": 0.0002666666666666667,
	"loss": 1.542,
	"step": 9200
	},
	{
	"epoch": 92.0,
	"eval_accuracy": 0.11,
	"eval_loss": 5.4469685554504395,
	"eval_runtime": 1.0782,
	"eval_samples_per_second": 92.746,
	"eval_steps_per_second": 92.746,
	"step": 9200
	},
	{
	"epoch": 92.1,
	"grad_norm": 8.36400318145752,
	"learning_rate": 0.0002633333333333333,
	"loss": 1.3856,
	"step": 9210
	},
	{
	"epoch": 92.2,
	"grad_norm": 5.642277717590332,
	"learning_rate": 0.00026000000000000003,
	"loss": 1.4981,
	"step": 9220
	},
	{
	"epoch": 92.3,
	"grad_norm": 6.828677177429199,
	"learning_rate": 0.00025666666666666665,
	"loss": 1.6994,
	"step": 9230
	},
	{
	"epoch": 92.4,
	"grad_norm": 2.652298927307129,
	"learning_rate": 0.00025333333333333333,
	"loss": 1.4695,
	"step": 9240
	},
	{
	"epoch": 92.5,
	"grad_norm": 11.153400421142578,
	"learning_rate": 0.00025,
	"loss": 1.7156,
	"step": 9250
	},
	{
	"epoch": 92.6,
	"grad_norm": 9.4036865234375,
	"learning_rate": 0.0002466666666666667,
	"loss": 1.5793,
	"step": 9260
	},
	{
	"epoch": 92.7,
	"grad_norm": 4.6221089363098145,
	"learning_rate": 0.00024333333333333333,
	"loss": 1.5901,
	"step": 9270
	},
	{
	"epoch": 92.8,
	"grad_norm": 16.04757308959961,
	"learning_rate": 0.00024,
	"loss": 1.5083,
	"step": 9280
	},
	{
	"epoch": 92.9,
	"grad_norm": 3.3790411949157715,
	"learning_rate": 0.00023666666666666665,
	"loss": 1.6492,
	"step": 9290
	},
	{
	"epoch": 93.0,
	"grad_norm": 5.925487995147705,
	"learning_rate": 0.00023333333333333333,
	"loss": 1.4968,
	"step": 9300
	},
	{
	"epoch": 93.0,
	"eval_accuracy": 0.08,
	"eval_loss": 11.389555931091309,
	"eval_runtime": 1.0737,
	"eval_samples_per_second": 93.132,
	"eval_steps_per_second": 93.132,
	"step": 9300
	},
	{
	"epoch": 93.1,
	"grad_norm": 3.4330050945281982,
	"learning_rate": 0.00022999999999999998,
	"loss": 1.45,
	"step": 9310
	},
	{
	"epoch": 93.2,
	"grad_norm": 6.9820051193237305,
	"learning_rate": 0.00022666666666666668,
	"loss": 1.5511,
	"step": 9320
	},
	{
	"epoch": 93.3,
	"grad_norm": 3.9312143325805664,
	"learning_rate": 0.00022333333333333333,
	"loss": 1.6517,
	"step": 9330
	},
	{
	"epoch": 93.4,
	"grad_norm": 3.8252358436584473,
	"learning_rate": 0.00022,
	"loss": 1.5204,
	"step": 9340
	},
	{
	"epoch": 93.5,
	"grad_norm": 5.608623027801514,
	"learning_rate": 0.00021666666666666666,
	"loss": 1.6045,
	"step": 9350
	},
	{
	"epoch": 93.6,
	"grad_norm": 3.1002135276794434,
	"learning_rate": 0.00021333333333333333,
	"loss": 1.8633,
	"step": 9360
	},
	{
	"epoch": 93.7,
	"grad_norm": 7.6362080574035645,
	"learning_rate": 0.00021000000000000004,
	"loss": 1.8021,
	"step": 9370
	},
	{
	"epoch": 93.8,
	"grad_norm": 6.949824810028076,
	"learning_rate": 0.00020666666666666666,
	"loss": 1.5986,
	"step": 9380
	},
	{
	"epoch": 93.9,
	"grad_norm": 2.6082653999328613,
	"learning_rate": 0.00020333333333333336,
	"loss": 1.6573,
	"step": 9390
	},
	{
	"epoch": 94.0,
	"grad_norm": 1.7762422561645508,
	"learning_rate": 0.0002,
	"loss": 1.5031,
	"step": 9400
	},
	{
	"epoch": 94.0,
	"eval_accuracy": 0.09,
	"eval_loss": 11.971654891967773,
	"eval_runtime": 1.0995,
	"eval_samples_per_second": 90.954,
	"eval_steps_per_second": 90.954,
	"step": 9400
	},
	{
	"epoch": 94.1,
	"grad_norm": 5.909740447998047,
	"learning_rate": 0.00019666666666666669,
	"loss": 1.8356,
	"step": 9410
	},
	{
	"epoch": 94.2,
	"grad_norm": 5.829824447631836,
	"learning_rate": 0.00019333333333333333,
	"loss": 1.6169,
	"step": 9420
	},
	{
	"epoch": 94.3,
	"grad_norm": 5.292634963989258,
	"learning_rate": 0.00019,
	"loss": 1.5679,
	"step": 9430
	},
	{
	"epoch": 94.4,
	"grad_norm": 10.358529090881348,
	"learning_rate": 0.00018666666666666666,
	"loss": 1.7761,
	"step": 9440
	},
	{
	"epoch": 94.5,
	"grad_norm": 7.091001033782959,
	"learning_rate": 0.00018333333333333334,
	"loss": 1.3063,
	"step": 9450
	},
	{
	"epoch": 94.6,
	"grad_norm": 5.417427062988281,
	"learning_rate": 0.00017999999999999998,
	"loss": 1.5903,
	"step": 9460
	},
	{
	"epoch": 94.7,
	"grad_norm": 2.955625295639038,
	"learning_rate": 0.00017666666666666666,
	"loss": 1.34,
	"step": 9470
	},
	{
	"epoch": 94.8,
	"grad_norm": 12.496049880981445,
	"learning_rate": 0.00017333333333333334,
	"loss": 1.6369,
	"step": 9480
	},
	{
	"epoch": 94.9,
	"grad_norm": 5.346241474151611,
	"learning_rate": 0.00016999999999999999,
	"loss": 1.6256,
	"step": 9490
	},
	{
	"epoch": 95.0,
	"grad_norm": 3.4618892669677734,
	"learning_rate": 0.00016666666666666666,
	"loss": 1.797,
	"step": 9500
	},
	{
	"epoch": 95.0,
	"eval_accuracy": 0.15,
	"eval_loss": 5.659628391265869,
	"eval_runtime": 1.0964,
	"eval_samples_per_second": 91.21,
	"eval_steps_per_second": 91.21,
	"step": 9500
	},
	{
	"epoch": 95.1,
	"grad_norm": 9.091547012329102,
	"learning_rate": 0.00016333333333333334,
	"loss": 1.7098,
	"step": 9510
	},
	{
	"epoch": 95.2,
	"grad_norm": 4.004639625549316,
	"learning_rate": 0.00016,
	"loss": 1.7619,
	"step": 9520
	},
	{
	"epoch": 95.3,
	"grad_norm": 5.718022346496582,
	"learning_rate": 0.0001566666666666667,
	"loss": 1.6164,
	"step": 9530
	},
	{
	"epoch": 95.4,
	"grad_norm": 6.067481994628906,
	"learning_rate": 0.00015333333333333334,
	"loss": 1.4772,
	"step": 9540
	},
	{
	"epoch": 95.5,
	"grad_norm": 9.880731582641602,
	"learning_rate": 0.00015000000000000001,
	"loss": 1.727,
	"step": 9550
	},
	{
	"epoch": 95.6,
	"grad_norm": 3.9072794914245605,
	"learning_rate": 0.0001466666666666667,
	"loss": 1.6101,
	"step": 9560
	},
	{
	"epoch": 95.7,
	"grad_norm": 5.950568199157715,
	"learning_rate": 0.00014333333333333334,
	"loss": 1.6918,
	"step": 9570
	},
	{
	"epoch": 95.8,
	"grad_norm": 4.8070759773254395,
	"learning_rate": 0.00014000000000000001,
	"loss": 1.5439,
	"step": 9580
	},
	{
	"epoch": 95.9,
	"grad_norm": 2.928107500076294,
	"learning_rate": 0.00013666666666666666,
	"loss": 1.7419,
	"step": 9590
	},
	{
	"epoch": 96.0,
	"grad_norm": 2.5517635345458984,
	"learning_rate": 0.00013333333333333334,
	"loss": 1.5389,
	"step": 9600
	},
	{
	"epoch": 96.0,
	"eval_accuracy": 0.15,
	"eval_loss": 5.394742488861084,
	"eval_runtime": 1.2105,
	"eval_samples_per_second": 82.609,
	"eval_steps_per_second": 82.609,
	"step": 9600
	},
	{
	"epoch": 96.1,
	"grad_norm": 6.7149200439453125,
	"learning_rate": 0.00013000000000000002,
	"loss": 1.4619,
	"step": 9610
	},
	{
	"epoch": 96.2,
	"grad_norm": 4.244627952575684,
	"learning_rate": 0.00012666666666666666,
	"loss": 1.658,
	"step": 9620
	},
	{
	"epoch": 96.3,
	"grad_norm": 12.272513389587402,
	"learning_rate": 0.00012333333333333334,
	"loss": 1.4024,
	"step": 9630
	},
	{
	"epoch": 96.4,
	"grad_norm": 4.836441516876221,
	"learning_rate": 0.00012,
	"loss": 1.6373,
	"step": 9640
	},
	{
	"epoch": 96.5,
	"grad_norm": 10.306394577026367,
	"learning_rate": 0.00011666666666666667,
	"loss": 1.6761,
	"step": 9650
	},
	{
	"epoch": 96.6,
	"grad_norm": 15.065468788146973,
	"learning_rate": 0.00011333333333333334,
	"loss": 1.5668,
	"step": 9660
	},
	{
	"epoch": 96.7,
	"grad_norm": 9.095344543457031,
	"learning_rate": 0.00011,
	"loss": 1.6632,
	"step": 9670
	},
	{
	"epoch": 96.8,
	"grad_norm": 15.200200080871582,
	"learning_rate": 0.00010666666666666667,
	"loss": 1.751,
	"step": 9680
	},
	{
	"epoch": 96.9,
	"grad_norm": 5.573326587677002,
	"learning_rate": 0.00010333333333333333,
	"loss": 1.4333,
	"step": 9690
	},
	{
	"epoch": 97.0,
	"grad_norm": 8.93664836883545,
	"learning_rate": 0.0001,
	"loss": 1.6494,
	"step": 9700
	},
	{
	"epoch": 97.0,
	"eval_accuracy": 0.09,
	"eval_loss": 12.270679473876953,
	"eval_runtime": 1.1046,
	"eval_samples_per_second": 90.527,
	"eval_steps_per_second": 90.527,
	"step": 9700
	},
	{
	"epoch": 97.1,
	"grad_norm": 7.3307061195373535,
	"learning_rate": 9.666666666666667e-05,
	"loss": 1.6132,
	"step": 9710
	},
	{
	"epoch": 97.2,
	"grad_norm": 4.363010406494141,
	"learning_rate": 9.333333333333333e-05,
	"loss": 1.4765,
	"step": 9720
	},
	{
	"epoch": 97.3,
	"grad_norm": 6.389674186706543,
	"learning_rate": 8.999999999999999e-05,
	"loss": 1.5761,
	"step": 9730
	},
	{
	"epoch": 97.4,
	"grad_norm": 5.851135730743408,
	"learning_rate": 8.666666666666667e-05,
	"loss": 1.4239,
	"step": 9740
	},
	{
	"epoch": 97.5,
	"grad_norm": 3.2834291458129883,
	"learning_rate": 8.333333333333333e-05,
	"loss": 1.492,
	"step": 9750
	},
	{
	"epoch": 97.6,
	"grad_norm": 7.470133304595947,
	"learning_rate": 8e-05,
	"loss": 1.397,
	"step": 9760
	},
	{
	"epoch": 97.7,
	"grad_norm": 10.482823371887207,
	"learning_rate": 7.666666666666667e-05,
	"loss": 1.3747,
	"step": 9770
	},
	{
	"epoch": 97.8,
	"grad_norm": 5.69985818862915,
	"learning_rate": 7.333333333333334e-05,
	"loss": 1.6509,
	"step": 9780
	},
	{
	"epoch": 97.9,
	"grad_norm": 5.918487071990967,
	"learning_rate": 7.000000000000001e-05,
	"loss": 1.7359,
	"step": 9790
	},
	{
	"epoch": 98.0,
	"grad_norm": 5.521181583404541,
	"learning_rate": 6.666666666666667e-05,
	"loss": 1.73,
	"step": 9800
	},
	{
	"epoch": 98.0,
	"eval_accuracy": 0.09,
	"eval_loss": 7.748157978057861,
	"eval_runtime": 1.1743,
	"eval_samples_per_second": 85.156,
	"eval_steps_per_second": 85.156,
	"step": 9800
	},
	{
	"epoch": 98.1,
	"grad_norm": 1.7943670749664307,
	"learning_rate": 6.333333333333333e-05,
	"loss": 1.521,
	"step": 9810
	},
	{
	"epoch": 98.2,
	"grad_norm": 5.804259777069092,
	"learning_rate": 6e-05,
	"loss": 1.4225,
	"step": 9820
	},
	{
	"epoch": 98.3,
	"grad_norm": 4.800943374633789,
	"learning_rate": 5.666666666666667e-05,
	"loss": 1.6552,
	"step": 9830
	},
	{
	"epoch": 98.4,
	"grad_norm": 4.801553726196289,
	"learning_rate": 5.333333333333333e-05,
	"loss": 1.6209,
	"step": 9840
	},
	{
	"epoch": 98.5,
	"grad_norm": 6.166553974151611,
	"learning_rate": 5e-05,
	"loss": 1.6065,
	"step": 9850
	},
	{
	"epoch": 98.6,
	"grad_norm": 5.88163948059082,
	"learning_rate": 4.6666666666666665e-05,
	"loss": 1.4366,
	"step": 9860
	},
	{
	"epoch": 98.7,
	"grad_norm": 3.944805145263672,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 1.7576,
	"step": 9870
	},
	{
	"epoch": 98.8,
	"grad_norm": 3.368363618850708,
	"learning_rate": 4e-05,
	"loss": 1.4783,
	"step": 9880
	},
	{
	"epoch": 98.9,
	"grad_norm": 14.498971939086914,
	"learning_rate": 3.666666666666667e-05,
	"loss": 1.5058,
	"step": 9890
	},
	{
	"epoch": 99.0,
	"grad_norm": 15.378142356872559,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 1.6781,
	"step": 9900
	},
	{
	"epoch": 99.0,
	"eval_accuracy": 0.09,
	"eval_loss": 8.217840194702148,
	"eval_runtime": 1.0827,
	"eval_samples_per_second": 92.358,
	"eval_steps_per_second": 92.358,
	"step": 9900
	},
	{
	"epoch": 99.1,
	"grad_norm": 4.426601886749268,
	"learning_rate": 3e-05,
	"loss": 1.6958,
	"step": 9910
	},
	{
	"epoch": 99.2,
	"grad_norm": 4.605733394622803,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 1.4533,
	"step": 9920
	},
	{
	"epoch": 99.3,
	"grad_norm": 13.782227516174316,
	"learning_rate": 2.3333333333333332e-05,
	"loss": 1.8946,
	"step": 9930
	},
	{
	"epoch": 99.4,
	"grad_norm": 4.161137580871582,
	"learning_rate": 2e-05,
	"loss": 1.6174,
	"step": 9940
	},
	{
	"epoch": 99.5,
	"grad_norm": 2.4664387702941895,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 1.5238,
	"step": 9950
	},
	{
	"epoch": 99.6,
	"grad_norm": 2.55865216255188,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 1.5149,
	"step": 9960
	},
	{
	"epoch": 99.7,
	"grad_norm": 6.92779016494751,
	"learning_rate": 1e-05,
	"loss": 1.6855,
	"step": 9970
	},
	{
	"epoch": 99.8,
	"grad_norm": 5.996972560882568,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.6467,
	"step": 9980
	},
	{
	"epoch": 99.9,
	"grad_norm": 4.8729729652404785,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 1.4819,
	"step": 9990
	},
	{
	"epoch": 100.0,
	"grad_norm": 6.14045524597168,
	"learning_rate": 0.0,
	"loss": 1.6353,
	"step": 10000
	},
	{
	"epoch": 100.0,
	"eval_accuracy": 0.09,
	"eval_loss": 7.3961310386657715,
	"eval_runtime": 1.1462,
	"eval_samples_per_second": 87.242,
	"eval_steps_per_second": 87.242,
	"step": 10000
	},
	{
	"epoch": 100.0,
	"step": 10000,
	"total_flos": 5.698654912512e+16,
	"train_loss": 1.9340028741836548,
	"train_runtime": 4182.7218,
	"train_samples_per_second": 9.563,
	"train_steps_per_second": 2.391
	}
	],
	"logging_steps": 10,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 100,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.698654912512e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}