{
  "best_metric": 0.2,
  "best_model_checkpoint": "mobilevit-xx-small-finetuned-eurosat/checkpoint-3500",
  "epoch": 100.0,
  "eval_steps": 500,
  "global_step": 10000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1,
      "grad_norm": 2.1324617862701416,
      "learning_rate": 3e-05,
      "loss": 2.3012,
      "step": 10
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3381329774856567,
      "learning_rate": 6e-05,
      "loss": 2.3047,
      "step": 20
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.8502155542373657,
      "learning_rate": 8.999999999999999e-05,
      "loss": 2.2991,
      "step": 30
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.422213554382324,
      "learning_rate": 0.00012,
      "loss": 2.3029,
      "step": 40
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.453734040260315,
      "learning_rate": 0.00015000000000000001,
      "loss": 2.3016,
      "step": 50
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6491554975509644,
      "learning_rate": 0.00017999999999999998,
      "loss": 2.303,
      "step": 60
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.927738666534424,
      "learning_rate": 0.00021000000000000004,
      "loss": 2.3005,
      "step": 70
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2199476957321167,
      "learning_rate": 0.00024,
      "loss": 2.3069,
      "step": 80
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4366081953048706,
      "learning_rate": 0.00027,
      "loss": 2.2955,
      "step": 90
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.102356195449829,
      "learning_rate": 0.00030000000000000003,
      "loss": 2.2991,
      "step": 100
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.16,
      "eval_loss": 2.289586067199707,
      "eval_runtime": 1.4788,
      "eval_samples_per_second": 67.624,
      "eval_steps_per_second": 67.624,
      "step": 100
    },
    {
      "epoch": 1.1,
      "grad_norm": 1.5379983186721802,
      "learning_rate": 0.00033,
      "loss": 2.3002,
      "step": 110
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.928782045841217,
      "learning_rate": 0.00035999999999999997,
      "loss": 2.2956,
      "step": 120
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.9759466052055359,
      "learning_rate": 0.00039000000000000005,
      "loss": 2.3028,
      "step": 130
    },
    {
      "epoch": 1.4,
      "grad_norm": 1.5415401458740234,
      "learning_rate": 0.00042000000000000007,
      "loss": 2.2976,
      "step": 140
    },
    {
      "epoch": 1.5,
      "grad_norm": 1.1042237281799316,
      "learning_rate": 0.00045,
      "loss": 2.2798,
      "step": 150
    },
    {
      "epoch": 1.6,
      "grad_norm": 1.4493985176086426,
      "learning_rate": 0.00048,
      "loss": 2.2941,
      "step": 160
    },
    {
      "epoch": 1.7,
      "grad_norm": 1.538596510887146,
      "learning_rate": 0.00051,
      "loss": 2.2887,
      "step": 170
    },
    {
      "epoch": 1.8,
      "grad_norm": 1.4531352519989014,
      "learning_rate": 0.00054,
      "loss": 2.3009,
      "step": 180
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.983465313911438,
      "learning_rate": 0.00057,
      "loss": 2.2891,
      "step": 190
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.0896656513214111,
      "learning_rate": 0.0006000000000000001,
      "loss": 2.3041,
      "step": 200
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.12,
      "eval_loss": 2.4577579498291016,
      "eval_runtime": 1.4566,
      "eval_samples_per_second": 68.653,
      "eval_steps_per_second": 68.653,
      "step": 200
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.838339626789093,
      "learning_rate": 0.00063,
      "loss": 2.3074,
      "step": 210
    },
    {
      "epoch": 2.2,
      "grad_norm": 1.0502190589904785,
      "learning_rate": 0.00066,
      "loss": 2.2746,
      "step": 220
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.9475522041320801,
      "learning_rate": 0.0006900000000000001,
      "loss": 2.2484,
      "step": 230
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.7182848453521729,
      "learning_rate": 0.0007199999999999999,
      "loss": 2.2644,
      "step": 240
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.08864164352417,
      "learning_rate": 0.00075,
      "loss": 2.3224,
      "step": 250
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.9813370108604431,
      "learning_rate": 0.0007800000000000001,
      "loss": 2.2964,
      "step": 260
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.8489407300949097,
      "learning_rate": 0.0008100000000000001,
      "loss": 2.3066,
      "step": 270
    },
    {
      "epoch": 2.8,
      "grad_norm": 1.1197150945663452,
      "learning_rate": 0.0008400000000000001,
      "loss": 2.3362,
      "step": 280
    },
    {
      "epoch": 2.9,
      "grad_norm": 1.279061198234558,
      "learning_rate": 0.00087,
      "loss": 2.2834,
      "step": 290
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.2697229385375977,
      "learning_rate": 0.0009,
      "loss": 2.2833,
      "step": 300
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.12,
      "eval_loss": 2.302177906036377,
      "eval_runtime": 1.3695,
      "eval_samples_per_second": 73.017,
      "eval_steps_per_second": 73.017,
      "step": 300
    },
    {
      "epoch": 3.1,
      "grad_norm": 1.1153604984283447,
      "learning_rate": 0.00093,
      "loss": 2.2568,
      "step": 310
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.7443063855171204,
      "learning_rate": 0.00096,
      "loss": 2.2826,
      "step": 320
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.8337368965148926,
      "learning_rate": 0.00099,
      "loss": 2.2561,
      "step": 330
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.8116536736488342,
      "learning_rate": 0.00102,
      "loss": 2.3272,
      "step": 340
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.9721486568450928,
      "learning_rate": 0.00105,
      "loss": 2.2719,
      "step": 350
    },
    {
      "epoch": 3.6,
      "grad_norm": 1.4430909156799316,
      "learning_rate": 0.00108,
      "loss": 2.3039,
      "step": 360
    },
    {
      "epoch": 3.7,
      "grad_norm": 2.4252946376800537,
      "learning_rate": 0.00111,
      "loss": 2.2797,
      "step": 370
    },
    {
      "epoch": 3.8,
      "grad_norm": 1.0932201147079468,
      "learning_rate": 0.00114,
      "loss": 2.2843,
      "step": 380
    },
    {
      "epoch": 3.9,
      "grad_norm": 1.1340506076812744,
      "learning_rate": 0.00117,
      "loss": 2.3229,
      "step": 390
    },
    {
      "epoch": 4.0,
      "grad_norm": 2.5897912979125977,
      "learning_rate": 0.0012000000000000001,
      "loss": 2.2755,
      "step": 400
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.17,
      "eval_loss": 2.4038970470428467,
      "eval_runtime": 1.5324,
      "eval_samples_per_second": 65.256,
      "eval_steps_per_second": 65.256,
      "step": 400
    },
    {
      "epoch": 4.1,
      "grad_norm": 0.7979876399040222,
      "learning_rate": 0.00123,
      "loss": 2.2504,
      "step": 410
    },
    {
      "epoch": 4.2,
      "grad_norm": 1.2705005407333374,
      "learning_rate": 0.00126,
      "loss": 2.2731,
      "step": 420
    },
    {
      "epoch": 4.3,
      "grad_norm": 1.4571020603179932,
      "learning_rate": 0.00129,
      "loss": 2.3268,
      "step": 430
    },
    {
      "epoch": 4.4,
      "grad_norm": 1.3778339624404907,
      "learning_rate": 0.00132,
      "loss": 2.3044,
      "step": 440
    },
    {
      "epoch": 4.5,
      "grad_norm": 1.30875563621521,
      "learning_rate": 0.00135,
      "loss": 2.2627,
      "step": 450
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.9140678644180298,
      "learning_rate": 0.0013800000000000002,
      "loss": 2.2876,
      "step": 460
    },
    {
      "epoch": 4.7,
      "grad_norm": 0.9151474833488464,
      "learning_rate": 0.00141,
      "loss": 2.2905,
      "step": 470
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.8817148804664612,
      "learning_rate": 0.0014399999999999999,
      "loss": 2.2698,
      "step": 480
    },
    {
      "epoch": 4.9,
      "grad_norm": 1.2688977718353271,
      "learning_rate": 0.00147,
      "loss": 2.2646,
      "step": 490
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.8824284076690674,
      "learning_rate": 0.0015,
      "loss": 2.3063,
      "step": 500
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.1,
      "eval_loss": 2.5689330101013184,
      "eval_runtime": 1.5068,
      "eval_samples_per_second": 66.367,
      "eval_steps_per_second": 66.367,
      "step": 500
    },
    {
      "epoch": 5.1,
      "grad_norm": 1.2520034313201904,
      "learning_rate": 0.0015300000000000001,
      "loss": 2.241,
      "step": 510
    },
    {
      "epoch": 5.2,
      "grad_norm": 1.0238957405090332,
      "learning_rate": 0.0015600000000000002,
      "loss": 2.27,
      "step": 520
    },
    {
      "epoch": 5.3,
      "grad_norm": 2.1329076290130615,
      "learning_rate": 0.00159,
      "loss": 2.2933,
      "step": 530
    },
    {
      "epoch": 5.4,
      "grad_norm": 1.5213390588760376,
      "learning_rate": 0.0016200000000000001,
      "loss": 2.3265,
      "step": 540
    },
    {
      "epoch": 5.5,
      "grad_norm": 1.0696481466293335,
      "learning_rate": 0.0016500000000000002,
      "loss": 2.2632,
      "step": 550
    },
    {
      "epoch": 5.6,
      "grad_norm": 2.2588746547698975,
      "learning_rate": 0.0016800000000000003,
      "loss": 2.3076,
      "step": 560
    },
    {
      "epoch": 5.7,
      "grad_norm": 0.8829935789108276,
      "learning_rate": 0.00171,
      "loss": 2.2396,
      "step": 570
    },
    {
      "epoch": 5.8,
      "grad_norm": 2.340522289276123,
      "learning_rate": 0.00174,
      "loss": 2.2487,
      "step": 580
    },
    {
      "epoch": 5.9,
      "grad_norm": 1.1000961065292358,
      "learning_rate": 0.0017699999999999999,
      "loss": 2.4008,
      "step": 590
    },
    {
      "epoch": 6.0,
      "grad_norm": 1.0605051517486572,
      "learning_rate": 0.0018,
      "loss": 2.3247,
      "step": 600
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.05,
      "eval_loss": 2.5307223796844482,
      "eval_runtime": 1.4509,
      "eval_samples_per_second": 68.922,
      "eval_steps_per_second": 68.922,
      "step": 600
    },
    {
      "epoch": 6.1,
      "grad_norm": 0.7217267751693726,
      "learning_rate": 0.00183,
      "loss": 2.2628,
      "step": 610
    },
    {
      "epoch": 6.2,
      "grad_norm": 1.2763817310333252,
      "learning_rate": 0.00186,
      "loss": 2.3345,
      "step": 620
    },
    {
      "epoch": 6.3,
      "grad_norm": 1.0277924537658691,
      "learning_rate": 0.00189,
      "loss": 2.21,
      "step": 630
    },
    {
      "epoch": 6.4,
      "grad_norm": 1.1366169452667236,
      "learning_rate": 0.00192,
      "loss": 2.2671,
      "step": 640
    },
    {
      "epoch": 6.5,
      "grad_norm": 1.314244270324707,
      "learning_rate": 0.0019500000000000001,
      "loss": 2.2903,
      "step": 650
    },
    {
      "epoch": 6.6,
      "grad_norm": 1.7358442544937134,
      "learning_rate": 0.00198,
      "loss": 2.2646,
      "step": 660
    },
    {
      "epoch": 6.7,
      "grad_norm": 1.7523398399353027,
      "learning_rate": 0.00201,
      "loss": 2.2954,
      "step": 670
    },
    {
      "epoch": 6.8,
      "grad_norm": 1.0838252305984497,
      "learning_rate": 0.00204,
      "loss": 2.284,
      "step": 680
    },
    {
      "epoch": 6.9,
      "grad_norm": 1.375260591506958,
      "learning_rate": 0.00207,
      "loss": 2.2751,
      "step": 690
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.8118464946746826,
      "learning_rate": 0.0021,
      "loss": 2.2867,
      "step": 700
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.08,
      "eval_loss": 4.129552841186523,
      "eval_runtime": 1.34,
      "eval_samples_per_second": 74.629,
      "eval_steps_per_second": 74.629,
      "step": 700
    },
    {
      "epoch": 7.1,
      "grad_norm": 1.1006956100463867,
      "learning_rate": 0.00213,
      "loss": 2.2591,
      "step": 710
    },
    {
      "epoch": 7.2,
      "grad_norm": 1.0100908279418945,
      "learning_rate": 0.00216,
      "loss": 2.234,
      "step": 720
    },
    {
      "epoch": 7.3,
      "grad_norm": 0.6693554520606995,
      "learning_rate": 0.00219,
      "loss": 2.2912,
      "step": 730
    },
    {
      "epoch": 7.4,
      "grad_norm": 1.4744811058044434,
      "learning_rate": 0.00222,
      "loss": 2.2978,
      "step": 740
    },
    {
      "epoch": 7.5,
      "grad_norm": 1.1265888214111328,
      "learning_rate": 0.0022500000000000003,
      "loss": 2.2747,
      "step": 750
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.7370518445968628,
      "learning_rate": 0.00228,
      "loss": 2.254,
      "step": 760
    },
    {
      "epoch": 7.7,
      "grad_norm": 3.5498600006103516,
      "learning_rate": 0.00231,
      "loss": 2.3023,
      "step": 770
    },
    {
      "epoch": 7.8,
      "grad_norm": 0.8357071876525879,
      "learning_rate": 0.00234,
      "loss": 2.2806,
      "step": 780
    },
    {
      "epoch": 7.9,
      "grad_norm": 0.9274773597717285,
      "learning_rate": 0.00237,
      "loss": 2.3048,
      "step": 790
    },
    {
      "epoch": 8.0,
      "grad_norm": 1.2820582389831543,
      "learning_rate": 0.0024000000000000002,
      "loss": 2.2696,
      "step": 800
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.07,
      "eval_loss": 3.08689546585083,
      "eval_runtime": 19.5044,
      "eval_samples_per_second": 5.127,
      "eval_steps_per_second": 5.127,
      "step": 800
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.8906604647636414,
      "learning_rate": 0.0024300000000000003,
      "loss": 2.2654,
      "step": 810
    },
    {
      "epoch": 8.2,
      "grad_norm": 0.9984199404716492,
      "learning_rate": 0.00246,
      "loss": 2.279,
      "step": 820
    },
    {
      "epoch": 8.3,
      "grad_norm": 1.9721964597702026,
      "learning_rate": 0.00249,
      "loss": 2.3893,
      "step": 830
    },
    {
      "epoch": 8.4,
      "grad_norm": 1.0067120790481567,
      "learning_rate": 0.00252,
      "loss": 2.2639,
      "step": 840
    },
    {
      "epoch": 8.5,
      "grad_norm": 1.388048529624939,
      "learning_rate": 0.00255,
      "loss": 2.3113,
      "step": 850
    },
    {
      "epoch": 8.6,
      "grad_norm": 1.2845227718353271,
      "learning_rate": 0.00258,
      "loss": 2.2511,
      "step": 860
    },
    {
      "epoch": 8.7,
      "grad_norm": 0.871728241443634,
      "learning_rate": 0.00261,
      "loss": 2.3939,
      "step": 870
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.8184868693351746,
      "learning_rate": 0.00264,
      "loss": 2.2946,
      "step": 880
    },
    {
      "epoch": 8.9,
      "grad_norm": 1.132112741470337,
      "learning_rate": 0.00267,
      "loss": 2.3046,
      "step": 890
    },
    {
      "epoch": 9.0,
      "grad_norm": 2.1133577823638916,
      "learning_rate": 0.0027,
      "loss": 2.2688,
      "step": 900
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.08,
      "eval_loss": 3.6086204051971436,
      "eval_runtime": 20.8005,
      "eval_samples_per_second": 4.808,
      "eval_steps_per_second": 4.808,
      "step": 900
    },
    {
      "epoch": 9.1,
      "grad_norm": 2.4818060398101807,
      "learning_rate": 0.0027300000000000002,
      "loss": 2.3106,
      "step": 910
    },
    {
      "epoch": 9.2,
      "grad_norm": 3.1399571895599365,
      "learning_rate": 0.0027600000000000003,
      "loss": 2.2638,
      "step": 920
    },
    {
      "epoch": 9.3,
      "grad_norm": 0.6101534962654114,
      "learning_rate": 0.0027900000000000004,
      "loss": 2.3405,
      "step": 930
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.5602176189422607,
      "learning_rate": 0.00282,
      "loss": 2.2907,
      "step": 940
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.9144548773765564,
      "learning_rate": 0.00285,
      "loss": 2.2859,
      "step": 950
    },
    {
      "epoch": 9.6,
      "grad_norm": 1.6563771963119507,
      "learning_rate": 0.0028799999999999997,
      "loss": 2.226,
      "step": 960
    },
    {
      "epoch": 9.7,
      "grad_norm": 1.130618691444397,
      "learning_rate": 0.00291,
      "loss": 2.3164,
      "step": 970
    },
    {
      "epoch": 9.8,
      "grad_norm": 1.309047818183899,
      "learning_rate": 0.00294,
      "loss": 2.369,
      "step": 980
    },
    {
      "epoch": 9.9,
      "grad_norm": 0.8424582481384277,
      "learning_rate": 0.00297,
      "loss": 2.3191,
      "step": 990
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.7681222558021545,
      "learning_rate": 0.003,
      "loss": 2.2616,
      "step": 1000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.13,
      "eval_loss": 6.5421600341796875,
      "eval_runtime": 8.3248,
      "eval_samples_per_second": 12.012,
      "eval_steps_per_second": 12.012,
      "step": 1000
    },
    {
      "epoch": 10.1,
      "grad_norm": 0.7878401875495911,
      "learning_rate": 0.002996666666666667,
      "loss": 2.3113,
      "step": 1010
    },
    {
      "epoch": 10.2,
      "grad_norm": 1.2619870901107788,
      "learning_rate": 0.0029933333333333335,
      "loss": 2.2792,
      "step": 1020
    },
    {
      "epoch": 10.3,
      "grad_norm": 0.8518879413604736,
      "learning_rate": 0.00299,
      "loss": 2.2483,
      "step": 1030
    },
    {
      "epoch": 10.4,
      "grad_norm": 1.0644011497497559,
      "learning_rate": 0.0029866666666666665,
      "loss": 2.2962,
      "step": 1040
    },
    {
      "epoch": 10.5,
      "grad_norm": 4.86259651184082,
      "learning_rate": 0.0029833333333333335,
      "loss": 2.3568,
      "step": 1050
    },
    {
      "epoch": 10.6,
      "grad_norm": 0.6222243905067444,
      "learning_rate": 0.00298,
      "loss": 2.3044,
      "step": 1060
    },
    {
      "epoch": 10.7,
      "grad_norm": 0.9417657256126404,
      "learning_rate": 0.002976666666666667,
      "loss": 2.3293,
      "step": 1070
    },
    {
      "epoch": 10.8,
      "grad_norm": 0.8060852289199829,
      "learning_rate": 0.0029733333333333335,
      "loss": 2.3223,
      "step": 1080
    },
    {
      "epoch": 10.9,
      "grad_norm": 13.554573059082031,
      "learning_rate": 0.00297,
      "loss": 2.3174,
      "step": 1090
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.6837009191513062,
      "learning_rate": 0.002966666666666667,
      "loss": 2.3896,
      "step": 1100
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.11,
      "eval_loss": 3.2714791297912598,
      "eval_runtime": 2.1977,
      "eval_samples_per_second": 45.503,
      "eval_steps_per_second": 45.503,
      "step": 1100
    },
    {
      "epoch": 11.1,
      "grad_norm": 0.7141666412353516,
      "learning_rate": 0.0029633333333333334,
      "loss": 2.3195,
      "step": 1110
    },
    {
      "epoch": 11.2,
      "grad_norm": 0.7167306542396545,
      "learning_rate": 0.00296,
      "loss": 2.296,
      "step": 1120
    },
    {
      "epoch": 11.3,
      "grad_norm": 0.7279971241950989,
      "learning_rate": 0.0029566666666666665,
      "loss": 2.271,
      "step": 1130
    },
    {
      "epoch": 11.4,
      "grad_norm": 0.7350410223007202,
      "learning_rate": 0.0029533333333333334,
      "loss": 2.3213,
      "step": 1140
    },
    {
      "epoch": 11.5,
      "grad_norm": 0.7864300012588501,
      "learning_rate": 0.00295,
      "loss": 2.3639,
      "step": 1150
    },
    {
      "epoch": 11.6,
      "grad_norm": 1.0151550769805908,
      "learning_rate": 0.002946666666666667,
      "loss": 2.3102,
      "step": 1160
    },
    {
      "epoch": 11.7,
      "grad_norm": 0.830095648765564,
      "learning_rate": 0.0029433333333333334,
      "loss": 2.3059,
      "step": 1170
    },
    {
      "epoch": 11.8,
      "grad_norm": 0.9856182932853699,
      "learning_rate": 0.00294,
      "loss": 2.3251,
      "step": 1180
    },
    {
      "epoch": 11.9,
      "grad_norm": 0.9483402371406555,
      "learning_rate": 0.002936666666666667,
      "loss": 2.2442,
      "step": 1190
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.8080146908760071,
      "learning_rate": 0.0029333333333333334,
      "loss": 2.3264,
      "step": 1200
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.08,
      "eval_loss": 2.697530746459961,
      "eval_runtime": 10.4979,
      "eval_samples_per_second": 9.526,
      "eval_steps_per_second": 9.526,
      "step": 1200
    },
    {
      "epoch": 12.1,
      "grad_norm": 0.5614495277404785,
      "learning_rate": 0.0029300000000000003,
      "loss": 2.3242,
      "step": 1210
    },
    {
      "epoch": 12.2,
      "grad_norm": 0.5666948556900024,
      "learning_rate": 0.0029266666666666664,
      "loss": 2.2657,
      "step": 1220
    },
    {
      "epoch": 12.3,
      "grad_norm": 0.6668452024459839,
      "learning_rate": 0.0029233333333333333,
      "loss": 2.25,
      "step": 1230
    },
    {
      "epoch": 12.4,
      "grad_norm": 0.724169135093689,
      "learning_rate": 0.0029200000000000003,
      "loss": 2.3341,
      "step": 1240
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.5056666135787964,
      "learning_rate": 0.002916666666666667,
      "loss": 2.3078,
      "step": 1250
    },
    {
      "epoch": 12.6,
      "grad_norm": 0.542679488658905,
      "learning_rate": 0.0029133333333333333,
      "loss": 2.3181,
      "step": 1260
    },
    {
      "epoch": 12.7,
      "grad_norm": 0.5752130746841431,
      "learning_rate": 0.00291,
      "loss": 2.3095,
      "step": 1270
    },
    {
      "epoch": 12.8,
      "grad_norm": 1.2706278562545776,
      "learning_rate": 0.0029066666666666668,
      "loss": 2.2843,
      "step": 1280
    },
    {
      "epoch": 12.9,
      "grad_norm": 0.6558820605278015,
      "learning_rate": 0.0029033333333333333,
      "loss": 2.38,
      "step": 1290
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.4819053113460541,
      "learning_rate": 0.0029000000000000002,
      "loss": 2.2603,
      "step": 1300
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.17,
      "eval_loss": 2.4011728763580322,
      "eval_runtime": 5.0203,
      "eval_samples_per_second": 19.919,
      "eval_steps_per_second": 19.919,
      "step": 1300
    },
    {
      "epoch": 13.1,
      "grad_norm": 0.534329354763031,
      "learning_rate": 0.0028966666666666667,
      "loss": 2.2935,
      "step": 1310
    },
    {
      "epoch": 13.2,
      "grad_norm": 0.6757941842079163,
      "learning_rate": 0.0028933333333333333,
      "loss": 2.3112,
      "step": 1320
    },
    {
      "epoch": 13.3,
      "grad_norm": 0.5297008156776428,
      "learning_rate": 0.00289,
      "loss": 2.2442,
      "step": 1330
    },
    {
      "epoch": 13.4,
      "grad_norm": 0.7962446212768555,
      "learning_rate": 0.0028866666666666667,
      "loss": 2.3753,
      "step": 1340
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.5598190426826477,
      "learning_rate": 0.0028833333333333337,
      "loss": 2.2621,
      "step": 1350
    },
    {
      "epoch": 13.6,
      "grad_norm": 0.7223344445228577,
      "learning_rate": 0.0028799999999999997,
      "loss": 2.273,
      "step": 1360
    },
    {
      "epoch": 13.7,
      "grad_norm": 1.1084399223327637,
      "learning_rate": 0.0028766666666666667,
      "loss": 2.2912,
      "step": 1370
    },
    {
      "epoch": 13.8,
      "grad_norm": 0.6733573079109192,
      "learning_rate": 0.002873333333333333,
      "loss": 2.2698,
      "step": 1380
    },
    {
      "epoch": 13.9,
      "grad_norm": 0.8303700089454651,
      "learning_rate": 0.00287,
      "loss": 2.2308,
      "step": 1390
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.804675817489624,
      "learning_rate": 0.0028666666666666667,
      "loss": 2.2845,
      "step": 1400
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.19,
      "eval_loss": 3.0855796337127686,
      "eval_runtime": 18.9592,
      "eval_samples_per_second": 5.274,
      "eval_steps_per_second": 5.274,
      "step": 1400
    },
    {
      "epoch": 14.1,
      "grad_norm": 0.7311877012252808,
      "learning_rate": 0.002863333333333333,
      "loss": 2.2091,
      "step": 1410
    },
    {
      "epoch": 14.2,
      "grad_norm": 0.9788007140159607,
      "learning_rate": 0.00286,
      "loss": 2.284,
      "step": 1420
    },
    {
      "epoch": 14.3,
      "grad_norm": 1.4467419385910034,
      "learning_rate": 0.0028566666666666666,
      "loss": 2.2519,
      "step": 1430
    },
    {
      "epoch": 14.4,
      "grad_norm": 1.0337039232254028,
      "learning_rate": 0.0028533333333333336,
      "loss": 2.2974,
      "step": 1440
    },
    {
      "epoch": 14.5,
      "grad_norm": 0.9267049431800842,
      "learning_rate": 0.00285,
      "loss": 2.2513,
      "step": 1450
    },
    {
      "epoch": 14.6,
      "grad_norm": 1.1804252862930298,
      "learning_rate": 0.0028466666666666666,
      "loss": 2.3101,
      "step": 1460
    },
    {
      "epoch": 14.7,
      "grad_norm": 0.6689174175262451,
      "learning_rate": 0.0028433333333333336,
      "loss": 2.3012,
      "step": 1470
    },
    {
      "epoch": 14.8,
      "grad_norm": 1.6997405290603638,
      "learning_rate": 0.00284,
      "loss": 2.2507,
      "step": 1480
    },
    {
      "epoch": 14.9,
      "grad_norm": 0.5313436388969421,
      "learning_rate": 0.002836666666666667,
      "loss": 2.2841,
      "step": 1490
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.6760014891624451,
      "learning_rate": 0.002833333333333333,
      "loss": 2.2813,
      "step": 1500
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.17,
      "eval_loss": 3.255617618560791,
      "eval_runtime": 4.647,
      "eval_samples_per_second": 21.519,
      "eval_steps_per_second": 21.519,
      "step": 1500
    },
    {
      "epoch": 15.1,
      "grad_norm": 1.6648482084274292,
      "learning_rate": 0.00283,
      "loss": 2.2499,
      "step": 1510
    },
    {
      "epoch": 15.2,
      "grad_norm": 0.6352823376655579,
      "learning_rate": 0.0028266666666666666,
      "loss": 2.228,
      "step": 1520
    },
    {
      "epoch": 15.3,
      "grad_norm": 0.6928892135620117,
      "learning_rate": 0.0028233333333333335,
      "loss": 2.1796,
      "step": 1530
    },
    {
      "epoch": 15.4,
      "grad_norm": 0.7444634437561035,
      "learning_rate": 0.00282,
      "loss": 2.2923,
      "step": 1540
    },
    {
      "epoch": 15.5,
      "grad_norm": 0.701443076133728,
      "learning_rate": 0.0028166666666666665,
      "loss": 2.2578,
      "step": 1550
    },
    {
      "epoch": 15.6,
      "grad_norm": 0.5810482501983643,
      "learning_rate": 0.0028133333333333335,
      "loss": 2.3059,
      "step": 1560
    },
    {
      "epoch": 15.7,
      "grad_norm": 0.990923285484314,
      "learning_rate": 0.00281,
      "loss": 2.2492,
      "step": 1570
    },
    {
      "epoch": 15.8,
      "grad_norm": 0.616290807723999,
      "learning_rate": 0.002806666666666667,
      "loss": 2.1599,
      "step": 1580
    },
    {
      "epoch": 15.9,
      "grad_norm": 0.5732624530792236,
      "learning_rate": 0.0028033333333333335,
      "loss": 2.2297,
      "step": 1590
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.9005319476127625,
      "learning_rate": 0.0028,
      "loss": 2.2232,
      "step": 1600
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.18,
      "eval_loss": 3.5356717109680176,
      "eval_runtime": 2.4287,
      "eval_samples_per_second": 41.174,
      "eval_steps_per_second": 41.174,
      "step": 1600
    },
    {
      "epoch": 16.1,
      "grad_norm": 0.7628068923950195,
      "learning_rate": 0.0027966666666666665,
      "loss": 2.2383,
      "step": 1610
    },
    {
      "epoch": 16.2,
      "grad_norm": 0.7052992582321167,
      "learning_rate": 0.0027933333333333334,
      "loss": 2.3226,
      "step": 1620
    },
    {
      "epoch": 16.3,
      "grad_norm": 0.8045329451560974,
      "learning_rate": 0.0027900000000000004,
      "loss": 2.2594,
      "step": 1630
    },
    {
      "epoch": 16.4,
      "grad_norm": 0.7999270558357239,
      "learning_rate": 0.002786666666666667,
      "loss": 2.2886,
      "step": 1640
    },
    {
      "epoch": 16.5,
      "grad_norm": 0.9818239212036133,
      "learning_rate": 0.0027833333333333334,
      "loss": 2.2745,
      "step": 1650
    },
    {
      "epoch": 16.6,
      "grad_norm": 1.048454999923706,
      "learning_rate": 0.00278,
      "loss": 2.2978,
      "step": 1660
    },
    {
      "epoch": 16.7,
      "grad_norm": 0.6741579174995422,
      "learning_rate": 0.002776666666666667,
      "loss": 2.1957,
      "step": 1670
    },
    {
      "epoch": 16.8,
      "grad_norm": 0.7675438523292542,
      "learning_rate": 0.0027733333333333334,
      "loss": 2.3012,
      "step": 1680
    },
    {
      "epoch": 16.9,
      "grad_norm": 0.5897651314735413,
      "learning_rate": 0.00277,
      "loss": 2.2825,
      "step": 1690
    },
    {
      "epoch": 17.0,
      "grad_norm": 1.0253489017486572,
      "learning_rate": 0.002766666666666667,
      "loss": 2.2332,
      "step": 1700
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.11,
      "eval_loss": 3.8757708072662354,
      "eval_runtime": 1.504,
      "eval_samples_per_second": 66.491,
      "eval_steps_per_second": 66.491,
      "step": 1700
    },
    {
      "epoch": 17.1,
      "grad_norm": 0.5093202590942383,
      "learning_rate": 0.0027633333333333334,
      "loss": 2.2725,
      "step": 1710
    },
    {
      "epoch": 17.2,
      "grad_norm": 0.7032235860824585,
      "learning_rate": 0.0027600000000000003,
      "loss": 2.2166,
      "step": 1720
    },
    {
      "epoch": 17.3,
      "grad_norm": 0.6116345524787903,
      "learning_rate": 0.002756666666666667,
      "loss": 2.1844,
      "step": 1730
    },
    {
      "epoch": 17.4,
      "grad_norm": 0.8476758599281311,
      "learning_rate": 0.0027533333333333333,
      "loss": 2.2653,
      "step": 1740
    },
    {
      "epoch": 17.5,
      "grad_norm": 1.6175342798233032,
      "learning_rate": 0.00275,
      "loss": 2.2069,
      "step": 1750
    },
    {
      "epoch": 17.6,
      "grad_norm": 1.403396487236023,
      "learning_rate": 0.002746666666666667,
      "loss": 2.3708,
      "step": 1760
    },
    {
      "epoch": 17.7,
      "grad_norm": 3.4366719722747803,
      "learning_rate": 0.0027433333333333333,
      "loss": 2.2828,
      "step": 1770
    },
    {
      "epoch": 17.8,
      "grad_norm": 0.8872509598731995,
      "learning_rate": 0.0027400000000000002,
      "loss": 2.2382,
      "step": 1780
    },
    {
      "epoch": 17.9,
      "grad_norm": 3.1236143112182617,
      "learning_rate": 0.0027366666666666668,
      "loss": 2.3113,
      "step": 1790
    },
    {
      "epoch": 18.0,
      "grad_norm": 1.0595662593841553,
      "learning_rate": 0.0027333333333333333,
      "loss": 2.3568,
      "step": 1800
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.13,
      "eval_loss": 3.0675432682037354,
      "eval_runtime": 1.5416,
      "eval_samples_per_second": 64.868,
      "eval_steps_per_second": 64.868,
      "step": 1800
    },
    {
      "epoch": 18.1,
      "grad_norm": 0.9756940007209778,
      "learning_rate": 0.0027300000000000002,
      "loss": 2.2245,
      "step": 1810
    },
    {
      "epoch": 18.2,
      "grad_norm": 0.7749895453453064,
      "learning_rate": 0.0027266666666666667,
      "loss": 2.3375,
      "step": 1820
    },
    {
      "epoch": 18.3,
      "grad_norm": 0.6627314686775208,
      "learning_rate": 0.0027233333333333332,
      "loss": 2.2663,
      "step": 1830
    },
    {
      "epoch": 18.4,
      "grad_norm": 1.011854648590088,
      "learning_rate": 0.0027199999999999998,
      "loss": 2.4041,
      "step": 1840
    },
    {
      "epoch": 18.5,
      "grad_norm": 0.7713875770568848,
      "learning_rate": 0.0027166666666666667,
      "loss": 2.3269,
      "step": 1850
    },
    {
      "epoch": 18.6,
      "grad_norm": 1.3139779567718506,
      "learning_rate": 0.0027133333333333337,
      "loss": 2.23,
      "step": 1860
    },
    {
      "epoch": 18.7,
      "grad_norm": 1.9220070838928223,
      "learning_rate": 0.00271,
      "loss": 2.3241,
      "step": 1870
    },
    {
      "epoch": 18.8,
      "grad_norm": 0.8482495546340942,
      "learning_rate": 0.0027066666666666667,
      "loss": 2.2784,
      "step": 1880
    },
    {
      "epoch": 18.9,
      "grad_norm": 1.1331626176834106,
      "learning_rate": 0.002703333333333333,
      "loss": 2.3171,
      "step": 1890
    },
    {
      "epoch": 19.0,
      "grad_norm": 0.986213207244873,
      "learning_rate": 0.0027,
      "loss": 2.2627,
      "step": 1900
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.16,
      "eval_loss": 3.130782127380371,
      "eval_runtime": 1.5734,
      "eval_samples_per_second": 63.555,
      "eval_steps_per_second": 63.555,
      "step": 1900
    },
    {
      "epoch": 19.1,
      "grad_norm": 0.8398575782775879,
      "learning_rate": 0.0026966666666666667,
      "loss": 2.2865,
      "step": 1910
    },
    {
      "epoch": 19.2,
      "grad_norm": 0.8489543199539185,
      "learning_rate": 0.0026933333333333336,
      "loss": 2.2557,
      "step": 1920
    },
    {
      "epoch": 19.3,
      "grad_norm": 0.5991080403327942,
      "learning_rate": 0.0026899999999999997,
      "loss": 2.2589,
      "step": 1930
    },
    {
      "epoch": 19.4,
      "grad_norm": 0.8160009384155273,
      "learning_rate": 0.0026866666666666666,
      "loss": 2.255,
      "step": 1940
    },
    {
      "epoch": 19.5,
      "grad_norm": 0.9468734264373779,
      "learning_rate": 0.0026833333333333336,
      "loss": 2.2416,
      "step": 1950
    },
    {
      "epoch": 19.6,
      "grad_norm": 0.9367495775222778,
      "learning_rate": 0.00268,
      "loss": 2.2928,
      "step": 1960
    },
    {
      "epoch": 19.7,
      "grad_norm": 0.7771756649017334,
      "learning_rate": 0.0026766666666666666,
      "loss": 2.2837,
      "step": 1970
    },
    {
      "epoch": 19.8,
      "grad_norm": 0.5956035852432251,
      "learning_rate": 0.002673333333333333,
      "loss": 2.3056,
      "step": 1980
    },
    {
      "epoch": 19.9,
      "grad_norm": 0.8923712372779846,
      "learning_rate": 0.00267,
      "loss": 2.2434,
      "step": 1990
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.7316953539848328,
      "learning_rate": 0.0026666666666666666,
      "loss": 2.2528,
      "step": 2000
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.1,
      "eval_loss": 2.774110794067383,
      "eval_runtime": 2.0095,
      "eval_samples_per_second": 49.763,
      "eval_steps_per_second": 49.763,
      "step": 2000
    },
    {
      "epoch": 20.1,
      "grad_norm": 1.061279058456421,
      "learning_rate": 0.0026633333333333335,
      "loss": 2.199,
      "step": 2010
    },
    {
      "epoch": 20.2,
      "grad_norm": 0.8505630493164062,
      "learning_rate": 0.00266,
      "loss": 2.3343,
      "step": 2020
    },
    {
      "epoch": 20.3,
      "grad_norm": 4.665825366973877,
      "learning_rate": 0.0026566666666666666,
      "loss": 2.1988,
      "step": 2030
    },
    {
      "epoch": 20.4,
      "grad_norm": 0.6855554580688477,
      "learning_rate": 0.0026533333333333335,
      "loss": 2.1726,
      "step": 2040
    },
    {
      "epoch": 20.5,
      "grad_norm": 0.9635552167892456,
      "learning_rate": 0.00265,
      "loss": 2.3019,
      "step": 2050
    },
    {
      "epoch": 20.6,
      "grad_norm": 1.7395892143249512,
      "learning_rate": 0.002646666666666667,
      "loss": 2.1493,
      "step": 2060
    },
    {
      "epoch": 20.7,
      "grad_norm": 1.992548942565918,
      "learning_rate": 0.0026433333333333335,
      "loss": 2.1646,
      "step": 2070
    },
    {
      "epoch": 20.8,
      "grad_norm": 0.7224474549293518,
      "learning_rate": 0.00264,
      "loss": 2.1725,
      "step": 2080
    },
    {
      "epoch": 20.9,
      "grad_norm": 0.7668882012367249,
      "learning_rate": 0.002636666666666667,
      "loss": 2.1463,
      "step": 2090
    },
    {
      "epoch": 21.0,
      "grad_norm": 1.1540876626968384,
      "learning_rate": 0.0026333333333333334,
      "loss": 2.2039,
      "step": 2100
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.14,
      "eval_loss": 2.7257165908813477,
      "eval_runtime": 3.321,
      "eval_samples_per_second": 30.111,
      "eval_steps_per_second": 30.111,
      "step": 2100
    },
    {
      "epoch": 21.1,
      "grad_norm": 1.0657505989074707,
      "learning_rate": 0.00263,
      "loss": 2.1861,
      "step": 2110
    },
    {
      "epoch": 21.2,
      "grad_norm": 0.8397789597511292,
      "learning_rate": 0.0026266666666666665,
      "loss": 2.2868,
      "step": 2120
    },
    {
      "epoch": 21.3,
      "grad_norm": 5.241576194763184,
      "learning_rate": 0.0026233333333333334,
      "loss": 2.0992,
      "step": 2130
    },
    {
      "epoch": 21.4,
      "grad_norm": 1.619246006011963,
      "learning_rate": 0.00262,
      "loss": 2.1577,
      "step": 2140
    },
    {
      "epoch": 21.5,
      "grad_norm": 0.8214967250823975,
      "learning_rate": 0.002616666666666667,
      "loss": 2.2025,
      "step": 2150
    },
    {
      "epoch": 21.6,
      "grad_norm": 0.8782535195350647,
      "learning_rate": 0.0026133333333333334,
      "loss": 2.2666,
      "step": 2160
    },
    {
      "epoch": 21.7,
      "grad_norm": 0.6835685968399048,
      "learning_rate": 0.00261,
      "loss": 2.3608,
      "step": 2170
    },
    {
      "epoch": 21.8,
      "grad_norm": 0.7960027456283569,
      "learning_rate": 0.002606666666666667,
      "loss": 2.236,
      "step": 2180
    },
    {
      "epoch": 21.9,
      "grad_norm": 0.789070188999176,
      "learning_rate": 0.0026033333333333334,
      "loss": 2.214,
      "step": 2190
    },
    {
      "epoch": 22.0,
      "grad_norm": 0.8337671756744385,
      "learning_rate": 0.0026000000000000003,
      "loss": 2.389,
      "step": 2200
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.08,
      "eval_loss": 2.6245250701904297,
      "eval_runtime": 14.6732,
      "eval_samples_per_second": 6.815,
      "eval_steps_per_second": 6.815,
      "step": 2200
    },
    {
      "epoch": 22.1,
      "grad_norm": 0.6612998247146606,
      "learning_rate": 0.002596666666666667,
      "loss": 2.1623,
      "step": 2210
    },
    {
      "epoch": 22.2,
      "grad_norm": 0.5823114514350891,
      "learning_rate": 0.0025933333333333333,
      "loss": 2.2221,
      "step": 2220
    },
    {
      "epoch": 22.3,
      "grad_norm": 0.6718313694000244,
      "learning_rate": 0.00259,
      "loss": 2.2401,
      "step": 2230
    },
    {
      "epoch": 22.4,
      "grad_norm": 1.033048391342163,
      "learning_rate": 0.002586666666666667,
      "loss": 2.2093,
      "step": 2240
    },
    {
      "epoch": 22.5,
      "grad_norm": 0.9569495320320129,
      "learning_rate": 0.0025833333333333337,
      "loss": 2.1865,
      "step": 2250
    },
    {
      "epoch": 22.6,
      "grad_norm": 0.9927944540977478,
      "learning_rate": 0.00258,
      "loss": 2.2509,
      "step": 2260
    },
    {
      "epoch": 22.7,
      "grad_norm": 1.255365014076233,
      "learning_rate": 0.0025766666666666668,
      "loss": 2.2218,
      "step": 2270
    },
    {
      "epoch": 22.8,
      "grad_norm": 0.8008034229278564,
      "learning_rate": 0.0025733333333333333,
      "loss": 2.3508,
      "step": 2280
    },
    {
      "epoch": 22.9,
      "grad_norm": 1.643989086151123,
      "learning_rate": 0.0025700000000000002,
      "loss": 2.3481,
      "step": 2290
    },
    {
      "epoch": 23.0,
      "grad_norm": 0.7342652678489685,
      "learning_rate": 0.0025666666666666667,
      "loss": 2.31,
      "step": 2300
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.1,
      "eval_loss": 3.1869921684265137,
      "eval_runtime": 3.5166,
      "eval_samples_per_second": 28.437,
      "eval_steps_per_second": 28.437,
      "step": 2300
    },
    {
      "epoch": 23.1,
      "grad_norm": 4.475462913513184,
      "learning_rate": 0.0025633333333333333,
      "loss": 2.258,
      "step": 2310
    },
    {
      "epoch": 23.2,
      "grad_norm": 1.1528602838516235,
      "learning_rate": 0.00256,
      "loss": 2.2602,
      "step": 2320
    },
    {
      "epoch": 23.3,
      "grad_norm": 0.8095310926437378,
      "learning_rate": 0.0025566666666666667,
      "loss": 2.1602,
      "step": 2330
    },
    {
      "epoch": 23.4,
      "grad_norm": 1.0588278770446777,
      "learning_rate": 0.0025533333333333337,
      "loss": 2.1524,
      "step": 2340
    },
    {
      "epoch": 23.5,
      "grad_norm": 0.8519811630249023,
      "learning_rate": 0.00255,
      "loss": 2.1634,
      "step": 2350
    },
    {
      "epoch": 23.6,
      "grad_norm": 0.8368690013885498,
      "learning_rate": 0.0025466666666666667,
      "loss": 2.1851,
      "step": 2360
    },
    {
      "epoch": 23.7,
      "grad_norm": 0.6062741875648499,
      "learning_rate": 0.002543333333333333,
      "loss": 2.1097,
      "step": 2370
    },
    {
      "epoch": 23.8,
      "grad_norm": 1.054940938949585,
      "learning_rate": 0.00254,
      "loss": 2.2839,
      "step": 2380
    },
    {
      "epoch": 23.9,
      "grad_norm": 2.2694478034973145,
      "learning_rate": 0.0025366666666666667,
      "loss": 2.1951,
      "step": 2390
    },
    {
      "epoch": 24.0,
      "grad_norm": 1.1363869905471802,
      "learning_rate": 0.002533333333333333,
      "loss": 2.1471,
      "step": 2400
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.02,
      "eval_loss": 2.8313043117523193,
      "eval_runtime": 8.5714,
      "eval_samples_per_second": 11.667,
      "eval_steps_per_second": 11.667,
      "step": 2400
    },
    {
      "epoch": 24.1,
      "grad_norm": 0.9821159839630127,
      "learning_rate": 0.00253,
      "loss": 2.296,
      "step": 2410
    },
    {
      "epoch": 24.2,
      "grad_norm": 18.666667938232422,
      "learning_rate": 0.0025266666666666666,
      "loss": 2.194,
      "step": 2420
    },
    {
      "epoch": 24.3,
      "grad_norm": 0.906703531742096,
      "learning_rate": 0.0025233333333333336,
      "loss": 2.1612,
      "step": 2430
    },
    {
      "epoch": 24.4,
      "grad_norm": 0.8759214282035828,
      "learning_rate": 0.00252,
      "loss": 2.3219,
      "step": 2440
    },
    {
      "epoch": 24.5,
      "grad_norm": 2.061927556991577,
      "learning_rate": 0.0025166666666666666,
      "loss": 2.2479,
      "step": 2450
    },
    {
      "epoch": 24.6,
      "grad_norm": 1.9357784986495972,
      "learning_rate": 0.002513333333333333,
      "loss": 2.1494,
      "step": 2460
    },
    {
      "epoch": 24.7,
      "grad_norm": 0.7855737209320068,
      "learning_rate": 0.00251,
      "loss": 2.1368,
      "step": 2470
    },
    {
      "epoch": 24.8,
      "grad_norm": 1.1116645336151123,
      "learning_rate": 0.002506666666666667,
      "loss": 2.167,
      "step": 2480
    },
    {
      "epoch": 24.9,
      "grad_norm": 1.0230302810668945,
      "learning_rate": 0.0025033333333333335,
      "loss": 2.1518,
      "step": 2490
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.7969598174095154,
      "learning_rate": 0.0025,
      "loss": 2.1658,
      "step": 2500
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.11,
      "eval_loss": 2.9322524070739746,
      "eval_runtime": 14.5485,
      "eval_samples_per_second": 6.874,
      "eval_steps_per_second": 6.874,
      "step": 2500
    },
    {
      "epoch": 25.1,
      "grad_norm": 1.1143075227737427,
      "learning_rate": 0.0024966666666666666,
      "loss": 2.1519,
      "step": 2510
    },
    {
      "epoch": 25.2,
      "grad_norm": 1.9733251333236694,
      "learning_rate": 0.0024933333333333335,
      "loss": 2.2545,
      "step": 2520
    },
    {
      "epoch": 25.3,
      "grad_norm": 0.7734049558639526,
      "learning_rate": 0.00249,
      "loss": 2.3188,
      "step": 2530
    },
    {
      "epoch": 25.4,
      "grad_norm": 0.8898696303367615,
      "learning_rate": 0.0024866666666666665,
      "loss": 2.3433,
      "step": 2540
    },
    {
      "epoch": 25.5,
      "grad_norm": 0.9042370319366455,
      "learning_rate": 0.002483333333333333,
      "loss": 2.1533,
      "step": 2550
    },
    {
      "epoch": 25.6,
      "grad_norm": 0.7616782784461975,
      "learning_rate": 0.00248,
      "loss": 2.1676,
      "step": 2560
    },
    {
      "epoch": 25.7,
      "grad_norm": 1.0529074668884277,
      "learning_rate": 0.002476666666666667,
      "loss": 2.1489,
      "step": 2570
    },
    {
      "epoch": 25.8,
      "grad_norm": 0.6499335765838623,
      "learning_rate": 0.0024733333333333335,
      "loss": 2.1537,
      "step": 2580
    },
    {
      "epoch": 25.9,
      "grad_norm": 0.8011136054992676,
      "learning_rate": 0.00247,
      "loss": 2.1297,
      "step": 2590
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.7980877757072449,
      "learning_rate": 0.0024666666666666665,
      "loss": 2.0946,
      "step": 2600
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.14,
      "eval_loss": 2.8371801376342773,
      "eval_runtime": 20.2418,
      "eval_samples_per_second": 4.94,
      "eval_steps_per_second": 4.94,
      "step": 2600
    },
    {
      "epoch": 26.1,
      "grad_norm": 1.0512415170669556,
      "learning_rate": 0.0024633333333333334,
      "loss": 2.0609,
      "step": 2610
    },
    {
      "epoch": 26.2,
      "grad_norm": 0.7277994155883789,
      "learning_rate": 0.00246,
      "loss": 2.1957,
      "step": 2620
    },
    {
      "epoch": 26.3,
      "grad_norm": 0.7225540280342102,
      "learning_rate": 0.002456666666666667,
      "loss": 2.2818,
      "step": 2630
    },
    {
      "epoch": 26.4,
      "grad_norm": 0.833447277545929,
      "learning_rate": 0.0024533333333333334,
      "loss": 2.3521,
      "step": 2640
    },
    {
      "epoch": 26.5,
      "grad_norm": 0.6532344222068787,
      "learning_rate": 0.00245,
      "loss": 2.1103,
      "step": 2650
    },
    {
      "epoch": 26.6,
      "grad_norm": 1.618382215499878,
      "learning_rate": 0.002446666666666667,
      "loss": 2.1979,
      "step": 2660
    },
    {
      "epoch": 26.7,
      "grad_norm": 0.8852543830871582,
      "learning_rate": 0.0024433333333333334,
      "loss": 2.224,
      "step": 2670
    },
    {
      "epoch": 26.8,
      "grad_norm": 0.7051679491996765,
      "learning_rate": 0.00244,
      "loss": 2.2168,
      "step": 2680
    },
    {
      "epoch": 26.9,
      "grad_norm": 0.6945533752441406,
      "learning_rate": 0.0024366666666666664,
      "loss": 2.1522,
      "step": 2690
    },
    {
      "epoch": 27.0,
      "grad_norm": 0.8904722929000854,
      "learning_rate": 0.0024333333333333334,
      "loss": 2.0924,
      "step": 2700
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.16,
      "eval_loss": 2.740328073501587,
      "eval_runtime": 2.5835,
      "eval_samples_per_second": 38.707,
      "eval_steps_per_second": 38.707,
      "step": 2700
    },
    {
      "epoch": 27.1,
      "grad_norm": 1.0091406106948853,
      "learning_rate": 0.0024300000000000003,
      "loss": 2.143,
      "step": 2710
    },
    {
      "epoch": 27.2,
      "grad_norm": 1.1486680507659912,
      "learning_rate": 0.002426666666666667,
      "loss": 2.2661,
      "step": 2720
    },
    {
      "epoch": 27.3,
      "grad_norm": 1.3828904628753662,
      "learning_rate": 0.0024233333333333333,
      "loss": 2.0716,
      "step": 2730
    },
    {
      "epoch": 27.4,
      "grad_norm": 0.7337507009506226,
      "learning_rate": 0.00242,
      "loss": 2.2243,
      "step": 2740
    },
    {
      "epoch": 27.5,
      "grad_norm": 0.7662250399589539,
      "learning_rate": 0.002416666666666667,
      "loss": 2.2204,
      "step": 2750
    },
    {
      "epoch": 27.6,
      "grad_norm": 1.3254953622817993,
      "learning_rate": 0.0024133333333333333,
      "loss": 2.1401,
      "step": 2760
    },
    {
      "epoch": 27.7,
      "grad_norm": 1.6423826217651367,
      "learning_rate": 0.0024100000000000002,
      "loss": 2.1909,
      "step": 2770
    },
    {
      "epoch": 27.8,
      "grad_norm": 2.5181260108947754,
      "learning_rate": 0.0024066666666666668,
      "loss": 2.2194,
      "step": 2780
    },
    {
      "epoch": 27.9,
      "grad_norm": 1.975514531135559,
      "learning_rate": 0.0024033333333333333,
      "loss": 2.1208,
      "step": 2790
    },
    {
      "epoch": 28.0,
      "grad_norm": 1.0756447315216064,
      "learning_rate": 0.0024000000000000002,
      "loss": 2.2634,
      "step": 2800
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.14,
      "eval_loss": 2.899129867553711,
      "eval_runtime": 1.6216,
      "eval_samples_per_second": 61.667,
      "eval_steps_per_second": 61.667,
      "step": 2800
    },
    {
      "epoch": 28.1,
      "grad_norm": 0.6582184433937073,
      "learning_rate": 0.0023966666666666667,
      "loss": 2.1557,
      "step": 2810
    },
    {
      "epoch": 28.2,
      "grad_norm": 1.008514642715454,
      "learning_rate": 0.0023933333333333337,
      "loss": 2.1055,
      "step": 2820
    },
    {
      "epoch": 28.3,
      "grad_norm": 1.3647173643112183,
      "learning_rate": 0.0023899999999999998,
      "loss": 2.2375,
      "step": 2830
    },
    {
      "epoch": 28.4,
      "grad_norm": 1.080275058746338,
      "learning_rate": 0.0023866666666666667,
      "loss": 2.0351,
      "step": 2840
    },
    {
      "epoch": 28.5,
      "grad_norm": 0.8758491277694702,
      "learning_rate": 0.0023833333333333332,
      "loss": 2.1304,
      "step": 2850
    },
    {
      "epoch": 28.6,
      "grad_norm": 1.8762778043746948,
      "learning_rate": 0.00238,
      "loss": 2.0213,
      "step": 2860
    },
    {
      "epoch": 28.7,
      "grad_norm": 0.9291443228721619,
      "learning_rate": 0.0023766666666666667,
      "loss": 2.312,
      "step": 2870
    },
    {
      "epoch": 28.8,
      "grad_norm": 0.8882524967193604,
      "learning_rate": 0.002373333333333333,
      "loss": 2.2335,
      "step": 2880
    },
    {
      "epoch": 28.9,
      "grad_norm": 2.439899444580078,
      "learning_rate": 0.00237,
      "loss": 2.1726,
      "step": 2890
    },
    {
      "epoch": 29.0,
      "grad_norm": 0.9601397514343262,
      "learning_rate": 0.0023666666666666667,
      "loss": 2.1897,
      "step": 2900
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.13,
      "eval_loss": 2.877793073654175,
      "eval_runtime": 1.4621,
      "eval_samples_per_second": 68.395,
      "eval_steps_per_second": 68.395,
      "step": 2900
    },
    {
      "epoch": 29.1,
      "grad_norm": 1.6170096397399902,
      "learning_rate": 0.0023633333333333336,
      "loss": 2.19,
      "step": 2910
    },
    {
      "epoch": 29.2,
      "grad_norm": 1.087302803993225,
      "learning_rate": 0.00236,
      "loss": 2.1638,
      "step": 2920
    },
    {
      "epoch": 29.3,
      "grad_norm": 1.0109162330627441,
      "learning_rate": 0.0023566666666666666,
      "loss": 2.2992,
      "step": 2930
    },
    {
      "epoch": 29.4,
      "grad_norm": 0.9964456558227539,
      "learning_rate": 0.0023533333333333336,
      "loss": 2.2524,
      "step": 2940
    },
    {
      "epoch": 29.5,
      "grad_norm": 0.7667860984802246,
      "learning_rate": 0.00235,
      "loss": 2.1753,
      "step": 2950
    },
    {
      "epoch": 29.6,
      "grad_norm": 0.9033471941947937,
      "learning_rate": 0.002346666666666667,
      "loss": 2.1623,
      "step": 2960
    },
    {
      "epoch": 29.7,
      "grad_norm": 0.9565698504447937,
      "learning_rate": 0.002343333333333333,
      "loss": 2.1097,
      "step": 2970
    },
    {
      "epoch": 29.8,
      "grad_norm": 0.7799054384231567,
      "learning_rate": 0.00234,
      "loss": 1.966,
      "step": 2980
    },
    {
      "epoch": 29.9,
      "grad_norm": 1.8788676261901855,
      "learning_rate": 0.0023366666666666666,
      "loss": 2.1329,
      "step": 2990
    },
    {
      "epoch": 30.0,
      "grad_norm": 1.1009427309036255,
      "learning_rate": 0.0023333333333333335,
      "loss": 2.144,
      "step": 3000
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.15,
      "eval_loss": 2.604327917098999,
      "eval_runtime": 17.9498,
      "eval_samples_per_second": 5.571,
      "eval_steps_per_second": 5.571,
      "step": 3000
    },
    {
      "epoch": 30.1,
      "grad_norm": 1.678131341934204,
      "learning_rate": 0.00233,
      "loss": 1.8398,
      "step": 3010
    },
    {
      "epoch": 30.2,
      "grad_norm": 1.5525128841400146,
      "learning_rate": 0.0023266666666666666,
      "loss": 2.3239,
      "step": 3020
    },
    {
      "epoch": 30.3,
      "grad_norm": 5.229913711547852,
      "learning_rate": 0.0023233333333333335,
      "loss": 2.0991,
      "step": 3030
    },
    {
      "epoch": 30.4,
      "grad_norm": 7.659727096557617,
      "learning_rate": 0.00232,
      "loss": 2.2165,
      "step": 3040
    },
    {
      "epoch": 30.5,
      "grad_norm": 0.9004424214363098,
      "learning_rate": 0.002316666666666667,
      "loss": 2.1321,
      "step": 3050
    },
    {
      "epoch": 30.6,
      "grad_norm": 0.951036810874939,
      "learning_rate": 0.0023133333333333335,
      "loss": 2.2547,
      "step": 3060
    },
    {
      "epoch": 30.7,
      "grad_norm": 1.09541654586792,
      "learning_rate": 0.00231,
      "loss": 2.2086,
      "step": 3070
    },
    {
      "epoch": 30.8,
      "grad_norm": 1.0075805187225342,
      "learning_rate": 0.0023066666666666665,
      "loss": 2.1946,
      "step": 3080
    },
    {
      "epoch": 30.9,
      "grad_norm": 0.9394136071205139,
      "learning_rate": 0.0023033333333333334,
      "loss": 2.0717,
      "step": 3090
    },
    {
      "epoch": 31.0,
      "grad_norm": 16.980363845825195,
      "learning_rate": 0.0023000000000000004,
      "loss": 2.108,
      "step": 3100
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.1,
      "eval_loss": 2.9230871200561523,
      "eval_runtime": 2.0771,
      "eval_samples_per_second": 48.144,
      "eval_steps_per_second": 48.144,
      "step": 3100
    },
    {
      "epoch": 31.1,
      "grad_norm": 0.7811866998672485,
      "learning_rate": 0.0022966666666666665,
      "loss": 2.0036,
      "step": 3110
    },
    {
      "epoch": 31.2,
      "grad_norm": 1.2719967365264893,
      "learning_rate": 0.0022933333333333334,
      "loss": 2.1995,
      "step": 3120
    },
    {
      "epoch": 31.3,
      "grad_norm": 1.078188180923462,
      "learning_rate": 0.00229,
      "loss": 2.1495,
      "step": 3130
    },
    {
      "epoch": 31.4,
      "grad_norm": 0.8753488659858704,
      "learning_rate": 0.002286666666666667,
      "loss": 2.1775,
      "step": 3140
    },
    {
      "epoch": 31.5,
      "grad_norm": 2.4827558994293213,
      "learning_rate": 0.0022833333333333334,
      "loss": 2.1295,
      "step": 3150
    },
    {
      "epoch": 31.6,
      "grad_norm": 0.9391091465950012,
      "learning_rate": 0.00228,
      "loss": 2.2033,
      "step": 3160
    },
    {
      "epoch": 31.7,
      "grad_norm": 1.3996204137802124,
      "learning_rate": 0.0022766666666666664,
      "loss": 2.1935,
      "step": 3170
    },
    {
      "epoch": 31.8,
      "grad_norm": 1.8268276453018188,
      "learning_rate": 0.0022733333333333334,
      "loss": 2.1358,
      "step": 3180
    },
    {
      "epoch": 31.9,
      "grad_norm": 0.9824120998382568,
      "learning_rate": 0.0022700000000000003,
      "loss": 2.2574,
      "step": 3190
    },
    {
      "epoch": 32.0,
      "grad_norm": 1.0939769744873047,
      "learning_rate": 0.002266666666666667,
      "loss": 2.0792,
      "step": 3200
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.12,
      "eval_loss": 2.8421480655670166,
      "eval_runtime": 16.1564,
      "eval_samples_per_second": 6.19,
      "eval_steps_per_second": 6.19,
      "step": 3200
    },
    {
      "epoch": 32.1,
      "grad_norm": 2.173068046569824,
      "learning_rate": 0.0022633333333333333,
      "loss": 2.1458,
      "step": 3210
    },
    {
      "epoch": 32.2,
      "grad_norm": 1.260406255722046,
      "learning_rate": 0.00226,
      "loss": 2.2069,
      "step": 3220
    },
    {
      "epoch": 32.3,
      "grad_norm": 2.277165412902832,
      "learning_rate": 0.002256666666666667,
      "loss": 2.0435,
      "step": 3230
    },
    {
      "epoch": 32.4,
      "grad_norm": 1.674475073814392,
      "learning_rate": 0.0022533333333333333,
      "loss": 2.0519,
      "step": 3240
    },
    {
      "epoch": 32.5,
      "grad_norm": 3.267179250717163,
      "learning_rate": 0.0022500000000000003,
      "loss": 2.0692,
      "step": 3250
    },
    {
      "epoch": 32.6,
      "grad_norm": 1.6023820638656616,
      "learning_rate": 0.0022466666666666668,
      "loss": 2.1639,
      "step": 3260
    },
    {
      "epoch": 32.7,
      "grad_norm": 1.2279607057571411,
      "learning_rate": 0.0022433333333333333,
      "loss": 2.2729,
      "step": 3270
    },
    {
      "epoch": 32.8,
      "grad_norm": 1.635674238204956,
      "learning_rate": 0.0022400000000000002,
      "loss": 2.0502,
      "step": 3280
    },
    {
      "epoch": 32.9,
      "grad_norm": 1.9051593542099,
      "learning_rate": 0.0022366666666666668,
      "loss": 2.1046,
      "step": 3290
    },
    {
      "epoch": 33.0,
      "grad_norm": 2.705409288406372,
      "learning_rate": 0.0022333333333333333,
      "loss": 2.1552,
      "step": 3300
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.12,
      "eval_loss": 2.8105697631835938,
      "eval_runtime": 1.4693,
      "eval_samples_per_second": 68.06,
      "eval_steps_per_second": 68.06,
      "step": 3300
    },
    {
      "epoch": 33.1,
      "grad_norm": 1.1642463207244873,
      "learning_rate": 0.0022299999999999998,
      "loss": 2.0948,
      "step": 3310
    },
    {
      "epoch": 33.2,
      "grad_norm": 1.0376132726669312,
      "learning_rate": 0.0022266666666666667,
      "loss": 1.9741,
      "step": 3320
    },
    {
      "epoch": 33.3,
      "grad_norm": 0.9662061929702759,
      "learning_rate": 0.0022233333333333337,
      "loss": 2.2141,
      "step": 3330
    },
    {
      "epoch": 33.4,
      "grad_norm": 2.136995315551758,
      "learning_rate": 0.00222,
      "loss": 2.1053,
      "step": 3340
    },
    {
      "epoch": 33.5,
      "grad_norm": 1.45195734500885,
      "learning_rate": 0.0022166666666666667,
      "loss": 1.9399,
      "step": 3350
    },
    {
      "epoch": 33.6,
      "grad_norm": 3.21307635307312,
      "learning_rate": 0.002213333333333333,
      "loss": 2.0541,
      "step": 3360
    },
    {
      "epoch": 33.7,
      "grad_norm": 3.3870184421539307,
      "learning_rate": 0.00221,
      "loss": 2.2113,
      "step": 3370
    },
    {
      "epoch": 33.8,
      "grad_norm": 1.0837563276290894,
      "learning_rate": 0.0022066666666666667,
      "loss": 2.1593,
      "step": 3380
    },
    {
      "epoch": 33.9,
      "grad_norm": 0.9785754084587097,
      "learning_rate": 0.0022033333333333336,
      "loss": 1.9864,
      "step": 3390
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.8373335599899292,
      "learning_rate": 0.0021999999999999997,
      "loss": 1.9701,
      "step": 3400
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.11,
      "eval_loss": 2.8279080390930176,
      "eval_runtime": 1.9248,
      "eval_samples_per_second": 51.952,
      "eval_steps_per_second": 51.952,
      "step": 3400
    },
    {
      "epoch": 34.1,
      "grad_norm": 3.9834160804748535,
      "learning_rate": 0.0021966666666666666,
      "loss": 1.9581,
      "step": 3410
    },
    {
      "epoch": 34.2,
      "grad_norm": 2.2129085063934326,
      "learning_rate": 0.0021933333333333336,
      "loss": 2.1602,
      "step": 3420
    },
    {
      "epoch": 34.3,
      "grad_norm": 1.1896631717681885,
      "learning_rate": 0.00219,
      "loss": 1.9392,
      "step": 3430
    },
    {
      "epoch": 34.4,
      "grad_norm": 2.016221523284912,
      "learning_rate": 0.0021866666666666666,
      "loss": 2.0553,
      "step": 3440
    },
    {
      "epoch": 34.5,
      "grad_norm": 4.773040771484375,
      "learning_rate": 0.002183333333333333,
      "loss": 2.0734,
      "step": 3450
    },
    {
      "epoch": 34.6,
      "grad_norm": 5.7598700523376465,
      "learning_rate": 0.00218,
      "loss": 2.2854,
      "step": 3460
    },
    {
      "epoch": 34.7,
      "grad_norm": 1.4225116968154907,
      "learning_rate": 0.0021766666666666666,
      "loss": 2.0867,
      "step": 3470
    },
    {
      "epoch": 34.8,
      "grad_norm": 1.354988932609558,
      "learning_rate": 0.0021733333333333335,
      "loss": 2.2302,
      "step": 3480
    },
    {
      "epoch": 34.9,
      "grad_norm": 1.966841220855713,
      "learning_rate": 0.00217,
      "loss": 2.1435,
      "step": 3490
    },
    {
      "epoch": 35.0,
      "grad_norm": 1.5340888500213623,
      "learning_rate": 0.0021666666666666666,
      "loss": 1.9291,
      "step": 3500
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.2,
      "eval_loss": 3.095371961593628,
      "eval_runtime": 1.5179,
      "eval_samples_per_second": 65.88,
      "eval_steps_per_second": 65.88,
      "step": 3500
    },
    {
      "epoch": 35.1,
      "grad_norm": 0.9103881120681763,
      "learning_rate": 0.0021633333333333335,
      "loss": 2.0579,
      "step": 3510
    },
    {
      "epoch": 35.2,
      "grad_norm": 1.3390625715255737,
      "learning_rate": 0.00216,
      "loss": 2.1574,
      "step": 3520
    },
    {
      "epoch": 35.3,
      "grad_norm": 1.6019049882888794,
      "learning_rate": 0.002156666666666667,
      "loss": 2.1393,
      "step": 3530
    },
    {
      "epoch": 35.4,
      "grad_norm": 1.694638967514038,
      "learning_rate": 0.002153333333333333,
      "loss": 1.8902,
      "step": 3540
    },
    {
      "epoch": 35.5,
      "grad_norm": 0.9266729354858398,
      "learning_rate": 0.00215,
      "loss": 2.1477,
      "step": 3550
    },
    {
      "epoch": 35.6,
      "grad_norm": 1.482827067375183,
      "learning_rate": 0.0021466666666666665,
      "loss": 2.2807,
      "step": 3560
    },
    {
      "epoch": 35.7,
      "grad_norm": 1.5569509267807007,
      "learning_rate": 0.0021433333333333335,
      "loss": 1.9552,
      "step": 3570
    },
    {
      "epoch": 35.8,
      "grad_norm": 2.367547035217285,
      "learning_rate": 0.00214,
      "loss": 1.9954,
      "step": 3580
    },
    {
      "epoch": 35.9,
      "grad_norm": 6.488295555114746,
      "learning_rate": 0.0021366666666666665,
      "loss": 1.9197,
      "step": 3590
    },
    {
      "epoch": 36.0,
      "grad_norm": 2.1058995723724365,
      "learning_rate": 0.0021333333333333334,
      "loss": 2.0341,
      "step": 3600
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.14,
      "eval_loss": 3.829360246658325,
      "eval_runtime": 1.4462,
      "eval_samples_per_second": 69.145,
      "eval_steps_per_second": 69.145,
      "step": 3600
    },
    {
      "epoch": 36.1,
      "grad_norm": 2.136566162109375,
      "learning_rate": 0.00213,
      "loss": 2.0017,
      "step": 3610
    },
    {
      "epoch": 36.2,
      "grad_norm": 3.5907399654388428,
      "learning_rate": 0.002126666666666667,
      "loss": 2.0714,
      "step": 3620
    },
    {
      "epoch": 36.3,
      "grad_norm": 1.7881414890289307,
      "learning_rate": 0.0021233333333333334,
      "loss": 1.892,
      "step": 3630
    },
    {
      "epoch": 36.4,
      "grad_norm": 2.1000165939331055,
      "learning_rate": 0.00212,
      "loss": 1.9525,
      "step": 3640
    },
    {
      "epoch": 36.5,
      "grad_norm": 1.9690414667129517,
      "learning_rate": 0.002116666666666667,
      "loss": 2.1597,
      "step": 3650
    },
    {
      "epoch": 36.6,
      "grad_norm": 18.85406494140625,
      "learning_rate": 0.0021133333333333334,
      "loss": 2.0152,
      "step": 3660
    },
    {
      "epoch": 36.7,
      "grad_norm": 1.5097402334213257,
      "learning_rate": 0.0021100000000000003,
      "loss": 2.1268,
      "step": 3670
    },
    {
      "epoch": 36.8,
      "grad_norm": 1.0894497632980347,
      "learning_rate": 0.0021066666666666664,
      "loss": 1.9798,
      "step": 3680
    },
    {
      "epoch": 36.9,
      "grad_norm": 1.648740530014038,
      "learning_rate": 0.0021033333333333334,
      "loss": 2.0881,
      "step": 3690
    },
    {
      "epoch": 37.0,
      "grad_norm": 1.3611383438110352,
      "learning_rate": 0.0021,
      "loss": 1.9165,
      "step": 3700
    },
    {
      "epoch": 37.0,
      "eval_accuracy": 0.11,
      "eval_loss": 4.528919219970703,
      "eval_runtime": 1.2924,
      "eval_samples_per_second": 77.378,
      "eval_steps_per_second": 77.378,
      "step": 3700
    },
    {
      "epoch": 37.1,
      "grad_norm": 1.7880363464355469,
      "learning_rate": 0.002096666666666667,
      "loss": 1.9742,
      "step": 3710
    },
    {
      "epoch": 37.2,
      "grad_norm": 2.8415615558624268,
      "learning_rate": 0.0020933333333333333,
      "loss": 1.895,
      "step": 3720
    },
    {
      "epoch": 37.3,
      "grad_norm": 1.9049543142318726,
      "learning_rate": 0.00209,
      "loss": 2.0672,
      "step": 3730
    },
    {
      "epoch": 37.4,
      "grad_norm": 2.0513916015625,
      "learning_rate": 0.002086666666666667,
      "loss": 2.0711,
      "step": 3740
    },
    {
      "epoch": 37.5,
      "grad_norm": 3.3003621101379395,
      "learning_rate": 0.0020833333333333333,
      "loss": 1.9041,
      "step": 3750
    },
    {
      "epoch": 37.6,
      "grad_norm": 1.8238269090652466,
      "learning_rate": 0.0020800000000000003,
      "loss": 1.7664,
      "step": 3760
    },
    {
      "epoch": 37.7,
      "grad_norm": 7.668329238891602,
      "learning_rate": 0.0020766666666666668,
      "loss": 2.0638,
      "step": 3770
    },
    {
      "epoch": 37.8,
      "grad_norm": 3.996469497680664,
      "learning_rate": 0.0020733333333333333,
      "loss": 2.1055,
      "step": 3780
    },
    {
      "epoch": 37.9,
      "grad_norm": 2.3909971714019775,
      "learning_rate": 0.00207,
      "loss": 2.1815,
      "step": 3790
    },
    {
      "epoch": 38.0,
      "grad_norm": 1.826292634010315,
      "learning_rate": 0.0020666666666666667,
      "loss": 1.9736,
      "step": 3800
    },
    {
      "epoch": 38.0,
      "eval_accuracy": 0.14,
      "eval_loss": 3.008984088897705,
      "eval_runtime": 10.9545,
      "eval_samples_per_second": 9.129,
      "eval_steps_per_second": 9.129,
      "step": 3800
    },
    {
      "epoch": 38.1,
      "grad_norm": 1.2425639629364014,
      "learning_rate": 0.0020633333333333337,
      "loss": 1.9483,
      "step": 3810
    },
    {
      "epoch": 38.2,
      "grad_norm": 1.175968885421753,
      "learning_rate": 0.00206,
      "loss": 2.0578,
      "step": 3820
    },
    {
      "epoch": 38.3,
      "grad_norm": 1.353892207145691,
      "learning_rate": 0.0020566666666666667,
      "loss": 2.0149,
      "step": 3830
    },
    {
      "epoch": 38.4,
      "grad_norm": 4.131348609924316,
      "learning_rate": 0.0020533333333333332,
      "loss": 1.9459,
      "step": 3840
    },
    {
      "epoch": 38.5,
      "grad_norm": 0.8871080875396729,
      "learning_rate": 0.00205,
      "loss": 2.1865,
      "step": 3850
    },
    {
      "epoch": 38.6,
      "grad_norm": 1.6456680297851562,
      "learning_rate": 0.0020466666666666667,
      "loss": 2.1644,
      "step": 3860
    },
    {
      "epoch": 38.7,
      "grad_norm": 2.714493751525879,
      "learning_rate": 0.002043333333333333,
      "loss": 2.0765,
      "step": 3870
    },
    {
      "epoch": 38.8,
      "grad_norm": 2.0388987064361572,
      "learning_rate": 0.00204,
      "loss": 2.1691,
      "step": 3880
    },
    {
      "epoch": 38.9,
      "grad_norm": 3.4107553958892822,
      "learning_rate": 0.0020366666666666667,
      "loss": 2.0441,
      "step": 3890
    },
    {
      "epoch": 39.0,
      "grad_norm": 0.9831299781799316,
      "learning_rate": 0.0020333333333333336,
      "loss": 1.9811,
      "step": 3900
    },
    {
      "epoch": 39.0,
      "eval_accuracy": 0.14,
      "eval_loss": 5.389962673187256,
      "eval_runtime": 1.4328,
      "eval_samples_per_second": 69.795,
      "eval_steps_per_second": 69.795,
      "step": 3900
    },
    {
      "epoch": 39.1,
      "grad_norm": 2.0271992683410645,
      "learning_rate": 0.00203,
      "loss": 1.9809,
      "step": 3910
    },
    {
      "epoch": 39.2,
      "grad_norm": 1.5080064535140991,
      "learning_rate": 0.0020266666666666666,
      "loss": 2.2516,
      "step": 3920
    },
    {
      "epoch": 39.3,
      "grad_norm": 1.161217451095581,
      "learning_rate": 0.002023333333333333,
      "loss": 1.9206,
      "step": 3930
    },
    {
      "epoch": 39.4,
      "grad_norm": 1.4843965768814087,
      "learning_rate": 0.00202,
      "loss": 1.8808,
      "step": 3940
    },
    {
      "epoch": 39.5,
      "grad_norm": 1.6773492097854614,
      "learning_rate": 0.002016666666666667,
      "loss": 1.8472,
      "step": 3950
    },
    {
      "epoch": 39.6,
      "grad_norm": 1.0647914409637451,
      "learning_rate": 0.0020133333333333336,
      "loss": 2.019,
      "step": 3960
    },
    {
      "epoch": 39.7,
      "grad_norm": 1.747930884361267,
      "learning_rate": 0.00201,
      "loss": 2.1662,
      "step": 3970
    },
    {
      "epoch": 39.8,
      "grad_norm": 2.1393418312072754,
      "learning_rate": 0.0020066666666666666,
      "loss": 2.1175,
      "step": 3980
    },
    {
      "epoch": 39.9,
      "grad_norm": 2.0009078979492188,
      "learning_rate": 0.0020033333333333335,
      "loss": 2.0526,
      "step": 3990
    },
    {
      "epoch": 40.0,
      "grad_norm": 0.8706101179122925,
      "learning_rate": 0.002,
      "loss": 1.9522,
      "step": 4000
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.08,
      "eval_loss": 3.5710408687591553,
      "eval_runtime": 11.4581,
      "eval_samples_per_second": 8.727,
      "eval_steps_per_second": 8.727,
      "step": 4000
    },
    {
      "epoch": 40.1,
      "grad_norm": 1.443403959274292,
      "learning_rate": 0.0019966666666666666,
      "loss": 1.9578,
      "step": 4010
    },
    {
      "epoch": 40.2,
      "grad_norm": 1.0098460912704468,
      "learning_rate": 0.001993333333333333,
      "loss": 1.9322,
      "step": 4020
    },
    {
      "epoch": 40.3,
      "grad_norm": 2.6353437900543213,
      "learning_rate": 0.00199,
      "loss": 1.9057,
      "step": 4030
    },
    {
      "epoch": 40.4,
      "grad_norm": 3.636230230331421,
      "learning_rate": 0.001986666666666667,
      "loss": 2.2036,
      "step": 4040
    },
    {
      "epoch": 40.5,
      "grad_norm": 2.8781425952911377,
      "learning_rate": 0.0019833333333333335,
      "loss": 2.1279,
      "step": 4050
    },
    {
      "epoch": 40.6,
      "grad_norm": 2.572105646133423,
      "learning_rate": 0.00198,
      "loss": 1.9084,
      "step": 4060
    },
    {
      "epoch": 40.7,
      "grad_norm": 1.249396800994873,
      "learning_rate": 0.0019766666666666665,
      "loss": 1.8248,
      "step": 4070
    },
    {
      "epoch": 40.8,
      "grad_norm": 7.5078959465026855,
      "learning_rate": 0.0019733333333333334,
      "loss": 1.911,
      "step": 4080
    },
    {
      "epoch": 40.9,
      "grad_norm": 3.5880582332611084,
      "learning_rate": 0.00197,
      "loss": 2.0661,
      "step": 4090
    },
    {
      "epoch": 41.0,
      "grad_norm": 5.388538360595703,
      "learning_rate": 0.001966666666666667,
      "loss": 2.047,
      "step": 4100
    },
    {
      "epoch": 41.0,
      "eval_accuracy": 0.13,
      "eval_loss": 3.472397565841675,
      "eval_runtime": 7.0399,
      "eval_samples_per_second": 14.205,
      "eval_steps_per_second": 14.205,
      "step": 4100
    },
    {
      "epoch": 41.1,
      "grad_norm": 1.7672760486602783,
      "learning_rate": 0.0019633333333333334,
      "loss": 2.1461,
      "step": 4110
    },
    {
      "epoch": 41.2,
      "grad_norm": 3.0011463165283203,
      "learning_rate": 0.00196,
      "loss": 2.053,
      "step": 4120
    },
    {
      "epoch": 41.3,
      "grad_norm": 1.1528350114822388,
      "learning_rate": 0.001956666666666667,
      "loss": 1.8176,
      "step": 4130
    },
    {
      "epoch": 41.4,
      "grad_norm": 2.7469072341918945,
      "learning_rate": 0.0019533333333333334,
      "loss": 2.1321,
      "step": 4140
    },
    {
      "epoch": 41.5,
      "grad_norm": 1.233780860900879,
      "learning_rate": 0.0019500000000000001,
      "loss": 1.9267,
      "step": 4150
    },
    {
      "epoch": 41.6,
      "grad_norm": 1.0265371799468994,
      "learning_rate": 0.0019466666666666666,
      "loss": 1.9318,
      "step": 4160
    },
    {
      "epoch": 41.7,
      "grad_norm": 1.1822024583816528,
      "learning_rate": 0.0019433333333333334,
      "loss": 2.0635,
      "step": 4170
    },
    {
      "epoch": 41.8,
      "grad_norm": 6.102161407470703,
      "learning_rate": 0.0019399999999999999,
      "loss": 1.8995,
      "step": 4180
    },
    {
      "epoch": 41.9,
      "grad_norm": 2.581594467163086,
      "learning_rate": 0.0019366666666666666,
      "loss": 1.815,
      "step": 4190
    },
    {
      "epoch": 42.0,
      "grad_norm": 1.29677414894104,
      "learning_rate": 0.0019333333333333336,
      "loss": 1.9999,
      "step": 4200
    },
    {
      "epoch": 42.0,
      "eval_accuracy": 0.11,
      "eval_loss": 7.260364532470703,
      "eval_runtime": 19.8343,
      "eval_samples_per_second": 5.042,
      "eval_steps_per_second": 5.042,
      "step": 4200
    },
    {
      "epoch": 42.1,
      "grad_norm": 6.908992290496826,
      "learning_rate": 0.00193,
      "loss": 1.8636,
      "step": 4210
    },
    {
      "epoch": 42.2,
      "grad_norm": 2.6703882217407227,
      "learning_rate": 0.0019266666666666668,
      "loss": 1.9093,
      "step": 4220
    },
    {
      "epoch": 42.3,
      "grad_norm": 3.580500841140747,
      "learning_rate": 0.0019233333333333333,
      "loss": 2.0113,
      "step": 4230
    },
    {
      "epoch": 42.4,
      "grad_norm": 3.339911937713623,
      "learning_rate": 0.00192,
      "loss": 1.8378,
      "step": 4240
    },
    {
      "epoch": 42.5,
      "grad_norm": 1.8307009935379028,
      "learning_rate": 0.0019166666666666666,
      "loss": 2.017,
      "step": 4250
    },
    {
      "epoch": 42.6,
      "grad_norm": 3.4338369369506836,
      "learning_rate": 0.0019133333333333333,
      "loss": 2.1168,
      "step": 4260
    },
    {
      "epoch": 42.7,
      "grad_norm": 5.363007545471191,
      "learning_rate": 0.0019100000000000002,
      "loss": 2.1431,
      "step": 4270
    },
    {
      "epoch": 42.8,
      "grad_norm": 1.6690889596939087,
      "learning_rate": 0.0019066666666666668,
      "loss": 1.8596,
      "step": 4280
    },
    {
      "epoch": 42.9,
      "grad_norm": 3.8428828716278076,
      "learning_rate": 0.0019033333333333335,
      "loss": 1.8642,
      "step": 4290
    },
    {
      "epoch": 43.0,
      "grad_norm": 2.877225160598755,
      "learning_rate": 0.0019,
      "loss": 1.9869,
      "step": 4300
    },
    {
      "epoch": 43.0,
      "eval_accuracy": 0.06,
      "eval_loss": 7.994565010070801,
      "eval_runtime": 3.2267,
      "eval_samples_per_second": 30.991,
      "eval_steps_per_second": 30.991,
      "step": 4300
    },
    {
      "epoch": 43.1,
      "grad_norm": 2.577849864959717,
      "learning_rate": 0.0018966666666666667,
      "loss": 1.9454,
      "step": 4310
    },
    {
      "epoch": 43.2,
      "grad_norm": 1.6029572486877441,
      "learning_rate": 0.0018933333333333332,
      "loss": 1.7824,
      "step": 4320
    },
    {
      "epoch": 43.3,
      "grad_norm": 3.6236324310302734,
      "learning_rate": 0.00189,
      "loss": 1.9488,
      "step": 4330
    },
    {
      "epoch": 43.4,
      "grad_norm": 2.585770845413208,
      "learning_rate": 0.001886666666666667,
      "loss": 2.0196,
      "step": 4340
    },
    {
      "epoch": 43.5,
      "grad_norm": 1.989559531211853,
      "learning_rate": 0.0018833333333333334,
      "loss": 2.112,
      "step": 4350
    },
    {
      "epoch": 43.6,
      "grad_norm": 1.21571683883667,
      "learning_rate": 0.0018800000000000002,
      "loss": 1.8392,
      "step": 4360
    },
    {
      "epoch": 43.7,
      "grad_norm": 1.674765944480896,
      "learning_rate": 0.0018766666666666667,
      "loss": 1.9925,
      "step": 4370
    },
    {
      "epoch": 43.8,
      "grad_norm": 1.5830934047698975,
      "learning_rate": 0.0018733333333333334,
      "loss": 1.9278,
      "step": 4380
    },
    {
      "epoch": 43.9,
      "grad_norm": 3.7739739418029785,
      "learning_rate": 0.00187,
      "loss": 1.9097,
      "step": 4390
    },
    {
      "epoch": 44.0,
      "grad_norm": 1.0863910913467407,
      "learning_rate": 0.0018666666666666666,
      "loss": 1.9428,
      "step": 4400
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.08,
      "eval_loss": 6.156602382659912,
      "eval_runtime": 1.6006,
      "eval_samples_per_second": 62.478,
      "eval_steps_per_second": 62.478,
      "step": 4400
    },
    {
      "epoch": 44.1,
      "grad_norm": 1.9607887268066406,
      "learning_rate": 0.0018633333333333332,
      "loss": 2.0214,
      "step": 4410
    },
    {
      "epoch": 44.2,
      "grad_norm": 0.9546820521354675,
      "learning_rate": 0.00186,
      "loss": 2.0561,
      "step": 4420
    },
    {
      "epoch": 44.3,
      "grad_norm": 3.94052791595459,
      "learning_rate": 0.0018566666666666668,
      "loss": 1.8098,
      "step": 4430
    },
    {
      "epoch": 44.4,
      "grad_norm": 1.6813486814498901,
      "learning_rate": 0.0018533333333333334,
      "loss": 1.8502,
      "step": 4440
    },
    {
      "epoch": 44.5,
      "grad_norm": 2.918163299560547,
      "learning_rate": 0.00185,
      "loss": 1.7545,
      "step": 4450
    },
    {
      "epoch": 44.6,
      "grad_norm": 2.301067352294922,
      "learning_rate": 0.0018466666666666666,
      "loss": 2.1371,
      "step": 4460
    },
    {
      "epoch": 44.7,
      "grad_norm": 4.0886712074279785,
      "learning_rate": 0.0018433333333333333,
      "loss": 2.0279,
      "step": 4470
    },
    {
      "epoch": 44.8,
      "grad_norm": 1.5965591669082642,
      "learning_rate": 0.0018399999999999998,
      "loss": 2.0054,
      "step": 4480
    },
    {
      "epoch": 44.9,
      "grad_norm": 1.5079519748687744,
      "learning_rate": 0.0018366666666666668,
      "loss": 1.8201,
      "step": 4490
    },
    {
      "epoch": 45.0,
      "grad_norm": 2.8402748107910156,
      "learning_rate": 0.0018333333333333335,
      "loss": 1.7922,
      "step": 4500
    },
    {
      "epoch": 45.0,
      "eval_accuracy": 0.03,
      "eval_loss": 4.991882801055908,
      "eval_runtime": 1.6352,
      "eval_samples_per_second": 61.156,
      "eval_steps_per_second": 61.156,
      "step": 4500
    },
    {
      "epoch": 45.1,
      "grad_norm": 2.2311179637908936,
      "learning_rate": 0.00183,
      "loss": 1.8237,
      "step": 4510
    },
    {
      "epoch": 45.2,
      "grad_norm": 1.873672604560852,
      "learning_rate": 0.0018266666666666668,
      "loss": 1.9774,
      "step": 4520
    },
    {
      "epoch": 45.3,
      "grad_norm": 2.2289321422576904,
      "learning_rate": 0.0018233333333333333,
      "loss": 2.0517,
      "step": 4530
    },
    {
      "epoch": 45.4,
      "grad_norm": 4.614668846130371,
      "learning_rate": 0.00182,
      "loss": 1.8622,
      "step": 4540
    },
    {
      "epoch": 45.5,
      "grad_norm": 2.254178285598755,
      "learning_rate": 0.0018166666666666665,
      "loss": 1.9902,
      "step": 4550
    },
    {
      "epoch": 45.6,
      "grad_norm": 5.717199325561523,
      "learning_rate": 0.0018133333333333335,
      "loss": 2.0937,
      "step": 4560
    },
    {
      "epoch": 45.7,
      "grad_norm": 2.302830219268799,
      "learning_rate": 0.0018100000000000002,
      "loss": 1.8008,
      "step": 4570
    },
    {
      "epoch": 45.8,
      "grad_norm": 3.8907456398010254,
      "learning_rate": 0.0018066666666666667,
      "loss": 1.8008,
      "step": 4580
    },
    {
      "epoch": 45.9,
      "grad_norm": 3.854527711868286,
      "learning_rate": 0.0018033333333333334,
      "loss": 1.9225,
      "step": 4590
    },
    {
      "epoch": 46.0,
      "grad_norm": 2.202763795852661,
      "learning_rate": 0.0018,
      "loss": 1.9047,
      "step": 4600
    },
    {
      "epoch": 46.0,
      "eval_accuracy": 0.13,
      "eval_loss": 7.193399429321289,
      "eval_runtime": 1.5717,
      "eval_samples_per_second": 63.626,
      "eval_steps_per_second": 63.626,
      "step": 4600
    },
    {
      "epoch": 46.1,
      "grad_norm": 0.9213665723800659,
      "learning_rate": 0.0017966666666666667,
      "loss": 1.8289,
      "step": 4610
    },
    {
      "epoch": 46.2,
      "grad_norm": 1.6906572580337524,
      "learning_rate": 0.0017933333333333332,
      "loss": 2.1097,
      "step": 4620
    },
    {
      "epoch": 46.3,
      "grad_norm": 4.417488098144531,
      "learning_rate": 0.0017900000000000001,
      "loss": 1.8328,
      "step": 4630
    },
    {
      "epoch": 46.4,
      "grad_norm": 1.8122247457504272,
      "learning_rate": 0.0017866666666666667,
      "loss": 2.0426,
      "step": 4640
    },
    {
      "epoch": 46.5,
      "grad_norm": 2.3169689178466797,
      "learning_rate": 0.0017833333333333334,
      "loss": 1.8678,
      "step": 4650
    },
    {
      "epoch": 46.6,
      "grad_norm": 2.3043506145477295,
      "learning_rate": 0.0017800000000000001,
      "loss": 1.9539,
      "step": 4660
    },
    {
      "epoch": 46.7,
      "grad_norm": 3.5980923175811768,
      "learning_rate": 0.0017766666666666666,
      "loss": 1.9287,
      "step": 4670
    },
    {
      "epoch": 46.8,
      "grad_norm": 4.76849365234375,
      "learning_rate": 0.0017733333333333334,
      "loss": 1.948,
      "step": 4680
    },
    {
      "epoch": 46.9,
      "grad_norm": 1.292289137840271,
      "learning_rate": 0.0017699999999999999,
      "loss": 2.1434,
      "step": 4690
    },
    {
      "epoch": 47.0,
      "grad_norm": 6.172546863555908,
      "learning_rate": 0.0017666666666666668,
      "loss": 1.9419,
      "step": 4700
    },
    {
      "epoch": 47.0,
      "eval_accuracy": 0.08,
      "eval_loss": 4.326533317565918,
      "eval_runtime": 1.6119,
      "eval_samples_per_second": 62.037,
      "eval_steps_per_second": 62.037,
      "step": 4700
    },
    {
      "epoch": 47.1,
      "grad_norm": 4.527221202850342,
      "learning_rate": 0.0017633333333333333,
      "loss": 1.67,
      "step": 4710
    },
    {
      "epoch": 47.2,
      "grad_norm": 2.071593761444092,
      "learning_rate": 0.00176,
      "loss": 1.7771,
      "step": 4720
    },
    {
      "epoch": 47.3,
      "grad_norm": 2.786754846572876,
      "learning_rate": 0.0017566666666666668,
      "loss": 2.0374,
      "step": 4730
    },
    {
      "epoch": 47.4,
      "grad_norm": 2.9459238052368164,
      "learning_rate": 0.0017533333333333333,
      "loss": 1.9356,
      "step": 4740
    },
    {
      "epoch": 47.5,
      "grad_norm": 3.7896053791046143,
      "learning_rate": 0.0017500000000000003,
      "loss": 1.936,
      "step": 4750
    },
    {
      "epoch": 47.6,
      "grad_norm": 3.3444080352783203,
      "learning_rate": 0.0017466666666666665,
      "loss": 2.0647,
      "step": 4760
    },
    {
      "epoch": 47.7,
      "grad_norm": 2.463644027709961,
      "learning_rate": 0.0017433333333333335,
      "loss": 1.8612,
      "step": 4770
    },
    {
      "epoch": 47.8,
      "grad_norm": 2.2192585468292236,
      "learning_rate": 0.00174,
      "loss": 1.9938,
      "step": 4780
    },
    {
      "epoch": 47.9,
      "grad_norm": 2.3443355560302734,
      "learning_rate": 0.0017366666666666667,
      "loss": 1.9478,
      "step": 4790
    },
    {
      "epoch": 48.0,
      "grad_norm": 3.5949223041534424,
      "learning_rate": 0.0017333333333333333,
      "loss": 1.7765,
      "step": 4800
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.12,
      "eval_loss": 4.613639831542969,
      "eval_runtime": 1.6316,
      "eval_samples_per_second": 61.29,
      "eval_steps_per_second": 61.29,
      "step": 4800
    },
    {
      "epoch": 48.1,
      "grad_norm": 1.3368432521820068,
      "learning_rate": 0.00173,
      "loss": 1.9142,
      "step": 4810
    },
    {
      "epoch": 48.2,
      "grad_norm": 2.000155448913574,
      "learning_rate": 0.001726666666666667,
      "loss": 1.9052,
      "step": 4820
    },
    {
      "epoch": 48.3,
      "grad_norm": 6.261807918548584,
      "learning_rate": 0.0017233333333333332,
      "loss": 1.9964,
      "step": 4830
    },
    {
      "epoch": 48.4,
      "grad_norm": 1.433078408241272,
      "learning_rate": 0.0017200000000000002,
      "loss": 1.9076,
      "step": 4840
    },
    {
      "epoch": 48.5,
      "grad_norm": 2.1348838806152344,
      "learning_rate": 0.0017166666666666667,
      "loss": 1.7777,
      "step": 4850
    },
    {
      "epoch": 48.6,
      "grad_norm": 3.1317050457000732,
      "learning_rate": 0.0017133333333333334,
      "loss": 1.8805,
      "step": 4860
    },
    {
      "epoch": 48.7,
      "grad_norm": 3.248568534851074,
      "learning_rate": 0.00171,
      "loss": 1.9639,
      "step": 4870
    },
    {
      "epoch": 48.8,
      "grad_norm": 1.4480762481689453,
      "learning_rate": 0.0017066666666666667,
      "loss": 1.8757,
      "step": 4880
    },
    {
      "epoch": 48.9,
      "grad_norm": 2.1497910022735596,
      "learning_rate": 0.0017033333333333336,
      "loss": 1.7923,
      "step": 4890
    },
    {
      "epoch": 49.0,
      "grad_norm": 2.5053927898406982,
      "learning_rate": 0.0017,
      "loss": 1.7962,
      "step": 4900
    },
    {
      "epoch": 49.0,
      "eval_accuracy": 0.14,
      "eval_loss": 13.476518630981445,
      "eval_runtime": 1.7036,
      "eval_samples_per_second": 58.7,
      "eval_steps_per_second": 58.7,
      "step": 4900
    },
    {
      "epoch": 49.1,
      "grad_norm": 3.2668566703796387,
      "learning_rate": 0.0016966666666666669,
      "loss": 1.7602,
      "step": 4910
    },
    {
      "epoch": 49.2,
      "grad_norm": 1.1898913383483887,
      "learning_rate": 0.0016933333333333334,
      "loss": 1.8113,
      "step": 4920
    },
    {
      "epoch": 49.3,
      "grad_norm": 3.223593235015869,
      "learning_rate": 0.00169,
      "loss": 2.0273,
      "step": 4930
    },
    {
      "epoch": 49.4,
      "grad_norm": 4.745173454284668,
      "learning_rate": 0.0016866666666666666,
      "loss": 1.7831,
      "step": 4940
    },
    {
      "epoch": 49.5,
      "grad_norm": 1.5475022792816162,
      "learning_rate": 0.0016833333333333333,
      "loss": 1.9636,
      "step": 4950
    },
    {
      "epoch": 49.6,
      "grad_norm": 3.3999617099761963,
      "learning_rate": 0.0016800000000000003,
      "loss": 1.7679,
      "step": 4960
    },
    {
      "epoch": 49.7,
      "grad_norm": 2.1823158264160156,
      "learning_rate": 0.0016766666666666666,
      "loss": 1.9602,
      "step": 4970
    },
    {
      "epoch": 49.8,
      "grad_norm": 1.2854535579681396,
      "learning_rate": 0.0016733333333333335,
      "loss": 1.8646,
      "step": 4980
    },
    {
      "epoch": 49.9,
      "grad_norm": 3.2971255779266357,
      "learning_rate": 0.00167,
      "loss": 1.9398,
      "step": 4990
    },
    {
      "epoch": 50.0,
      "grad_norm": 4.854804039001465,
      "learning_rate": 0.0016666666666666668,
      "loss": 2.0226,
      "step": 5000
    },
    {
      "epoch": 50.0,
      "eval_accuracy": 0.08,
      "eval_loss": 8.122514724731445,
      "eval_runtime": 1.6511,
      "eval_samples_per_second": 60.567,
      "eval_steps_per_second": 60.567,
      "step": 5000
    },
    {
      "epoch": 50.1,
      "grad_norm": 2.5975425243377686,
      "learning_rate": 0.0016633333333333333,
      "loss": 1.9288,
      "step": 5010
    },
    {
      "epoch": 50.2,
      "grad_norm": 1.7692967653274536,
      "learning_rate": 0.00166,
      "loss": 1.8247,
      "step": 5020
    },
    {
      "epoch": 50.3,
      "grad_norm": 2.7661757469177246,
      "learning_rate": 0.0016566666666666665,
      "loss": 2.0096,
      "step": 5030
    },
    {
      "epoch": 50.4,
      "grad_norm": 1.707748532295227,
      "learning_rate": 0.0016533333333333333,
      "loss": 1.6249,
      "step": 5040
    },
    {
      "epoch": 50.5,
      "grad_norm": 1.9424363374710083,
      "learning_rate": 0.0016500000000000002,
      "loss": 1.9504,
      "step": 5050
    },
    {
      "epoch": 50.6,
      "grad_norm": 5.841362476348877,
      "learning_rate": 0.0016466666666666667,
      "loss": 1.7022,
      "step": 5060
    },
    {
      "epoch": 50.7,
      "grad_norm": 5.629020690917969,
      "learning_rate": 0.0016433333333333335,
      "loss": 1.8386,
      "step": 5070
    },
    {
      "epoch": 50.8,
      "grad_norm": 3.982902765274048,
      "learning_rate": 0.00164,
      "loss": 1.9075,
      "step": 5080
    },
    {
      "epoch": 50.9,
      "grad_norm": 1.95156991481781,
      "learning_rate": 0.0016366666666666667,
      "loss": 1.7509,
      "step": 5090
    },
    {
      "epoch": 51.0,
      "grad_norm": 3.8183364868164062,
      "learning_rate": 0.0016333333333333332,
      "loss": 2.1393,
      "step": 5100
    },
    {
      "epoch": 51.0,
      "eval_accuracy": 0.17,
      "eval_loss": 7.794131278991699,
      "eval_runtime": 1.5853,
      "eval_samples_per_second": 63.08,
      "eval_steps_per_second": 63.08,
      "step": 5100
    },
    {
      "epoch": 51.1,
      "grad_norm": 4.704866886138916,
      "learning_rate": 0.00163,
      "loss": 1.8829,
      "step": 5110
    },
    {
      "epoch": 51.2,
      "grad_norm": 5.786809921264648,
      "learning_rate": 0.0016266666666666669,
      "loss": 1.8662,
      "step": 5120
    },
    {
      "epoch": 51.3,
      "grad_norm": 2.3854682445526123,
      "learning_rate": 0.0016233333333333334,
      "loss": 1.8345,
      "step": 5130
    },
    {
      "epoch": 51.4,
      "grad_norm": 1.6624096632003784,
      "learning_rate": 0.0016200000000000001,
      "loss": 1.9696,
      "step": 5140
    },
    {
      "epoch": 51.5,
      "grad_norm": 2.215571880340576,
      "learning_rate": 0.0016166666666666666,
      "loss": 1.8693,
      "step": 5150
    },
    {
      "epoch": 51.6,
      "grad_norm": 4.892175197601318,
      "learning_rate": 0.0016133333333333334,
      "loss": 2.2826,
      "step": 5160
    },
    {
      "epoch": 51.7,
      "grad_norm": 2.0336062908172607,
      "learning_rate": 0.0016099999999999999,
      "loss": 1.9523,
      "step": 5170
    },
    {
      "epoch": 51.8,
      "grad_norm": 1.3163597583770752,
      "learning_rate": 0.0016066666666666666,
      "loss": 2.0221,
      "step": 5180
    },
    {
      "epoch": 51.9,
      "grad_norm": 3.6314053535461426,
      "learning_rate": 0.0016033333333333336,
      "loss": 1.8021,
      "step": 5190
    },
    {
      "epoch": 52.0,
      "grad_norm": 4.095399856567383,
      "learning_rate": 0.0016,
      "loss": 1.8256,
      "step": 5200
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.12,
      "eval_loss": 5.413360118865967,
      "eval_runtime": 1.6389,
      "eval_samples_per_second": 61.017,
      "eval_steps_per_second": 61.017,
      "step": 5200
    },
    {
      "epoch": 52.1,
      "grad_norm": 5.811031341552734,
      "learning_rate": 0.0015966666666666668,
      "loss": 1.7871,
      "step": 5210
    },
    {
      "epoch": 52.2,
      "grad_norm": 1.6372181177139282,
      "learning_rate": 0.0015933333333333333,
      "loss": 2.0306,
      "step": 5220
    },
    {
      "epoch": 52.3,
      "grad_norm": 1.0381364822387695,
      "learning_rate": 0.00159,
      "loss": 1.9718,
      "step": 5230
    },
    {
      "epoch": 52.4,
      "grad_norm": 3.0742342472076416,
      "learning_rate": 0.0015866666666666666,
      "loss": 1.9477,
      "step": 5240
    },
    {
      "epoch": 52.5,
      "grad_norm": 2.2406508922576904,
      "learning_rate": 0.0015833333333333335,
      "loss": 1.9322,
      "step": 5250
    },
    {
      "epoch": 52.6,
      "grad_norm": 3.015726327896118,
      "learning_rate": 0.0015799999999999998,
      "loss": 1.6133,
      "step": 5260
    },
    {
      "epoch": 52.7,
      "grad_norm": 4.843988418579102,
      "learning_rate": 0.0015766666666666668,
      "loss": 1.9038,
      "step": 5270
    },
    {
      "epoch": 52.8,
      "grad_norm": 3.5391154289245605,
      "learning_rate": 0.0015733333333333335,
      "loss": 1.9509,
      "step": 5280
    },
    {
      "epoch": 52.9,
      "grad_norm": 2.697735548019409,
      "learning_rate": 0.00157,
      "loss": 1.9014,
      "step": 5290
    },
    {
      "epoch": 53.0,
      "grad_norm": 6.837653636932373,
      "learning_rate": 0.0015666666666666667,
      "loss": 1.9116,
      "step": 5300
    },
    {
      "epoch": 53.0,
      "eval_accuracy": 0.08,
      "eval_loss": 6.112913608551025,
      "eval_runtime": 1.6689,
      "eval_samples_per_second": 59.919,
      "eval_steps_per_second": 59.919,
      "step": 5300
    },
    {
      "epoch": 53.1,
      "grad_norm": 1.5611952543258667,
      "learning_rate": 0.0015633333333333332,
      "loss": 1.6709,
      "step": 5310
    },
    {
      "epoch": 53.2,
      "grad_norm": 0.9511187672615051,
      "learning_rate": 0.0015600000000000002,
      "loss": 1.866,
      "step": 5320
    },
    {
      "epoch": 53.3,
      "grad_norm": 4.475405216217041,
      "learning_rate": 0.0015566666666666665,
      "loss": 1.6536,
      "step": 5330
    },
    {
      "epoch": 53.4,
      "grad_norm": 4.969283103942871,
      "learning_rate": 0.0015533333333333334,
      "loss": 1.8588,
      "step": 5340
    },
    {
      "epoch": 53.5,
      "grad_norm": 1.5282946825027466,
      "learning_rate": 0.0015500000000000002,
      "loss": 1.7311,
      "step": 5350
    },
    {
      "epoch": 53.6,
      "grad_norm": 2.565603494644165,
      "learning_rate": 0.0015466666666666667,
      "loss": 1.9764,
      "step": 5360
    },
    {
      "epoch": 53.7,
      "grad_norm": 3.92899489402771,
      "learning_rate": 0.0015433333333333334,
      "loss": 1.8728,
      "step": 5370
    },
    {
      "epoch": 53.8,
      "grad_norm": 8.752714157104492,
      "learning_rate": 0.00154,
      "loss": 2.0048,
      "step": 5380
    },
    {
      "epoch": 53.9,
      "grad_norm": 2.1922614574432373,
      "learning_rate": 0.0015366666666666669,
      "loss": 1.7953,
      "step": 5390
    },
    {
      "epoch": 54.0,
      "grad_norm": 1.7674418687820435,
      "learning_rate": 0.0015333333333333332,
      "loss": 2.1156,
      "step": 5400
    },
    {
      "epoch": 54.0,
      "eval_accuracy": 0.14,
      "eval_loss": 4.145403861999512,
      "eval_runtime": 1.4782,
      "eval_samples_per_second": 67.649,
      "eval_steps_per_second": 67.649,
      "step": 5400
    },
    {
      "epoch": 54.1,
      "grad_norm": 1.4317039251327515,
      "learning_rate": 0.0015300000000000001,
      "loss": 2.1365,
      "step": 5410
    },
    {
      "epoch": 54.2,
      "grad_norm": 2.728269577026367,
      "learning_rate": 0.0015266666666666666,
      "loss": 1.8243,
      "step": 5420
    },
    {
      "epoch": 54.3,
      "grad_norm": 1.3561785221099854,
      "learning_rate": 0.0015233333333333334,
      "loss": 1.6856,
      "step": 5430
    },
    {
      "epoch": 54.4,
      "grad_norm": 2.300229549407959,
      "learning_rate": 0.00152,
      "loss": 1.7025,
      "step": 5440
    },
    {
      "epoch": 54.5,
      "grad_norm": 2.610546350479126,
      "learning_rate": 0.0015166666666666666,
      "loss": 1.8949,
      "step": 5450
    },
    {
      "epoch": 54.6,
      "grad_norm": 3.494725465774536,
      "learning_rate": 0.0015133333333333335,
      "loss": 1.7296,
      "step": 5460
    },
    {
      "epoch": 54.7,
      "grad_norm": 3.7900161743164062,
      "learning_rate": 0.0015099999999999998,
      "loss": 1.9087,
      "step": 5470
    },
    {
      "epoch": 54.8,
      "grad_norm": 5.745708465576172,
      "learning_rate": 0.0015066666666666668,
      "loss": 1.9497,
      "step": 5480
    },
    {
      "epoch": 54.9,
      "grad_norm": 3.6180849075317383,
      "learning_rate": 0.0015033333333333333,
      "loss": 1.8751,
      "step": 5490
    },
    {
      "epoch": 55.0,
      "grad_norm": 1.9145499467849731,
      "learning_rate": 0.0015,
      "loss": 1.7501,
      "step": 5500
    },
    {
      "epoch": 55.0,
      "eval_accuracy": 0.09,
      "eval_loss": 6.213360786437988,
      "eval_runtime": 1.2055,
      "eval_samples_per_second": 82.957,
      "eval_steps_per_second": 82.957,
      "step": 5500
    },
    {
      "epoch": 55.1,
      "grad_norm": 3.158578395843506,
      "learning_rate": 0.0014966666666666668,
      "loss": 1.7163,
      "step": 5510
    },
    {
      "epoch": 55.2,
      "grad_norm": 10.36141586303711,
      "learning_rate": 0.0014933333333333333,
      "loss": 1.8999,
      "step": 5520
    },
    {
      "epoch": 55.3,
      "grad_norm": 6.241248607635498,
      "learning_rate": 0.00149,
      "loss": 1.6129,
      "step": 5530
    },
    {
      "epoch": 55.4,
      "grad_norm": 5.371027946472168,
      "learning_rate": 0.0014866666666666667,
      "loss": 1.747,
      "step": 5540
    },
    {
      "epoch": 55.5,
      "grad_norm": 8.025517463684082,
      "learning_rate": 0.0014833333333333335,
      "loss": 1.8701,
      "step": 5550
    },
    {
      "epoch": 55.6,
      "grad_norm": 1.9207485914230347,
      "learning_rate": 0.00148,
      "loss": 1.7299,
      "step": 5560
    },
    {
      "epoch": 55.7,
      "grad_norm": 5.347723007202148,
      "learning_rate": 0.0014766666666666667,
      "loss": 2.0809,
      "step": 5570
    },
    {
      "epoch": 55.8,
      "grad_norm": 2.564652919769287,
      "learning_rate": 0.0014733333333333334,
      "loss": 1.5181,
      "step": 5580
    },
    {
      "epoch": 55.9,
      "grad_norm": 2.4365596771240234,
      "learning_rate": 0.00147,
      "loss": 2.0716,
      "step": 5590
    },
    {
      "epoch": 56.0,
      "grad_norm": 2.38962721824646,
      "learning_rate": 0.0014666666666666667,
      "loss": 1.8722,
      "step": 5600
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.12,
      "eval_loss": 6.498541831970215,
      "eval_runtime": 1.059,
      "eval_samples_per_second": 94.424,
      "eval_steps_per_second": 94.424,
      "step": 5600
    },
    {
      "epoch": 56.1,
      "grad_norm": 3.4303345680236816,
      "learning_rate": 0.0014633333333333332,
      "loss": 2.0598,
      "step": 5610
    },
    {
      "epoch": 56.2,
      "grad_norm": 5.073793411254883,
      "learning_rate": 0.0014600000000000001,
      "loss": 1.6931,
      "step": 5620
    },
    {
      "epoch": 56.3,
      "grad_norm": 4.5366644859313965,
      "learning_rate": 0.0014566666666666667,
      "loss": 1.7725,
      "step": 5630
    },
    {
      "epoch": 56.4,
      "grad_norm": 4.9346022605896,
      "learning_rate": 0.0014533333333333334,
      "loss": 1.7445,
      "step": 5640
    },
    {
      "epoch": 56.5,
      "grad_norm": 1.8802194595336914,
      "learning_rate": 0.0014500000000000001,
      "loss": 1.8807,
      "step": 5650
    },
    {
      "epoch": 56.6,
      "grad_norm": 9.372114181518555,
      "learning_rate": 0.0014466666666666666,
      "loss": 2.0712,
      "step": 5660
    },
    {
      "epoch": 56.7,
      "grad_norm": 1.4863404035568237,
      "learning_rate": 0.0014433333333333334,
      "loss": 2.0337,
      "step": 5670
    },
    {
      "epoch": 56.8,
      "grad_norm": 6.14418888092041,
      "learning_rate": 0.0014399999999999999,
      "loss": 1.8824,
      "step": 5680
    },
    {
      "epoch": 56.9,
      "grad_norm": 4.623052597045898,
      "learning_rate": 0.0014366666666666666,
      "loss": 1.7163,
      "step": 5690
    },
    {
      "epoch": 57.0,
      "grad_norm": 2.0986571311950684,
      "learning_rate": 0.0014333333333333333,
      "loss": 1.9432,
      "step": 5700
    },
    {
      "epoch": 57.0,
      "eval_accuracy": 0.12,
      "eval_loss": 5.271793842315674,
      "eval_runtime": 1.0742,
      "eval_samples_per_second": 93.091,
      "eval_steps_per_second": 93.091,
      "step": 5700
    },
    {
      "epoch": 57.1,
      "grad_norm": 1.7047914266586304,
      "learning_rate": 0.00143,
      "loss": 1.681,
      "step": 5710
    },
    {
      "epoch": 57.2,
      "grad_norm": 5.937868595123291,
      "learning_rate": 0.0014266666666666668,
      "loss": 1.9401,
      "step": 5720
    },
    {
      "epoch": 57.3,
      "grad_norm": 2.155251979827881,
      "learning_rate": 0.0014233333333333333,
      "loss": 1.7128,
      "step": 5730
    },
    {
      "epoch": 57.4,
      "grad_norm": 3.07235050201416,
      "learning_rate": 0.00142,
      "loss": 1.6452,
      "step": 5740
    },
    {
      "epoch": 57.5,
      "grad_norm": 3.241396427154541,
      "learning_rate": 0.0014166666666666666,
      "loss": 1.5336,
      "step": 5750
    },
    {
      "epoch": 57.6,
      "grad_norm": 2.2947235107421875,
      "learning_rate": 0.0014133333333333333,
      "loss": 1.8406,
      "step": 5760
    },
    {
      "epoch": 57.7,
      "grad_norm": 3.67720627784729,
      "learning_rate": 0.00141,
      "loss": 1.8698,
      "step": 5770
    },
    {
      "epoch": 57.8,
      "grad_norm": 4.078272342681885,
      "learning_rate": 0.0014066666666666667,
      "loss": 1.7784,
      "step": 5780
    },
    {
      "epoch": 57.9,
      "grad_norm": 5.352456569671631,
      "learning_rate": 0.0014033333333333335,
      "loss": 2.0788,
      "step": 5790
    },
    {
      "epoch": 58.0,
      "grad_norm": 2.5838003158569336,
      "learning_rate": 0.0014,
      "loss": 1.7713,
      "step": 5800
    },
    {
      "epoch": 58.0,
      "eval_accuracy": 0.08,
      "eval_loss": 12.331060409545898,
      "eval_runtime": 1.0626,
      "eval_samples_per_second": 94.11,
      "eval_steps_per_second": 94.11,
      "step": 5800
    },
    {
      "epoch": 58.1,
      "grad_norm": 1.693384051322937,
      "learning_rate": 0.0013966666666666667,
      "loss": 1.656,
      "step": 5810
    },
    {
      "epoch": 58.2,
      "grad_norm": 3.3912696838378906,
      "learning_rate": 0.0013933333333333334,
      "loss": 1.7021,
      "step": 5820
    },
    {
      "epoch": 58.3,
      "grad_norm": 8.783439636230469,
      "learning_rate": 0.00139,
      "loss": 1.9102,
      "step": 5830
    },
    {
      "epoch": 58.4,
      "grad_norm": 3.9075992107391357,
      "learning_rate": 0.0013866666666666667,
      "loss": 1.8775,
      "step": 5840
    },
    {
      "epoch": 58.5,
      "grad_norm": 2.6207642555236816,
      "learning_rate": 0.0013833333333333334,
      "loss": 1.912,
      "step": 5850
    },
    {
      "epoch": 58.6,
      "grad_norm": 1.5650824308395386,
      "learning_rate": 0.0013800000000000002,
      "loss": 1.8781,
      "step": 5860
    },
    {
      "epoch": 58.7,
      "grad_norm": 1.5719467401504517,
      "learning_rate": 0.0013766666666666667,
      "loss": 1.7996,
      "step": 5870
    },
    {
      "epoch": 58.8,
      "grad_norm": 2.2166717052459717,
      "learning_rate": 0.0013733333333333334,
      "loss": 2.0769,
      "step": 5880
    },
    {
      "epoch": 58.9,
      "grad_norm": 4.164362907409668,
      "learning_rate": 0.0013700000000000001,
      "loss": 1.8052,
      "step": 5890
    },
    {
      "epoch": 59.0,
      "grad_norm": 2.1572577953338623,
      "learning_rate": 0.0013666666666666666,
      "loss": 1.6786,
      "step": 5900
    },
    {
      "epoch": 59.0,
      "eval_accuracy": 0.07,
      "eval_loss": 7.159940719604492,
      "eval_runtime": 1.1908,
      "eval_samples_per_second": 83.98,
      "eval_steps_per_second": 83.98,
      "step": 5900
    },
    {
      "epoch": 59.1,
      "grad_norm": 1.205863356590271,
      "learning_rate": 0.0013633333333333334,
      "loss": 1.7847,
      "step": 5910
    },
    {
      "epoch": 59.2,
      "grad_norm": 6.159766674041748,
      "learning_rate": 0.0013599999999999999,
      "loss": 1.816,
      "step": 5920
    },
    {
      "epoch": 59.3,
      "grad_norm": 2.290241003036499,
      "learning_rate": 0.0013566666666666668,
      "loss": 1.8227,
      "step": 5930
    },
    {
      "epoch": 59.4,
      "grad_norm": 5.219218730926514,
      "learning_rate": 0.0013533333333333333,
      "loss": 1.6421,
      "step": 5940
    },
    {
      "epoch": 59.5,
      "grad_norm": 8.509394645690918,
      "learning_rate": 0.00135,
      "loss": 1.7888,
      "step": 5950
    },
    {
      "epoch": 59.6,
      "grad_norm": 3.8931479454040527,
      "learning_rate": 0.0013466666666666668,
      "loss": 1.7724,
      "step": 5960
    },
    {
      "epoch": 59.7,
      "grad_norm": 2.035557270050049,
      "learning_rate": 0.0013433333333333333,
      "loss": 1.8974,
      "step": 5970
    },
    {
      "epoch": 59.8,
      "grad_norm": 1.344543695449829,
      "learning_rate": 0.00134,
      "loss": 1.7593,
      "step": 5980
    },
    {
      "epoch": 59.9,
      "grad_norm": 5.597288131713867,
      "learning_rate": 0.0013366666666666666,
      "loss": 1.7556,
      "step": 5990
    },
    {
      "epoch": 60.0,
      "grad_norm": 5.034604072570801,
      "learning_rate": 0.0013333333333333333,
      "loss": 1.5969,
      "step": 6000
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.08,
      "eval_loss": 6.086874485015869,
      "eval_runtime": 1.0697,
      "eval_samples_per_second": 93.482,
      "eval_steps_per_second": 93.482,
      "step": 6000
    },
    {
      "epoch": 60.1,
      "grad_norm": 2.9675891399383545,
      "learning_rate": 0.00133,
      "loss": 1.8271,
      "step": 6010
    },
    {
      "epoch": 60.2,
      "grad_norm": 1.6982274055480957,
      "learning_rate": 0.0013266666666666667,
      "loss": 1.9085,
      "step": 6020
    },
    {
      "epoch": 60.3,
      "grad_norm": 4.639615058898926,
      "learning_rate": 0.0013233333333333335,
      "loss": 1.9669,
      "step": 6030
    },
    {
      "epoch": 60.4,
      "grad_norm": 2.2657480239868164,
      "learning_rate": 0.00132,
      "loss": 1.7925,
      "step": 6040
    },
    {
      "epoch": 60.5,
      "grad_norm": 3.4637887477874756,
      "learning_rate": 0.0013166666666666667,
      "loss": 1.7884,
      "step": 6050
    },
    {
      "epoch": 60.6,
      "grad_norm": 3.210871458053589,
      "learning_rate": 0.0013133333333333332,
      "loss": 1.6961,
      "step": 6060
    },
    {
      "epoch": 60.7,
      "grad_norm": 2.510930299758911,
      "learning_rate": 0.00131,
      "loss": 1.6188,
      "step": 6070
    },
    {
      "epoch": 60.8,
      "grad_norm": 2.0399868488311768,
      "learning_rate": 0.0013066666666666667,
      "loss": 1.8597,
      "step": 6080
    },
    {
      "epoch": 60.9,
      "grad_norm": 1.6324414014816284,
      "learning_rate": 0.0013033333333333334,
      "loss": 1.6643,
      "step": 6090
    },
    {
      "epoch": 61.0,
      "grad_norm": 2.4083755016326904,
      "learning_rate": 0.0013000000000000002,
      "loss": 1.8203,
      "step": 6100
    },
    {
      "epoch": 61.0,
      "eval_accuracy": 0.14,
      "eval_loss": 8.8250093460083,
      "eval_runtime": 1.051,
      "eval_samples_per_second": 95.147,
      "eval_steps_per_second": 95.147,
      "step": 6100
    },
    {
      "epoch": 61.1,
      "grad_norm": 1.6598178148269653,
      "learning_rate": 0.0012966666666666667,
      "loss": 1.5858,
      "step": 6110
    },
    {
      "epoch": 61.2,
      "grad_norm": 4.348021507263184,
      "learning_rate": 0.0012933333333333334,
      "loss": 1.7923,
      "step": 6120
    },
    {
      "epoch": 61.3,
      "grad_norm": 6.4413065910339355,
      "learning_rate": 0.00129,
      "loss": 1.825,
      "step": 6130
    },
    {
      "epoch": 61.4,
      "grad_norm": 4.386123180389404,
      "learning_rate": 0.0012866666666666666,
      "loss": 1.6292,
      "step": 6140
    },
    {
      "epoch": 61.5,
      "grad_norm": 3.1433169841766357,
      "learning_rate": 0.0012833333333333334,
      "loss": 1.8375,
      "step": 6150
    },
    {
      "epoch": 61.6,
      "grad_norm": 2.4346671104431152,
      "learning_rate": 0.00128,
      "loss": 1.5983,
      "step": 6160
    },
    {
      "epoch": 61.7,
      "grad_norm": 3.656344175338745,
      "learning_rate": 0.0012766666666666668,
      "loss": 1.8365,
      "step": 6170
    },
    {
      "epoch": 61.8,
      "grad_norm": 2.8191497325897217,
      "learning_rate": 0.0012733333333333333,
      "loss": 2.0172,
      "step": 6180
    },
    {
      "epoch": 61.9,
      "grad_norm": 2.2086052894592285,
      "learning_rate": 0.00127,
      "loss": 1.7998,
      "step": 6190
    },
    {
      "epoch": 62.0,
      "grad_norm": 4.561169624328613,
      "learning_rate": 0.0012666666666666666,
      "loss": 1.7148,
      "step": 6200
    },
    {
      "epoch": 62.0,
      "eval_accuracy": 0.11,
      "eval_loss": 19.09418296813965,
      "eval_runtime": 1.0612,
      "eval_samples_per_second": 94.23,
      "eval_steps_per_second": 94.23,
      "step": 6200
    },
    {
      "epoch": 62.1,
      "grad_norm": 4.611867427825928,
      "learning_rate": 0.0012633333333333333,
      "loss": 1.6205,
      "step": 6210
    },
    {
      "epoch": 62.2,
      "grad_norm": 3.4768471717834473,
      "learning_rate": 0.00126,
      "loss": 1.6133,
      "step": 6220
    },
    {
      "epoch": 62.3,
      "grad_norm": 2.2685697078704834,
      "learning_rate": 0.0012566666666666666,
      "loss": 1.7809,
      "step": 6230
    },
    {
      "epoch": 62.4,
      "grad_norm": 3.6047987937927246,
      "learning_rate": 0.0012533333333333335,
      "loss": 1.9889,
      "step": 6240
    },
    {
      "epoch": 62.5,
      "grad_norm": 2.9026410579681396,
      "learning_rate": 0.00125,
      "loss": 1.614,
      "step": 6250
    },
    {
      "epoch": 62.6,
      "grad_norm": 3.42441463470459,
      "learning_rate": 0.0012466666666666668,
      "loss": 1.9557,
      "step": 6260
    },
    {
      "epoch": 62.7,
      "grad_norm": 3.3376829624176025,
      "learning_rate": 0.0012433333333333333,
      "loss": 1.8862,
      "step": 6270
    },
    {
      "epoch": 62.8,
      "grad_norm": 2.4634463787078857,
      "learning_rate": 0.00124,
      "loss": 1.9031,
      "step": 6280
    },
    {
      "epoch": 62.9,
      "grad_norm": 9.028009414672852,
      "learning_rate": 0.0012366666666666667,
      "loss": 1.9382,
      "step": 6290
    },
    {
      "epoch": 63.0,
      "grad_norm": 2.2906558513641357,
      "learning_rate": 0.0012333333333333332,
      "loss": 1.6627,
      "step": 6300
    },
    {
      "epoch": 63.0,
      "eval_accuracy": 0.16,
      "eval_loss": 12.432879447937012,
      "eval_runtime": 1.0588,
      "eval_samples_per_second": 94.443,
      "eval_steps_per_second": 94.443,
      "step": 6300
    },
    {
      "epoch": 63.1,
      "grad_norm": 4.561711311340332,
      "learning_rate": 0.00123,
      "loss": 1.9666,
      "step": 6310
    },
    {
      "epoch": 63.2,
      "grad_norm": 2.848632574081421,
      "learning_rate": 0.0012266666666666667,
      "loss": 1.6077,
      "step": 6320
    },
    {
      "epoch": 63.3,
      "grad_norm": 2.1941840648651123,
      "learning_rate": 0.0012233333333333334,
      "loss": 1.7677,
      "step": 6330
    },
    {
      "epoch": 63.4,
      "grad_norm": 2.9569039344787598,
      "learning_rate": 0.00122,
      "loss": 1.6422,
      "step": 6340
    },
    {
      "epoch": 63.5,
      "grad_norm": 3.4558959007263184,
      "learning_rate": 0.0012166666666666667,
      "loss": 1.6658,
      "step": 6350
    },
    {
      "epoch": 63.6,
      "grad_norm": 5.855868339538574,
      "learning_rate": 0.0012133333333333334,
      "loss": 1.6206,
      "step": 6360
    },
    {
      "epoch": 63.7,
      "grad_norm": 4.387974739074707,
      "learning_rate": 0.00121,
      "loss": 1.7873,
      "step": 6370
    },
    {
      "epoch": 63.8,
      "grad_norm": 2.80942440032959,
      "learning_rate": 0.0012066666666666667,
      "loss": 1.5393,
      "step": 6380
    },
    {
      "epoch": 63.9,
      "grad_norm": 10.336448669433594,
      "learning_rate": 0.0012033333333333334,
      "loss": 1.7802,
      "step": 6390
    },
    {
      "epoch": 64.0,
      "grad_norm": 21.694013595581055,
      "learning_rate": 0.0012000000000000001,
      "loss": 1.7134,
      "step": 6400
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.11,
      "eval_loss": 5.5367112159729,
      "eval_runtime": 1.0569,
      "eval_samples_per_second": 94.621,
      "eval_steps_per_second": 94.621,
      "step": 6400
    },
    {
      "epoch": 64.1,
      "grad_norm": 7.776865482330322,
      "learning_rate": 0.0011966666666666668,
      "loss": 1.8706,
      "step": 6410
    },
    {
      "epoch": 64.2,
      "grad_norm": 14.169696807861328,
      "learning_rate": 0.0011933333333333334,
      "loss": 1.7689,
      "step": 6420
    },
    {
      "epoch": 64.3,
      "grad_norm": 3.2558820247650146,
      "learning_rate": 0.00119,
      "loss": 1.6053,
      "step": 6430
    },
    {
      "epoch": 64.4,
      "grad_norm": 4.6091227531433105,
      "learning_rate": 0.0011866666666666666,
      "loss": 1.791,
      "step": 6440
    },
    {
      "epoch": 64.5,
      "grad_norm": 6.979178428649902,
      "learning_rate": 0.0011833333333333333,
      "loss": 1.9051,
      "step": 6450
    },
    {
      "epoch": 64.6,
      "grad_norm": 1.6859291791915894,
      "learning_rate": 0.00118,
      "loss": 1.8669,
      "step": 6460
    },
    {
      "epoch": 64.7,
      "grad_norm": 4.330698013305664,
      "learning_rate": 0.0011766666666666668,
      "loss": 1.9325,
      "step": 6470
    },
    {
      "epoch": 64.8,
      "grad_norm": 4.015768051147461,
      "learning_rate": 0.0011733333333333335,
      "loss": 1.7841,
      "step": 6480
    },
    {
      "epoch": 64.9,
      "grad_norm": 3.9391236305236816,
      "learning_rate": 0.00117,
      "loss": 1.7528,
      "step": 6490
    },
    {
      "epoch": 65.0,
      "grad_norm": 3.1160061359405518,
      "learning_rate": 0.0011666666666666668,
      "loss": 1.8841,
      "step": 6500
    },
    {
      "epoch": 65.0,
      "eval_accuracy": 0.11,
      "eval_loss": 9.123879432678223,
      "eval_runtime": 1.0581,
      "eval_samples_per_second": 94.508,
      "eval_steps_per_second": 94.508,
      "step": 6500
    },
    {
      "epoch": 65.1,
      "grad_norm": 3.9809041023254395,
      "learning_rate": 0.0011633333333333333,
      "loss": 1.764,
      "step": 6510
    },
    {
      "epoch": 65.2,
      "grad_norm": 11.246681213378906,
      "learning_rate": 0.00116,
      "loss": 1.6808,
      "step": 6520
    },
    {
      "epoch": 65.3,
      "grad_norm": 5.164696216583252,
      "learning_rate": 0.0011566666666666667,
      "loss": 1.6472,
      "step": 6530
    },
    {
      "epoch": 65.4,
      "grad_norm": 2.7872653007507324,
      "learning_rate": 0.0011533333333333333,
      "loss": 2.0198,
      "step": 6540
    },
    {
      "epoch": 65.5,
      "grad_norm": 7.56327486038208,
      "learning_rate": 0.0011500000000000002,
      "loss": 1.929,
      "step": 6550
    },
    {
      "epoch": 65.6,
      "grad_norm": 4.878328323364258,
      "learning_rate": 0.0011466666666666667,
      "loss": 1.6768,
      "step": 6560
    },
    {
      "epoch": 65.7,
      "grad_norm": 3.8029422760009766,
      "learning_rate": 0.0011433333333333334,
      "loss": 1.8311,
      "step": 6570
    },
    {
      "epoch": 65.8,
      "grad_norm": 7.969758987426758,
      "learning_rate": 0.00114,
      "loss": 1.6823,
      "step": 6580
    },
    {
      "epoch": 65.9,
      "grad_norm": 5.031340599060059,
      "learning_rate": 0.0011366666666666667,
      "loss": 1.6746,
      "step": 6590
    },
    {
      "epoch": 66.0,
      "grad_norm": 2.8956708908081055,
      "learning_rate": 0.0011333333333333334,
      "loss": 1.6822,
      "step": 6600
    },
    {
      "epoch": 66.0,
      "eval_accuracy": 0.11,
      "eval_loss": 9.47188663482666,
      "eval_runtime": 1.0551,
      "eval_samples_per_second": 94.777,
      "eval_steps_per_second": 94.777,
      "step": 6600
    },
    {
      "epoch": 66.1,
      "grad_norm": 4.6317219734191895,
      "learning_rate": 0.00113,
      "loss": 1.7943,
      "step": 6610
    },
    {
      "epoch": 66.2,
      "grad_norm": 3.1285109519958496,
      "learning_rate": 0.0011266666666666667,
      "loss": 1.8415,
      "step": 6620
    },
    {
      "epoch": 66.3,
      "grad_norm": 6.469768524169922,
      "learning_rate": 0.0011233333333333334,
      "loss": 1.6691,
      "step": 6630
    },
    {
      "epoch": 66.4,
      "grad_norm": 5.166152477264404,
      "learning_rate": 0.0011200000000000001,
      "loss": 1.92,
      "step": 6640
    },
    {
      "epoch": 66.5,
      "grad_norm": 6.086921691894531,
      "learning_rate": 0.0011166666666666666,
      "loss": 1.9099,
      "step": 6650
    },
    {
      "epoch": 66.6,
      "grad_norm": 3.934988021850586,
      "learning_rate": 0.0011133333333333334,
      "loss": 1.6313,
      "step": 6660
    },
    {
      "epoch": 66.7,
      "grad_norm": 6.046359539031982,
      "learning_rate": 0.00111,
      "loss": 1.9824,
      "step": 6670
    },
    {
      "epoch": 66.8,
      "grad_norm": 5.090197563171387,
      "learning_rate": 0.0011066666666666666,
      "loss": 1.9741,
      "step": 6680
    },
    {
      "epoch": 66.9,
      "grad_norm": 9.034990310668945,
      "learning_rate": 0.0011033333333333333,
      "loss": 1.933,
      "step": 6690
    },
    {
      "epoch": 67.0,
      "grad_norm": 7.297842979431152,
      "learning_rate": 0.0010999999999999998,
      "loss": 1.8892,
      "step": 6700
    },
    {
      "epoch": 67.0,
      "eval_accuracy": 0.09,
      "eval_loss": 5.6084208488464355,
      "eval_runtime": 1.1978,
      "eval_samples_per_second": 83.488,
      "eval_steps_per_second": 83.488,
      "step": 6700
    },
    {
      "epoch": 67.1,
      "grad_norm": 3.469296932220459,
      "learning_rate": 0.0010966666666666668,
      "loss": 1.7137,
      "step": 6710
    },
    {
      "epoch": 67.2,
      "grad_norm": 2.396622657775879,
      "learning_rate": 0.0010933333333333333,
      "loss": 1.8015,
      "step": 6720
    },
    {
      "epoch": 67.3,
      "grad_norm": 2.852924108505249,
      "learning_rate": 0.00109,
      "loss": 1.8604,
      "step": 6730
    },
    {
      "epoch": 67.4,
      "grad_norm": 5.766210079193115,
      "learning_rate": 0.0010866666666666668,
      "loss": 1.5306,
      "step": 6740
    },
    {
      "epoch": 67.5,
      "grad_norm": 3.4486300945281982,
      "learning_rate": 0.0010833333333333333,
      "loss": 1.797,
      "step": 6750
    },
    {
      "epoch": 67.6,
      "grad_norm": 5.261917591094971,
      "learning_rate": 0.00108,
      "loss": 1.9502,
      "step": 6760
    },
    {
      "epoch": 67.7,
      "grad_norm": 4.059861660003662,
      "learning_rate": 0.0010766666666666665,
      "loss": 1.6326,
      "step": 6770
    },
    {
      "epoch": 67.8,
      "grad_norm": 10.135790824890137,
      "learning_rate": 0.0010733333333333333,
      "loss": 1.7233,
      "step": 6780
    },
    {
      "epoch": 67.9,
      "grad_norm": 2.4787628650665283,
      "learning_rate": 0.00107,
      "loss": 1.8985,
      "step": 6790
    },
    {
      "epoch": 68.0,
      "grad_norm": 2.303790807723999,
      "learning_rate": 0.0010666666666666667,
      "loss": 1.72,
      "step": 6800
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.12,
      "eval_loss": 8.785449028015137,
      "eval_runtime": 1.0541,
      "eval_samples_per_second": 94.863,
      "eval_steps_per_second": 94.863,
      "step": 6800
    },
    {
      "epoch": 68.1,
      "grad_norm": 3.1279687881469727,
      "learning_rate": 0.0010633333333333334,
      "loss": 1.8552,
      "step": 6810
    },
    {
      "epoch": 68.2,
      "grad_norm": 4.668986797332764,
      "learning_rate": 0.00106,
      "loss": 1.9791,
      "step": 6820
    },
    {
      "epoch": 68.3,
      "grad_norm": 7.474461555480957,
      "learning_rate": 0.0010566666666666667,
      "loss": 1.7152,
      "step": 6830
    },
    {
      "epoch": 68.4,
      "grad_norm": 10.475133895874023,
      "learning_rate": 0.0010533333333333332,
      "loss": 1.6101,
      "step": 6840
    },
    {
      "epoch": 68.5,
      "grad_norm": 4.837385177612305,
      "learning_rate": 0.00105,
      "loss": 1.6287,
      "step": 6850
    },
    {
      "epoch": 68.6,
      "grad_norm": 4.027728080749512,
      "learning_rate": 0.0010466666666666667,
      "loss": 1.5433,
      "step": 6860
    },
    {
      "epoch": 68.7,
      "grad_norm": 2.9774222373962402,
      "learning_rate": 0.0010433333333333334,
      "loss": 1.7617,
      "step": 6870
    },
    {
      "epoch": 68.8,
      "grad_norm": 2.145850896835327,
      "learning_rate": 0.0010400000000000001,
      "loss": 1.7691,
      "step": 6880
    },
    {
      "epoch": 68.9,
      "grad_norm": 2.6644954681396484,
      "learning_rate": 0.0010366666666666666,
      "loss": 1.5255,
      "step": 6890
    },
    {
      "epoch": 69.0,
      "grad_norm": 5.641127109527588,
      "learning_rate": 0.0010333333333333334,
      "loss": 1.8751,
      "step": 6900
    },
    {
      "epoch": 69.0,
      "eval_accuracy": 0.11,
      "eval_loss": 7.557100296020508,
      "eval_runtime": 1.0515,
      "eval_samples_per_second": 95.106,
      "eval_steps_per_second": 95.106,
      "step": 6900
    },
    {
      "epoch": 69.1,
      "grad_norm": 2.8334310054779053,
      "learning_rate": 0.00103,
      "loss": 1.7977,
      "step": 6910
    },
    {
      "epoch": 69.2,
      "grad_norm": 12.787999153137207,
      "learning_rate": 0.0010266666666666666,
      "loss": 1.8188,
      "step": 6920
    },
    {
      "epoch": 69.3,
      "grad_norm": 2.3438947200775146,
      "learning_rate": 0.0010233333333333333,
      "loss": 2.0413,
      "step": 6930
    },
    {
      "epoch": 69.4,
      "grad_norm": 5.885900497436523,
      "learning_rate": 0.00102,
      "loss": 1.6987,
      "step": 6940
    },
    {
      "epoch": 69.5,
      "grad_norm": 2.3748180866241455,
      "learning_rate": 0.0010166666666666668,
      "loss": 1.8382,
      "step": 6950
    },
    {
      "epoch": 69.6,
      "grad_norm": 7.499560832977295,
      "learning_rate": 0.0010133333333333333,
      "loss": 1.7506,
      "step": 6960
    },
    {
      "epoch": 69.7,
      "grad_norm": 4.706414699554443,
      "learning_rate": 0.00101,
      "loss": 1.8361,
      "step": 6970
    },
    {
      "epoch": 69.8,
      "grad_norm": 2.492842435836792,
      "learning_rate": 0.0010066666666666668,
      "loss": 1.5254,
      "step": 6980
    },
    {
      "epoch": 69.9,
      "grad_norm": 4.535306453704834,
      "learning_rate": 0.0010033333333333333,
      "loss": 1.7066,
      "step": 6990
    },
    {
      "epoch": 70.0,
      "grad_norm": 2.8552052974700928,
      "learning_rate": 0.001,
      "loss": 1.3783,
      "step": 7000
    },
    {
      "epoch": 70.0,
      "eval_accuracy": 0.12,
      "eval_loss": 11.632137298583984,
      "eval_runtime": 1.069,
      "eval_samples_per_second": 93.543,
      "eval_steps_per_second": 93.543,
      "step": 7000
    },
    {
      "epoch": 70.1,
      "grad_norm": 6.145552635192871,
      "learning_rate": 0.0009966666666666665,
      "loss": 1.6017,
      "step": 7010
    },
    {
      "epoch": 70.2,
      "grad_norm": 7.590050220489502,
      "learning_rate": 0.0009933333333333335,
      "loss": 1.8784,
      "step": 7020
    },
    {
      "epoch": 70.3,
      "grad_norm": 3.6232712268829346,
      "learning_rate": 0.00099,
      "loss": 1.8348,
      "step": 7030
    },
    {
      "epoch": 70.4,
      "grad_norm": 2.6301445960998535,
      "learning_rate": 0.0009866666666666667,
      "loss": 1.7113,
      "step": 7040
    },
    {
      "epoch": 70.5,
      "grad_norm": 3.045260190963745,
      "learning_rate": 0.0009833333333333335,
      "loss": 1.6724,
      "step": 7050
    },
    {
      "epoch": 70.6,
      "grad_norm": 5.87871789932251,
      "learning_rate": 0.00098,
      "loss": 1.8135,
      "step": 7060
    },
    {
      "epoch": 70.7,
      "grad_norm": 4.545201301574707,
      "learning_rate": 0.0009766666666666667,
      "loss": 1.8561,
      "step": 7070
    },
    {
      "epoch": 70.8,
      "grad_norm": 3.054288387298584,
      "learning_rate": 0.0009733333333333333,
      "loss": 1.6729,
      "step": 7080
    },
    {
      "epoch": 70.9,
      "grad_norm": 12.367476463317871,
      "learning_rate": 0.0009699999999999999,
      "loss": 1.6861,
      "step": 7090
    },
    {
      "epoch": 71.0,
      "grad_norm": 3.18570876121521,
      "learning_rate": 0.0009666666666666668,
      "loss": 1.6403,
      "step": 7100
    },
    {
      "epoch": 71.0,
      "eval_accuracy": 0.15,
      "eval_loss": 7.535396099090576,
      "eval_runtime": 1.0543,
      "eval_samples_per_second": 94.854,
      "eval_steps_per_second": 94.854,
      "step": 7100
    },
    {
      "epoch": 71.1,
      "grad_norm": 2.6936404705047607,
      "learning_rate": 0.0009633333333333334,
      "loss": 1.3978,
      "step": 7110
    },
    {
      "epoch": 71.2,
      "grad_norm": 3.251457691192627,
      "learning_rate": 0.00096,
      "loss": 1.8723,
      "step": 7120
    },
    {
      "epoch": 71.3,
      "grad_norm": 2.816524028778076,
      "learning_rate": 0.0009566666666666666,
      "loss": 1.7214,
      "step": 7130
    },
    {
      "epoch": 71.4,
      "grad_norm": 2.786759376525879,
      "learning_rate": 0.0009533333333333334,
      "loss": 1.767,
      "step": 7140
    },
    {
      "epoch": 71.5,
      "grad_norm": 6.929011344909668,
      "learning_rate": 0.00095,
      "loss": 1.7563,
      "step": 7150
    },
    {
      "epoch": 71.6,
      "grad_norm": 2.660970687866211,
      "learning_rate": 0.0009466666666666666,
      "loss": 1.6773,
      "step": 7160
    },
    {
      "epoch": 71.7,
      "grad_norm": 1.6034671068191528,
      "learning_rate": 0.0009433333333333335,
      "loss": 1.6503,
      "step": 7170
    },
    {
      "epoch": 71.8,
      "grad_norm": 4.475321292877197,
      "learning_rate": 0.0009400000000000001,
      "loss": 1.7623,
      "step": 7180
    },
    {
      "epoch": 71.9,
      "grad_norm": 9.990358352661133,
      "learning_rate": 0.0009366666666666667,
      "loss": 1.8783,
      "step": 7190
    },
    {
      "epoch": 72.0,
      "grad_norm": 2.7688100337982178,
      "learning_rate": 0.0009333333333333333,
      "loss": 2.087,
      "step": 7200
    },
    {
      "epoch": 72.0,
      "eval_accuracy": 0.11,
      "eval_loss": 13.724778175354004,
      "eval_runtime": 1.1925,
      "eval_samples_per_second": 83.856,
      "eval_steps_per_second": 83.856,
      "step": 7200
    },
    {
      "epoch": 72.1,
      "grad_norm": 6.561435222625732,
      "learning_rate": 0.00093,
      "loss": 1.7217,
      "step": 7210
    },
    {
      "epoch": 72.2,
      "grad_norm": 8.489799499511719,
      "learning_rate": 0.0009266666666666667,
      "loss": 1.7632,
      "step": 7220
    },
    {
      "epoch": 72.3,
      "grad_norm": 3.9238219261169434,
      "learning_rate": 0.0009233333333333333,
      "loss": 1.5581,
      "step": 7230
    },
    {
      "epoch": 72.4,
      "grad_norm": 9.072147369384766,
      "learning_rate": 0.0009199999999999999,
      "loss": 1.7184,
      "step": 7240
    },
    {
      "epoch": 72.5,
      "grad_norm": 2.1611063480377197,
      "learning_rate": 0.0009166666666666668,
      "loss": 1.6369,
      "step": 7250
    },
    {
      "epoch": 72.6,
      "grad_norm": 3.966249465942383,
      "learning_rate": 0.0009133333333333334,
      "loss": 1.6756,
      "step": 7260
    },
    {
      "epoch": 72.7,
      "grad_norm": 3.660193681716919,
      "learning_rate": 0.00091,
      "loss": 1.9866,
      "step": 7270
    },
    {
      "epoch": 72.8,
      "grad_norm": 4.286670207977295,
      "learning_rate": 0.0009066666666666667,
      "loss": 1.5526,
      "step": 7280
    },
    {
      "epoch": 72.9,
      "grad_norm": 1.2461152076721191,
      "learning_rate": 0.0009033333333333334,
      "loss": 1.7805,
      "step": 7290
    },
    {
      "epoch": 73.0,
      "grad_norm": 8.252983093261719,
      "learning_rate": 0.0009,
      "loss": 1.6402,
      "step": 7300
    },
    {
      "epoch": 73.0,
      "eval_accuracy": 0.12,
      "eval_loss": 5.488311290740967,
      "eval_runtime": 1.0685,
      "eval_samples_per_second": 93.589,
      "eval_steps_per_second": 93.589,
      "step": 7300
    },
    {
      "epoch": 73.1,
      "grad_norm": 3.1921186447143555,
      "learning_rate": 0.0008966666666666666,
      "loss": 1.9004,
      "step": 7310
    },
    {
      "epoch": 73.2,
      "grad_norm": 2.0873894691467285,
      "learning_rate": 0.0008933333333333333,
      "loss": 1.6618,
      "step": 7320
    },
    {
      "epoch": 73.3,
      "grad_norm": 6.314571857452393,
      "learning_rate": 0.0008900000000000001,
      "loss": 1.5235,
      "step": 7330
    },
    {
      "epoch": 73.4,
      "grad_norm": 1.6767210960388184,
      "learning_rate": 0.0008866666666666667,
      "loss": 1.598,
      "step": 7340
    },
    {
      "epoch": 73.5,
      "grad_norm": 4.818593978881836,
      "learning_rate": 0.0008833333333333334,
      "loss": 1.9167,
      "step": 7350
    },
    {
      "epoch": 73.6,
      "grad_norm": 8.4752197265625,
      "learning_rate": 0.00088,
      "loss": 1.9592,
      "step": 7360
    },
    {
      "epoch": 73.7,
      "grad_norm": 3.359546422958374,
      "learning_rate": 0.0008766666666666667,
      "loss": 1.8852,
      "step": 7370
    },
    {
      "epoch": 73.8,
      "grad_norm": 4.165343284606934,
      "learning_rate": 0.0008733333333333333,
      "loss": 1.6093,
      "step": 7380
    },
    {
      "epoch": 73.9,
      "grad_norm": 3.540891647338867,
      "learning_rate": 0.00087,
      "loss": 1.6096,
      "step": 7390
    },
    {
      "epoch": 74.0,
      "grad_norm": 6.227334976196289,
      "learning_rate": 0.0008666666666666666,
      "loss": 1.8016,
      "step": 7400
    },
    {
      "epoch": 74.0,
      "eval_accuracy": 0.13,
      "eval_loss": 7.835125923156738,
      "eval_runtime": 1.172,
      "eval_samples_per_second": 85.321,
      "eval_steps_per_second": 85.321,
      "step": 7400
    },
    {
      "epoch": 74.1,
      "grad_norm": 5.684929370880127,
      "learning_rate": 0.0008633333333333335,
      "loss": 1.6236,
      "step": 7410
    },
    {
      "epoch": 74.2,
      "grad_norm": 2.3352484703063965,
      "learning_rate": 0.0008600000000000001,
      "loss": 1.6767,
      "step": 7420
    },
    {
      "epoch": 74.3,
      "grad_norm": 17.188486099243164,
      "learning_rate": 0.0008566666666666667,
      "loss": 1.5898,
      "step": 7430
    },
    {
      "epoch": 74.4,
      "grad_norm": 8.325809478759766,
      "learning_rate": 0.0008533333333333333,
      "loss": 1.5762,
      "step": 7440
    },
    {
      "epoch": 74.5,
      "grad_norm": 3.8976364135742188,
      "learning_rate": 0.00085,
      "loss": 1.8546,
      "step": 7450
    },
    {
      "epoch": 74.6,
      "grad_norm": 4.122636795043945,
      "learning_rate": 0.0008466666666666667,
      "loss": 1.6826,
      "step": 7460
    },
    {
      "epoch": 74.7,
      "grad_norm": 3.0798962116241455,
      "learning_rate": 0.0008433333333333333,
      "loss": 1.8085,
      "step": 7470
    },
    {
      "epoch": 74.8,
      "grad_norm": 8.855138778686523,
      "learning_rate": 0.0008400000000000001,
      "loss": 1.8007,
      "step": 7480
    },
    {
      "epoch": 74.9,
      "grad_norm": 2.781036376953125,
      "learning_rate": 0.0008366666666666668,
      "loss": 1.6743,
      "step": 7490
    },
    {
      "epoch": 75.0,
      "grad_norm": 5.651669025421143,
      "learning_rate": 0.0008333333333333334,
      "loss": 1.4308,
      "step": 7500
    },
    {
      "epoch": 75.0,
      "eval_accuracy": 0.13,
      "eval_loss": 4.696621417999268,
      "eval_runtime": 1.1086,
      "eval_samples_per_second": 90.203,
      "eval_steps_per_second": 90.203,
      "step": 7500
    },
    {
      "epoch": 75.1,
      "grad_norm": 2.3721401691436768,
      "learning_rate": 0.00083,
      "loss": 1.6892,
      "step": 7510
    },
    {
      "epoch": 75.2,
      "grad_norm": 3.7006096839904785,
      "learning_rate": 0.0008266666666666666,
      "loss": 1.763,
      "step": 7520
    },
    {
      "epoch": 75.3,
      "grad_norm": 2.3603055477142334,
      "learning_rate": 0.0008233333333333334,
      "loss": 1.8769,
      "step": 7530
    },
    {
      "epoch": 75.4,
      "grad_norm": 1.8393298387527466,
      "learning_rate": 0.00082,
      "loss": 1.5171,
      "step": 7540
    },
    {
      "epoch": 75.5,
      "grad_norm": 5.134054660797119,
      "learning_rate": 0.0008166666666666666,
      "loss": 1.7904,
      "step": 7550
    },
    {
      "epoch": 75.6,
      "grad_norm": 3.733891725540161,
      "learning_rate": 0.0008133333333333334,
      "loss": 1.4944,
      "step": 7560
    },
    {
      "epoch": 75.7,
      "grad_norm": 3.304157257080078,
      "learning_rate": 0.0008100000000000001,
      "loss": 1.546,
      "step": 7570
    },
    {
      "epoch": 75.8,
      "grad_norm": 3.1113600730895996,
      "learning_rate": 0.0008066666666666667,
      "loss": 1.9507,
      "step": 7580
    },
    {
      "epoch": 75.9,
      "grad_norm": 4.361494064331055,
      "learning_rate": 0.0008033333333333333,
      "loss": 1.5302,
      "step": 7590
    },
    {
      "epoch": 76.0,
      "grad_norm": 8.0205717086792,
      "learning_rate": 0.0008,
      "loss": 1.6833,
      "step": 7600
    },
    {
      "epoch": 76.0,
      "eval_accuracy": 0.12,
      "eval_loss": 5.913761615753174,
      "eval_runtime": 1.1926,
      "eval_samples_per_second": 83.853,
      "eval_steps_per_second": 83.853,
      "step": 7600
    },
    {
      "epoch": 76.1,
      "grad_norm": 9.288579940795898,
      "learning_rate": 0.0007966666666666667,
      "loss": 1.6459,
      "step": 7610
    },
    {
      "epoch": 76.2,
      "grad_norm": 4.346872806549072,
      "learning_rate": 0.0007933333333333333,
      "loss": 1.7913,
      "step": 7620
    },
    {
      "epoch": 76.3,
      "grad_norm": 1.9732215404510498,
      "learning_rate": 0.0007899999999999999,
      "loss": 1.9217,
      "step": 7630
    },
    {
      "epoch": 76.4,
      "grad_norm": 2.936906337738037,
      "learning_rate": 0.0007866666666666667,
      "loss": 1.3812,
      "step": 7640
    },
    {
      "epoch": 76.5,
      "grad_norm": 1.9223854541778564,
      "learning_rate": 0.0007833333333333334,
      "loss": 1.7483,
      "step": 7650
    },
    {
      "epoch": 76.6,
      "grad_norm": 4.29766321182251,
      "learning_rate": 0.0007800000000000001,
      "loss": 1.5003,
      "step": 7660
    },
    {
      "epoch": 76.7,
      "grad_norm": 4.861231803894043,
      "learning_rate": 0.0007766666666666667,
      "loss": 1.824,
      "step": 7670
    },
    {
      "epoch": 76.8,
      "grad_norm": 6.965978145599365,
      "learning_rate": 0.0007733333333333333,
      "loss": 1.8528,
      "step": 7680
    },
    {
      "epoch": 76.9,
      "grad_norm": 6.294130802154541,
      "learning_rate": 0.00077,
      "loss": 1.7658,
      "step": 7690
    },
    {
      "epoch": 77.0,
      "grad_norm": 2.3056602478027344,
      "learning_rate": 0.0007666666666666666,
      "loss": 1.5684,
      "step": 7700
    },
    {
      "epoch": 77.0,
      "eval_accuracy": 0.15,
      "eval_loss": 11.986406326293945,
      "eval_runtime": 1.0745,
      "eval_samples_per_second": 93.062,
      "eval_steps_per_second": 93.062,
      "step": 7700
    },
    {
      "epoch": 77.1,
      "grad_norm": 3.318281888961792,
      "learning_rate": 0.0007633333333333333,
      "loss": 1.6998,
      "step": 7710
    },
    {
      "epoch": 77.2,
      "grad_norm": 6.8521647453308105,
      "learning_rate": 0.00076,
      "loss": 1.7175,
      "step": 7720
    },
    {
      "epoch": 77.3,
      "grad_norm": 2.6658935546875,
      "learning_rate": 0.0007566666666666668,
      "loss": 1.6277,
      "step": 7730
    },
    {
      "epoch": 77.4,
      "grad_norm": 1.4888370037078857,
      "learning_rate": 0.0007533333333333334,
      "loss": 1.6303,
      "step": 7740
    },
    {
      "epoch": 77.5,
      "grad_norm": 2.4818308353424072,
      "learning_rate": 0.00075,
      "loss": 1.619,
      "step": 7750
    },
    {
      "epoch": 77.6,
      "grad_norm": 4.3172712326049805,
      "learning_rate": 0.0007466666666666666,
      "loss": 1.8077,
      "step": 7760
    },
    {
      "epoch": 77.7,
      "grad_norm": 4.909962177276611,
      "learning_rate": 0.0007433333333333334,
      "loss": 1.531,
      "step": 7770
    },
    {
      "epoch": 77.8,
      "grad_norm": 3.2081310749053955,
      "learning_rate": 0.00074,
      "loss": 1.7721,
      "step": 7780
    },
    {
      "epoch": 77.9,
      "grad_norm": 10.378396987915039,
      "learning_rate": 0.0007366666666666667,
      "loss": 1.5235,
      "step": 7790
    },
    {
      "epoch": 78.0,
      "grad_norm": 14.657236099243164,
      "learning_rate": 0.0007333333333333333,
      "loss": 1.6765,
      "step": 7800
    },
    {
      "epoch": 78.0,
      "eval_accuracy": 0.1,
      "eval_loss": 12.214624404907227,
      "eval_runtime": 1.0561,
      "eval_samples_per_second": 94.692,
      "eval_steps_per_second": 94.692,
      "step": 7800
    },
    {
      "epoch": 78.1,
      "grad_norm": 6.5051069259643555,
      "learning_rate": 0.0007300000000000001,
      "loss": 1.9207,
      "step": 7810
    },
    {
      "epoch": 78.2,
      "grad_norm": 4.690114498138428,
      "learning_rate": 0.0007266666666666667,
      "loss": 1.6504,
      "step": 7820
    },
    {
      "epoch": 78.3,
      "grad_norm": 4.175870895385742,
      "learning_rate": 0.0007233333333333333,
      "loss": 1.745,
      "step": 7830
    },
    {
      "epoch": 78.4,
      "grad_norm": 2.697542190551758,
      "learning_rate": 0.0007199999999999999,
      "loss": 1.8095,
      "step": 7840
    },
    {
      "epoch": 78.5,
      "grad_norm": 11.4371337890625,
      "learning_rate": 0.0007166666666666667,
      "loss": 1.638,
      "step": 7850
    },
    {
      "epoch": 78.6,
      "grad_norm": 5.61688232421875,
      "learning_rate": 0.0007133333333333334,
      "loss": 1.7019,
      "step": 7860
    },
    {
      "epoch": 78.7,
      "grad_norm": 1.9839328527450562,
      "learning_rate": 0.00071,
      "loss": 1.3729,
      "step": 7870
    },
    {
      "epoch": 78.8,
      "grad_norm": 7.748627662658691,
      "learning_rate": 0.0007066666666666666,
      "loss": 1.6178,
      "step": 7880
    },
    {
      "epoch": 78.9,
      "grad_norm": 3.0208866596221924,
      "learning_rate": 0.0007033333333333334,
      "loss": 1.8001,
      "step": 7890
    },
    {
      "epoch": 79.0,
      "grad_norm": 6.324533462524414,
      "learning_rate": 0.0007,
      "loss": 1.7482,
      "step": 7900
    },
    {
      "epoch": 79.0,
      "eval_accuracy": 0.12,
      "eval_loss": 4.604106903076172,
      "eval_runtime": 1.0654,
      "eval_samples_per_second": 93.863,
      "eval_steps_per_second": 93.863,
      "step": 7900
    },
    {
      "epoch": 79.1,
      "grad_norm": 5.001572132110596,
      "learning_rate": 0.0006966666666666667,
      "loss": 1.811,
      "step": 7910
    },
    {
      "epoch": 79.2,
      "grad_norm": 5.4045586585998535,
      "learning_rate": 0.0006933333333333333,
      "loss": 1.6131,
      "step": 7920
    },
    {
      "epoch": 79.3,
      "grad_norm": 9.522829055786133,
      "learning_rate": 0.0006900000000000001,
      "loss": 1.5696,
      "step": 7930
    },
    {
      "epoch": 79.4,
      "grad_norm": 3.1126577854156494,
      "learning_rate": 0.0006866666666666667,
      "loss": 1.6667,
      "step": 7940
    },
    {
      "epoch": 79.5,
      "grad_norm": 9.194778442382812,
      "learning_rate": 0.0006833333333333333,
      "loss": 1.7464,
      "step": 7950
    },
    {
      "epoch": 79.6,
      "grad_norm": 6.9873528480529785,
      "learning_rate": 0.0006799999999999999,
      "loss": 1.6279,
      "step": 7960
    },
    {
      "epoch": 79.7,
      "grad_norm": 2.421323537826538,
      "learning_rate": 0.0006766666666666667,
      "loss": 1.6863,
      "step": 7970
    },
    {
      "epoch": 79.8,
      "grad_norm": 2.4559075832366943,
      "learning_rate": 0.0006733333333333334,
      "loss": 1.6846,
      "step": 7980
    },
    {
      "epoch": 79.9,
      "grad_norm": 5.497502326965332,
      "learning_rate": 0.00067,
      "loss": 1.6157,
      "step": 7990
    },
    {
      "epoch": 80.0,
      "grad_norm": 5.991186141967773,
      "learning_rate": 0.0006666666666666666,
      "loss": 1.7836,
      "step": 8000
    },
    {
      "epoch": 80.0,
      "eval_accuracy": 0.13,
      "eval_loss": 9.721675872802734,
      "eval_runtime": 1.1785,
      "eval_samples_per_second": 84.854,
      "eval_steps_per_second": 84.854,
      "step": 8000
    },
    {
      "epoch": 80.1,
      "grad_norm": 3.4409921169281006,
      "learning_rate": 0.0006633333333333334,
      "loss": 1.7159,
      "step": 8010
    },
    {
      "epoch": 80.2,
      "grad_norm": 2.0698366165161133,
      "learning_rate": 0.00066,
      "loss": 1.6031,
      "step": 8020
    },
    {
      "epoch": 80.3,
      "grad_norm": 3.158905029296875,
      "learning_rate": 0.0006566666666666666,
      "loss": 1.8234,
      "step": 8030
    },
    {
      "epoch": 80.4,
      "grad_norm": 7.036154747009277,
      "learning_rate": 0.0006533333333333333,
      "loss": 1.5912,
      "step": 8040
    },
    {
      "epoch": 80.5,
      "grad_norm": 2.4452085494995117,
      "learning_rate": 0.0006500000000000001,
      "loss": 1.6557,
      "step": 8050
    },
    {
      "epoch": 80.6,
      "grad_norm": 12.575709342956543,
      "learning_rate": 0.0006466666666666667,
      "loss": 1.7963,
      "step": 8060
    },
    {
      "epoch": 80.7,
      "grad_norm": 2.6192171573638916,
      "learning_rate": 0.0006433333333333333,
      "loss": 1.7268,
      "step": 8070
    },
    {
      "epoch": 80.8,
      "grad_norm": 3.45434308052063,
      "learning_rate": 0.00064,
      "loss": 1.4155,
      "step": 8080
    },
    {
      "epoch": 80.9,
      "grad_norm": 8.185892105102539,
      "learning_rate": 0.0006366666666666667,
      "loss": 1.7059,
      "step": 8090
    },
    {
      "epoch": 81.0,
      "grad_norm": 5.6343183517456055,
      "learning_rate": 0.0006333333333333333,
      "loss": 1.5195,
      "step": 8100
    },
    {
      "epoch": 81.0,
      "eval_accuracy": 0.12,
      "eval_loss": 7.513216972351074,
      "eval_runtime": 1.0678,
      "eval_samples_per_second": 93.647,
      "eval_steps_per_second": 93.647,
      "step": 8100
    },
    {
      "epoch": 81.1,
      "grad_norm": 2.8379461765289307,
      "learning_rate": 0.00063,
      "loss": 1.6882,
      "step": 8110
    },
    {
      "epoch": 81.2,
      "grad_norm": 7.534255027770996,
      "learning_rate": 0.0006266666666666668,
      "loss": 1.6796,
      "step": 8120
    },
    {
      "epoch": 81.3,
      "grad_norm": 1.6739089488983154,
      "learning_rate": 0.0006233333333333334,
      "loss": 1.5956,
      "step": 8130
    },
    {
      "epoch": 81.4,
      "grad_norm": 2.9751076698303223,
      "learning_rate": 0.00062,
      "loss": 1.6019,
      "step": 8140
    },
    {
      "epoch": 81.5,
      "grad_norm": 4.309534549713135,
      "learning_rate": 0.0006166666666666666,
      "loss": 1.7701,
      "step": 8150
    },
    {
      "epoch": 81.6,
      "grad_norm": 4.213230133056641,
      "learning_rate": 0.0006133333333333334,
      "loss": 1.7361,
      "step": 8160
    },
    {
      "epoch": 81.7,
      "grad_norm": 1.757969856262207,
      "learning_rate": 0.00061,
      "loss": 1.8667,
      "step": 8170
    },
    {
      "epoch": 81.8,
      "grad_norm": 4.254034996032715,
      "learning_rate": 0.0006066666666666667,
      "loss": 1.4598,
      "step": 8180
    },
    {
      "epoch": 81.9,
      "grad_norm": 2.253918170928955,
      "learning_rate": 0.0006033333333333333,
      "loss": 1.5002,
      "step": 8190
    },
    {
      "epoch": 82.0,
      "grad_norm": 3.143101453781128,
      "learning_rate": 0.0006000000000000001,
      "loss": 1.4384,
      "step": 8200
    },
    {
      "epoch": 82.0,
      "eval_accuracy": 0.13,
      "eval_loss": 6.6091179847717285,
      "eval_runtime": 1.0621,
      "eval_samples_per_second": 94.153,
      "eval_steps_per_second": 94.153,
      "step": 8200
    },
    {
      "epoch": 82.1,
      "grad_norm": 6.236468315124512,
      "learning_rate": 0.0005966666666666667,
      "loss": 1.701,
      "step": 8210
    },
    {
      "epoch": 82.2,
      "grad_norm": 2.7502994537353516,
      "learning_rate": 0.0005933333333333333,
      "loss": 1.6615,
      "step": 8220
    },
    {
      "epoch": 82.3,
      "grad_norm": 4.324734210968018,
      "learning_rate": 0.00059,
      "loss": 1.7192,
      "step": 8230
    },
    {
      "epoch": 82.4,
      "grad_norm": 5.0085320472717285,
      "learning_rate": 0.0005866666666666668,
      "loss": 1.8115,
      "step": 8240
    },
    {
      "epoch": 82.5,
      "grad_norm": 3.843885660171509,
      "learning_rate": 0.0005833333333333334,
      "loss": 1.777,
      "step": 8250
    },
    {
      "epoch": 82.6,
      "grad_norm": 11.834420204162598,
      "learning_rate": 0.00058,
      "loss": 1.6285,
      "step": 8260
    },
    {
      "epoch": 82.7,
      "grad_norm": 4.1545257568359375,
      "learning_rate": 0.0005766666666666666,
      "loss": 1.4498,
      "step": 8270
    },
    {
      "epoch": 82.8,
      "grad_norm": 2.874239683151245,
      "learning_rate": 0.0005733333333333334,
      "loss": 1.9519,
      "step": 8280
    },
    {
      "epoch": 82.9,
      "grad_norm": 2.4866464138031006,
      "learning_rate": 0.00057,
      "loss": 1.6679,
      "step": 8290
    },
    {
      "epoch": 83.0,
      "grad_norm": 11.783166885375977,
      "learning_rate": 0.0005666666666666667,
      "loss": 1.5538,
      "step": 8300
    },
    {
      "epoch": 83.0,
      "eval_accuracy": 0.13,
      "eval_loss": 7.0785722732543945,
      "eval_runtime": 1.0594,
      "eval_samples_per_second": 94.392,
      "eval_steps_per_second": 94.392,
      "step": 8300
    },
    {
      "epoch": 83.1,
      "grad_norm": 5.404430389404297,
      "learning_rate": 0.0005633333333333333,
      "loss": 1.5581,
      "step": 8310
    },
    {
      "epoch": 83.2,
      "grad_norm": 13.793869018554688,
      "learning_rate": 0.0005600000000000001,
      "loss": 1.7984,
      "step": 8320
    },
    {
      "epoch": 83.3,
      "grad_norm": 3.788058042526245,
      "learning_rate": 0.0005566666666666667,
      "loss": 1.7085,
      "step": 8330
    },
    {
      "epoch": 83.4,
      "grad_norm": 2.9603164196014404,
      "learning_rate": 0.0005533333333333333,
      "loss": 1.6841,
      "step": 8340
    },
    {
      "epoch": 83.5,
      "grad_norm": 3.9996180534362793,
      "learning_rate": 0.0005499999999999999,
      "loss": 1.6758,
      "step": 8350
    },
    {
      "epoch": 83.6,
      "grad_norm": 3.632449150085449,
      "learning_rate": 0.0005466666666666667,
      "loss": 1.5275,
      "step": 8360
    },
    {
      "epoch": 83.7,
      "grad_norm": 9.344165802001953,
      "learning_rate": 0.0005433333333333334,
      "loss": 1.848,
      "step": 8370
    },
    {
      "epoch": 83.8,
      "grad_norm": 6.6888933181762695,
      "learning_rate": 0.00054,
      "loss": 1.5813,
      "step": 8380
    },
    {
      "epoch": 83.9,
      "grad_norm": 4.866454124450684,
      "learning_rate": 0.0005366666666666666,
      "loss": 1.4282,
      "step": 8390
    },
    {
      "epoch": 84.0,
      "grad_norm": 5.3505659103393555,
      "learning_rate": 0.0005333333333333334,
      "loss": 1.5705,
      "step": 8400
    },
    {
      "epoch": 84.0,
      "eval_accuracy": 0.14,
      "eval_loss": 12.585135459899902,
      "eval_runtime": 1.0929,
      "eval_samples_per_second": 91.504,
      "eval_steps_per_second": 91.504,
      "step": 8400
    },
    {
      "epoch": 84.1,
      "grad_norm": 3.3361263275146484,
      "learning_rate": 0.00053,
      "loss": 1.6673,
      "step": 8410
    },
    {
      "epoch": 84.2,
      "grad_norm": 3.2002100944519043,
      "learning_rate": 0.0005266666666666666,
      "loss": 1.5196,
      "step": 8420
    },
    {
      "epoch": 84.3,
      "grad_norm": 4.537071228027344,
      "learning_rate": 0.0005233333333333333,
      "loss": 1.4038,
      "step": 8430
    },
    {
      "epoch": 84.4,
      "grad_norm": 4.313013076782227,
      "learning_rate": 0.0005200000000000001,
      "loss": 1.7172,
      "step": 8440
    },
    {
      "epoch": 84.5,
      "grad_norm": 16.408864974975586,
      "learning_rate": 0.0005166666666666667,
      "loss": 1.6465,
      "step": 8450
    },
    {
      "epoch": 84.6,
      "grad_norm": 3.185908317565918,
      "learning_rate": 0.0005133333333333333,
      "loss": 1.8762,
      "step": 8460
    },
    {
      "epoch": 84.7,
      "grad_norm": 12.016066551208496,
      "learning_rate": 0.00051,
      "loss": 1.547,
      "step": 8470
    },
    {
      "epoch": 84.8,
      "grad_norm": 3.833848237991333,
      "learning_rate": 0.0005066666666666667,
      "loss": 1.8839,
      "step": 8480
    },
    {
      "epoch": 84.9,
      "grad_norm": 6.557989597320557,
      "learning_rate": 0.0005033333333333334,
      "loss": 1.5552,
      "step": 8490
    },
    {
      "epoch": 85.0,
      "grad_norm": 9.092035293579102,
      "learning_rate": 0.0005,
      "loss": 1.7255,
      "step": 8500
    },
    {
      "epoch": 85.0,
      "eval_accuracy": 0.11,
      "eval_loss": 9.933082580566406,
      "eval_runtime": 1.0662,
      "eval_samples_per_second": 93.791,
      "eval_steps_per_second": 93.791,
      "step": 8500
    },
    {
      "epoch": 85.1,
      "grad_norm": 4.006185531616211,
      "learning_rate": 0.0004966666666666667,
      "loss": 1.5849,
      "step": 8510
    },
    {
      "epoch": 85.2,
      "grad_norm": 4.64818000793457,
      "learning_rate": 0.0004933333333333334,
      "loss": 1.5274,
      "step": 8520
    },
    {
      "epoch": 85.3,
      "grad_norm": 4.239321708679199,
      "learning_rate": 0.00049,
      "loss": 1.3585,
      "step": 8530
    },
    {
      "epoch": 85.4,
      "grad_norm": 3.4257285594940186,
      "learning_rate": 0.00048666666666666666,
      "loss": 1.6392,
      "step": 8540
    },
    {
      "epoch": 85.5,
      "grad_norm": 11.131654739379883,
      "learning_rate": 0.0004833333333333334,
      "loss": 2.0834,
      "step": 8550
    },
    {
      "epoch": 85.6,
      "grad_norm": 4.093764781951904,
      "learning_rate": 0.00048,
      "loss": 1.7804,
      "step": 8560
    },
    {
      "epoch": 85.7,
      "grad_norm": 7.1940765380859375,
      "learning_rate": 0.0004766666666666667,
      "loss": 1.8576,
      "step": 8570
    },
    {
      "epoch": 85.8,
      "grad_norm": 3.6592063903808594,
      "learning_rate": 0.0004733333333333333,
      "loss": 1.6122,
      "step": 8580
    },
    {
      "epoch": 85.9,
      "grad_norm": 8.182126998901367,
      "learning_rate": 0.00047000000000000004,
      "loss": 1.6283,
      "step": 8590
    },
    {
      "epoch": 86.0,
      "grad_norm": 4.966497898101807,
      "learning_rate": 0.00046666666666666666,
      "loss": 1.6063,
      "step": 8600
    },
    {
      "epoch": 86.0,
      "eval_accuracy": 0.14,
      "eval_loss": 11.363009452819824,
      "eval_runtime": 1.1002,
      "eval_samples_per_second": 90.889,
      "eval_steps_per_second": 90.889,
      "step": 8600
    },
    {
      "epoch": 86.1,
      "grad_norm": 2.8917222023010254,
      "learning_rate": 0.00046333333333333334,
      "loss": 1.5926,
      "step": 8610
    },
    {
      "epoch": 86.2,
      "grad_norm": 5.326013088226318,
      "learning_rate": 0.00045999999999999996,
      "loss": 1.7023,
      "step": 8620
    },
    {
      "epoch": 86.3,
      "grad_norm": 6.342537879943848,
      "learning_rate": 0.0004566666666666667,
      "loss": 1.7277,
      "step": 8630
    },
    {
      "epoch": 86.4,
      "grad_norm": 5.517503261566162,
      "learning_rate": 0.00045333333333333337,
      "loss": 1.5213,
      "step": 8640
    },
    {
      "epoch": 86.5,
      "grad_norm": 5.387936592102051,
      "learning_rate": 0.00045,
      "loss": 1.3763,
      "step": 8650
    },
    {
      "epoch": 86.6,
      "grad_norm": 6.751247406005859,
      "learning_rate": 0.00044666666666666666,
      "loss": 1.5613,
      "step": 8660
    },
    {
      "epoch": 86.7,
      "grad_norm": 3.263594627380371,
      "learning_rate": 0.00044333333333333334,
      "loss": 1.5917,
      "step": 8670
    },
    {
      "epoch": 86.8,
      "grad_norm": 4.501608371734619,
      "learning_rate": 0.00044,
      "loss": 1.7682,
      "step": 8680
    },
    {
      "epoch": 86.9,
      "grad_norm": 6.865741729736328,
      "learning_rate": 0.00043666666666666664,
      "loss": 1.6396,
      "step": 8690
    },
    {
      "epoch": 87.0,
      "grad_norm": 18.602689743041992,
      "learning_rate": 0.0004333333333333333,
      "loss": 1.5201,
      "step": 8700
    },
    {
      "epoch": 87.0,
      "eval_accuracy": 0.08,
      "eval_loss": 20.801061630249023,
      "eval_runtime": 1.0917,
      "eval_samples_per_second": 91.601,
      "eval_steps_per_second": 91.601,
      "step": 8700
    },
    {
      "epoch": 87.1,
      "grad_norm": 4.5361857414245605,
      "learning_rate": 0.00043000000000000004,
      "loss": 1.6544,
      "step": 8710
    },
    {
      "epoch": 87.2,
      "grad_norm": 9.736603736877441,
      "learning_rate": 0.00042666666666666667,
      "loss": 1.6858,
      "step": 8720
    },
    {
      "epoch": 87.3,
      "grad_norm": 4.952563762664795,
      "learning_rate": 0.00042333333333333334,
      "loss": 1.7577,
      "step": 8730
    },
    {
      "epoch": 87.4,
      "grad_norm": 4.5743608474731445,
      "learning_rate": 0.00042000000000000007,
      "loss": 1.5682,
      "step": 8740
    },
    {
      "epoch": 87.5,
      "grad_norm": 4.293666362762451,
      "learning_rate": 0.0004166666666666667,
      "loss": 1.5536,
      "step": 8750
    },
    {
      "epoch": 87.6,
      "grad_norm": 4.446376800537109,
      "learning_rate": 0.0004133333333333333,
      "loss": 1.5963,
      "step": 8760
    },
    {
      "epoch": 87.7,
      "grad_norm": 6.884150981903076,
      "learning_rate": 0.00041,
      "loss": 1.637,
      "step": 8770
    },
    {
      "epoch": 87.8,
      "grad_norm": 4.1387176513671875,
      "learning_rate": 0.0004066666666666667,
      "loss": 1.5257,
      "step": 8780
    },
    {
      "epoch": 87.9,
      "grad_norm": 4.752466678619385,
      "learning_rate": 0.00040333333333333334,
      "loss": 1.5627,
      "step": 8790
    },
    {
      "epoch": 88.0,
      "grad_norm": 4.676969051361084,
      "learning_rate": 0.0004,
      "loss": 1.3734,
      "step": 8800
    },
    {
      "epoch": 88.0,
      "eval_accuracy": 0.09,
      "eval_loss": 5.235384941101074,
      "eval_runtime": 1.0813,
      "eval_samples_per_second": 92.482,
      "eval_steps_per_second": 92.482,
      "step": 8800
    },
    {
      "epoch": 88.1,
      "grad_norm": 5.092541694641113,
      "learning_rate": 0.00039666666666666664,
      "loss": 1.8695,
      "step": 8810
    },
    {
      "epoch": 88.2,
      "grad_norm": 12.015568733215332,
      "learning_rate": 0.00039333333333333337,
      "loss": 1.8373,
      "step": 8820
    },
    {
      "epoch": 88.3,
      "grad_norm": 4.479465961456299,
      "learning_rate": 0.00039000000000000005,
      "loss": 1.6962,
      "step": 8830
    },
    {
      "epoch": 88.4,
      "grad_norm": 8.001754760742188,
      "learning_rate": 0.00038666666666666667,
      "loss": 1.6139,
      "step": 8840
    },
    {
      "epoch": 88.5,
      "grad_norm": 4.856076717376709,
      "learning_rate": 0.0003833333333333333,
      "loss": 1.3922,
      "step": 8850
    },
    {
      "epoch": 88.6,
      "grad_norm": 4.531224727630615,
      "learning_rate": 0.00038,
      "loss": 1.688,
      "step": 8860
    },
    {
      "epoch": 88.7,
      "grad_norm": 6.974000453948975,
      "learning_rate": 0.0003766666666666667,
      "loss": 1.8213,
      "step": 8870
    },
    {
      "epoch": 88.8,
      "grad_norm": 5.6940155029296875,
      "learning_rate": 0.0003733333333333333,
      "loss": 1.6231,
      "step": 8880
    },
    {
      "epoch": 88.9,
      "grad_norm": 6.221618175506592,
      "learning_rate": 0.00037,
      "loss": 1.4928,
      "step": 8890
    },
    {
      "epoch": 89.0,
      "grad_norm": 5.715379238128662,
      "learning_rate": 0.00036666666666666667,
      "loss": 1.5931,
      "step": 8900
    },
    {
      "epoch": 89.0,
      "eval_accuracy": 0.1,
      "eval_loss": 6.509023666381836,
      "eval_runtime": 1.1779,
      "eval_samples_per_second": 84.897,
      "eval_steps_per_second": 84.897,
      "step": 8900
    },
    {
      "epoch": 89.1,
      "grad_norm": 4.112030506134033,
      "learning_rate": 0.00036333333333333335,
      "loss": 1.4779,
      "step": 8910
    },
    {
      "epoch": 89.2,
      "grad_norm": 4.962814807891846,
      "learning_rate": 0.00035999999999999997,
      "loss": 1.4838,
      "step": 8920
    },
    {
      "epoch": 89.3,
      "grad_norm": 3.100139856338501,
      "learning_rate": 0.0003566666666666667,
      "loss": 1.4203,
      "step": 8930
    },
    {
      "epoch": 89.4,
      "grad_norm": 2.1554136276245117,
      "learning_rate": 0.0003533333333333333,
      "loss": 1.8653,
      "step": 8940
    },
    {
      "epoch": 89.5,
      "grad_norm": 4.6902360916137695,
      "learning_rate": 0.00035,
      "loss": 1.7854,
      "step": 8950
    },
    {
      "epoch": 89.6,
      "grad_norm": 7.109988689422607,
      "learning_rate": 0.00034666666666666667,
      "loss": 1.6059,
      "step": 8960
    },
    {
      "epoch": 89.7,
      "grad_norm": 5.055539608001709,
      "learning_rate": 0.00034333333333333335,
      "loss": 1.5368,
      "step": 8970
    },
    {
      "epoch": 89.8,
      "grad_norm": 3.6119301319122314,
      "learning_rate": 0.00033999999999999997,
      "loss": 1.6468,
      "step": 8980
    },
    {
      "epoch": 89.9,
      "grad_norm": 4.249040126800537,
      "learning_rate": 0.0003366666666666667,
      "loss": 1.6441,
      "step": 8990
    },
    {
      "epoch": 90.0,
      "grad_norm": 2.1352763175964355,
      "learning_rate": 0.0003333333333333333,
      "loss": 1.5562,
      "step": 9000
    },
    {
      "epoch": 90.0,
      "eval_accuracy": 0.1,
      "eval_loss": 11.834088325500488,
      "eval_runtime": 1.0907,
      "eval_samples_per_second": 91.685,
      "eval_steps_per_second": 91.685,
      "step": 9000
    },
    {
      "epoch": 90.1,
      "grad_norm": 6.328755855560303,
      "learning_rate": 0.00033,
      "loss": 1.3075,
      "step": 9010
    },
    {
      "epoch": 90.2,
      "grad_norm": 2.490816593170166,
      "learning_rate": 0.0003266666666666667,
      "loss": 1.5389,
      "step": 9020
    },
    {
      "epoch": 90.3,
      "grad_norm": 2.4213767051696777,
      "learning_rate": 0.00032333333333333335,
      "loss": 1.5494,
      "step": 9030
    },
    {
      "epoch": 90.4,
      "grad_norm": 6.218684673309326,
      "learning_rate": 0.00032,
      "loss": 1.714,
      "step": 9040
    },
    {
      "epoch": 90.5,
      "grad_norm": 8.454752922058105,
      "learning_rate": 0.00031666666666666665,
      "loss": 1.751,
      "step": 9050
    },
    {
      "epoch": 90.6,
      "grad_norm": 6.157979488372803,
      "learning_rate": 0.0003133333333333334,
      "loss": 1.6605,
      "step": 9060
    },
    {
      "epoch": 90.7,
      "grad_norm": 6.605826377868652,
      "learning_rate": 0.00031,
      "loss": 1.4179,
      "step": 9070
    },
    {
      "epoch": 90.8,
      "grad_norm": 3.808640480041504,
      "learning_rate": 0.0003066666666666667,
      "loss": 1.8103,
      "step": 9080
    },
    {
      "epoch": 90.9,
      "grad_norm": 2.5629327297210693,
      "learning_rate": 0.00030333333333333335,
      "loss": 1.8102,
      "step": 9090
    },
    {
      "epoch": 91.0,
      "grad_norm": 6.230813026428223,
      "learning_rate": 0.00030000000000000003,
      "loss": 1.576,
      "step": 9100
    },
    {
      "epoch": 91.0,
      "eval_accuracy": 0.11,
      "eval_loss": 6.952084541320801,
      "eval_runtime": 1.0557,
      "eval_samples_per_second": 94.722,
      "eval_steps_per_second": 94.722,
      "step": 9100
    },
    {
      "epoch": 91.1,
      "grad_norm": 6.030466079711914,
      "learning_rate": 0.00029666666666666665,
      "loss": 1.3356,
      "step": 9110
    },
    {
      "epoch": 91.2,
      "grad_norm": 11.793140411376953,
      "learning_rate": 0.0002933333333333334,
      "loss": 1.5781,
      "step": 9120
    },
    {
      "epoch": 91.3,
      "grad_norm": 3.717588186264038,
      "learning_rate": 0.00029,
      "loss": 1.6609,
      "step": 9130
    },
    {
      "epoch": 91.4,
      "grad_norm": 3.572495222091675,
      "learning_rate": 0.0002866666666666667,
      "loss": 1.4394,
      "step": 9140
    },
    {
      "epoch": 91.5,
      "grad_norm": 11.123634338378906,
      "learning_rate": 0.00028333333333333335,
      "loss": 1.7692,
      "step": 9150
    },
    {
      "epoch": 91.6,
      "grad_norm": 4.947868824005127,
      "learning_rate": 0.00028000000000000003,
      "loss": 1.9597,
      "step": 9160
    },
    {
      "epoch": 91.7,
      "grad_norm": 5.078018665313721,
      "learning_rate": 0.00027666666666666665,
      "loss": 1.7529,
      "step": 9170
    },
    {
      "epoch": 91.8,
      "grad_norm": 1.9481812715530396,
      "learning_rate": 0.00027333333333333333,
      "loss": 1.5537,
      "step": 9180
    },
    {
      "epoch": 91.9,
      "grad_norm": 4.905779838562012,
      "learning_rate": 0.00027,
      "loss": 1.6519,
      "step": 9190
    },
    {
      "epoch": 92.0,
      "grad_norm": 9.797691345214844,
      "learning_rate": 0.0002666666666666667,
      "loss": 1.542,
      "step": 9200
    },
    {
      "epoch": 92.0,
      "eval_accuracy": 0.11,
      "eval_loss": 5.4469685554504395,
      "eval_runtime": 1.0782,
      "eval_samples_per_second": 92.746,
      "eval_steps_per_second": 92.746,
      "step": 9200
    },
    {
      "epoch": 92.1,
      "grad_norm": 8.36400318145752,
      "learning_rate": 0.0002633333333333333,
      "loss": 1.3856,
      "step": 9210
    },
    {
      "epoch": 92.2,
      "grad_norm": 5.642277717590332,
      "learning_rate": 0.00026000000000000003,
      "loss": 1.4981,
      "step": 9220
    },
    {
      "epoch": 92.3,
      "grad_norm": 6.828677177429199,
      "learning_rate": 0.00025666666666666665,
      "loss": 1.6994,
      "step": 9230
    },
    {
      "epoch": 92.4,
      "grad_norm": 2.652298927307129,
      "learning_rate": 0.00025333333333333333,
      "loss": 1.4695,
      "step": 9240
    },
    {
      "epoch": 92.5,
      "grad_norm": 11.153400421142578,
      "learning_rate": 0.00025,
      "loss": 1.7156,
      "step": 9250
    },
    {
      "epoch": 92.6,
      "grad_norm": 9.4036865234375,
      "learning_rate": 0.0002466666666666667,
      "loss": 1.5793,
      "step": 9260
    },
    {
      "epoch": 92.7,
      "grad_norm": 4.6221089363098145,
      "learning_rate": 0.00024333333333333333,
      "loss": 1.5901,
      "step": 9270
    },
    {
      "epoch": 92.8,
      "grad_norm": 16.04757308959961,
      "learning_rate": 0.00024,
      "loss": 1.5083,
      "step": 9280
    },
    {
      "epoch": 92.9,
      "grad_norm": 3.3790411949157715,
      "learning_rate": 0.00023666666666666665,
      "loss": 1.6492,
      "step": 9290
    },
    {
      "epoch": 93.0,
      "grad_norm": 5.925487995147705,
      "learning_rate": 0.00023333333333333333,
      "loss": 1.4968,
      "step": 9300
    },
    {
      "epoch": 93.0,
      "eval_accuracy": 0.08,
      "eval_loss": 11.389555931091309,
      "eval_runtime": 1.0737,
      "eval_samples_per_second": 93.132,
      "eval_steps_per_second": 93.132,
      "step": 9300
    },
    {
      "epoch": 93.1,
      "grad_norm": 3.4330050945281982,
      "learning_rate": 0.00022999999999999998,
      "loss": 1.45,
      "step": 9310
    },
    {
      "epoch": 93.2,
      "grad_norm": 6.9820051193237305,
      "learning_rate": 0.00022666666666666668,
      "loss": 1.5511,
      "step": 9320
    },
    {
      "epoch": 93.3,
      "grad_norm": 3.9312143325805664,
      "learning_rate": 0.00022333333333333333,
      "loss": 1.6517,
      "step": 9330
    },
    {
      "epoch": 93.4,
      "grad_norm": 3.8252358436584473,
      "learning_rate": 0.00022,
      "loss": 1.5204,
      "step": 9340
    },
    {
      "epoch": 93.5,
      "grad_norm": 5.608623027801514,
      "learning_rate": 0.00021666666666666666,
      "loss": 1.6045,
      "step": 9350
    },
    {
      "epoch": 93.6,
      "grad_norm": 3.1002135276794434,
      "learning_rate": 0.00021333333333333333,
      "loss": 1.8633,
      "step": 9360
    },
    {
      "epoch": 93.7,
      "grad_norm": 7.6362080574035645,
      "learning_rate": 0.00021000000000000004,
      "loss": 1.8021,
      "step": 9370
    },
    {
      "epoch": 93.8,
      "grad_norm": 6.949824810028076,
      "learning_rate": 0.00020666666666666666,
      "loss": 1.5986,
      "step": 9380
    },
    {
      "epoch": 93.9,
      "grad_norm": 2.6082653999328613,
      "learning_rate": 0.00020333333333333336,
      "loss": 1.6573,
      "step": 9390
    },
    {
      "epoch": 94.0,
      "grad_norm": 1.7762422561645508,
      "learning_rate": 0.0002,
      "loss": 1.5031,
      "step": 9400
    },
    {
      "epoch": 94.0,
      "eval_accuracy": 0.09,
      "eval_loss": 11.971654891967773,
      "eval_runtime": 1.0995,
      "eval_samples_per_second": 90.954,
      "eval_steps_per_second": 90.954,
      "step": 9400
    },
    {
      "epoch": 94.1,
      "grad_norm": 5.909740447998047,
      "learning_rate": 0.00019666666666666669,
      "loss": 1.8356,
      "step": 9410
    },
    {
      "epoch": 94.2,
      "grad_norm": 5.829824447631836,
      "learning_rate": 0.00019333333333333333,
      "loss": 1.6169,
      "step": 9420
    },
    {
      "epoch": 94.3,
      "grad_norm": 5.292634963989258,
      "learning_rate": 0.00019,
      "loss": 1.5679,
      "step": 9430
    },
    {
      "epoch": 94.4,
      "grad_norm": 10.358529090881348,
      "learning_rate": 0.00018666666666666666,
      "loss": 1.7761,
      "step": 9440
    },
    {
      "epoch": 94.5,
      "grad_norm": 7.091001033782959,
      "learning_rate": 0.00018333333333333334,
      "loss": 1.3063,
      "step": 9450
    },
    {
      "epoch": 94.6,
      "grad_norm": 5.417427062988281,
      "learning_rate": 0.00017999999999999998,
      "loss": 1.5903,
      "step": 9460
    },
    {
      "epoch": 94.7,
      "grad_norm": 2.955625295639038,
      "learning_rate": 0.00017666666666666666,
      "loss": 1.34,
      "step": 9470
    },
    {
      "epoch": 94.8,
      "grad_norm": 12.496049880981445,
      "learning_rate": 0.00017333333333333334,
      "loss": 1.6369,
      "step": 9480
    },
    {
      "epoch": 94.9,
      "grad_norm": 5.346241474151611,
      "learning_rate": 0.00016999999999999999,
      "loss": 1.6256,
      "step": 9490
    },
    {
      "epoch": 95.0,
      "grad_norm": 3.4618892669677734,
      "learning_rate": 0.00016666666666666666,
      "loss": 1.797,
      "step": 9500
    },
    {
      "epoch": 95.0,
      "eval_accuracy": 0.15,
      "eval_loss": 5.659628391265869,
      "eval_runtime": 1.0964,
      "eval_samples_per_second": 91.21,
      "eval_steps_per_second": 91.21,
      "step": 9500
    },
    {
      "epoch": 95.1,
      "grad_norm": 9.091547012329102,
      "learning_rate": 0.00016333333333333334,
      "loss": 1.7098,
      "step": 9510
    },
    {
      "epoch": 95.2,
      "grad_norm": 4.004639625549316,
      "learning_rate": 0.00016,
      "loss": 1.7619,
      "step": 9520
    },
    {
      "epoch": 95.3,
      "grad_norm": 5.718022346496582,
      "learning_rate": 0.0001566666666666667,
      "loss": 1.6164,
      "step": 9530
    },
    {
      "epoch": 95.4,
      "grad_norm": 6.067481994628906,
      "learning_rate": 0.00015333333333333334,
      "loss": 1.4772,
      "step": 9540
    },
    {
      "epoch": 95.5,
      "grad_norm": 9.880731582641602,
      "learning_rate": 0.00015000000000000001,
      "loss": 1.727,
      "step": 9550
    },
    {
      "epoch": 95.6,
      "grad_norm": 3.9072794914245605,
      "learning_rate": 0.0001466666666666667,
      "loss": 1.6101,
      "step": 9560
    },
    {
      "epoch": 95.7,
      "grad_norm": 5.950568199157715,
      "learning_rate": 0.00014333333333333334,
      "loss": 1.6918,
      "step": 9570
    },
    {
      "epoch": 95.8,
      "grad_norm": 4.8070759773254395,
      "learning_rate": 0.00014000000000000001,
      "loss": 1.5439,
      "step": 9580
    },
    {
      "epoch": 95.9,
      "grad_norm": 2.928107500076294,
      "learning_rate": 0.00013666666666666666,
      "loss": 1.7419,
      "step": 9590
    },
    {
      "epoch": 96.0,
      "grad_norm": 2.5517635345458984,
      "learning_rate": 0.00013333333333333334,
      "loss": 1.5389,
      "step": 9600
    },
    {
      "epoch": 96.0,
      "eval_accuracy": 0.15,
      "eval_loss": 5.394742488861084,
      "eval_runtime": 1.2105,
      "eval_samples_per_second": 82.609,
      "eval_steps_per_second": 82.609,
      "step": 9600
    },
    {
      "epoch": 96.1,
      "grad_norm": 6.7149200439453125,
      "learning_rate": 0.00013000000000000002,
      "loss": 1.4619,
      "step": 9610
    },
    {
      "epoch": 96.2,
      "grad_norm": 4.244627952575684,
      "learning_rate": 0.00012666666666666666,
      "loss": 1.658,
      "step": 9620
    },
    {
      "epoch": 96.3,
      "grad_norm": 12.272513389587402,
      "learning_rate": 0.00012333333333333334,
      "loss": 1.4024,
      "step": 9630
    },
    {
      "epoch": 96.4,
      "grad_norm": 4.836441516876221,
      "learning_rate": 0.00012,
      "loss": 1.6373,
      "step": 9640
    },
    {
      "epoch": 96.5,
      "grad_norm": 10.306394577026367,
      "learning_rate": 0.00011666666666666667,
      "loss": 1.6761,
      "step": 9650
    },
    {
      "epoch": 96.6,
      "grad_norm": 15.065468788146973,
      "learning_rate": 0.00011333333333333334,
      "loss": 1.5668,
      "step": 9660
    },
    {
      "epoch": 96.7,
      "grad_norm": 9.095344543457031,
      "learning_rate": 0.00011,
      "loss": 1.6632,
      "step": 9670
    },
    {
      "epoch": 96.8,
      "grad_norm": 15.200200080871582,
      "learning_rate": 0.00010666666666666667,
      "loss": 1.751,
      "step": 9680
    },
    {
      "epoch": 96.9,
      "grad_norm": 5.573326587677002,
      "learning_rate": 0.00010333333333333333,
      "loss": 1.4333,
      "step": 9690
    },
    {
      "epoch": 97.0,
      "grad_norm": 8.93664836883545,
      "learning_rate": 0.0001,
      "loss": 1.6494,
      "step": 9700
    },
    {
      "epoch": 97.0,
      "eval_accuracy": 0.09,
      "eval_loss": 12.270679473876953,
      "eval_runtime": 1.1046,
      "eval_samples_per_second": 90.527,
      "eval_steps_per_second": 90.527,
      "step": 9700
    },
    {
      "epoch": 97.1,
      "grad_norm": 7.3307061195373535,
      "learning_rate": 9.666666666666667e-05,
      "loss": 1.6132,
      "step": 9710
    },
    {
      "epoch": 97.2,
      "grad_norm": 4.363010406494141,
      "learning_rate": 9.333333333333333e-05,
      "loss": 1.4765,
      "step": 9720
    },
    {
      "epoch": 97.3,
      "grad_norm": 6.389674186706543,
      "learning_rate": 8.999999999999999e-05,
      "loss": 1.5761,
      "step": 9730
    },
    {
      "epoch": 97.4,
      "grad_norm": 5.851135730743408,
      "learning_rate": 8.666666666666667e-05,
      "loss": 1.4239,
      "step": 9740
    },
    {
      "epoch": 97.5,
      "grad_norm": 3.2834291458129883,
      "learning_rate": 8.333333333333333e-05,
      "loss": 1.492,
      "step": 9750
    },
    {
      "epoch": 97.6,
      "grad_norm": 7.470133304595947,
      "learning_rate": 8e-05,
      "loss": 1.397,
      "step": 9760
    },
    {
      "epoch": 97.7,
      "grad_norm": 10.482823371887207,
      "learning_rate": 7.666666666666667e-05,
      "loss": 1.3747,
      "step": 9770
    },
    {
      "epoch": 97.8,
      "grad_norm": 5.69985818862915,
      "learning_rate": 7.333333333333334e-05,
      "loss": 1.6509,
      "step": 9780
    },
    {
      "epoch": 97.9,
      "grad_norm": 5.918487071990967,
      "learning_rate": 7.000000000000001e-05,
      "loss": 1.7359,
      "step": 9790
    },
    {
      "epoch": 98.0,
      "grad_norm": 5.521181583404541,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.73,
      "step": 9800
    },
    {
      "epoch": 98.0,
      "eval_accuracy": 0.09,
      "eval_loss": 7.748157978057861,
      "eval_runtime": 1.1743,
      "eval_samples_per_second": 85.156,
      "eval_steps_per_second": 85.156,
      "step": 9800
    },
    {
      "epoch": 98.1,
      "grad_norm": 1.7943670749664307,
      "learning_rate": 6.333333333333333e-05,
      "loss": 1.521,
      "step": 9810
    },
    {
      "epoch": 98.2,
      "grad_norm": 5.804259777069092,
      "learning_rate": 6e-05,
      "loss": 1.4225,
      "step": 9820
    },
    {
      "epoch": 98.3,
      "grad_norm": 4.800943374633789,
      "learning_rate": 5.666666666666667e-05,
      "loss": 1.6552,
      "step": 9830
    },
    {
      "epoch": 98.4,
      "grad_norm": 4.801553726196289,
      "learning_rate": 5.333333333333333e-05,
      "loss": 1.6209,
      "step": 9840
    },
    {
      "epoch": 98.5,
      "grad_norm": 6.166553974151611,
      "learning_rate": 5e-05,
      "loss": 1.6065,
      "step": 9850
    },
    {
      "epoch": 98.6,
      "grad_norm": 5.88163948059082,
      "learning_rate": 4.6666666666666665e-05,
      "loss": 1.4366,
      "step": 9860
    },
    {
      "epoch": 98.7,
      "grad_norm": 3.944805145263672,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 1.7576,
      "step": 9870
    },
    {
      "epoch": 98.8,
      "grad_norm": 3.368363618850708,
      "learning_rate": 4e-05,
      "loss": 1.4783,
      "step": 9880
    },
    {
      "epoch": 98.9,
      "grad_norm": 14.498971939086914,
      "learning_rate": 3.666666666666667e-05,
      "loss": 1.5058,
      "step": 9890
    },
    {
      "epoch": 99.0,
      "grad_norm": 15.378142356872559,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 1.6781,
      "step": 9900
    },
    {
      "epoch": 99.0,
      "eval_accuracy": 0.09,
      "eval_loss": 8.217840194702148,
      "eval_runtime": 1.0827,
      "eval_samples_per_second": 92.358,
      "eval_steps_per_second": 92.358,
      "step": 9900
    },
    {
      "epoch": 99.1,
      "grad_norm": 4.426601886749268,
      "learning_rate": 3e-05,
      "loss": 1.6958,
      "step": 9910
    },
    {
      "epoch": 99.2,
      "grad_norm": 4.605733394622803,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 1.4533,
      "step": 9920
    },
    {
      "epoch": 99.3,
      "grad_norm": 13.782227516174316,
      "learning_rate": 2.3333333333333332e-05,
      "loss": 1.8946,
      "step": 9930
    },
    {
      "epoch": 99.4,
      "grad_norm": 4.161137580871582,
      "learning_rate": 2e-05,
      "loss": 1.6174,
      "step": 9940
    },
    {
      "epoch": 99.5,
      "grad_norm": 2.4664387702941895,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 1.5238,
      "step": 9950
    },
    {
      "epoch": 99.6,
      "grad_norm": 2.55865216255188,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 1.5149,
      "step": 9960
    },
    {
      "epoch": 99.7,
      "grad_norm": 6.92779016494751,
      "learning_rate": 1e-05,
      "loss": 1.6855,
      "step": 9970
    },
    {
      "epoch": 99.8,
      "grad_norm": 5.996972560882568,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.6467,
      "step": 9980
    },
    {
      "epoch": 99.9,
      "grad_norm": 4.8729729652404785,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.4819,
      "step": 9990
    },
    {
      "epoch": 100.0,
      "grad_norm": 6.14045524597168,
      "learning_rate": 0.0,
      "loss": 1.6353,
      "step": 10000
    },
    {
      "epoch": 100.0,
      "eval_accuracy": 0.09,
      "eval_loss": 7.3961310386657715,
      "eval_runtime": 1.1462,
      "eval_samples_per_second": 87.242,
      "eval_steps_per_second": 87.242,
      "step": 10000
    },
    {
      "epoch": 100.0,
      "step": 10000,
      "total_flos": 5.698654912512e+16,
      "train_loss": 1.9340028741836548,
      "train_runtime": 4182.7218,
      "train_samples_per_second": 9.563,
      "train_steps_per_second": 2.391
    }
  ],
  "logging_steps": 10,
  "max_steps": 10000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.698654912512e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}