{
  "best_metric": 0.3802405893802643,
  "best_model_checkpoint": "vit-base-kidney-stone-Michel_Daudon_-w256_1k_v1-_SEC\\checkpoint-300",
  "epoch": 15.0,
  "eval_steps": 100,
  "global_step": 2250,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 2.1643013954162598,
      "learning_rate": 0.00019955555555555558,
      "loss": 1.6733,
      "step": 5
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 1.8686238527297974,
      "learning_rate": 0.00019911111111111111,
      "loss": 1.3294,
      "step": 10
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.8060851097106934,
      "learning_rate": 0.00019866666666666668,
      "loss": 1.0241,
      "step": 15
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 3.08414888381958,
      "learning_rate": 0.00019822222222222225,
      "loss": 0.7512,
      "step": 20
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 3.4249844551086426,
      "learning_rate": 0.00019777777777777778,
      "loss": 0.5646,
      "step": 25
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.226018190383911,
      "learning_rate": 0.00019733333333333335,
      "loss": 0.4544,
      "step": 30
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 1.3460403680801392,
      "learning_rate": 0.0001968888888888889,
      "loss": 0.3621,
      "step": 35
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 3.7613823413848877,
      "learning_rate": 0.00019644444444444445,
      "loss": 0.316,
      "step": 40
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.2483086585998535,
      "learning_rate": 0.000196,
      "loss": 0.2864,
      "step": 45
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 5.758204936981201,
      "learning_rate": 0.00019555555555555556,
      "loss": 0.2199,
      "step": 50
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 2.4377002716064453,
      "learning_rate": 0.0001951111111111111,
      "loss": 0.178,
      "step": 55
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4535435438156128,
      "learning_rate": 0.0001946666666666667,
      "loss": 0.2433,
      "step": 60
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 0.8696395754814148,
      "learning_rate": 0.00019422222222222223,
      "loss": 0.2224,
      "step": 65
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 2.3752634525299072,
      "learning_rate": 0.0001937777777777778,
      "loss": 0.153,
      "step": 70
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6941399574279785,
      "learning_rate": 0.00019333333333333333,
      "loss": 0.123,
      "step": 75
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 1.325562596321106,
      "learning_rate": 0.0001928888888888889,
      "loss": 0.088,
      "step": 80
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 2.3543503284454346,
      "learning_rate": 0.00019244444444444444,
      "loss": 0.144,
      "step": 85
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.867963790893555,
      "learning_rate": 0.000192,
      "loss": 0.1317,
      "step": 90
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 5.8942952156066895,
      "learning_rate": 0.00019155555555555554,
      "loss": 0.235,
      "step": 95
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 2.4781672954559326,
      "learning_rate": 0.00019111111111111114,
      "loss": 0.1982,
      "step": 100
    },
    {
      "epoch": 0.6666666666666666,
      "eval_accuracy": 0.8341666666666666,
      "eval_f1": 0.8304486369882172,
      "eval_loss": 0.5328117609024048,
      "eval_precision": 0.8678492994374617,
      "eval_recall": 0.8341666666666666,
      "eval_runtime": 9.3029,
      "eval_samples_per_second": 128.992,
      "eval_steps_per_second": 16.124,
      "step": 100
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.166115164756775,
      "learning_rate": 0.00019066666666666668,
      "loss": 0.2656,
      "step": 105
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 2.00095796585083,
      "learning_rate": 0.00019022222222222224,
      "loss": 0.1235,
      "step": 110
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 1.3086392879486084,
      "learning_rate": 0.00018977777777777778,
      "loss": 0.1713,
      "step": 115
    },
    {
      "epoch": 0.8,
      "grad_norm": 6.09683895111084,
      "learning_rate": 0.00018933333333333335,
      "loss": 0.1963,
      "step": 120
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 2.859923839569092,
      "learning_rate": 0.00018888888888888888,
      "loss": 0.1364,
      "step": 125
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 2.2701096534729004,
      "learning_rate": 0.00018844444444444445,
      "loss": 0.1522,
      "step": 130
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.319283962249756,
      "learning_rate": 0.000188,
      "loss": 0.144,
      "step": 135
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.4350503981113434,
      "learning_rate": 0.00018755555555555558,
      "loss": 0.0738,
      "step": 140
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 3.1170380115509033,
      "learning_rate": 0.00018711111111111112,
      "loss": 0.1391,
      "step": 145
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.1903908252716064,
      "learning_rate": 0.0001866666666666667,
      "loss": 0.1153,
      "step": 150
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 6.502556324005127,
      "learning_rate": 0.00018622222222222223,
      "loss": 0.1404,
      "step": 155
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 2.776758909225464,
      "learning_rate": 0.0001857777777777778,
      "loss": 0.0855,
      "step": 160
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.11648551374673843,
      "learning_rate": 0.00018533333333333333,
      "loss": 0.1336,
      "step": 165
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 1.6743929386138916,
      "learning_rate": 0.0001848888888888889,
      "loss": 0.1439,
      "step": 170
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 1.2967370748519897,
      "learning_rate": 0.00018444444444444446,
      "loss": 0.2415,
      "step": 175
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.2473931312561035,
      "learning_rate": 0.00018400000000000003,
      "loss": 0.1836,
      "step": 180
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 0.566474974155426,
      "learning_rate": 0.00018355555555555557,
      "loss": 0.0621,
      "step": 185
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 1.6515556573867798,
      "learning_rate": 0.00018311111111111113,
      "loss": 0.0916,
      "step": 190
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.11715172231197357,
      "learning_rate": 0.00018266666666666667,
      "loss": 0.0852,
      "step": 195
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.14139436185359955,
      "learning_rate": 0.00018222222222222224,
      "loss": 0.103,
      "step": 200
    },
    {
      "epoch": 1.3333333333333333,
      "eval_accuracy": 0.8341666666666666,
      "eval_f1": 0.8234878481116356,
      "eval_loss": 0.5614480376243591,
      "eval_precision": 0.8517601908834515,
      "eval_recall": 0.8341666666666666,
      "eval_runtime": 7.9867,
      "eval_samples_per_second": 150.251,
      "eval_steps_per_second": 18.781,
      "step": 200
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 4.81322717666626,
      "learning_rate": 0.00018177777777777778,
      "loss": 0.1296,
      "step": 205
    },
    {
      "epoch": 1.4,
      "grad_norm": 3.768717050552368,
      "learning_rate": 0.00018133333333333334,
      "loss": 0.159,
      "step": 210
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 0.5431575775146484,
      "learning_rate": 0.0001808888888888889,
      "loss": 0.1192,
      "step": 215
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.17699795961380005,
      "learning_rate": 0.00018044444444444447,
      "loss": 0.1208,
      "step": 220
    },
    {
      "epoch": 1.5,
      "grad_norm": 5.435163974761963,
      "learning_rate": 0.00018,
      "loss": 0.0685,
      "step": 225
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 1.4881699085235596,
      "learning_rate": 0.00017955555555555558,
      "loss": 0.0374,
      "step": 230
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 1.4574538469314575,
      "learning_rate": 0.00017911111111111112,
      "loss": 0.0779,
      "step": 235
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.44838276505470276,
      "learning_rate": 0.00017866666666666668,
      "loss": 0.0679,
      "step": 240
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 5.29640531539917,
      "learning_rate": 0.00017822222222222222,
      "loss": 0.0886,
      "step": 245
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.6367706656455994,
      "learning_rate": 0.00017777777777777779,
      "loss": 0.1053,
      "step": 250
    },
    {
      "epoch": 1.7,
      "grad_norm": 6.0069122314453125,
      "learning_rate": 0.00017733333333333335,
      "loss": 0.1757,
      "step": 255
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.5579840540885925,
      "learning_rate": 0.0001768888888888889,
      "loss": 0.2191,
      "step": 260
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 0.29452991485595703,
      "learning_rate": 0.00017644444444444446,
      "loss": 0.0612,
      "step": 265
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2967863380908966,
      "learning_rate": 0.00017600000000000002,
      "loss": 0.1109,
      "step": 270
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 0.3342604339122772,
      "learning_rate": 0.00017555555555555556,
      "loss": 0.0691,
      "step": 275
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.18681690096855164,
      "learning_rate": 0.00017511111111111113,
      "loss": 0.0233,
      "step": 280
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.06484155356884003,
      "learning_rate": 0.00017466666666666667,
      "loss": 0.0737,
      "step": 285
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 0.06462902575731277,
      "learning_rate": 0.00017422222222222223,
      "loss": 0.0497,
      "step": 290
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 0.06505779922008514,
      "learning_rate": 0.0001737777777777778,
      "loss": 0.0503,
      "step": 295
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.10043539106845856,
      "learning_rate": 0.00017333333333333334,
      "loss": 0.0646,
      "step": 300
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.8975,
      "eval_f1": 0.8960986430509473,
      "eval_loss": 0.3802405893802643,
      "eval_precision": 0.9004258571996964,
      "eval_recall": 0.8975,
      "eval_runtime": 7.799,
      "eval_samples_per_second": 153.865,
      "eval_steps_per_second": 19.233,
      "step": 300
    },
    {
      "epoch": 2.033333333333333,
      "grad_norm": 0.05871976912021637,
      "learning_rate": 0.0001728888888888889,
      "loss": 0.0193,
      "step": 305
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 2.099043607711792,
      "learning_rate": 0.00017244444444444444,
      "loss": 0.0506,
      "step": 310
    },
    {
      "epoch": 2.1,
      "grad_norm": 2.1682753562927246,
      "learning_rate": 0.000172,
      "loss": 0.071,
      "step": 315
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 5.908677577972412,
      "learning_rate": 0.00017155555555555555,
      "loss": 0.1329,
      "step": 320
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 0.04322752729058266,
      "learning_rate": 0.0001711111111111111,
      "loss": 0.0201,
      "step": 325
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.20050707459449768,
      "learning_rate": 0.00017066666666666668,
      "loss": 0.0316,
      "step": 330
    },
    {
      "epoch": 2.2333333333333334,
      "grad_norm": 0.5361618995666504,
      "learning_rate": 0.00017022222222222224,
      "loss": 0.0129,
      "step": 335
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 4.035656929016113,
      "learning_rate": 0.00016977777777777778,
      "loss": 0.0152,
      "step": 340
    },
    {
      "epoch": 2.3,
      "grad_norm": 1.6359930038452148,
      "learning_rate": 0.00016933333333333335,
      "loss": 0.0544,
      "step": 345
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.07779527455568314,
      "learning_rate": 0.00016888888888888889,
      "loss": 0.0355,
      "step": 350
    },
    {
      "epoch": 2.3666666666666667,
      "grad_norm": 0.11818478256464005,
      "learning_rate": 0.00016844444444444445,
      "loss": 0.0679,
      "step": 355
    },
    {
      "epoch": 2.4,
      "grad_norm": 1.3561841249465942,
      "learning_rate": 0.000168,
      "loss": 0.0667,
      "step": 360
    },
    {
      "epoch": 2.4333333333333336,
      "grad_norm": 0.035947028547525406,
      "learning_rate": 0.00016755555555555556,
      "loss": 0.0309,
      "step": 365
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 1.0638046264648438,
      "learning_rate": 0.00016711111111111112,
      "loss": 0.0652,
      "step": 370
    },
    {
      "epoch": 2.5,
      "grad_norm": 3.7142882347106934,
      "learning_rate": 0.0001666666666666667,
      "loss": 0.0359,
      "step": 375
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 0.04072241112589836,
      "learning_rate": 0.00016622222222222223,
      "loss": 0.011,
      "step": 380
    },
    {
      "epoch": 2.5666666666666664,
      "grad_norm": 0.25929558277130127,
      "learning_rate": 0.0001657777777777778,
      "loss": 0.0138,
      "step": 385
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.1012103483080864,
      "learning_rate": 0.00016533333333333333,
      "loss": 0.0281,
      "step": 390
    },
    {
      "epoch": 2.6333333333333333,
      "grad_norm": 5.914102077484131,
      "learning_rate": 0.0001648888888888889,
      "loss": 0.0861,
      "step": 395
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.06130126863718033,
      "learning_rate": 0.00016444444444444444,
      "loss": 0.0206,
      "step": 400
    },
    {
      "epoch": 2.6666666666666665,
      "eval_accuracy": 0.8908333333333334,
      "eval_f1": 0.8910174734049051,
      "eval_loss": 0.5235877633094788,
      "eval_precision": 0.8932434778665261,
      "eval_recall": 0.8908333333333334,
      "eval_runtime": 7.839,
      "eval_samples_per_second": 153.081,
      "eval_steps_per_second": 19.135,
      "step": 400
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.17860294878482819,
      "learning_rate": 0.000164,
      "loss": 0.0098,
      "step": 405
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 5.255527973175049,
      "learning_rate": 0.00016355555555555557,
      "loss": 0.0991,
      "step": 410
    },
    {
      "epoch": 2.7666666666666666,
      "grad_norm": 0.02583417296409607,
      "learning_rate": 0.00016311111111111113,
      "loss": 0.0101,
      "step": 415
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.031810563057661057,
      "learning_rate": 0.00016266666666666667,
      "loss": 0.0074,
      "step": 420
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 0.052051421254873276,
      "learning_rate": 0.00016222222222222224,
      "loss": 0.0093,
      "step": 425
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 0.22293727099895477,
      "learning_rate": 0.00016177777777777778,
      "loss": 0.0409,
      "step": 430
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.02533566579222679,
      "learning_rate": 0.00016133333333333334,
      "loss": 0.031,
      "step": 435
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 1.2991005182266235,
      "learning_rate": 0.00016088888888888888,
      "loss": 0.044,
      "step": 440
    },
    {
      "epoch": 2.966666666666667,
      "grad_norm": 3.8562145233154297,
      "learning_rate": 0.00016044444444444445,
      "loss": 0.0871,
      "step": 445
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.03452838584780693,
      "learning_rate": 0.00016,
      "loss": 0.079,
      "step": 450
    },
    {
      "epoch": 3.033333333333333,
      "grad_norm": 4.033146381378174,
      "learning_rate": 0.00015955555555555558,
      "loss": 0.0384,
      "step": 455
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 2.645733118057251,
      "learning_rate": 0.00015911111111111112,
      "loss": 0.0694,
      "step": 460
    },
    {
      "epoch": 3.1,
      "grad_norm": 4.373574256896973,
      "learning_rate": 0.00015866666666666668,
      "loss": 0.0881,
      "step": 465
    },
    {
      "epoch": 3.1333333333333333,
      "grad_norm": 0.10297340154647827,
      "learning_rate": 0.00015822222222222222,
      "loss": 0.009,
      "step": 470
    },
    {
      "epoch": 3.1666666666666665,
      "grad_norm": 0.06175125017762184,
      "learning_rate": 0.0001577777777777778,
      "loss": 0.0243,
      "step": 475
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.021978065371513367,
      "learning_rate": 0.00015733333333333333,
      "loss": 0.0066,
      "step": 480
    },
    {
      "epoch": 3.2333333333333334,
      "grad_norm": 0.022674119099974632,
      "learning_rate": 0.00015688888888888892,
      "loss": 0.0347,
      "step": 485
    },
    {
      "epoch": 3.2666666666666666,
      "grad_norm": 0.03356549143791199,
      "learning_rate": 0.00015644444444444446,
      "loss": 0.0317,
      "step": 490
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.031737733632326126,
      "learning_rate": 0.00015600000000000002,
      "loss": 0.0614,
      "step": 495
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.42002150416374207,
      "learning_rate": 0.00015555555555555556,
      "loss": 0.0073,
      "step": 500
    },
    {
      "epoch": 3.3333333333333335,
      "eval_accuracy": 0.885,
      "eval_f1": 0.8878506744713146,
      "eval_loss": 0.48480620980262756,
      "eval_precision": 0.9037224269749076,
      "eval_recall": 0.885,
      "eval_runtime": 7.892,
      "eval_samples_per_second": 152.053,
      "eval_steps_per_second": 19.007,
      "step": 500
    },
    {
      "epoch": 3.3666666666666667,
      "grad_norm": 0.04200208559632301,
      "learning_rate": 0.00015511111111111113,
      "loss": 0.0235,
      "step": 505
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.020397324115037918,
      "learning_rate": 0.00015466666666666667,
      "loss": 0.0172,
      "step": 510
    },
    {
      "epoch": 3.4333333333333336,
      "grad_norm": 0.024663295596837997,
      "learning_rate": 0.00015422222222222223,
      "loss": 0.0307,
      "step": 515
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 0.12558519840240479,
      "learning_rate": 0.00015377777777777777,
      "loss": 0.0237,
      "step": 520
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.017340337857604027,
      "learning_rate": 0.00015333333333333334,
      "loss": 0.024,
      "step": 525
    },
    {
      "epoch": 3.533333333333333,
      "grad_norm": 0.9771762490272522,
      "learning_rate": 0.0001528888888888889,
      "loss": 0.0058,
      "step": 530
    },
    {
      "epoch": 3.5666666666666664,
      "grad_norm": 0.02852206863462925,
      "learning_rate": 0.00015244444444444447,
      "loss": 0.013,
      "step": 535
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.02856052666902542,
      "learning_rate": 0.000152,
      "loss": 0.0536,
      "step": 540
    },
    {
      "epoch": 3.6333333333333333,
      "grad_norm": 0.10117422044277191,
      "learning_rate": 0.00015155555555555557,
      "loss": 0.0114,
      "step": 545
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.01752251572906971,
      "learning_rate": 0.0001511111111111111,
      "loss": 0.0457,
      "step": 550
    },
    {
      "epoch": 3.7,
      "grad_norm": 3.557542324066162,
      "learning_rate": 0.00015066666666666668,
      "loss": 0.0811,
      "step": 555
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 3.547607183456421,
      "learning_rate": 0.00015022222222222222,
      "loss": 0.034,
      "step": 560
    },
    {
      "epoch": 3.7666666666666666,
      "grad_norm": 0.028965869918465614,
      "learning_rate": 0.00014977777777777778,
      "loss": 0.063,
      "step": 565
    },
    {
      "epoch": 3.8,
      "grad_norm": 3.4786415100097656,
      "learning_rate": 0.00014933333333333335,
      "loss": 0.1162,
      "step": 570
    },
    {
      "epoch": 3.8333333333333335,
      "grad_norm": 4.459451198577881,
      "learning_rate": 0.0001488888888888889,
      "loss": 0.0247,
      "step": 575
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 0.06612410396337509,
      "learning_rate": 0.00014844444444444445,
      "loss": 0.0511,
      "step": 580
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.05720949545502663,
      "learning_rate": 0.000148,
      "loss": 0.1163,
      "step": 585
    },
    {
      "epoch": 3.9333333333333336,
      "grad_norm": 4.374114513397217,
      "learning_rate": 0.00014755555555555556,
      "loss": 0.0335,
      "step": 590
    },
    {
      "epoch": 3.966666666666667,
      "grad_norm": 0.27541205286979675,
      "learning_rate": 0.00014711111111111112,
      "loss": 0.0445,
      "step": 595
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.017030924558639526,
      "learning_rate": 0.00014666666666666666,
      "loss": 0.0237,
      "step": 600
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.8616666666666667,
      "eval_f1": 0.8633097867749315,
      "eval_loss": 0.653435468673706,
      "eval_precision": 0.887183437301095,
      "eval_recall": 0.8616666666666667,
      "eval_runtime": 7.9744,
      "eval_samples_per_second": 150.481,
      "eval_steps_per_second": 18.81,
      "step": 600
    },
    {
      "epoch": 4.033333333333333,
      "grad_norm": 0.01694168895483017,
      "learning_rate": 0.00014622222222222223,
      "loss": 0.0309,
      "step": 605
    },
    {
      "epoch": 4.066666666666666,
      "grad_norm": 0.10482988506555557,
      "learning_rate": 0.0001457777777777778,
      "loss": 0.0258,
      "step": 610
    },
    {
      "epoch": 4.1,
      "grad_norm": 0.0570705346763134,
      "learning_rate": 0.00014533333333333333,
      "loss": 0.0051,
      "step": 615
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.017479287460446358,
      "learning_rate": 0.0001448888888888889,
      "loss": 0.0053,
      "step": 620
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.015399318188428879,
      "learning_rate": 0.00014444444444444444,
      "loss": 0.0369,
      "step": 625
    },
    {
      "epoch": 4.2,
      "grad_norm": 0.02307288534939289,
      "learning_rate": 0.000144,
      "loss": 0.0041,
      "step": 630
    },
    {
      "epoch": 4.233333333333333,
      "grad_norm": 0.7588375210762024,
      "learning_rate": 0.00014355555555555554,
      "loss": 0.0062,
      "step": 635
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.013583269901573658,
      "learning_rate": 0.0001431111111111111,
      "loss": 0.018,
      "step": 640
    },
    {
      "epoch": 4.3,
      "grad_norm": 4.056556224822998,
      "learning_rate": 0.00014266666666666667,
      "loss": 0.0982,
      "step": 645
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.07229450345039368,
      "learning_rate": 0.00014222222222222224,
      "loss": 0.0845,
      "step": 650
    },
    {
      "epoch": 4.366666666666666,
      "grad_norm": 0.04119260236620903,
      "learning_rate": 0.00014177777777777778,
      "loss": 0.0262,
      "step": 655
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.030200645327568054,
      "learning_rate": 0.00014133333333333334,
      "loss": 0.01,
      "step": 660
    },
    {
      "epoch": 4.433333333333334,
      "grad_norm": 3.33882474899292,
      "learning_rate": 0.00014088888888888888,
      "loss": 0.088,
      "step": 665
    },
    {
      "epoch": 4.466666666666667,
      "grad_norm": 0.3470788896083832,
      "learning_rate": 0.00014044444444444445,
      "loss": 0.0047,
      "step": 670
    },
    {
      "epoch": 4.5,
      "grad_norm": 7.301760196685791,
      "learning_rate": 0.00014,
      "loss": 0.0215,
      "step": 675
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.01345877442508936,
      "learning_rate": 0.00013955555555555558,
      "loss": 0.0078,
      "step": 680
    },
    {
      "epoch": 4.566666666666666,
      "grad_norm": 0.49135997891426086,
      "learning_rate": 0.00013911111111111112,
      "loss": 0.0226,
      "step": 685
    },
    {
      "epoch": 4.6,
      "grad_norm": 5.245689868927002,
      "learning_rate": 0.00013866666666666669,
      "loss": 0.0328,
      "step": 690
    },
    {
      "epoch": 4.633333333333333,
      "grad_norm": 0.01498333178460598,
      "learning_rate": 0.00013822222222222222,
      "loss": 0.006,
      "step": 695
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 1.6599326133728027,
      "learning_rate": 0.0001377777777777778,
      "loss": 0.0414,
      "step": 700
    },
    {
      "epoch": 4.666666666666667,
      "eval_accuracy": 0.8808333333333334,
      "eval_f1": 0.8782106504932267,
      "eval_loss": 0.593664824962616,
      "eval_precision": 0.8914099794278966,
      "eval_recall": 0.8808333333333334,
      "eval_runtime": 7.9033,
      "eval_samples_per_second": 151.834,
      "eval_steps_per_second": 18.979,
      "step": 700
    },
    {
      "epoch": 4.7,
      "grad_norm": 0.017834119498729706,
      "learning_rate": 0.00013733333333333333,
      "loss": 0.0448,
      "step": 705
    },
    {
      "epoch": 4.733333333333333,
      "grad_norm": 0.017871471121907234,
      "learning_rate": 0.0001368888888888889,
      "loss": 0.013,
      "step": 710
    },
    {
      "epoch": 4.766666666666667,
      "grad_norm": 0.03214811533689499,
      "learning_rate": 0.00013644444444444443,
      "loss": 0.0045,
      "step": 715
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.013746331445872784,
      "learning_rate": 0.00013600000000000003,
      "loss": 0.0042,
      "step": 720
    },
    {
      "epoch": 4.833333333333333,
      "grad_norm": 0.029854413121938705,
      "learning_rate": 0.00013555555555555556,
      "loss": 0.1031,
      "step": 725
    },
    {
      "epoch": 4.866666666666667,
      "grad_norm": 6.134186267852783,
      "learning_rate": 0.00013511111111111113,
      "loss": 0.0308,
      "step": 730
    },
    {
      "epoch": 4.9,
      "grad_norm": 0.015077668242156506,
      "learning_rate": 0.00013466666666666667,
      "loss": 0.0037,
      "step": 735
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 0.6354225873947144,
      "learning_rate": 0.00013422222222222224,
      "loss": 0.007,
      "step": 740
    },
    {
      "epoch": 4.966666666666667,
      "grad_norm": 0.6289983987808228,
      "learning_rate": 0.00013377777777777777,
      "loss": 0.0051,
      "step": 745
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.012436087243258953,
      "learning_rate": 0.00013333333333333334,
      "loss": 0.0037,
      "step": 750
    },
    {
      "epoch": 5.033333333333333,
      "grad_norm": 0.015017214231193066,
      "learning_rate": 0.00013288888888888888,
      "loss": 0.0034,
      "step": 755
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 0.012858809903264046,
      "learning_rate": 0.00013244444444444447,
      "loss": 0.0038,
      "step": 760
    },
    {
      "epoch": 5.1,
      "grad_norm": 0.6003692746162415,
      "learning_rate": 0.000132,
      "loss": 0.0075,
      "step": 765
    },
    {
      "epoch": 5.133333333333334,
      "grad_norm": 0.012243877165019512,
      "learning_rate": 0.00013155555555555558,
      "loss": 0.003,
      "step": 770
    },
    {
      "epoch": 5.166666666666667,
      "grad_norm": 0.010691440664231777,
      "learning_rate": 0.00013111111111111111,
      "loss": 0.0029,
      "step": 775
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.010977703146636486,
      "learning_rate": 0.00013066666666666668,
      "loss": 0.0029,
      "step": 780
    },
    {
      "epoch": 5.233333333333333,
      "grad_norm": 0.010029188357293606,
      "learning_rate": 0.00013022222222222222,
      "loss": 0.0028,
      "step": 785
    },
    {
      "epoch": 5.266666666666667,
      "grad_norm": 0.010637814179062843,
      "learning_rate": 0.00012977777777777779,
      "loss": 0.0125,
      "step": 790
    },
    {
      "epoch": 5.3,
      "grad_norm": 0.03268258273601532,
      "learning_rate": 0.00012933333333333332,
      "loss": 0.0028,
      "step": 795
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.009817617014050484,
      "learning_rate": 0.00012888888888888892,
      "loss": 0.0027,
      "step": 800
    },
    {
      "epoch": 5.333333333333333,
      "eval_accuracy": 0.8933333333333333,
      "eval_f1": 0.8953319675731816,
      "eval_loss": 0.5128685235977173,
      "eval_precision": 0.8991712121136493,
      "eval_recall": 0.8933333333333333,
      "eval_runtime": 7.9233,
      "eval_samples_per_second": 151.452,
      "eval_steps_per_second": 18.931,
      "step": 800
    },
    {
      "epoch": 5.366666666666666,
      "grad_norm": 0.009481986984610558,
      "learning_rate": 0.00012844444444444446,
      "loss": 0.0026,
      "step": 805
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.009136860258877277,
      "learning_rate": 0.00012800000000000002,
      "loss": 0.0025,
      "step": 810
    },
    {
      "epoch": 5.433333333333334,
      "grad_norm": 0.008997684344649315,
      "learning_rate": 0.00012755555555555556,
      "loss": 0.0025,
      "step": 815
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 0.011819547973573208,
      "learning_rate": 0.00012711111111111113,
      "loss": 0.0024,
      "step": 820
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.008601663634181023,
      "learning_rate": 0.00012666666666666666,
      "loss": 0.0026,
      "step": 825
    },
    {
      "epoch": 5.533333333333333,
      "grad_norm": 0.009657570160925388,
      "learning_rate": 0.00012622222222222223,
      "loss": 0.0409,
      "step": 830
    },
    {
      "epoch": 5.566666666666666,
      "grad_norm": 0.008414599113166332,
      "learning_rate": 0.0001257777777777778,
      "loss": 0.0024,
      "step": 835
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.010629317723214626,
      "learning_rate": 0.00012533333333333334,
      "loss": 0.0023,
      "step": 840
    },
    {
      "epoch": 5.633333333333333,
      "grad_norm": 0.009165980853140354,
      "learning_rate": 0.0001248888888888889,
      "loss": 0.0373,
      "step": 845
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 0.00877754669636488,
      "learning_rate": 0.00012444444444444444,
      "loss": 0.0023,
      "step": 850
    },
    {
      "epoch": 5.7,
      "grad_norm": 0.00989607349038124,
      "learning_rate": 0.000124,
      "loss": 0.0022,
      "step": 855
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 0.008735728450119495,
      "learning_rate": 0.00012355555555555557,
      "loss": 0.0067,
      "step": 860
    },
    {
      "epoch": 5.766666666666667,
      "grad_norm": 0.008912509307265282,
      "learning_rate": 0.0001231111111111111,
      "loss": 0.0023,
      "step": 865
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.008001797832548618,
      "learning_rate": 0.00012266666666666668,
      "loss": 0.0022,
      "step": 870
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 0.007885967381298542,
      "learning_rate": 0.00012222222222222224,
      "loss": 0.0024,
      "step": 875
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 0.008723829872906208,
      "learning_rate": 0.0001217777777777778,
      "loss": 0.0023,
      "step": 880
    },
    {
      "epoch": 5.9,
      "grad_norm": 0.00823287758976221,
      "learning_rate": 0.00012133333333333335,
      "loss": 0.0023,
      "step": 885
    },
    {
      "epoch": 5.933333333333334,
      "grad_norm": 1.0872247219085693,
      "learning_rate": 0.0001208888888888889,
      "loss": 0.0031,
      "step": 890
    },
    {
      "epoch": 5.966666666666667,
      "grad_norm": 0.007939856499433517,
      "learning_rate": 0.00012044444444444445,
      "loss": 0.0024,
      "step": 895
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.023641956970095634,
      "learning_rate": 0.00012,
      "loss": 0.0023,
      "step": 900
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8866666666666667,
      "eval_f1": 0.8876301325474062,
      "eval_loss": 0.6644638180732727,
      "eval_precision": 0.9011955031673453,
      "eval_recall": 0.8866666666666667,
      "eval_runtime": 7.7783,
      "eval_samples_per_second": 154.275,
      "eval_steps_per_second": 19.284,
      "step": 900
    },
    {
      "epoch": 6.033333333333333,
      "grad_norm": 0.00758688198402524,
      "learning_rate": 0.00011955555555555556,
      "loss": 0.0455,
      "step": 905
    },
    {
      "epoch": 6.066666666666666,
      "grad_norm": 0.00756202545017004,
      "learning_rate": 0.00011911111111111111,
      "loss": 0.0021,
      "step": 910
    },
    {
      "epoch": 6.1,
      "grad_norm": 0.008809144608676434,
      "learning_rate": 0.00011866666666666669,
      "loss": 0.0021,
      "step": 915
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 0.008332130499184132,
      "learning_rate": 0.00011822222222222224,
      "loss": 0.0022,
      "step": 920
    },
    {
      "epoch": 6.166666666666667,
      "grad_norm": 0.010411552153527737,
      "learning_rate": 0.00011777777777777779,
      "loss": 0.0024,
      "step": 925
    },
    {
      "epoch": 6.2,
      "grad_norm": 0.012733273208141327,
      "learning_rate": 0.00011733333333333334,
      "loss": 0.0022,
      "step": 930
    },
    {
      "epoch": 6.233333333333333,
      "grad_norm": 0.007693855557590723,
      "learning_rate": 0.0001168888888888889,
      "loss": 0.0022,
      "step": 935
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 0.008778342977166176,
      "learning_rate": 0.00011644444444444445,
      "loss": 0.0021,
      "step": 940
    },
    {
      "epoch": 6.3,
      "grad_norm": 0.006934445817023516,
      "learning_rate": 0.000116,
      "loss": 0.0021,
      "step": 945
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 0.0073846778832376,
      "learning_rate": 0.00011555555555555555,
      "loss": 0.0019,
      "step": 950
    },
    {
      "epoch": 6.366666666666666,
      "grad_norm": 0.006903422065079212,
      "learning_rate": 0.00011511111111111112,
      "loss": 0.0019,
      "step": 955
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.00720078544691205,
      "learning_rate": 0.00011466666666666667,
      "loss": 0.0019,
      "step": 960
    },
    {
      "epoch": 6.433333333333334,
      "grad_norm": 0.007758829742670059,
      "learning_rate": 0.00011422222222222224,
      "loss": 0.0019,
      "step": 965
    },
    {
      "epoch": 6.466666666666667,
      "grad_norm": 0.03664609044790268,
      "learning_rate": 0.00011377777777777779,
      "loss": 0.0019,
      "step": 970
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.006771931890398264,
      "learning_rate": 0.00011333333333333334,
      "loss": 0.0018,
      "step": 975
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 0.0066510457545518875,
      "learning_rate": 0.0001128888888888889,
      "loss": 0.0018,
      "step": 980
    },
    {
      "epoch": 6.566666666666666,
      "grad_norm": 0.006556831765919924,
      "learning_rate": 0.00011244444444444445,
      "loss": 0.0017,
      "step": 985
    },
    {
      "epoch": 6.6,
      "grad_norm": 0.008514916524291039,
      "learning_rate": 0.00011200000000000001,
      "loss": 0.0018,
      "step": 990
    },
    {
      "epoch": 6.633333333333333,
      "grad_norm": 0.00665647629648447,
      "learning_rate": 0.00011155555555555556,
      "loss": 0.0017,
      "step": 995
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.007021490018814802,
      "learning_rate": 0.00011111111111111112,
      "loss": 0.0017,
      "step": 1000
    },
    {
      "epoch": 6.666666666666667,
      "eval_accuracy": 0.9158333333333334,
      "eval_f1": 0.9157533470534539,
      "eval_loss": 0.4428469240665436,
      "eval_precision": 0.9162282829840123,
      "eval_recall": 0.9158333333333334,
      "eval_runtime": 7.9262,
      "eval_samples_per_second": 151.397,
      "eval_steps_per_second": 18.925,
      "step": 1000
    },
    {
      "epoch": 6.7,
      "grad_norm": 0.007424220908433199,
      "learning_rate": 0.00011066666666666667,
      "loss": 0.0017,
      "step": 1005
    },
    {
      "epoch": 6.733333333333333,
      "grad_norm": 0.0063979746773839,
      "learning_rate": 0.00011022222222222222,
      "loss": 0.0017,
      "step": 1010
    },
    {
      "epoch": 6.766666666666667,
      "grad_norm": 0.007088555954396725,
      "learning_rate": 0.00010977777777777777,
      "loss": 0.0016,
      "step": 1015
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.005706514231860638,
      "learning_rate": 0.00010933333333333333,
      "loss": 0.0016,
      "step": 1020
    },
    {
      "epoch": 6.833333333333333,
      "grad_norm": 0.005917788948863745,
      "learning_rate": 0.00010888888888888889,
      "loss": 0.0016,
      "step": 1025
    },
    {
      "epoch": 6.866666666666667,
      "grad_norm": 0.006281436886638403,
      "learning_rate": 0.00010844444444444446,
      "loss": 0.0016,
      "step": 1030
    },
    {
      "epoch": 6.9,
      "grad_norm": 0.006217892747372389,
      "learning_rate": 0.00010800000000000001,
      "loss": 0.0016,
      "step": 1035
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 0.005778265185654163,
      "learning_rate": 0.00010755555555555556,
      "loss": 0.0016,
      "step": 1040
    },
    {
      "epoch": 6.966666666666667,
      "grad_norm": 0.005883095320314169,
      "learning_rate": 0.00010711111111111111,
      "loss": 0.0015,
      "step": 1045
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.005686120595782995,
      "learning_rate": 0.00010666666666666667,
      "loss": 0.0015,
      "step": 1050
    },
    {
      "epoch": 7.033333333333333,
      "grad_norm": 0.005514879710972309,
      "learning_rate": 0.00010622222222222222,
      "loss": 0.0015,
      "step": 1055
    },
    {
      "epoch": 7.066666666666666,
      "grad_norm": 0.0055632260628044605,
      "learning_rate": 0.00010577777777777777,
      "loss": 0.0015,
      "step": 1060
    },
    {
      "epoch": 7.1,
      "grad_norm": 0.005479234736412764,
      "learning_rate": 0.00010533333333333332,
      "loss": 0.0015,
      "step": 1065
    },
    {
      "epoch": 7.133333333333334,
      "grad_norm": 0.006130789872258902,
      "learning_rate": 0.0001048888888888889,
      "loss": 0.0015,
      "step": 1070
    },
    {
      "epoch": 7.166666666666667,
      "grad_norm": 0.005404417868703604,
      "learning_rate": 0.00010444444444444445,
      "loss": 0.0015,
      "step": 1075
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.005277147516608238,
      "learning_rate": 0.00010400000000000001,
      "loss": 0.0014,
      "step": 1080
    },
    {
      "epoch": 7.233333333333333,
      "grad_norm": 0.0055356319062411785,
      "learning_rate": 0.00010355555555555556,
      "loss": 0.0014,
      "step": 1085
    },
    {
      "epoch": 7.266666666666667,
      "grad_norm": 0.005440846085548401,
      "learning_rate": 0.00010311111111111111,
      "loss": 0.0015,
      "step": 1090
    },
    {
      "epoch": 7.3,
      "grad_norm": 0.005298790987581015,
      "learning_rate": 0.00010266666666666666,
      "loss": 0.0014,
      "step": 1095
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.005089638289064169,
      "learning_rate": 0.00010222222222222222,
      "loss": 0.0014,
      "step": 1100
    },
    {
      "epoch": 7.333333333333333,
      "eval_accuracy": 0.9183333333333333,
      "eval_f1": 0.918276162911487,
      "eval_loss": 0.44896677136421204,
      "eval_precision": 0.9188194476540754,
      "eval_recall": 0.9183333333333333,
      "eval_runtime": 7.8119,
      "eval_samples_per_second": 153.613,
      "eval_steps_per_second": 19.202,
      "step": 1100
    },
    {
      "epoch": 7.366666666666666,
      "grad_norm": 0.005060321185737848,
      "learning_rate": 0.00010177777777777777,
      "loss": 0.0014,
      "step": 1105
    },
    {
      "epoch": 7.4,
      "grad_norm": 0.005463128909468651,
      "learning_rate": 0.00010133333333333335,
      "loss": 0.0014,
      "step": 1110
    },
    {
      "epoch": 7.433333333333334,
      "grad_norm": 0.005301724653691053,
      "learning_rate": 0.0001008888888888889,
      "loss": 0.0014,
      "step": 1115
    },
    {
      "epoch": 7.466666666666667,
      "grad_norm": 0.005118420347571373,
      "learning_rate": 0.00010044444444444445,
      "loss": 0.0014,
      "step": 1120
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.0051653082482516766,
      "learning_rate": 0.0001,
      "loss": 0.0014,
      "step": 1125
    },
    {
      "epoch": 7.533333333333333,
      "grad_norm": 0.0056477985344827175,
      "learning_rate": 9.955555555555556e-05,
      "loss": 0.0013,
      "step": 1130
    },
    {
      "epoch": 7.566666666666666,
      "grad_norm": 0.005100931506603956,
      "learning_rate": 9.911111111111112e-05,
      "loss": 0.0013,
      "step": 1135
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.005153461825102568,
      "learning_rate": 9.866666666666668e-05,
      "loss": 0.0013,
      "step": 1140
    },
    {
      "epoch": 7.633333333333333,
      "grad_norm": 0.0050032539293169975,
      "learning_rate": 9.822222222222223e-05,
      "loss": 0.0013,
      "step": 1145
    },
    {
      "epoch": 7.666666666666667,
      "grad_norm": 0.005087521858513355,
      "learning_rate": 9.777777777777778e-05,
      "loss": 0.0013,
      "step": 1150
    },
    {
      "epoch": 7.7,
      "grad_norm": 0.005031487438827753,
      "learning_rate": 9.733333333333335e-05,
      "loss": 0.0013,
      "step": 1155
    },
    {
      "epoch": 7.733333333333333,
      "grad_norm": 0.004726443439722061,
      "learning_rate": 9.68888888888889e-05,
      "loss": 0.0013,
      "step": 1160
    },
    {
      "epoch": 7.766666666666667,
      "grad_norm": 0.005109079647809267,
      "learning_rate": 9.644444444444445e-05,
      "loss": 0.0013,
      "step": 1165
    },
    {
      "epoch": 7.8,
      "grad_norm": 0.005315660964697599,
      "learning_rate": 9.6e-05,
      "loss": 0.0013,
      "step": 1170
    },
    {
      "epoch": 7.833333333333333,
      "grad_norm": 0.004808226600289345,
      "learning_rate": 9.555555555555557e-05,
      "loss": 0.0013,
      "step": 1175
    },
    {
      "epoch": 7.866666666666667,
      "grad_norm": 0.004551420919597149,
      "learning_rate": 9.511111111111112e-05,
      "loss": 0.0012,
      "step": 1180
    },
    {
      "epoch": 7.9,
      "grad_norm": 0.0048584830947220325,
      "learning_rate": 9.466666666666667e-05,
      "loss": 0.0012,
      "step": 1185
    },
    {
      "epoch": 7.933333333333334,
      "grad_norm": 0.004639981314539909,
      "learning_rate": 9.422222222222223e-05,
      "loss": 0.0012,
      "step": 1190
    },
    {
      "epoch": 7.966666666666667,
      "grad_norm": 0.004903367254883051,
      "learning_rate": 9.377777777777779e-05,
      "loss": 0.0012,
      "step": 1195
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.00497710844501853,
      "learning_rate": 9.333333333333334e-05,
      "loss": 0.0012,
      "step": 1200
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.9183333333333333,
      "eval_f1": 0.918276162911487,
      "eval_loss": 0.45728063583374023,
      "eval_precision": 0.9188194476540754,
      "eval_recall": 0.9183333333333333,
      "eval_runtime": 7.8622,
      "eval_samples_per_second": 152.629,
      "eval_steps_per_second": 19.079,
      "step": 1200
    },
    {
      "epoch": 8.033333333333333,
      "grad_norm": 0.004901768174022436,
      "learning_rate": 9.28888888888889e-05,
      "loss": 0.0012,
      "step": 1205
    },
    {
      "epoch": 8.066666666666666,
      "grad_norm": 0.00460381293669343,
      "learning_rate": 9.244444444444445e-05,
      "loss": 0.0012,
      "step": 1210
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.004661049228161573,
      "learning_rate": 9.200000000000001e-05,
      "loss": 0.0012,
      "step": 1215
    },
    {
      "epoch": 8.133333333333333,
      "grad_norm": 0.004654307849705219,
      "learning_rate": 9.155555555555557e-05,
      "loss": 0.0012,
      "step": 1220
    },
    {
      "epoch": 8.166666666666666,
      "grad_norm": 0.004435107111930847,
      "learning_rate": 9.111111111111112e-05,
      "loss": 0.0012,
      "step": 1225
    },
    {
      "epoch": 8.2,
      "grad_norm": 0.0044663771986961365,
      "learning_rate": 9.066666666666667e-05,
      "loss": 0.0012,
      "step": 1230
    },
    {
      "epoch": 8.233333333333333,
      "grad_norm": 0.0044823926873505116,
      "learning_rate": 9.022222222222224e-05,
      "loss": 0.0012,
      "step": 1235
    },
    {
      "epoch": 8.266666666666667,
      "grad_norm": 0.004379370249807835,
      "learning_rate": 8.977777777777779e-05,
      "loss": 0.0011,
      "step": 1240
    },
    {
      "epoch": 8.3,
      "grad_norm": 0.00417958851903677,
      "learning_rate": 8.933333333333334e-05,
      "loss": 0.0011,
      "step": 1245
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.004224494565278292,
      "learning_rate": 8.888888888888889e-05,
      "loss": 0.0011,
      "step": 1250
    },
    {
      "epoch": 8.366666666666667,
      "grad_norm": 0.004208279773592949,
      "learning_rate": 8.844444444444445e-05,
      "loss": 0.0011,
      "step": 1255
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.005235343240201473,
      "learning_rate": 8.800000000000001e-05,
      "loss": 0.0011,
      "step": 1260
    },
    {
      "epoch": 8.433333333333334,
      "grad_norm": 0.004416292998939753,
      "learning_rate": 8.755555555555556e-05,
      "loss": 0.0011,
      "step": 1265
    },
    {
      "epoch": 8.466666666666667,
      "grad_norm": 0.004400932230055332,
      "learning_rate": 8.711111111111112e-05,
      "loss": 0.0011,
      "step": 1270
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.004420148208737373,
      "learning_rate": 8.666666666666667e-05,
      "loss": 0.0011,
      "step": 1275
    },
    {
      "epoch": 8.533333333333333,
      "grad_norm": 0.004513590596616268,
      "learning_rate": 8.622222222222222e-05,
      "loss": 0.0011,
      "step": 1280
    },
    {
      "epoch": 8.566666666666666,
      "grad_norm": 0.004847134463489056,
      "learning_rate": 8.577777777777777e-05,
      "loss": 0.0011,
      "step": 1285
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.004372687079012394,
      "learning_rate": 8.533333333333334e-05,
      "loss": 0.0011,
      "step": 1290
    },
    {
      "epoch": 8.633333333333333,
      "grad_norm": 0.004051004070788622,
      "learning_rate": 8.488888888888889e-05,
      "loss": 0.0011,
      "step": 1295
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 0.00401659682393074,
      "learning_rate": 8.444444444444444e-05,
      "loss": 0.0011,
      "step": 1300
    },
    {
      "epoch": 8.666666666666666,
      "eval_accuracy": 0.9183333333333333,
      "eval_f1": 0.9182166202878645,
      "eval_loss": 0.46425577998161316,
      "eval_precision": 0.9186224470479784,
      "eval_recall": 0.9183333333333333,
      "eval_runtime": 7.8964,
      "eval_samples_per_second": 151.969,
      "eval_steps_per_second": 18.996,
      "step": 1300
    },
    {
      "epoch": 8.7,
      "grad_norm": 0.0043200054205954075,
      "learning_rate": 8.4e-05,
      "loss": 0.0011,
      "step": 1305
    },
    {
      "epoch": 8.733333333333333,
      "grad_norm": 0.004279776010662317,
      "learning_rate": 8.355555555555556e-05,
      "loss": 0.0011,
      "step": 1310
    },
    {
      "epoch": 8.766666666666667,
      "grad_norm": 0.00390273192897439,
      "learning_rate": 8.311111111111111e-05,
      "loss": 0.001,
      "step": 1315
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.004219904076308012,
      "learning_rate": 8.266666666666667e-05,
      "loss": 0.0011,
      "step": 1320
    },
    {
      "epoch": 8.833333333333334,
      "grad_norm": 0.004140777513384819,
      "learning_rate": 8.222222222222222e-05,
      "loss": 0.001,
      "step": 1325
    },
    {
      "epoch": 8.866666666666667,
      "grad_norm": 0.0041390638798475266,
      "learning_rate": 8.177777777777778e-05,
      "loss": 0.001,
      "step": 1330
    },
    {
      "epoch": 8.9,
      "grad_norm": 0.004068166948854923,
      "learning_rate": 8.133333333333334e-05,
      "loss": 0.001,
      "step": 1335
    },
    {
      "epoch": 8.933333333333334,
      "grad_norm": 0.00447118328884244,
      "learning_rate": 8.088888888888889e-05,
      "loss": 0.001,
      "step": 1340
    },
    {
      "epoch": 8.966666666666667,
      "grad_norm": 0.0038507815916091204,
      "learning_rate": 8.044444444444444e-05,
      "loss": 0.001,
      "step": 1345
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.003949602134525776,
      "learning_rate": 8e-05,
      "loss": 0.001,
      "step": 1350
    },
    {
      "epoch": 9.033333333333333,
      "grad_norm": 0.003977175336331129,
      "learning_rate": 7.955555555555556e-05,
      "loss": 0.001,
      "step": 1355
    },
    {
      "epoch": 9.066666666666666,
      "grad_norm": 0.003786737099289894,
      "learning_rate": 7.911111111111111e-05,
      "loss": 0.001,
      "step": 1360
    },
    {
      "epoch": 9.1,
      "grad_norm": 0.0042703235521912575,
      "learning_rate": 7.866666666666666e-05,
      "loss": 0.001,
      "step": 1365
    },
    {
      "epoch": 9.133333333333333,
      "grad_norm": 0.003897195914760232,
      "learning_rate": 7.822222222222223e-05,
      "loss": 0.001,
      "step": 1370
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.003780161729082465,
      "learning_rate": 7.777777777777778e-05,
      "loss": 0.001,
      "step": 1375
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.0036365387495607138,
      "learning_rate": 7.733333333333333e-05,
      "loss": 0.001,
      "step": 1380
    },
    {
      "epoch": 9.233333333333333,
      "grad_norm": 0.003695949912071228,
      "learning_rate": 7.688888888888889e-05,
      "loss": 0.001,
      "step": 1385
    },
    {
      "epoch": 9.266666666666667,
      "grad_norm": 0.00372106209397316,
      "learning_rate": 7.644444444444445e-05,
      "loss": 0.001,
      "step": 1390
    },
    {
      "epoch": 9.3,
      "grad_norm": 0.003745425958186388,
      "learning_rate": 7.6e-05,
      "loss": 0.001,
      "step": 1395
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 0.003721230663359165,
      "learning_rate": 7.555555555555556e-05,
      "loss": 0.001,
      "step": 1400
    },
    {
      "epoch": 9.333333333333334,
      "eval_accuracy": 0.9175,
      "eval_f1": 0.917421981091114,
      "eval_loss": 0.4723599851131439,
      "eval_precision": 0.9178173089126608,
      "eval_recall": 0.9175,
      "eval_runtime": 7.8285,
      "eval_samples_per_second": 153.287,
      "eval_steps_per_second": 19.161,
      "step": 1400
    },
    {
      "epoch": 9.366666666666667,
      "grad_norm": 0.0036859367974102497,
      "learning_rate": 7.511111111111111e-05,
      "loss": 0.001,
      "step": 1405
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.0034922282211482525,
      "learning_rate": 7.466666666666667e-05,
      "loss": 0.001,
      "step": 1410
    },
    {
      "epoch": 9.433333333333334,
      "grad_norm": 0.0036631508264690638,
      "learning_rate": 7.422222222222223e-05,
      "loss": 0.0009,
      "step": 1415
    },
    {
      "epoch": 9.466666666666667,
      "grad_norm": 0.0037708813324570656,
      "learning_rate": 7.377777777777778e-05,
      "loss": 0.0009,
      "step": 1420
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.003565052058547735,
      "learning_rate": 7.333333333333333e-05,
      "loss": 0.001,
      "step": 1425
    },
    {
      "epoch": 9.533333333333333,
      "grad_norm": 0.003711120691150427,
      "learning_rate": 7.28888888888889e-05,
      "loss": 0.001,
      "step": 1430
    },
    {
      "epoch": 9.566666666666666,
      "grad_norm": 0.0037379865534603596,
      "learning_rate": 7.244444444444445e-05,
      "loss": 0.0009,
      "step": 1435
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.003746975911781192,
      "learning_rate": 7.2e-05,
      "loss": 0.0009,
      "step": 1440
    },
    {
      "epoch": 9.633333333333333,
      "grad_norm": 0.0035598173271864653,
      "learning_rate": 7.155555555555555e-05,
      "loss": 0.0009,
      "step": 1445
    },
    {
      "epoch": 9.666666666666666,
      "grad_norm": 0.003722529858350754,
      "learning_rate": 7.111111111111112e-05,
      "loss": 0.0009,
      "step": 1450
    },
    {
      "epoch": 9.7,
      "grad_norm": 0.0035576890222728252,
      "learning_rate": 7.066666666666667e-05,
      "loss": 0.0009,
      "step": 1455
    },
    {
      "epoch": 9.733333333333333,
      "grad_norm": 0.003480364801362157,
      "learning_rate": 7.022222222222222e-05,
      "loss": 0.0009,
      "step": 1460
    },
    {
      "epoch": 9.766666666666667,
      "grad_norm": 0.003376527689397335,
      "learning_rate": 6.977777777777779e-05,
      "loss": 0.0009,
      "step": 1465
    },
    {
      "epoch": 9.8,
      "grad_norm": 0.0036971736699342728,
      "learning_rate": 6.933333333333334e-05,
      "loss": 0.0009,
      "step": 1470
    },
    {
      "epoch": 9.833333333333334,
      "grad_norm": 0.003387295641005039,
      "learning_rate": 6.88888888888889e-05,
      "loss": 0.0009,
      "step": 1475
    },
    {
      "epoch": 9.866666666666667,
      "grad_norm": 0.0037850644439458847,
      "learning_rate": 6.844444444444445e-05,
      "loss": 0.0009,
      "step": 1480
    },
    {
      "epoch": 9.9,
      "grad_norm": 0.003663129173219204,
      "learning_rate": 6.800000000000001e-05,
      "loss": 0.0009,
      "step": 1485
    },
    {
      "epoch": 9.933333333333334,
      "grad_norm": 0.0034393323585391045,
      "learning_rate": 6.755555555555557e-05,
      "loss": 0.0009,
      "step": 1490
    },
    {
      "epoch": 9.966666666666667,
      "grad_norm": 0.0035610569175332785,
      "learning_rate": 6.711111111111112e-05,
      "loss": 0.0009,
      "step": 1495
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.003440875094383955,
      "learning_rate": 6.666666666666667e-05,
      "loss": 0.0009,
      "step": 1500
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.9191666666666667,
      "eval_f1": 0.9191103838546746,
      "eval_loss": 0.47826752066612244,
      "eval_precision": 0.9196138897743612,
      "eval_recall": 0.9191666666666667,
      "eval_runtime": 9.8514,
      "eval_samples_per_second": 121.81,
      "eval_steps_per_second": 15.226,
      "step": 1500
    },
    {
      "epoch": 10.033333333333333,
      "grad_norm": 0.003260489087551832,
      "learning_rate": 6.622222222222224e-05,
      "loss": 0.0009,
      "step": 1505
    },
    {
      "epoch": 10.066666666666666,
      "grad_norm": 0.003392919199541211,
      "learning_rate": 6.577777777777779e-05,
      "loss": 0.0009,
      "step": 1510
    },
    {
      "epoch": 10.1,
      "grad_norm": 0.003474250202998519,
      "learning_rate": 6.533333333333334e-05,
      "loss": 0.0009,
      "step": 1515
    },
    {
      "epoch": 10.133333333333333,
      "grad_norm": 0.0032033640891313553,
      "learning_rate": 6.488888888888889e-05,
      "loss": 0.0009,
      "step": 1520
    },
    {
      "epoch": 10.166666666666666,
      "grad_norm": 0.0034181252121925354,
      "learning_rate": 6.444444444444446e-05,
      "loss": 0.0009,
      "step": 1525
    },
    {
      "epoch": 10.2,
      "grad_norm": 0.0032818177714943886,
      "learning_rate": 6.400000000000001e-05,
      "loss": 0.0009,
      "step": 1530
    },
    {
      "epoch": 10.233333333333333,
      "grad_norm": 0.003897201269865036,
      "learning_rate": 6.355555555555556e-05,
      "loss": 0.0009,
      "step": 1535
    },
    {
      "epoch": 10.266666666666667,
      "grad_norm": 0.003549406072124839,
      "learning_rate": 6.311111111111112e-05,
      "loss": 0.0009,
      "step": 1540
    },
    {
      "epoch": 10.3,
      "grad_norm": 0.003224581014364958,
      "learning_rate": 6.266666666666667e-05,
      "loss": 0.0008,
      "step": 1545
    },
    {
      "epoch": 10.333333333333334,
      "grad_norm": 0.0033004845026880503,
      "learning_rate": 6.222222222222222e-05,
      "loss": 0.0008,
      "step": 1550
    },
    {
      "epoch": 10.366666666666667,
      "grad_norm": 0.0033119628205895424,
      "learning_rate": 6.177777777777779e-05,
      "loss": 0.0008,
      "step": 1555
    },
    {
      "epoch": 10.4,
      "grad_norm": 0.0032207455951720476,
      "learning_rate": 6.133333333333334e-05,
      "loss": 0.0008,
      "step": 1560
    },
    {
      "epoch": 10.433333333333334,
      "grad_norm": 0.0031648571603000164,
      "learning_rate": 6.08888888888889e-05,
      "loss": 0.0008,
      "step": 1565
    },
    {
      "epoch": 10.466666666666667,
      "grad_norm": 0.0030338664073497057,
      "learning_rate": 6.044444444444445e-05,
      "loss": 0.0008,
      "step": 1570
    },
    {
      "epoch": 10.5,
      "grad_norm": 0.003249578643590212,
      "learning_rate": 6e-05,
      "loss": 0.0008,
      "step": 1575
    },
    {
      "epoch": 10.533333333333333,
      "grad_norm": 0.003132493933662772,
      "learning_rate": 5.9555555555555554e-05,
      "loss": 0.0008,
      "step": 1580
    },
    {
      "epoch": 10.566666666666666,
      "grad_norm": 0.0032127327285706997,
      "learning_rate": 5.911111111111112e-05,
      "loss": 0.0008,
      "step": 1585
    },
    {
      "epoch": 10.6,
      "grad_norm": 0.0030581667087972164,
      "learning_rate": 5.866666666666667e-05,
      "loss": 0.0008,
      "step": 1590
    },
    {
      "epoch": 10.633333333333333,
      "grad_norm": 0.003177294274792075,
      "learning_rate": 5.8222222222222224e-05,
      "loss": 0.0008,
      "step": 1595
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.003224252490326762,
      "learning_rate": 5.7777777777777776e-05,
      "loss": 0.0008,
      "step": 1600
    },
    {
      "epoch": 10.666666666666666,
      "eval_accuracy": 0.92,
      "eval_f1": 0.9199653348912411,
      "eval_loss": 0.4833959937095642,
      "eval_precision": 0.9204835369385521,
      "eval_recall": 0.92,
      "eval_runtime": 7.9041,
      "eval_samples_per_second": 151.821,
      "eval_steps_per_second": 18.978,
      "step": 1600
    },
    {
      "epoch": 10.7,
      "grad_norm": 0.0030483740847557783,
      "learning_rate": 5.7333333333333336e-05,
      "loss": 0.0008,
      "step": 1605
    },
    {
      "epoch": 10.733333333333333,
      "grad_norm": 0.0031640345696359873,
      "learning_rate": 5.6888888888888895e-05,
      "loss": 0.0008,
      "step": 1610
    },
    {
      "epoch": 10.766666666666667,
      "grad_norm": 0.0032182836439460516,
      "learning_rate": 5.644444444444445e-05,
      "loss": 0.0008,
      "step": 1615
    },
    {
      "epoch": 10.8,
      "grad_norm": 0.0030389779713004827,
      "learning_rate": 5.6000000000000006e-05,
      "loss": 0.0008,
      "step": 1620
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.003169081639498472,
      "learning_rate": 5.555555555555556e-05,
      "loss": 0.0008,
      "step": 1625
    },
    {
      "epoch": 10.866666666666667,
      "grad_norm": 0.0030543103348463774,
      "learning_rate": 5.511111111111111e-05,
      "loss": 0.0008,
      "step": 1630
    },
    {
      "epoch": 10.9,
      "grad_norm": 0.0032883917447179556,
      "learning_rate": 5.466666666666666e-05,
      "loss": 0.0008,
      "step": 1635
    },
    {
      "epoch": 10.933333333333334,
      "grad_norm": 0.0032273780088871717,
      "learning_rate": 5.422222222222223e-05,
      "loss": 0.0008,
      "step": 1640
    },
    {
      "epoch": 10.966666666666667,
      "grad_norm": 0.002903733169659972,
      "learning_rate": 5.377777777777778e-05,
      "loss": 0.0008,
      "step": 1645
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.003017701907083392,
      "learning_rate": 5.333333333333333e-05,
      "loss": 0.0008,
      "step": 1650
    },
    {
      "epoch": 11.033333333333333,
      "grad_norm": 0.003173088189214468,
      "learning_rate": 5.2888888888888885e-05,
      "loss": 0.0008,
      "step": 1655
    },
    {
      "epoch": 11.066666666666666,
      "grad_norm": 0.003071173094213009,
      "learning_rate": 5.244444444444445e-05,
      "loss": 0.0008,
      "step": 1660
    },
    {
      "epoch": 11.1,
      "grad_norm": 0.002954659750685096,
      "learning_rate": 5.2000000000000004e-05,
      "loss": 0.0008,
      "step": 1665
    },
    {
      "epoch": 11.133333333333333,
      "grad_norm": 0.002866999479010701,
      "learning_rate": 5.1555555555555556e-05,
      "loss": 0.0008,
      "step": 1670
    },
    {
      "epoch": 11.166666666666666,
      "grad_norm": 0.0029616898391395807,
      "learning_rate": 5.111111111111111e-05,
      "loss": 0.0008,
      "step": 1675
    },
    {
      "epoch": 11.2,
      "grad_norm": 0.002825687173753977,
      "learning_rate": 5.0666666666666674e-05,
      "loss": 0.0008,
      "step": 1680
    },
    {
      "epoch": 11.233333333333333,
      "grad_norm": 0.0028813998214900494,
      "learning_rate": 5.0222222222222226e-05,
      "loss": 0.0008,
      "step": 1685
    },
    {
      "epoch": 11.266666666666667,
      "grad_norm": 0.0029841118957847357,
      "learning_rate": 4.977777777777778e-05,
      "loss": 0.0008,
      "step": 1690
    },
    {
      "epoch": 11.3,
      "grad_norm": 0.002988130319863558,
      "learning_rate": 4.933333333333334e-05,
      "loss": 0.0008,
      "step": 1695
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.0030406510923057795,
      "learning_rate": 4.888888888888889e-05,
      "loss": 0.0008,
      "step": 1700
    },
    {
      "epoch": 11.333333333333334,
      "eval_accuracy": 0.9183333333333333,
      "eval_f1": 0.918268707424008,
      "eval_loss": 0.4880092442035675,
      "eval_precision": 0.9187552612741062,
      "eval_recall": 0.9183333333333333,
      "eval_runtime": 7.8342,
      "eval_samples_per_second": 153.175,
      "eval_steps_per_second": 19.147,
      "step": 1700
    },
    {
      "epoch": 11.366666666666667,
      "grad_norm": 0.0030782537069171667,
      "learning_rate": 4.844444444444445e-05,
      "loss": 0.0008,
      "step": 1705
    },
    {
      "epoch": 11.4,
      "grad_norm": 0.0029185821767896414,
      "learning_rate": 4.8e-05,
      "loss": 0.0008,
      "step": 1710
    },
    {
      "epoch": 11.433333333333334,
      "grad_norm": 0.002855803119018674,
      "learning_rate": 4.755555555555556e-05,
      "loss": 0.0008,
      "step": 1715
    },
    {
      "epoch": 11.466666666666667,
      "grad_norm": 0.002994731767103076,
      "learning_rate": 4.711111111111111e-05,
      "loss": 0.0008,
      "step": 1720
    },
    {
      "epoch": 11.5,
      "grad_norm": 0.0030380000825971365,
      "learning_rate": 4.666666666666667e-05,
      "loss": 0.0007,
      "step": 1725
    },
    {
      "epoch": 11.533333333333333,
      "grad_norm": 0.003059881506487727,
      "learning_rate": 4.6222222222222224e-05,
      "loss": 0.0007,
      "step": 1730
    },
    {
      "epoch": 11.566666666666666,
      "grad_norm": 0.0029963271226733923,
      "learning_rate": 4.577777777777778e-05,
      "loss": 0.0007,
      "step": 1735
    },
    {
      "epoch": 11.6,
      "grad_norm": 0.0028622711542993784,
      "learning_rate": 4.5333333333333335e-05,
      "loss": 0.0007,
      "step": 1740
    },
    {
      "epoch": 11.633333333333333,
      "grad_norm": 0.002950573107227683,
      "learning_rate": 4.4888888888888894e-05,
      "loss": 0.0008,
      "step": 1745
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.0029123856220394373,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 0.0007,
      "step": 1750
    },
    {
      "epoch": 11.7,
      "grad_norm": 0.0028937875758856535,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.0007,
      "step": 1755
    },
    {
      "epoch": 11.733333333333333,
      "grad_norm": 0.002869903575628996,
      "learning_rate": 4.355555555555556e-05,
      "loss": 0.0007,
      "step": 1760
    },
    {
      "epoch": 11.766666666666667,
      "grad_norm": 0.0028548736590892076,
      "learning_rate": 4.311111111111111e-05,
      "loss": 0.0007,
      "step": 1765
    },
    {
      "epoch": 11.8,
      "grad_norm": 0.0027802055701613426,
      "learning_rate": 4.266666666666667e-05,
      "loss": 0.0007,
      "step": 1770
    },
    {
      "epoch": 11.833333333333334,
      "grad_norm": 0.002807662123814225,
      "learning_rate": 4.222222222222222e-05,
      "loss": 0.0007,
      "step": 1775
    },
    {
      "epoch": 11.866666666666667,
      "grad_norm": 0.0029238222632557154,
      "learning_rate": 4.177777777777778e-05,
      "loss": 0.0007,
      "step": 1780
    },
    {
      "epoch": 11.9,
      "grad_norm": 0.002895110286772251,
      "learning_rate": 4.133333333333333e-05,
      "loss": 0.0007,
      "step": 1785
    },
    {
      "epoch": 11.933333333333334,
      "grad_norm": 0.0028807325288653374,
      "learning_rate": 4.088888888888889e-05,
      "loss": 0.0007,
      "step": 1790
    },
    {
      "epoch": 11.966666666666667,
      "grad_norm": 0.0026707265060395002,
      "learning_rate": 4.0444444444444444e-05,
      "loss": 0.0007,
      "step": 1795
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.002676790114492178,
      "learning_rate": 4e-05,
      "loss": 0.0007,
      "step": 1800
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.9191666666666667,
      "eval_f1": 0.9191026066787022,
      "eval_loss": 0.49125936627388,
      "eval_precision": 0.9195520449744481,
      "eval_recall": 0.9191666666666667,
      "eval_runtime": 7.8535,
      "eval_samples_per_second": 152.797,
      "eval_steps_per_second": 19.1,
      "step": 1800
    },
    {
      "epoch": 12.033333333333333,
      "grad_norm": 0.002707622479647398,
      "learning_rate": 3.9555555555555556e-05,
      "loss": 0.0007,
      "step": 1805
    },
    {
      "epoch": 12.066666666666666,
      "grad_norm": 0.002902447013184428,
      "learning_rate": 3.9111111111111115e-05,
      "loss": 0.0007,
      "step": 1810
    },
    {
      "epoch": 12.1,
      "grad_norm": 0.0026859932113438845,
      "learning_rate": 3.866666666666667e-05,
      "loss": 0.0007,
      "step": 1815
    },
    {
      "epoch": 12.133333333333333,
      "grad_norm": 0.002871550153940916,
      "learning_rate": 3.8222222222222226e-05,
      "loss": 0.0007,
      "step": 1820
    },
    {
      "epoch": 12.166666666666666,
      "grad_norm": 0.002763474592939019,
      "learning_rate": 3.777777777777778e-05,
      "loss": 0.0007,
      "step": 1825
    },
    {
      "epoch": 12.2,
      "grad_norm": 0.0027550242375582457,
      "learning_rate": 3.733333333333334e-05,
      "loss": 0.0007,
      "step": 1830
    },
    {
      "epoch": 12.233333333333333,
      "grad_norm": 0.0029339187312871218,
      "learning_rate": 3.688888888888889e-05,
      "loss": 0.0007,
      "step": 1835
    },
    {
      "epoch": 12.266666666666667,
      "grad_norm": 0.0026396887842565775,
      "learning_rate": 3.644444444444445e-05,
      "loss": 0.0007,
      "step": 1840
    },
    {
      "epoch": 12.3,
      "grad_norm": 0.0025832573883235455,
      "learning_rate": 3.6e-05,
      "loss": 0.0007,
      "step": 1845
    },
    {
      "epoch": 12.333333333333334,
      "grad_norm": 0.002806900767609477,
      "learning_rate": 3.555555555555556e-05,
      "loss": 0.0007,
      "step": 1850
    },
    {
      "epoch": 12.366666666666667,
      "grad_norm": 0.00279484735801816,
      "learning_rate": 3.511111111111111e-05,
      "loss": 0.0007,
      "step": 1855
    },
    {
      "epoch": 12.4,
      "grad_norm": 0.0026845207903534174,
      "learning_rate": 3.466666666666667e-05,
      "loss": 0.0007,
      "step": 1860
    },
    {
      "epoch": 12.433333333333334,
      "grad_norm": 0.0027761473320424557,
      "learning_rate": 3.4222222222222224e-05,
      "loss": 0.0007,
      "step": 1865
    },
    {
      "epoch": 12.466666666666667,
      "grad_norm": 0.002627959009259939,
      "learning_rate": 3.377777777777778e-05,
      "loss": 0.0007,
      "step": 1870
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.0027407421730458736,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.0007,
      "step": 1875
    },
    {
      "epoch": 12.533333333333333,
      "grad_norm": 0.002603847300633788,
      "learning_rate": 3.2888888888888894e-05,
      "loss": 0.0007,
      "step": 1880
    },
    {
      "epoch": 12.566666666666666,
      "grad_norm": 0.002825007541105151,
      "learning_rate": 3.2444444444444446e-05,
      "loss": 0.0007,
      "step": 1885
    },
    {
      "epoch": 12.6,
      "grad_norm": 0.0027513019740581512,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.0007,
      "step": 1890
    },
    {
      "epoch": 12.633333333333333,
      "grad_norm": 0.0029636272229254246,
      "learning_rate": 3.155555555555556e-05,
      "loss": 0.0007,
      "step": 1895
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.003063909010961652,
      "learning_rate": 3.111111111111111e-05,
      "loss": 0.0007,
      "step": 1900
    },
    {
      "epoch": 12.666666666666666,
      "eval_accuracy": 0.9191666666666667,
      "eval_f1": 0.9191026066787022,
      "eval_loss": 0.49457716941833496,
      "eval_precision": 0.9195520449744481,
      "eval_recall": 0.9191666666666667,
      "eval_runtime": 7.8796,
      "eval_samples_per_second": 152.293,
      "eval_steps_per_second": 19.037,
      "step": 1900
    },
    {
      "epoch": 12.7,
      "grad_norm": 0.0027061670552939177,
      "learning_rate": 3.066666666666667e-05,
      "loss": 0.0007,
      "step": 1905
    },
    {
      "epoch": 12.733333333333333,
      "grad_norm": 0.0025229384191334248,
      "learning_rate": 3.0222222222222225e-05,
      "loss": 0.0007,
      "step": 1910
    },
    {
      "epoch": 12.766666666666667,
      "grad_norm": 0.0028320990968495607,
      "learning_rate": 2.9777777777777777e-05,
      "loss": 0.0007,
      "step": 1915
    },
    {
      "epoch": 12.8,
      "grad_norm": 0.0024923314340412617,
      "learning_rate": 2.9333333333333336e-05,
      "loss": 0.0007,
      "step": 1920
    },
    {
      "epoch": 12.833333333333334,
      "grad_norm": 0.0027186665683984756,
      "learning_rate": 2.8888888888888888e-05,
      "loss": 0.0007,
      "step": 1925
    },
    {
      "epoch": 12.866666666666667,
      "grad_norm": 0.002780637238174677,
      "learning_rate": 2.8444444444444447e-05,
      "loss": 0.0007,
      "step": 1930
    },
    {
      "epoch": 12.9,
      "grad_norm": 0.002601889194920659,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 0.0007,
      "step": 1935
    },
    {
      "epoch": 12.933333333333334,
      "grad_norm": 0.002651306800544262,
      "learning_rate": 2.7555555555555555e-05,
      "loss": 0.0007,
      "step": 1940
    },
    {
      "epoch": 12.966666666666667,
      "grad_norm": 0.0026949350722134113,
      "learning_rate": 2.7111111111111114e-05,
      "loss": 0.0007,
      "step": 1945
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.002682847436517477,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 0.0007,
      "step": 1950
    },
    {
      "epoch": 13.033333333333333,
      "grad_norm": 0.002650792710483074,
      "learning_rate": 2.6222222222222226e-05,
      "loss": 0.0007,
      "step": 1955
    },
    {
      "epoch": 13.066666666666666,
      "grad_norm": 0.0026393814478069544,
      "learning_rate": 2.5777777777777778e-05,
      "loss": 0.0007,
      "step": 1960
    },
    {
      "epoch": 13.1,
      "grad_norm": 0.0025844641495496035,
      "learning_rate": 2.5333333333333337e-05,
      "loss": 0.0007,
      "step": 1965
    },
    {
      "epoch": 13.133333333333333,
      "grad_norm": 0.002640536753460765,
      "learning_rate": 2.488888888888889e-05,
      "loss": 0.0007,
      "step": 1970
    },
    {
      "epoch": 13.166666666666666,
      "grad_norm": 0.002576792612671852,
      "learning_rate": 2.4444444444444445e-05,
      "loss": 0.0007,
      "step": 1975
    },
    {
      "epoch": 13.2,
      "grad_norm": 0.002594567835330963,
      "learning_rate": 2.4e-05,
      "loss": 0.0007,
      "step": 1980
    },
    {
      "epoch": 13.233333333333333,
      "grad_norm": 0.002511014463379979,
      "learning_rate": 2.3555555555555556e-05,
      "loss": 0.0007,
      "step": 1985
    },
    {
      "epoch": 13.266666666666667,
      "grad_norm": 0.0027352238539606333,
      "learning_rate": 2.3111111111111112e-05,
      "loss": 0.0007,
      "step": 1990
    },
    {
      "epoch": 13.3,
      "grad_norm": 0.0027416874654591084,
      "learning_rate": 2.2666666666666668e-05,
      "loss": 0.0007,
      "step": 1995
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.0026454601902514696,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 0.0007,
      "step": 2000
    },
    {
      "epoch": 13.333333333333334,
      "eval_accuracy": 0.9191666666666667,
      "eval_f1": 0.9191026066787022,
      "eval_loss": 0.49666884541511536,
      "eval_precision": 0.9195520449744481,
      "eval_recall": 0.9191666666666667,
      "eval_runtime": 7.8324,
      "eval_samples_per_second": 153.209,
      "eval_steps_per_second": 19.151,
      "step": 2000
    },
    {
      "epoch": 13.366666666666667,
      "grad_norm": 0.0026238916907459497,
      "learning_rate": 2.177777777777778e-05,
      "loss": 0.0007,
      "step": 2005
    },
    {
      "epoch": 13.4,
      "grad_norm": 0.0024569607339799404,
      "learning_rate": 2.1333333333333335e-05,
      "loss": 0.0007,
      "step": 2010
    },
    {
      "epoch": 13.433333333333334,
      "grad_norm": 0.0026213256642222404,
      "learning_rate": 2.088888888888889e-05,
      "loss": 0.0007,
      "step": 2015
    },
    {
      "epoch": 13.466666666666667,
      "grad_norm": 0.002818812383338809,
      "learning_rate": 2.0444444444444446e-05,
      "loss": 0.0007,
      "step": 2020
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.0025170459412038326,
      "learning_rate": 2e-05,
      "loss": 0.0007,
      "step": 2025
    },
    {
      "epoch": 13.533333333333333,
      "grad_norm": 0.0026643986348062754,
      "learning_rate": 1.9555555555555557e-05,
      "loss": 0.0007,
      "step": 2030
    },
    {
      "epoch": 13.566666666666666,
      "grad_norm": 0.0027407060842961073,
      "learning_rate": 1.9111111111111113e-05,
      "loss": 0.0007,
      "step": 2035
    },
    {
      "epoch": 13.6,
      "grad_norm": 0.0025721502024680376,
      "learning_rate": 1.866666666666667e-05,
      "loss": 0.0006,
      "step": 2040
    },
    {
      "epoch": 13.633333333333333,
      "grad_norm": 0.002500210190191865,
      "learning_rate": 1.8222222222222224e-05,
      "loss": 0.0007,
      "step": 2045
    },
    {
      "epoch": 13.666666666666666,
      "grad_norm": 0.0026154073420912027,
      "learning_rate": 1.777777777777778e-05,
      "loss": 0.0007,
      "step": 2050
    },
    {
      "epoch": 13.7,
      "grad_norm": 0.002631218871101737,
      "learning_rate": 1.7333333333333336e-05,
      "loss": 0.0007,
      "step": 2055
    },
    {
      "epoch": 13.733333333333333,
      "grad_norm": 0.0024211935233324766,
      "learning_rate": 1.688888888888889e-05,
      "loss": 0.0006,
      "step": 2060
    },
    {
      "epoch": 13.766666666666667,
      "grad_norm": 0.0025255836080759764,
      "learning_rate": 1.6444444444444447e-05,
      "loss": 0.0007,
      "step": 2065
    },
    {
      "epoch": 13.8,
      "grad_norm": 0.002733193337917328,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.0007,
      "step": 2070
    },
    {
      "epoch": 13.833333333333334,
      "grad_norm": 0.002618127502501011,
      "learning_rate": 1.5555555555555555e-05,
      "loss": 0.0007,
      "step": 2075
    },
    {
      "epoch": 13.866666666666667,
      "grad_norm": 0.002700020791962743,
      "learning_rate": 1.5111111111111112e-05,
      "loss": 0.0006,
      "step": 2080
    },
    {
      "epoch": 13.9,
      "grad_norm": 0.0024619654286652803,
      "learning_rate": 1.4666666666666668e-05,
      "loss": 0.0006,
      "step": 2085
    },
    {
      "epoch": 13.933333333333334,
      "grad_norm": 0.0023835354950278997,
      "learning_rate": 1.4222222222222224e-05,
      "loss": 0.0006,
      "step": 2090
    },
    {
      "epoch": 13.966666666666667,
      "grad_norm": 0.0026378787588328123,
      "learning_rate": 1.3777777777777778e-05,
      "loss": 0.0006,
      "step": 2095
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.002657889621332288,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 0.0006,
      "step": 2100
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.9191666666666667,
      "eval_f1": 0.9191026066787022,
      "eval_loss": 0.4982248842716217,
      "eval_precision": 0.9195520449744481,
      "eval_recall": 0.9191666666666667,
      "eval_runtime": 7.9219,
      "eval_samples_per_second": 151.48,
      "eval_steps_per_second": 18.935,
      "step": 2100
    },
    {
      "epoch": 14.033333333333333,
      "grad_norm": 0.0024647919926792383,
      "learning_rate": 1.2888888888888889e-05,
      "loss": 0.0006,
      "step": 2105
    },
    {
      "epoch": 14.066666666666666,
      "grad_norm": 0.00243979855440557,
      "learning_rate": 1.2444444444444445e-05,
      "loss": 0.0006,
      "step": 2110
    },
    {
      "epoch": 14.1,
      "grad_norm": 0.0024480042047798634,
      "learning_rate": 1.2e-05,
      "loss": 0.0006,
      "step": 2115
    },
    {
      "epoch": 14.133333333333333,
      "grad_norm": 0.0027023949660360813,
      "learning_rate": 1.1555555555555556e-05,
      "loss": 0.0006,
      "step": 2120
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.00241423980332911,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 0.0006,
      "step": 2125
    },
    {
      "epoch": 14.2,
      "grad_norm": 0.0024927083868533373,
      "learning_rate": 1.0666666666666667e-05,
      "loss": 0.0006,
      "step": 2130
    },
    {
      "epoch": 14.233333333333333,
      "grad_norm": 0.0025994169991463423,
      "learning_rate": 1.0222222222222223e-05,
      "loss": 0.0007,
      "step": 2135
    },
    {
      "epoch": 14.266666666666667,
      "grad_norm": 0.00239562033675611,
      "learning_rate": 9.777777777777779e-06,
      "loss": 0.0006,
      "step": 2140
    },
    {
      "epoch": 14.3,
      "grad_norm": 0.002496495144441724,
      "learning_rate": 9.333333333333334e-06,
      "loss": 0.0006,
      "step": 2145
    },
    {
      "epoch": 14.333333333333334,
      "grad_norm": 0.002464530523866415,
      "learning_rate": 8.88888888888889e-06,
      "loss": 0.0006,
      "step": 2150
    },
    {
      "epoch": 14.366666666666667,
      "grad_norm": 0.0026704645715653896,
      "learning_rate": 8.444444444444446e-06,
      "loss": 0.0006,
      "step": 2155
    },
    {
      "epoch": 14.4,
      "grad_norm": 0.0024209131952375174,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.0006,
      "step": 2160
    },
    {
      "epoch": 14.433333333333334,
      "grad_norm": 0.0026139291003346443,
      "learning_rate": 7.555555555555556e-06,
      "loss": 0.0006,
      "step": 2165
    },
    {
      "epoch": 14.466666666666667,
      "grad_norm": 0.0024674285668879747,
      "learning_rate": 7.111111111111112e-06,
      "loss": 0.0006,
      "step": 2170
    },
    {
      "epoch": 14.5,
      "grad_norm": 0.002546043833717704,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.0006,
      "step": 2175
    },
    {
      "epoch": 14.533333333333333,
      "grad_norm": 0.00251571461558342,
      "learning_rate": 6.222222222222222e-06,
      "loss": 0.0006,
      "step": 2180
    },
    {
      "epoch": 14.566666666666666,
      "grad_norm": 0.00263564707711339,
      "learning_rate": 5.777777777777778e-06,
      "loss": 0.0006,
      "step": 2185
    },
    {
      "epoch": 14.6,
      "grad_norm": 0.002483101561665535,
      "learning_rate": 5.333333333333334e-06,
      "loss": 0.0006,
      "step": 2190
    },
    {
      "epoch": 14.633333333333333,
      "grad_norm": 0.0028893440030515194,
      "learning_rate": 4.888888888888889e-06,
      "loss": 0.0006,
      "step": 2195
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.0023681537713855505,
      "learning_rate": 4.444444444444445e-06,
      "loss": 0.0006,
      "step": 2200
    },
    {
      "epoch": 14.666666666666666,
      "eval_accuracy": 0.9191666666666667,
      "eval_f1": 0.9191026066787022,
      "eval_loss": 0.4990111291408539,
      "eval_precision": 0.9195520449744481,
      "eval_recall": 0.9191666666666667,
      "eval_runtime": 7.8548,
      "eval_samples_per_second": 152.773,
      "eval_steps_per_second": 19.097,
      "step": 2200
    },
    {
      "epoch": 14.7,
      "grad_norm": 0.0026878141798079014,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.0006,
      "step": 2205
    },
    {
      "epoch": 14.733333333333333,
      "grad_norm": 0.002577277133241296,
      "learning_rate": 3.555555555555556e-06,
      "loss": 0.0006,
      "step": 2210
    },
    {
      "epoch": 14.766666666666667,
      "grad_norm": 0.002402898157015443,
      "learning_rate": 3.111111111111111e-06,
      "loss": 0.0006,
      "step": 2215
    },
    {
      "epoch": 14.8,
      "grad_norm": 0.002382304286584258,
      "learning_rate": 2.666666666666667e-06,
      "loss": 0.0006,
      "step": 2220
    },
    {
      "epoch": 14.833333333333334,
      "grad_norm": 0.002684946171939373,
      "learning_rate": 2.2222222222222225e-06,
      "loss": 0.0006,
      "step": 2225
    },
    {
      "epoch": 14.866666666666667,
      "grad_norm": 0.0026375013403594494,
      "learning_rate": 1.777777777777778e-06,
      "loss": 0.0006,
      "step": 2230
    },
    {
      "epoch": 14.9,
      "grad_norm": 0.0024921230506151915,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 0.0006,
      "step": 2235
    },
    {
      "epoch": 14.933333333333334,
      "grad_norm": 0.0026301259640604258,
      "learning_rate": 8.88888888888889e-07,
      "loss": 0.0006,
      "step": 2240
    },
    {
      "epoch": 14.966666666666667,
      "grad_norm": 0.002528001554310322,
      "learning_rate": 4.444444444444445e-07,
      "loss": 0.0006,
      "step": 2245
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.0023518188390880823,
      "learning_rate": 0.0,
      "loss": 0.0006,
      "step": 2250
    },
    {
      "epoch": 15.0,
      "step": 2250,
      "total_flos": 5.57962327867392e+18,
      "train_loss": 0.0380596985022227,
      "train_runtime": 802.2066,
      "train_samples_per_second": 89.752,
      "train_steps_per_second": 2.805
    }
  ],
  "logging_steps": 5,
  "max_steps": 2250,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 15,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.57962327867392e+18,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}