diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,10123 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9999924371336737,
+  "eval_steps": 1000,
+  "global_step": 12396,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0008067057414760194,
+      "grad_norm": 0.6473819017410278,
+      "learning_rate": 4.838709677419355e-07,
+      "loss": 2.5238,
+      "num_input_tokens_seen": 350316,
+      "step": 10
+    },
+    {
+      "epoch": 0.0016134114829520387,
+      "grad_norm": 0.6671866774559021,
+      "learning_rate": 9.67741935483871e-07,
+      "loss": 2.5305,
+      "num_input_tokens_seen": 706016,
+      "step": 20
+    },
+    {
+      "epoch": 0.0024201172244280584,
+      "grad_norm": 0.5423910021781921,
+      "learning_rate": 1.4516129032258064e-06,
+      "loss": 2.5469,
+      "num_input_tokens_seen": 1029048,
+      "step": 30
+    },
+    {
+      "epoch": 0.0032268229659040775,
+      "grad_norm": 0.5091773867607117,
+      "learning_rate": 1.935483870967742e-06,
+      "loss": 2.4654,
+      "num_input_tokens_seen": 1335348,
+      "step": 40
+    },
+    {
+      "epoch": 0.004033528707380097,
+      "grad_norm": 0.46149584650993347,
+      "learning_rate": 2.4193548387096776e-06,
+      "loss": 2.4348,
+      "num_input_tokens_seen": 1704148,
+      "step": 50
+    },
+    {
+      "epoch": 0.004840234448856117,
+      "grad_norm": 0.4362267255783081,
+      "learning_rate": 2.9032258064516128e-06,
+      "loss": 2.4508,
+      "num_input_tokens_seen": 2054768,
+      "step": 60
+    },
+    {
+      "epoch": 0.005646940190332136,
+      "grad_norm": 0.38532692193984985,
+      "learning_rate": 3.3870967741935484e-06,
+      "loss": 2.4029,
+      "num_input_tokens_seen": 2406312,
+      "step": 70
+    },
+    {
+      "epoch": 0.006453645931808155,
+      "grad_norm": 0.3635064959526062,
+      "learning_rate": 3.870967741935484e-06,
+      "loss": 2.4462,
+      "num_input_tokens_seen": 2760872,
+      "step": 80
+    },
+    {
+      "epoch": 0.007260351673284175,
+      "grad_norm": 0.39128369092941284,
+      "learning_rate": 4.35483870967742e-06,
+      "loss": 2.3645,
+      "num_input_tokens_seen": 3107736,
+      "step": 90
+    },
+    {
+      "epoch": 0.008067057414760194,
+      "grad_norm": 0.4147037863731384,
+      "learning_rate": 4.838709677419355e-06,
+      "loss": 2.3476,
+      "num_input_tokens_seen": 3475576,
+      "step": 100
+    },
+    {
+      "epoch": 0.008873763156236213,
+      "grad_norm": 0.3666001260280609,
+      "learning_rate": 5.322580645161291e-06,
+      "loss": 2.4149,
+      "num_input_tokens_seen": 3855216,
+      "step": 110
+    },
+    {
+      "epoch": 0.009680468897712234,
+      "grad_norm": 0.35516056418418884,
+      "learning_rate": 5.8064516129032256e-06,
+      "loss": 2.3853,
+      "num_input_tokens_seen": 4199752,
+      "step": 120
+    },
+    {
+      "epoch": 0.010487174639188253,
+      "grad_norm": 0.3447749614715576,
+      "learning_rate": 6.290322580645162e-06,
+      "loss": 2.3515,
+      "num_input_tokens_seen": 4539728,
+      "step": 130
+    },
+    {
+      "epoch": 0.011293880380664272,
+      "grad_norm": 0.36747947335243225,
+      "learning_rate": 6.774193548387097e-06,
+      "loss": 2.3733,
+      "num_input_tokens_seen": 4883460,
+      "step": 140
+    },
+    {
+      "epoch": 0.012100586122140291,
+      "grad_norm": 0.33421263098716736,
+      "learning_rate": 7.258064516129032e-06,
+      "loss": 2.3517,
+      "num_input_tokens_seen": 5208404,
+      "step": 150
+    },
+    {
+      "epoch": 0.01290729186361631,
+      "grad_norm": 0.3581472337245941,
+      "learning_rate": 7.741935483870968e-06,
+      "loss": 2.3197,
+      "num_input_tokens_seen": 5565648,
+      "step": 160
+    },
+    {
+      "epoch": 0.01371399760509233,
+      "grad_norm": 0.3424622118473053,
+      "learning_rate": 8.225806451612904e-06,
+      "loss": 2.2875,
+      "num_input_tokens_seen": 5932124,
+      "step": 170
+    },
+    {
+      "epoch": 0.01452070334656835,
+      "grad_norm": 0.35327455401420593,
+      "learning_rate": 8.70967741935484e-06,
+      "loss": 2.3161,
+      "num_input_tokens_seen": 6294120,
+      "step": 180
+    },
+    {
+      "epoch": 0.015327409088044369,
+      "grad_norm": 0.35110658407211304,
+      "learning_rate": 9.193548387096775e-06,
+      "loss": 2.3089,
+      "num_input_tokens_seen": 6655836,
+      "step": 190
+    },
+    {
+      "epoch": 0.016134114829520388,
+      "grad_norm": 0.3083972632884979,
+      "learning_rate": 9.67741935483871e-06,
+      "loss": 2.2615,
+      "num_input_tokens_seen": 7006032,
+      "step": 200
+    },
+    {
+      "epoch": 0.01694082057099641,
+      "grad_norm": 0.33634695410728455,
+      "learning_rate": 1.0161290322580644e-05,
+      "loss": 2.3292,
+      "num_input_tokens_seen": 7346560,
+      "step": 210
+    },
+    {
+      "epoch": 0.017747526312472426,
+      "grad_norm": 0.33328714966773987,
+      "learning_rate": 1.0645161290322582e-05,
+      "loss": 2.2443,
+      "num_input_tokens_seen": 7695720,
+      "step": 220
+    },
+    {
+      "epoch": 0.018554232053948447,
+      "grad_norm": 0.3662545680999756,
+      "learning_rate": 1.1129032258064517e-05,
+      "loss": 2.2721,
+      "num_input_tokens_seen": 8057116,
+      "step": 230
+    },
+    {
+      "epoch": 0.019360937795424468,
+      "grad_norm": 0.35266175866127014,
+      "learning_rate": 1.1612903225806451e-05,
+      "loss": 2.2645,
+      "num_input_tokens_seen": 8392512,
+      "step": 240
+    },
+    {
+      "epoch": 0.020167643536900485,
+      "grad_norm": 0.3189757168292999,
+      "learning_rate": 1.2096774193548387e-05,
+      "loss": 2.2282,
+      "num_input_tokens_seen": 8739404,
+      "step": 250
+    },
+    {
+      "epoch": 0.020974349278376506,
+      "grad_norm": 0.3413700461387634,
+      "learning_rate": 1.2580645161290324e-05,
+      "loss": 2.265,
+      "num_input_tokens_seen": 9092044,
+      "step": 260
+    },
+    {
+      "epoch": 0.021781055019852523,
+      "grad_norm": 0.33349013328552246,
+      "learning_rate": 1.3064516129032258e-05,
+      "loss": 2.201,
+      "num_input_tokens_seen": 9411188,
+      "step": 270
+    },
+    {
+      "epoch": 0.022587760761328544,
+      "grad_norm": 0.3217449188232422,
+      "learning_rate": 1.3548387096774194e-05,
+      "loss": 2.2008,
+      "num_input_tokens_seen": 9770648,
+      "step": 280
+    },
+    {
+      "epoch": 0.023394466502804565,
+      "grad_norm": 0.33256444334983826,
+      "learning_rate": 1.403225806451613e-05,
+      "loss": 2.1969,
+      "num_input_tokens_seen": 10122184,
+      "step": 290
+    },
+    {
+      "epoch": 0.024201172244280582,
+      "grad_norm": 0.32968392968177795,
+      "learning_rate": 1.4516129032258065e-05,
+      "loss": 2.2431,
+      "num_input_tokens_seen": 10469264,
+      "step": 300
+    },
+    {
+      "epoch": 0.025007877985756603,
+      "grad_norm": 0.29683488607406616,
+      "learning_rate": 1.5e-05,
+      "loss": 2.2201,
+      "num_input_tokens_seen": 10825668,
+      "step": 310
+    },
+    {
+      "epoch": 0.02581458372723262,
+      "grad_norm": 0.3019179403781891,
+      "learning_rate": 1.5483870967741936e-05,
+      "loss": 2.1465,
+      "num_input_tokens_seen": 11224912,
+      "step": 320
+    },
+    {
+      "epoch": 0.02662128946870864,
+      "grad_norm": 0.35323160886764526,
+      "learning_rate": 1.596774193548387e-05,
+      "loss": 2.1791,
+      "num_input_tokens_seen": 11570236,
+      "step": 330
+    },
+    {
+      "epoch": 0.02742799521018466,
+      "grad_norm": 0.3326450288295746,
+      "learning_rate": 1.6451612903225807e-05,
+      "loss": 2.0943,
+      "num_input_tokens_seen": 11909600,
+      "step": 340
+    },
+    {
+      "epoch": 0.02823470095166068,
+      "grad_norm": 0.33823785185813904,
+      "learning_rate": 1.6935483870967744e-05,
+      "loss": 2.1687,
+      "num_input_tokens_seen": 12268976,
+      "step": 350
+    },
+    {
+      "epoch": 0.0290414066931367,
+      "grad_norm": 0.31576064229011536,
+      "learning_rate": 1.741935483870968e-05,
+      "loss": 2.0925,
+      "num_input_tokens_seen": 12630560,
+      "step": 360
+    },
+    {
+      "epoch": 0.029848112434612717,
+      "grad_norm": 0.33903634548187256,
+      "learning_rate": 1.7903225806451616e-05,
+      "loss": 2.1164,
+      "num_input_tokens_seen": 12968760,
+      "step": 370
+    },
+    {
+      "epoch": 0.030654818176088738,
+      "grad_norm": 0.33790096640586853,
+      "learning_rate": 1.838709677419355e-05,
+      "loss": 2.0834,
+      "num_input_tokens_seen": 13320408,
+      "step": 380
+    },
+    {
+      "epoch": 0.03146152391756476,
+      "grad_norm": 0.32104986906051636,
+      "learning_rate": 1.8870967741935484e-05,
+      "loss": 2.1008,
+      "num_input_tokens_seen": 13678172,
+      "step": 390
+    },
+    {
+      "epoch": 0.032268229659040776,
+      "grad_norm": 0.3284147083759308,
+      "learning_rate": 1.935483870967742e-05,
+      "loss": 2.1674,
+      "num_input_tokens_seen": 14048132,
+      "step": 400
+    },
+    {
+      "epoch": 0.03307493540051679,
+      "grad_norm": 0.31699198484420776,
+      "learning_rate": 1.9838709677419355e-05,
+      "loss": 2.1186,
+      "num_input_tokens_seen": 14376172,
+      "step": 410
+    },
+    {
+      "epoch": 0.03388164114199282,
+      "grad_norm": 0.3431970775127411,
+      "learning_rate": 2.032258064516129e-05,
+      "loss": 2.0956,
+      "num_input_tokens_seen": 14729936,
+      "step": 420
+    },
+    {
+      "epoch": 0.034688346883468835,
+      "grad_norm": 0.35230588912963867,
+      "learning_rate": 2.080645161290323e-05,
+      "loss": 2.0643,
+      "num_input_tokens_seen": 15082004,
+      "step": 430
+    },
+    {
+      "epoch": 0.03549505262494485,
+      "grad_norm": 0.3975660800933838,
+      "learning_rate": 2.1290322580645163e-05,
+      "loss": 2.1215,
+      "num_input_tokens_seen": 15450700,
+      "step": 440
+    },
+    {
+      "epoch": 0.036301758366420876,
+      "grad_norm": 0.31235337257385254,
+      "learning_rate": 2.1774193548387097e-05,
+      "loss": 1.9926,
+      "num_input_tokens_seen": 15786772,
+      "step": 450
+    },
+    {
+      "epoch": 0.037108464107896894,
+      "grad_norm": 0.33642396330833435,
+      "learning_rate": 2.2258064516129034e-05,
+      "loss": 2.0398,
+      "num_input_tokens_seen": 16132004,
+      "step": 460
+    },
+    {
+      "epoch": 0.03791516984937291,
+      "grad_norm": 0.3371775448322296,
+      "learning_rate": 2.274193548387097e-05,
+      "loss": 2.124,
+      "num_input_tokens_seen": 16524448,
+      "step": 470
+    },
+    {
+      "epoch": 0.038721875590848935,
+      "grad_norm": 0.31219518184661865,
+      "learning_rate": 2.3225806451612902e-05,
+      "loss": 2.0735,
+      "num_input_tokens_seen": 16888128,
+      "step": 480
+    },
+    {
+      "epoch": 0.03952858133232495,
+      "grad_norm": 0.2977409362792969,
+      "learning_rate": 2.370967741935484e-05,
+      "loss": 2.0295,
+      "num_input_tokens_seen": 17227520,
+      "step": 490
+    },
+    {
+      "epoch": 0.04033528707380097,
+      "grad_norm": 0.28311657905578613,
+      "learning_rate": 2.4193548387096773e-05,
+      "loss": 2.0672,
+      "num_input_tokens_seen": 17584540,
+      "step": 500
+    },
+    {
+      "epoch": 0.04114199281527699,
+      "grad_norm": 0.28878408670425415,
+      "learning_rate": 2.467741935483871e-05,
+      "loss": 1.9962,
+      "num_input_tokens_seen": 17945160,
+      "step": 510
+    },
+    {
+      "epoch": 0.04194869855675301,
+      "grad_norm": 0.3487817049026489,
+      "learning_rate": 2.5161290322580648e-05,
+      "loss": 2.062,
+      "num_input_tokens_seen": 18314364,
+      "step": 520
+    },
+    {
+      "epoch": 0.04275540429822903,
+      "grad_norm": 0.29766845703125,
+      "learning_rate": 2.5645161290322582e-05,
+      "loss": 2.0474,
+      "num_input_tokens_seen": 18629644,
+      "step": 530
+    },
+    {
+      "epoch": 0.043562110039705046,
+      "grad_norm": 1.0644810199737549,
+      "learning_rate": 2.6129032258064516e-05,
+      "loss": 2.0612,
+      "num_input_tokens_seen": 18969332,
+      "step": 540
+    },
+    {
+      "epoch": 0.04436881578118107,
+      "grad_norm": 0.3535769581794739,
+      "learning_rate": 2.6612903225806453e-05,
+      "loss": 1.9915,
+      "num_input_tokens_seen": 19331132,
+      "step": 550
+    },
+    {
+      "epoch": 0.04517552152265709,
+      "grad_norm": 0.3135438561439514,
+      "learning_rate": 2.7096774193548387e-05,
+      "loss": 1.9903,
+      "num_input_tokens_seen": 19675048,
+      "step": 560
+    },
+    {
+      "epoch": 0.045982227264133105,
+      "grad_norm": 0.3067088723182678,
+      "learning_rate": 2.758064516129032e-05,
+      "loss": 2.0101,
+      "num_input_tokens_seen": 20024728,
+      "step": 570
+    },
+    {
+      "epoch": 0.04678893300560913,
+      "grad_norm": 0.39044031500816345,
+      "learning_rate": 2.806451612903226e-05,
+      "loss": 2.0239,
+      "num_input_tokens_seen": 20366444,
+      "step": 580
+    },
+    {
+      "epoch": 0.047595638747085146,
+      "grad_norm": 0.28235116600990295,
+      "learning_rate": 2.8548387096774196e-05,
+      "loss": 1.984,
+      "num_input_tokens_seen": 20728484,
+      "step": 590
+    },
+    {
+      "epoch": 0.048402344488561164,
+      "grad_norm": 0.3268643021583557,
+      "learning_rate": 2.903225806451613e-05,
+      "loss": 2.0046,
+      "num_input_tokens_seen": 21053188,
+      "step": 600
+    },
+    {
+      "epoch": 0.04920905023003718,
+      "grad_norm": 0.3217363953590393,
+      "learning_rate": 2.9516129032258067e-05,
+      "loss": 2.0211,
+      "num_input_tokens_seen": 21401976,
+      "step": 610
+    },
+    {
+      "epoch": 0.050015755971513205,
+      "grad_norm": 0.3585478961467743,
+      "learning_rate": 3e-05,
+      "loss": 2.003,
+      "num_input_tokens_seen": 21721508,
+      "step": 620
+    },
+    {
+      "epoch": 0.05082246171298922,
+      "grad_norm": 0.31601133942604065,
+      "learning_rate": 3e-05,
+      "loss": 1.9809,
+      "num_input_tokens_seen": 22052500,
+      "step": 630
+    },
+    {
+      "epoch": 0.05162916745446524,
+      "grad_norm": 0.33022111654281616,
+      "learning_rate": 3e-05,
+      "loss": 2.0097,
+      "num_input_tokens_seen": 22410848,
+      "step": 640
+    },
+    {
+      "epoch": 0.052435873195941264,
+      "grad_norm": 0.30348455905914307,
+      "learning_rate": 3e-05,
+      "loss": 1.9627,
+      "num_input_tokens_seen": 22769696,
+      "step": 650
+    },
+    {
+      "epoch": 0.05324257893741728,
+      "grad_norm": 0.31722530722618103,
+      "learning_rate": 3e-05,
+      "loss": 1.9734,
+      "num_input_tokens_seen": 23141500,
+      "step": 660
+    },
+    {
+      "epoch": 0.0540492846788933,
+      "grad_norm": 0.3014906644821167,
+      "learning_rate": 3e-05,
+      "loss": 1.9408,
+      "num_input_tokens_seen": 23484440,
+      "step": 670
+    },
+    {
+      "epoch": 0.05485599042036932,
+      "grad_norm": 0.34274202585220337,
+      "learning_rate": 3e-05,
+      "loss": 1.9022,
+      "num_input_tokens_seen": 23826764,
+      "step": 680
+    },
+    {
+      "epoch": 0.05566269616184534,
+      "grad_norm": 0.31761202216148376,
+      "learning_rate": 3e-05,
+      "loss": 1.98,
+      "num_input_tokens_seen": 24161792,
+      "step": 690
+    },
+    {
+      "epoch": 0.05646940190332136,
+      "grad_norm": 0.37271755933761597,
+      "learning_rate": 3e-05,
+      "loss": 1.9989,
+      "num_input_tokens_seen": 24503600,
+      "step": 700
+    },
+    {
+      "epoch": 0.057276107644797375,
+      "grad_norm": 0.3486018180847168,
+      "learning_rate": 3e-05,
+      "loss": 1.9389,
+      "num_input_tokens_seen": 24820152,
+      "step": 710
+    },
+    {
+      "epoch": 0.0580828133862734,
+      "grad_norm": 0.3391967713832855,
+      "learning_rate": 3e-05,
+      "loss": 1.9054,
+      "num_input_tokens_seen": 25190404,
+      "step": 720
+    },
+    {
+      "epoch": 0.058889519127749416,
+      "grad_norm": 0.3023532032966614,
+      "learning_rate": 3e-05,
+      "loss": 1.9632,
+      "num_input_tokens_seen": 25536472,
+      "step": 730
+    },
+    {
+      "epoch": 0.059696224869225434,
+      "grad_norm": 3234.732666015625,
+      "learning_rate": 3e-05,
+      "loss": 2.018,
+      "num_input_tokens_seen": 25890504,
+      "step": 740
+    },
+    {
+      "epoch": 0.06050293061070146,
+      "grad_norm": 2243.118408203125,
+      "learning_rate": 3e-05,
+      "loss": 1.9958,
+      "num_input_tokens_seen": 26256376,
+      "step": 750
+    },
+    {
+      "epoch": 0.061309636352177475,
+      "grad_norm": 0.356982946395874,
+      "learning_rate": 3e-05,
+      "loss": 1.9637,
+      "num_input_tokens_seen": 26638344,
+      "step": 760
+    },
+    {
+      "epoch": 0.06211634209365349,
+      "grad_norm": 0.296735942363739,
+      "learning_rate": 3e-05,
+      "loss": 1.9099,
+      "num_input_tokens_seen": 26962544,
+      "step": 770
+    },
+    {
+      "epoch": 0.06292304783512952,
+      "grad_norm": 0.29231005907058716,
+      "learning_rate": 3e-05,
+      "loss": 1.8578,
+      "num_input_tokens_seen": 27308112,
+      "step": 780
+    },
+    {
+      "epoch": 0.06372975357660553,
+      "grad_norm": 0.31055736541748047,
+      "learning_rate": 3e-05,
+      "loss": 1.8843,
+      "num_input_tokens_seen": 27676552,
+      "step": 790
+    },
+    {
+      "epoch": 0.06453645931808155,
+      "grad_norm": 0.3155435025691986,
+      "learning_rate": 3e-05,
+      "loss": 1.9495,
+      "num_input_tokens_seen": 28056316,
+      "step": 800
+    },
+    {
+      "epoch": 0.06534316505955758,
+      "grad_norm": 0.3073548972606659,
+      "learning_rate": 3e-05,
+      "loss": 1.9373,
+      "num_input_tokens_seen": 28404224,
+      "step": 810
+    },
+    {
+      "epoch": 0.06614987080103359,
+      "grad_norm": 0.30792343616485596,
+      "learning_rate": 3e-05,
+      "loss": 1.8845,
+      "num_input_tokens_seen": 28749544,
+      "step": 820
+    },
+    {
+      "epoch": 0.06695657654250961,
+      "grad_norm": 0.27868854999542236,
+      "learning_rate": 3e-05,
+      "loss": 1.8979,
+      "num_input_tokens_seen": 29086400,
+      "step": 830
+    },
+    {
+      "epoch": 0.06776328228398563,
+      "grad_norm": 0.2984897792339325,
+      "learning_rate": 3e-05,
+      "loss": 1.8669,
+      "num_input_tokens_seen": 29427836,
+      "step": 840
+    },
+    {
+      "epoch": 0.06856998802546165,
+      "grad_norm": 0.31874415278434753,
+      "learning_rate": 3e-05,
+      "loss": 1.8357,
+      "num_input_tokens_seen": 29777592,
+      "step": 850
+    },
+    {
+      "epoch": 0.06937669376693767,
+      "grad_norm": 0.32049503922462463,
+      "learning_rate": 3e-05,
+      "loss": 1.8856,
+      "num_input_tokens_seen": 30132364,
+      "step": 860
+    },
+    {
+      "epoch": 0.0701833995084137,
+      "grad_norm": 0.6638230085372925,
+      "learning_rate": 3e-05,
+      "loss": 1.8624,
+      "num_input_tokens_seen": 30474616,
+      "step": 870
+    },
+    {
+      "epoch": 0.0709901052498897,
+      "grad_norm": 0.293955534696579,
+      "learning_rate": 3e-05,
+      "loss": 1.8969,
+      "num_input_tokens_seen": 30836880,
+      "step": 880
+    },
+    {
+      "epoch": 0.07179681099136573,
+      "grad_norm": 0.34990906715393066,
+      "learning_rate": 3e-05,
+      "loss": 1.8845,
+      "num_input_tokens_seen": 31210872,
+      "step": 890
+    },
+    {
+      "epoch": 0.07260351673284175,
+      "grad_norm": 0.31150537729263306,
+      "learning_rate": 3e-05,
+      "loss": 1.913,
+      "num_input_tokens_seen": 31593820,
+      "step": 900
+    },
+    {
+      "epoch": 0.07341022247431776,
+      "grad_norm": 0.3393719792366028,
+      "learning_rate": 3e-05,
+      "loss": 1.8884,
+      "num_input_tokens_seen": 31948328,
+      "step": 910
+    },
+    {
+      "epoch": 0.07421692821579379,
+      "grad_norm": 0.2771390378475189,
+      "learning_rate": 3e-05,
+      "loss": 1.8384,
+      "num_input_tokens_seen": 32279500,
+      "step": 920
+    },
+    {
+      "epoch": 0.07502363395726981,
+      "grad_norm": 0.29383623600006104,
+      "learning_rate": 3e-05,
+      "loss": 1.7929,
+      "num_input_tokens_seen": 32639840,
+      "step": 930
+    },
+    {
+      "epoch": 0.07583033969874582,
+      "grad_norm": 0.2876071333885193,
+      "learning_rate": 3e-05,
+      "loss": 1.8682,
+      "num_input_tokens_seen": 32976672,
+      "step": 940
+    },
+    {
+      "epoch": 0.07663704544022185,
+      "grad_norm": 0.2755143940448761,
+      "learning_rate": 3e-05,
+      "loss": 1.8409,
+      "num_input_tokens_seen": 33315328,
+      "step": 950
+    },
+    {
+      "epoch": 0.07744375118169787,
+      "grad_norm": 0.31250065565109253,
+      "learning_rate": 3e-05,
+      "loss": 1.8467,
+      "num_input_tokens_seen": 33691124,
+      "step": 960
+    },
+    {
+      "epoch": 0.07825045692317388,
+      "grad_norm": 0.3030893802642822,
+      "learning_rate": 3e-05,
+      "loss": 1.8342,
+      "num_input_tokens_seen": 34049184,
+      "step": 970
+    },
+    {
+      "epoch": 0.0790571626646499,
+      "grad_norm": 0.2992667555809021,
+      "learning_rate": 3e-05,
+      "loss": 1.8645,
+      "num_input_tokens_seen": 34402068,
+      "step": 980
+    },
+    {
+      "epoch": 0.07986386840612592,
+      "grad_norm": 0.2903348505496979,
+      "learning_rate": 3e-05,
+      "loss": 1.8328,
+      "num_input_tokens_seen": 34749788,
+      "step": 990
+    },
+    {
+      "epoch": 0.08067057414760194,
+      "grad_norm": 0.30363109707832336,
+      "learning_rate": 3e-05,
+      "loss": 1.8808,
+      "num_input_tokens_seen": 35147692,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08067057414760194,
+      "eval_gen_len": 636.465,
+      "eval_loss": 1.788309931755066,
+      "eval_rouge1": 24.1946,
+      "eval_rouge2": 12.2099,
+      "eval_rougeL": 20.4185,
+      "eval_rougeLsum": 22.251,
+      "eval_runtime": 1680.7996,
+      "eval_samples_per_second": 0.119,
+      "eval_steps_per_second": 0.03,
+      "num_input_tokens_seen": 35147692,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08147727988907796,
+      "grad_norm": 0.31382158398628235,
+      "learning_rate": 3e-05,
+      "loss": 1.8377,
+      "num_input_tokens_seen": 35457728,
+      "step": 1010
+    },
+    {
+      "epoch": 0.08228398563055397,
+      "grad_norm": 0.3211570680141449,
+      "learning_rate": 3e-05,
+      "loss": 1.791,
+      "num_input_tokens_seen": 35838912,
+      "step": 1020
+    },
+    {
+      "epoch": 0.08309069137203,
+      "grad_norm": 0.3069629669189453,
+      "learning_rate": 3e-05,
+      "loss": 1.8453,
+      "num_input_tokens_seen": 36194004,
+      "step": 1030
+    },
+    {
+      "epoch": 0.08389739711350602,
+      "grad_norm": 0.2732415497303009,
+      "learning_rate": 3e-05,
+      "loss": 1.7939,
+      "num_input_tokens_seen": 36530872,
+      "step": 1040
+    },
+    {
+      "epoch": 0.08470410285498203,
+      "grad_norm": 0.31079530715942383,
+      "learning_rate": 3e-05,
+      "loss": 1.7718,
+      "num_input_tokens_seen": 36900376,
+      "step": 1050
+    },
+    {
+      "epoch": 0.08551080859645806,
+      "grad_norm": 0.28770914673805237,
+      "learning_rate": 3e-05,
+      "loss": 1.8129,
+      "num_input_tokens_seen": 37248588,
+      "step": 1060
+    },
+    {
+      "epoch": 0.08631751433793408,
+      "grad_norm": 0.31988024711608887,
+      "learning_rate": 3e-05,
+      "loss": 1.8535,
+      "num_input_tokens_seen": 37626604,
+      "step": 1070
+    },
+    {
+      "epoch": 0.08712422007941009,
+      "grad_norm": 0.2785434126853943,
+      "learning_rate": 3e-05,
+      "loss": 1.8293,
+      "num_input_tokens_seen": 37968388,
+      "step": 1080
+    },
+    {
+      "epoch": 0.08793092582088612,
+      "grad_norm": 0.3427545726299286,
+      "learning_rate": 3e-05,
+      "loss": 1.7788,
+      "num_input_tokens_seen": 38308276,
+      "step": 1090
+    },
+    {
+      "epoch": 0.08873763156236214,
+      "grad_norm": 0.3006548583507538,
+      "learning_rate": 3e-05,
+      "loss": 1.7762,
+      "num_input_tokens_seen": 38669908,
+      "step": 1100
+    },
+    {
+      "epoch": 0.08954433730383815,
+      "grad_norm": 0.32136908173561096,
+      "learning_rate": 3e-05,
+      "loss": 1.845,
+      "num_input_tokens_seen": 39013520,
+      "step": 1110
+    },
+    {
+      "epoch": 0.09035104304531417,
+      "grad_norm": 0.34362053871154785,
+      "learning_rate": 3e-05,
+      "loss": 1.8068,
+      "num_input_tokens_seen": 39354192,
+      "step": 1120
+    },
+    {
+      "epoch": 0.0911577487867902,
+      "grad_norm": 0.3446958661079407,
+      "learning_rate": 3e-05,
+      "loss": 1.8646,
+      "num_input_tokens_seen": 39704092,
+      "step": 1130
+    },
+    {
+      "epoch": 0.09196445452826621,
+      "grad_norm": 0.3206467032432556,
+      "learning_rate": 3e-05,
+      "loss": 1.8266,
+      "num_input_tokens_seen": 40064272,
+      "step": 1140
+    },
+    {
+      "epoch": 0.09277116026974223,
+      "grad_norm": 0.2903178036212921,
+      "learning_rate": 3e-05,
+      "loss": 1.8034,
+      "num_input_tokens_seen": 40447744,
+      "step": 1150
+    },
+    {
+      "epoch": 0.09357786601121826,
+      "grad_norm": 0.29461219906806946,
+      "learning_rate": 3e-05,
+      "loss": 1.8363,
+      "num_input_tokens_seen": 40784056,
+      "step": 1160
+    },
+    {
+      "epoch": 0.09438457175269427,
+      "grad_norm": 0.32987499237060547,
+      "learning_rate": 3e-05,
+      "loss": 1.8514,
+      "num_input_tokens_seen": 41142580,
+      "step": 1170
+    },
+    {
+      "epoch": 0.09519127749417029,
+      "grad_norm": 0.31194567680358887,
+      "learning_rate": 3e-05,
+      "loss": 1.8027,
+      "num_input_tokens_seen": 41471144,
+      "step": 1180
+    },
+    {
+      "epoch": 0.0959979832356463,
+      "grad_norm": 0.2921917736530304,
+      "learning_rate": 3e-05,
+      "loss": 1.8098,
+      "num_input_tokens_seen": 41810900,
+      "step": 1190
+    },
+    {
+      "epoch": 0.09680468897712233,
+      "grad_norm": 0.2785918116569519,
+      "learning_rate": 3e-05,
+      "loss": 1.8202,
+      "num_input_tokens_seen": 42140460,
+      "step": 1200
+    },
+    {
+      "epoch": 0.09761139471859835,
+      "grad_norm": 0.3230614960193634,
+      "learning_rate": 3e-05,
+      "loss": 1.7923,
+      "num_input_tokens_seen": 42482488,
+      "step": 1210
+    },
+    {
+      "epoch": 0.09841810046007436,
+      "grad_norm": 0.2865009009838104,
+      "learning_rate": 3e-05,
+      "loss": 1.7968,
+      "num_input_tokens_seen": 42810344,
+      "step": 1220
+    },
+    {
+      "epoch": 0.09922480620155039,
+      "grad_norm": 0.32666832208633423,
+      "learning_rate": 3e-05,
+      "loss": 1.7991,
+      "num_input_tokens_seen": 43154724,
+      "step": 1230
+    },
+    {
+      "epoch": 0.10003151194302641,
+      "grad_norm": 0.28828418254852295,
+      "learning_rate": 3e-05,
+      "loss": 1.7948,
+      "num_input_tokens_seen": 43514588,
+      "step": 1240
+    },
+    {
+      "epoch": 0.10083821768450242,
+      "grad_norm": 0.2931421101093292,
+      "learning_rate": 3e-05,
+      "loss": 1.7972,
+      "num_input_tokens_seen": 43860916,
+      "step": 1250
+    },
+    {
+      "epoch": 0.10164492342597845,
+      "grad_norm": 0.3084103465080261,
+      "learning_rate": 3e-05,
+      "loss": 1.7792,
+      "num_input_tokens_seen": 44227052,
+      "step": 1260
+    },
+    {
+      "epoch": 0.10245162916745447,
+      "grad_norm": 0.27955740690231323,
+      "learning_rate": 3e-05,
+      "loss": 1.761,
+      "num_input_tokens_seen": 44614048,
+      "step": 1270
+    },
+    {
+      "epoch": 0.10325833490893048,
+      "grad_norm": 0.2971053421497345,
+      "learning_rate": 3e-05,
+      "loss": 1.8307,
+      "num_input_tokens_seen": 44971956,
+      "step": 1280
+    },
+    {
+      "epoch": 0.1040650406504065,
+      "grad_norm": 0.3030679225921631,
+      "learning_rate": 3e-05,
+      "loss": 1.8344,
+      "num_input_tokens_seen": 45324808,
+      "step": 1290
+    },
+    {
+      "epoch": 0.10487174639188253,
+      "grad_norm": 0.31672757863998413,
+      "learning_rate": 3e-05,
+      "loss": 1.8331,
+      "num_input_tokens_seen": 45676540,
+      "step": 1300
+    },
+    {
+      "epoch": 0.10567845213335854,
+      "grad_norm": 0.3107895255088806,
+      "learning_rate": 3e-05,
+      "loss": 1.7838,
+      "num_input_tokens_seen": 46049464,
+      "step": 1310
+    },
+    {
+      "epoch": 0.10648515787483456,
+      "grad_norm": 0.3014747202396393,
+      "learning_rate": 3e-05,
+      "loss": 1.7451,
+      "num_input_tokens_seen": 46387884,
+      "step": 1320
+    },
+    {
+      "epoch": 0.10729186361631059,
+      "grad_norm": 0.3187197148799896,
+      "learning_rate": 3e-05,
+      "loss": 1.7539,
+      "num_input_tokens_seen": 46736308,
+      "step": 1330
+    },
+    {
+      "epoch": 0.1080985693577866,
+      "grad_norm": 0.29054009914398193,
+      "learning_rate": 3e-05,
+      "loss": 1.7769,
+      "num_input_tokens_seen": 47072184,
+      "step": 1340
+    },
+    {
+      "epoch": 0.10890527509926262,
+      "grad_norm": 0.2759428322315216,
+      "learning_rate": 3e-05,
+      "loss": 1.7871,
+      "num_input_tokens_seen": 47436176,
+      "step": 1350
+    },
+    {
+      "epoch": 0.10971198084073865,
+      "grad_norm": 0.3081207275390625,
+      "learning_rate": 3e-05,
+      "loss": 1.7234,
+      "num_input_tokens_seen": 47787408,
+      "step": 1360
+    },
+    {
+      "epoch": 0.11051868658221466,
+      "grad_norm": 0.2889757454395294,
+      "learning_rate": 3e-05,
+      "loss": 1.8438,
+      "num_input_tokens_seen": 48142540,
+      "step": 1370
+    },
+    {
+      "epoch": 0.11132539232369068,
+      "grad_norm": 0.29038187861442566,
+      "learning_rate": 3e-05,
+      "loss": 1.7569,
+      "num_input_tokens_seen": 48486176,
+      "step": 1380
+    },
+    {
+      "epoch": 0.1121320980651667,
+      "grad_norm": 0.2944973409175873,
+      "learning_rate": 3e-05,
+      "loss": 1.769,
+      "num_input_tokens_seen": 48856256,
+      "step": 1390
+    },
+    {
+      "epoch": 0.11293880380664272,
+      "grad_norm": 0.2953120470046997,
+      "learning_rate": 3e-05,
+      "loss": 1.7863,
+      "num_input_tokens_seen": 49197100,
+      "step": 1400
+    },
+    {
+      "epoch": 0.11374550954811874,
+      "grad_norm": 0.2875744700431824,
+      "learning_rate": 3e-05,
+      "loss": 1.7009,
+      "num_input_tokens_seen": 49520196,
+      "step": 1410
+    },
+    {
+      "epoch": 0.11455221528959475,
+      "grad_norm": 0.2693103849887848,
+      "learning_rate": 3e-05,
+      "loss": 1.7705,
+      "num_input_tokens_seen": 49881204,
+      "step": 1420
+    },
+    {
+      "epoch": 0.11535892103107077,
+      "grad_norm": 0.2919449210166931,
+      "learning_rate": 3e-05,
+      "loss": 1.7068,
+      "num_input_tokens_seen": 50202060,
+      "step": 1430
+    },
+    {
+      "epoch": 0.1161656267725468,
+      "grad_norm": 0.2909579575061798,
+      "learning_rate": 3e-05,
+      "loss": 1.7693,
+      "num_input_tokens_seen": 50539700,
+      "step": 1440
+    },
+    {
+      "epoch": 0.11697233251402281,
+      "grad_norm": 0.29420360922813416,
+      "learning_rate": 3e-05,
+      "loss": 1.7307,
+      "num_input_tokens_seen": 50919492,
+      "step": 1450
+    },
+    {
+      "epoch": 0.11777903825549883,
+      "grad_norm": 0.3208655118942261,
+      "learning_rate": 3e-05,
+      "loss": 1.7425,
+      "num_input_tokens_seen": 51243268,
+      "step": 1460
+    },
+    {
+      "epoch": 0.11858574399697486,
+      "grad_norm": 0.2889709174633026,
+      "learning_rate": 3e-05,
+      "loss": 1.7642,
+      "num_input_tokens_seen": 51599620,
+      "step": 1470
+    },
+    {
+      "epoch": 0.11939244973845087,
+      "grad_norm": 0.29108598828315735,
+      "learning_rate": 3e-05,
+      "loss": 1.7404,
+      "num_input_tokens_seen": 51960000,
+      "step": 1480
+    },
+    {
+      "epoch": 0.12019915547992689,
+      "grad_norm": 0.3082159757614136,
+      "learning_rate": 3e-05,
+      "loss": 1.7389,
+      "num_input_tokens_seen": 52343160,
+      "step": 1490
+    },
+    {
+      "epoch": 0.12100586122140292,
+      "grad_norm": 0.30964505672454834,
+      "learning_rate": 3e-05,
+      "loss": 1.7052,
+      "num_input_tokens_seen": 52695936,
+      "step": 1500
+    },
+    {
+      "epoch": 0.12181256696287893,
+      "grad_norm": 0.2976539433002472,
+      "learning_rate": 3e-05,
+      "loss": 1.7637,
+      "num_input_tokens_seen": 53041128,
+      "step": 1510
+    },
+    {
+      "epoch": 0.12261927270435495,
+      "grad_norm": 0.2930919826030731,
+      "learning_rate": 3e-05,
+      "loss": 1.7254,
+      "num_input_tokens_seen": 53382704,
+      "step": 1520
+    },
+    {
+      "epoch": 0.12342597844583097,
+      "grad_norm": 0.31611040234565735,
+      "learning_rate": 3e-05,
+      "loss": 1.786,
+      "num_input_tokens_seen": 53728720,
+      "step": 1530
+    },
+    {
+      "epoch": 0.12423268418730699,
+      "grad_norm": 0.3480939269065857,
+      "learning_rate": 3e-05,
+      "loss": 1.76,
+      "num_input_tokens_seen": 54063164,
+      "step": 1540
+    },
+    {
+      "epoch": 0.125039389928783,
+      "grad_norm": 0.31007248163223267,
+      "learning_rate": 3e-05,
+      "loss": 1.7805,
+      "num_input_tokens_seen": 54386028,
+      "step": 1550
+    },
+    {
+      "epoch": 0.12584609567025903,
+      "grad_norm": 0.2958042621612549,
+      "learning_rate": 3e-05,
+      "loss": 1.7668,
+      "num_input_tokens_seen": 54761288,
+      "step": 1560
+    },
+    {
+      "epoch": 0.12665280141173504,
+      "grad_norm": 0.2833440899848938,
+      "learning_rate": 3e-05,
+      "loss": 1.747,
+      "num_input_tokens_seen": 55134672,
+      "step": 1570
+    },
+    {
+      "epoch": 0.12745950715321105,
+      "grad_norm": 0.2970580458641052,
+      "learning_rate": 3e-05,
+      "loss": 1.7097,
+      "num_input_tokens_seen": 55522524,
+      "step": 1580
+    },
+    {
+      "epoch": 0.1282662128946871,
+      "grad_norm": 0.3164750635623932,
+      "learning_rate": 3e-05,
+      "loss": 1.7395,
+      "num_input_tokens_seen": 55869072,
+      "step": 1590
+    },
+    {
+      "epoch": 0.1290729186361631,
+      "grad_norm": 0.32586508989334106,
+      "learning_rate": 3e-05,
+      "loss": 1.748,
+      "num_input_tokens_seen": 56239036,
+      "step": 1600
+    },
+    {
+      "epoch": 0.1298796243776391,
+      "grad_norm": 0.27935513854026794,
+      "learning_rate": 3e-05,
+      "loss": 1.7256,
+      "num_input_tokens_seen": 56579324,
+      "step": 1610
+    },
+    {
+      "epoch": 0.13068633011911515,
+      "grad_norm": 0.3307097256183624,
+      "learning_rate": 3e-05,
+      "loss": 1.668,
+      "num_input_tokens_seen": 56928744,
+      "step": 1620
+    },
+    {
+      "epoch": 0.13149303586059116,
+      "grad_norm": 0.3158148229122162,
+      "learning_rate": 3e-05,
+      "loss": 1.7193,
+      "num_input_tokens_seen": 57286024,
+      "step": 1630
+    },
+    {
+      "epoch": 0.13229974160206717,
+      "grad_norm": 0.29580333828926086,
+      "learning_rate": 3e-05,
+      "loss": 1.7249,
+      "num_input_tokens_seen": 57671300,
+      "step": 1640
+    },
+    {
+      "epoch": 0.1331064473435432,
+      "grad_norm": 0.26224178075790405,
+      "learning_rate": 3e-05,
+      "loss": 1.6971,
+      "num_input_tokens_seen": 58044600,
+      "step": 1650
+    },
+    {
+      "epoch": 0.13391315308501922,
+      "grad_norm": 0.2952196002006531,
+      "learning_rate": 3e-05,
+      "loss": 1.7619,
+      "num_input_tokens_seen": 58389844,
+      "step": 1660
+    },
+    {
+      "epoch": 0.13471985882649523,
+      "grad_norm": 0.30456557869911194,
+      "learning_rate": 3e-05,
+      "loss": 1.7429,
+      "num_input_tokens_seen": 58754384,
+      "step": 1670
+    },
+    {
+      "epoch": 0.13552656456797127,
+      "grad_norm": 0.2966090142726898,
+      "learning_rate": 3e-05,
+      "loss": 1.7241,
+      "num_input_tokens_seen": 59114496,
+      "step": 1680
+    },
+    {
+      "epoch": 0.13633327030944728,
+      "grad_norm": 0.2919583320617676,
+      "learning_rate": 3e-05,
+      "loss": 1.6988,
+      "num_input_tokens_seen": 59464252,
+      "step": 1690
+    },
+    {
+      "epoch": 0.1371399760509233,
+      "grad_norm": 0.2832421064376831,
+      "learning_rate": 3e-05,
+      "loss": 1.7817,
+      "num_input_tokens_seen": 59837848,
+      "step": 1700
+    },
+    {
+      "epoch": 0.13794668179239933,
+      "grad_norm": 0.2778345048427582,
+      "learning_rate": 3e-05,
+      "loss": 1.6825,
+      "num_input_tokens_seen": 60182016,
+      "step": 1710
+    },
+    {
+      "epoch": 0.13875338753387534,
+      "grad_norm": 0.3401370048522949,
+      "learning_rate": 3e-05,
+      "loss": 1.7525,
+      "num_input_tokens_seen": 60532724,
+      "step": 1720
+    },
+    {
+      "epoch": 0.13956009327535135,
+      "grad_norm": 0.30803683400154114,
+      "learning_rate": 3e-05,
+      "loss": 1.6473,
+      "num_input_tokens_seen": 60868756,
+      "step": 1730
+    },
+    {
+      "epoch": 0.1403667990168274,
+      "grad_norm": 0.2971110939979553,
+      "learning_rate": 3e-05,
+      "loss": 1.6967,
+      "num_input_tokens_seen": 61206004,
+      "step": 1740
+    },
+    {
+      "epoch": 0.1411735047583034,
+      "grad_norm": 0.3091312646865845,
+      "learning_rate": 3e-05,
+      "loss": 1.6649,
+      "num_input_tokens_seen": 61578372,
+      "step": 1750
+    },
+    {
+      "epoch": 0.1419802104997794,
+      "grad_norm": 0.25792524218559265,
+      "learning_rate": 3e-05,
+      "loss": 1.6868,
+      "num_input_tokens_seen": 61954252,
+      "step": 1760
+    },
+    {
+      "epoch": 0.14278691624125545,
+      "grad_norm": 0.32082629203796387,
+      "learning_rate": 3e-05,
+      "loss": 1.6844,
+      "num_input_tokens_seen": 62312328,
+      "step": 1770
+    },
+    {
+      "epoch": 0.14359362198273146,
+      "grad_norm": 0.2915956974029541,
+      "learning_rate": 3e-05,
+      "loss": 1.6998,
+      "num_input_tokens_seen": 62657528,
+      "step": 1780
+    },
+    {
+      "epoch": 0.14440032772420747,
+      "grad_norm": 0.28821295499801636,
+      "learning_rate": 3e-05,
+      "loss": 1.7053,
+      "num_input_tokens_seen": 63010336,
+      "step": 1790
+    },
+    {
+      "epoch": 0.1452070334656835,
+      "grad_norm": 0.2947831451892853,
+      "learning_rate": 3e-05,
+      "loss": 1.7078,
+      "num_input_tokens_seen": 63341864,
+      "step": 1800
+    },
+    {
+      "epoch": 0.14601373920715952,
+      "grad_norm": 0.31316396594047546,
+      "learning_rate": 3e-05,
+      "loss": 1.6593,
+      "num_input_tokens_seen": 63696096,
+      "step": 1810
+    },
+    {
+      "epoch": 0.14682044494863553,
+      "grad_norm": 0.3107188642024994,
+      "learning_rate": 3e-05,
+      "loss": 1.6506,
+      "num_input_tokens_seen": 64077708,
+      "step": 1820
+    },
+    {
+      "epoch": 0.14762715069011156,
+      "grad_norm": 0.3115972876548767,
+      "learning_rate": 3e-05,
+      "loss": 1.6887,
+      "num_input_tokens_seen": 64437828,
+      "step": 1830
+    },
+    {
+      "epoch": 0.14843385643158757,
+      "grad_norm": 0.34425589442253113,
+      "learning_rate": 3e-05,
+      "loss": 1.6977,
+      "num_input_tokens_seen": 64819332,
+      "step": 1840
+    },
+    {
+      "epoch": 0.14924056217306358,
+      "grad_norm": 0.27634525299072266,
+      "learning_rate": 3e-05,
+      "loss": 1.7464,
+      "num_input_tokens_seen": 65179536,
+      "step": 1850
+    },
+    {
+      "epoch": 0.15004726791453962,
+      "grad_norm": 0.31853121519088745,
+      "learning_rate": 3e-05,
+      "loss": 1.6382,
+      "num_input_tokens_seen": 65551676,
+      "step": 1860
+    },
+    {
+      "epoch": 0.15085397365601563,
+      "grad_norm": 0.30623626708984375,
+      "learning_rate": 3e-05,
+      "loss": 1.6798,
+      "num_input_tokens_seen": 65900132,
+      "step": 1870
+    },
+    {
+      "epoch": 0.15166067939749164,
+      "grad_norm": 0.28665515780448914,
+      "learning_rate": 3e-05,
+      "loss": 1.6672,
+      "num_input_tokens_seen": 66266544,
+      "step": 1880
+    },
+    {
+      "epoch": 0.15246738513896768,
+      "grad_norm": 0.29499661922454834,
+      "learning_rate": 3e-05,
+      "loss": 1.6661,
+      "num_input_tokens_seen": 66606176,
+      "step": 1890
+    },
+    {
+      "epoch": 0.1532740908804437,
+      "grad_norm": 0.3188175559043884,
+      "learning_rate": 3e-05,
+      "loss": 1.6772,
+      "num_input_tokens_seen": 66975608,
+      "step": 1900
+    },
+    {
+      "epoch": 0.1540807966219197,
+      "grad_norm": 0.31832584738731384,
+      "learning_rate": 3e-05,
+      "loss": 1.6704,
+      "num_input_tokens_seen": 67350296,
+      "step": 1910
+    },
+    {
+      "epoch": 0.15488750236339574,
+      "grad_norm": 0.329738974571228,
+      "learning_rate": 3e-05,
+      "loss": 1.7244,
+      "num_input_tokens_seen": 67707796,
+      "step": 1920
+    },
+    {
+      "epoch": 0.15569420810487175,
+      "grad_norm": 0.2936003804206848,
+      "learning_rate": 3e-05,
+      "loss": 1.6684,
+      "num_input_tokens_seen": 68036860,
+      "step": 1930
+    },
+    {
+      "epoch": 0.15650091384634776,
+      "grad_norm": 0.30164700746536255,
+      "learning_rate": 3e-05,
+      "loss": 1.7125,
+      "num_input_tokens_seen": 68377696,
+      "step": 1940
+    },
+    {
+      "epoch": 0.15730761958782377,
+      "grad_norm": 0.3079434931278229,
+      "learning_rate": 3e-05,
+      "loss": 1.6165,
+      "num_input_tokens_seen": 68748300,
+      "step": 1950
+    },
+    {
+      "epoch": 0.1581143253292998,
+      "grad_norm": 0.36346644163131714,
+      "learning_rate": 3e-05,
+      "loss": 1.6648,
+      "num_input_tokens_seen": 69128968,
+      "step": 1960
+    },
+    {
+      "epoch": 0.15892103107077582,
+      "grad_norm": 0.2884806990623474,
+      "learning_rate": 3e-05,
+      "loss": 1.6391,
+      "num_input_tokens_seen": 69471156,
+      "step": 1970
+    },
+    {
+      "epoch": 0.15972773681225183,
+      "grad_norm": 0.2658495306968689,
+      "learning_rate": 3e-05,
+      "loss": 1.6525,
+      "num_input_tokens_seen": 69820100,
+      "step": 1980
+    },
+    {
+      "epoch": 0.16053444255372787,
+      "grad_norm": 0.31078723073005676,
+      "learning_rate": 3e-05,
+      "loss": 1.6115,
+      "num_input_tokens_seen": 70181056,
+      "step": 1990
+    },
+    {
+      "epoch": 0.16134114829520388,
+      "grad_norm": 0.28954872488975525,
+      "learning_rate": 3e-05,
+      "loss": 1.6545,
+      "num_input_tokens_seen": 70510224,
+      "step": 2000
+    },
+    {
+      "epoch": 0.16134114829520388,
+      "eval_gen_len": 577.04,
+      "eval_loss": 1.5985389947891235,
+      "eval_rouge1": 28.9492,
+      "eval_rouge2": 15.3233,
+      "eval_rougeL": 23.871,
+      "eval_rougeLsum": 26.9919,
+      "eval_runtime": 1635.8727,
+      "eval_samples_per_second": 0.122,
+      "eval_steps_per_second": 0.031,
+      "num_input_tokens_seen": 70510224,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1621478540366799,
+      "grad_norm": 0.2800785005092621,
+      "learning_rate": 3e-05,
+      "loss": 1.658,
+      "num_input_tokens_seen": 70896684,
+      "step": 2010
+    },
+    {
+      "epoch": 0.16295455977815593,
+      "grad_norm": 0.3101065754890442,
+      "learning_rate": 3e-05,
+      "loss": 1.6204,
+      "num_input_tokens_seen": 71245800,
+      "step": 2020
+    },
+    {
+      "epoch": 0.16376126551963194,
+      "grad_norm": 0.27418360114097595,
+      "learning_rate": 3e-05,
+      "loss": 1.6942,
+      "num_input_tokens_seen": 71561040,
+      "step": 2030
+    },
+    {
+      "epoch": 0.16456797126110795,
+      "grad_norm": 0.29117581248283386,
+      "learning_rate": 3e-05,
+      "loss": 1.6862,
+      "num_input_tokens_seen": 71917876,
+      "step": 2040
+    },
+    {
+      "epoch": 0.165374677002584,
+      "grad_norm": 0.3083847165107727,
+      "learning_rate": 3e-05,
+      "loss": 1.681,
+      "num_input_tokens_seen": 72278364,
+      "step": 2050
+    },
+    {
+      "epoch": 0.16618138274406,
+      "grad_norm": 0.29766711592674255,
+      "learning_rate": 3e-05,
+      "loss": 1.7143,
+      "num_input_tokens_seen": 72618996,
+      "step": 2060
+    },
+    {
+      "epoch": 0.166988088485536,
+      "grad_norm": 0.311576247215271,
+      "learning_rate": 3e-05,
+      "loss": 1.6782,
+      "num_input_tokens_seen": 72956980,
+      "step": 2070
+    },
+    {
+      "epoch": 0.16779479422701205,
+      "grad_norm": 0.5800204277038574,
+      "learning_rate": 3e-05,
+      "loss": 1.6647,
+      "num_input_tokens_seen": 73356960,
+      "step": 2080
+    },
+    {
+      "epoch": 0.16860149996848806,
+      "grad_norm": 37.67682647705078,
+      "learning_rate": 3e-05,
+      "loss": 1.6091,
+      "num_input_tokens_seen": 73675816,
+      "step": 2090
+    },
+    {
+      "epoch": 0.16940820570996407,
+      "grad_norm": 0.27842187881469727,
+      "learning_rate": 3e-05,
+      "loss": 1.6636,
+      "num_input_tokens_seen": 74032256,
+      "step": 2100
+    },
+    {
+      "epoch": 0.1702149114514401,
+      "grad_norm": 0.29616591334342957,
+      "learning_rate": 3e-05,
+      "loss": 1.6134,
+      "num_input_tokens_seen": 74398400,
+      "step": 2110
+    },
+    {
+      "epoch": 0.17102161719291611,
+      "grad_norm": 0.3454131782054901,
+      "learning_rate": 3e-05,
+      "loss": 1.6459,
+      "num_input_tokens_seen": 74733948,
+      "step": 2120
+    },
+    {
+      "epoch": 0.17182832293439212,
+      "grad_norm": 0.28399163484573364,
+      "learning_rate": 3e-05,
+      "loss": 1.6734,
+      "num_input_tokens_seen": 75108376,
+      "step": 2130
+    },
+    {
+      "epoch": 0.17263502867586816,
+      "grad_norm": 0.2860686480998993,
+      "learning_rate": 3e-05,
+      "loss": 1.6208,
+      "num_input_tokens_seen": 75448896,
+      "step": 2140
+    },
+    {
+      "epoch": 0.17344173441734417,
+      "grad_norm": 0.26892679929733276,
+      "learning_rate": 3e-05,
+      "loss": 1.636,
+      "num_input_tokens_seen": 75797696,
+      "step": 2150
+    },
+    {
+      "epoch": 0.17424844015882018,
+      "grad_norm": 0.2738756537437439,
+      "learning_rate": 3e-05,
+      "loss": 1.6832,
+      "num_input_tokens_seen": 76171544,
+      "step": 2160
+    },
+    {
+      "epoch": 0.17505514590029622,
+      "grad_norm": 0.29067671298980713,
+      "learning_rate": 3e-05,
+      "loss": 1.6717,
+      "num_input_tokens_seen": 76547816,
+      "step": 2170
+    },
+    {
+      "epoch": 0.17586185164177223,
+      "grad_norm": 0.28701356053352356,
+      "learning_rate": 3e-05,
+      "loss": 1.6343,
+      "num_input_tokens_seen": 76890468,
+      "step": 2180
+    },
+    {
+      "epoch": 0.17666855738324824,
+      "grad_norm": 0.28434693813323975,
+      "learning_rate": 3e-05,
+      "loss": 1.6087,
+      "num_input_tokens_seen": 77229360,
+      "step": 2190
+    },
+    {
+      "epoch": 0.17747526312472428,
+      "grad_norm": 0.3032514154911041,
+      "learning_rate": 3e-05,
+      "loss": 1.6132,
+      "num_input_tokens_seen": 77586424,
+      "step": 2200
+    },
+    {
+      "epoch": 0.1782819688662003,
+      "grad_norm": 0.3082556426525116,
+      "learning_rate": 3e-05,
+      "loss": 1.6578,
+      "num_input_tokens_seen": 77916864,
+      "step": 2210
+    },
+    {
+      "epoch": 0.1790886746076763,
+      "grad_norm": 0.28357553482055664,
+      "learning_rate": 3e-05,
+      "loss": 1.6743,
+      "num_input_tokens_seen": 78271708,
+      "step": 2220
+    },
+    {
+      "epoch": 0.17989538034915234,
+      "grad_norm": 0.30355584621429443,
+      "learning_rate": 3e-05,
+      "loss": 1.6257,
+      "num_input_tokens_seen": 78635684,
+      "step": 2230
+    },
+    {
+      "epoch": 0.18070208609062835,
+      "grad_norm": 0.3390004634857178,
+      "learning_rate": 3e-05,
+      "loss": 1.6041,
+      "num_input_tokens_seen": 78983708,
+      "step": 2240
+    },
+    {
+      "epoch": 0.18150879183210436,
+      "grad_norm": 0.30169346928596497,
+      "learning_rate": 3e-05,
+      "loss": 1.6102,
+      "num_input_tokens_seen": 79323848,
+      "step": 2250
+    },
+    {
+      "epoch": 0.1823154975735804,
+      "grad_norm": 0.33197805285453796,
+      "learning_rate": 3e-05,
+      "loss": 1.648,
+      "num_input_tokens_seen": 79691064,
+      "step": 2260
+    },
+    {
+      "epoch": 0.1831222033150564,
+      "grad_norm": 0.301727294921875,
+      "learning_rate": 3e-05,
+      "loss": 1.6121,
+      "num_input_tokens_seen": 80057832,
+      "step": 2270
+    },
+    {
+      "epoch": 0.18392890905653242,
+      "grad_norm": 0.44830191135406494,
+      "learning_rate": 3e-05,
+      "loss": 1.6317,
+      "num_input_tokens_seen": 80448712,
+      "step": 2280
+    },
+    {
+      "epoch": 0.18473561479800846,
+      "grad_norm": 0.2938157320022583,
+      "learning_rate": 3e-05,
+      "loss": 1.6598,
+      "num_input_tokens_seen": 80804116,
+      "step": 2290
+    },
+    {
+      "epoch": 0.18554232053948447,
+      "grad_norm": 0.2986922264099121,
+      "learning_rate": 3e-05,
+      "loss": 1.6292,
+      "num_input_tokens_seen": 81171136,
+      "step": 2300
+    },
+    {
+      "epoch": 0.18634902628096048,
+      "grad_norm": 0.2788652181625366,
+      "learning_rate": 3e-05,
+      "loss": 1.6548,
+      "num_input_tokens_seen": 81540708,
+      "step": 2310
+    },
+    {
+      "epoch": 0.18715573202243652,
+      "grad_norm": 0.312258243560791,
+      "learning_rate": 3e-05,
+      "loss": 1.6116,
+      "num_input_tokens_seen": 81870928,
+      "step": 2320
+    },
+    {
+      "epoch": 0.18796243776391253,
+      "grad_norm": 0.30631476640701294,
+      "learning_rate": 3e-05,
+      "loss": 1.6405,
+      "num_input_tokens_seen": 82223772,
+      "step": 2330
+    },
+    {
+      "epoch": 0.18876914350538854,
+      "grad_norm": 0.29788920283317566,
+      "learning_rate": 3e-05,
+      "loss": 1.6403,
+      "num_input_tokens_seen": 82541752,
+      "step": 2340
+    },
+    {
+      "epoch": 0.18957584924686458,
+      "grad_norm": 0.3009161949157715,
+      "learning_rate": 3e-05,
+      "loss": 1.6534,
+      "num_input_tokens_seen": 82897448,
+      "step": 2350
+    },
+    {
+      "epoch": 0.19038255498834059,
+      "grad_norm": 0.3116704821586609,
+      "learning_rate": 3e-05,
+      "loss": 1.6182,
+      "num_input_tokens_seen": 83272296,
+      "step": 2360
+    },
+    {
+      "epoch": 0.1911892607298166,
+      "grad_norm": 0.32088491320610046,
+      "learning_rate": 3e-05,
+      "loss": 1.6609,
+      "num_input_tokens_seen": 83617696,
+      "step": 2370
+    },
+    {
+      "epoch": 0.1919959664712926,
+      "grad_norm": 0.32367074489593506,
+      "learning_rate": 3e-05,
+      "loss": 1.6087,
+      "num_input_tokens_seen": 83977604,
+      "step": 2380
+    },
+    {
+      "epoch": 0.19280267221276864,
+      "grad_norm": 0.28396207094192505,
+      "learning_rate": 3e-05,
+      "loss": 1.5404,
+      "num_input_tokens_seen": 84339752,
+      "step": 2390
+    },
+    {
+      "epoch": 0.19360937795424465,
+      "grad_norm": 0.3000083267688751,
+      "learning_rate": 3e-05,
+      "loss": 1.599,
+      "num_input_tokens_seen": 84695344,
+      "step": 2400
+    },
+    {
+      "epoch": 0.19441608369572067,
+      "grad_norm": 0.296040415763855,
+      "learning_rate": 3e-05,
+      "loss": 1.5851,
+      "num_input_tokens_seen": 85022864,
+      "step": 2410
+    },
+    {
+      "epoch": 0.1952227894371967,
+      "grad_norm": 0.2935866415500641,
+      "learning_rate": 3e-05,
+      "loss": 1.6412,
+      "num_input_tokens_seen": 85362004,
+      "step": 2420
+    },
+    {
+      "epoch": 0.1960294951786727,
+      "grad_norm": 0.31561270356178284,
+      "learning_rate": 3e-05,
+      "loss": 1.6026,
+      "num_input_tokens_seen": 85682084,
+      "step": 2430
+    },
+    {
+      "epoch": 0.19683620092014872,
+      "grad_norm": 0.2930440306663513,
+      "learning_rate": 3e-05,
+      "loss": 1.6198,
+      "num_input_tokens_seen": 86053116,
+      "step": 2440
+    },
+    {
+      "epoch": 0.19764290666162476,
+      "grad_norm": 0.29515814781188965,
+      "learning_rate": 3e-05,
+      "loss": 1.6001,
+      "num_input_tokens_seen": 86407792,
+      "step": 2450
+    },
+    {
+      "epoch": 0.19844961240310077,
+      "grad_norm": 0.29479432106018066,
+      "learning_rate": 3e-05,
+      "loss": 1.5964,
+      "num_input_tokens_seen": 86747732,
+      "step": 2460
+    },
+    {
+      "epoch": 0.19925631814457678,
+      "grad_norm": 0.28793784976005554,
+      "learning_rate": 3e-05,
+      "loss": 1.5935,
+      "num_input_tokens_seen": 87105244,
+      "step": 2470
+    },
+    {
+      "epoch": 0.20006302388605282,
+      "grad_norm": 0.2696222960948944,
+      "learning_rate": 3e-05,
+      "loss": 1.5956,
+      "num_input_tokens_seen": 87446420,
+      "step": 2480
+    },
+    {
+      "epoch": 0.20086972962752883,
+      "grad_norm": 0.2994723618030548,
+      "learning_rate": 3e-05,
+      "loss": 1.5979,
+      "num_input_tokens_seen": 87770636,
+      "step": 2490
+    },
+    {
+      "epoch": 0.20167643536900484,
+      "grad_norm": 0.3084478974342346,
+      "learning_rate": 3e-05,
+      "loss": 1.659,
+      "num_input_tokens_seen": 88100828,
+      "step": 2500
+    },
+    {
+      "epoch": 0.20248314111048088,
+      "grad_norm": 0.2618251144886017,
+      "learning_rate": 3e-05,
+      "loss": 1.6145,
+      "num_input_tokens_seen": 88483608,
+      "step": 2510
+    },
+    {
+      "epoch": 0.2032898468519569,
+      "grad_norm": 0.28900229930877686,
+      "learning_rate": 3e-05,
+      "loss": 1.6172,
+      "num_input_tokens_seen": 88832372,
+      "step": 2520
+    },
+    {
+      "epoch": 0.2040965525934329,
+      "grad_norm": 0.30491867661476135,
+      "learning_rate": 3e-05,
+      "loss": 1.5989,
+      "num_input_tokens_seen": 89160240,
+      "step": 2530
+    },
+    {
+      "epoch": 0.20490325833490894,
+      "grad_norm": 0.3022604286670685,
+      "learning_rate": 3e-05,
+      "loss": 1.6099,
+      "num_input_tokens_seen": 89520280,
+      "step": 2540
+    },
+    {
+      "epoch": 0.20570996407638495,
+      "grad_norm": 0.27108603715896606,
+      "learning_rate": 3e-05,
+      "loss": 1.5853,
+      "num_input_tokens_seen": 89873136,
+      "step": 2550
+    },
+    {
+      "epoch": 0.20651666981786096,
+      "grad_norm": 0.3252500295639038,
+      "learning_rate": 3e-05,
+      "loss": 1.5598,
+      "num_input_tokens_seen": 90253000,
+      "step": 2560
+    },
+    {
+      "epoch": 0.207323375559337,
+      "grad_norm": 0.30979427695274353,
+      "learning_rate": 3e-05,
+      "loss": 1.5417,
+      "num_input_tokens_seen": 90554752,
+      "step": 2570
+    },
+    {
+      "epoch": 0.208130081300813,
+      "grad_norm": 0.2795146703720093,
+      "learning_rate": 3e-05,
+      "loss": 1.6095,
+      "num_input_tokens_seen": 90936820,
+      "step": 2580
+    },
+    {
+      "epoch": 0.20893678704228902,
+      "grad_norm": 0.28166651725769043,
+      "learning_rate": 3e-05,
+      "loss": 1.5759,
+      "num_input_tokens_seen": 91299076,
+      "step": 2590
+    },
+    {
+      "epoch": 0.20974349278376506,
+      "grad_norm": 0.3146922290325165,
+      "learning_rate": 3e-05,
+      "loss": 1.567,
+      "num_input_tokens_seen": 91648568,
+      "step": 2600
+    },
+    {
+      "epoch": 0.21055019852524107,
+      "grad_norm": 0.2938322424888611,
+      "learning_rate": 3e-05,
+      "loss": 1.5781,
+      "num_input_tokens_seen": 91998480,
+      "step": 2610
+    },
+    {
+      "epoch": 0.21135690426671708,
+      "grad_norm": 0.2709970772266388,
+      "learning_rate": 3e-05,
+      "loss": 1.5961,
+      "num_input_tokens_seen": 92379904,
+      "step": 2620
+    },
+    {
+      "epoch": 0.21216361000819312,
+      "grad_norm": 0.27745142579078674,
+      "learning_rate": 3e-05,
+      "loss": 1.5985,
+      "num_input_tokens_seen": 92719980,
+      "step": 2630
+    },
+    {
+      "epoch": 0.21297031574966913,
+      "grad_norm": 0.2709800899028778,
+      "learning_rate": 3e-05,
+      "loss": 1.5578,
+      "num_input_tokens_seen": 93052044,
+      "step": 2640
+    },
+    {
+      "epoch": 0.21377702149114514,
+      "grad_norm": 0.26459309458732605,
+      "learning_rate": 3e-05,
+      "loss": 1.5896,
+      "num_input_tokens_seen": 93415468,
+      "step": 2650
+    },
+    {
+      "epoch": 0.21458372723262117,
+      "grad_norm": 0.2925964891910553,
+      "learning_rate": 3e-05,
+      "loss": 1.6339,
+      "num_input_tokens_seen": 93782336,
+      "step": 2660
+    },
+    {
+      "epoch": 0.21539043297409718,
+      "grad_norm": 0.26069968938827515,
+      "learning_rate": 3e-05,
+      "loss": 1.5298,
+      "num_input_tokens_seen": 94122876,
+      "step": 2670
+    },
+    {
+      "epoch": 0.2161971387155732,
+      "grad_norm": 0.300855427980423,
+      "learning_rate": 3e-05,
+      "loss": 1.5816,
+      "num_input_tokens_seen": 94463076,
+      "step": 2680
+    },
+    {
+      "epoch": 0.21700384445704923,
+      "grad_norm": 0.283113956451416,
+      "learning_rate": 3e-05,
+      "loss": 1.6143,
+      "num_input_tokens_seen": 94822824,
+      "step": 2690
+    },
+    {
+      "epoch": 0.21781055019852524,
+      "grad_norm": 0.27436137199401855,
+      "learning_rate": 3e-05,
+      "loss": 1.5729,
+      "num_input_tokens_seen": 95153340,
+      "step": 2700
+    },
+    {
+      "epoch": 0.21861725594000125,
+      "grad_norm": 0.32102033495903015,
+      "learning_rate": 3e-05,
+      "loss": 1.5977,
+      "num_input_tokens_seen": 95507556,
+      "step": 2710
+    },
+    {
+      "epoch": 0.2194239616814773,
+      "grad_norm": 0.29213079810142517,
+      "learning_rate": 3e-05,
+      "loss": 1.5738,
+      "num_input_tokens_seen": 95868396,
+      "step": 2720
+    },
+    {
+      "epoch": 0.2202306674229533,
+      "grad_norm": 0.2973087728023529,
+      "learning_rate": 3e-05,
+      "loss": 1.5457,
+      "num_input_tokens_seen": 96220008,
+      "step": 2730
+    },
+    {
+      "epoch": 0.2210373731644293,
+      "grad_norm": 0.28580325841903687,
+      "learning_rate": 3e-05,
+      "loss": 1.5911,
+      "num_input_tokens_seen": 96579440,
+      "step": 2740
+    },
+    {
+      "epoch": 0.22184407890590535,
+      "grad_norm": 0.3367248773574829,
+      "learning_rate": 3e-05,
+      "loss": 1.5535,
+      "num_input_tokens_seen": 96938504,
+      "step": 2750
+    },
+    {
+      "epoch": 0.22265078464738136,
+      "grad_norm": 0.3134912848472595,
+      "learning_rate": 3e-05,
+      "loss": 1.5942,
+      "num_input_tokens_seen": 97306988,
+      "step": 2760
+    },
+    {
+      "epoch": 0.22345749038885737,
+      "grad_norm": 0.2981172800064087,
+      "learning_rate": 3e-05,
+      "loss": 1.5415,
+      "num_input_tokens_seen": 97653476,
+      "step": 2770
+    },
+    {
+      "epoch": 0.2242641961303334,
+      "grad_norm": 0.279850572347641,
+      "learning_rate": 3e-05,
+      "loss": 1.5997,
+      "num_input_tokens_seen": 98021276,
+      "step": 2780
+    },
+    {
+      "epoch": 0.22507090187180942,
+      "grad_norm": 0.28641802072525024,
+      "learning_rate": 3e-05,
+      "loss": 1.5944,
+      "num_input_tokens_seen": 98383012,
+      "step": 2790
+    },
+    {
+      "epoch": 0.22587760761328543,
+      "grad_norm": 0.3132043480873108,
+      "learning_rate": 3e-05,
+      "loss": 1.5811,
+      "num_input_tokens_seen": 98714760,
+      "step": 2800
+    },
+    {
+      "epoch": 0.22668431335476144,
+      "grad_norm": 0.316658079624176,
+      "learning_rate": 3e-05,
+      "loss": 1.5405,
+      "num_input_tokens_seen": 99073344,
+      "step": 2810
+    },
+    {
+      "epoch": 0.22749101909623748,
+      "grad_norm": 0.3003792464733124,
+      "learning_rate": 3e-05,
+      "loss": 1.5542,
+      "num_input_tokens_seen": 99405504,
+      "step": 2820
+    },
+    {
+      "epoch": 0.2282977248377135,
+      "grad_norm": 0.30942708253860474,
+      "learning_rate": 3e-05,
+      "loss": 1.603,
+      "num_input_tokens_seen": 99721668,
+      "step": 2830
+    },
+    {
+      "epoch": 0.2291044305791895,
+      "grad_norm": 0.3059990704059601,
+      "learning_rate": 3e-05,
+      "loss": 1.5811,
+      "num_input_tokens_seen": 100103932,
+      "step": 2840
+    },
+    {
+      "epoch": 0.22991113632066554,
+      "grad_norm": 0.28223365545272827,
+      "learning_rate": 3e-05,
+      "loss": 1.5837,
+      "num_input_tokens_seen": 100444700,
+      "step": 2850
+    },
+    {
+      "epoch": 0.23071784206214155,
+      "grad_norm": 0.3146832287311554,
+      "learning_rate": 3e-05,
+      "loss": 1.543,
+      "num_input_tokens_seen": 100799240,
+      "step": 2860
+    },
+    {
+      "epoch": 0.23152454780361756,
+      "grad_norm": 0.2812480628490448,
+      "learning_rate": 3e-05,
+      "loss": 1.573,
+      "num_input_tokens_seen": 101167952,
+      "step": 2870
+    },
+    {
+      "epoch": 0.2323312535450936,
+      "grad_norm": 0.29142189025878906,
+      "learning_rate": 3e-05,
+      "loss": 1.5945,
+      "num_input_tokens_seen": 101537024,
+      "step": 2880
+    },
+    {
+      "epoch": 0.2331379592865696,
+      "grad_norm": 0.2754380404949188,
+      "learning_rate": 3e-05,
+      "loss": 1.6187,
+      "num_input_tokens_seen": 101891288,
+      "step": 2890
+    },
+    {
+      "epoch": 0.23394466502804562,
+      "grad_norm": 0.2767621576786041,
+      "learning_rate": 3e-05,
+      "loss": 1.5483,
+      "num_input_tokens_seen": 102222636,
+      "step": 2900
+    },
+    {
+      "epoch": 0.23475137076952166,
+      "grad_norm": 0.3091464638710022,
+      "learning_rate": 3e-05,
+      "loss": 1.5503,
+      "num_input_tokens_seen": 102566644,
+      "step": 2910
+    },
+    {
+      "epoch": 0.23555807651099767,
+      "grad_norm": 0.29182493686676025,
+      "learning_rate": 3e-05,
+      "loss": 1.5685,
+      "num_input_tokens_seen": 102911868,
+      "step": 2920
+    },
+    {
+      "epoch": 0.23636478225247368,
+      "grad_norm": 0.31178319454193115,
+      "learning_rate": 3e-05,
+      "loss": 1.5439,
+      "num_input_tokens_seen": 103267188,
+      "step": 2930
+    },
+    {
+      "epoch": 0.23717148799394971,
+      "grad_norm": 0.2722642719745636,
+      "learning_rate": 3e-05,
+      "loss": 1.5385,
+      "num_input_tokens_seen": 103570216,
+      "step": 2940
+    },
+    {
+      "epoch": 0.23797819373542572,
+      "grad_norm": 0.29112839698791504,
+      "learning_rate": 3e-05,
+      "loss": 1.529,
+      "num_input_tokens_seen": 103952836,
+      "step": 2950
+    },
+    {
+      "epoch": 0.23878489947690174,
+      "grad_norm": 0.33165234327316284,
+      "learning_rate": 3e-05,
+      "loss": 1.5905,
+      "num_input_tokens_seen": 104312972,
+      "step": 2960
+    },
+    {
+      "epoch": 0.23959160521837777,
+      "grad_norm": 0.283861368894577,
+      "learning_rate": 3e-05,
+      "loss": 1.5791,
+      "num_input_tokens_seen": 104674176,
+      "step": 2970
+    },
+    {
+      "epoch": 0.24039831095985378,
+      "grad_norm": 0.29667556285858154,
+      "learning_rate": 3e-05,
+      "loss": 1.5679,
+      "num_input_tokens_seen": 105000536,
+      "step": 2980
+    },
+    {
+      "epoch": 0.2412050167013298,
+      "grad_norm": 0.2613981068134308,
+      "learning_rate": 3e-05,
+      "loss": 1.5683,
+      "num_input_tokens_seen": 105334356,
+      "step": 2990
+    },
+    {
+      "epoch": 0.24201172244280583,
+      "grad_norm": 0.32442784309387207,
+      "learning_rate": 3e-05,
+      "loss": 1.5522,
+      "num_input_tokens_seen": 105707144,
+      "step": 3000
+    },
+    {
+      "epoch": 0.24201172244280583,
+      "eval_gen_len": 537.77,
+      "eval_loss": 1.490655779838562,
+      "eval_rouge1": 30.4033,
+      "eval_rouge2": 16.1354,
+      "eval_rougeL": 24.7244,
+      "eval_rougeLsum": 28.5037,
+      "eval_runtime": 1529.7468,
+      "eval_samples_per_second": 0.131,
+      "eval_steps_per_second": 0.033,
+      "num_input_tokens_seen": 105707144,
+      "step": 3000
+    },
+    {
+      "epoch": 0.24281842818428184,
+      "grad_norm": 0.25999367237091064,
+      "learning_rate": 3e-05,
+      "loss": 1.5511,
+      "num_input_tokens_seen": 106039376,
+      "step": 3010
+    },
+    {
+      "epoch": 0.24362513392575785,
+      "grad_norm": 0.30608776211738586,
+      "learning_rate": 3e-05,
+      "loss": 1.5551,
+      "num_input_tokens_seen": 106400776,
+      "step": 3020
+    },
+    {
+      "epoch": 0.2444318396672339,
+      "grad_norm": 0.2672644257545471,
+      "learning_rate": 3e-05,
+      "loss": 1.5703,
+      "num_input_tokens_seen": 106753976,
+      "step": 3030
+    },
+    {
+      "epoch": 0.2452385454087099,
+      "grad_norm": 0.2924732565879822,
+      "learning_rate": 3e-05,
+      "loss": 1.5668,
+      "num_input_tokens_seen": 107084116,
+      "step": 3040
+    },
+    {
+      "epoch": 0.2460452511501859,
+      "grad_norm": 0.26746517419815063,
+      "learning_rate": 3e-05,
+      "loss": 1.5731,
+      "num_input_tokens_seen": 107445220,
+      "step": 3050
+    },
+    {
+      "epoch": 0.24685195689166195,
+      "grad_norm": 0.2895317077636719,
+      "learning_rate": 3e-05,
+      "loss": 1.5477,
+      "num_input_tokens_seen": 107824932,
+      "step": 3060
+    },
+    {
+      "epoch": 0.24765866263313796,
+      "grad_norm": 0.3116007447242737,
+      "learning_rate": 3e-05,
+      "loss": 1.5384,
+      "num_input_tokens_seen": 108169544,
+      "step": 3070
+    },
+    {
+      "epoch": 0.24846536837461397,
+      "grad_norm": 0.30636924505233765,
+      "learning_rate": 3e-05,
+      "loss": 1.548,
+      "num_input_tokens_seen": 108509580,
+      "step": 3080
+    },
+    {
+      "epoch": 0.24927207411609,
+      "grad_norm": 0.2778127193450928,
+      "learning_rate": 3e-05,
+      "loss": 1.5389,
+      "num_input_tokens_seen": 108841048,
+      "step": 3090
+    },
+    {
+      "epoch": 0.250078779857566,
+      "grad_norm": 0.33867573738098145,
+      "learning_rate": 3e-05,
+      "loss": 1.5356,
+      "num_input_tokens_seen": 109174340,
+      "step": 3100
+    },
+    {
+      "epoch": 0.25088548559904206,
+      "grad_norm": 0.3052271604537964,
+      "learning_rate": 3e-05,
+      "loss": 1.5869,
+      "num_input_tokens_seen": 109536332,
+      "step": 3110
+    },
+    {
+      "epoch": 0.25169219134051807,
+      "grad_norm": 0.3291682004928589,
+      "learning_rate": 3e-05,
+      "loss": 1.5583,
+      "num_input_tokens_seen": 109876576,
+      "step": 3120
+    },
+    {
+      "epoch": 0.2524988970819941,
+      "grad_norm": 0.27373817563056946,
+      "learning_rate": 3e-05,
+      "loss": 1.5523,
+      "num_input_tokens_seen": 110248928,
+      "step": 3130
+    },
+    {
+      "epoch": 0.2533056028234701,
+      "grad_norm": 0.2915042042732239,
+      "learning_rate": 3e-05,
+      "loss": 1.531,
+      "num_input_tokens_seen": 110605440,
+      "step": 3140
+    },
+    {
+      "epoch": 0.2541123085649461,
+      "grad_norm": 0.2974439561367035,
+      "learning_rate": 3e-05,
+      "loss": 1.5545,
+      "num_input_tokens_seen": 110951152,
+      "step": 3150
+    },
+    {
+      "epoch": 0.2549190143064221,
+      "grad_norm": 0.2974379062652588,
+      "learning_rate": 3e-05,
+      "loss": 1.5396,
+      "num_input_tokens_seen": 111293688,
+      "step": 3160
+    },
+    {
+      "epoch": 0.2557257200478982,
+      "grad_norm": 0.28520846366882324,
+      "learning_rate": 3e-05,
+      "loss": 1.553,
+      "num_input_tokens_seen": 111657012,
+      "step": 3170
+    },
+    {
+      "epoch": 0.2565324257893742,
+      "grad_norm": 0.2918589413166046,
+      "learning_rate": 3e-05,
+      "loss": 1.5384,
+      "num_input_tokens_seen": 112000840,
+      "step": 3180
+    },
+    {
+      "epoch": 0.2573391315308502,
+      "grad_norm": 0.2972608208656311,
+      "learning_rate": 3e-05,
+      "loss": 1.5092,
+      "num_input_tokens_seen": 112363632,
+      "step": 3190
+    },
+    {
+      "epoch": 0.2581458372723262,
+      "grad_norm": 0.28906238079071045,
+      "learning_rate": 3e-05,
+      "loss": 1.504,
+      "num_input_tokens_seen": 112755768,
+      "step": 3200
+    },
+    {
+      "epoch": 0.2589525430138022,
+      "grad_norm": 0.3328370451927185,
+      "learning_rate": 3e-05,
+      "loss": 1.4841,
+      "num_input_tokens_seen": 113115408,
+      "step": 3210
+    },
+    {
+      "epoch": 0.2597592487552782,
+      "grad_norm": 0.276845246553421,
+      "learning_rate": 3e-05,
+      "loss": 1.5259,
+      "num_input_tokens_seen": 113485700,
+      "step": 3220
+    },
+    {
+      "epoch": 0.2605659544967543,
+      "grad_norm": 0.2899667024612427,
+      "learning_rate": 3e-05,
+      "loss": 1.5442,
+      "num_input_tokens_seen": 113815188,
+      "step": 3230
+    },
+    {
+      "epoch": 0.2613726602382303,
+      "grad_norm": 0.2876961827278137,
+      "learning_rate": 3e-05,
+      "loss": 1.5318,
+      "num_input_tokens_seen": 114160588,
+      "step": 3240
+    },
+    {
+      "epoch": 0.2621793659797063,
+      "grad_norm": 0.28680142760276794,
+      "learning_rate": 3e-05,
+      "loss": 1.5557,
+      "num_input_tokens_seen": 114495188,
+      "step": 3250
+    },
+    {
+      "epoch": 0.2629860717211823,
+      "grad_norm": 0.3168465495109558,
+      "learning_rate": 3e-05,
+      "loss": 1.5693,
+      "num_input_tokens_seen": 114854536,
+      "step": 3260
+    },
+    {
+      "epoch": 0.26379277746265833,
+      "grad_norm": 0.28036338090896606,
+      "learning_rate": 3e-05,
+      "loss": 1.4784,
+      "num_input_tokens_seen": 115203172,
+      "step": 3270
+    },
+    {
+      "epoch": 0.26459948320413434,
+      "grad_norm": 0.3073316514492035,
+      "learning_rate": 3e-05,
+      "loss": 1.5274,
+      "num_input_tokens_seen": 115585256,
+      "step": 3280
+    },
+    {
+      "epoch": 0.2654061889456104,
+      "grad_norm": 0.28101012110710144,
+      "learning_rate": 3e-05,
+      "loss": 1.5496,
+      "num_input_tokens_seen": 115922364,
+      "step": 3290
+    },
+    {
+      "epoch": 0.2662128946870864,
+      "grad_norm": 0.2771126329898834,
+      "learning_rate": 3e-05,
+      "loss": 1.5634,
+      "num_input_tokens_seen": 116267708,
+      "step": 3300
+    },
+    {
+      "epoch": 0.26701960042856243,
+      "grad_norm": 0.3039109408855438,
+      "learning_rate": 3e-05,
+      "loss": 1.4806,
+      "num_input_tokens_seen": 116607404,
+      "step": 3310
+    },
+    {
+      "epoch": 0.26782630617003844,
+      "grad_norm": 0.2795468270778656,
+      "learning_rate": 3e-05,
+      "loss": 1.5449,
+      "num_input_tokens_seen": 116917480,
+      "step": 3320
+    },
+    {
+      "epoch": 0.26863301191151445,
+      "grad_norm": 0.2998358905315399,
+      "learning_rate": 3e-05,
+      "loss": 1.5067,
+      "num_input_tokens_seen": 117255260,
+      "step": 3330
+    },
+    {
+      "epoch": 0.26943971765299046,
+      "grad_norm": 0.3048727810382843,
+      "learning_rate": 3e-05,
+      "loss": 1.5021,
+      "num_input_tokens_seen": 117596360,
+      "step": 3340
+    },
+    {
+      "epoch": 0.27024642339446653,
+      "grad_norm": 0.31331056356430054,
+      "learning_rate": 3e-05,
+      "loss": 1.5621,
+      "num_input_tokens_seen": 117967920,
+      "step": 3350
+    },
+    {
+      "epoch": 0.27105312913594254,
+      "grad_norm": 0.3083108961582184,
+      "learning_rate": 3e-05,
+      "loss": 1.4923,
+      "num_input_tokens_seen": 118314268,
+      "step": 3360
+    },
+    {
+      "epoch": 0.27185983487741855,
+      "grad_norm": 0.36439692974090576,
+      "learning_rate": 3e-05,
+      "loss": 1.5368,
+      "num_input_tokens_seen": 118658628,
+      "step": 3370
+    },
+    {
+      "epoch": 0.27266654061889456,
+      "grad_norm": 0.2711757719516754,
+      "learning_rate": 3e-05,
+      "loss": 1.5048,
+      "num_input_tokens_seen": 119018540,
+      "step": 3380
+    },
+    {
+      "epoch": 0.27347324636037057,
+      "grad_norm": 0.2828957438468933,
+      "learning_rate": 3e-05,
+      "loss": 1.5502,
+      "num_input_tokens_seen": 119366464,
+      "step": 3390
+    },
+    {
+      "epoch": 0.2742799521018466,
+      "grad_norm": 0.3058261573314667,
+      "learning_rate": 3e-05,
+      "loss": 1.5167,
+      "num_input_tokens_seen": 119713824,
+      "step": 3400
+    },
+    {
+      "epoch": 0.27508665784332265,
+      "grad_norm": 0.2823350429534912,
+      "learning_rate": 3e-05,
+      "loss": 1.5371,
+      "num_input_tokens_seen": 120077416,
+      "step": 3410
+    },
+    {
+      "epoch": 0.27589336358479866,
+      "grad_norm": 0.2950865626335144,
+      "learning_rate": 3e-05,
+      "loss": 1.5208,
+      "num_input_tokens_seen": 120429560,
+      "step": 3420
+    },
+    {
+      "epoch": 0.27670006932627467,
+      "grad_norm": 0.2756860852241516,
+      "learning_rate": 3e-05,
+      "loss": 1.5479,
+      "num_input_tokens_seen": 120775808,
+      "step": 3430
+    },
+    {
+      "epoch": 0.2775067750677507,
+      "grad_norm": 0.32079747319221497,
+      "learning_rate": 3e-05,
+      "loss": 1.5235,
+      "num_input_tokens_seen": 121146688,
+      "step": 3440
+    },
+    {
+      "epoch": 0.2783134808092267,
+      "grad_norm": 0.2849906086921692,
+      "learning_rate": 3e-05,
+      "loss": 1.5281,
+      "num_input_tokens_seen": 121511252,
+      "step": 3450
+    },
+    {
+      "epoch": 0.2791201865507027,
+      "grad_norm": 0.3128233850002289,
+      "learning_rate": 3e-05,
+      "loss": 1.4737,
+      "num_input_tokens_seen": 121880504,
+      "step": 3460
+    },
+    {
+      "epoch": 0.2799268922921787,
+      "grad_norm": 0.281825989484787,
+      "learning_rate": 3e-05,
+      "loss": 1.4789,
+      "num_input_tokens_seen": 122207764,
+      "step": 3470
+    },
+    {
+      "epoch": 0.2807335980336548,
+      "grad_norm": 0.26039403676986694,
+      "learning_rate": 3e-05,
+      "loss": 1.519,
+      "num_input_tokens_seen": 122556148,
+      "step": 3480
+    },
+    {
+      "epoch": 0.2815403037751308,
+      "grad_norm": 0.34013232588768005,
+      "learning_rate": 3e-05,
+      "loss": 1.5325,
+      "num_input_tokens_seen": 122911404,
+      "step": 3490
+    },
+    {
+      "epoch": 0.2823470095166068,
+      "grad_norm": 0.3078472912311554,
+      "learning_rate": 3e-05,
+      "loss": 1.5493,
+      "num_input_tokens_seen": 123295332,
+      "step": 3500
+    },
+    {
+      "epoch": 0.2831537152580828,
+      "grad_norm": 0.3297036290168762,
+      "learning_rate": 3e-05,
+      "loss": 1.5111,
+      "num_input_tokens_seen": 123608268,
+      "step": 3510
+    },
+    {
+      "epoch": 0.2839604209995588,
+      "grad_norm": 0.2852914035320282,
+      "learning_rate": 3e-05,
+      "loss": 1.4844,
+      "num_input_tokens_seen": 123923784,
+      "step": 3520
+    },
+    {
+      "epoch": 0.2847671267410348,
+      "grad_norm": 0.2900603711605072,
+      "learning_rate": 3e-05,
+      "loss": 1.536,
+      "num_input_tokens_seen": 124255432,
+      "step": 3530
+    },
+    {
+      "epoch": 0.2855738324825109,
+      "grad_norm": 0.2996746003627777,
+      "learning_rate": 3e-05,
+      "loss": 1.4837,
+      "num_input_tokens_seen": 124611088,
+      "step": 3540
+    },
+    {
+      "epoch": 0.2863805382239869,
+      "grad_norm": 0.257682740688324,
+      "learning_rate": 3e-05,
+      "loss": 1.5242,
+      "num_input_tokens_seen": 124959064,
+      "step": 3550
+    },
+    {
+      "epoch": 0.2871872439654629,
+      "grad_norm": 0.3033203184604645,
+      "learning_rate": 3e-05,
+      "loss": 1.4912,
+      "num_input_tokens_seen": 125314100,
+      "step": 3560
+    },
+    {
+      "epoch": 0.2879939497069389,
+      "grad_norm": 0.3357955515384674,
+      "learning_rate": 3e-05,
+      "loss": 1.5057,
+      "num_input_tokens_seen": 125628132,
+      "step": 3570
+    },
+    {
+      "epoch": 0.28880065544841493,
+      "grad_norm": 0.30520308017730713,
+      "learning_rate": 3e-05,
+      "loss": 1.5287,
+      "num_input_tokens_seen": 125984032,
+      "step": 3580
+    },
+    {
+      "epoch": 0.28960736118989094,
+      "grad_norm": 0.3066059648990631,
+      "learning_rate": 3e-05,
+      "loss": 1.5461,
+      "num_input_tokens_seen": 126339664,
+      "step": 3590
+    },
+    {
+      "epoch": 0.290414066931367,
+      "grad_norm": 0.2903365194797516,
+      "learning_rate": 3e-05,
+      "loss": 1.5364,
+      "num_input_tokens_seen": 126680156,
+      "step": 3600
+    },
+    {
+      "epoch": 0.291220772672843,
+      "grad_norm": 0.30246102809906006,
+      "learning_rate": 3e-05,
+      "loss": 1.5888,
+      "num_input_tokens_seen": 127076916,
+      "step": 3610
+    },
+    {
+      "epoch": 0.29202747841431903,
+      "grad_norm": 0.28773432970046997,
+      "learning_rate": 3e-05,
+      "loss": 1.4945,
+      "num_input_tokens_seen": 127418188,
+      "step": 3620
+    },
+    {
+      "epoch": 0.29283418415579504,
+      "grad_norm": 0.36873912811279297,
+      "learning_rate": 3e-05,
+      "loss": 1.4849,
+      "num_input_tokens_seen": 127795860,
+      "step": 3630
+    },
+    {
+      "epoch": 0.29364088989727105,
+      "grad_norm": 0.31495216488838196,
+      "learning_rate": 3e-05,
+      "loss": 1.4918,
+      "num_input_tokens_seen": 128127020,
+      "step": 3640
+    },
+    {
+      "epoch": 0.29444759563874706,
+      "grad_norm": 0.9313835501670837,
+      "learning_rate": 3e-05,
+      "loss": 1.549,
+      "num_input_tokens_seen": 128472256,
+      "step": 3650
+    },
+    {
+      "epoch": 0.2952543013802231,
+      "grad_norm": 0.29919105768203735,
+      "learning_rate": 3e-05,
+      "loss": 1.5645,
+      "num_input_tokens_seen": 128831764,
+      "step": 3660
+    },
+    {
+      "epoch": 0.29606100712169914,
+      "grad_norm": 0.29914769530296326,
+      "learning_rate": 3e-05,
+      "loss": 1.4823,
+      "num_input_tokens_seen": 129175644,
+      "step": 3670
+    },
+    {
+      "epoch": 0.29686771286317515,
+      "grad_norm": 0.2776944041252136,
+      "learning_rate": 3e-05,
+      "loss": 1.4981,
+      "num_input_tokens_seen": 129534220,
+      "step": 3680
+    },
+    {
+      "epoch": 0.29767441860465116,
+      "grad_norm": 0.2623848021030426,
+      "learning_rate": 3e-05,
+      "loss": 1.5136,
+      "num_input_tokens_seen": 129882948,
+      "step": 3690
+    },
+    {
+      "epoch": 0.29848112434612717,
+      "grad_norm": 0.2865106165409088,
+      "learning_rate": 3e-05,
+      "loss": 1.4903,
+      "num_input_tokens_seen": 130238792,
+      "step": 3700
+    },
+    {
+      "epoch": 0.2992878300876032,
+      "grad_norm": 0.30147454142570496,
+      "learning_rate": 3e-05,
+      "loss": 1.4774,
+      "num_input_tokens_seen": 130602272,
+      "step": 3710
+    },
+    {
+      "epoch": 0.30009453582907925,
+      "grad_norm": 0.2756776809692383,
+      "learning_rate": 3e-05,
+      "loss": 1.5004,
+      "num_input_tokens_seen": 130953160,
+      "step": 3720
+    },
+    {
+      "epoch": 0.30090124157055526,
+      "grad_norm": 0.3233429193496704,
+      "learning_rate": 3e-05,
+      "loss": 1.5095,
+      "num_input_tokens_seen": 131287396,
+      "step": 3730
+    },
+    {
+      "epoch": 0.30170794731203127,
+      "grad_norm": 0.2846832871437073,
+      "learning_rate": 3e-05,
+      "loss": 1.5312,
+      "num_input_tokens_seen": 131634640,
+      "step": 3740
+    },
+    {
+      "epoch": 0.3025146530535073,
+      "grad_norm": 0.31799256801605225,
+      "learning_rate": 3e-05,
+      "loss": 1.539,
+      "num_input_tokens_seen": 131998680,
+      "step": 3750
+    },
+    {
+      "epoch": 0.3033213587949833,
+      "grad_norm": 0.2880600392818451,
+      "learning_rate": 3e-05,
+      "loss": 1.4928,
+      "num_input_tokens_seen": 132325324,
+      "step": 3760
+    },
+    {
+      "epoch": 0.3041280645364593,
+      "grad_norm": 0.3118450343608856,
+      "learning_rate": 3e-05,
+      "loss": 1.4899,
+      "num_input_tokens_seen": 132681648,
+      "step": 3770
+    },
+    {
+      "epoch": 0.30493477027793536,
+      "grad_norm": 0.2892366945743561,
+      "learning_rate": 3e-05,
+      "loss": 1.5506,
+      "num_input_tokens_seen": 133029972,
+      "step": 3780
+    },
+    {
+      "epoch": 0.3057414760194114,
+      "grad_norm": 0.26994529366493225,
+      "learning_rate": 3e-05,
+      "loss": 1.4862,
+      "num_input_tokens_seen": 133381324,
+      "step": 3790
+    },
+    {
+      "epoch": 0.3065481817608874,
+      "grad_norm": 0.30546241998672485,
+      "learning_rate": 3e-05,
+      "loss": 1.4856,
+      "num_input_tokens_seen": 133726364,
+      "step": 3800
+    },
+    {
+      "epoch": 0.3073548875023634,
+      "grad_norm": 0.31917914748191833,
+      "learning_rate": 3e-05,
+      "loss": 1.5729,
+      "num_input_tokens_seen": 134081304,
+      "step": 3810
+    },
+    {
+      "epoch": 0.3081615932438394,
+      "grad_norm": 0.28447583317756653,
+      "learning_rate": 3e-05,
+      "loss": 1.4627,
+      "num_input_tokens_seen": 134427992,
+      "step": 3820
+    },
+    {
+      "epoch": 0.3089682989853154,
+      "grad_norm": 0.2646794617176056,
+      "learning_rate": 3e-05,
+      "loss": 1.5402,
+      "num_input_tokens_seen": 134791020,
+      "step": 3830
+    },
+    {
+      "epoch": 0.3097750047267915,
+      "grad_norm": 0.33490800857543945,
+      "learning_rate": 3e-05,
+      "loss": 1.5013,
+      "num_input_tokens_seen": 135143312,
+      "step": 3840
+    },
+    {
+      "epoch": 0.3105817104682675,
+      "grad_norm": 0.28088971972465515,
+      "learning_rate": 3e-05,
+      "loss": 1.5179,
+      "num_input_tokens_seen": 135461584,
+      "step": 3850
+    },
+    {
+      "epoch": 0.3113884162097435,
+      "grad_norm": 0.31193193793296814,
+      "learning_rate": 3e-05,
+      "loss": 1.4818,
+      "num_input_tokens_seen": 135833744,
+      "step": 3860
+    },
+    {
+      "epoch": 0.3121951219512195,
+      "grad_norm": 0.2969256341457367,
+      "learning_rate": 3e-05,
+      "loss": 1.5094,
+      "num_input_tokens_seen": 136187480,
+      "step": 3870
+    },
+    {
+      "epoch": 0.3130018276926955,
+      "grad_norm": 0.2791529595851898,
+      "learning_rate": 3e-05,
+      "loss": 1.4803,
+      "num_input_tokens_seen": 136526612,
+      "step": 3880
+    },
+    {
+      "epoch": 0.31380853343417153,
+      "grad_norm": 0.2843697667121887,
+      "learning_rate": 3e-05,
+      "loss": 1.4858,
+      "num_input_tokens_seen": 136911180,
+      "step": 3890
+    },
+    {
+      "epoch": 0.31461523917564754,
+      "grad_norm": 0.289218932390213,
+      "learning_rate": 3e-05,
+      "loss": 1.4901,
+      "num_input_tokens_seen": 137252616,
+      "step": 3900
+    },
+    {
+      "epoch": 0.3154219449171236,
+      "grad_norm": 0.2953207790851593,
+      "learning_rate": 3e-05,
+      "loss": 1.498,
+      "num_input_tokens_seen": 137622500,
+      "step": 3910
+    },
+    {
+      "epoch": 0.3162286506585996,
+      "grad_norm": 0.2963256239891052,
+      "learning_rate": 3e-05,
+      "loss": 1.4842,
+      "num_input_tokens_seen": 137965636,
+      "step": 3920
+    },
+    {
+      "epoch": 0.31703535640007563,
+      "grad_norm": 0.26671716570854187,
+      "learning_rate": 3e-05,
+      "loss": 1.4532,
+      "num_input_tokens_seen": 138320552,
+      "step": 3930
+    },
+    {
+      "epoch": 0.31784206214155164,
+      "grad_norm": 0.2607724368572235,
+      "learning_rate": 3e-05,
+      "loss": 1.4774,
+      "num_input_tokens_seen": 138682864,
+      "step": 3940
+    },
+    {
+      "epoch": 0.31864876788302765,
+      "grad_norm": 0.25891661643981934,
+      "learning_rate": 3e-05,
+      "loss": 1.4808,
+      "num_input_tokens_seen": 139009880,
+      "step": 3950
+    },
+    {
+      "epoch": 0.31945547362450366,
+      "grad_norm": 0.2629043161869049,
+      "learning_rate": 3e-05,
+      "loss": 1.5152,
+      "num_input_tokens_seen": 139349380,
+      "step": 3960
+    },
+    {
+      "epoch": 0.3202621793659797,
+      "grad_norm": 0.2573290765285492,
+      "learning_rate": 3e-05,
+      "loss": 1.4592,
+      "num_input_tokens_seen": 139690036,
+      "step": 3970
+    },
+    {
+      "epoch": 0.32106888510745574,
+      "grad_norm": 0.291111022233963,
+      "learning_rate": 3e-05,
+      "loss": 1.5394,
+      "num_input_tokens_seen": 140029928,
+      "step": 3980
+    },
+    {
+      "epoch": 0.32187559084893175,
+      "grad_norm": 0.29500630497932434,
+      "learning_rate": 3e-05,
+      "loss": 1.505,
+      "num_input_tokens_seen": 140375124,
+      "step": 3990
+    },
+    {
+      "epoch": 0.32268229659040776,
+      "grad_norm": 0.27471858263015747,
+      "learning_rate": 3e-05,
+      "loss": 1.5059,
+      "num_input_tokens_seen": 140722844,
+      "step": 4000
+    },
+    {
+      "epoch": 0.32268229659040776,
+      "eval_gen_len": 522.495,
+      "eval_loss": 1.4203619956970215,
+      "eval_rouge1": 34.0294,
+      "eval_rouge2": 19.2608,
+      "eval_rougeL": 27.9322,
+      "eval_rougeLsum": 32.3166,
+      "eval_runtime": 1678.7718,
+      "eval_samples_per_second": 0.119,
+      "eval_steps_per_second": 0.03,
+      "num_input_tokens_seen": 140722844,
+      "step": 4000
+    },
+    {
+      "epoch": 0.32348900233188377,
+      "grad_norm": 0.28979143500328064,
+      "learning_rate": 3e-05,
+      "loss": 1.5586,
+      "num_input_tokens_seen": 141066960,
+      "step": 4010
+    },
+    {
+      "epoch": 0.3242957080733598,
+      "grad_norm": 0.2836126983165741,
+      "learning_rate": 3e-05,
+      "loss": 1.4956,
+      "num_input_tokens_seen": 141419352,
+      "step": 4020
+    },
+    {
+      "epoch": 0.32510241381483584,
+      "grad_norm": 0.28655633330345154,
+      "learning_rate": 3e-05,
+      "loss": 1.4839,
+      "num_input_tokens_seen": 141790804,
+      "step": 4030
+    },
+    {
+      "epoch": 0.32590911955631185,
+      "grad_norm": 0.28721150755882263,
+      "learning_rate": 3e-05,
+      "loss": 1.5154,
+      "num_input_tokens_seen": 142162756,
+      "step": 4040
+    },
+    {
+      "epoch": 0.32671582529778787,
+      "grad_norm": 0.30329418182373047,
+      "learning_rate": 3e-05,
+      "loss": 1.4852,
+      "num_input_tokens_seen": 142517624,
+      "step": 4050
+    },
+    {
+      "epoch": 0.3275225310392639,
+      "grad_norm": 0.2742053270339966,
+      "learning_rate": 3e-05,
+      "loss": 1.4663,
+      "num_input_tokens_seen": 142839740,
+      "step": 4060
+    },
+    {
+      "epoch": 0.3283292367807399,
+      "grad_norm": 0.2814532220363617,
+      "learning_rate": 3e-05,
+      "loss": 1.509,
+      "num_input_tokens_seen": 143173156,
+      "step": 4070
+    },
+    {
+      "epoch": 0.3291359425222159,
+      "grad_norm": 0.3034536838531494,
+      "learning_rate": 3e-05,
+      "loss": 1.4528,
+      "num_input_tokens_seen": 143537620,
+      "step": 4080
+    },
+    {
+      "epoch": 0.32994264826369196,
+      "grad_norm": 0.29641520977020264,
+      "learning_rate": 3e-05,
+      "loss": 1.4413,
+      "num_input_tokens_seen": 143874732,
+      "step": 4090
+    },
+    {
+      "epoch": 0.330749354005168,
+      "grad_norm": 0.2924509644508362,
+      "learning_rate": 3e-05,
+      "loss": 1.5089,
+      "num_input_tokens_seen": 144230600,
+      "step": 4100
+    },
+    {
+      "epoch": 0.331556059746644,
+      "grad_norm": 0.2810611128807068,
+      "learning_rate": 3e-05,
+      "loss": 1.4568,
+      "num_input_tokens_seen": 144595320,
+      "step": 4110
+    },
+    {
+      "epoch": 0.33236276548812,
+      "grad_norm": 0.2762203812599182,
+      "learning_rate": 3e-05,
+      "loss": 1.488,
+      "num_input_tokens_seen": 144946772,
+      "step": 4120
+    },
+    {
+      "epoch": 0.333169471229596,
+      "grad_norm": 0.3193224370479584,
+      "learning_rate": 3e-05,
+      "loss": 1.4391,
+      "num_input_tokens_seen": 145295928,
+      "step": 4130
+    },
+    {
+      "epoch": 0.333976176971072,
+      "grad_norm": 0.2631831467151642,
+      "learning_rate": 3e-05,
+      "loss": 1.4396,
+      "num_input_tokens_seen": 145653456,
+      "step": 4140
+    },
+    {
+      "epoch": 0.3347828827125481,
+      "grad_norm": 0.27242833375930786,
+      "learning_rate": 3e-05,
+      "loss": 1.4471,
+      "num_input_tokens_seen": 146017976,
+      "step": 4150
+    },
+    {
+      "epoch": 0.3355895884540241,
+      "grad_norm": 0.3117299973964691,
+      "learning_rate": 3e-05,
+      "loss": 1.448,
+      "num_input_tokens_seen": 146366548,
+      "step": 4160
+    },
+    {
+      "epoch": 0.3363962941955001,
+      "grad_norm": 0.28237223625183105,
+      "learning_rate": 3e-05,
+      "loss": 1.4627,
+      "num_input_tokens_seen": 146688608,
+      "step": 4170
+    },
+    {
+      "epoch": 0.3372029999369761,
+      "grad_norm": 0.33882033824920654,
+      "learning_rate": 3e-05,
+      "loss": 1.4841,
+      "num_input_tokens_seen": 147036924,
+      "step": 4180
+    },
+    {
+      "epoch": 0.3380097056784521,
+      "grad_norm": 0.2639561593532562,
+      "learning_rate": 3e-05,
+      "loss": 1.4653,
+      "num_input_tokens_seen": 147354544,
+      "step": 4190
+    },
+    {
+      "epoch": 0.33881641141992813,
+      "grad_norm": 0.2983449101448059,
+      "learning_rate": 3e-05,
+      "loss": 1.5031,
+      "num_input_tokens_seen": 147705132,
+      "step": 4200
+    },
+    {
+      "epoch": 0.3396231171614042,
+      "grad_norm": 0.30153656005859375,
+      "learning_rate": 3e-05,
+      "loss": 1.4866,
+      "num_input_tokens_seen": 148044316,
+      "step": 4210
+    },
+    {
+      "epoch": 0.3404298229028802,
+      "grad_norm": 0.2834070026874542,
+      "learning_rate": 3e-05,
+      "loss": 1.4838,
+      "num_input_tokens_seen": 148383308,
+      "step": 4220
+    },
+    {
+      "epoch": 0.3412365286443562,
+      "grad_norm": 0.28662896156311035,
+      "learning_rate": 3e-05,
+      "loss": 1.4963,
+      "num_input_tokens_seen": 148711800,
+      "step": 4230
+    },
+    {
+      "epoch": 0.34204323438583223,
+      "grad_norm": 0.26079222559928894,
+      "learning_rate": 3e-05,
+      "loss": 1.4763,
+      "num_input_tokens_seen": 149072140,
+      "step": 4240
+    },
+    {
+      "epoch": 0.34284994012730824,
+      "grad_norm": 0.29420602321624756,
+      "learning_rate": 3e-05,
+      "loss": 1.4634,
+      "num_input_tokens_seen": 149418364,
+      "step": 4250
+    },
+    {
+      "epoch": 0.34365664586878425,
+      "grad_norm": 0.2780504524707794,
+      "learning_rate": 3e-05,
+      "loss": 1.4612,
+      "num_input_tokens_seen": 149776088,
+      "step": 4260
+    },
+    {
+      "epoch": 0.3444633516102603,
+      "grad_norm": 0.308002769947052,
+      "learning_rate": 3e-05,
+      "loss": 1.4388,
+      "num_input_tokens_seen": 150144108,
+      "step": 4270
+    },
+    {
+      "epoch": 0.3452700573517363,
+      "grad_norm": 0.33135300874710083,
+      "learning_rate": 3e-05,
+      "loss": 1.4682,
+      "num_input_tokens_seen": 150494172,
+      "step": 4280
+    },
+    {
+      "epoch": 0.34607676309321234,
+      "grad_norm": 0.2844593822956085,
+      "learning_rate": 3e-05,
+      "loss": 1.5251,
+      "num_input_tokens_seen": 150828560,
+      "step": 4290
+    },
+    {
+      "epoch": 0.34688346883468835,
+      "grad_norm": 0.3216274082660675,
+      "learning_rate": 3e-05,
+      "loss": 1.5058,
+      "num_input_tokens_seen": 151201392,
+      "step": 4300
+    },
+    {
+      "epoch": 0.34769017457616436,
+      "grad_norm": 0.27584394812583923,
+      "learning_rate": 3e-05,
+      "loss": 1.4839,
+      "num_input_tokens_seen": 151566364,
+      "step": 4310
+    },
+    {
+      "epoch": 0.34849688031764037,
+      "grad_norm": 0.2775894105434418,
+      "learning_rate": 3e-05,
+      "loss": 1.4803,
+      "num_input_tokens_seen": 151904260,
+      "step": 4320
+    },
+    {
+      "epoch": 0.3493035860591164,
+      "grad_norm": 0.30853790044784546,
+      "learning_rate": 3e-05,
+      "loss": 1.4654,
+      "num_input_tokens_seen": 152247804,
+      "step": 4330
+    },
+    {
+      "epoch": 0.35011029180059244,
+      "grad_norm": 0.2662428617477417,
+      "learning_rate": 3e-05,
+      "loss": 1.4837,
+      "num_input_tokens_seen": 152605848,
+      "step": 4340
+    },
+    {
+      "epoch": 0.35091699754206845,
+      "grad_norm": 0.296486496925354,
+      "learning_rate": 3e-05,
+      "loss": 1.4151,
+      "num_input_tokens_seen": 152927008,
+      "step": 4350
+    },
+    {
+      "epoch": 0.35172370328354446,
+      "grad_norm": 0.314229279756546,
+      "learning_rate": 3e-05,
+      "loss": 1.4944,
+      "num_input_tokens_seen": 153271476,
+      "step": 4360
+    },
+    {
+      "epoch": 0.3525304090250205,
+      "grad_norm": 0.25222501158714294,
+      "learning_rate": 3e-05,
+      "loss": 1.5215,
+      "num_input_tokens_seen": 153595852,
+      "step": 4370
+    },
+    {
+      "epoch": 0.3533371147664965,
+      "grad_norm": 0.3103020489215851,
+      "learning_rate": 3e-05,
+      "loss": 1.4244,
+      "num_input_tokens_seen": 153933224,
+      "step": 4380
+    },
+    {
+      "epoch": 0.3541438205079725,
+      "grad_norm": 0.28948068618774414,
+      "learning_rate": 3e-05,
+      "loss": 1.4395,
+      "num_input_tokens_seen": 154243172,
+      "step": 4390
+    },
+    {
+      "epoch": 0.35495052624944856,
+      "grad_norm": 0.2793199419975281,
+      "learning_rate": 3e-05,
+      "loss": 1.4541,
+      "num_input_tokens_seen": 154589252,
+      "step": 4400
+    },
+    {
+      "epoch": 0.35575723199092457,
+      "grad_norm": 0.2927285432815552,
+      "learning_rate": 3e-05,
+      "loss": 1.4764,
+      "num_input_tokens_seen": 154948944,
+      "step": 4410
+    },
+    {
+      "epoch": 0.3565639377324006,
+      "grad_norm": 0.2556557059288025,
+      "learning_rate": 3e-05,
+      "loss": 1.4135,
+      "num_input_tokens_seen": 155298440,
+      "step": 4420
+    },
+    {
+      "epoch": 0.3573706434738766,
+      "grad_norm": 0.28829360008239746,
+      "learning_rate": 3e-05,
+      "loss": 1.4656,
+      "num_input_tokens_seen": 155686288,
+      "step": 4430
+    },
+    {
+      "epoch": 0.3581773492153526,
+      "grad_norm": 0.29673314094543457,
+      "learning_rate": 3e-05,
+      "loss": 1.3826,
+      "num_input_tokens_seen": 156031180,
+      "step": 4440
+    },
+    {
+      "epoch": 0.3589840549568286,
+      "grad_norm": 0.2608402371406555,
+      "learning_rate": 3e-05,
+      "loss": 1.4831,
+      "num_input_tokens_seen": 156361652,
+      "step": 4450
+    },
+    {
+      "epoch": 0.3597907606983047,
+      "grad_norm": 0.2800503075122833,
+      "learning_rate": 3e-05,
+      "loss": 1.4343,
+      "num_input_tokens_seen": 156701024,
+      "step": 4460
+    },
+    {
+      "epoch": 0.3605974664397807,
+      "grad_norm": 0.28234806656837463,
+      "learning_rate": 3e-05,
+      "loss": 1.4798,
+      "num_input_tokens_seen": 157070896,
+      "step": 4470
+    },
+    {
+      "epoch": 0.3614041721812567,
+      "grad_norm": 0.27914923429489136,
+      "learning_rate": 3e-05,
+      "loss": 1.4497,
+      "num_input_tokens_seen": 157420460,
+      "step": 4480
+    },
+    {
+      "epoch": 0.3622108779227327,
+      "grad_norm": 0.2710079550743103,
+      "learning_rate": 3e-05,
+      "loss": 1.4706,
+      "num_input_tokens_seen": 157779212,
+      "step": 4490
+    },
+    {
+      "epoch": 0.3630175836642087,
+      "grad_norm": 0.28353649377822876,
+      "learning_rate": 3e-05,
+      "loss": 1.4075,
+      "num_input_tokens_seen": 158084872,
+      "step": 4500
+    },
+    {
+      "epoch": 0.36382428940568473,
+      "grad_norm": 0.28383737802505493,
+      "learning_rate": 3e-05,
+      "loss": 1.4363,
+      "num_input_tokens_seen": 158417664,
+      "step": 4510
+    },
+    {
+      "epoch": 0.3646309951471608,
+      "grad_norm": 0.27592507004737854,
+      "learning_rate": 3e-05,
+      "loss": 1.4278,
+      "num_input_tokens_seen": 158733056,
+      "step": 4520
+    },
+    {
+      "epoch": 0.3654377008886368,
+      "grad_norm": 0.26034659147262573,
+      "learning_rate": 3e-05,
+      "loss": 1.4583,
+      "num_input_tokens_seen": 159062868,
+      "step": 4530
+    },
+    {
+      "epoch": 0.3662444066301128,
+      "grad_norm": 0.26085537672042847,
+      "learning_rate": 3e-05,
+      "loss": 1.4116,
+      "num_input_tokens_seen": 159421052,
+      "step": 4540
+    },
+    {
+      "epoch": 0.36705111237158883,
+      "grad_norm": 0.26964882016181946,
+      "learning_rate": 3e-05,
+      "loss": 1.4616,
+      "num_input_tokens_seen": 159782660,
+      "step": 4550
+    },
+    {
+      "epoch": 0.36785781811306484,
+      "grad_norm": 0.28062888979911804,
+      "learning_rate": 3e-05,
+      "loss": 1.4085,
+      "num_input_tokens_seen": 160124688,
+      "step": 4560
+    },
+    {
+      "epoch": 0.36866452385454085,
+      "grad_norm": 0.2562553286552429,
+      "learning_rate": 3e-05,
+      "loss": 1.4625,
+      "num_input_tokens_seen": 160513904,
+      "step": 4570
+    },
+    {
+      "epoch": 0.3694712295960169,
+      "grad_norm": 0.29400065541267395,
+      "learning_rate": 3e-05,
+      "loss": 1.442,
+      "num_input_tokens_seen": 160867220,
+      "step": 4580
+    },
+    {
+      "epoch": 0.3702779353374929,
+      "grad_norm": 0.2740069627761841,
+      "learning_rate": 3e-05,
+      "loss": 1.4217,
+      "num_input_tokens_seen": 161238568,
+      "step": 4590
+    },
+    {
+      "epoch": 0.37108464107896894,
+      "grad_norm": 0.28682824969291687,
+      "learning_rate": 3e-05,
+      "loss": 1.492,
+      "num_input_tokens_seen": 161589304,
+      "step": 4600
+    },
+    {
+      "epoch": 0.37189134682044495,
+      "grad_norm": 0.2908526360988617,
+      "learning_rate": 3e-05,
+      "loss": 1.4742,
+      "num_input_tokens_seen": 161970132,
+      "step": 4610
+    },
+    {
+      "epoch": 0.37269805256192096,
+      "grad_norm": 0.2921622097492218,
+      "learning_rate": 3e-05,
+      "loss": 1.4761,
+      "num_input_tokens_seen": 162320336,
+      "step": 4620
+    },
+    {
+      "epoch": 0.37350475830339697,
+      "grad_norm": 0.3282817304134369,
+      "learning_rate": 3e-05,
+      "loss": 1.4517,
+      "num_input_tokens_seen": 162665048,
+      "step": 4630
+    },
+    {
+      "epoch": 0.37431146404487303,
+      "grad_norm": 0.27311021089553833,
+      "learning_rate": 3e-05,
+      "loss": 1.4484,
+      "num_input_tokens_seen": 163011772,
+      "step": 4640
+    },
+    {
+      "epoch": 0.37511816978634904,
+      "grad_norm": 0.24732042849063873,
+      "learning_rate": 3e-05,
+      "loss": 1.4262,
+      "num_input_tokens_seen": 163366004,
+      "step": 4650
+    },
+    {
+      "epoch": 0.37592487552782505,
+      "grad_norm": 0.3375225365161896,
+      "learning_rate": 3e-05,
+      "loss": 1.4143,
+      "num_input_tokens_seen": 163695340,
+      "step": 4660
+    },
+    {
+      "epoch": 0.37673158126930106,
+      "grad_norm": 0.2611980140209198,
+      "learning_rate": 3e-05,
+      "loss": 1.4367,
+      "num_input_tokens_seen": 164050628,
+      "step": 4670
+    },
+    {
+      "epoch": 0.3775382870107771,
+      "grad_norm": 0.30901384353637695,
+      "learning_rate": 3e-05,
+      "loss": 1.458,
+      "num_input_tokens_seen": 164403700,
+      "step": 4680
+    },
+    {
+      "epoch": 0.3783449927522531,
+      "grad_norm": 0.29676762223243713,
+      "learning_rate": 3e-05,
+      "loss": 1.4785,
+      "num_input_tokens_seen": 164749396,
+      "step": 4690
+    },
+    {
+      "epoch": 0.37915169849372915,
+      "grad_norm": 0.29146572947502136,
+      "learning_rate": 3e-05,
+      "loss": 1.434,
+      "num_input_tokens_seen": 165076256,
+      "step": 4700
+    },
+    {
+      "epoch": 0.37995840423520516,
+      "grad_norm": 0.35839927196502686,
+      "learning_rate": 3e-05,
+      "loss": 1.4647,
+      "num_input_tokens_seen": 165424992,
+      "step": 4710
+    },
+    {
+      "epoch": 0.38076510997668117,
+      "grad_norm": 0.2916266620159149,
+      "learning_rate": 3e-05,
+      "loss": 1.4701,
+      "num_input_tokens_seen": 165764352,
+      "step": 4720
+    },
+    {
+      "epoch": 0.3815718157181572,
+      "grad_norm": 0.2933688163757324,
+      "learning_rate": 3e-05,
+      "loss": 1.4398,
+      "num_input_tokens_seen": 166097368,
+      "step": 4730
+    },
+    {
+      "epoch": 0.3823785214596332,
+      "grad_norm": 0.2589133679866791,
+      "learning_rate": 3e-05,
+      "loss": 1.4017,
+      "num_input_tokens_seen": 166468532,
+      "step": 4740
+    },
+    {
+      "epoch": 0.3831852272011092,
+      "grad_norm": 0.3302017152309418,
+      "learning_rate": 3e-05,
+      "loss": 1.4082,
+      "num_input_tokens_seen": 166819988,
+      "step": 4750
+    },
+    {
+      "epoch": 0.3839919329425852,
+      "grad_norm": 0.2915537655353546,
+      "learning_rate": 3e-05,
+      "loss": 1.4585,
+      "num_input_tokens_seen": 167157084,
+      "step": 4760
+    },
+    {
+      "epoch": 0.3847986386840613,
+      "grad_norm": 0.29807379841804504,
+      "learning_rate": 3e-05,
+      "loss": 1.4276,
+      "num_input_tokens_seen": 167524544,
+      "step": 4770
+    },
+    {
+      "epoch": 0.3856053444255373,
+      "grad_norm": 0.28128594160079956,
+      "learning_rate": 3e-05,
+      "loss": 1.471,
+      "num_input_tokens_seen": 167853064,
+      "step": 4780
+    },
+    {
+      "epoch": 0.3864120501670133,
+      "grad_norm": 0.2917296886444092,
+      "learning_rate": 3e-05,
+      "loss": 1.4871,
+      "num_input_tokens_seen": 168220760,
+      "step": 4790
+    },
+    {
+      "epoch": 0.3872187559084893,
+      "grad_norm": 0.2948204576969147,
+      "learning_rate": 3e-05,
+      "loss": 1.443,
+      "num_input_tokens_seen": 168551420,
+      "step": 4800
+    },
+    {
+      "epoch": 0.3880254616499653,
+      "grad_norm": 0.2919817268848419,
+      "learning_rate": 3e-05,
+      "loss": 1.4142,
+      "num_input_tokens_seen": 168903208,
+      "step": 4810
+    },
+    {
+      "epoch": 0.38883216739144133,
+      "grad_norm": 0.28495824337005615,
+      "learning_rate": 3e-05,
+      "loss": 1.4491,
+      "num_input_tokens_seen": 169259372,
+      "step": 4820
+    },
+    {
+      "epoch": 0.3896388731329174,
+      "grad_norm": 0.28058505058288574,
+      "learning_rate": 3e-05,
+      "loss": 1.439,
+      "num_input_tokens_seen": 169603980,
+      "step": 4830
+    },
+    {
+      "epoch": 0.3904455788743934,
+      "grad_norm": 0.27780622243881226,
+      "learning_rate": 3e-05,
+      "loss": 1.4333,
+      "num_input_tokens_seen": 169969336,
+      "step": 4840
+    },
+    {
+      "epoch": 0.3912522846158694,
+      "grad_norm": 0.28063181042671204,
+      "learning_rate": 3e-05,
+      "loss": 1.4642,
+      "num_input_tokens_seen": 170331728,
+      "step": 4850
+    },
+    {
+      "epoch": 0.3920589903573454,
+      "grad_norm": 0.2832536995410919,
+      "learning_rate": 3e-05,
+      "loss": 1.4097,
+      "num_input_tokens_seen": 170698136,
+      "step": 4860
+    },
+    {
+      "epoch": 0.39286569609882144,
+      "grad_norm": 0.31159868836402893,
+      "learning_rate": 3e-05,
+      "loss": 1.4248,
+      "num_input_tokens_seen": 171051356,
+      "step": 4870
+    },
+    {
+      "epoch": 0.39367240184029745,
+      "grad_norm": 0.3231009244918823,
+      "learning_rate": 3e-05,
+      "loss": 1.424,
+      "num_input_tokens_seen": 171411700,
+      "step": 4880
+    },
+    {
+      "epoch": 0.3944791075817735,
+      "grad_norm": 0.3507569432258606,
+      "learning_rate": 3e-05,
+      "loss": 1.4611,
+      "num_input_tokens_seen": 171780536,
+      "step": 4890
+    },
+    {
+      "epoch": 0.3952858133232495,
+      "grad_norm": 0.2700771391391754,
+      "learning_rate": 3e-05,
+      "loss": 1.4234,
+      "num_input_tokens_seen": 172139560,
+      "step": 4900
+    },
+    {
+      "epoch": 0.39609251906472553,
+      "grad_norm": 0.28461360931396484,
+      "learning_rate": 3e-05,
+      "loss": 1.4077,
+      "num_input_tokens_seen": 172461924,
+      "step": 4910
+    },
+    {
+      "epoch": 0.39689922480620154,
+      "grad_norm": 0.2726331353187561,
+      "learning_rate": 3e-05,
+      "loss": 1.4361,
+      "num_input_tokens_seen": 172822620,
+      "step": 4920
+    },
+    {
+      "epoch": 0.39770593054767756,
+      "grad_norm": 0.266812264919281,
+      "learning_rate": 3e-05,
+      "loss": 1.4222,
+      "num_input_tokens_seen": 173165692,
+      "step": 4930
+    },
+    {
+      "epoch": 0.39851263628915357,
+      "grad_norm": 0.31729623675346375,
+      "learning_rate": 3e-05,
+      "loss": 1.4395,
+      "num_input_tokens_seen": 173514872,
+      "step": 4940
+    },
+    {
+      "epoch": 0.39931934203062963,
+      "grad_norm": 0.2758219838142395,
+      "learning_rate": 3e-05,
+      "loss": 1.462,
+      "num_input_tokens_seen": 173870404,
+      "step": 4950
+    },
+    {
+      "epoch": 0.40012604777210564,
+      "grad_norm": 0.2920880615711212,
+      "learning_rate": 3e-05,
+      "loss": 1.4334,
+      "num_input_tokens_seen": 174254056,
+      "step": 4960
+    },
+    {
+      "epoch": 0.40093275351358165,
+      "grad_norm": 0.2842954397201538,
+      "learning_rate": 3e-05,
+      "loss": 1.4819,
+      "num_input_tokens_seen": 174603984,
+      "step": 4970
+    },
+    {
+      "epoch": 0.40173945925505766,
+      "grad_norm": 0.27924880385398865,
+      "learning_rate": 3e-05,
+      "loss": 1.4149,
+      "num_input_tokens_seen": 174952904,
+      "step": 4980
+    },
+    {
+      "epoch": 0.4025461649965337,
+      "grad_norm": 0.28720763325691223,
+      "learning_rate": 3e-05,
+      "loss": 1.4737,
+      "num_input_tokens_seen": 175315668,
+      "step": 4990
+    },
+    {
+      "epoch": 0.4033528707380097,
+      "grad_norm": 0.3302316963672638,
+      "learning_rate": 3e-05,
+      "loss": 1.4346,
+      "num_input_tokens_seen": 175639924,
+      "step": 5000
+    },
+    {
+      "epoch": 0.4033528707380097,
+      "eval_gen_len": 494.68,
+      "eval_loss": 1.363584041595459,
+      "eval_rouge1": 34.4104,
+      "eval_rouge2": 19.4149,
+      "eval_rougeL": 28.1022,
+      "eval_rougeLsum": 32.7299,
+      "eval_runtime": 1479.8136,
+      "eval_samples_per_second": 0.135,
+      "eval_steps_per_second": 0.034,
+      "num_input_tokens_seen": 175639924,
+      "step": 5000
+    },
+    {
+      "epoch": 0.40415957647948575,
+      "grad_norm": 0.264972060918808,
+      "learning_rate": 3e-05,
+      "loss": 1.3869,
+      "num_input_tokens_seen": 175981392,
+      "step": 5010
+    },
+    {
+      "epoch": 0.40496628222096176,
+      "grad_norm": 0.2692941129207611,
+      "learning_rate": 3e-05,
+      "loss": 1.4391,
+      "num_input_tokens_seen": 176323964,
+      "step": 5020
+    },
+    {
+      "epoch": 0.40577298796243777,
+      "grad_norm": 0.31324198842048645,
+      "learning_rate": 3e-05,
+      "loss": 1.3911,
+      "num_input_tokens_seen": 176687880,
+      "step": 5030
+    },
+    {
+      "epoch": 0.4065796937039138,
+      "grad_norm": 0.2583986222743988,
+      "learning_rate": 3e-05,
+      "loss": 1.4258,
+      "num_input_tokens_seen": 177024336,
+      "step": 5040
+    },
+    {
+      "epoch": 0.4073863994453898,
+      "grad_norm": 0.2632867693901062,
+      "learning_rate": 3e-05,
+      "loss": 1.4099,
+      "num_input_tokens_seen": 177365432,
+      "step": 5050
+    },
+    {
+      "epoch": 0.4081931051868658,
+      "grad_norm": 0.2581656277179718,
+      "learning_rate": 3e-05,
+      "loss": 1.3863,
+      "num_input_tokens_seen": 177721268,
+      "step": 5060
+    },
+    {
+      "epoch": 0.40899981092834187,
+      "grad_norm": 0.256698340177536,
+      "learning_rate": 3e-05,
+      "loss": 1.445,
+      "num_input_tokens_seen": 178061116,
+      "step": 5070
+    },
+    {
+      "epoch": 0.4098065166698179,
+      "grad_norm": 0.2994880974292755,
+      "learning_rate": 3e-05,
+      "loss": 1.4639,
+      "num_input_tokens_seen": 178375268,
+      "step": 5080
+    },
+    {
+      "epoch": 0.4106132224112939,
+      "grad_norm": 0.3011598587036133,
+      "learning_rate": 3e-05,
+      "loss": 1.4544,
+      "num_input_tokens_seen": 178693356,
+      "step": 5090
+    },
+    {
+      "epoch": 0.4114199281527699,
+      "grad_norm": 0.3107489049434662,
+      "learning_rate": 3e-05,
+      "loss": 1.4446,
+      "num_input_tokens_seen": 179028016,
+      "step": 5100
+    },
+    {
+      "epoch": 0.4122266338942459,
+      "grad_norm": 0.28605297207832336,
+      "learning_rate": 3e-05,
+      "loss": 1.394,
+      "num_input_tokens_seen": 179372364,
+      "step": 5110
+    },
+    {
+      "epoch": 0.4130333396357219,
+      "grad_norm": 0.29272472858428955,
+      "learning_rate": 3e-05,
+      "loss": 1.4559,
+      "num_input_tokens_seen": 179698216,
+      "step": 5120
+    },
+    {
+      "epoch": 0.413840045377198,
+      "grad_norm": 0.2901201546192169,
+      "learning_rate": 3e-05,
+      "loss": 1.4222,
+      "num_input_tokens_seen": 180049712,
+      "step": 5130
+    },
+    {
+      "epoch": 0.414646751118674,
+      "grad_norm": 0.3165605664253235,
+      "learning_rate": 3e-05,
+      "loss": 1.4017,
+      "num_input_tokens_seen": 180424368,
+      "step": 5140
+    },
+    {
+      "epoch": 0.41545345686015,
+      "grad_norm": 0.26698291301727295,
+      "learning_rate": 3e-05,
+      "loss": 1.427,
+      "num_input_tokens_seen": 180756776,
+      "step": 5150
+    },
+    {
+      "epoch": 0.416260162601626,
+      "grad_norm": 0.2778262197971344,
+      "learning_rate": 3e-05,
+      "loss": 1.4343,
+      "num_input_tokens_seen": 181094316,
+      "step": 5160
+    },
+    {
+      "epoch": 0.417066868343102,
+      "grad_norm": 0.3387869894504547,
+      "learning_rate": 3e-05,
+      "loss": 1.4165,
+      "num_input_tokens_seen": 181454460,
+      "step": 5170
+    },
+    {
+      "epoch": 0.41787357408457804,
+      "grad_norm": 0.2814273238182068,
+      "learning_rate": 3e-05,
+      "loss": 1.4512,
+      "num_input_tokens_seen": 181811144,
+      "step": 5180
+    },
+    {
+      "epoch": 0.41868027982605405,
+      "grad_norm": 0.28893864154815674,
+      "learning_rate": 3e-05,
+      "loss": 1.412,
+      "num_input_tokens_seen": 182202380,
+      "step": 5190
+    },
+    {
+      "epoch": 0.4194869855675301,
+      "grad_norm": 0.2955783009529114,
+      "learning_rate": 3e-05,
+      "loss": 1.4187,
+      "num_input_tokens_seen": 182566948,
+      "step": 5200
+    },
+    {
+      "epoch": 0.4202936913090061,
+      "grad_norm": 0.2692851722240448,
+      "learning_rate": 3e-05,
+      "loss": 1.4056,
+      "num_input_tokens_seen": 182920912,
+      "step": 5210
+    },
+    {
+      "epoch": 0.42110039705048213,
+      "grad_norm": 0.28022801876068115,
+      "learning_rate": 3e-05,
+      "loss": 1.3988,
+      "num_input_tokens_seen": 183271764,
+      "step": 5220
+    },
+    {
+      "epoch": 0.42190710279195814,
+      "grad_norm": 0.31612420082092285,
+      "learning_rate": 3e-05,
+      "loss": 1.4269,
+      "num_input_tokens_seen": 183617064,
+      "step": 5230
+    },
+    {
+      "epoch": 0.42271380853343415,
+      "grad_norm": 0.2966879904270172,
+      "learning_rate": 3e-05,
+      "loss": 1.3826,
+      "num_input_tokens_seen": 183961216,
+      "step": 5240
+    },
+    {
+      "epoch": 0.42352051427491016,
+      "grad_norm": 0.31079381704330444,
+      "learning_rate": 3e-05,
+      "loss": 1.3818,
+      "num_input_tokens_seen": 184308792,
+      "step": 5250
+    },
+    {
+      "epoch": 0.42432722001638623,
+      "grad_norm": 0.28356415033340454,
+      "learning_rate": 3e-05,
+      "loss": 1.4443,
+      "num_input_tokens_seen": 184652412,
+      "step": 5260
+    },
+    {
+      "epoch": 0.42513392575786224,
+      "grad_norm": 0.2671275734901428,
+      "learning_rate": 3e-05,
+      "loss": 1.4097,
+      "num_input_tokens_seen": 185005656,
+      "step": 5270
+    },
+    {
+      "epoch": 0.42594063149933825,
+      "grad_norm": 0.3049359917640686,
+      "learning_rate": 3e-05,
+      "loss": 1.3983,
+      "num_input_tokens_seen": 185364004,
+      "step": 5280
+    },
+    {
+      "epoch": 0.42674733724081426,
+      "grad_norm": 0.26577872037887573,
+      "learning_rate": 3e-05,
+      "loss": 1.4389,
+      "num_input_tokens_seen": 185721984,
+      "step": 5290
+    },
+    {
+      "epoch": 0.42755404298229027,
+      "grad_norm": 0.27239790558815,
+      "learning_rate": 3e-05,
+      "loss": 1.4502,
+      "num_input_tokens_seen": 186059416,
+      "step": 5300
+    },
+    {
+      "epoch": 0.4283607487237663,
+      "grad_norm": 0.30805954337120056,
+      "learning_rate": 3e-05,
+      "loss": 1.4108,
+      "num_input_tokens_seen": 186400908,
+      "step": 5310
+    },
+    {
+      "epoch": 0.42916745446524235,
+      "grad_norm": 0.27232635021209717,
+      "learning_rate": 3e-05,
+      "loss": 1.3694,
+      "num_input_tokens_seen": 186757120,
+      "step": 5320
+    },
+    {
+      "epoch": 0.42997416020671836,
+      "grad_norm": 0.30555519461631775,
+      "learning_rate": 3e-05,
+      "loss": 1.3979,
+      "num_input_tokens_seen": 187084720,
+      "step": 5330
+    },
+    {
+      "epoch": 0.43078086594819437,
+      "grad_norm": 0.2889952063560486,
+      "learning_rate": 3e-05,
+      "loss": 1.3979,
+      "num_input_tokens_seen": 187430864,
+      "step": 5340
+    },
+    {
+      "epoch": 0.4315875716896704,
+      "grad_norm": 0.28782588243484497,
+      "learning_rate": 3e-05,
+      "loss": 1.4026,
+      "num_input_tokens_seen": 187772016,
+      "step": 5350
+    },
+    {
+      "epoch": 0.4323942774311464,
+      "grad_norm": 0.25100380182266235,
+      "learning_rate": 3e-05,
+      "loss": 1.3516,
+      "num_input_tokens_seen": 188123096,
+      "step": 5360
+    },
+    {
+      "epoch": 0.4332009831726224,
+      "grad_norm": 0.2925686240196228,
+      "learning_rate": 3e-05,
+      "loss": 1.4206,
+      "num_input_tokens_seen": 188491824,
+      "step": 5370
+    },
+    {
+      "epoch": 0.43400768891409847,
+      "grad_norm": 0.27262914180755615,
+      "learning_rate": 3e-05,
+      "loss": 1.4259,
+      "num_input_tokens_seen": 188838176,
+      "step": 5380
+    },
+    {
+      "epoch": 0.4348143946555745,
+      "grad_norm": 0.2965831458568573,
+      "learning_rate": 3e-05,
+      "loss": 1.4348,
+      "num_input_tokens_seen": 189176428,
+      "step": 5390
+    },
+    {
+      "epoch": 0.4356211003970505,
+      "grad_norm": 0.29133981466293335,
+      "learning_rate": 3e-05,
+      "loss": 1.41,
+      "num_input_tokens_seen": 189532172,
+      "step": 5400
+    },
+    {
+      "epoch": 0.4364278061385265,
+      "grad_norm": 0.2646975815296173,
+      "learning_rate": 3e-05,
+      "loss": 1.4505,
+      "num_input_tokens_seen": 189883400,
+      "step": 5410
+    },
+    {
+      "epoch": 0.4372345118800025,
+      "grad_norm": 0.2631090581417084,
+      "learning_rate": 3e-05,
+      "loss": 1.3669,
+      "num_input_tokens_seen": 190248452,
+      "step": 5420
+    },
+    {
+      "epoch": 0.4380412176214785,
+      "grad_norm": 0.2600938379764557,
+      "learning_rate": 3e-05,
+      "loss": 1.3874,
+      "num_input_tokens_seen": 190583324,
+      "step": 5430
+    },
+    {
+      "epoch": 0.4388479233629546,
+      "grad_norm": 0.2651340663433075,
+      "learning_rate": 3e-05,
+      "loss": 1.4112,
+      "num_input_tokens_seen": 190932528,
+      "step": 5440
+    },
+    {
+      "epoch": 0.4396546291044306,
+      "grad_norm": 0.2757515609264374,
+      "learning_rate": 3e-05,
+      "loss": 1.4233,
+      "num_input_tokens_seen": 191266632,
+      "step": 5450
+    },
+    {
+      "epoch": 0.4404613348459066,
+      "grad_norm": 0.3117634057998657,
+      "learning_rate": 3e-05,
+      "loss": 1.3617,
+      "num_input_tokens_seen": 191594048,
+      "step": 5460
+    },
+    {
+      "epoch": 0.4412680405873826,
+      "grad_norm": 0.27428796887397766,
+      "learning_rate": 3e-05,
+      "loss": 1.3699,
+      "num_input_tokens_seen": 191959780,
+      "step": 5470
+    },
+    {
+      "epoch": 0.4420747463288586,
+      "grad_norm": 0.2628273367881775,
+      "learning_rate": 3e-05,
+      "loss": 1.4274,
+      "num_input_tokens_seen": 192275380,
+      "step": 5480
+    },
+    {
+      "epoch": 0.44288145207033464,
+      "grad_norm": 0.26145341992378235,
+      "learning_rate": 3e-05,
+      "loss": 1.4375,
+      "num_input_tokens_seen": 192635040,
+      "step": 5490
+    },
+    {
+      "epoch": 0.4436881578118107,
+      "grad_norm": 0.2731001675128937,
+      "learning_rate": 3e-05,
+      "loss": 1.4172,
+      "num_input_tokens_seen": 192991412,
+      "step": 5500
+    },
+    {
+      "epoch": 0.4444948635532867,
+      "grad_norm": 0.2722030282020569,
+      "learning_rate": 3e-05,
+      "loss": 1.3866,
+      "num_input_tokens_seen": 193320880,
+      "step": 5510
+    },
+    {
+      "epoch": 0.4453015692947627,
+      "grad_norm": 0.29632169008255005,
+      "learning_rate": 3e-05,
+      "loss": 1.447,
+      "num_input_tokens_seen": 193669744,
+      "step": 5520
+    },
+    {
+      "epoch": 0.44610827503623873,
+      "grad_norm": 0.28086063265800476,
+      "learning_rate": 3e-05,
+      "loss": 1.4636,
+      "num_input_tokens_seen": 194026876,
+      "step": 5530
+    },
+    {
+      "epoch": 0.44691498077771474,
+      "grad_norm": 0.29540812969207764,
+      "learning_rate": 3e-05,
+      "loss": 1.3922,
+      "num_input_tokens_seen": 194367412,
+      "step": 5540
+    },
+    {
+      "epoch": 0.44772168651919075,
+      "grad_norm": 0.2671002447605133,
+      "learning_rate": 3e-05,
+      "loss": 1.4226,
+      "num_input_tokens_seen": 194713016,
+      "step": 5550
+    },
+    {
+      "epoch": 0.4485283922606668,
+      "grad_norm": 0.2889344394207001,
+      "learning_rate": 3e-05,
+      "loss": 1.4291,
+      "num_input_tokens_seen": 195084592,
+      "step": 5560
+    },
+    {
+      "epoch": 0.44933509800214283,
+      "grad_norm": 0.28490033745765686,
+      "learning_rate": 3e-05,
+      "loss": 1.3612,
+      "num_input_tokens_seen": 195367436,
+      "step": 5570
+    },
+    {
+      "epoch": 0.45014180374361884,
+      "grad_norm": 0.25098714232444763,
+      "learning_rate": 3e-05,
+      "loss": 1.4348,
+      "num_input_tokens_seen": 195724988,
+      "step": 5580
+    },
+    {
+      "epoch": 0.45094850948509485,
+      "grad_norm": 0.28072845935821533,
+      "learning_rate": 3e-05,
+      "loss": 1.4031,
+      "num_input_tokens_seen": 196114160,
+      "step": 5590
+    },
+    {
+      "epoch": 0.45175521522657086,
+      "grad_norm": 0.26970839500427246,
+      "learning_rate": 3e-05,
+      "loss": 1.3853,
+      "num_input_tokens_seen": 196463832,
+      "step": 5600
+    },
+    {
+      "epoch": 0.45256192096804687,
+      "grad_norm": 0.2835977375507355,
+      "learning_rate": 3e-05,
+      "loss": 1.4153,
+      "num_input_tokens_seen": 196815808,
+      "step": 5610
+    },
+    {
+      "epoch": 0.4533686267095229,
+      "grad_norm": 0.3386438190937042,
+      "learning_rate": 3e-05,
+      "loss": 1.363,
+      "num_input_tokens_seen": 197182716,
+      "step": 5620
+    },
+    {
+      "epoch": 0.45417533245099895,
+      "grad_norm": 0.2961023449897766,
+      "learning_rate": 3e-05,
+      "loss": 1.4127,
+      "num_input_tokens_seen": 197526772,
+      "step": 5630
+    },
+    {
+      "epoch": 0.45498203819247496,
+      "grad_norm": 0.29476794600486755,
+      "learning_rate": 3e-05,
+      "loss": 1.4113,
+      "num_input_tokens_seen": 197878328,
+      "step": 5640
+    },
+    {
+      "epoch": 0.45578874393395097,
+      "grad_norm": 0.305695503950119,
+      "learning_rate": 3e-05,
+      "loss": 1.4272,
+      "num_input_tokens_seen": 198239360,
+      "step": 5650
+    },
+    {
+      "epoch": 0.456595449675427,
+      "grad_norm": 0.2787207365036011,
+      "learning_rate": 3e-05,
+      "loss": 1.4079,
+      "num_input_tokens_seen": 198581888,
+      "step": 5660
+    },
+    {
+      "epoch": 0.457402155416903,
+      "grad_norm": 0.2544805705547333,
+      "learning_rate": 3e-05,
+      "loss": 1.372,
+      "num_input_tokens_seen": 198930636,
+      "step": 5670
+    },
+    {
+      "epoch": 0.458208861158379,
+      "grad_norm": 0.2546211779117584,
+      "learning_rate": 3e-05,
+      "loss": 1.3958,
+      "num_input_tokens_seen": 199280792,
+      "step": 5680
+    },
+    {
+      "epoch": 0.45901556689985507,
+      "grad_norm": 0.2609899938106537,
+      "learning_rate": 3e-05,
+      "loss": 1.4331,
+      "num_input_tokens_seen": 199631024,
+      "step": 5690
+    },
+    {
+      "epoch": 0.4598222726413311,
+      "grad_norm": 0.2949337363243103,
+      "learning_rate": 3e-05,
+      "loss": 1.4179,
+      "num_input_tokens_seen": 199979964,
+      "step": 5700
+    },
+    {
+      "epoch": 0.4606289783828071,
+      "grad_norm": 0.2916325032711029,
+      "learning_rate": 3e-05,
+      "loss": 1.4107,
+      "num_input_tokens_seen": 200317260,
+      "step": 5710
+    },
+    {
+      "epoch": 0.4614356841242831,
+      "grad_norm": 0.2985553741455078,
+      "learning_rate": 3e-05,
+      "loss": 1.3435,
+      "num_input_tokens_seen": 200706164,
+      "step": 5720
+    },
+    {
+      "epoch": 0.4622423898657591,
+      "grad_norm": 0.29759296774864197,
+      "learning_rate": 3e-05,
+      "loss": 1.3962,
+      "num_input_tokens_seen": 201041936,
+      "step": 5730
+    },
+    {
+      "epoch": 0.4630490956072351,
+      "grad_norm": 0.2666504383087158,
+      "learning_rate": 3e-05,
+      "loss": 1.3736,
+      "num_input_tokens_seen": 201384532,
+      "step": 5740
+    },
+    {
+      "epoch": 0.4638558013487112,
+      "grad_norm": 0.2790429890155792,
+      "learning_rate": 3e-05,
+      "loss": 1.3505,
+      "num_input_tokens_seen": 201732544,
+      "step": 5750
+    },
+    {
+      "epoch": 0.4646625070901872,
+      "grad_norm": 0.27765849232673645,
+      "learning_rate": 3e-05,
+      "loss": 1.4432,
+      "num_input_tokens_seen": 202072132,
+      "step": 5760
+    },
+    {
+      "epoch": 0.4654692128316632,
+      "grad_norm": 0.27785608172416687,
+      "learning_rate": 3e-05,
+      "loss": 1.4137,
+      "num_input_tokens_seen": 202425292,
+      "step": 5770
+    },
+    {
+      "epoch": 0.4662759185731392,
+      "grad_norm": 0.3008098900318146,
+      "learning_rate": 3e-05,
+      "loss": 1.3844,
+      "num_input_tokens_seen": 202754488,
+      "step": 5780
+    },
+    {
+      "epoch": 0.4670826243146152,
+      "grad_norm": 0.2869485318660736,
+      "learning_rate": 3e-05,
+      "loss": 1.3913,
+      "num_input_tokens_seen": 203080408,
+      "step": 5790
+    },
+    {
+      "epoch": 0.46788933005609123,
+      "grad_norm": 0.2760210335254669,
+      "learning_rate": 3e-05,
+      "loss": 1.3775,
+      "num_input_tokens_seen": 203433440,
+      "step": 5800
+    },
+    {
+      "epoch": 0.4686960357975673,
+      "grad_norm": 0.29998424649238586,
+      "learning_rate": 3e-05,
+      "loss": 1.3395,
+      "num_input_tokens_seen": 203773520,
+      "step": 5810
+    },
+    {
+      "epoch": 0.4695027415390433,
+      "grad_norm": 0.26301300525665283,
+      "learning_rate": 3e-05,
+      "loss": 1.3362,
+      "num_input_tokens_seen": 204128604,
+      "step": 5820
+    },
+    {
+      "epoch": 0.4703094472805193,
+      "grad_norm": 0.2580535113811493,
+      "learning_rate": 3e-05,
+      "loss": 1.4004,
+      "num_input_tokens_seen": 204494312,
+      "step": 5830
+    },
+    {
+      "epoch": 0.47111615302199533,
+      "grad_norm": 0.25355467200279236,
+      "learning_rate": 3e-05,
+      "loss": 1.3836,
+      "num_input_tokens_seen": 204826752,
+      "step": 5840
+    },
+    {
+      "epoch": 0.47192285876347134,
+      "grad_norm": 0.2825932502746582,
+      "learning_rate": 3e-05,
+      "loss": 1.3717,
+      "num_input_tokens_seen": 205188700,
+      "step": 5850
+    },
+    {
+      "epoch": 0.47272956450494735,
+      "grad_norm": 0.3444035053253174,
+      "learning_rate": 3e-05,
+      "loss": 1.3581,
+      "num_input_tokens_seen": 205529408,
+      "step": 5860
+    },
+    {
+      "epoch": 0.4735362702464234,
+      "grad_norm": 0.25847604870796204,
+      "learning_rate": 3e-05,
+      "loss": 1.357,
+      "num_input_tokens_seen": 205868532,
+      "step": 5870
+    },
+    {
+      "epoch": 0.47434297598789943,
+      "grad_norm": 0.2876322269439697,
+      "learning_rate": 3e-05,
+      "loss": 1.3783,
+      "num_input_tokens_seen": 206205984,
+      "step": 5880
+    },
+    {
+      "epoch": 0.47514968172937544,
+      "grad_norm": 0.27320173382759094,
+      "learning_rate": 3e-05,
+      "loss": 1.4018,
+      "num_input_tokens_seen": 206585048,
+      "step": 5890
+    },
+    {
+      "epoch": 0.47595638747085145,
+      "grad_norm": 0.31563153862953186,
+      "learning_rate": 3e-05,
+      "loss": 1.4208,
+      "num_input_tokens_seen": 206935052,
+      "step": 5900
+    },
+    {
+      "epoch": 0.47676309321232746,
+      "grad_norm": 0.29032954573631287,
+      "learning_rate": 3e-05,
+      "loss": 1.404,
+      "num_input_tokens_seen": 207275132,
+      "step": 5910
+    },
+    {
+      "epoch": 0.47756979895380347,
+      "grad_norm": 0.27211418747901917,
+      "learning_rate": 3e-05,
+      "loss": 1.3487,
+      "num_input_tokens_seen": 207633312,
+      "step": 5920
+    },
+    {
+      "epoch": 0.47837650469527954,
+      "grad_norm": 0.3004505932331085,
+      "learning_rate": 3e-05,
+      "loss": 1.3679,
+      "num_input_tokens_seen": 207984000,
+      "step": 5930
+    },
+    {
+      "epoch": 0.47918321043675555,
+      "grad_norm": 0.25671249628067017,
+      "learning_rate": 3e-05,
+      "loss": 1.389,
+      "num_input_tokens_seen": 208302920,
+      "step": 5940
+    },
+    {
+      "epoch": 0.47998991617823156,
+      "grad_norm": 0.29051607847213745,
+      "learning_rate": 3e-05,
+      "loss": 1.4225,
+      "num_input_tokens_seen": 208680580,
+      "step": 5950
+    },
+    {
+      "epoch": 0.48079662191970757,
+      "grad_norm": 0.2684350311756134,
+      "learning_rate": 3e-05,
+      "loss": 1.4091,
+      "num_input_tokens_seen": 209017588,
+      "step": 5960
+    },
+    {
+      "epoch": 0.4816033276611836,
+      "grad_norm": 0.28748780488967896,
+      "learning_rate": 3e-05,
+      "loss": 1.396,
+      "num_input_tokens_seen": 209385672,
+      "step": 5970
+    },
+    {
+      "epoch": 0.4824100334026596,
+      "grad_norm": 0.26985928416252136,
+      "learning_rate": 3e-05,
+      "loss": 1.3779,
+      "num_input_tokens_seen": 209735156,
+      "step": 5980
+    },
+    {
+      "epoch": 0.48321673914413565,
+      "grad_norm": 0.26085472106933594,
+      "learning_rate": 3e-05,
+      "loss": 1.3524,
+      "num_input_tokens_seen": 210074668,
+      "step": 5990
+    },
+    {
+      "epoch": 0.48402344488561166,
+      "grad_norm": 0.30844658613204956,
+      "learning_rate": 3e-05,
+      "loss": 1.3912,
+      "num_input_tokens_seen": 210409328,
+      "step": 6000
+    },
+    {
+      "epoch": 0.48402344488561166,
+      "eval_gen_len": 469.885,
+      "eval_loss": 1.3159054517745972,
+      "eval_rouge1": 36.5059,
+      "eval_rouge2": 21.2447,
+      "eval_rougeL": 30.116,
+      "eval_rougeLsum": 34.7303,
+      "eval_runtime": 1601.8691,
+      "eval_samples_per_second": 0.125,
+      "eval_steps_per_second": 0.031,
+      "num_input_tokens_seen": 210409328,
+      "step": 6000
+    },
+    {
+      "epoch": 0.4848301506270877,
+      "grad_norm": 0.3409636914730072,
+      "learning_rate": 3e-05,
+      "loss": 1.3814,
+      "num_input_tokens_seen": 210757000,
+      "step": 6010
+    },
+    {
+      "epoch": 0.4856368563685637,
+      "grad_norm": 0.285645067691803,
+      "learning_rate": 3e-05,
+      "loss": 1.3968,
+      "num_input_tokens_seen": 211087396,
+      "step": 6020
+    },
+    {
+      "epoch": 0.4864435621100397,
+      "grad_norm": 0.23893733322620392,
+      "learning_rate": 3e-05,
+      "loss": 1.3671,
+      "num_input_tokens_seen": 211458184,
+      "step": 6030
+    },
+    {
+      "epoch": 0.4872502678515157,
+      "grad_norm": 0.2706129252910614,
+      "learning_rate": 3e-05,
+      "loss": 1.3598,
+      "num_input_tokens_seen": 211782916,
+      "step": 6040
+    },
+    {
+      "epoch": 0.4880569735929917,
+      "grad_norm": 0.2617262601852417,
+      "learning_rate": 3e-05,
+      "loss": 1.3718,
+      "num_input_tokens_seen": 212146920,
+      "step": 6050
+    },
+    {
+      "epoch": 0.4888636793344678,
+      "grad_norm": 0.2852620780467987,
+      "learning_rate": 3e-05,
+      "loss": 1.3483,
+      "num_input_tokens_seen": 212525416,
+      "step": 6060
+    },
+    {
+      "epoch": 0.4896703850759438,
+      "grad_norm": 0.30544915795326233,
+      "learning_rate": 3e-05,
+      "loss": 1.3977,
+      "num_input_tokens_seen": 212850600,
+      "step": 6070
+    },
+    {
+      "epoch": 0.4904770908174198,
+      "grad_norm": 0.2675735056400299,
+      "learning_rate": 3e-05,
+      "loss": 1.383,
+      "num_input_tokens_seen": 213202036,
+      "step": 6080
+    },
+    {
+      "epoch": 0.4912837965588958,
+      "grad_norm": 0.2696596086025238,
+      "learning_rate": 3e-05,
+      "loss": 1.3809,
+      "num_input_tokens_seen": 213537836,
+      "step": 6090
+    },
+    {
+      "epoch": 0.4920905023003718,
+      "grad_norm": 0.281474769115448,
+      "learning_rate": 3e-05,
+      "loss": 1.351,
+      "num_input_tokens_seen": 213910248,
+      "step": 6100
+    },
+    {
+      "epoch": 0.49289720804184783,
+      "grad_norm": 0.3014686405658722,
+      "learning_rate": 3e-05,
+      "loss": 1.381,
+      "num_input_tokens_seen": 214261100,
+      "step": 6110
+    },
+    {
+      "epoch": 0.4937039137833239,
+      "grad_norm": 0.27863389253616333,
+      "learning_rate": 3e-05,
+      "loss": 1.3878,
+      "num_input_tokens_seen": 214636128,
+      "step": 6120
+    },
+    {
+      "epoch": 0.4945106195247999,
+      "grad_norm": 0.28771695494651794,
+      "learning_rate": 3e-05,
+      "loss": 1.3721,
+      "num_input_tokens_seen": 215003756,
+      "step": 6130
+    },
+    {
+      "epoch": 0.4953173252662759,
+      "grad_norm": 0.23946808278560638,
+      "learning_rate": 3e-05,
+      "loss": 1.3648,
+      "num_input_tokens_seen": 215364600,
+      "step": 6140
+    },
+    {
+      "epoch": 0.49612403100775193,
+      "grad_norm": 0.2888747751712799,
+      "learning_rate": 3e-05,
+      "loss": 1.4156,
+      "num_input_tokens_seen": 215725344,
+      "step": 6150
+    },
+    {
+      "epoch": 0.49693073674922794,
+      "grad_norm": 0.2734207808971405,
+      "learning_rate": 3e-05,
+      "loss": 1.3646,
+      "num_input_tokens_seen": 216095268,
+      "step": 6160
+    },
+    {
+      "epoch": 0.49773744249070395,
+      "grad_norm": 0.2685578167438507,
+      "learning_rate": 3e-05,
+      "loss": 1.3459,
+      "num_input_tokens_seen": 216469020,
+      "step": 6170
+    },
+    {
+      "epoch": 0.49854414823218,
+      "grad_norm": 0.2771487236022949,
+      "learning_rate": 3e-05,
+      "loss": 1.3673,
+      "num_input_tokens_seen": 216823048,
+      "step": 6180
+    },
+    {
+      "epoch": 0.49935085397365603,
+      "grad_norm": 0.2881760895252228,
+      "learning_rate": 3e-05,
+      "loss": 1.3973,
+      "num_input_tokens_seen": 217211200,
+      "step": 6190
+    },
+    {
+      "epoch": 0.500157559715132,
+      "grad_norm": 0.2920476496219635,
+      "learning_rate": 3e-05,
+      "loss": 1.3809,
+      "num_input_tokens_seen": 217569052,
+      "step": 6200
+    },
+    {
+      "epoch": 0.5009642654566081,
+      "grad_norm": 0.28796783089637756,
+      "learning_rate": 3e-05,
+      "loss": 1.3666,
+      "num_input_tokens_seen": 217919988,
+      "step": 6210
+    },
+    {
+      "epoch": 0.5017709711980841,
+      "grad_norm": 0.24618837237358093,
+      "learning_rate": 3e-05,
+      "loss": 1.3739,
+      "num_input_tokens_seen": 218277224,
+      "step": 6220
+    },
+    {
+      "epoch": 0.5025776769395601,
+      "grad_norm": 0.2835310995578766,
+      "learning_rate": 3e-05,
+      "loss": 1.3831,
+      "num_input_tokens_seen": 218633308,
+      "step": 6230
+    },
+    {
+      "epoch": 0.5033843826810361,
+      "grad_norm": 0.25976064801216125,
+      "learning_rate": 3e-05,
+      "loss": 1.3267,
+      "num_input_tokens_seen": 218982380,
+      "step": 6240
+    },
+    {
+      "epoch": 0.5041910884225121,
+      "grad_norm": 0.24962379038333893,
+      "learning_rate": 3e-05,
+      "loss": 1.3829,
+      "num_input_tokens_seen": 219302800,
+      "step": 6250
+    },
+    {
+      "epoch": 0.5049977941639882,
+      "grad_norm": 0.2833407521247864,
+      "learning_rate": 3e-05,
+      "loss": 1.3575,
+      "num_input_tokens_seen": 219657948,
+      "step": 6260
+    },
+    {
+      "epoch": 0.5058044999054642,
+      "grad_norm": 0.2600440979003906,
+      "learning_rate": 3e-05,
+      "loss": 1.3886,
+      "num_input_tokens_seen": 219986420,
+      "step": 6270
+    },
+    {
+      "epoch": 0.5066112056469402,
+      "grad_norm": 0.28562673926353455,
+      "learning_rate": 3e-05,
+      "loss": 1.3903,
+      "num_input_tokens_seen": 220335652,
+      "step": 6280
+    },
+    {
+      "epoch": 0.5074179113884162,
+      "grad_norm": 0.30197736620903015,
+      "learning_rate": 3e-05,
+      "loss": 1.3592,
+      "num_input_tokens_seen": 220710520,
+      "step": 6290
+    },
+    {
+      "epoch": 0.5082246171298922,
+      "grad_norm": 0.35574081540107727,
+      "learning_rate": 3e-05,
+      "loss": 1.3804,
+      "num_input_tokens_seen": 221048404,
+      "step": 6300
+    },
+    {
+      "epoch": 0.5090313228713682,
+      "grad_norm": 0.26034465432167053,
+      "learning_rate": 3e-05,
+      "loss": 1.3843,
+      "num_input_tokens_seen": 221398644,
+      "step": 6310
+    },
+    {
+      "epoch": 0.5098380286128442,
+      "grad_norm": 0.27993252873420715,
+      "learning_rate": 3e-05,
+      "loss": 1.3452,
+      "num_input_tokens_seen": 221766764,
+      "step": 6320
+    },
+    {
+      "epoch": 0.5106447343543203,
+      "grad_norm": 0.278550386428833,
+      "learning_rate": 3e-05,
+      "loss": 1.3901,
+      "num_input_tokens_seen": 222114724,
+      "step": 6330
+    },
+    {
+      "epoch": 0.5114514400957964,
+      "grad_norm": 0.32215824723243713,
+      "learning_rate": 3e-05,
+      "loss": 1.3696,
+      "num_input_tokens_seen": 222494148,
+      "step": 6340
+    },
+    {
+      "epoch": 0.5122581458372724,
+      "grad_norm": 0.2745245099067688,
+      "learning_rate": 3e-05,
+      "loss": 1.3832,
+      "num_input_tokens_seen": 222847792,
+      "step": 6350
+    },
+    {
+      "epoch": 0.5130648515787484,
+      "grad_norm": 0.2977345585823059,
+      "learning_rate": 3e-05,
+      "loss": 1.3719,
+      "num_input_tokens_seen": 223203024,
+      "step": 6360
+    },
+    {
+      "epoch": 0.5138715573202244,
+      "grad_norm": 0.299365371465683,
+      "learning_rate": 3e-05,
+      "loss": 1.3602,
+      "num_input_tokens_seen": 223552380,
+      "step": 6370
+    },
+    {
+      "epoch": 0.5146782630617004,
+      "grad_norm": 0.2765893340110779,
+      "learning_rate": 3e-05,
+      "loss": 1.3861,
+      "num_input_tokens_seen": 223902684,
+      "step": 6380
+    },
+    {
+      "epoch": 0.5154849688031764,
+      "grad_norm": 0.3482683002948761,
+      "learning_rate": 3e-05,
+      "loss": 1.4014,
+      "num_input_tokens_seen": 224249200,
+      "step": 6390
+    },
+    {
+      "epoch": 0.5162916745446524,
+      "grad_norm": 0.2550183832645416,
+      "learning_rate": 3e-05,
+      "loss": 1.4198,
+      "num_input_tokens_seen": 224584080,
+      "step": 6400
+    },
+    {
+      "epoch": 0.5170983802861284,
+      "grad_norm": 0.2872161865234375,
+      "learning_rate": 3e-05,
+      "loss": 1.37,
+      "num_input_tokens_seen": 224949828,
+      "step": 6410
+    },
+    {
+      "epoch": 0.5179050860276044,
+      "grad_norm": 0.2459658682346344,
+      "learning_rate": 3e-05,
+      "loss": 1.3798,
+      "num_input_tokens_seen": 225310160,
+      "step": 6420
+    },
+    {
+      "epoch": 0.5187117917690804,
+      "grad_norm": 0.2668297588825226,
+      "learning_rate": 3e-05,
+      "loss": 1.3406,
+      "num_input_tokens_seen": 225654484,
+      "step": 6430
+    },
+    {
+      "epoch": 0.5195184975105565,
+      "grad_norm": 0.2736770808696747,
+      "learning_rate": 3e-05,
+      "loss": 1.341,
+      "num_input_tokens_seen": 226010672,
+      "step": 6440
+    },
+    {
+      "epoch": 0.5203252032520326,
+      "grad_norm": 0.27257856726646423,
+      "learning_rate": 3e-05,
+      "loss": 1.4121,
+      "num_input_tokens_seen": 226356336,
+      "step": 6450
+    },
+    {
+      "epoch": 0.5211319089935086,
+      "grad_norm": 0.278709352016449,
+      "learning_rate": 3e-05,
+      "loss": 1.2977,
+      "num_input_tokens_seen": 226715132,
+      "step": 6460
+    },
+    {
+      "epoch": 0.5219386147349846,
+      "grad_norm": 0.2663877010345459,
+      "learning_rate": 3e-05,
+      "loss": 1.3665,
+      "num_input_tokens_seen": 227064968,
+      "step": 6470
+    },
+    {
+      "epoch": 0.5227453204764606,
+      "grad_norm": 0.29134681820869446,
+      "learning_rate": 3e-05,
+      "loss": 1.2802,
+      "num_input_tokens_seen": 227397320,
+      "step": 6480
+    },
+    {
+      "epoch": 0.5235520262179366,
+      "grad_norm": 0.3129670321941376,
+      "learning_rate": 3e-05,
+      "loss": 1.3934,
+      "num_input_tokens_seen": 227757800,
+      "step": 6490
+    },
+    {
+      "epoch": 0.5243587319594126,
+      "grad_norm": 0.2857125997543335,
+      "learning_rate": 3e-05,
+      "loss": 1.3935,
+      "num_input_tokens_seen": 228107956,
+      "step": 6500
+    },
+    {
+      "epoch": 0.5251654377008886,
+      "grad_norm": 0.26699715852737427,
+      "learning_rate": 3e-05,
+      "loss": 1.4017,
+      "num_input_tokens_seen": 228435140,
+      "step": 6510
+    },
+    {
+      "epoch": 0.5259721434423646,
+      "grad_norm": 0.3041050136089325,
+      "learning_rate": 3e-05,
+      "loss": 1.3659,
+      "num_input_tokens_seen": 228778040,
+      "step": 6520
+    },
+    {
+      "epoch": 0.5267788491838407,
+      "grad_norm": 0.2667132616043091,
+      "learning_rate": 3e-05,
+      "loss": 1.3765,
+      "num_input_tokens_seen": 229124136,
+      "step": 6530
+    },
+    {
+      "epoch": 0.5275855549253167,
+      "grad_norm": 0.27975499629974365,
+      "learning_rate": 3e-05,
+      "loss": 1.3799,
+      "num_input_tokens_seen": 229453708,
+      "step": 6540
+    },
+    {
+      "epoch": 0.5283922606667927,
+      "grad_norm": 0.25194570422172546,
+      "learning_rate": 3e-05,
+      "loss": 1.3369,
+      "num_input_tokens_seen": 229789164,
+      "step": 6550
+    },
+    {
+      "epoch": 0.5291989664082687,
+      "grad_norm": 0.26208654046058655,
+      "learning_rate": 3e-05,
+      "loss": 1.3712,
+      "num_input_tokens_seen": 230141916,
+      "step": 6560
+    },
+    {
+      "epoch": 0.5300056721497447,
+      "grad_norm": 0.2651267647743225,
+      "learning_rate": 3e-05,
+      "loss": 1.3616,
+      "num_input_tokens_seen": 230503840,
+      "step": 6570
+    },
+    {
+      "epoch": 0.5308123778912208,
+      "grad_norm": 0.25937962532043457,
+      "learning_rate": 3e-05,
+      "loss": 1.2915,
+      "num_input_tokens_seen": 230819784,
+      "step": 6580
+    },
+    {
+      "epoch": 0.5316190836326968,
+      "grad_norm": 0.31449395418167114,
+      "learning_rate": 3e-05,
+      "loss": 1.3706,
+      "num_input_tokens_seen": 231205872,
+      "step": 6590
+    },
+    {
+      "epoch": 0.5324257893741728,
+      "grad_norm": 0.2909031808376312,
+      "learning_rate": 3e-05,
+      "loss": 1.4025,
+      "num_input_tokens_seen": 231547816,
+      "step": 6600
+    },
+    {
+      "epoch": 0.5332324951156489,
+      "grad_norm": 0.23776140809059143,
+      "learning_rate": 3e-05,
+      "loss": 1.3567,
+      "num_input_tokens_seen": 231915224,
+      "step": 6610
+    },
+    {
+      "epoch": 0.5340392008571249,
+      "grad_norm": 0.255609929561615,
+      "learning_rate": 3e-05,
+      "loss": 1.3352,
+      "num_input_tokens_seen": 232289088,
+      "step": 6620
+    },
+    {
+      "epoch": 0.5348459065986009,
+      "grad_norm": 0.2546085715293884,
+      "learning_rate": 3e-05,
+      "loss": 1.3868,
+      "num_input_tokens_seen": 232690580,
+      "step": 6630
+    },
+    {
+      "epoch": 0.5356526123400769,
+      "grad_norm": 0.2850560247898102,
+      "learning_rate": 3e-05,
+      "loss": 1.3626,
+      "num_input_tokens_seen": 233036468,
+      "step": 6640
+    },
+    {
+      "epoch": 0.5364593180815529,
+      "grad_norm": 0.26064831018447876,
+      "learning_rate": 3e-05,
+      "loss": 1.385,
+      "num_input_tokens_seen": 233382180,
+      "step": 6650
+    },
+    {
+      "epoch": 0.5372660238230289,
+      "grad_norm": 0.2727303206920624,
+      "learning_rate": 3e-05,
+      "loss": 1.3323,
+      "num_input_tokens_seen": 233733420,
+      "step": 6660
+    },
+    {
+      "epoch": 0.5380727295645049,
+      "grad_norm": 0.2605370283126831,
+      "learning_rate": 3e-05,
+      "loss": 1.3613,
+      "num_input_tokens_seen": 234088620,
+      "step": 6670
+    },
+    {
+      "epoch": 0.5388794353059809,
+      "grad_norm": 0.2989037036895752,
+      "learning_rate": 3e-05,
+      "loss": 1.3553,
+      "num_input_tokens_seen": 234457604,
+      "step": 6680
+    },
+    {
+      "epoch": 0.5396861410474569,
+      "grad_norm": 0.27383917570114136,
+      "learning_rate": 3e-05,
+      "loss": 1.3567,
+      "num_input_tokens_seen": 234790868,
+      "step": 6690
+    },
+    {
+      "epoch": 0.5404928467889331,
+      "grad_norm": 0.2771012783050537,
+      "learning_rate": 3e-05,
+      "loss": 1.3888,
+      "num_input_tokens_seen": 235140724,
+      "step": 6700
+    },
+    {
+      "epoch": 0.5412995525304091,
+      "grad_norm": 0.35448309779167175,
+      "learning_rate": 3e-05,
+      "loss": 1.3347,
+      "num_input_tokens_seen": 235476928,
+      "step": 6710
+    },
+    {
+      "epoch": 0.5421062582718851,
+      "grad_norm": 0.28626537322998047,
+      "learning_rate": 3e-05,
+      "loss": 1.3486,
+      "num_input_tokens_seen": 235805748,
+      "step": 6720
+    },
+    {
+      "epoch": 0.5429129640133611,
+      "grad_norm": 0.280998170375824,
+      "learning_rate": 3e-05,
+      "loss": 1.3868,
+      "num_input_tokens_seen": 236142400,
+      "step": 6730
+    },
+    {
+      "epoch": 0.5437196697548371,
+      "grad_norm": 0.2946176826953888,
+      "learning_rate": 3e-05,
+      "loss": 1.3424,
+      "num_input_tokens_seen": 236492160,
+      "step": 6740
+    },
+    {
+      "epoch": 0.5445263754963131,
+      "grad_norm": 0.2584805488586426,
+      "learning_rate": 3e-05,
+      "loss": 1.3451,
+      "num_input_tokens_seen": 236826392,
+      "step": 6750
+    },
+    {
+      "epoch": 0.5453330812377891,
+      "grad_norm": 0.27321335673332214,
+      "learning_rate": 3e-05,
+      "loss": 1.3567,
+      "num_input_tokens_seen": 237160908,
+      "step": 6760
+    },
+    {
+      "epoch": 0.5461397869792651,
+      "grad_norm": 0.2743065655231476,
+      "learning_rate": 3e-05,
+      "loss": 1.3933,
+      "num_input_tokens_seen": 237514248,
+      "step": 6770
+    },
+    {
+      "epoch": 0.5469464927207411,
+      "grad_norm": 0.26243406534194946,
+      "learning_rate": 3e-05,
+      "loss": 1.3716,
+      "num_input_tokens_seen": 237850192,
+      "step": 6780
+    },
+    {
+      "epoch": 0.5477531984622172,
+      "grad_norm": 0.2854134738445282,
+      "learning_rate": 3e-05,
+      "loss": 1.3882,
+      "num_input_tokens_seen": 238236160,
+      "step": 6790
+    },
+    {
+      "epoch": 0.5485599042036932,
+      "grad_norm": 0.2889584004878998,
+      "learning_rate": 3e-05,
+      "loss": 1.3232,
+      "num_input_tokens_seen": 238608400,
+      "step": 6800
+    },
+    {
+      "epoch": 0.5493666099451692,
+      "grad_norm": 0.2689494490623474,
+      "learning_rate": 3e-05,
+      "loss": 1.3191,
+      "num_input_tokens_seen": 238965484,
+      "step": 6810
+    },
+    {
+      "epoch": 0.5501733156866453,
+      "grad_norm": 0.2811024785041809,
+      "learning_rate": 3e-05,
+      "loss": 1.3883,
+      "num_input_tokens_seen": 239305156,
+      "step": 6820
+    },
+    {
+      "epoch": 0.5509800214281213,
+      "grad_norm": 0.29699015617370605,
+      "learning_rate": 3e-05,
+      "loss": 1.3527,
+      "num_input_tokens_seen": 239633044,
+      "step": 6830
+    },
+    {
+      "epoch": 0.5517867271695973,
+      "grad_norm": 0.2648441791534424,
+      "learning_rate": 3e-05,
+      "loss": 1.3464,
+      "num_input_tokens_seen": 239984216,
+      "step": 6840
+    },
+    {
+      "epoch": 0.5525934329110733,
+      "grad_norm": 0.2662919759750366,
+      "learning_rate": 3e-05,
+      "loss": 1.3185,
+      "num_input_tokens_seen": 240344632,
+      "step": 6850
+    },
+    {
+      "epoch": 0.5534001386525493,
+      "grad_norm": 0.3006437420845032,
+      "learning_rate": 3e-05,
+      "loss": 1.3587,
+      "num_input_tokens_seen": 240702092,
+      "step": 6860
+    },
+    {
+      "epoch": 0.5542068443940253,
+      "grad_norm": 0.27952778339385986,
+      "learning_rate": 3e-05,
+      "loss": 1.3546,
+      "num_input_tokens_seen": 241059608,
+      "step": 6870
+    },
+    {
+      "epoch": 0.5550135501355014,
+      "grad_norm": 0.27199041843414307,
+      "learning_rate": 3e-05,
+      "loss": 1.3444,
+      "num_input_tokens_seen": 241417296,
+      "step": 6880
+    },
+    {
+      "epoch": 0.5558202558769774,
+      "grad_norm": 0.2580903470516205,
+      "learning_rate": 3e-05,
+      "loss": 1.3458,
+      "num_input_tokens_seen": 241788856,
+      "step": 6890
+    },
+    {
+      "epoch": 0.5566269616184534,
+      "grad_norm": 0.2709527909755707,
+      "learning_rate": 3e-05,
+      "loss": 1.3785,
+      "num_input_tokens_seen": 242139900,
+      "step": 6900
+    },
+    {
+      "epoch": 0.5574336673599294,
+      "grad_norm": 0.30123209953308105,
+      "learning_rate": 3e-05,
+      "loss": 1.4256,
+      "num_input_tokens_seen": 242504148,
+      "step": 6910
+    },
+    {
+      "epoch": 0.5582403731014054,
+      "grad_norm": 0.2620568871498108,
+      "learning_rate": 3e-05,
+      "loss": 1.2906,
+      "num_input_tokens_seen": 242827892,
+      "step": 6920
+    },
+    {
+      "epoch": 0.5590470788428814,
+      "grad_norm": 0.2878223955631256,
+      "learning_rate": 3e-05,
+      "loss": 1.3146,
+      "num_input_tokens_seen": 243181464,
+      "step": 6930
+    },
+    {
+      "epoch": 0.5598537845843574,
+      "grad_norm": 0.26872310042381287,
+      "learning_rate": 3e-05,
+      "loss": 1.3387,
+      "num_input_tokens_seen": 243523144,
+      "step": 6940
+    },
+    {
+      "epoch": 0.5606604903258335,
+      "grad_norm": 0.30172818899154663,
+      "learning_rate": 3e-05,
+      "loss": 1.3215,
+      "num_input_tokens_seen": 243867668,
+      "step": 6950
+    },
+    {
+      "epoch": 0.5614671960673095,
+      "grad_norm": 0.2358444631099701,
+      "learning_rate": 3e-05,
+      "loss": 1.3118,
+      "num_input_tokens_seen": 244222464,
+      "step": 6960
+    },
+    {
+      "epoch": 0.5622739018087856,
+      "grad_norm": 0.2576392889022827,
+      "learning_rate": 3e-05,
+      "loss": 1.3382,
+      "num_input_tokens_seen": 244580240,
+      "step": 6970
+    },
+    {
+      "epoch": 0.5630806075502616,
+      "grad_norm": 0.2685336768627167,
+      "learning_rate": 3e-05,
+      "loss": 1.3596,
+      "num_input_tokens_seen": 244952004,
+      "step": 6980
+    },
+    {
+      "epoch": 0.5638873132917376,
+      "grad_norm": 0.3160952925682068,
+      "learning_rate": 3e-05,
+      "loss": 1.3249,
+      "num_input_tokens_seen": 245296600,
+      "step": 6990
+    },
+    {
+      "epoch": 0.5646940190332136,
+      "grad_norm": 0.2507816255092621,
+      "learning_rate": 3e-05,
+      "loss": 1.3148,
+      "num_input_tokens_seen": 245601908,
+      "step": 7000
+    },
+    {
+      "epoch": 0.5646940190332136,
+      "eval_gen_len": 458.28,
+      "eval_loss": 1.2807079553604126,
+      "eval_rouge1": 37.0123,
+      "eval_rouge2": 21.3666,
+      "eval_rougeL": 30.11,
+      "eval_rougeLsum": 35.0891,
+      "eval_runtime": 1549.9426,
+      "eval_samples_per_second": 0.129,
+      "eval_steps_per_second": 0.032,
+      "num_input_tokens_seen": 245601908,
+      "step": 7000
+    },
+    {
+      "epoch": 0.5655007247746896,
+      "grad_norm": 0.25211119651794434,
+      "learning_rate": 3e-05,
+      "loss": 1.3326,
+      "num_input_tokens_seen": 245935868,
+      "step": 7010
+    },
+    {
+      "epoch": 0.5663074305161656,
+      "grad_norm": 0.26975396275520325,
+      "learning_rate": 3e-05,
+      "loss": 1.344,
+      "num_input_tokens_seen": 246286460,
+      "step": 7020
+    },
+    {
+      "epoch": 0.5671141362576416,
+      "grad_norm": 0.25872379541397095,
+      "learning_rate": 3e-05,
+      "loss": 1.2972,
+      "num_input_tokens_seen": 246643836,
+      "step": 7030
+    },
+    {
+      "epoch": 0.5679208419991176,
+      "grad_norm": 0.25087055563926697,
+      "learning_rate": 3e-05,
+      "loss": 1.3577,
+      "num_input_tokens_seen": 246981328,
+      "step": 7040
+    },
+    {
+      "epoch": 0.5687275477405936,
+      "grad_norm": 0.29341551661491394,
+      "learning_rate": 3e-05,
+      "loss": 1.3222,
+      "num_input_tokens_seen": 247316288,
+      "step": 7050
+    },
+    {
+      "epoch": 0.5695342534820697,
+      "grad_norm": 0.2665810286998749,
+      "learning_rate": 3e-05,
+      "loss": 1.3704,
+      "num_input_tokens_seen": 247677216,
+      "step": 7060
+    },
+    {
+      "epoch": 0.5703409592235458,
+      "grad_norm": 0.2743811309337616,
+      "learning_rate": 3e-05,
+      "loss": 1.4113,
+      "num_input_tokens_seen": 248018060,
+      "step": 7070
+    },
+    {
+      "epoch": 0.5711476649650218,
+      "grad_norm": 0.2498067319393158,
+      "learning_rate": 3e-05,
+      "loss": 1.3407,
+      "num_input_tokens_seen": 248347064,
+      "step": 7080
+    },
+    {
+      "epoch": 0.5719543707064978,
+      "grad_norm": 0.31014665961265564,
+      "learning_rate": 3e-05,
+      "loss": 1.3535,
+      "num_input_tokens_seen": 248698972,
+      "step": 7090
+    },
+    {
+      "epoch": 0.5727610764479738,
+      "grad_norm": 0.304561972618103,
+      "learning_rate": 3e-05,
+      "loss": 1.3736,
+      "num_input_tokens_seen": 249061164,
+      "step": 7100
+    },
+    {
+      "epoch": 0.5735677821894498,
+      "grad_norm": 0.2791111469268799,
+      "learning_rate": 3e-05,
+      "loss": 1.3308,
+      "num_input_tokens_seen": 249394300,
+      "step": 7110
+    },
+    {
+      "epoch": 0.5743744879309258,
+      "grad_norm": 0.2657420039176941,
+      "learning_rate": 3e-05,
+      "loss": 1.3221,
+      "num_input_tokens_seen": 249749096,
+      "step": 7120
+    },
+    {
+      "epoch": 0.5751811936724018,
+      "grad_norm": 0.26944419741630554,
+      "learning_rate": 3e-05,
+      "loss": 1.2559,
+      "num_input_tokens_seen": 250099212,
+      "step": 7130
+    },
+    {
+      "epoch": 0.5759878994138778,
+      "grad_norm": 0.2616654336452484,
+      "learning_rate": 3e-05,
+      "loss": 1.3261,
+      "num_input_tokens_seen": 250468696,
+      "step": 7140
+    },
+    {
+      "epoch": 0.5767946051553539,
+      "grad_norm": 0.26480162143707275,
+      "learning_rate": 3e-05,
+      "loss": 1.3204,
+      "num_input_tokens_seen": 250820768,
+      "step": 7150
+    },
+    {
+      "epoch": 0.5776013108968299,
+      "grad_norm": 0.3008149266242981,
+      "learning_rate": 3e-05,
+      "loss": 1.3495,
+      "num_input_tokens_seen": 251157348,
+      "step": 7160
+    },
+    {
+      "epoch": 0.5784080166383059,
+      "grad_norm": 0.2766317129135132,
+      "learning_rate": 3e-05,
+      "loss": 1.3596,
+      "num_input_tokens_seen": 251534100,
+      "step": 7170
+    },
+    {
+      "epoch": 0.5792147223797819,
+      "grad_norm": 0.2724848687648773,
+      "learning_rate": 3e-05,
+      "loss": 1.364,
+      "num_input_tokens_seen": 251892536,
+      "step": 7180
+    },
+    {
+      "epoch": 0.580021428121258,
+      "grad_norm": 0.2869981825351715,
+      "learning_rate": 3e-05,
+      "loss": 1.3494,
+      "num_input_tokens_seen": 252257808,
+      "step": 7190
+    },
+    {
+      "epoch": 0.580828133862734,
+      "grad_norm": 0.2904507517814636,
+      "learning_rate": 3e-05,
+      "loss": 1.3117,
+      "num_input_tokens_seen": 252602564,
+      "step": 7200
+    },
+    {
+      "epoch": 0.58163483960421,
+      "grad_norm": 0.29304027557373047,
+      "learning_rate": 3e-05,
+      "loss": 1.3394,
+      "num_input_tokens_seen": 253000804,
+      "step": 7210
+    },
+    {
+      "epoch": 0.582441545345686,
+      "grad_norm": 0.2698158323764801,
+      "learning_rate": 3e-05,
+      "loss": 1.352,
+      "num_input_tokens_seen": 253349332,
+      "step": 7220
+    },
+    {
+      "epoch": 0.583248251087162,
+      "grad_norm": 0.259858638048172,
+      "learning_rate": 3e-05,
+      "loss": 1.3094,
+      "num_input_tokens_seen": 253711588,
+      "step": 7230
+    },
+    {
+      "epoch": 0.5840549568286381,
+      "grad_norm": 0.24673224985599518,
+      "learning_rate": 3e-05,
+      "loss": 1.3504,
+      "num_input_tokens_seen": 254032876,
+      "step": 7240
+    },
+    {
+      "epoch": 0.5848616625701141,
+      "grad_norm": 0.24645106494426727,
+      "learning_rate": 3e-05,
+      "loss": 1.3109,
+      "num_input_tokens_seen": 254388696,
+      "step": 7250
+    },
+    {
+      "epoch": 0.5856683683115901,
+      "grad_norm": 0.295168399810791,
+      "learning_rate": 3e-05,
+      "loss": 1.3275,
+      "num_input_tokens_seen": 254709932,
+      "step": 7260
+    },
+    {
+      "epoch": 0.5864750740530661,
+      "grad_norm": 0.28658369183540344,
+      "learning_rate": 3e-05,
+      "loss": 1.3473,
+      "num_input_tokens_seen": 255043668,
+      "step": 7270
+    },
+    {
+      "epoch": 0.5872817797945421,
+      "grad_norm": 0.26063695549964905,
+      "learning_rate": 3e-05,
+      "loss": 1.2875,
+      "num_input_tokens_seen": 255402252,
+      "step": 7280
+    },
+    {
+      "epoch": 0.5880884855360181,
+      "grad_norm": 0.2694176435470581,
+      "learning_rate": 3e-05,
+      "loss": 1.3576,
+      "num_input_tokens_seen": 255725676,
+      "step": 7290
+    },
+    {
+      "epoch": 0.5888951912774941,
+      "grad_norm": 0.2852911055088043,
+      "learning_rate": 3e-05,
+      "loss": 1.3456,
+      "num_input_tokens_seen": 256093604,
+      "step": 7300
+    },
+    {
+      "epoch": 0.5897018970189702,
+      "grad_norm": 0.2513694167137146,
+      "learning_rate": 3e-05,
+      "loss": 1.3225,
+      "num_input_tokens_seen": 256448048,
+      "step": 7310
+    },
+    {
+      "epoch": 0.5905086027604463,
+      "grad_norm": 0.2887936532497406,
+      "learning_rate": 3e-05,
+      "loss": 1.3593,
+      "num_input_tokens_seen": 256787872,
+      "step": 7320
+    },
+    {
+      "epoch": 0.5913153085019223,
+      "grad_norm": 0.2790989577770233,
+      "learning_rate": 3e-05,
+      "loss": 1.3286,
+      "num_input_tokens_seen": 257116080,
+      "step": 7330
+    },
+    {
+      "epoch": 0.5921220142433983,
+      "grad_norm": 0.2735912799835205,
+      "learning_rate": 3e-05,
+      "loss": 1.3624,
+      "num_input_tokens_seen": 257477564,
+      "step": 7340
+    },
+    {
+      "epoch": 0.5929287199848743,
+      "grad_norm": 0.252945214509964,
+      "learning_rate": 3e-05,
+      "loss": 1.3592,
+      "num_input_tokens_seen": 257851048,
+      "step": 7350
+    },
+    {
+      "epoch": 0.5937354257263503,
+      "grad_norm": 0.3211391866207123,
+      "learning_rate": 3e-05,
+      "loss": 1.3686,
+      "num_input_tokens_seen": 258218684,
+      "step": 7360
+    },
+    {
+      "epoch": 0.5945421314678263,
+      "grad_norm": 0.30502480268478394,
+      "learning_rate": 3e-05,
+      "loss": 1.3227,
+      "num_input_tokens_seen": 258573844,
+      "step": 7370
+    },
+    {
+      "epoch": 0.5953488372093023,
+      "grad_norm": 0.28097566962242126,
+      "learning_rate": 3e-05,
+      "loss": 1.294,
+      "num_input_tokens_seen": 258943588,
+      "step": 7380
+    },
+    {
+      "epoch": 0.5961555429507783,
+      "grad_norm": 0.27676570415496826,
+      "learning_rate": 3e-05,
+      "loss": 1.2757,
+      "num_input_tokens_seen": 259313468,
+      "step": 7390
+    },
+    {
+      "epoch": 0.5969622486922543,
+      "grad_norm": 0.25486335158348083,
+      "learning_rate": 3e-05,
+      "loss": 1.3064,
+      "num_input_tokens_seen": 259666520,
+      "step": 7400
+    },
+    {
+      "epoch": 0.5977689544337303,
+      "grad_norm": 0.26223358511924744,
+      "learning_rate": 3e-05,
+      "loss": 1.319,
+      "num_input_tokens_seen": 260013508,
+      "step": 7410
+    },
+    {
+      "epoch": 0.5985756601752064,
+      "grad_norm": 0.25428274273872375,
+      "learning_rate": 3e-05,
+      "loss": 1.3169,
+      "num_input_tokens_seen": 260358660,
+      "step": 7420
+    },
+    {
+      "epoch": 0.5993823659166824,
+      "grad_norm": 0.26828479766845703,
+      "learning_rate": 3e-05,
+      "loss": 1.2931,
+      "num_input_tokens_seen": 260698792,
+      "step": 7430
+    },
+    {
+      "epoch": 0.6001890716581585,
+      "grad_norm": 0.286696195602417,
+      "learning_rate": 3e-05,
+      "loss": 1.3534,
+      "num_input_tokens_seen": 261051896,
+      "step": 7440
+    },
+    {
+      "epoch": 0.6009957773996345,
+      "grad_norm": 0.2686040699481964,
+      "learning_rate": 3e-05,
+      "loss": 1.3426,
+      "num_input_tokens_seen": 261413924,
+      "step": 7450
+    },
+    {
+      "epoch": 0.6018024831411105,
+      "grad_norm": 0.3073362112045288,
+      "learning_rate": 3e-05,
+      "loss": 1.3457,
+      "num_input_tokens_seen": 261759140,
+      "step": 7460
+    },
+    {
+      "epoch": 0.6026091888825865,
+      "grad_norm": 0.3184793293476105,
+      "learning_rate": 3e-05,
+      "loss": 1.2967,
+      "num_input_tokens_seen": 262101808,
+      "step": 7470
+    },
+    {
+      "epoch": 0.6034158946240625,
+      "grad_norm": 0.29304739832878113,
+      "learning_rate": 3e-05,
+      "loss": 1.2587,
+      "num_input_tokens_seen": 262420468,
+      "step": 7480
+    },
+    {
+      "epoch": 0.6042226003655385,
+      "grad_norm": 0.2968464493751526,
+      "learning_rate": 3e-05,
+      "loss": 1.306,
+      "num_input_tokens_seen": 262830180,
+      "step": 7490
+    },
+    {
+      "epoch": 0.6050293061070146,
+      "grad_norm": 0.29142898321151733,
+      "learning_rate": 3e-05,
+      "loss": 1.3333,
+      "num_input_tokens_seen": 263164684,
+      "step": 7500
+    },
+    {
+      "epoch": 0.6058360118484906,
+      "grad_norm": 0.4284871220588684,
+      "learning_rate": 3e-05,
+      "loss": 1.3222,
+      "num_input_tokens_seen": 263534376,
+      "step": 7510
+    },
+    {
+      "epoch": 0.6066427175899666,
+      "grad_norm": 0.25819581747055054,
+      "learning_rate": 3e-05,
+      "loss": 1.3673,
+      "num_input_tokens_seen": 263888472,
+      "step": 7520
+    },
+    {
+      "epoch": 0.6074494233314426,
+      "grad_norm": 0.2647174298763275,
+      "learning_rate": 3e-05,
+      "loss": 1.3096,
+      "num_input_tokens_seen": 264241468,
+      "step": 7530
+    },
+    {
+      "epoch": 0.6082561290729186,
+      "grad_norm": 0.26796919107437134,
+      "learning_rate": 3e-05,
+      "loss": 1.3448,
+      "num_input_tokens_seen": 264578804,
+      "step": 7540
+    },
+    {
+      "epoch": 0.6090628348143946,
+      "grad_norm": 0.2776355445384979,
+      "learning_rate": 3e-05,
+      "loss": 1.3448,
+      "num_input_tokens_seen": 264951596,
+      "step": 7550
+    },
+    {
+      "epoch": 0.6098695405558707,
+      "grad_norm": 0.2773449420928955,
+      "learning_rate": 3e-05,
+      "loss": 1.2945,
+      "num_input_tokens_seen": 265319936,
+      "step": 7560
+    },
+    {
+      "epoch": 0.6106762462973467,
+      "grad_norm": 0.28379198908805847,
+      "learning_rate": 3e-05,
+      "loss": 1.3447,
+      "num_input_tokens_seen": 265671716,
+      "step": 7570
+    },
+    {
+      "epoch": 0.6114829520388227,
+      "grad_norm": 0.2618366777896881,
+      "learning_rate": 3e-05,
+      "loss": 1.3163,
+      "num_input_tokens_seen": 266015756,
+      "step": 7580
+    },
+    {
+      "epoch": 0.6122896577802988,
+      "grad_norm": 0.25278952717781067,
+      "learning_rate": 3e-05,
+      "loss": 1.3918,
+      "num_input_tokens_seen": 266371472,
+      "step": 7590
+    },
+    {
+      "epoch": 0.6130963635217748,
+      "grad_norm": 0.29882779717445374,
+      "learning_rate": 3e-05,
+      "loss": 1.3239,
+      "num_input_tokens_seen": 266726232,
+      "step": 7600
+    },
+    {
+      "epoch": 0.6139030692632508,
+      "grad_norm": 0.2473878711462021,
+      "learning_rate": 3e-05,
+      "loss": 1.3322,
+      "num_input_tokens_seen": 267077476,
+      "step": 7610
+    },
+    {
+      "epoch": 0.6147097750047268,
+      "grad_norm": 0.26804500818252563,
+      "learning_rate": 3e-05,
+      "loss": 1.3116,
+      "num_input_tokens_seen": 267412680,
+      "step": 7620
+    },
+    {
+      "epoch": 0.6155164807462028,
+      "grad_norm": 0.2616485059261322,
+      "learning_rate": 3e-05,
+      "loss": 1.3633,
+      "num_input_tokens_seen": 267745836,
+      "step": 7630
+    },
+    {
+      "epoch": 0.6163231864876788,
+      "grad_norm": 0.29525431990623474,
+      "learning_rate": 3e-05,
+      "loss": 1.291,
+      "num_input_tokens_seen": 268063588,
+      "step": 7640
+    },
+    {
+      "epoch": 0.6171298922291548,
+      "grad_norm": 0.2977356016635895,
+      "learning_rate": 3e-05,
+      "loss": 1.2814,
+      "num_input_tokens_seen": 268434424,
+      "step": 7650
+    },
+    {
+      "epoch": 0.6179365979706308,
+      "grad_norm": 0.23729270696640015,
+      "learning_rate": 3e-05,
+      "loss": 1.3602,
+      "num_input_tokens_seen": 268807668,
+      "step": 7660
+    },
+    {
+      "epoch": 0.6187433037121068,
+      "grad_norm": 0.26896366477012634,
+      "learning_rate": 3e-05,
+      "loss": 1.3211,
+      "num_input_tokens_seen": 269146372,
+      "step": 7670
+    },
+    {
+      "epoch": 0.619550009453583,
+      "grad_norm": 0.27436563372612,
+      "learning_rate": 3e-05,
+      "loss": 1.3661,
+      "num_input_tokens_seen": 269516044,
+      "step": 7680
+    },
+    {
+      "epoch": 0.620356715195059,
+      "grad_norm": 0.2542715072631836,
+      "learning_rate": 3e-05,
+      "loss": 1.3132,
+      "num_input_tokens_seen": 269885468,
+      "step": 7690
+    },
+    {
+      "epoch": 0.621163420936535,
+      "grad_norm": 0.24955634772777557,
+      "learning_rate": 3e-05,
+      "loss": 1.3579,
+      "num_input_tokens_seen": 270234860,
+      "step": 7700
+    },
+    {
+      "epoch": 0.621970126678011,
+      "grad_norm": 0.2842109799385071,
+      "learning_rate": 3e-05,
+      "loss": 1.3533,
+      "num_input_tokens_seen": 270588556,
+      "step": 7710
+    },
+    {
+      "epoch": 0.622776832419487,
+      "grad_norm": 0.2718474864959717,
+      "learning_rate": 3e-05,
+      "loss": 1.3144,
+      "num_input_tokens_seen": 270900420,
+      "step": 7720
+    },
+    {
+      "epoch": 0.623583538160963,
+      "grad_norm": 0.254463255405426,
+      "learning_rate": 3e-05,
+      "loss": 1.3094,
+      "num_input_tokens_seen": 271266568,
+      "step": 7730
+    },
+    {
+      "epoch": 0.624390243902439,
+      "grad_norm": 0.2510669529438019,
+      "learning_rate": 3e-05,
+      "loss": 1.3114,
+      "num_input_tokens_seen": 271611104,
+      "step": 7740
+    },
+    {
+      "epoch": 0.625196949643915,
+      "grad_norm": 0.25194868445396423,
+      "learning_rate": 3e-05,
+      "loss": 1.3211,
+      "num_input_tokens_seen": 271961836,
+      "step": 7750
+    },
+    {
+      "epoch": 0.626003655385391,
+      "grad_norm": 0.26476165652275085,
+      "learning_rate": 3e-05,
+      "loss": 1.3175,
+      "num_input_tokens_seen": 272308540,
+      "step": 7760
+    },
+    {
+      "epoch": 0.626810361126867,
+      "grad_norm": 0.2768157720565796,
+      "learning_rate": 3e-05,
+      "loss": 1.3405,
+      "num_input_tokens_seen": 272680724,
+      "step": 7770
+    },
+    {
+      "epoch": 0.6276170668683431,
+      "grad_norm": 0.25789812207221985,
+      "learning_rate": 3e-05,
+      "loss": 1.3044,
+      "num_input_tokens_seen": 273040688,
+      "step": 7780
+    },
+    {
+      "epoch": 0.6284237726098191,
+      "grad_norm": 0.2867225408554077,
+      "learning_rate": 3e-05,
+      "loss": 1.3424,
+      "num_input_tokens_seen": 273396808,
+      "step": 7790
+    },
+    {
+      "epoch": 0.6292304783512951,
+      "grad_norm": 0.27524057030677795,
+      "learning_rate": 3e-05,
+      "loss": 1.3146,
+      "num_input_tokens_seen": 273725436,
+      "step": 7800
+    },
+    {
+      "epoch": 0.6300371840927712,
+      "grad_norm": 0.30353033542633057,
+      "learning_rate": 3e-05,
+      "loss": 1.2903,
+      "num_input_tokens_seen": 274061044,
+      "step": 7810
+    },
+    {
+      "epoch": 0.6308438898342472,
+      "grad_norm": 0.2527361810207367,
+      "learning_rate": 3e-05,
+      "loss": 1.3225,
+      "num_input_tokens_seen": 274423428,
+      "step": 7820
+    },
+    {
+      "epoch": 0.6316505955757232,
+      "grad_norm": 0.27751225233078003,
+      "learning_rate": 3e-05,
+      "loss": 1.3112,
+      "num_input_tokens_seen": 274770512,
+      "step": 7830
+    },
+    {
+      "epoch": 0.6324573013171992,
+      "grad_norm": 0.29832029342651367,
+      "learning_rate": 3e-05,
+      "loss": 1.3537,
+      "num_input_tokens_seen": 275116652,
+      "step": 7840
+    },
+    {
+      "epoch": 0.6332640070586752,
+      "grad_norm": 0.24705222249031067,
+      "learning_rate": 3e-05,
+      "loss": 1.3255,
+      "num_input_tokens_seen": 275512076,
+      "step": 7850
+    },
+    {
+      "epoch": 0.6340707128001513,
+      "grad_norm": 0.2816605567932129,
+      "learning_rate": 3e-05,
+      "loss": 1.3099,
+      "num_input_tokens_seen": 275863084,
+      "step": 7860
+    },
+    {
+      "epoch": 0.6348774185416273,
+      "grad_norm": 0.2889770567417145,
+      "learning_rate": 3e-05,
+      "loss": 1.324,
+      "num_input_tokens_seen": 276235188,
+      "step": 7870
+    },
+    {
+      "epoch": 0.6356841242831033,
+      "grad_norm": 0.2934252619743347,
+      "learning_rate": 3e-05,
+      "loss": 1.31,
+      "num_input_tokens_seen": 276601124,
+      "step": 7880
+    },
+    {
+      "epoch": 0.6364908300245793,
+      "grad_norm": 0.2529415488243103,
+      "learning_rate": 3e-05,
+      "loss": 1.2902,
+      "num_input_tokens_seen": 276959408,
+      "step": 7890
+    },
+    {
+      "epoch": 0.6372975357660553,
+      "grad_norm": 0.24715226888656616,
+      "learning_rate": 3e-05,
+      "loss": 1.2716,
+      "num_input_tokens_seen": 277332960,
+      "step": 7900
+    },
+    {
+      "epoch": 0.6381042415075313,
+      "grad_norm": 0.28011465072631836,
+      "learning_rate": 3e-05,
+      "loss": 1.3777,
+      "num_input_tokens_seen": 277666204,
+      "step": 7910
+    },
+    {
+      "epoch": 0.6389109472490073,
+      "grad_norm": 0.25102949142456055,
+      "learning_rate": 3e-05,
+      "loss": 1.2916,
+      "num_input_tokens_seen": 278007212,
+      "step": 7920
+    },
+    {
+      "epoch": 0.6397176529904834,
+      "grad_norm": 0.2727227210998535,
+      "learning_rate": 3e-05,
+      "loss": 1.2966,
+      "num_input_tokens_seen": 278373292,
+      "step": 7930
+    },
+    {
+      "epoch": 0.6405243587319595,
+      "grad_norm": 0.2720615267753601,
+      "learning_rate": 3e-05,
+      "loss": 1.3667,
+      "num_input_tokens_seen": 278725792,
+      "step": 7940
+    },
+    {
+      "epoch": 0.6413310644734355,
+      "grad_norm": 0.2724305987358093,
+      "learning_rate": 3e-05,
+      "loss": 1.2488,
+      "num_input_tokens_seen": 279085604,
+      "step": 7950
+    },
+    {
+      "epoch": 0.6421377702149115,
+      "grad_norm": 0.26985448598861694,
+      "learning_rate": 3e-05,
+      "loss": 1.3151,
+      "num_input_tokens_seen": 279472276,
+      "step": 7960
+    },
+    {
+      "epoch": 0.6429444759563875,
+      "grad_norm": 0.2569502890110016,
+      "learning_rate": 3e-05,
+      "loss": 1.2984,
+      "num_input_tokens_seen": 279809104,
+      "step": 7970
+    },
+    {
+      "epoch": 0.6437511816978635,
+      "grad_norm": 0.2665258049964905,
+      "learning_rate": 3e-05,
+      "loss": 1.2771,
+      "num_input_tokens_seen": 280160428,
+      "step": 7980
+    },
+    {
+      "epoch": 0.6445578874393395,
+      "grad_norm": 0.25413599610328674,
+      "learning_rate": 3e-05,
+      "loss": 1.2941,
+      "num_input_tokens_seen": 280518244,
+      "step": 7990
+    },
+    {
+      "epoch": 0.6453645931808155,
+      "grad_norm": 0.2681139409542084,
+      "learning_rate": 3e-05,
+      "loss": 1.2859,
+      "num_input_tokens_seen": 280866724,
+      "step": 8000
+    },
+    {
+      "epoch": 0.6453645931808155,
+      "eval_gen_len": 452.495,
+      "eval_loss": 1.2491791248321533,
+      "eval_rouge1": 37.05,
+      "eval_rouge2": 21.0468,
+      "eval_rougeL": 29.7988,
+      "eval_rougeLsum": 35.1882,
+      "eval_runtime": 1853.3751,
+      "eval_samples_per_second": 0.108,
+      "eval_steps_per_second": 0.027,
+      "num_input_tokens_seen": 280866724,
+      "step": 8000
+    },
+    {
+      "epoch": 0.6461712989222915,
+      "grad_norm": 0.24775606393814087,
+      "learning_rate": 3e-05,
+      "loss": 1.3535,
+      "num_input_tokens_seen": 281189452,
+      "step": 8010
+    },
+    {
+      "epoch": 0.6469780046637675,
+      "grad_norm": 0.2870043218135834,
+      "learning_rate": 3e-05,
+      "loss": 1.2518,
+      "num_input_tokens_seen": 281504304,
+      "step": 8020
+    },
+    {
+      "epoch": 0.6477847104052435,
+      "grad_norm": 0.26712578535079956,
+      "learning_rate": 3e-05,
+      "loss": 1.3021,
+      "num_input_tokens_seen": 281829352,
+      "step": 8030
+    },
+    {
+      "epoch": 0.6485914161467196,
+      "grad_norm": 0.24101081490516663,
+      "learning_rate": 3e-05,
+      "loss": 1.3482,
+      "num_input_tokens_seen": 282176564,
+      "step": 8040
+    },
+    {
+      "epoch": 0.6493981218881957,
+      "grad_norm": 0.278340220451355,
+      "learning_rate": 3e-05,
+      "loss": 1.2904,
+      "num_input_tokens_seen": 282536828,
+      "step": 8050
+    },
+    {
+      "epoch": 0.6502048276296717,
+      "grad_norm": 0.238587886095047,
+      "learning_rate": 3e-05,
+      "loss": 1.3017,
+      "num_input_tokens_seen": 282870112,
+      "step": 8060
+    },
+    {
+      "epoch": 0.6510115333711477,
+      "grad_norm": 0.25995177030563354,
+      "learning_rate": 3e-05,
+      "loss": 1.3319,
+      "num_input_tokens_seen": 283211856,
+      "step": 8070
+    },
+    {
+      "epoch": 0.6518182391126237,
+      "grad_norm": 0.25454819202423096,
+      "learning_rate": 3e-05,
+      "loss": 1.2937,
+      "num_input_tokens_seen": 283557108,
+      "step": 8080
+    },
+    {
+      "epoch": 0.6526249448540997,
+      "grad_norm": 0.2610025405883789,
+      "learning_rate": 3e-05,
+      "loss": 1.3105,
+      "num_input_tokens_seen": 283939544,
+      "step": 8090
+    },
+    {
+      "epoch": 0.6534316505955757,
+      "grad_norm": 0.2735656797885895,
+      "learning_rate": 3e-05,
+      "loss": 1.3028,
+      "num_input_tokens_seen": 284295512,
+      "step": 8100
+    },
+    {
+      "epoch": 0.6542383563370517,
+      "grad_norm": 0.2599696218967438,
+      "learning_rate": 3e-05,
+      "loss": 1.2618,
+      "num_input_tokens_seen": 284660732,
+      "step": 8110
+    },
+    {
+      "epoch": 0.6550450620785278,
+      "grad_norm": 0.2804352343082428,
+      "learning_rate": 3e-05,
+      "loss": 1.3266,
+      "num_input_tokens_seen": 284985504,
+      "step": 8120
+    },
+    {
+      "epoch": 0.6558517678200038,
+      "grad_norm": 0.26796236634254456,
+      "learning_rate": 3e-05,
+      "loss": 1.2956,
+      "num_input_tokens_seen": 285352540,
+      "step": 8130
+    },
+    {
+      "epoch": 0.6566584735614798,
+      "grad_norm": 0.26151329278945923,
+      "learning_rate": 3e-05,
+      "loss": 1.295,
+      "num_input_tokens_seen": 285678276,
+      "step": 8140
+    },
+    {
+      "epoch": 0.6574651793029558,
+      "grad_norm": 0.2699349522590637,
+      "learning_rate": 3e-05,
+      "loss": 1.3056,
+      "num_input_tokens_seen": 286023024,
+      "step": 8150
+    },
+    {
+      "epoch": 0.6582718850444318,
+      "grad_norm": 0.2832753360271454,
+      "learning_rate": 3e-05,
+      "loss": 1.2952,
+      "num_input_tokens_seen": 286356540,
+      "step": 8160
+    },
+    {
+      "epoch": 0.6590785907859079,
+      "grad_norm": 0.26573285460472107,
+      "learning_rate": 3e-05,
+      "loss": 1.3337,
+      "num_input_tokens_seen": 286700992,
+      "step": 8170
+    },
+    {
+      "epoch": 0.6598852965273839,
+      "grad_norm": 0.26687324047088623,
+      "learning_rate": 3e-05,
+      "loss": 1.2572,
+      "num_input_tokens_seen": 287050020,
+      "step": 8180
+    },
+    {
+      "epoch": 0.6606920022688599,
+      "grad_norm": 0.26736560463905334,
+      "learning_rate": 3e-05,
+      "loss": 1.2766,
+      "num_input_tokens_seen": 287417060,
+      "step": 8190
+    },
+    {
+      "epoch": 0.661498708010336,
+      "grad_norm": 0.26670607924461365,
+      "learning_rate": 3e-05,
+      "loss": 1.2882,
+      "num_input_tokens_seen": 287741024,
+      "step": 8200
+    },
+    {
+      "epoch": 0.662305413751812,
+      "grad_norm": 0.29119133949279785,
+      "learning_rate": 3e-05,
+      "loss": 1.3212,
+      "num_input_tokens_seen": 288119560,
+      "step": 8210
+    },
+    {
+      "epoch": 0.663112119493288,
+      "grad_norm": 0.26133713126182556,
+      "learning_rate": 3e-05,
+      "loss": 1.2795,
+      "num_input_tokens_seen": 288463204,
+      "step": 8220
+    },
+    {
+      "epoch": 0.663918825234764,
+      "grad_norm": 0.2923208177089691,
+      "learning_rate": 3e-05,
+      "loss": 1.3034,
+      "num_input_tokens_seen": 288775820,
+      "step": 8230
+    },
+    {
+      "epoch": 0.66472553097624,
+      "grad_norm": 0.24762633442878723,
+      "learning_rate": 3e-05,
+      "loss": 1.2558,
+      "num_input_tokens_seen": 289102444,
+      "step": 8240
+    },
+    {
+      "epoch": 0.665532236717716,
+      "grad_norm": 0.29962268471717834,
+      "learning_rate": 3e-05,
+      "loss": 1.3248,
+      "num_input_tokens_seen": 289448904,
+      "step": 8250
+    },
+    {
+      "epoch": 0.666338942459192,
+      "grad_norm": 0.27402591705322266,
+      "learning_rate": 3e-05,
+      "loss": 1.3558,
+      "num_input_tokens_seen": 289778028,
+      "step": 8260
+    },
+    {
+      "epoch": 0.667145648200668,
+      "grad_norm": 0.28333625197410583,
+      "learning_rate": 3e-05,
+      "loss": 1.2694,
+      "num_input_tokens_seen": 290149804,
+      "step": 8270
+    },
+    {
+      "epoch": 0.667952353942144,
+      "grad_norm": 0.26104313135147095,
+      "learning_rate": 3e-05,
+      "loss": 1.2988,
+      "num_input_tokens_seen": 290506276,
+      "step": 8280
+    },
+    {
+      "epoch": 0.66875905968362,
+      "grad_norm": 0.26603755354881287,
+      "learning_rate": 3e-05,
+      "loss": 1.3397,
+      "num_input_tokens_seen": 290867248,
+      "step": 8290
+    },
+    {
+      "epoch": 0.6695657654250962,
+      "grad_norm": 0.2591850459575653,
+      "learning_rate": 3e-05,
+      "loss": 1.27,
+      "num_input_tokens_seen": 291243604,
+      "step": 8300
+    },
+    {
+      "epoch": 0.6703724711665722,
+      "grad_norm": 0.2640308141708374,
+      "learning_rate": 3e-05,
+      "loss": 1.3251,
+      "num_input_tokens_seen": 291586776,
+      "step": 8310
+    },
+    {
+      "epoch": 0.6711791769080482,
+      "grad_norm": 0.29766708612442017,
+      "learning_rate": 3e-05,
+      "loss": 1.2843,
+      "num_input_tokens_seen": 291935504,
+      "step": 8320
+    },
+    {
+      "epoch": 0.6719858826495242,
+      "grad_norm": 0.24987733364105225,
+      "learning_rate": 3e-05,
+      "loss": 1.3028,
+      "num_input_tokens_seen": 292267852,
+      "step": 8330
+    },
+    {
+      "epoch": 0.6727925883910002,
+      "grad_norm": 0.26682114601135254,
+      "learning_rate": 3e-05,
+      "loss": 1.3688,
+      "num_input_tokens_seen": 292629948,
+      "step": 8340
+    },
+    {
+      "epoch": 0.6735992941324762,
+      "grad_norm": 0.25744229555130005,
+      "learning_rate": 3e-05,
+      "loss": 1.294,
+      "num_input_tokens_seen": 293012512,
+      "step": 8350
+    },
+    {
+      "epoch": 0.6744059998739522,
+      "grad_norm": 0.2486562579870224,
+      "learning_rate": 3e-05,
+      "loss": 1.2671,
+      "num_input_tokens_seen": 293349760,
+      "step": 8360
+    },
+    {
+      "epoch": 0.6752127056154282,
+      "grad_norm": 0.27496910095214844,
+      "learning_rate": 3e-05,
+      "loss": 1.2869,
+      "num_input_tokens_seen": 293707052,
+      "step": 8370
+    },
+    {
+      "epoch": 0.6760194113569042,
+      "grad_norm": 0.26703888177871704,
+      "learning_rate": 3e-05,
+      "loss": 1.279,
+      "num_input_tokens_seen": 294091848,
+      "step": 8380
+    },
+    {
+      "epoch": 0.6768261170983803,
+      "grad_norm": 0.3000788390636444,
+      "learning_rate": 3e-05,
+      "loss": 1.2746,
+      "num_input_tokens_seen": 294459400,
+      "step": 8390
+    },
+    {
+      "epoch": 0.6776328228398563,
+      "grad_norm": 0.2827373147010803,
+      "learning_rate": 3e-05,
+      "loss": 1.2711,
+      "num_input_tokens_seen": 294815776,
+      "step": 8400
+    },
+    {
+      "epoch": 0.6784395285813323,
+      "grad_norm": 0.2718258500099182,
+      "learning_rate": 3e-05,
+      "loss": 1.269,
+      "num_input_tokens_seen": 295182760,
+      "step": 8410
+    },
+    {
+      "epoch": 0.6792462343228084,
+      "grad_norm": 0.2768170237541199,
+      "learning_rate": 3e-05,
+      "loss": 1.3107,
+      "num_input_tokens_seen": 295545640,
+      "step": 8420
+    },
+    {
+      "epoch": 0.6800529400642844,
+      "grad_norm": 0.29544582962989807,
+      "learning_rate": 3e-05,
+      "loss": 1.3062,
+      "num_input_tokens_seen": 295896292,
+      "step": 8430
+    },
+    {
+      "epoch": 0.6808596458057604,
+      "grad_norm": 0.2775704264640808,
+      "learning_rate": 3e-05,
+      "loss": 1.2903,
+      "num_input_tokens_seen": 296238076,
+      "step": 8440
+    },
+    {
+      "epoch": 0.6816663515472364,
+      "grad_norm": 0.29178759455680847,
+      "learning_rate": 3e-05,
+      "loss": 1.2591,
+      "num_input_tokens_seen": 296593652,
+      "step": 8450
+    },
+    {
+      "epoch": 0.6824730572887124,
+      "grad_norm": 0.2721198797225952,
+      "learning_rate": 3e-05,
+      "loss": 1.3322,
+      "num_input_tokens_seen": 296929900,
+      "step": 8460
+    },
+    {
+      "epoch": 0.6832797630301884,
+      "grad_norm": 0.27254942059516907,
+      "learning_rate": 3e-05,
+      "loss": 1.2871,
+      "num_input_tokens_seen": 297259576,
+      "step": 8470
+    },
+    {
+      "epoch": 0.6840864687716645,
+      "grad_norm": 0.25439295172691345,
+      "learning_rate": 3e-05,
+      "loss": 1.3424,
+      "num_input_tokens_seen": 297618016,
+      "step": 8480
+    },
+    {
+      "epoch": 0.6848931745131405,
+      "grad_norm": 0.2755286395549774,
+      "learning_rate": 3e-05,
+      "loss": 1.3161,
+      "num_input_tokens_seen": 297965452,
+      "step": 8490
+    },
+    {
+      "epoch": 0.6856998802546165,
+      "grad_norm": 0.2616944909095764,
+      "learning_rate": 3e-05,
+      "loss": 1.2693,
+      "num_input_tokens_seen": 298311824,
+      "step": 8500
+    },
+    {
+      "epoch": 0.6865065859960925,
+      "grad_norm": 0.26057368516921997,
+      "learning_rate": 3e-05,
+      "loss": 1.3227,
+      "num_input_tokens_seen": 298690492,
+      "step": 8510
+    },
+    {
+      "epoch": 0.6873132917375685,
+      "grad_norm": 0.28719767928123474,
+      "learning_rate": 3e-05,
+      "loss": 1.3112,
+      "num_input_tokens_seen": 299031280,
+      "step": 8520
+    },
+    {
+      "epoch": 0.6881199974790445,
+      "grad_norm": 0.2910424768924713,
+      "learning_rate": 3e-05,
+      "loss": 1.2747,
+      "num_input_tokens_seen": 299391836,
+      "step": 8530
+    },
+    {
+      "epoch": 0.6889267032205206,
+      "grad_norm": 0.24181599915027618,
+      "learning_rate": 3e-05,
+      "loss": 1.2351,
+      "num_input_tokens_seen": 299756312,
+      "step": 8540
+    },
+    {
+      "epoch": 0.6897334089619966,
+      "grad_norm": 0.30020081996917725,
+      "learning_rate": 3e-05,
+      "loss": 1.2665,
+      "num_input_tokens_seen": 300106552,
+      "step": 8550
+    },
+    {
+      "epoch": 0.6905401147034727,
+      "grad_norm": 0.24974121153354645,
+      "learning_rate": 3e-05,
+      "loss": 1.2678,
+      "num_input_tokens_seen": 300444076,
+      "step": 8560
+    },
+    {
+      "epoch": 0.6913468204449487,
+      "grad_norm": 0.24613253772258759,
+      "learning_rate": 3e-05,
+      "loss": 1.3276,
+      "num_input_tokens_seen": 300774136,
+      "step": 8570
+    },
+    {
+      "epoch": 0.6921535261864247,
+      "grad_norm": 0.24651503562927246,
+      "learning_rate": 3e-05,
+      "loss": 1.3277,
+      "num_input_tokens_seen": 301144656,
+      "step": 8580
+    },
+    {
+      "epoch": 0.6929602319279007,
+      "grad_norm": 0.2640286982059479,
+      "learning_rate": 3e-05,
+      "loss": 1.2923,
+      "num_input_tokens_seen": 301508348,
+      "step": 8590
+    },
+    {
+      "epoch": 0.6937669376693767,
+      "grad_norm": 0.2569688558578491,
+      "learning_rate": 3e-05,
+      "loss": 1.3099,
+      "num_input_tokens_seen": 301875020,
+      "step": 8600
+    },
+    {
+      "epoch": 0.6945736434108527,
+      "grad_norm": 0.2461465746164322,
+      "learning_rate": 3e-05,
+      "loss": 1.2561,
+      "num_input_tokens_seen": 302220640,
+      "step": 8610
+    },
+    {
+      "epoch": 0.6953803491523287,
+      "grad_norm": 0.28222113847732544,
+      "learning_rate": 3e-05,
+      "loss": 1.3067,
+      "num_input_tokens_seen": 302536036,
+      "step": 8620
+    },
+    {
+      "epoch": 0.6961870548938047,
+      "grad_norm": 0.2518487870693207,
+      "learning_rate": 3e-05,
+      "loss": 1.2807,
+      "num_input_tokens_seen": 302868688,
+      "step": 8630
+    },
+    {
+      "epoch": 0.6969937606352807,
+      "grad_norm": 0.2543613016605377,
+      "learning_rate": 3e-05,
+      "loss": 1.2858,
+      "num_input_tokens_seen": 303210396,
+      "step": 8640
+    },
+    {
+      "epoch": 0.6978004663767567,
+      "grad_norm": 0.237895667552948,
+      "learning_rate": 3e-05,
+      "loss": 1.2601,
+      "num_input_tokens_seen": 303569724,
+      "step": 8650
+    },
+    {
+      "epoch": 0.6986071721182328,
+      "grad_norm": 0.2580051124095917,
+      "learning_rate": 3e-05,
+      "loss": 1.2494,
+      "num_input_tokens_seen": 303930156,
+      "step": 8660
+    },
+    {
+      "epoch": 0.6994138778597089,
+      "grad_norm": 0.269072949886322,
+      "learning_rate": 3e-05,
+      "loss": 1.3098,
+      "num_input_tokens_seen": 304273948,
+      "step": 8670
+    },
+    {
+      "epoch": 0.7002205836011849,
+      "grad_norm": 0.24792876839637756,
+      "learning_rate": 3e-05,
+      "loss": 1.2807,
+      "num_input_tokens_seen": 304633556,
+      "step": 8680
+    },
+    {
+      "epoch": 0.7010272893426609,
+      "grad_norm": 0.30012139678001404,
+      "learning_rate": 3e-05,
+      "loss": 1.2371,
+      "num_input_tokens_seen": 304995848,
+      "step": 8690
+    },
+    {
+      "epoch": 0.7018339950841369,
+      "grad_norm": 0.26541563868522644,
+      "learning_rate": 3e-05,
+      "loss": 1.3035,
+      "num_input_tokens_seen": 305341180,
+      "step": 8700
+    },
+    {
+      "epoch": 0.7026407008256129,
+      "grad_norm": 0.2490505874156952,
+      "learning_rate": 3e-05,
+      "loss": 1.3162,
+      "num_input_tokens_seen": 305687480,
+      "step": 8710
+    },
+    {
+      "epoch": 0.7034474065670889,
+      "grad_norm": 0.2835010290145874,
+      "learning_rate": 3e-05,
+      "loss": 1.2839,
+      "num_input_tokens_seen": 306057544,
+      "step": 8720
+    },
+    {
+      "epoch": 0.7042541123085649,
+      "grad_norm": 0.28543031215667725,
+      "learning_rate": 3e-05,
+      "loss": 1.303,
+      "num_input_tokens_seen": 306430396,
+      "step": 8730
+    },
+    {
+      "epoch": 0.705060818050041,
+      "grad_norm": 0.26753681898117065,
+      "learning_rate": 3e-05,
+      "loss": 1.3161,
+      "num_input_tokens_seen": 306769880,
+      "step": 8740
+    },
+    {
+      "epoch": 0.705867523791517,
+      "grad_norm": 0.26406893134117126,
+      "learning_rate": 3e-05,
+      "loss": 1.2677,
+      "num_input_tokens_seen": 307115084,
+      "step": 8750
+    },
+    {
+      "epoch": 0.706674229532993,
+      "grad_norm": 0.25874289870262146,
+      "learning_rate": 3e-05,
+      "loss": 1.313,
+      "num_input_tokens_seen": 307459572,
+      "step": 8760
+    },
+    {
+      "epoch": 0.707480935274469,
+      "grad_norm": 0.26951470971107483,
+      "learning_rate": 3e-05,
+      "loss": 1.2776,
+      "num_input_tokens_seen": 307829708,
+      "step": 8770
+    },
+    {
+      "epoch": 0.708287641015945,
+      "grad_norm": 0.26149865984916687,
+      "learning_rate": 3e-05,
+      "loss": 1.2774,
+      "num_input_tokens_seen": 308183368,
+      "step": 8780
+    },
+    {
+      "epoch": 0.7090943467574211,
+      "grad_norm": 0.27776703238487244,
+      "learning_rate": 3e-05,
+      "loss": 1.2743,
+      "num_input_tokens_seen": 308541012,
+      "step": 8790
+    },
+    {
+      "epoch": 0.7099010524988971,
+      "grad_norm": 0.2505494952201843,
+      "learning_rate": 3e-05,
+      "loss": 1.3011,
+      "num_input_tokens_seen": 308894080,
+      "step": 8800
+    },
+    {
+      "epoch": 0.7107077582403731,
+      "grad_norm": 0.26979315280914307,
+      "learning_rate": 3e-05,
+      "loss": 1.281,
+      "num_input_tokens_seen": 309264200,
+      "step": 8810
+    },
+    {
+      "epoch": 0.7115144639818491,
+      "grad_norm": 0.29816481471061707,
+      "learning_rate": 3e-05,
+      "loss": 1.2514,
+      "num_input_tokens_seen": 309617452,
+      "step": 8820
+    },
+    {
+      "epoch": 0.7123211697233252,
+      "grad_norm": 0.2611445188522339,
+      "learning_rate": 3e-05,
+      "loss": 1.317,
+      "num_input_tokens_seen": 309992684,
+      "step": 8830
+    },
+    {
+      "epoch": 0.7131278754648012,
+      "grad_norm": 0.24103762209415436,
+      "learning_rate": 3e-05,
+      "loss": 1.2898,
+      "num_input_tokens_seen": 310335500,
+      "step": 8840
+    },
+    {
+      "epoch": 0.7139345812062772,
+      "grad_norm": 0.2735673487186432,
+      "learning_rate": 3e-05,
+      "loss": 1.3122,
+      "num_input_tokens_seen": 310688468,
+      "step": 8850
+    },
+    {
+      "epoch": 0.7147412869477532,
+      "grad_norm": 0.28114932775497437,
+      "learning_rate": 3e-05,
+      "loss": 1.3069,
+      "num_input_tokens_seen": 311050176,
+      "step": 8860
+    },
+    {
+      "epoch": 0.7155479926892292,
+      "grad_norm": 0.235976904630661,
+      "learning_rate": 3e-05,
+      "loss": 1.2693,
+      "num_input_tokens_seen": 311402020,
+      "step": 8870
+    },
+    {
+      "epoch": 0.7163546984307052,
+      "grad_norm": 0.26939788460731506,
+      "learning_rate": 3e-05,
+      "loss": 1.3097,
+      "num_input_tokens_seen": 311759596,
+      "step": 8880
+    },
+    {
+      "epoch": 0.7171614041721812,
+      "grad_norm": 0.25951477885246277,
+      "learning_rate": 3e-05,
+      "loss": 1.2904,
+      "num_input_tokens_seen": 312097396,
+      "step": 8890
+    },
+    {
+      "epoch": 0.7179681099136572,
+      "grad_norm": 0.2675970196723938,
+      "learning_rate": 3e-05,
+      "loss": 1.2992,
+      "num_input_tokens_seen": 312460216,
+      "step": 8900
+    },
+    {
+      "epoch": 0.7187748156551333,
+      "grad_norm": 0.25855639576911926,
+      "learning_rate": 3e-05,
+      "loss": 1.2781,
+      "num_input_tokens_seen": 312826724,
+      "step": 8910
+    },
+    {
+      "epoch": 0.7195815213966094,
+      "grad_norm": 0.2917179465293884,
+      "learning_rate": 3e-05,
+      "loss": 1.2743,
+      "num_input_tokens_seen": 313191192,
+      "step": 8920
+    },
+    {
+      "epoch": 0.7203882271380854,
+      "grad_norm": 0.2799781262874603,
+      "learning_rate": 3e-05,
+      "loss": 1.2837,
+      "num_input_tokens_seen": 313535952,
+      "step": 8930
+    },
+    {
+      "epoch": 0.7211949328795614,
+      "grad_norm": 0.27598562836647034,
+      "learning_rate": 3e-05,
+      "loss": 1.2682,
+      "num_input_tokens_seen": 313891512,
+      "step": 8940
+    },
+    {
+      "epoch": 0.7220016386210374,
+      "grad_norm": 0.24936188757419586,
+      "learning_rate": 3e-05,
+      "loss": 1.2888,
+      "num_input_tokens_seen": 314237120,
+      "step": 8950
+    },
+    {
+      "epoch": 0.7228083443625134,
+      "grad_norm": 0.28626489639282227,
+      "learning_rate": 3e-05,
+      "loss": 1.2901,
+      "num_input_tokens_seen": 314598912,
+      "step": 8960
+    },
+    {
+      "epoch": 0.7236150501039894,
+      "grad_norm": 0.25209441781044006,
+      "learning_rate": 3e-05,
+      "loss": 1.3165,
+      "num_input_tokens_seen": 314942440,
+      "step": 8970
+    },
+    {
+      "epoch": 0.7244217558454654,
+      "grad_norm": 0.27700820565223694,
+      "learning_rate": 3e-05,
+      "loss": 1.2825,
+      "num_input_tokens_seen": 315310504,
+      "step": 8980
+    },
+    {
+      "epoch": 0.7252284615869414,
+      "grad_norm": 0.2671830356121063,
+      "learning_rate": 3e-05,
+      "loss": 1.276,
+      "num_input_tokens_seen": 315682248,
+      "step": 8990
+    },
+    {
+      "epoch": 0.7260351673284174,
+      "grad_norm": 0.3061155080795288,
+      "learning_rate": 3e-05,
+      "loss": 1.298,
+      "num_input_tokens_seen": 316042068,
+      "step": 9000
+    },
+    {
+      "epoch": 0.7260351673284174,
+      "eval_gen_len": 464.37,
+      "eval_loss": 1.2210745811462402,
+      "eval_rouge1": 36.6966,
+      "eval_rouge2": 20.8189,
+      "eval_rougeL": 29.7115,
+      "eval_rougeLsum": 34.7528,
+      "eval_runtime": 1686.3491,
+      "eval_samples_per_second": 0.119,
+      "eval_steps_per_second": 0.03,
+      "num_input_tokens_seen": 316042068,
+      "step": 9000
+    },
+    {
+      "epoch": 0.7268418730698935,
+      "grad_norm": 0.2395300716161728,
+      "learning_rate": 3e-05,
+      "loss": 1.28,
+      "num_input_tokens_seen": 316377156,
+      "step": 9010
+    },
+    {
+      "epoch": 0.7276485788113695,
+      "grad_norm": 0.26959264278411865,
+      "learning_rate": 3e-05,
+      "loss": 1.2808,
+      "num_input_tokens_seen": 316739840,
+      "step": 9020
+    },
+    {
+      "epoch": 0.7284552845528456,
+      "grad_norm": 0.2841363549232483,
+      "learning_rate": 3e-05,
+      "loss": 1.2911,
+      "num_input_tokens_seen": 317084172,
+      "step": 9030
+    },
+    {
+      "epoch": 0.7292619902943216,
+      "grad_norm": 0.2511976361274719,
+      "learning_rate": 3e-05,
+      "loss": 1.2442,
+      "num_input_tokens_seen": 317440872,
+      "step": 9040
+    },
+    {
+      "epoch": 0.7300686960357976,
+      "grad_norm": 0.26146405935287476,
+      "learning_rate": 3e-05,
+      "loss": 1.3228,
+      "num_input_tokens_seen": 317755504,
+      "step": 9050
+    },
+    {
+      "epoch": 0.7308754017772736,
+      "grad_norm": 0.2912101745605469,
+      "learning_rate": 3e-05,
+      "loss": 1.2688,
+      "num_input_tokens_seen": 318148088,
+      "step": 9060
+    },
+    {
+      "epoch": 0.7316821075187496,
+      "grad_norm": 0.2883487641811371,
+      "learning_rate": 3e-05,
+      "loss": 1.313,
+      "num_input_tokens_seen": 318499404,
+      "step": 9070
+    },
+    {
+      "epoch": 0.7324888132602256,
+      "grad_norm": 0.2744971811771393,
+      "learning_rate": 3e-05,
+      "loss": 1.2339,
+      "num_input_tokens_seen": 318857524,
+      "step": 9080
+    },
+    {
+      "epoch": 0.7332955190017016,
+      "grad_norm": 0.3002362847328186,
+      "learning_rate": 3e-05,
+      "loss": 1.2448,
+      "num_input_tokens_seen": 319207924,
+      "step": 9090
+    },
+    {
+      "epoch": 0.7341022247431777,
+      "grad_norm": 0.28158414363861084,
+      "learning_rate": 3e-05,
+      "loss": 1.27,
+      "num_input_tokens_seen": 319547752,
+      "step": 9100
+    },
+    {
+      "epoch": 0.7349089304846537,
+      "grad_norm": 0.2615879774093628,
+      "learning_rate": 3e-05,
+      "loss": 1.2781,
+      "num_input_tokens_seen": 319898356,
+      "step": 9110
+    },
+    {
+      "epoch": 0.7357156362261297,
+      "grad_norm": 0.24552986025810242,
+      "learning_rate": 3e-05,
+      "loss": 1.2847,
+      "num_input_tokens_seen": 320260504,
+      "step": 9120
+    },
+    {
+      "epoch": 0.7365223419676057,
+      "grad_norm": 0.2580191195011139,
+      "learning_rate": 3e-05,
+      "loss": 1.298,
+      "num_input_tokens_seen": 320619676,
+      "step": 9130
+    },
+    {
+      "epoch": 0.7373290477090817,
+      "grad_norm": 0.2691594660282135,
+      "learning_rate": 3e-05,
+      "loss": 1.267,
+      "num_input_tokens_seen": 320975396,
+      "step": 9140
+    },
+    {
+      "epoch": 0.7381357534505577,
+      "grad_norm": 0.2579469382762909,
+      "learning_rate": 3e-05,
+      "loss": 1.313,
+      "num_input_tokens_seen": 321340052,
+      "step": 9150
+    },
+    {
+      "epoch": 0.7389424591920338,
+      "grad_norm": 0.2658007740974426,
+      "learning_rate": 3e-05,
+      "loss": 1.3099,
+      "num_input_tokens_seen": 321690400,
+      "step": 9160
+    },
+    {
+      "epoch": 0.7397491649335098,
+      "grad_norm": 0.2555302679538727,
+      "learning_rate": 3e-05,
+      "loss": 1.2961,
+      "num_input_tokens_seen": 322040856,
+      "step": 9170
+    },
+    {
+      "epoch": 0.7405558706749858,
+      "grad_norm": 0.24547891318798065,
+      "learning_rate": 3e-05,
+      "loss": 1.316,
+      "num_input_tokens_seen": 322390612,
+      "step": 9180
+    },
+    {
+      "epoch": 0.7413625764164619,
+      "grad_norm": 0.26539695262908936,
+      "learning_rate": 3e-05,
+      "loss": 1.2573,
+      "num_input_tokens_seen": 322751676,
+      "step": 9190
+    },
+    {
+      "epoch": 0.7421692821579379,
+      "grad_norm": 0.24796757102012634,
+      "learning_rate": 3e-05,
+      "loss": 1.2308,
+      "num_input_tokens_seen": 323058852,
+      "step": 9200
+    },
+    {
+      "epoch": 0.7429759878994139,
+      "grad_norm": 0.26277750730514526,
+      "learning_rate": 3e-05,
+      "loss": 1.2912,
+      "num_input_tokens_seen": 323378492,
+      "step": 9210
+    },
+    {
+      "epoch": 0.7437826936408899,
+      "grad_norm": 0.2662057876586914,
+      "learning_rate": 3e-05,
+      "loss": 1.2891,
+      "num_input_tokens_seen": 323741544,
+      "step": 9220
+    },
+    {
+      "epoch": 0.7445893993823659,
+      "grad_norm": 0.30241715908050537,
+      "learning_rate": 3e-05,
+      "loss": 1.2783,
+      "num_input_tokens_seen": 324084828,
+      "step": 9230
+    },
+    {
+      "epoch": 0.7453961051238419,
+      "grad_norm": 0.24552224576473236,
+      "learning_rate": 3e-05,
+      "loss": 1.2602,
+      "num_input_tokens_seen": 324429788,
+      "step": 9240
+    },
+    {
+      "epoch": 0.7462028108653179,
+      "grad_norm": 0.2982407212257385,
+      "learning_rate": 3e-05,
+      "loss": 1.2724,
+      "num_input_tokens_seen": 324762408,
+      "step": 9250
+    },
+    {
+      "epoch": 0.7470095166067939,
+      "grad_norm": 0.2681979835033417,
+      "learning_rate": 3e-05,
+      "loss": 1.2691,
+      "num_input_tokens_seen": 325100544,
+      "step": 9260
+    },
+    {
+      "epoch": 0.7478162223482699,
+      "grad_norm": 0.23062004148960114,
+      "learning_rate": 3e-05,
+      "loss": 1.2752,
+      "num_input_tokens_seen": 325430040,
+      "step": 9270
+    },
+    {
+      "epoch": 0.7486229280897461,
+      "grad_norm": 0.2845359742641449,
+      "learning_rate": 3e-05,
+      "loss": 1.2589,
+      "num_input_tokens_seen": 325776508,
+      "step": 9280
+    },
+    {
+      "epoch": 0.7494296338312221,
+      "grad_norm": 0.28453579545021057,
+      "learning_rate": 3e-05,
+      "loss": 1.264,
+      "num_input_tokens_seen": 326132120,
+      "step": 9290
+    },
+    {
+      "epoch": 0.7502363395726981,
+      "grad_norm": 0.2852461040019989,
+      "learning_rate": 3e-05,
+      "loss": 1.2583,
+      "num_input_tokens_seen": 326483084,
+      "step": 9300
+    },
+    {
+      "epoch": 0.7510430453141741,
+      "grad_norm": 0.25744280219078064,
+      "learning_rate": 3e-05,
+      "loss": 1.2774,
+      "num_input_tokens_seen": 326835932,
+      "step": 9310
+    },
+    {
+      "epoch": 0.7518497510556501,
+      "grad_norm": 0.255248486995697,
+      "learning_rate": 3e-05,
+      "loss": 1.2249,
+      "num_input_tokens_seen": 327198368,
+      "step": 9320
+    },
+    {
+      "epoch": 0.7526564567971261,
+      "grad_norm": 0.25559529662132263,
+      "learning_rate": 3e-05,
+      "loss": 1.2555,
+      "num_input_tokens_seen": 327558064,
+      "step": 9330
+    },
+    {
+      "epoch": 0.7534631625386021,
+      "grad_norm": 0.27276313304901123,
+      "learning_rate": 3e-05,
+      "loss": 1.2728,
+      "num_input_tokens_seen": 327905308,
+      "step": 9340
+    },
+    {
+      "epoch": 0.7542698682800781,
+      "grad_norm": 0.26818275451660156,
+      "learning_rate": 3e-05,
+      "loss": 1.2931,
+      "num_input_tokens_seen": 328237128,
+      "step": 9350
+    },
+    {
+      "epoch": 0.7550765740215541,
+      "grad_norm": 0.29092878103256226,
+      "learning_rate": 3e-05,
+      "loss": 1.2891,
+      "num_input_tokens_seen": 328586876,
+      "step": 9360
+    },
+    {
+      "epoch": 0.7558832797630302,
+      "grad_norm": 0.25079798698425293,
+      "learning_rate": 3e-05,
+      "loss": 1.2917,
+      "num_input_tokens_seen": 328894680,
+      "step": 9370
+    },
+    {
+      "epoch": 0.7566899855045062,
+      "grad_norm": 0.23828420042991638,
+      "learning_rate": 3e-05,
+      "loss": 1.3024,
+      "num_input_tokens_seen": 329232548,
+      "step": 9380
+    },
+    {
+      "epoch": 0.7574966912459822,
+      "grad_norm": 0.24749857187271118,
+      "learning_rate": 3e-05,
+      "loss": 1.245,
+      "num_input_tokens_seen": 329572096,
+      "step": 9390
+    },
+    {
+      "epoch": 0.7583033969874583,
+      "grad_norm": 0.24294038116931915,
+      "learning_rate": 3e-05,
+      "loss": 1.2594,
+      "num_input_tokens_seen": 329935620,
+      "step": 9400
+    },
+    {
+      "epoch": 0.7591101027289343,
+      "grad_norm": 0.24688206613063812,
+      "learning_rate": 3e-05,
+      "loss": 1.2966,
+      "num_input_tokens_seen": 330298316,
+      "step": 9410
+    },
+    {
+      "epoch": 0.7599168084704103,
+      "grad_norm": 0.26844438910484314,
+      "learning_rate": 3e-05,
+      "loss": 1.2428,
+      "num_input_tokens_seen": 330663576,
+      "step": 9420
+    },
+    {
+      "epoch": 0.7607235142118863,
+      "grad_norm": 0.24980930984020233,
+      "learning_rate": 3e-05,
+      "loss": 1.2041,
+      "num_input_tokens_seen": 330992136,
+      "step": 9430
+    },
+    {
+      "epoch": 0.7615302199533623,
+      "grad_norm": 0.26029011607170105,
+      "learning_rate": 3e-05,
+      "loss": 1.2654,
+      "num_input_tokens_seen": 331366748,
+      "step": 9440
+    },
+    {
+      "epoch": 0.7623369256948384,
+      "grad_norm": 0.2643781006336212,
+      "learning_rate": 3e-05,
+      "loss": 1.2701,
+      "num_input_tokens_seen": 331701028,
+      "step": 9450
+    },
+    {
+      "epoch": 0.7631436314363144,
+      "grad_norm": 0.2505422532558441,
+      "learning_rate": 3e-05,
+      "loss": 1.2833,
+      "num_input_tokens_seen": 332092676,
+      "step": 9460
+    },
+    {
+      "epoch": 0.7639503371777904,
+      "grad_norm": 0.2630390524864197,
+      "learning_rate": 3e-05,
+      "loss": 1.2207,
+      "num_input_tokens_seen": 332401596,
+      "step": 9470
+    },
+    {
+      "epoch": 0.7647570429192664,
+      "grad_norm": 0.27384325861930847,
+      "learning_rate": 3e-05,
+      "loss": 1.3175,
+      "num_input_tokens_seen": 332760052,
+      "step": 9480
+    },
+    {
+      "epoch": 0.7655637486607424,
+      "grad_norm": 0.29426440596580505,
+      "learning_rate": 3e-05,
+      "loss": 1.2375,
+      "num_input_tokens_seen": 333118996,
+      "step": 9490
+    },
+    {
+      "epoch": 0.7663704544022184,
+      "grad_norm": 0.2638697326183319,
+      "learning_rate": 3e-05,
+      "loss": 1.2639,
+      "num_input_tokens_seen": 333468912,
+      "step": 9500
+    },
+    {
+      "epoch": 0.7671771601436944,
+      "grad_norm": 0.2899869978427887,
+      "learning_rate": 3e-05,
+      "loss": 1.3265,
+      "num_input_tokens_seen": 333808660,
+      "step": 9510
+    },
+    {
+      "epoch": 0.7679838658851704,
+      "grad_norm": 0.2559219300746918,
+      "learning_rate": 3e-05,
+      "loss": 1.2791,
+      "num_input_tokens_seen": 334133356,
+      "step": 9520
+    },
+    {
+      "epoch": 0.7687905716266465,
+      "grad_norm": 0.2566789388656616,
+      "learning_rate": 3e-05,
+      "loss": 1.3236,
+      "num_input_tokens_seen": 334515860,
+      "step": 9530
+    },
+    {
+      "epoch": 0.7695972773681226,
+      "grad_norm": 0.2541514039039612,
+      "learning_rate": 3e-05,
+      "loss": 1.2808,
+      "num_input_tokens_seen": 334887600,
+      "step": 9540
+    },
+    {
+      "epoch": 0.7704039831095986,
+      "grad_norm": 0.2626420557498932,
+      "learning_rate": 3e-05,
+      "loss": 1.2902,
+      "num_input_tokens_seen": 335269980,
+      "step": 9550
+    },
+    {
+      "epoch": 0.7712106888510746,
+      "grad_norm": 0.28111469745635986,
+      "learning_rate": 3e-05,
+      "loss": 1.2285,
+      "num_input_tokens_seen": 335614044,
+      "step": 9560
+    },
+    {
+      "epoch": 0.7720173945925506,
+      "grad_norm": 0.26732560992240906,
+      "learning_rate": 3e-05,
+      "loss": 1.2802,
+      "num_input_tokens_seen": 335947240,
+      "step": 9570
+    },
+    {
+      "epoch": 0.7728241003340266,
+      "grad_norm": 0.2630169987678528,
+      "learning_rate": 3e-05,
+      "loss": 1.2562,
+      "num_input_tokens_seen": 336277872,
+      "step": 9580
+    },
+    {
+      "epoch": 0.7736308060755026,
+      "grad_norm": 0.24275615811347961,
+      "learning_rate": 3e-05,
+      "loss": 1.241,
+      "num_input_tokens_seen": 336616732,
+      "step": 9590
+    },
+    {
+      "epoch": 0.7744375118169786,
+      "grad_norm": 0.27467086911201477,
+      "learning_rate": 3e-05,
+      "loss": 1.2783,
+      "num_input_tokens_seen": 336962668,
+      "step": 9600
+    },
+    {
+      "epoch": 0.7752442175584546,
+      "grad_norm": 0.22901813685894012,
+      "learning_rate": 3e-05,
+      "loss": 1.2474,
+      "num_input_tokens_seen": 337289600,
+      "step": 9610
+    },
+    {
+      "epoch": 0.7760509232999306,
+      "grad_norm": 0.25075381994247437,
+      "learning_rate": 3e-05,
+      "loss": 1.2911,
+      "num_input_tokens_seen": 337638772,
+      "step": 9620
+    },
+    {
+      "epoch": 0.7768576290414066,
+      "grad_norm": 0.26371341943740845,
+      "learning_rate": 3e-05,
+      "loss": 1.3082,
+      "num_input_tokens_seen": 337956240,
+      "step": 9630
+    },
+    {
+      "epoch": 0.7776643347828827,
+      "grad_norm": 0.2652187943458557,
+      "learning_rate": 3e-05,
+      "loss": 1.2419,
+      "num_input_tokens_seen": 338333320,
+      "step": 9640
+    },
+    {
+      "epoch": 0.7784710405243588,
+      "grad_norm": 0.275717169046402,
+      "learning_rate": 3e-05,
+      "loss": 1.2801,
+      "num_input_tokens_seen": 338693484,
+      "step": 9650
+    },
+    {
+      "epoch": 0.7792777462658348,
+      "grad_norm": 0.2673225402832031,
+      "learning_rate": 3e-05,
+      "loss": 1.2968,
+      "num_input_tokens_seen": 339059484,
+      "step": 9660
+    },
+    {
+      "epoch": 0.7800844520073108,
+      "grad_norm": 0.24011015892028809,
+      "learning_rate": 3e-05,
+      "loss": 1.2643,
+      "num_input_tokens_seen": 339401908,
+      "step": 9670
+    },
+    {
+      "epoch": 0.7808911577487868,
+      "grad_norm": 0.2752505838871002,
+      "learning_rate": 3e-05,
+      "loss": 1.2839,
+      "num_input_tokens_seen": 339759036,
+      "step": 9680
+    },
+    {
+      "epoch": 0.7816978634902628,
+      "grad_norm": 0.2720450758934021,
+      "learning_rate": 3e-05,
+      "loss": 1.2549,
+      "num_input_tokens_seen": 340108708,
+      "step": 9690
+    },
+    {
+      "epoch": 0.7825045692317388,
+      "grad_norm": 0.2938039004802704,
+      "learning_rate": 3e-05,
+      "loss": 1.2702,
+      "num_input_tokens_seen": 340425536,
+      "step": 9700
+    },
+    {
+      "epoch": 0.7833112749732148,
+      "grad_norm": 0.2659102976322174,
+      "learning_rate": 3e-05,
+      "loss": 1.23,
+      "num_input_tokens_seen": 340799308,
+      "step": 9710
+    },
+    {
+      "epoch": 0.7841179807146909,
+      "grad_norm": 0.26471832394599915,
+      "learning_rate": 3e-05,
+      "loss": 1.1911,
+      "num_input_tokens_seen": 341141740,
+      "step": 9720
+    },
+    {
+      "epoch": 0.7849246864561669,
+      "grad_norm": 0.27800023555755615,
+      "learning_rate": 3e-05,
+      "loss": 1.2801,
+      "num_input_tokens_seen": 341473408,
+      "step": 9730
+    },
+    {
+      "epoch": 0.7857313921976429,
+      "grad_norm": 0.25355374813079834,
+      "learning_rate": 3e-05,
+      "loss": 1.2339,
+      "num_input_tokens_seen": 341810480,
+      "step": 9740
+    },
+    {
+      "epoch": 0.7865380979391189,
+      "grad_norm": 0.25053349137306213,
+      "learning_rate": 3e-05,
+      "loss": 1.2741,
+      "num_input_tokens_seen": 342171584,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7873448036805949,
+      "grad_norm": 0.2605432868003845,
+      "learning_rate": 3e-05,
+      "loss": 1.2534,
+      "num_input_tokens_seen": 342516448,
+      "step": 9760
+    },
+    {
+      "epoch": 0.788151509422071,
+      "grad_norm": 0.27407005429267883,
+      "learning_rate": 3e-05,
+      "loss": 1.276,
+      "num_input_tokens_seen": 342861752,
+      "step": 9770
+    },
+    {
+      "epoch": 0.788958215163547,
+      "grad_norm": 0.2646719515323639,
+      "learning_rate": 3e-05,
+      "loss": 1.2308,
+      "num_input_tokens_seen": 343235864,
+      "step": 9780
+    },
+    {
+      "epoch": 0.789764920905023,
+      "grad_norm": 0.2499488741159439,
+      "learning_rate": 3e-05,
+      "loss": 1.2787,
+      "num_input_tokens_seen": 343585360,
+      "step": 9790
+    },
+    {
+      "epoch": 0.790571626646499,
+      "grad_norm": 0.25169795751571655,
+      "learning_rate": 3e-05,
+      "loss": 1.272,
+      "num_input_tokens_seen": 343949028,
+      "step": 9800
+    },
+    {
+      "epoch": 0.7913783323879751,
+      "grad_norm": 0.25061219930648804,
+      "learning_rate": 3e-05,
+      "loss": 1.2543,
+      "num_input_tokens_seen": 344341964,
+      "step": 9810
+    },
+    {
+      "epoch": 0.7921850381294511,
+      "grad_norm": 0.27238261699676514,
+      "learning_rate": 3e-05,
+      "loss": 1.2527,
+      "num_input_tokens_seen": 344699776,
+      "step": 9820
+    },
+    {
+      "epoch": 0.7929917438709271,
+      "grad_norm": 0.26253870129585266,
+      "learning_rate": 3e-05,
+      "loss": 1.2626,
+      "num_input_tokens_seen": 345029320,
+      "step": 9830
+    },
+    {
+      "epoch": 0.7937984496124031,
+      "grad_norm": 0.2650923728942871,
+      "learning_rate": 3e-05,
+      "loss": 1.2253,
+      "num_input_tokens_seen": 345405684,
+      "step": 9840
+    },
+    {
+      "epoch": 0.7946051553538791,
+      "grad_norm": 0.2489556223154068,
+      "learning_rate": 3e-05,
+      "loss": 1.2682,
+      "num_input_tokens_seen": 345764444,
+      "step": 9850
+    },
+    {
+      "epoch": 0.7954118610953551,
+      "grad_norm": 0.2614899277687073,
+      "learning_rate": 3e-05,
+      "loss": 1.2586,
+      "num_input_tokens_seen": 346123540,
+      "step": 9860
+    },
+    {
+      "epoch": 0.7962185668368311,
+      "grad_norm": 0.25150853395462036,
+      "learning_rate": 3e-05,
+      "loss": 1.2272,
+      "num_input_tokens_seen": 346484268,
+      "step": 9870
+    },
+    {
+      "epoch": 0.7970252725783071,
+      "grad_norm": 0.2592512369155884,
+      "learning_rate": 3e-05,
+      "loss": 1.2478,
+      "num_input_tokens_seen": 346850032,
+      "step": 9880
+    },
+    {
+      "epoch": 0.7978319783197833,
+      "grad_norm": 0.26685789227485657,
+      "learning_rate": 3e-05,
+      "loss": 1.2845,
+      "num_input_tokens_seen": 347208532,
+      "step": 9890
+    },
+    {
+      "epoch": 0.7986386840612593,
+      "grad_norm": 0.2619518041610718,
+      "learning_rate": 3e-05,
+      "loss": 1.2526,
+      "num_input_tokens_seen": 347546084,
+      "step": 9900
+    },
+    {
+      "epoch": 0.7994453898027353,
+      "grad_norm": 0.3048644959926605,
+      "learning_rate": 3e-05,
+      "loss": 1.2763,
+      "num_input_tokens_seen": 347891900,
+      "step": 9910
+    },
+    {
+      "epoch": 0.8002520955442113,
+      "grad_norm": 0.2470572292804718,
+      "learning_rate": 3e-05,
+      "loss": 1.2488,
+      "num_input_tokens_seen": 348241444,
+      "step": 9920
+    },
+    {
+      "epoch": 0.8010588012856873,
+      "grad_norm": 0.25996264815330505,
+      "learning_rate": 3e-05,
+      "loss": 1.2448,
+      "num_input_tokens_seen": 348600368,
+      "step": 9930
+    },
+    {
+      "epoch": 0.8018655070271633,
+      "grad_norm": 0.25079694390296936,
+      "learning_rate": 3e-05,
+      "loss": 1.2158,
+      "num_input_tokens_seen": 348934544,
+      "step": 9940
+    },
+    {
+      "epoch": 0.8026722127686393,
+      "grad_norm": 0.2604506015777588,
+      "learning_rate": 3e-05,
+      "loss": 1.2665,
+      "num_input_tokens_seen": 349266356,
+      "step": 9950
+    },
+    {
+      "epoch": 0.8034789185101153,
+      "grad_norm": 0.26775991916656494,
+      "learning_rate": 3e-05,
+      "loss": 1.2491,
+      "num_input_tokens_seen": 349637740,
+      "step": 9960
+    },
+    {
+      "epoch": 0.8042856242515913,
+      "grad_norm": 0.2628551125526428,
+      "learning_rate": 3e-05,
+      "loss": 1.2875,
+      "num_input_tokens_seen": 349978220,
+      "step": 9970
+    },
+    {
+      "epoch": 0.8050923299930673,
+      "grad_norm": 0.2629667818546295,
+      "learning_rate": 3e-05,
+      "loss": 1.21,
+      "num_input_tokens_seen": 350338180,
+      "step": 9980
+    },
+    {
+      "epoch": 0.8058990357345434,
+      "grad_norm": 0.26192960143089294,
+      "learning_rate": 3e-05,
+      "loss": 1.2143,
+      "num_input_tokens_seen": 350702660,
+      "step": 9990
+    },
+    {
+      "epoch": 0.8067057414760194,
+      "grad_norm": 0.24086323380470276,
+      "learning_rate": 3e-05,
+      "loss": 1.2834,
+      "num_input_tokens_seen": 351056548,
+      "step": 10000
+    },
+    {
+      "epoch": 0.8067057414760194,
+      "eval_gen_len": 446.26,
+      "eval_loss": 1.1978570222854614,
+      "eval_rouge1": 37.7181,
+      "eval_rouge2": 20.9926,
+      "eval_rougeL": 30.3857,
+      "eval_rougeLsum": 35.8681,
+      "eval_runtime": 1488.0454,
+      "eval_samples_per_second": 0.134,
+      "eval_steps_per_second": 0.034,
+      "num_input_tokens_seen": 351056548,
+      "step": 10000
+    },
+    {
+      "epoch": 0.8075124472174954,
+      "grad_norm": 0.27893269062042236,
+      "learning_rate": 3e-05,
+      "loss": 1.2608,
+      "num_input_tokens_seen": 351419124,
+      "step": 10010
+    },
+    {
+      "epoch": 0.8083191529589715,
+      "grad_norm": 0.2801869511604309,
+      "learning_rate": 3e-05,
+      "loss": 1.2362,
+      "num_input_tokens_seen": 351760664,
+      "step": 10020
+    },
+    {
+      "epoch": 0.8091258587004475,
+      "grad_norm": 0.2547568380832672,
+      "learning_rate": 3e-05,
+      "loss": 1.1999,
+      "num_input_tokens_seen": 352145232,
+      "step": 10030
+    },
+    {
+      "epoch": 0.8099325644419235,
+      "grad_norm": 0.2530830502510071,
+      "learning_rate": 3e-05,
+      "loss": 1.2576,
+      "num_input_tokens_seen": 352484012,
+      "step": 10040
+    },
+    {
+      "epoch": 0.8107392701833995,
+      "grad_norm": 0.25283852219581604,
+      "learning_rate": 3e-05,
+      "loss": 1.2672,
+      "num_input_tokens_seen": 352838284,
+      "step": 10050
+    },
+    {
+      "epoch": 0.8115459759248755,
+      "grad_norm": 0.2714962661266327,
+      "learning_rate": 3e-05,
+      "loss": 1.2241,
+      "num_input_tokens_seen": 353196252,
+      "step": 10060
+    },
+    {
+      "epoch": 0.8123526816663516,
+      "grad_norm": 0.2614021301269531,
+      "learning_rate": 3e-05,
+      "loss": 1.2539,
+      "num_input_tokens_seen": 353557696,
+      "step": 10070
+    },
+    {
+      "epoch": 0.8131593874078276,
+      "grad_norm": 0.25115180015563965,
+      "learning_rate": 3e-05,
+      "loss": 1.2152,
+      "num_input_tokens_seen": 353901440,
+      "step": 10080
+    },
+    {
+      "epoch": 0.8139660931493036,
+      "grad_norm": 0.23511908948421478,
+      "learning_rate": 3e-05,
+      "loss": 1.227,
+      "num_input_tokens_seen": 354266972,
+      "step": 10090
+    },
+    {
+      "epoch": 0.8147727988907796,
+      "grad_norm": 0.2694503366947174,
+      "learning_rate": 3e-05,
+      "loss": 1.2151,
+      "num_input_tokens_seen": 354620136,
+      "step": 10100
+    },
+    {
+      "epoch": 0.8155795046322556,
+      "grad_norm": 0.27539879083633423,
+      "learning_rate": 3e-05,
+      "loss": 1.2867,
+      "num_input_tokens_seen": 354981004,
+      "step": 10110
+    },
+    {
+      "epoch": 0.8163862103737316,
+      "grad_norm": 0.25558432936668396,
+      "learning_rate": 3e-05,
+      "loss": 1.2376,
+      "num_input_tokens_seen": 355343284,
+      "step": 10120
+    },
+    {
+      "epoch": 0.8171929161152076,
+      "grad_norm": 0.24992291629314423,
+      "learning_rate": 3e-05,
+      "loss": 1.2487,
+      "num_input_tokens_seen": 355681348,
+      "step": 10130
+    },
+    {
+      "epoch": 0.8179996218566837,
+      "grad_norm": 0.25410589575767517,
+      "learning_rate": 3e-05,
+      "loss": 1.2606,
+      "num_input_tokens_seen": 356040020,
+      "step": 10140
+    },
+    {
+      "epoch": 0.8188063275981597,
+      "grad_norm": 0.23031924664974213,
+      "learning_rate": 3e-05,
+      "loss": 1.2462,
+      "num_input_tokens_seen": 356402532,
+      "step": 10150
+    },
+    {
+      "epoch": 0.8196130333396358,
+      "grad_norm": 0.26112812757492065,
+      "learning_rate": 3e-05,
+      "loss": 1.2594,
+      "num_input_tokens_seen": 356761504,
+      "step": 10160
+    },
+    {
+      "epoch": 0.8204197390811118,
+      "grad_norm": 0.2500099837779999,
+      "learning_rate": 3e-05,
+      "loss": 1.2115,
+      "num_input_tokens_seen": 357123360,
+      "step": 10170
+    },
+    {
+      "epoch": 0.8212264448225878,
+      "grad_norm": 0.2862362861633301,
+      "learning_rate": 3e-05,
+      "loss": 1.2912,
+      "num_input_tokens_seen": 357475416,
+      "step": 10180
+    },
+    {
+      "epoch": 0.8220331505640638,
+      "grad_norm": 0.2600359320640564,
+      "learning_rate": 3e-05,
+      "loss": 1.226,
+      "num_input_tokens_seen": 357793912,
+      "step": 10190
+    },
+    {
+      "epoch": 0.8228398563055398,
+      "grad_norm": 0.25250157713890076,
+      "learning_rate": 3e-05,
+      "loss": 1.2438,
+      "num_input_tokens_seen": 358192864,
+      "step": 10200
+    },
+    {
+      "epoch": 0.8236465620470158,
+      "grad_norm": 0.2738971412181854,
+      "learning_rate": 3e-05,
+      "loss": 1.2416,
+      "num_input_tokens_seen": 358538800,
+      "step": 10210
+    },
+    {
+      "epoch": 0.8244532677884918,
+      "grad_norm": 0.23127759993076324,
+      "learning_rate": 3e-05,
+      "loss": 1.2963,
+      "num_input_tokens_seen": 358882896,
+      "step": 10220
+    },
+    {
+      "epoch": 0.8252599735299678,
+      "grad_norm": 0.25735771656036377,
+      "learning_rate": 3e-05,
+      "loss": 1.2289,
+      "num_input_tokens_seen": 359243952,
+      "step": 10230
+    },
+    {
+      "epoch": 0.8260666792714438,
+      "grad_norm": 0.2557520568370819,
+      "learning_rate": 3e-05,
+      "loss": 1.235,
+      "num_input_tokens_seen": 359596716,
+      "step": 10240
+    },
+    {
+      "epoch": 0.8268733850129198,
+      "grad_norm": 0.24353064596652985,
+      "learning_rate": 3e-05,
+      "loss": 1.2734,
+      "num_input_tokens_seen": 359931524,
+      "step": 10250
+    },
+    {
+      "epoch": 0.827680090754396,
+      "grad_norm": 0.24218714237213135,
+      "learning_rate": 3e-05,
+      "loss": 1.2855,
+      "num_input_tokens_seen": 360277308,
+      "step": 10260
+    },
+    {
+      "epoch": 0.828486796495872,
+      "grad_norm": 0.2978828549385071,
+      "learning_rate": 3e-05,
+      "loss": 1.3319,
+      "num_input_tokens_seen": 360642156,
+      "step": 10270
+    },
+    {
+      "epoch": 0.829293502237348,
+      "grad_norm": 0.2385886013507843,
+      "learning_rate": 3e-05,
+      "loss": 1.2721,
+      "num_input_tokens_seen": 361012064,
+      "step": 10280
+    },
+    {
+      "epoch": 0.830100207978824,
+      "grad_norm": 0.274522602558136,
+      "learning_rate": 3e-05,
+      "loss": 1.2921,
+      "num_input_tokens_seen": 361321708,
+      "step": 10290
+    },
+    {
+      "epoch": 0.8309069137203,
+      "grad_norm": 0.22934795916080475,
+      "learning_rate": 3e-05,
+      "loss": 1.2827,
+      "num_input_tokens_seen": 361669832,
+      "step": 10300
+    },
+    {
+      "epoch": 0.831713619461776,
+      "grad_norm": 0.2701473534107208,
+      "learning_rate": 3e-05,
+      "loss": 1.2205,
+      "num_input_tokens_seen": 362010440,
+      "step": 10310
+    },
+    {
+      "epoch": 0.832520325203252,
+      "grad_norm": 0.22467046976089478,
+      "learning_rate": 3e-05,
+      "loss": 1.2203,
+      "num_input_tokens_seen": 362373936,
+      "step": 10320
+    },
+    {
+      "epoch": 0.833327030944728,
+      "grad_norm": 0.24814799427986145,
+      "learning_rate": 3e-05,
+      "loss": 1.2372,
+      "num_input_tokens_seen": 362719892,
+      "step": 10330
+    },
+    {
+      "epoch": 0.834133736686204,
+      "grad_norm": 0.25354889035224915,
+      "learning_rate": 3e-05,
+      "loss": 1.269,
+      "num_input_tokens_seen": 363050116,
+      "step": 10340
+    },
+    {
+      "epoch": 0.8349404424276801,
+      "grad_norm": 0.2522750496864319,
+      "learning_rate": 3e-05,
+      "loss": 1.2287,
+      "num_input_tokens_seen": 363410780,
+      "step": 10350
+    },
+    {
+      "epoch": 0.8357471481691561,
+      "grad_norm": 0.2644040882587433,
+      "learning_rate": 3e-05,
+      "loss": 1.283,
+      "num_input_tokens_seen": 363780168,
+      "step": 10360
+    },
+    {
+      "epoch": 0.8365538539106321,
+      "grad_norm": 0.24271726608276367,
+      "learning_rate": 3e-05,
+      "loss": 1.2452,
+      "num_input_tokens_seen": 364140384,
+      "step": 10370
+    },
+    {
+      "epoch": 0.8373605596521081,
+      "grad_norm": 0.2616620659828186,
+      "learning_rate": 3e-05,
+      "loss": 1.2483,
+      "num_input_tokens_seen": 364502480,
+      "step": 10380
+    },
+    {
+      "epoch": 0.8381672653935842,
+      "grad_norm": 0.26111093163490295,
+      "learning_rate": 3e-05,
+      "loss": 1.2139,
+      "num_input_tokens_seen": 364861816,
+      "step": 10390
+    },
+    {
+      "epoch": 0.8389739711350602,
+      "grad_norm": 0.23570705950260162,
+      "learning_rate": 3e-05,
+      "loss": 1.2376,
+      "num_input_tokens_seen": 365218500,
+      "step": 10400
+    },
+    {
+      "epoch": 0.8397806768765362,
+      "grad_norm": 0.24099615216255188,
+      "learning_rate": 3e-05,
+      "loss": 1.2236,
+      "num_input_tokens_seen": 365576996,
+      "step": 10410
+    },
+    {
+      "epoch": 0.8405873826180122,
+      "grad_norm": 0.261840283870697,
+      "learning_rate": 3e-05,
+      "loss": 1.3198,
+      "num_input_tokens_seen": 365916660,
+      "step": 10420
+    },
+    {
+      "epoch": 0.8413940883594883,
+      "grad_norm": 0.2680794298648834,
+      "learning_rate": 3e-05,
+      "loss": 1.2491,
+      "num_input_tokens_seen": 366264708,
+      "step": 10430
+    },
+    {
+      "epoch": 0.8422007941009643,
+      "grad_norm": 0.26973119378089905,
+      "learning_rate": 3e-05,
+      "loss": 1.2461,
+      "num_input_tokens_seen": 366626892,
+      "step": 10440
+    },
+    {
+      "epoch": 0.8430074998424403,
+      "grad_norm": 0.2640502154827118,
+      "learning_rate": 3e-05,
+      "loss": 1.234,
+      "num_input_tokens_seen": 366982568,
+      "step": 10450
+    },
+    {
+      "epoch": 0.8438142055839163,
+      "grad_norm": 0.2516578435897827,
+      "learning_rate": 3e-05,
+      "loss": 1.1995,
+      "num_input_tokens_seen": 367303208,
+      "step": 10460
+    },
+    {
+      "epoch": 0.8446209113253923,
+      "grad_norm": 0.264775812625885,
+      "learning_rate": 3e-05,
+      "loss": 1.2123,
+      "num_input_tokens_seen": 367626724,
+      "step": 10470
+    },
+    {
+      "epoch": 0.8454276170668683,
+      "grad_norm": 0.252989798784256,
+      "learning_rate": 3e-05,
+      "loss": 1.2622,
+      "num_input_tokens_seen": 367987924,
+      "step": 10480
+    },
+    {
+      "epoch": 0.8462343228083443,
+      "grad_norm": 0.2506852447986603,
+      "learning_rate": 3e-05,
+      "loss": 1.2796,
+      "num_input_tokens_seen": 368365224,
+      "step": 10490
+    },
+    {
+      "epoch": 0.8470410285498203,
+      "grad_norm": 0.2525902986526489,
+      "learning_rate": 3e-05,
+      "loss": 1.2393,
+      "num_input_tokens_seen": 368706164,
+      "step": 10500
+    },
+    {
+      "epoch": 0.8478477342912965,
+      "grad_norm": 0.3259766399860382,
+      "learning_rate": 3e-05,
+      "loss": 1.3053,
+      "num_input_tokens_seen": 369069824,
+      "step": 10510
+    },
+    {
+      "epoch": 0.8486544400327725,
+      "grad_norm": 0.246359184384346,
+      "learning_rate": 3e-05,
+      "loss": 1.22,
+      "num_input_tokens_seen": 369420620,
+      "step": 10520
+    },
+    {
+      "epoch": 0.8494611457742485,
+      "grad_norm": 0.2465633898973465,
+      "learning_rate": 3e-05,
+      "loss": 1.26,
+      "num_input_tokens_seen": 369789168,
+      "step": 10530
+    },
+    {
+      "epoch": 0.8502678515157245,
+      "grad_norm": 0.2697504758834839,
+      "learning_rate": 3e-05,
+      "loss": 1.2437,
+      "num_input_tokens_seen": 370155836,
+      "step": 10540
+    },
+    {
+      "epoch": 0.8510745572572005,
+      "grad_norm": 0.25357383489608765,
+      "learning_rate": 3e-05,
+      "loss": 1.2639,
+      "num_input_tokens_seen": 370489560,
+      "step": 10550
+    },
+    {
+      "epoch": 0.8518812629986765,
+      "grad_norm": 0.27426791191101074,
+      "learning_rate": 3e-05,
+      "loss": 1.2564,
+      "num_input_tokens_seen": 370852008,
+      "step": 10560
+    },
+    {
+      "epoch": 0.8526879687401525,
+      "grad_norm": 0.26024049520492554,
+      "learning_rate": 3e-05,
+      "loss": 1.2902,
+      "num_input_tokens_seen": 371194808,
+      "step": 10570
+    },
+    {
+      "epoch": 0.8534946744816285,
+      "grad_norm": 0.28873512148857117,
+      "learning_rate": 3e-05,
+      "loss": 1.1927,
+      "num_input_tokens_seen": 371559520,
+      "step": 10580
+    },
+    {
+      "epoch": 0.8543013802231045,
+      "grad_norm": 0.2774757146835327,
+      "learning_rate": 3e-05,
+      "loss": 1.2304,
+      "num_input_tokens_seen": 371899308,
+      "step": 10590
+    },
+    {
+      "epoch": 0.8551080859645805,
+      "grad_norm": 0.27191224694252014,
+      "learning_rate": 3e-05,
+      "loss": 1.1987,
+      "num_input_tokens_seen": 372232400,
+      "step": 10600
+    },
+    {
+      "epoch": 0.8559147917060566,
+      "grad_norm": 0.26448413729667664,
+      "learning_rate": 3e-05,
+      "loss": 1.2394,
+      "num_input_tokens_seen": 372589132,
+      "step": 10610
+    },
+    {
+      "epoch": 0.8567214974475326,
+      "grad_norm": 0.26863351464271545,
+      "learning_rate": 3e-05,
+      "loss": 1.2914,
+      "num_input_tokens_seen": 372937492,
+      "step": 10620
+    },
+    {
+      "epoch": 0.8575282031890087,
+      "grad_norm": 0.2653568685054779,
+      "learning_rate": 3e-05,
+      "loss": 1.236,
+      "num_input_tokens_seen": 373293780,
+      "step": 10630
+    },
+    {
+      "epoch": 0.8583349089304847,
+      "grad_norm": 0.27198871970176697,
+      "learning_rate": 3e-05,
+      "loss": 1.2327,
+      "num_input_tokens_seen": 373680012,
+      "step": 10640
+    },
+    {
+      "epoch": 0.8591416146719607,
+      "grad_norm": 0.2744047939777374,
+      "learning_rate": 3e-05,
+      "loss": 1.2706,
+      "num_input_tokens_seen": 374041616,
+      "step": 10650
+    },
+    {
+      "epoch": 0.8599483204134367,
+      "grad_norm": 0.24338699877262115,
+      "learning_rate": 3e-05,
+      "loss": 1.27,
+      "num_input_tokens_seen": 374421228,
+      "step": 10660
+    },
+    {
+      "epoch": 0.8607550261549127,
+      "grad_norm": 0.2561684846878052,
+      "learning_rate": 3e-05,
+      "loss": 1.2483,
+      "num_input_tokens_seen": 374766780,
+      "step": 10670
+    },
+    {
+      "epoch": 0.8615617318963887,
+      "grad_norm": 0.2887466549873352,
+      "learning_rate": 3e-05,
+      "loss": 1.2688,
+      "num_input_tokens_seen": 375121440,
+      "step": 10680
+    },
+    {
+      "epoch": 0.8623684376378647,
+      "grad_norm": 0.2793877422809601,
+      "learning_rate": 3e-05,
+      "loss": 1.2325,
+      "num_input_tokens_seen": 375484872,
+      "step": 10690
+    },
+    {
+      "epoch": 0.8631751433793408,
+      "grad_norm": 0.26802805066108704,
+      "learning_rate": 3e-05,
+      "loss": 1.2388,
+      "num_input_tokens_seen": 375836092,
+      "step": 10700
+    },
+    {
+      "epoch": 0.8639818491208168,
+      "grad_norm": 0.2660770118236542,
+      "learning_rate": 3e-05,
+      "loss": 1.2379,
+      "num_input_tokens_seen": 376169816,
+      "step": 10710
+    },
+    {
+      "epoch": 0.8647885548622928,
+      "grad_norm": 0.26407331228256226,
+      "learning_rate": 3e-05,
+      "loss": 1.2386,
+      "num_input_tokens_seen": 376523852,
+      "step": 10720
+    },
+    {
+      "epoch": 0.8655952606037688,
+      "grad_norm": 0.23881566524505615,
+      "learning_rate": 3e-05,
+      "loss": 1.278,
+      "num_input_tokens_seen": 376881480,
+      "step": 10730
+    },
+    {
+      "epoch": 0.8664019663452448,
+      "grad_norm": 0.2527766823768616,
+      "learning_rate": 3e-05,
+      "loss": 1.2352,
+      "num_input_tokens_seen": 377225680,
+      "step": 10740
+    },
+    {
+      "epoch": 0.8672086720867209,
+      "grad_norm": 0.25618699193000793,
+      "learning_rate": 3e-05,
+      "loss": 1.2561,
+      "num_input_tokens_seen": 377581152,
+      "step": 10750
+    },
+    {
+      "epoch": 0.8680153778281969,
+      "grad_norm": 0.2603427767753601,
+      "learning_rate": 3e-05,
+      "loss": 1.245,
+      "num_input_tokens_seen": 377923004,
+      "step": 10760
+    },
+    {
+      "epoch": 0.8688220835696729,
+      "grad_norm": 0.2423306107521057,
+      "learning_rate": 3e-05,
+      "loss": 1.2524,
+      "num_input_tokens_seen": 378270880,
+      "step": 10770
+    },
+    {
+      "epoch": 0.869628789311149,
+      "grad_norm": 0.2624494731426239,
+      "learning_rate": 3e-05,
+      "loss": 1.2438,
+      "num_input_tokens_seen": 378626340,
+      "step": 10780
+    },
+    {
+      "epoch": 0.870435495052625,
+      "grad_norm": 0.26242879033088684,
+      "learning_rate": 3e-05,
+      "loss": 1.2235,
+      "num_input_tokens_seen": 378968780,
+      "step": 10790
+    },
+    {
+      "epoch": 0.871242200794101,
+      "grad_norm": 0.2819896340370178,
+      "learning_rate": 3e-05,
+      "loss": 1.1845,
+      "num_input_tokens_seen": 379331496,
+      "step": 10800
+    },
+    {
+      "epoch": 0.872048906535577,
+      "grad_norm": 0.25225383043289185,
+      "learning_rate": 3e-05,
+      "loss": 1.2268,
+      "num_input_tokens_seen": 379686312,
+      "step": 10810
+    },
+    {
+      "epoch": 0.872855612277053,
+      "grad_norm": 0.33487361669540405,
+      "learning_rate": 3e-05,
+      "loss": 1.2184,
+      "num_input_tokens_seen": 380041796,
+      "step": 10820
+    },
+    {
+      "epoch": 0.873662318018529,
+      "grad_norm": 0.25806111097335815,
+      "learning_rate": 3e-05,
+      "loss": 1.2289,
+      "num_input_tokens_seen": 380391316,
+      "step": 10830
+    },
+    {
+      "epoch": 0.874469023760005,
+      "grad_norm": 0.2700815796852112,
+      "learning_rate": 3e-05,
+      "loss": 1.208,
+      "num_input_tokens_seen": 380758180,
+      "step": 10840
+    },
+    {
+      "epoch": 0.875275729501481,
+      "grad_norm": 0.24442021548748016,
+      "learning_rate": 3e-05,
+      "loss": 1.2071,
+      "num_input_tokens_seen": 381140420,
+      "step": 10850
+    },
+    {
+      "epoch": 0.876082435242957,
+      "grad_norm": 0.27837643027305603,
+      "learning_rate": 3e-05,
+      "loss": 1.1758,
+      "num_input_tokens_seen": 381510192,
+      "step": 10860
+    },
+    {
+      "epoch": 0.876889140984433,
+      "grad_norm": 0.2531345784664154,
+      "learning_rate": 3e-05,
+      "loss": 1.201,
+      "num_input_tokens_seen": 381860536,
+      "step": 10870
+    },
+    {
+      "epoch": 0.8776958467259092,
+      "grad_norm": 0.25533026456832886,
+      "learning_rate": 3e-05,
+      "loss": 1.2518,
+      "num_input_tokens_seen": 382230860,
+      "step": 10880
+    },
+    {
+      "epoch": 0.8785025524673852,
+      "grad_norm": 0.2697776257991791,
+      "learning_rate": 3e-05,
+      "loss": 1.2115,
+      "num_input_tokens_seen": 382575708,
+      "step": 10890
+    },
+    {
+      "epoch": 0.8793092582088612,
+      "grad_norm": 0.275545597076416,
+      "learning_rate": 3e-05,
+      "loss": 1.2691,
+      "num_input_tokens_seen": 382952276,
+      "step": 10900
+    },
+    {
+      "epoch": 0.8801159639503372,
+      "grad_norm": 0.2756127715110779,
+      "learning_rate": 3e-05,
+      "loss": 1.195,
+      "num_input_tokens_seen": 383361024,
+      "step": 10910
+    },
+    {
+      "epoch": 0.8809226696918132,
+      "grad_norm": 0.26673251390457153,
+      "learning_rate": 3e-05,
+      "loss": 1.2974,
+      "num_input_tokens_seen": 383709472,
+      "step": 10920
+    },
+    {
+      "epoch": 0.8817293754332892,
+      "grad_norm": 0.27520835399627686,
+      "learning_rate": 3e-05,
+      "loss": 1.1702,
+      "num_input_tokens_seen": 384065488,
+      "step": 10930
+    },
+    {
+      "epoch": 0.8825360811747652,
+      "grad_norm": 0.2573419213294983,
+      "learning_rate": 3e-05,
+      "loss": 1.2493,
+      "num_input_tokens_seen": 384413564,
+      "step": 10940
+    },
+    {
+      "epoch": 0.8833427869162412,
+      "grad_norm": 0.3231302499771118,
+      "learning_rate": 3e-05,
+      "loss": 1.2488,
+      "num_input_tokens_seen": 384776660,
+      "step": 10950
+    },
+    {
+      "epoch": 0.8841494926577173,
+      "grad_norm": 0.2685335874557495,
+      "learning_rate": 3e-05,
+      "loss": 1.2101,
+      "num_input_tokens_seen": 385121296,
+      "step": 10960
+    },
+    {
+      "epoch": 0.8849561983991933,
+      "grad_norm": 0.26467591524124146,
+      "learning_rate": 3e-05,
+      "loss": 1.2812,
+      "num_input_tokens_seen": 385460624,
+      "step": 10970
+    },
+    {
+      "epoch": 0.8857629041406693,
+      "grad_norm": 0.23645007610321045,
+      "learning_rate": 3e-05,
+      "loss": 1.2405,
+      "num_input_tokens_seen": 385805028,
+      "step": 10980
+    },
+    {
+      "epoch": 0.8865696098821453,
+      "grad_norm": 0.2732267677783966,
+      "learning_rate": 3e-05,
+      "loss": 1.2274,
+      "num_input_tokens_seen": 386134288,
+      "step": 10990
+    },
+    {
+      "epoch": 0.8873763156236214,
+      "grad_norm": 0.2679040729999542,
+      "learning_rate": 3e-05,
+      "loss": 1.2577,
+      "num_input_tokens_seen": 386471860,
+      "step": 11000
+    },
+    {
+      "epoch": 0.8873763156236214,
+      "eval_gen_len": 424.445,
+      "eval_loss": 1.1752405166625977,
+      "eval_rouge1": 39.3539,
+      "eval_rouge2": 23.0123,
+      "eval_rougeL": 31.9005,
+      "eval_rougeLsum": 37.4941,
+      "eval_runtime": 1475.7796,
+      "eval_samples_per_second": 0.136,
+      "eval_steps_per_second": 0.034,
+      "num_input_tokens_seen": 386471860,
+      "step": 11000
+    },
+    {
+      "epoch": 0.8881830213650974,
+      "grad_norm": 0.24609152972698212,
+      "learning_rate": 3e-05,
+      "loss": 1.2538,
+      "num_input_tokens_seen": 386829236,
+      "step": 11010
+    },
+    {
+      "epoch": 0.8889897271065734,
+      "grad_norm": 0.23998071253299713,
+      "learning_rate": 3e-05,
+      "loss": 1.2311,
+      "num_input_tokens_seen": 387162280,
+      "step": 11020
+    },
+    {
+      "epoch": 0.8897964328480494,
+      "grad_norm": 0.2572784125804901,
+      "learning_rate": 3e-05,
+      "loss": 1.2318,
+      "num_input_tokens_seen": 387517828,
+      "step": 11030
+    },
+    {
+      "epoch": 0.8906031385895254,
+      "grad_norm": 0.258114755153656,
+      "learning_rate": 3e-05,
+      "loss": 1.2098,
+      "num_input_tokens_seen": 387867880,
+      "step": 11040
+    },
+    {
+      "epoch": 0.8914098443310015,
+      "grad_norm": 0.28761738538742065,
+      "learning_rate": 3e-05,
+      "loss": 1.245,
+      "num_input_tokens_seen": 388222904,
+      "step": 11050
+    },
+    {
+      "epoch": 0.8922165500724775,
+      "grad_norm": 0.26138409972190857,
+      "learning_rate": 3e-05,
+      "loss": 1.2173,
+      "num_input_tokens_seen": 388568168,
+      "step": 11060
+    },
+    {
+      "epoch": 0.8930232558139535,
+      "grad_norm": 0.26064634323120117,
+      "learning_rate": 3e-05,
+      "loss": 1.2018,
+      "num_input_tokens_seen": 388926736,
+      "step": 11070
+    },
+    {
+      "epoch": 0.8938299615554295,
+      "grad_norm": 0.28964129090309143,
+      "learning_rate": 3e-05,
+      "loss": 1.2191,
+      "num_input_tokens_seen": 389270524,
+      "step": 11080
+    },
+    {
+      "epoch": 0.8946366672969055,
+      "grad_norm": 0.2423638552427292,
+      "learning_rate": 3e-05,
+      "loss": 1.2145,
+      "num_input_tokens_seen": 389663824,
+      "step": 11090
+    },
+    {
+      "epoch": 0.8954433730383815,
+      "grad_norm": 0.27935534715652466,
+      "learning_rate": 3e-05,
+      "loss": 1.2177,
+      "num_input_tokens_seen": 390019620,
+      "step": 11100
+    },
+    {
+      "epoch": 0.8962500787798575,
+      "grad_norm": 0.29713118076324463,
+      "learning_rate": 3e-05,
+      "loss": 1.2533,
+      "num_input_tokens_seen": 390367580,
+      "step": 11110
+    },
+    {
+      "epoch": 0.8970567845213336,
+      "grad_norm": 0.2777055501937866,
+      "learning_rate": 3e-05,
+      "loss": 1.2234,
+      "num_input_tokens_seen": 390735060,
+      "step": 11120
+    },
+    {
+      "epoch": 0.8978634902628096,
+      "grad_norm": 0.2500898838043213,
+      "learning_rate": 3e-05,
+      "loss": 1.2104,
+      "num_input_tokens_seen": 391075804,
+      "step": 11130
+    },
+    {
+      "epoch": 0.8986701960042857,
+      "grad_norm": 0.26286810636520386,
+      "learning_rate": 3e-05,
+      "loss": 1.2567,
+      "num_input_tokens_seen": 391402956,
+      "step": 11140
+    },
+    {
+      "epoch": 0.8994769017457617,
+      "grad_norm": 0.2514180839061737,
+      "learning_rate": 3e-05,
+      "loss": 1.2498,
+      "num_input_tokens_seen": 391738360,
+      "step": 11150
+    },
+    {
+      "epoch": 0.9002836074872377,
+      "grad_norm": 0.27611491084098816,
+      "learning_rate": 3e-05,
+      "loss": 1.1939,
+      "num_input_tokens_seen": 392082044,
+      "step": 11160
+    },
+    {
+      "epoch": 0.9010903132287137,
+      "grad_norm": 0.2573927342891693,
+      "learning_rate": 3e-05,
+      "loss": 1.2355,
+      "num_input_tokens_seen": 392441160,
+      "step": 11170
+    },
+    {
+      "epoch": 0.9018970189701897,
+      "grad_norm": 0.2716425955295563,
+      "learning_rate": 3e-05,
+      "loss": 1.2134,
+      "num_input_tokens_seen": 392797140,
+      "step": 11180
+    },
+    {
+      "epoch": 0.9027037247116657,
+      "grad_norm": 0.2436821162700653,
+      "learning_rate": 3e-05,
+      "loss": 1.229,
+      "num_input_tokens_seen": 393158316,
+      "step": 11190
+    },
+    {
+      "epoch": 0.9035104304531417,
+      "grad_norm": 0.27646389603614807,
+      "learning_rate": 3e-05,
+      "loss": 1.2138,
+      "num_input_tokens_seen": 393471508,
+      "step": 11200
+    },
+    {
+      "epoch": 0.9043171361946177,
+      "grad_norm": 0.2678287625312805,
+      "learning_rate": 3e-05,
+      "loss": 1.2516,
+      "num_input_tokens_seen": 393806264,
+      "step": 11210
+    },
+    {
+      "epoch": 0.9051238419360937,
+      "grad_norm": 0.2638424336910248,
+      "learning_rate": 3e-05,
+      "loss": 1.2467,
+      "num_input_tokens_seen": 394161404,
+      "step": 11220
+    },
+    {
+      "epoch": 0.9059305476775698,
+      "grad_norm": 0.2639593183994293,
+      "learning_rate": 3e-05,
+      "loss": 1.2145,
+      "num_input_tokens_seen": 394526568,
+      "step": 11230
+    },
+    {
+      "epoch": 0.9067372534190458,
+      "grad_norm": 0.25803256034851074,
+      "learning_rate": 3e-05,
+      "loss": 1.3036,
+      "num_input_tokens_seen": 394866788,
+      "step": 11240
+    },
+    {
+      "epoch": 0.9075439591605219,
+      "grad_norm": 0.2518157362937927,
+      "learning_rate": 3e-05,
+      "loss": 1.2081,
+      "num_input_tokens_seen": 395190516,
+      "step": 11250
+    },
+    {
+      "epoch": 0.9083506649019979,
+      "grad_norm": 0.2544965147972107,
+      "learning_rate": 3e-05,
+      "loss": 1.2234,
+      "num_input_tokens_seen": 395528392,
+      "step": 11260
+    },
+    {
+      "epoch": 0.9091573706434739,
+      "grad_norm": 0.24782590568065643,
+      "learning_rate": 3e-05,
+      "loss": 1.1547,
+      "num_input_tokens_seen": 395880192,
+      "step": 11270
+    },
+    {
+      "epoch": 0.9099640763849499,
+      "grad_norm": 0.2636893093585968,
+      "learning_rate": 3e-05,
+      "loss": 1.2305,
+      "num_input_tokens_seen": 396223844,
+      "step": 11280
+    },
+    {
+      "epoch": 0.9107707821264259,
+      "grad_norm": 0.2468230426311493,
+      "learning_rate": 3e-05,
+      "loss": 1.204,
+      "num_input_tokens_seen": 396543560,
+      "step": 11290
+    },
+    {
+      "epoch": 0.9115774878679019,
+      "grad_norm": 0.2818716764450073,
+      "learning_rate": 3e-05,
+      "loss": 1.1927,
+      "num_input_tokens_seen": 396879784,
+      "step": 11300
+    },
+    {
+      "epoch": 0.912384193609378,
+      "grad_norm": 0.24603427946567535,
+      "learning_rate": 3e-05,
+      "loss": 1.2276,
+      "num_input_tokens_seen": 397247352,
+      "step": 11310
+    },
+    {
+      "epoch": 0.913190899350854,
+      "grad_norm": 0.24526093900203705,
+      "learning_rate": 3e-05,
+      "loss": 1.2523,
+      "num_input_tokens_seen": 397604360,
+      "step": 11320
+    },
+    {
+      "epoch": 0.91399760509233,
+      "grad_norm": 0.26731881499290466,
+      "learning_rate": 3e-05,
+      "loss": 1.2662,
+      "num_input_tokens_seen": 397928512,
+      "step": 11330
+    },
+    {
+      "epoch": 0.914804310833806,
+      "grad_norm": 0.2755918800830841,
+      "learning_rate": 3e-05,
+      "loss": 1.2677,
+      "num_input_tokens_seen": 398264700,
+      "step": 11340
+    },
+    {
+      "epoch": 0.915611016575282,
+      "grad_norm": 0.25634992122650146,
+      "learning_rate": 3e-05,
+      "loss": 1.1865,
+      "num_input_tokens_seen": 398622488,
+      "step": 11350
+    },
+    {
+      "epoch": 0.916417722316758,
+      "grad_norm": 0.27104732394218445,
+      "learning_rate": 3e-05,
+      "loss": 1.2323,
+      "num_input_tokens_seen": 398927144,
+      "step": 11360
+    },
+    {
+      "epoch": 0.9172244280582341,
+      "grad_norm": 0.25183597207069397,
+      "learning_rate": 3e-05,
+      "loss": 1.2618,
+      "num_input_tokens_seen": 399315068,
+      "step": 11370
+    },
+    {
+      "epoch": 0.9180311337997101,
+      "grad_norm": 0.23518332839012146,
+      "learning_rate": 3e-05,
+      "loss": 1.2591,
+      "num_input_tokens_seen": 399668488,
+      "step": 11380
+    },
+    {
+      "epoch": 0.9188378395411861,
+      "grad_norm": 0.23520028591156006,
+      "learning_rate": 3e-05,
+      "loss": 1.2336,
+      "num_input_tokens_seen": 400018476,
+      "step": 11390
+    },
+    {
+      "epoch": 0.9196445452826622,
+      "grad_norm": 0.27664098143577576,
+      "learning_rate": 3e-05,
+      "loss": 1.2167,
+      "num_input_tokens_seen": 400350296,
+      "step": 11400
+    },
+    {
+      "epoch": 0.9204512510241382,
+      "grad_norm": 0.2558439373970032,
+      "learning_rate": 3e-05,
+      "loss": 1.1831,
+      "num_input_tokens_seen": 400653728,
+      "step": 11410
+    },
+    {
+      "epoch": 0.9212579567656142,
+      "grad_norm": 0.24782094359397888,
+      "learning_rate": 3e-05,
+      "loss": 1.2122,
+      "num_input_tokens_seen": 400992668,
+      "step": 11420
+    },
+    {
+      "epoch": 0.9220646625070902,
+      "grad_norm": 0.23971796035766602,
+      "learning_rate": 3e-05,
+      "loss": 1.2251,
+      "num_input_tokens_seen": 401351424,
+      "step": 11430
+    },
+    {
+      "epoch": 0.9228713682485662,
+      "grad_norm": 0.24755193293094635,
+      "learning_rate": 3e-05,
+      "loss": 1.197,
+      "num_input_tokens_seen": 401726484,
+      "step": 11440
+    },
+    {
+      "epoch": 0.9236780739900422,
+      "grad_norm": 0.26952269673347473,
+      "learning_rate": 3e-05,
+      "loss": 1.1654,
+      "num_input_tokens_seen": 402097328,
+      "step": 11450
+    },
+    {
+      "epoch": 0.9244847797315182,
+      "grad_norm": 0.24309176206588745,
+      "learning_rate": 3e-05,
+      "loss": 1.2339,
+      "num_input_tokens_seen": 402448540,
+      "step": 11460
+    },
+    {
+      "epoch": 0.9252914854729942,
+      "grad_norm": 0.2862485349178314,
+      "learning_rate": 3e-05,
+      "loss": 1.2023,
+      "num_input_tokens_seen": 402817680,
+      "step": 11470
+    },
+    {
+      "epoch": 0.9260981912144702,
+      "grad_norm": 0.3049052655696869,
+      "learning_rate": 3e-05,
+      "loss": 1.2021,
+      "num_input_tokens_seen": 403181196,
+      "step": 11480
+    },
+    {
+      "epoch": 0.9269048969559464,
+      "grad_norm": 0.25457674264907837,
+      "learning_rate": 3e-05,
+      "loss": 1.2485,
+      "num_input_tokens_seen": 403550872,
+      "step": 11490
+    },
+    {
+      "epoch": 0.9277116026974224,
+      "grad_norm": 0.24556294083595276,
+      "learning_rate": 3e-05,
+      "loss": 1.2269,
+      "num_input_tokens_seen": 403922164,
+      "step": 11500
+    },
+    {
+      "epoch": 0.9285183084388984,
+      "grad_norm": 0.292858362197876,
+      "learning_rate": 3e-05,
+      "loss": 1.2211,
+      "num_input_tokens_seen": 404240116,
+      "step": 11510
+    },
+    {
+      "epoch": 0.9293250141803744,
+      "grad_norm": 0.23489707708358765,
+      "learning_rate": 3e-05,
+      "loss": 1.238,
+      "num_input_tokens_seen": 404625636,
+      "step": 11520
+    },
+    {
+      "epoch": 0.9301317199218504,
+      "grad_norm": 0.2959127724170685,
+      "learning_rate": 3e-05,
+      "loss": 1.2062,
+      "num_input_tokens_seen": 404963340,
+      "step": 11530
+    },
+    {
+      "epoch": 0.9309384256633264,
+      "grad_norm": 0.2795163094997406,
+      "learning_rate": 3e-05,
+      "loss": 1.2634,
+      "num_input_tokens_seen": 405324692,
+      "step": 11540
+    },
+    {
+      "epoch": 0.9317451314048024,
+      "grad_norm": 0.27414393424987793,
+      "learning_rate": 3e-05,
+      "loss": 1.2477,
+      "num_input_tokens_seen": 405701524,
+      "step": 11550
+    },
+    {
+      "epoch": 0.9325518371462784,
+      "grad_norm": 0.26650696992874146,
+      "learning_rate": 3e-05,
+      "loss": 1.2236,
+      "num_input_tokens_seen": 406080452,
+      "step": 11560
+    },
+    {
+      "epoch": 0.9333585428877544,
+      "grad_norm": 0.2659411132335663,
+      "learning_rate": 3e-05,
+      "loss": 1.2534,
+      "num_input_tokens_seen": 406406212,
+      "step": 11570
+    },
+    {
+      "epoch": 0.9341652486292304,
+      "grad_norm": 0.24440665543079376,
+      "learning_rate": 3e-05,
+      "loss": 1.1668,
+      "num_input_tokens_seen": 406717196,
+      "step": 11580
+    },
+    {
+      "epoch": 0.9349719543707065,
+      "grad_norm": 0.23124107718467712,
+      "learning_rate": 3e-05,
+      "loss": 1.2525,
+      "num_input_tokens_seen": 407074284,
+      "step": 11590
+    },
+    {
+      "epoch": 0.9357786601121825,
+      "grad_norm": 0.2501998841762543,
+      "learning_rate": 3e-05,
+      "loss": 1.2001,
+      "num_input_tokens_seen": 407435636,
+      "step": 11600
+    },
+    {
+      "epoch": 0.9365853658536586,
+      "grad_norm": 0.2701874077320099,
+      "learning_rate": 3e-05,
+      "loss": 1.269,
+      "num_input_tokens_seen": 407777004,
+      "step": 11610
+    },
+    {
+      "epoch": 0.9373920715951346,
+      "grad_norm": 0.22814303636550903,
+      "learning_rate": 3e-05,
+      "loss": 1.2425,
+      "num_input_tokens_seen": 408132316,
+      "step": 11620
+    },
+    {
+      "epoch": 0.9381987773366106,
+      "grad_norm": 0.2615501880645752,
+      "learning_rate": 3e-05,
+      "loss": 1.2342,
+      "num_input_tokens_seen": 408489652,
+      "step": 11630
+    },
+    {
+      "epoch": 0.9390054830780866,
+      "grad_norm": 0.25700172781944275,
+      "learning_rate": 3e-05,
+      "loss": 1.1974,
+      "num_input_tokens_seen": 408845668,
+      "step": 11640
+    },
+    {
+      "epoch": 0.9398121888195626,
+      "grad_norm": 0.2439606785774231,
+      "learning_rate": 3e-05,
+      "loss": 1.1591,
+      "num_input_tokens_seen": 409174180,
+      "step": 11650
+    },
+    {
+      "epoch": 0.9406188945610386,
+      "grad_norm": 0.24392473697662354,
+      "learning_rate": 3e-05,
+      "loss": 1.2621,
+      "num_input_tokens_seen": 409523744,
+      "step": 11660
+    },
+    {
+      "epoch": 0.9414256003025147,
+      "grad_norm": 0.2710927426815033,
+      "learning_rate": 3e-05,
+      "loss": 1.2391,
+      "num_input_tokens_seen": 409895612,
+      "step": 11670
+    },
+    {
+      "epoch": 0.9422323060439907,
+      "grad_norm": 0.24979081749916077,
+      "learning_rate": 3e-05,
+      "loss": 1.2336,
+      "num_input_tokens_seen": 410263056,
+      "step": 11680
+    },
+    {
+      "epoch": 0.9430390117854667,
+      "grad_norm": 0.24999581277370453,
+      "learning_rate": 3e-05,
+      "loss": 1.2399,
+      "num_input_tokens_seen": 410610292,
+      "step": 11690
+    },
+    {
+      "epoch": 0.9438457175269427,
+      "grad_norm": 0.2609216868877411,
+      "learning_rate": 3e-05,
+      "loss": 1.1943,
+      "num_input_tokens_seen": 410936848,
+      "step": 11700
+    },
+    {
+      "epoch": 0.9446524232684187,
+      "grad_norm": 0.29096490144729614,
+      "learning_rate": 3e-05,
+      "loss": 1.1999,
+      "num_input_tokens_seen": 411292872,
+      "step": 11710
+    },
+    {
+      "epoch": 0.9454591290098947,
+      "grad_norm": 0.23998717963695526,
+      "learning_rate": 3e-05,
+      "loss": 1.2215,
+      "num_input_tokens_seen": 411683604,
+      "step": 11720
+    },
+    {
+      "epoch": 0.9462658347513707,
+      "grad_norm": 0.2535877823829651,
+      "learning_rate": 3e-05,
+      "loss": 1.1827,
+      "num_input_tokens_seen": 412049976,
+      "step": 11730
+    },
+    {
+      "epoch": 0.9470725404928468,
+      "grad_norm": 0.23387952148914337,
+      "learning_rate": 3e-05,
+      "loss": 1.2472,
+      "num_input_tokens_seen": 412385212,
+      "step": 11740
+    },
+    {
+      "epoch": 0.9478792462343228,
+      "grad_norm": 0.27991074323654175,
+      "learning_rate": 3e-05,
+      "loss": 1.2081,
+      "num_input_tokens_seen": 412719600,
+      "step": 11750
+    },
+    {
+      "epoch": 0.9486859519757989,
+      "grad_norm": 0.28498226404190063,
+      "learning_rate": 3e-05,
+      "loss": 1.234,
+      "num_input_tokens_seen": 413077972,
+      "step": 11760
+    },
+    {
+      "epoch": 0.9494926577172749,
+      "grad_norm": 0.24881170690059662,
+      "learning_rate": 3e-05,
+      "loss": 1.2457,
+      "num_input_tokens_seen": 413428308,
+      "step": 11770
+    },
+    {
+      "epoch": 0.9502993634587509,
+      "grad_norm": 0.2739012837409973,
+      "learning_rate": 3e-05,
+      "loss": 1.2318,
+      "num_input_tokens_seen": 413798096,
+      "step": 11780
+    },
+    {
+      "epoch": 0.9511060692002269,
+      "grad_norm": 0.2565111815929413,
+      "learning_rate": 3e-05,
+      "loss": 1.2262,
+      "num_input_tokens_seen": 414145460,
+      "step": 11790
+    },
+    {
+      "epoch": 0.9519127749417029,
+      "grad_norm": 0.27090346813201904,
+      "learning_rate": 3e-05,
+      "loss": 1.2413,
+      "num_input_tokens_seen": 414493396,
+      "step": 11800
+    },
+    {
+      "epoch": 0.9527194806831789,
+      "grad_norm": 0.25924554467201233,
+      "learning_rate": 3e-05,
+      "loss": 1.1955,
+      "num_input_tokens_seen": 414854028,
+      "step": 11810
+    },
+    {
+      "epoch": 0.9535261864246549,
+      "grad_norm": 0.2571480870246887,
+      "learning_rate": 3e-05,
+      "loss": 1.1855,
+      "num_input_tokens_seen": 415207364,
+      "step": 11820
+    },
+    {
+      "epoch": 0.9543328921661309,
+      "grad_norm": 0.27920863032341003,
+      "learning_rate": 3e-05,
+      "loss": 1.2544,
+      "num_input_tokens_seen": 415600924,
+      "step": 11830
+    },
+    {
+      "epoch": 0.9551395979076069,
+      "grad_norm": 0.2675030529499054,
+      "learning_rate": 3e-05,
+      "loss": 1.2391,
+      "num_input_tokens_seen": 415950904,
+      "step": 11840
+    },
+    {
+      "epoch": 0.955946303649083,
+      "grad_norm": 0.2398238480091095,
+      "learning_rate": 3e-05,
+      "loss": 1.2485,
+      "num_input_tokens_seen": 416309076,
+      "step": 11850
+    },
+    {
+      "epoch": 0.9567530093905591,
+      "grad_norm": 0.2653293311595917,
+      "learning_rate": 3e-05,
+      "loss": 1.1741,
+      "num_input_tokens_seen": 416682964,
+      "step": 11860
+    },
+    {
+      "epoch": 0.9575597151320351,
+      "grad_norm": 0.2775269150733948,
+      "learning_rate": 3e-05,
+      "loss": 1.2254,
+      "num_input_tokens_seen": 417044976,
+      "step": 11870
+    },
+    {
+      "epoch": 0.9583664208735111,
+      "grad_norm": 0.24485714733600616,
+      "learning_rate": 3e-05,
+      "loss": 1.2325,
+      "num_input_tokens_seen": 417409976,
+      "step": 11880
+    },
+    {
+      "epoch": 0.9591731266149871,
+      "grad_norm": 0.254849374294281,
+      "learning_rate": 3e-05,
+      "loss": 1.2358,
+      "num_input_tokens_seen": 417777976,
+      "step": 11890
+    },
+    {
+      "epoch": 0.9599798323564631,
+      "grad_norm": 0.24646379053592682,
+      "learning_rate": 3e-05,
+      "loss": 1.206,
+      "num_input_tokens_seen": 418084944,
+      "step": 11900
+    },
+    {
+      "epoch": 0.9607865380979391,
+      "grad_norm": 0.2590767741203308,
+      "learning_rate": 3e-05,
+      "loss": 1.1951,
+      "num_input_tokens_seen": 418475256,
+      "step": 11910
+    },
+    {
+      "epoch": 0.9615932438394151,
+      "grad_norm": 0.2564661502838135,
+      "learning_rate": 3e-05,
+      "loss": 1.2112,
+      "num_input_tokens_seen": 418778704,
+      "step": 11920
+    },
+    {
+      "epoch": 0.9623999495808911,
+      "grad_norm": 0.27787408232688904,
+      "learning_rate": 3e-05,
+      "loss": 1.207,
+      "num_input_tokens_seen": 419132332,
+      "step": 11930
+    },
+    {
+      "epoch": 0.9632066553223672,
+      "grad_norm": 0.23015113174915314,
+      "learning_rate": 3e-05,
+      "loss": 1.2402,
+      "num_input_tokens_seen": 419499272,
+      "step": 11940
+    },
+    {
+      "epoch": 0.9640133610638432,
+      "grad_norm": 0.23493854701519012,
+      "learning_rate": 3e-05,
+      "loss": 1.173,
+      "num_input_tokens_seen": 419847688,
+      "step": 11950
+    },
+    {
+      "epoch": 0.9648200668053192,
+      "grad_norm": 0.2406766414642334,
+      "learning_rate": 3e-05,
+      "loss": 1.1955,
+      "num_input_tokens_seen": 420188072,
+      "step": 11960
+    },
+    {
+      "epoch": 0.9656267725467952,
+      "grad_norm": 0.27738529443740845,
+      "learning_rate": 3e-05,
+      "loss": 1.2038,
+      "num_input_tokens_seen": 420548188,
+      "step": 11970
+    },
+    {
+      "epoch": 0.9664334782882713,
+      "grad_norm": 0.2478122115135193,
+      "learning_rate": 3e-05,
+      "loss": 1.1975,
+      "num_input_tokens_seen": 420900240,
+      "step": 11980
+    },
+    {
+      "epoch": 0.9672401840297473,
+      "grad_norm": 0.26496005058288574,
+      "learning_rate": 3e-05,
+      "loss": 1.2336,
+      "num_input_tokens_seen": 421243660,
+      "step": 11990
+    },
+    {
+      "epoch": 0.9680468897712233,
+      "grad_norm": 0.2664368450641632,
+      "learning_rate": 3e-05,
+      "loss": 1.193,
+      "num_input_tokens_seen": 421585440,
+      "step": 12000
+    },
+    {
+      "epoch": 0.9680468897712233,
+      "eval_gen_len": 422.225,
+      "eval_loss": 1.1525993347167969,
+      "eval_rouge1": 40.1804,
+      "eval_rouge2": 23.1008,
+      "eval_rougeL": 32.3484,
+      "eval_rougeLsum": 38.2103,
+      "eval_runtime": 1396.0916,
+      "eval_samples_per_second": 0.143,
+      "eval_steps_per_second": 0.036,
+      "num_input_tokens_seen": 421585440,
+      "step": 12000
+    },
+    {
+      "epoch": 0.9688535955126993,
+      "grad_norm": 0.2768273949623108,
+      "learning_rate": 3e-05,
+      "loss": 1.2532,
+      "num_input_tokens_seen": 421924468,
+      "step": 12010
+    },
+    {
+      "epoch": 0.9696603012541753,
+      "grad_norm": 0.23941214382648468,
+      "learning_rate": 3e-05,
+      "loss": 1.2174,
+      "num_input_tokens_seen": 422267696,
+      "step": 12020
+    },
+    {
+      "epoch": 0.9704670069956514,
+      "grad_norm": 0.24917346239089966,
+      "learning_rate": 3e-05,
+      "loss": 1.2038,
+      "num_input_tokens_seen": 422614520,
+      "step": 12030
+    },
+    {
+      "epoch": 0.9712737127371274,
+      "grad_norm": 0.2580147683620453,
+      "learning_rate": 3e-05,
+      "loss": 1.2507,
+      "num_input_tokens_seen": 422973276,
+      "step": 12040
+    },
+    {
+      "epoch": 0.9720804184786034,
+      "grad_norm": 0.24353154003620148,
+      "learning_rate": 3e-05,
+      "loss": 1.2144,
+      "num_input_tokens_seen": 423341500,
+      "step": 12050
+    },
+    {
+      "epoch": 0.9728871242200794,
+      "grad_norm": 0.27423179149627686,
+      "learning_rate": 3e-05,
+      "loss": 1.2188,
+      "num_input_tokens_seen": 423679004,
+      "step": 12060
+    },
+    {
+      "epoch": 0.9736938299615554,
+      "grad_norm": 0.2490026354789734,
+      "learning_rate": 3e-05,
+      "loss": 1.2043,
+      "num_input_tokens_seen": 424034888,
+      "step": 12070
+    },
+    {
+      "epoch": 0.9745005357030314,
+      "grad_norm": 0.2514224648475647,
+      "learning_rate": 3e-05,
+      "loss": 1.2236,
+      "num_input_tokens_seen": 424394100,
+      "step": 12080
+    },
+    {
+      "epoch": 0.9753072414445074,
+      "grad_norm": 0.2942357659339905,
+      "learning_rate": 3e-05,
+      "loss": 1.1832,
+      "num_input_tokens_seen": 424716908,
+      "step": 12090
+    },
+    {
+      "epoch": 0.9761139471859834,
+      "grad_norm": 0.2441994845867157,
+      "learning_rate": 3e-05,
+      "loss": 1.2298,
+      "num_input_tokens_seen": 425087956,
+      "step": 12100
+    },
+    {
+      "epoch": 0.9769206529274596,
+      "grad_norm": 0.2718014121055603,
+      "learning_rate": 3e-05,
+      "loss": 1.2549,
+      "num_input_tokens_seen": 425429636,
+      "step": 12110
+    },
+    {
+      "epoch": 0.9777273586689356,
+      "grad_norm": 0.23609136044979095,
+      "learning_rate": 3e-05,
+      "loss": 1.2034,
+      "num_input_tokens_seen": 425762244,
+      "step": 12120
+    },
+    {
+      "epoch": 0.9785340644104116,
+      "grad_norm": 0.2554143965244293,
+      "learning_rate": 3e-05,
+      "loss": 1.2059,
+      "num_input_tokens_seen": 426106556,
+      "step": 12130
+    },
+    {
+      "epoch": 0.9793407701518876,
+      "grad_norm": 0.2818094789981842,
+      "learning_rate": 3e-05,
+      "loss": 1.2032,
+      "num_input_tokens_seen": 426470164,
+      "step": 12140
+    },
+    {
+      "epoch": 0.9801474758933636,
+      "grad_norm": 0.26025861501693726,
+      "learning_rate": 3e-05,
+      "loss": 1.2107,
+      "num_input_tokens_seen": 426815164,
+      "step": 12150
+    },
+    {
+      "epoch": 0.9809541816348396,
+      "grad_norm": 0.29881224036216736,
+      "learning_rate": 3e-05,
+      "loss": 1.2262,
+      "num_input_tokens_seen": 427184952,
+      "step": 12160
+    },
+    {
+      "epoch": 0.9817608873763156,
+      "grad_norm": 0.24537017941474915,
+      "learning_rate": 3e-05,
+      "loss": 1.2207,
+      "num_input_tokens_seen": 427526628,
+      "step": 12170
+    },
+    {
+      "epoch": 0.9825675931177916,
+      "grad_norm": 0.28081703186035156,
+      "learning_rate": 3e-05,
+      "loss": 1.1716,
+      "num_input_tokens_seen": 427872948,
+      "step": 12180
+    },
+    {
+      "epoch": 0.9833742988592676,
+      "grad_norm": 0.22894425690174103,
+      "learning_rate": 3e-05,
+      "loss": 1.2104,
+      "num_input_tokens_seen": 428252884,
+      "step": 12190
+    },
+    {
+      "epoch": 0.9841810046007436,
+      "grad_norm": 0.23327578604221344,
+      "learning_rate": 3e-05,
+      "loss": 1.2256,
+      "num_input_tokens_seen": 428610824,
+      "step": 12200
+    },
+    {
+      "epoch": 0.9849877103422197,
+      "grad_norm": 0.2497028261423111,
+      "learning_rate": 3e-05,
+      "loss": 1.2069,
+      "num_input_tokens_seen": 428981084,
+      "step": 12210
+    },
+    {
+      "epoch": 0.9857944160836957,
+      "grad_norm": 0.2404777854681015,
+      "learning_rate": 3e-05,
+      "loss": 1.1657,
+      "num_input_tokens_seen": 429323900,
+      "step": 12220
+    },
+    {
+      "epoch": 0.9866011218251718,
+      "grad_norm": 0.2447100579738617,
+      "learning_rate": 3e-05,
+      "loss": 1.214,
+      "num_input_tokens_seen": 429692476,
+      "step": 12230
+    },
+    {
+      "epoch": 0.9874078275666478,
+      "grad_norm": 0.2328159064054489,
+      "learning_rate": 3e-05,
+      "loss": 1.2144,
+      "num_input_tokens_seen": 430005920,
+      "step": 12240
+    },
+    {
+      "epoch": 0.9882145333081238,
+      "grad_norm": 0.25133198499679565,
+      "learning_rate": 3e-05,
+      "loss": 1.1864,
+      "num_input_tokens_seen": 430333380,
+      "step": 12250
+    },
+    {
+      "epoch": 0.9890212390495998,
+      "grad_norm": 0.2603629529476166,
+      "learning_rate": 3e-05,
+      "loss": 1.212,
+      "num_input_tokens_seen": 430688404,
+      "step": 12260
+    },
+    {
+      "epoch": 0.9898279447910758,
+      "grad_norm": 0.25967875123023987,
+      "learning_rate": 3e-05,
+      "loss": 1.2011,
+      "num_input_tokens_seen": 431025404,
+      "step": 12270
+    },
+    {
+      "epoch": 0.9906346505325518,
+      "grad_norm": 0.24072428047657013,
+      "learning_rate": 3e-05,
+      "loss": 1.1536,
+      "num_input_tokens_seen": 431361424,
+      "step": 12280
+    },
+    {
+      "epoch": 0.9914413562740279,
+      "grad_norm": 0.2615431547164917,
+      "learning_rate": 3e-05,
+      "loss": 1.1917,
+      "num_input_tokens_seen": 431733732,
+      "step": 12290
+    },
+    {
+      "epoch": 0.9922480620155039,
+      "grad_norm": 0.23490871489048004,
+      "learning_rate": 3e-05,
+      "loss": 1.1985,
+      "num_input_tokens_seen": 432095608,
+      "step": 12300
+    },
+    {
+      "epoch": 0.9930547677569799,
+      "grad_norm": 0.2793809175491333,
+      "learning_rate": 3e-05,
+      "loss": 1.2161,
+      "num_input_tokens_seen": 432470776,
+      "step": 12310
+    },
+    {
+      "epoch": 0.9938614734984559,
+      "grad_norm": 0.26310858130455017,
+      "learning_rate": 3e-05,
+      "loss": 1.2369,
+      "num_input_tokens_seen": 432840156,
+      "step": 12320
+    },
+    {
+      "epoch": 0.9946681792399319,
+      "grad_norm": 0.2650851905345917,
+      "learning_rate": 3e-05,
+      "loss": 1.1874,
+      "num_input_tokens_seen": 433200564,
+      "step": 12330
+    },
+    {
+      "epoch": 0.9954748849814079,
+      "grad_norm": 0.24045298993587494,
+      "learning_rate": 3e-05,
+      "loss": 1.2043,
+      "num_input_tokens_seen": 433560896,
+      "step": 12340
+    },
+    {
+      "epoch": 0.996281590722884,
+      "grad_norm": 0.2662796080112457,
+      "learning_rate": 3e-05,
+      "loss": 1.228,
+      "num_input_tokens_seen": 433916796,
+      "step": 12350
+    },
+    {
+      "epoch": 0.99708829646436,
+      "grad_norm": 0.27926427125930786,
+      "learning_rate": 3e-05,
+      "loss": 1.1796,
+      "num_input_tokens_seen": 434267164,
+      "step": 12360
+    },
+    {
+      "epoch": 0.997895002205836,
+      "grad_norm": 0.29105281829833984,
+      "learning_rate": 3e-05,
+      "loss": 1.2221,
+      "num_input_tokens_seen": 434634960,
+      "step": 12370
+    },
+    {
+      "epoch": 0.9987017079473121,
+      "grad_norm": 0.25824907422065735,
+      "learning_rate": 3e-05,
+      "loss": 1.2037,
+      "num_input_tokens_seen": 434976852,
+      "step": 12380
+    },
+    {
+      "epoch": 0.9995084136887881,
+      "grad_norm": 0.2631925940513611,
+      "learning_rate": 3e-05,
+      "loss": 1.2453,
+      "num_input_tokens_seen": 435337884,
+      "step": 12390
+    },
+    {
+      "epoch": 0.9999924371336737,
+      "num_input_tokens_seen": 435513684,
+      "step": 12396,
+      "total_flos": 2.1022605922963784e+18,
+      "train_loss": 1.4536694422503678,
+      "train_runtime": 158351.1039,
+      "train_samples_per_second": 10.02,
+      "train_steps_per_second": 0.078
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 12396,
+  "num_input_tokens_seen": 435513684,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.1022605922963784e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}