{
  "best_metric": 0.6575854420661926,
  "best_model_checkpoint": "./checkpoints/llava-v1.6-vicuna-13b_anyres/checkpoint-256",
  "epoch": 10.0,
  "eval_steps": 1.0,
  "global_step": 320,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03125,
      "grad_norm": 0.5230235555406132,
      "learning_rate": 0.0,
      "loss": 1.5809,
      "step": 1
    },
    {
      "epoch": 0.03125,
      "eval_loss": 1.6275018453598022,
      "eval_runtime": 82.059,
      "eval_samples_per_second": 2.437,
      "eval_steps_per_second": 0.305,
      "step": 1
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.5095402010892089,
      "learning_rate": 2e-05,
      "loss": 1.4958,
      "step": 2
    },
    {
      "epoch": 0.0625,
      "eval_loss": 1.6275018453598022,
      "eval_runtime": 76.5747,
      "eval_samples_per_second": 2.612,
      "eval_steps_per_second": 0.326,
      "step": 2
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.4998514282504938,
      "learning_rate": 2e-05,
      "loss": 1.5552,
      "step": 3
    },
    {
      "epoch": 0.09375,
      "eval_loss": 1.5956931114196777,
      "eval_runtime": 76.1563,
      "eval_samples_per_second": 2.626,
      "eval_steps_per_second": 0.328,
      "step": 3
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.4280580315108126,
      "learning_rate": 2e-05,
      "loss": 1.4846,
      "step": 4
    },
    {
      "epoch": 0.125,
      "eval_loss": 1.5584176778793335,
      "eval_runtime": 76.1235,
      "eval_samples_per_second": 2.627,
      "eval_steps_per_second": 0.328,
      "step": 4
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.5678499435986384,
      "learning_rate": 2e-05,
      "loss": 1.5036,
      "step": 5
    },
    {
      "epoch": 0.15625,
      "eval_loss": 1.5207562446594238,
      "eval_runtime": 76.1514,
      "eval_samples_per_second": 2.626,
      "eval_steps_per_second": 0.328,
      "step": 5
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.5368461657542534,
      "learning_rate": 2e-05,
      "loss": 1.476,
      "step": 6
    },
    {
      "epoch": 0.1875,
      "eval_loss": 1.4807783365249634,
      "eval_runtime": 77.3444,
      "eval_samples_per_second": 2.586,
      "eval_steps_per_second": 0.323,
      "step": 6
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.5549950083087136,
      "learning_rate": 2e-05,
      "loss": 1.4358,
      "step": 7
    },
    {
      "epoch": 0.21875,
      "eval_loss": 1.4411544799804688,
      "eval_runtime": 77.066,
      "eval_samples_per_second": 2.595,
      "eval_steps_per_second": 0.324,
      "step": 7
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5549950083087136,
      "learning_rate": 2e-05,
      "loss": 1.4369,
      "step": 8
    },
    {
      "epoch": 0.25,
      "eval_loss": 1.4411544799804688,
      "eval_runtime": 77.2807,
      "eval_samples_per_second": 2.588,
      "eval_steps_per_second": 0.323,
      "step": 8
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.5292240951443854,
      "learning_rate": 2e-05,
      "loss": 1.4471,
      "step": 9
    },
    {
      "epoch": 0.28125,
      "eval_loss": 1.4036556482315063,
      "eval_runtime": 78.1562,
      "eval_samples_per_second": 2.559,
      "eval_steps_per_second": 0.32,
      "step": 9
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.5292240951443854,
      "learning_rate": 2e-05,
      "loss": 1.3666,
      "step": 10
    },
    {
      "epoch": 0.3125,
      "eval_loss": 1.4036556482315063,
      "eval_runtime": 77.1645,
      "eval_samples_per_second": 2.592,
      "eval_steps_per_second": 0.324,
      "step": 10
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.5292240951443854,
      "learning_rate": 2e-05,
      "loss": 1.4149,
      "step": 11
    },
    {
      "epoch": 0.34375,
      "eval_loss": 1.4036556482315063,
      "eval_runtime": 78.7627,
      "eval_samples_per_second": 2.539,
      "eval_steps_per_second": 0.317,
      "step": 11
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.684588966714067,
      "learning_rate": 2e-05,
      "loss": 1.3883,
      "step": 12
    },
    {
      "epoch": 0.375,
      "eval_loss": 1.3679308891296387,
      "eval_runtime": 78.4315,
      "eval_samples_per_second": 2.55,
      "eval_steps_per_second": 0.319,
      "step": 12
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.6261826769491422,
      "learning_rate": 2e-05,
      "loss": 1.4271,
      "step": 13
    },
    {
      "epoch": 0.40625,
      "eval_loss": 1.3369851112365723,
      "eval_runtime": 78.685,
      "eval_samples_per_second": 2.542,
      "eval_steps_per_second": 0.318,
      "step": 13
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.6261826769491422,
      "learning_rate": 2e-05,
      "loss": 1.2495,
      "step": 14
    },
    {
      "epoch": 0.4375,
      "eval_loss": 1.3369851112365723,
      "eval_runtime": 78.0511,
      "eval_samples_per_second": 2.562,
      "eval_steps_per_second": 0.32,
      "step": 14
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.6028103951693778,
      "learning_rate": 2e-05,
      "loss": 1.3513,
      "step": 15
    },
    {
      "epoch": 0.46875,
      "eval_loss": 1.3032653331756592,
      "eval_runtime": 78.0271,
      "eval_samples_per_second": 2.563,
      "eval_steps_per_second": 0.32,
      "step": 15
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.769290402283396,
      "learning_rate": 2e-05,
      "loss": 1.3117,
      "step": 16
    },
    {
      "epoch": 0.5,
      "eval_loss": 1.2661188840866089,
      "eval_runtime": 78.1857,
      "eval_samples_per_second": 2.558,
      "eval_steps_per_second": 0.32,
      "step": 16
    },
    {
      "epoch": 0.53125,
      "grad_norm": 1.3279338025863765,
      "learning_rate": 2e-05,
      "loss": 1.2768,
      "step": 17
    },
    {
      "epoch": 0.53125,
      "eval_loss": 1.2299447059631348,
      "eval_runtime": 78.2064,
      "eval_samples_per_second": 2.557,
      "eval_steps_per_second": 0.32,
      "step": 17
    },
    {
      "epoch": 0.5625,
      "grad_norm": 0.7410327159336384,
      "learning_rate": 2e-05,
      "loss": 1.256,
      "step": 18
    },
    {
      "epoch": 0.5625,
      "eval_loss": 1.2044258117675781,
      "eval_runtime": 78.072,
      "eval_samples_per_second": 2.562,
      "eval_steps_per_second": 0.32,
      "step": 18
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.44078820770408506,
      "learning_rate": 2e-05,
      "loss": 1.1252,
      "step": 19
    },
    {
      "epoch": 0.59375,
      "eval_loss": 1.1826122999191284,
      "eval_runtime": 78.7312,
      "eval_samples_per_second": 2.54,
      "eval_steps_per_second": 0.318,
      "step": 19
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.49020841613371097,
      "learning_rate": 2e-05,
      "loss": 1.2249,
      "step": 20
    },
    {
      "epoch": 0.625,
      "eval_loss": 1.1616511344909668,
      "eval_runtime": 78.2736,
      "eval_samples_per_second": 2.555,
      "eval_steps_per_second": 0.319,
      "step": 20
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.43031322695269714,
      "learning_rate": 2e-05,
      "loss": 1.1466,
      "step": 21
    },
    {
      "epoch": 0.65625,
      "eval_loss": 1.1410629749298096,
      "eval_runtime": 79.6432,
      "eval_samples_per_second": 2.511,
      "eval_steps_per_second": 0.314,
      "step": 21
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.45632085445955545,
      "learning_rate": 2e-05,
      "loss": 1.1951,
      "step": 22
    },
    {
      "epoch": 0.6875,
      "eval_loss": 1.1204684972763062,
      "eval_runtime": 79.0609,
      "eval_samples_per_second": 2.53,
      "eval_steps_per_second": 0.316,
      "step": 22
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.40048586945364495,
      "learning_rate": 2e-05,
      "loss": 1.1826,
      "step": 23
    },
    {
      "epoch": 0.71875,
      "eval_loss": 1.1002545356750488,
      "eval_runtime": 82.8578,
      "eval_samples_per_second": 2.414,
      "eval_steps_per_second": 0.302,
      "step": 23
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3703033261027938,
      "learning_rate": 2e-05,
      "loss": 1.1543,
      "step": 24
    },
    {
      "epoch": 0.75,
      "eval_loss": 1.0805977582931519,
      "eval_runtime": 76.1407,
      "eval_samples_per_second": 2.627,
      "eval_steps_per_second": 0.328,
      "step": 24
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.3986313105418924,
      "learning_rate": 2e-05,
      "loss": 1.1046,
      "step": 25
    },
    {
      "epoch": 0.78125,
      "eval_loss": 1.0610157251358032,
      "eval_runtime": 76.3083,
      "eval_samples_per_second": 2.621,
      "eval_steps_per_second": 0.328,
      "step": 25
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.36265027203577943,
      "learning_rate": 2e-05,
      "loss": 1.1048,
      "step": 26
    },
    {
      "epoch": 0.8125,
      "eval_loss": 1.0421289205551147,
      "eval_runtime": 77.2186,
      "eval_samples_per_second": 2.59,
      "eval_steps_per_second": 0.324,
      "step": 26
    },
    {
      "epoch": 0.84375,
      "grad_norm": 0.3881748990218768,
      "learning_rate": 2e-05,
      "loss": 1.0425,
      "step": 27
    },
    {
      "epoch": 0.84375,
      "eval_loss": 1.0240073204040527,
      "eval_runtime": 77.8662,
      "eval_samples_per_second": 2.569,
      "eval_steps_per_second": 0.321,
      "step": 27
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.3734031294324286,
      "learning_rate": 2e-05,
      "loss": 1.0484,
      "step": 28
    },
    {
      "epoch": 0.875,
      "eval_loss": 1.0066957473754883,
      "eval_runtime": 77.269,
      "eval_samples_per_second": 2.588,
      "eval_steps_per_second": 0.324,
      "step": 28
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.29695383079342563,
      "learning_rate": 2e-05,
      "loss": 1.0387,
      "step": 29
    },
    {
      "epoch": 0.90625,
      "eval_loss": 0.9906074404716492,
      "eval_runtime": 77.2245,
      "eval_samples_per_second": 2.59,
      "eval_steps_per_second": 0.324,
      "step": 29
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.29273146875026623,
      "learning_rate": 2e-05,
      "loss": 1.0568,
      "step": 30
    },
    {
      "epoch": 0.9375,
      "eval_loss": 0.975755512714386,
      "eval_runtime": 78.0056,
      "eval_samples_per_second": 2.564,
      "eval_steps_per_second": 0.32,
      "step": 30
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.35070440686850546,
      "learning_rate": 2e-05,
      "loss": 0.9114,
      "step": 31
    },
    {
      "epoch": 0.96875,
      "eval_loss": 0.9615123271942139,
      "eval_runtime": 77.9051,
      "eval_samples_per_second": 2.567,
      "eval_steps_per_second": 0.321,
      "step": 31
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.30846157140439384,
      "learning_rate": 2e-05,
      "loss": 0.9941,
      "step": 32
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.9480571150779724,
      "eval_runtime": 77.2322,
      "eval_samples_per_second": 2.59,
      "eval_steps_per_second": 0.324,
      "step": 32
    },
    {
      "epoch": 1.03125,
      "grad_norm": 0.2950381371932973,
      "learning_rate": 2e-05,
      "loss": 1.0297,
      "step": 33
    },
    {
      "epoch": 1.03125,
      "eval_loss": 0.9356330037117004,
      "eval_runtime": 81.8443,
      "eval_samples_per_second": 2.444,
      "eval_steps_per_second": 0.305,
      "step": 33
    },
    {
      "epoch": 1.0625,
      "grad_norm": 0.27080038065834283,
      "learning_rate": 2e-05,
      "loss": 1.021,
      "step": 34
    },
    {
      "epoch": 1.0625,
      "eval_loss": 0.9245791435241699,
      "eval_runtime": 76.2071,
      "eval_samples_per_second": 2.624,
      "eval_steps_per_second": 0.328,
      "step": 34
    },
    {
      "epoch": 1.09375,
      "grad_norm": 0.23165081252649894,
      "learning_rate": 2e-05,
      "loss": 1.0366,
      "step": 35
    },
    {
      "epoch": 1.09375,
      "eval_loss": 0.9151126146316528,
      "eval_runtime": 77.0412,
      "eval_samples_per_second": 2.596,
      "eval_steps_per_second": 0.325,
      "step": 35
    },
    {
      "epoch": 1.125,
      "grad_norm": 0.4033780922500775,
      "learning_rate": 2e-05,
      "loss": 1.0127,
      "step": 36
    },
    {
      "epoch": 1.125,
      "eval_loss": 0.9063960313796997,
      "eval_runtime": 76.9327,
      "eval_samples_per_second": 2.6,
      "eval_steps_per_second": 0.325,
      "step": 36
    },
    {
      "epoch": 1.15625,
      "grad_norm": 0.2398039831439168,
      "learning_rate": 2e-05,
      "loss": 0.9418,
      "step": 37
    },
    {
      "epoch": 1.15625,
      "eval_loss": 0.8982363939285278,
      "eval_runtime": 76.1234,
      "eval_samples_per_second": 2.627,
      "eval_steps_per_second": 0.328,
      "step": 37
    },
    {
      "epoch": 1.1875,
      "grad_norm": 0.28793451241246804,
      "learning_rate": 2e-05,
      "loss": 0.9643,
      "step": 38
    },
    {
      "epoch": 1.1875,
      "eval_loss": 0.8908895254135132,
      "eval_runtime": 76.2877,
      "eval_samples_per_second": 2.622,
      "eval_steps_per_second": 0.328,
      "step": 38
    },
    {
      "epoch": 1.21875,
      "grad_norm": 0.2927691606307197,
      "learning_rate": 2e-05,
      "loss": 1.0087,
      "step": 39
    },
    {
      "epoch": 1.21875,
      "eval_loss": 0.8845618367195129,
      "eval_runtime": 76.2282,
      "eval_samples_per_second": 2.624,
      "eval_steps_per_second": 0.328,
      "step": 39
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.26410982001408806,
      "learning_rate": 2e-05,
      "loss": 0.986,
      "step": 40
    },
    {
      "epoch": 1.25,
      "eval_loss": 0.8784474730491638,
      "eval_runtime": 76.2512,
      "eval_samples_per_second": 2.623,
      "eval_steps_per_second": 0.328,
      "step": 40
    },
    {
      "epoch": 1.28125,
      "grad_norm": 0.29182630949665306,
      "learning_rate": 2e-05,
      "loss": 0.9711,
      "step": 41
    },
    {
      "epoch": 1.28125,
      "eval_loss": 0.8725223541259766,
      "eval_runtime": 77.1229,
      "eval_samples_per_second": 2.593,
      "eval_steps_per_second": 0.324,
      "step": 41
    },
    {
      "epoch": 1.3125,
      "grad_norm": 0.36402838796832665,
      "learning_rate": 2e-05,
      "loss": 0.9263,
      "step": 42
    },
    {
      "epoch": 1.3125,
      "eval_loss": 0.8662790060043335,
      "eval_runtime": 77.2362,
      "eval_samples_per_second": 2.589,
      "eval_steps_per_second": 0.324,
      "step": 42
    },
    {
      "epoch": 1.34375,
      "grad_norm": 0.29338184478895163,
      "learning_rate": 2e-05,
      "loss": 0.8947,
      "step": 43
    },
    {
      "epoch": 1.34375,
      "eval_loss": 0.8600431680679321,
      "eval_runtime": 77.1213,
      "eval_samples_per_second": 2.593,
      "eval_steps_per_second": 0.324,
      "step": 43
    },
    {
      "epoch": 1.375,
      "grad_norm": 0.2201714229702277,
      "learning_rate": 2e-05,
      "loss": 0.9059,
      "step": 44
    },
    {
      "epoch": 1.375,
      "eval_loss": 0.8545799255371094,
      "eval_runtime": 77.991,
      "eval_samples_per_second": 2.564,
      "eval_steps_per_second": 0.321,
      "step": 44
    },
    {
      "epoch": 1.40625,
      "grad_norm": 0.2254966625243654,
      "learning_rate": 2e-05,
      "loss": 0.8942,
      "step": 45
    },
    {
      "epoch": 1.40625,
      "eval_loss": 0.8497399687767029,
      "eval_runtime": 77.2698,
      "eval_samples_per_second": 2.588,
      "eval_steps_per_second": 0.324,
      "step": 45
    },
    {
      "epoch": 1.4375,
      "grad_norm": 0.21753318432075458,
      "learning_rate": 2e-05,
      "loss": 0.9376,
      "step": 46
    },
    {
      "epoch": 1.4375,
      "eval_loss": 0.8452473282814026,
      "eval_runtime": 77.0568,
      "eval_samples_per_second": 2.595,
      "eval_steps_per_second": 0.324,
      "step": 46
    },
    {
      "epoch": 1.46875,
      "grad_norm": 0.21449718265972945,
      "learning_rate": 2e-05,
      "loss": 0.9369,
      "step": 47
    },
    {
      "epoch": 1.46875,
      "eval_loss": 0.841134786605835,
      "eval_runtime": 77.225,
      "eval_samples_per_second": 2.59,
      "eval_steps_per_second": 0.324,
      "step": 47
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.2109063266748924,
      "learning_rate": 2e-05,
      "loss": 0.8511,
      "step": 48
    },
    {
      "epoch": 1.5,
      "eval_loss": 0.8373770117759705,
      "eval_runtime": 76.2309,
      "eval_samples_per_second": 2.624,
      "eval_steps_per_second": 0.328,
      "step": 48
    },
    {
      "epoch": 1.53125,
      "grad_norm": 0.232838633689838,
      "learning_rate": 2e-05,
      "loss": 0.8694,
      "step": 49
    },
    {
      "epoch": 1.53125,
      "eval_loss": 0.8338289856910706,
      "eval_runtime": 76.277,
      "eval_samples_per_second": 2.622,
      "eval_steps_per_second": 0.328,
      "step": 49
    },
    {
      "epoch": 1.5625,
      "grad_norm": 0.4189704940803984,
      "learning_rate": 2e-05,
      "loss": 0.8464,
      "step": 50
    },
    {
      "epoch": 1.5625,
      "eval_loss": 0.8297132849693298,
      "eval_runtime": 76.2872,
      "eval_samples_per_second": 2.622,
      "eval_steps_per_second": 0.328,
      "step": 50
    },
    {
      "epoch": 1.59375,
      "grad_norm": 0.2171618165123276,
      "learning_rate": 2e-05,
      "loss": 0.8785,
      "step": 51
    },
    {
      "epoch": 1.59375,
      "eval_loss": 0.8257431983947754,
      "eval_runtime": 76.2639,
      "eval_samples_per_second": 2.622,
      "eval_steps_per_second": 0.328,
      "step": 51
    },
    {
      "epoch": 1.625,
      "grad_norm": 0.21934651037670305,
      "learning_rate": 2e-05,
      "loss": 0.7645,
      "step": 52
    },
    {
      "epoch": 1.625,
      "eval_loss": 0.8223557472229004,
      "eval_runtime": 76.2383,
      "eval_samples_per_second": 2.623,
      "eval_steps_per_second": 0.328,
      "step": 52
    },
    {
      "epoch": 1.65625,
      "grad_norm": 0.24183530733164746,
      "learning_rate": 2e-05,
      "loss": 0.9218,
      "step": 53
    },
    {
      "epoch": 1.65625,
      "eval_loss": 0.8189653158187866,
      "eval_runtime": 76.9819,
      "eval_samples_per_second": 2.598,
      "eval_steps_per_second": 0.325,
      "step": 53
    },
    {
      "epoch": 1.6875,
      "grad_norm": 0.23450930244279267,
      "learning_rate": 2e-05,
      "loss": 0.8896,
      "step": 54
    },
    {
      "epoch": 1.6875,
      "eval_loss": 0.8152530193328857,
      "eval_runtime": 76.2378,
      "eval_samples_per_second": 2.623,
      "eval_steps_per_second": 0.328,
      "step": 54
    },
    {
      "epoch": 1.71875,
      "grad_norm": 0.22081665899796085,
      "learning_rate": 2e-05,
      "loss": 0.8798,
      "step": 55
    },
    {
      "epoch": 1.71875,
      "eval_loss": 0.8122122287750244,
      "eval_runtime": 76.289,
      "eval_samples_per_second": 2.622,
      "eval_steps_per_second": 0.328,
      "step": 55
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.21311746114111046,
      "learning_rate": 2e-05,
      "loss": 0.9482,
      "step": 56
    },
    {
      "epoch": 1.75,
      "eval_loss": 0.8092318773269653,
      "eval_runtime": 77.8321,
      "eval_samples_per_second": 2.57,
      "eval_steps_per_second": 0.321,
      "step": 56
    },
    {
      "epoch": 1.78125,
      "grad_norm": 0.2496565307107556,
      "learning_rate": 2e-05,
      "loss": 0.8917,
      "step": 57
    },
    {
      "epoch": 1.78125,
      "eval_loss": 0.8070546984672546,
      "eval_runtime": 77.2651,
      "eval_samples_per_second": 2.588,
      "eval_steps_per_second": 0.324,
      "step": 57
    },
    {
      "epoch": 1.8125,
      "grad_norm": 0.2137866456424736,
      "learning_rate": 2e-05,
      "loss": 0.909,
      "step": 58
    },
    {
      "epoch": 1.8125,
      "eval_loss": 0.8049566745758057,
      "eval_runtime": 78.0925,
      "eval_samples_per_second": 2.561,
      "eval_steps_per_second": 0.32,
      "step": 58
    },
    {
      "epoch": 1.84375,
      "grad_norm": 0.22567502859345095,
      "learning_rate": 2e-05,
      "loss": 0.8611,
      "step": 59
    },
    {
      "epoch": 1.84375,
      "eval_loss": 0.8028810024261475,
      "eval_runtime": 78.0553,
      "eval_samples_per_second": 2.562,
      "eval_steps_per_second": 0.32,
      "step": 59
    },
    {
      "epoch": 1.875,
      "grad_norm": 0.23303796552302508,
      "learning_rate": 2e-05,
      "loss": 0.9209,
      "step": 60
    },
    {
      "epoch": 1.875,
      "eval_loss": 0.800568699836731,
      "eval_runtime": 78.052,
      "eval_samples_per_second": 2.562,
      "eval_steps_per_second": 0.32,
      "step": 60
    },
    {
      "epoch": 1.90625,
      "grad_norm": 0.24566727726974544,
      "learning_rate": 2e-05,
      "loss": 0.8239,
      "step": 61
    },
    {
      "epoch": 1.90625,
      "eval_loss": 0.7976545691490173,
      "eval_runtime": 77.3056,
      "eval_samples_per_second": 2.587,
      "eval_steps_per_second": 0.323,
      "step": 61
    },
    {
      "epoch": 1.9375,
      "grad_norm": 0.23014192522354907,
      "learning_rate": 2e-05,
      "loss": 0.8814,
      "step": 62
    },
    {
      "epoch": 1.9375,
      "eval_loss": 0.7945474982261658,
      "eval_runtime": 77.3398,
      "eval_samples_per_second": 2.586,
      "eval_steps_per_second": 0.323,
      "step": 62
    },
    {
      "epoch": 1.96875,
      "grad_norm": 0.23042819102671622,
      "learning_rate": 2e-05,
      "loss": 0.9064,
      "step": 63
    },
    {
      "epoch": 1.96875,
      "eval_loss": 0.7918359637260437,
      "eval_runtime": 77.4272,
      "eval_samples_per_second": 2.583,
      "eval_steps_per_second": 0.323,
      "step": 63
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.23940667173206315,
      "learning_rate": 2e-05,
      "loss": 0.8658,
      "step": 64
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.7891160845756531,
      "eval_runtime": 77.3236,
      "eval_samples_per_second": 2.587,
      "eval_steps_per_second": 0.323,
      "step": 64
    },
    {
      "epoch": 2.03125,
      "grad_norm": 0.22630342930143643,
      "learning_rate": 2e-05,
      "loss": 0.8403,
      "step": 65
    },
    {
      "epoch": 2.03125,
      "eval_loss": 0.7859742641448975,
      "eval_runtime": 77.2001,
      "eval_samples_per_second": 2.591,
      "eval_steps_per_second": 0.324,
      "step": 65
    },
    {
      "epoch": 2.0625,
      "grad_norm": 0.20949240460260976,
      "learning_rate": 2e-05,
      "loss": 0.8472,
      "step": 66
    },
    {
      "epoch": 2.0625,
      "eval_loss": 0.7834083437919617,
      "eval_runtime": 78.9646,
      "eval_samples_per_second": 2.533,
      "eval_steps_per_second": 0.317,
      "step": 66
    },
    {
      "epoch": 2.09375,
      "grad_norm": 0.22714400479820654,
      "learning_rate": 2e-05,
      "loss": 0.841,
      "step": 67
    },
    {
      "epoch": 2.09375,
      "eval_loss": 0.7805308699607849,
      "eval_runtime": 78.7552,
      "eval_samples_per_second": 2.54,
      "eval_steps_per_second": 0.317,
      "step": 67
    },
    {
      "epoch": 2.125,
      "grad_norm": 0.23345123077006047,
      "learning_rate": 2e-05,
      "loss": 0.9028,
      "step": 68
    },
    {
      "epoch": 2.125,
      "eval_loss": 0.7779514789581299,
      "eval_runtime": 78.3387,
      "eval_samples_per_second": 2.553,
      "eval_steps_per_second": 0.319,
      "step": 68
    },
    {
      "epoch": 2.15625,
      "grad_norm": 0.251841542575211,
      "learning_rate": 2e-05,
      "loss": 0.8381,
      "step": 69
    },
    {
      "epoch": 2.15625,
      "eval_loss": 0.7756664752960205,
      "eval_runtime": 78.3109,
      "eval_samples_per_second": 2.554,
      "eval_steps_per_second": 0.319,
      "step": 69
    },
    {
      "epoch": 2.1875,
      "grad_norm": 0.23548386839773608,
      "learning_rate": 2e-05,
      "loss": 0.7914,
      "step": 70
    },
    {
      "epoch": 2.1875,
      "eval_loss": 0.7733604907989502,
      "eval_runtime": 78.9712,
      "eval_samples_per_second": 2.533,
      "eval_steps_per_second": 0.317,
      "step": 70
    },
    {
      "epoch": 2.21875,
      "grad_norm": 0.23262740912668387,
      "learning_rate": 2e-05,
      "loss": 0.8778,
      "step": 71
    },
    {
      "epoch": 2.21875,
      "eval_loss": 0.771755576133728,
      "eval_runtime": 78.2633,
      "eval_samples_per_second": 2.555,
      "eval_steps_per_second": 0.319,
      "step": 71
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.22075289612357513,
      "learning_rate": 2e-05,
      "loss": 0.7945,
      "step": 72
    },
    {
      "epoch": 2.25,
      "eval_loss": 0.7705450654029846,
      "eval_runtime": 78.3151,
      "eval_samples_per_second": 2.554,
      "eval_steps_per_second": 0.319,
      "step": 72
    },
    {
      "epoch": 2.28125,
      "grad_norm": 0.25520381955936466,
      "learning_rate": 2e-05,
      "loss": 0.8387,
      "step": 73
    },
    {
      "epoch": 2.28125,
      "eval_loss": 0.7695029973983765,
      "eval_runtime": 78.2901,
      "eval_samples_per_second": 2.555,
      "eval_steps_per_second": 0.319,
      "step": 73
    },
    {
      "epoch": 2.3125,
      "grad_norm": 0.2047305385827267,
      "learning_rate": 2e-05,
      "loss": 0.8404,
      "step": 74
    },
    {
      "epoch": 2.3125,
      "eval_loss": 0.7684457302093506,
      "eval_runtime": 78.3875,
      "eval_samples_per_second": 2.551,
      "eval_steps_per_second": 0.319,
      "step": 74
    },
    {
      "epoch": 2.34375,
      "grad_norm": 0.2262323045133288,
      "learning_rate": 2e-05,
      "loss": 0.8811,
      "step": 75
    },
    {
      "epoch": 2.34375,
      "eval_loss": 0.7671162486076355,
      "eval_runtime": 78.202,
      "eval_samples_per_second": 2.557,
      "eval_steps_per_second": 0.32,
      "step": 75
    },
    {
      "epoch": 2.375,
      "grad_norm": 0.21885464923925876,
      "learning_rate": 2e-05,
      "loss": 0.7942,
      "step": 76
    },
    {
      "epoch": 2.375,
      "eval_loss": 0.7658494710922241,
      "eval_runtime": 78.1746,
      "eval_samples_per_second": 2.558,
      "eval_steps_per_second": 0.32,
      "step": 76
    },
    {
      "epoch": 2.40625,
      "grad_norm": 0.21717306953626966,
      "learning_rate": 2e-05,
      "loss": 0.8497,
      "step": 77
    },
    {
      "epoch": 2.40625,
      "eval_loss": 0.7642120122909546,
      "eval_runtime": 78.2026,
      "eval_samples_per_second": 2.557,
      "eval_steps_per_second": 0.32,
      "step": 77
    },
    {
      "epoch": 2.4375,
      "grad_norm": 0.2530725583748258,
      "learning_rate": 2e-05,
      "loss": 0.8584,
      "step": 78
    },
    {
      "epoch": 2.4375,
      "eval_loss": 0.7625510692596436,
      "eval_runtime": 78.1991,
      "eval_samples_per_second": 2.558,
      "eval_steps_per_second": 0.32,
      "step": 78
    },
    {
      "epoch": 2.46875,
      "grad_norm": 0.25354787036627263,
      "learning_rate": 2e-05,
      "loss": 0.8569,
      "step": 79
    },
    {
      "epoch": 2.46875,
      "eval_loss": 0.7616268396377563,
      "eval_runtime": 78.2915,
      "eval_samples_per_second": 2.555,
      "eval_steps_per_second": 0.319,
      "step": 79
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.2800865746664007,
      "learning_rate": 2e-05,
      "loss": 0.9116,
      "step": 80
    },
    {
      "epoch": 2.5,
      "eval_loss": 0.7603214979171753,
      "eval_runtime": 78.2749,
      "eval_samples_per_second": 2.555,
      "eval_steps_per_second": 0.319,
      "step": 80
    },
    {
      "epoch": 2.53125,
      "grad_norm": 0.268139688449618,
      "learning_rate": 2e-05,
      "loss": 0.8397,
      "step": 81
    },
    {
      "epoch": 2.53125,
      "eval_loss": 0.7584869265556335,
      "eval_runtime": 79.1445,
      "eval_samples_per_second": 2.527,
      "eval_steps_per_second": 0.316,
      "step": 81
    },
    {
      "epoch": 2.5625,
      "grad_norm": 0.3128648654463789,
      "learning_rate": 2e-05,
      "loss": 0.8888,
      "step": 82
    },
    {
      "epoch": 2.5625,
      "eval_loss": 0.7566561102867126,
      "eval_runtime": 79.2089,
      "eval_samples_per_second": 2.525,
      "eval_steps_per_second": 0.316,
      "step": 82
    },
    {
      "epoch": 2.59375,
      "grad_norm": 0.2502355211215609,
      "learning_rate": 2e-05,
      "loss": 0.8346,
      "step": 83
    },
    {
      "epoch": 2.59375,
      "eval_loss": 0.7547345161437988,
      "eval_runtime": 79.2691,
      "eval_samples_per_second": 2.523,
      "eval_steps_per_second": 0.315,
      "step": 83
    },
    {
      "epoch": 2.625,
      "grad_norm": 0.25281184629018644,
      "learning_rate": 2e-05,
      "loss": 0.795,
      "step": 84
    },
    {
      "epoch": 2.625,
      "eval_loss": 0.7527951598167419,
      "eval_runtime": 79.4068,
      "eval_samples_per_second": 2.519,
      "eval_steps_per_second": 0.315,
      "step": 84
    },
    {
      "epoch": 2.65625,
      "grad_norm": 0.24246729562645003,
      "learning_rate": 2e-05,
      "loss": 0.7649,
      "step": 85
    },
    {
      "epoch": 2.65625,
      "eval_loss": 0.7509815096855164,
      "eval_runtime": 79.1612,
      "eval_samples_per_second": 2.526,
      "eval_steps_per_second": 0.316,
      "step": 85
    },
    {
      "epoch": 2.6875,
      "grad_norm": 0.27005475109453947,
      "learning_rate": 2e-05,
      "loss": 0.7964,
      "step": 86
    },
    {
      "epoch": 2.6875,
      "eval_loss": 0.7485950589179993,
      "eval_runtime": 80.0714,
      "eval_samples_per_second": 2.498,
      "eval_steps_per_second": 0.312,
      "step": 86
    },
    {
      "epoch": 2.71875,
      "grad_norm": 0.2723492355800971,
      "learning_rate": 2e-05,
      "loss": 0.8117,
      "step": 87
    },
    {
      "epoch": 2.71875,
      "eval_loss": 0.7459420561790466,
      "eval_runtime": 79.4075,
      "eval_samples_per_second": 2.519,
      "eval_steps_per_second": 0.315,
      "step": 87
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.2946493898427159,
      "learning_rate": 2e-05,
      "loss": 0.8986,
      "step": 88
    },
    {
      "epoch": 2.75,
      "eval_loss": 0.7436455488204956,
      "eval_runtime": 79.3721,
      "eval_samples_per_second": 2.52,
      "eval_steps_per_second": 0.315,
      "step": 88
    },
    {
      "epoch": 2.78125,
      "grad_norm": 0.26411214734213284,
      "learning_rate": 2e-05,
      "loss": 0.8145,
      "step": 89
    },
    {
      "epoch": 2.78125,
      "eval_loss": 0.7424752712249756,
      "eval_runtime": 79.2988,
      "eval_samples_per_second": 2.522,
      "eval_steps_per_second": 0.315,
      "step": 89
    },
    {
      "epoch": 2.8125,
      "grad_norm": 0.27115747269014817,
      "learning_rate": 2e-05,
      "loss": 0.8457,
      "step": 90
    },
    {
      "epoch": 2.8125,
      "eval_loss": 0.7416408658027649,
      "eval_runtime": 79.4004,
      "eval_samples_per_second": 2.519,
      "eval_steps_per_second": 0.315,
      "step": 90
    },
    {
      "epoch": 2.84375,
      "grad_norm": 0.25831877964821937,
      "learning_rate": 2e-05,
      "loss": 0.7568,
      "step": 91
    },
    {
      "epoch": 2.84375,
      "eval_loss": 0.7404463291168213,
      "eval_runtime": 81.7767,
      "eval_samples_per_second": 2.446,
      "eval_steps_per_second": 0.306,
      "step": 91
    },
    {
      "epoch": 2.875,
      "grad_norm": 0.31273388454942935,
      "learning_rate": 2e-05,
      "loss": 0.8562,
      "step": 92
    },
    {
      "epoch": 2.875,
      "eval_loss": 0.7384185791015625,
      "eval_runtime": 82.3443,
      "eval_samples_per_second": 2.429,
      "eval_steps_per_second": 0.304,
      "step": 92
    },
    {
      "epoch": 2.90625,
      "grad_norm": 0.2838267071008901,
      "learning_rate": 2e-05,
      "loss": 0.7869,
      "step": 93
    },
    {
      "epoch": 2.90625,
      "eval_loss": 0.7366807460784912,
      "eval_runtime": 82.2622,
      "eval_samples_per_second": 2.431,
      "eval_steps_per_second": 0.304,
      "step": 93
    },
    {
      "epoch": 2.9375,
      "grad_norm": 0.28625827941831467,
      "learning_rate": 2e-05,
      "loss": 0.8618,
      "step": 94
    },
    {
      "epoch": 2.9375,
      "eval_loss": 0.7357398867607117,
      "eval_runtime": 81.9471,
      "eval_samples_per_second": 2.441,
      "eval_steps_per_second": 0.305,
      "step": 94
    },
    {
      "epoch": 2.96875,
      "grad_norm": 0.25548002643954326,
      "learning_rate": 2e-05,
      "loss": 0.8085,
      "step": 95
    },
    {
      "epoch": 2.96875,
      "eval_loss": 0.7356534004211426,
      "eval_runtime": 82.1186,
      "eval_samples_per_second": 2.436,
      "eval_steps_per_second": 0.304,
      "step": 95
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.27081450830961107,
      "learning_rate": 2e-05,
      "loss": 0.7684,
      "step": 96
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.7346957921981812,
      "eval_runtime": 81.5463,
      "eval_samples_per_second": 2.453,
      "eval_steps_per_second": 0.307,
      "step": 96
    },
    {
      "epoch": 3.03125,
      "grad_norm": 0.2985486737236676,
      "learning_rate": 2e-05,
      "loss": 0.7274,
      "step": 97
    },
    {
      "epoch": 3.03125,
      "eval_loss": 0.7325752377510071,
      "eval_runtime": 81.7804,
      "eval_samples_per_second": 2.446,
      "eval_steps_per_second": 0.306,
      "step": 97
    },
    {
      "epoch": 3.0625,
      "grad_norm": 0.29149719690624026,
      "learning_rate": 2e-05,
      "loss": 0.8119,
      "step": 98
    },
    {
      "epoch": 3.0625,
      "eval_loss": 0.7298976182937622,
      "eval_runtime": 76.2764,
      "eval_samples_per_second": 2.622,
      "eval_steps_per_second": 0.328,
      "step": 98
    },
    {
      "epoch": 3.09375,
      "grad_norm": 0.25227859825215865,
      "learning_rate": 2e-05,
      "loss": 0.7888,
      "step": 99
    },
    {
      "epoch": 3.09375,
      "eval_loss": 0.727373480796814,
      "eval_runtime": 76.2418,
      "eval_samples_per_second": 2.623,
      "eval_steps_per_second": 0.328,
      "step": 99
    },
    {
      "epoch": 3.125,
      "grad_norm": 0.27316954971752555,
      "learning_rate": 2e-05,
      "loss": 0.8224,
      "step": 100
    },
    {
      "epoch": 3.125,
      "eval_loss": 0.7254325747489929,
      "eval_runtime": 76.1474,
      "eval_samples_per_second": 2.626,
      "eval_steps_per_second": 0.328,
      "step": 100
    },
    {
      "epoch": 3.15625,
      "grad_norm": 0.24239788607957785,
      "learning_rate": 2e-05,
      "loss": 0.7535,
      "step": 101
    },
    {
      "epoch": 3.15625,
      "eval_loss": 0.724058985710144,
      "eval_runtime": 76.2391,
      "eval_samples_per_second": 2.623,
      "eval_steps_per_second": 0.328,
      "step": 101
    },
    {
      "epoch": 3.1875,
      "grad_norm": 0.25648385925427025,
      "learning_rate": 2e-05,
      "loss": 0.8195,
      "step": 102
    },
    {
      "epoch": 3.1875,
      "eval_loss": 0.7235870957374573,
      "eval_runtime": 76.9134,
      "eval_samples_per_second": 2.6,
      "eval_steps_per_second": 0.325,
      "step": 102
    },
    {
      "epoch": 3.21875,
      "grad_norm": 0.29620170789161204,
      "learning_rate": 2e-05,
      "loss": 0.8224,
      "step": 103
    },
    {
      "epoch": 3.21875,
      "eval_loss": 0.7228152751922607,
      "eval_runtime": 76.095,
      "eval_samples_per_second": 2.628,
      "eval_steps_per_second": 0.329,
      "step": 103
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.3484116181139593,
      "learning_rate": 2e-05,
      "loss": 0.7478,
      "step": 104
    },
    {
      "epoch": 3.25,
      "eval_loss": 0.7209363579750061,
      "eval_runtime": 76.9377,
      "eval_samples_per_second": 2.6,
      "eval_steps_per_second": 0.325,
      "step": 104
    },
    {
      "epoch": 3.28125,
      "grad_norm": 0.25212350156184643,
      "learning_rate": 2e-05,
      "loss": 0.7885,
      "step": 105
    },
    {
      "epoch": 3.28125,
      "eval_loss": 0.7197096347808838,
      "eval_runtime": 76.2008,
      "eval_samples_per_second": 2.625,
      "eval_steps_per_second": 0.328,
      "step": 105
    },
    {
      "epoch": 3.3125,
      "grad_norm": 0.264200147608962,
      "learning_rate": 2e-05,
      "loss": 0.8371,
      "step": 106
    },
    {
      "epoch": 3.3125,
      "eval_loss": 0.7197055220603943,
      "eval_runtime": 78.1542,
      "eval_samples_per_second": 2.559,
      "eval_steps_per_second": 0.32,
      "step": 106
    },
    {
      "epoch": 3.34375,
      "grad_norm": 0.3309431084940201,
      "learning_rate": 2e-05,
      "loss": 0.6999,
      "step": 107
    },
    {
      "epoch": 3.34375,
      "eval_loss": 0.7187016010284424,
      "eval_runtime": 78.4259,
      "eval_samples_per_second": 2.55,
      "eval_steps_per_second": 0.319,
      "step": 107
    },
    {
      "epoch": 3.375,
      "grad_norm": 0.3131644456919823,
      "learning_rate": 2e-05,
      "loss": 0.7587,
      "step": 108
    },
    {
      "epoch": 3.375,
      "eval_loss": 0.717018187046051,
      "eval_runtime": 78.4558,
      "eval_samples_per_second": 2.549,
      "eval_steps_per_second": 0.319,
      "step": 108
    },
    {
      "epoch": 3.40625,
      "grad_norm": 0.33527684120780293,
      "learning_rate": 2e-05,
      "loss": 0.7468,
      "step": 109
    },
    {
      "epoch": 3.40625,
      "eval_loss": 0.7147062420845032,
      "eval_runtime": 78.2334,
      "eval_samples_per_second": 2.556,
      "eval_steps_per_second": 0.32,
      "step": 109
    },
    {
      "epoch": 3.4375,
      "grad_norm": 0.29542683956231724,
      "learning_rate": 2e-05,
      "loss": 0.7477,
      "step": 110
    },
    {
      "epoch": 3.4375,
      "eval_loss": 0.7130224704742432,
      "eval_runtime": 79.1179,
      "eval_samples_per_second": 2.528,
      "eval_steps_per_second": 0.316,
      "step": 110
    },
    {
      "epoch": 3.46875,
      "grad_norm": 0.31128698002926114,
      "learning_rate": 2e-05,
      "loss": 0.8153,
      "step": 111
    },
    {
      "epoch": 3.46875,
      "eval_loss": 0.7120551466941833,
      "eval_runtime": 80.292,
      "eval_samples_per_second": 2.491,
      "eval_steps_per_second": 0.311,
      "step": 111
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.32502558864214215,
      "learning_rate": 2e-05,
      "loss": 0.8043,
      "step": 112
    },
    {
      "epoch": 3.5,
      "eval_loss": 0.7117202877998352,
      "eval_runtime": 79.7539,
      "eval_samples_per_second": 2.508,
      "eval_steps_per_second": 0.313,
      "step": 112
    },
    {
      "epoch": 3.53125,
      "grad_norm": 0.34335720855758517,
      "learning_rate": 2e-05,
      "loss": 0.871,
      "step": 113
    },
    {
      "epoch": 3.53125,
      "eval_loss": 0.7117029428482056,
      "eval_runtime": 80.0281,
      "eval_samples_per_second": 2.499,
      "eval_steps_per_second": 0.312,
      "step": 113
    },
    {
      "epoch": 3.5625,
      "grad_norm": 0.31951931695644,
      "learning_rate": 2e-05,
      "loss": 0.7453,
      "step": 114
    },
    {
      "epoch": 3.5625,
      "eval_loss": 0.7116554379463196,
      "eval_runtime": 79.7209,
      "eval_samples_per_second": 2.509,
      "eval_steps_per_second": 0.314,
      "step": 114
    },
    {
      "epoch": 3.59375,
      "grad_norm": 0.28067192963874266,
      "learning_rate": 2e-05,
      "loss": 0.8045,
      "step": 115
    },
    {
      "epoch": 3.59375,
      "eval_loss": 0.7118353843688965,
      "eval_runtime": 80.0195,
      "eval_samples_per_second": 2.499,
      "eval_steps_per_second": 0.312,
      "step": 115
    },
    {
      "epoch": 3.625,
      "grad_norm": 0.2739718257400276,
      "learning_rate": 2e-05,
      "loss": 0.775,
      "step": 116
    },
    {
      "epoch": 3.625,
      "eval_loss": 0.7122579216957092,
      "eval_runtime": 76.2052,
      "eval_samples_per_second": 2.624,
      "eval_steps_per_second": 0.328,
      "step": 116
    },
    {
      "epoch": 3.65625,
      "grad_norm": 0.31401723658881836,
      "learning_rate": 2e-05,
      "loss": 0.7826,
      "step": 117
    },
    {
      "epoch": 3.65625,
      "eval_loss": 0.7118574380874634,
      "eval_runtime": 76.1509,
      "eval_samples_per_second": 2.626,
      "eval_steps_per_second": 0.328,
      "step": 117
    },
    {
      "epoch": 3.6875,
      "grad_norm": 0.36925964858634625,
      "learning_rate": 2e-05,
      "loss": 0.7884,
      "step": 118
    },
    {
      "epoch": 3.6875,
      "eval_loss": 0.710691511631012,
      "eval_runtime": 76.2305,
      "eval_samples_per_second": 2.624,
      "eval_steps_per_second": 0.328,
      "step": 118
    },
    {
      "epoch": 3.71875,
      "grad_norm": 0.3050583880654791,
      "learning_rate": 2e-05,
      "loss": 0.8402,
      "step": 119
    },
    {
      "epoch": 3.71875,
      "eval_loss": 0.7096763849258423,
      "eval_runtime": 77.0581,
      "eval_samples_per_second": 2.595,
      "eval_steps_per_second": 0.324,
      "step": 119
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.2648625651290031,
      "learning_rate": 2e-05,
      "loss": 0.7889,
      "step": 120
    },
    {
      "epoch": 3.75,
      "eval_loss": 0.7094223499298096,
      "eval_runtime": 76.1379,
      "eval_samples_per_second": 2.627,
      "eval_steps_per_second": 0.328,
      "step": 120
    },
    {
      "epoch": 3.78125,
      "grad_norm": 0.3107221696449271,
      "learning_rate": 2e-05,
      "loss": 0.7615,
      "step": 121
    },
    {
      "epoch": 3.78125,
      "eval_loss": 0.7081363201141357,
      "eval_runtime": 76.626,
      "eval_samples_per_second": 2.61,
      "eval_steps_per_second": 0.326,
      "step": 121
    },
    {
      "epoch": 3.8125,
      "grad_norm": 0.3455151299995048,
      "learning_rate": 2e-05,
      "loss": 0.8342,
      "step": 122
    },
    {
      "epoch": 3.8125,
      "eval_loss": 0.7063001990318298,
      "eval_runtime": 77.0293,
      "eval_samples_per_second": 2.596,
      "eval_steps_per_second": 0.325,
      "step": 122
    },
    {
      "epoch": 3.84375,
      "grad_norm": 0.28847071926472523,
      "learning_rate": 2e-05,
      "loss": 0.7477,
      "step": 123
    },
    {
      "epoch": 3.84375,
      "eval_loss": 0.7044610381126404,
      "eval_runtime": 76.2385,
      "eval_samples_per_second": 2.623,
      "eval_steps_per_second": 0.328,
      "step": 123
    },
    {
      "epoch": 3.875,
      "grad_norm": 0.26753816515069856,
      "learning_rate": 2e-05,
      "loss": 0.7653,
      "step": 124
    },
    {
      "epoch": 3.875,
      "eval_loss": 0.7033799886703491,
      "eval_runtime": 76.1985,
      "eval_samples_per_second": 2.625,
      "eval_steps_per_second": 0.328,
      "step": 124
    },
    {
      "epoch": 3.90625,
      "grad_norm": 0.3465046292893005,
      "learning_rate": 2e-05,
      "loss": 0.8144,
      "step": 125
    },
    {
      "epoch": 3.90625,
      "eval_loss": 0.7021930813789368,
      "eval_runtime": 76.2234,
      "eval_samples_per_second": 2.624,
      "eval_steps_per_second": 0.328,
      "step": 125
    },
    {
      "epoch": 3.9375,
      "grad_norm": 0.3451690427620698,
      "learning_rate": 2e-05,
      "loss": 0.7871,
      "step": 126
    },
    {
      "epoch": 3.9375,
      "eval_loss": 0.7013542652130127,
      "eval_runtime": 78.0752,
      "eval_samples_per_second": 2.562,
      "eval_steps_per_second": 0.32,
      "step": 126
    },
    {
      "epoch": 3.96875,
      "grad_norm": 0.31571858642673567,
      "learning_rate": 2e-05,
      "loss": 0.7568,
      "step": 127
    },
    {
      "epoch": 3.96875,
      "eval_loss": 0.7007560729980469,
      "eval_runtime": 78.3558,
      "eval_samples_per_second": 2.552,
      "eval_steps_per_second": 0.319,
      "step": 127
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.3247003540270338,
      "learning_rate": 2e-05,
      "loss": 0.6714,
      "step": 128
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.6999780535697937,
      "eval_runtime": 78.9788,
      "eval_samples_per_second": 2.532,
      "eval_steps_per_second": 0.317,
      "step": 128
    },
    {
      "epoch": 4.03125,
      "grad_norm": 0.2814983490019739,
      "learning_rate": 2e-05,
      "loss": 0.7797,
      "step": 129
    },
    {
      "epoch": 4.03125,
      "eval_loss": 0.6998200416564941,
      "eval_runtime": 78.3093,
      "eval_samples_per_second": 2.554,
      "eval_steps_per_second": 0.319,
      "step": 129
    },
    {
      "epoch": 4.0625,
      "grad_norm": 0.31961631715145106,
      "learning_rate": 2e-05,
      "loss": 0.7993,
      "step": 130
    },
    {
      "epoch": 4.0625,
      "eval_loss": 0.6995271444320679,
      "eval_runtime": 78.2172,
      "eval_samples_per_second": 2.557,
      "eval_steps_per_second": 0.32,
      "step": 130
    },
    {
      "epoch": 4.09375,
      "grad_norm": 0.32333364662215863,
      "learning_rate": 2e-05,
      "loss": 0.7896,
      "step": 131
    },
    {
      "epoch": 4.09375,
      "eval_loss": 0.6992727518081665,
      "eval_runtime": 79.0125,
      "eval_samples_per_second": 2.531,
      "eval_steps_per_second": 0.316,
      "step": 131
    },
    {
      "epoch": 4.125,
      "grad_norm": 0.3255859640449829,
      "learning_rate": 2e-05,
      "loss": 0.7542,
      "step": 132
    },
    {
      "epoch": 4.125,
      "eval_loss": 0.6988572478294373,
      "eval_runtime": 79.0,
      "eval_samples_per_second": 2.532,
      "eval_steps_per_second": 0.316,
      "step": 132
    },
    {
      "epoch": 4.15625,
      "grad_norm": 0.3307068947429175,
      "learning_rate": 2e-05,
      "loss": 0.8416,
      "step": 133
    },
    {
      "epoch": 4.15625,
      "eval_loss": 0.6981343030929565,
      "eval_runtime": 78.3309,
      "eval_samples_per_second": 2.553,
      "eval_steps_per_second": 0.319,
      "step": 133
    },
    {
      "epoch": 4.1875,
      "grad_norm": 0.3842303818116732,
      "learning_rate": 2e-05,
      "loss": 0.7605,
      "step": 134
    },
    {
      "epoch": 4.1875,
      "eval_loss": 0.6968980431556702,
      "eval_runtime": 78.5608,
      "eval_samples_per_second": 2.546,
      "eval_steps_per_second": 0.318,
      "step": 134
    },
    {
      "epoch": 4.21875,
      "grad_norm": 0.331839472419003,
      "learning_rate": 2e-05,
      "loss": 0.7643,
      "step": 135
    },
    {
      "epoch": 4.21875,
      "eval_loss": 0.6955949664115906,
      "eval_runtime": 78.3566,
      "eval_samples_per_second": 2.552,
      "eval_steps_per_second": 0.319,
      "step": 135
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.31864813130499836,
      "learning_rate": 2e-05,
      "loss": 0.7369,
      "step": 136
    },
    {
      "epoch": 4.25,
      "eval_loss": 0.6951528787612915,
      "eval_runtime": 79.7802,
      "eval_samples_per_second": 2.507,
      "eval_steps_per_second": 0.313,
      "step": 136
    },
    {
      "epoch": 4.28125,
      "grad_norm": 0.352549164434451,
      "learning_rate": 2e-05,
      "loss": 0.7332,
      "step": 137
    },
    {
      "epoch": 4.28125,
      "eval_loss": 0.6947290897369385,
      "eval_runtime": 79.8171,
      "eval_samples_per_second": 2.506,
      "eval_steps_per_second": 0.313,
      "step": 137
    },
    {
      "epoch": 4.3125,
      "grad_norm": 0.37128812818896284,
      "learning_rate": 2e-05,
      "loss": 0.7542,
      "step": 138
    },
    {
      "epoch": 4.3125,
      "eval_loss": 0.6937370300292969,
      "eval_runtime": 79.7782,
      "eval_samples_per_second": 2.507,
      "eval_steps_per_second": 0.313,
      "step": 138
    },
    {
      "epoch": 4.34375,
      "grad_norm": 0.3348014941412048,
      "learning_rate": 2e-05,
      "loss": 0.7079,
      "step": 139
    },
    {
      "epoch": 4.34375,
      "eval_loss": 0.692456066608429,
      "eval_runtime": 79.9308,
      "eval_samples_per_second": 2.502,
      "eval_steps_per_second": 0.313,
      "step": 139
    },
    {
      "epoch": 4.375,
      "grad_norm": 0.34411051658527964,
      "learning_rate": 2e-05,
      "loss": 0.7465,
      "step": 140
    },
    {
      "epoch": 4.375,
      "eval_loss": 0.6915809512138367,
      "eval_runtime": 79.943,
      "eval_samples_per_second": 2.502,
      "eval_steps_per_second": 0.313,
      "step": 140
    },
    {
      "epoch": 4.40625,
      "grad_norm": 0.3373909601921749,
      "learning_rate": 2e-05,
      "loss": 0.7648,
      "step": 141
    },
    {
      "epoch": 4.40625,
      "eval_loss": 0.6912103295326233,
      "eval_runtime": 79.8515,
      "eval_samples_per_second": 2.505,
      "eval_steps_per_second": 0.313,
      "step": 141
    },
    {
      "epoch": 4.4375,
      "grad_norm": 0.33253827371305456,
      "learning_rate": 2e-05,
      "loss": 0.7224,
      "step": 142
    },
    {
      "epoch": 4.4375,
      "eval_loss": 0.6912806630134583,
      "eval_runtime": 80.6475,
      "eval_samples_per_second": 2.48,
      "eval_steps_per_second": 0.31,
      "step": 142
    },
    {
      "epoch": 4.46875,
      "grad_norm": 0.38458075172588313,
      "learning_rate": 2e-05,
      "loss": 0.7261,
      "step": 143
    },
    {
      "epoch": 4.46875,
      "eval_loss": 0.6905419230461121,
      "eval_runtime": 80.2606,
      "eval_samples_per_second": 2.492,
      "eval_steps_per_second": 0.311,
      "step": 143
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.31351962640463144,
      "learning_rate": 2e-05,
      "loss": 0.6909,
      "step": 144
    },
    {
      "epoch": 4.5,
      "eval_loss": 0.6898491382598877,
      "eval_runtime": 79.9965,
      "eval_samples_per_second": 2.5,
      "eval_steps_per_second": 0.313,
      "step": 144
    },
    {
      "epoch": 4.53125,
      "grad_norm": 0.35474372115704583,
      "learning_rate": 2e-05,
      "loss": 0.7605,
      "step": 145
    },
    {
      "epoch": 4.53125,
      "eval_loss": 0.6893147230148315,
      "eval_runtime": 1475.5758,
      "eval_samples_per_second": 0.136,
      "eval_steps_per_second": 0.017,
      "step": 145
    },
    {
      "epoch": 4.5625,
      "grad_norm": 0.3479568917421202,
      "learning_rate": 2e-05,
      "loss": 0.6638,
      "step": 146
    },
    {
      "epoch": 4.5625,
      "eval_loss": 0.6884538531303406,
      "eval_runtime": 84.6835,
      "eval_samples_per_second": 2.362,
      "eval_steps_per_second": 0.295,
      "step": 146
    },
    {
      "epoch": 4.59375,
      "grad_norm": 0.3421823344428645,
      "learning_rate": 2e-05,
      "loss": 0.7339,
      "step": 147
    },
    {
      "epoch": 4.59375,
      "eval_loss": 0.6873475909233093,
      "eval_runtime": 83.3138,
      "eval_samples_per_second": 2.401,
      "eval_steps_per_second": 0.3,
      "step": 147
    },
    {
      "epoch": 4.625,
      "grad_norm": 0.3642187020830788,
      "learning_rate": 2e-05,
      "loss": 0.6825,
      "step": 148
    },
    {
      "epoch": 4.625,
      "eval_loss": 0.6858401298522949,
      "eval_runtime": 82.1066,
      "eval_samples_per_second": 2.436,
      "eval_steps_per_second": 0.304,
      "step": 148
    },
    {
      "epoch": 4.65625,
      "grad_norm": 0.35097547901391785,
      "learning_rate": 2e-05,
      "loss": 0.7986,
      "step": 149
    },
    {
      "epoch": 4.65625,
      "eval_loss": 0.6848779320716858,
      "eval_runtime": 84.4076,
      "eval_samples_per_second": 2.369,
      "eval_steps_per_second": 0.296,
      "step": 149
    },
    {
      "epoch": 4.6875,
      "grad_norm": 0.3568694843794629,
      "learning_rate": 2e-05,
      "loss": 0.7176,
      "step": 150
    },
    {
      "epoch": 4.6875,
      "eval_loss": 0.6842290759086609,
      "eval_runtime": 82.5945,
      "eval_samples_per_second": 2.421,
      "eval_steps_per_second": 0.303,
      "step": 150
    },
    {
      "epoch": 4.71875,
      "grad_norm": 0.34258633585260334,
      "learning_rate": 2e-05,
      "loss": 0.7363,
      "step": 151
    },
    {
      "epoch": 4.71875,
      "eval_loss": 0.6838659048080444,
      "eval_runtime": 85.9626,
      "eval_samples_per_second": 2.327,
      "eval_steps_per_second": 0.291,
      "step": 151
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.42319523894659655,
      "learning_rate": 2e-05,
      "loss": 0.7675,
      "step": 152
    },
    {
      "epoch": 4.75,
      "eval_loss": 0.6830299496650696,
      "eval_runtime": 85.7189,
      "eval_samples_per_second": 2.333,
      "eval_steps_per_second": 0.292,
      "step": 152
    },
    {
      "epoch": 4.78125,
      "grad_norm": 0.3632195533127194,
      "learning_rate": 2e-05,
      "loss": 0.715,
      "step": 153
    },
    {
      "epoch": 4.78125,
      "eval_loss": 0.6826379895210266,
      "eval_runtime": 87.8244,
      "eval_samples_per_second": 2.277,
      "eval_steps_per_second": 0.285,
      "step": 153
    },
    {
      "epoch": 4.8125,
      "grad_norm": 0.3738308004604413,
      "learning_rate": 2e-05,
      "loss": 0.7344,
      "step": 154
    },
    {
      "epoch": 4.8125,
      "eval_loss": 0.6826817393302917,
      "eval_runtime": 86.5822,
      "eval_samples_per_second": 2.31,
      "eval_steps_per_second": 0.289,
      "step": 154
    },
    {
      "epoch": 4.84375,
      "grad_norm": 0.3618696330632776,
      "learning_rate": 2e-05,
      "loss": 0.6632,
      "step": 155
    },
    {
      "epoch": 4.84375,
      "eval_loss": 0.6827967166900635,
      "eval_runtime": 82.1829,
      "eval_samples_per_second": 2.434,
      "eval_steps_per_second": 0.304,
      "step": 155
    },
    {
      "epoch": 4.875,
      "grad_norm": 0.38901912569992203,
      "learning_rate": 2e-05,
      "loss": 0.7788,
      "step": 156
    },
    {
      "epoch": 4.875,
      "eval_loss": 0.6821711659431458,
      "eval_runtime": 84.4511,
      "eval_samples_per_second": 2.368,
      "eval_steps_per_second": 0.296,
      "step": 156
    },
    {
      "epoch": 4.90625,
      "grad_norm": 0.3516096507348829,
      "learning_rate": 2e-05,
      "loss": 0.7794,
      "step": 157
    },
    {
      "epoch": 4.90625,
      "eval_loss": 0.6819837689399719,
      "eval_runtime": 84.1594,
      "eval_samples_per_second": 2.376,
      "eval_steps_per_second": 0.297,
      "step": 157
    },
    {
      "epoch": 4.9375,
      "grad_norm": 0.36066902463794986,
      "learning_rate": 2e-05,
      "loss": 0.7674,
      "step": 158
    },
    {
      "epoch": 4.9375,
      "eval_loss": 0.6817716956138611,
      "eval_runtime": 83.8929,
      "eval_samples_per_second": 2.384,
      "eval_steps_per_second": 0.298,
      "step": 158
    },
    {
      "epoch": 4.96875,
      "grad_norm": 0.36641784926154175,
      "learning_rate": 2e-05,
      "loss": 0.7116,
      "step": 159
    },
    {
      "epoch": 4.96875,
      "eval_loss": 0.6816902160644531,
      "eval_runtime": 84.4431,
      "eval_samples_per_second": 2.368,
      "eval_steps_per_second": 0.296,
      "step": 159
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.4020716293225933,
      "learning_rate": 2e-05,
      "loss": 0.7142,
      "step": 160
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.6811469793319702,
      "eval_runtime": 86.0681,
      "eval_samples_per_second": 2.324,
      "eval_steps_per_second": 0.29,
      "step": 160
    },
    {
      "epoch": 5.03125,
      "grad_norm": 0.38360882669254054,
      "learning_rate": 2e-05,
      "loss": 0.6756,
      "step": 161
    },
    {
      "epoch": 5.03125,
      "eval_loss": 0.6798409223556519,
      "eval_runtime": 81.9903,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 0.305,
      "step": 161
    },
    {
      "epoch": 5.0625,
      "grad_norm": 0.34966156213066135,
      "learning_rate": 2e-05,
      "loss": 0.827,
      "step": 162
    },
    {
      "epoch": 5.0625,
      "eval_loss": 0.6788859367370605,
      "eval_runtime": 76.1753,
      "eval_samples_per_second": 2.626,
      "eval_steps_per_second": 0.328,
      "step": 162
    },
    {
      "epoch": 5.09375,
      "grad_norm": 0.41140842939901384,
      "learning_rate": 2e-05,
      "loss": 0.6409,
      "step": 163
    },
    {
      "epoch": 5.09375,
      "eval_loss": 0.6787077188491821,
      "eval_runtime": 76.2239,
      "eval_samples_per_second": 2.624,
      "eval_steps_per_second": 0.328,
      "step": 163
    },
    {
      "epoch": 5.125,
      "grad_norm": 0.4222084070163774,
      "learning_rate": 2e-05,
      "loss": 0.7774,
      "step": 164
    },
    {
      "epoch": 5.125,
      "eval_loss": 0.6796822547912598,
      "eval_runtime": 76.2141,
      "eval_samples_per_second": 2.624,
      "eval_steps_per_second": 0.328,
      "step": 164
    },
    {
      "epoch": 5.15625,
      "grad_norm": 0.4644454724424921,
      "learning_rate": 2e-05,
      "loss": 0.6057,
      "step": 165
    },
    {
      "epoch": 5.15625,
      "eval_loss": 0.6794346570968628,
      "eval_runtime": 76.3216,
      "eval_samples_per_second": 2.62,
      "eval_steps_per_second": 0.328,
      "step": 165
    },
    {
      "epoch": 5.1875,
      "grad_norm": 0.46128725263272996,
      "learning_rate": 2e-05,
      "loss": 0.7158,
      "step": 166
    },
    {
      "epoch": 5.1875,
      "eval_loss": 0.6791612505912781,
      "eval_runtime": 78.4909,
      "eval_samples_per_second": 2.548,
      "eval_steps_per_second": 0.319,
      "step": 166
    },
    {
      "epoch": 5.21875,
      "grad_norm": 0.37300666872025545,
      "learning_rate": 2e-05,
      "loss": 0.7363,
      "step": 167
    },
    {
      "epoch": 5.21875,
      "eval_loss": 0.6788016557693481,
      "eval_runtime": 78.5697,
      "eval_samples_per_second": 2.546,
      "eval_steps_per_second": 0.318,
      "step": 167
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.41454648576180214,
      "learning_rate": 2e-05,
      "loss": 0.7759,
      "step": 168
    },
    {
      "epoch": 5.25,
      "eval_loss": 0.6787048578262329,
      "eval_runtime": 78.5317,
      "eval_samples_per_second": 2.547,
      "eval_steps_per_second": 0.318,
      "step": 168
    },
    {
      "epoch": 5.28125,
      "grad_norm": 0.40724665091386236,
      "learning_rate": 2e-05,
      "loss": 0.6944,
      "step": 169
    },
    {
      "epoch": 5.28125,
      "eval_loss": 0.679679811000824,
      "eval_runtime": 78.6899,
      "eval_samples_per_second": 2.542,
      "eval_steps_per_second": 0.318,
      "step": 169
    },
    {
      "epoch": 5.3125,
      "grad_norm": 0.3875110486208986,
      "learning_rate": 2e-05,
      "loss": 0.6634,
      "step": 170
    },
    {
      "epoch": 5.3125,
      "eval_loss": 0.6819935441017151,
      "eval_runtime": 78.3617,
      "eval_samples_per_second": 2.552,
      "eval_steps_per_second": 0.319,
      "step": 170
    },
    {
      "epoch": 5.34375,
      "grad_norm": 0.47956532155617193,
      "learning_rate": 2e-05,
      "loss": 0.687,
      "step": 171
    },
    {
      "epoch": 5.34375,
      "eval_loss": 0.6825206875801086,
      "eval_runtime": 78.4435,
      "eval_samples_per_second": 2.55,
      "eval_steps_per_second": 0.319,
      "step": 171
    },
    {
      "epoch": 5.375,
      "grad_norm": 0.4599359590587781,
      "learning_rate": 2e-05,
      "loss": 0.7718,
      "step": 172
    },
    {
      "epoch": 5.375,
      "eval_loss": 0.6816768050193787,
      "eval_runtime": 78.3005,
      "eval_samples_per_second": 2.554,
      "eval_steps_per_second": 0.319,
      "step": 172
    },
    {
      "epoch": 5.40625,
      "grad_norm": 0.4057490487995386,
      "learning_rate": 2e-05,
      "loss": 0.7292,
      "step": 173
    },
    {
      "epoch": 5.40625,
      "eval_loss": 0.6806090474128723,
      "eval_runtime": 78.3313,
      "eval_samples_per_second": 2.553,
      "eval_steps_per_second": 0.319,
      "step": 173
    },
    {
      "epoch": 5.4375,
      "grad_norm": 0.4143979315360467,
      "learning_rate": 2e-05,
      "loss": 0.7697,
      "step": 174
    },
    {
      "epoch": 5.4375,
      "eval_loss": 0.6795693039894104,
      "eval_runtime": 78.4526,
      "eval_samples_per_second": 2.549,
      "eval_steps_per_second": 0.319,
      "step": 174
    },
    {
      "epoch": 5.46875,
      "grad_norm": 0.4219663662343445,
      "learning_rate": 2e-05,
      "loss": 0.7534,
      "step": 175
    },
    {
      "epoch": 5.46875,
      "eval_loss": 0.6793847680091858,
      "eval_runtime": 78.8009,
      "eval_samples_per_second": 2.538,
      "eval_steps_per_second": 0.317,
      "step": 175
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.4491811321927657,
      "learning_rate": 2e-05,
      "loss": 0.7004,
      "step": 176
    },
    {
      "epoch": 5.5,
      "eval_loss": 0.6775352358818054,
      "eval_runtime": 80.0685,
      "eval_samples_per_second": 2.498,
      "eval_steps_per_second": 0.312,
      "step": 176
    },
    {
      "epoch": 5.53125,
      "grad_norm": 0.46366516532638885,
      "learning_rate": 2e-05,
      "loss": 0.7357,
      "step": 177
    },
    {
      "epoch": 5.53125,
      "eval_loss": 0.6748698949813843,
      "eval_runtime": 80.0487,
      "eval_samples_per_second": 2.498,
      "eval_steps_per_second": 0.312,
      "step": 177
    },
    {
      "epoch": 5.5625,
      "grad_norm": 0.3815188640227797,
      "learning_rate": 2e-05,
      "loss": 0.7592,
      "step": 178
    },
    {
      "epoch": 5.5625,
      "eval_loss": 0.6728273034095764,
      "eval_runtime": 80.0318,
      "eval_samples_per_second": 2.499,
      "eval_steps_per_second": 0.312,
      "step": 178
    },
    {
      "epoch": 5.59375,
      "grad_norm": 0.41025429416666304,
      "learning_rate": 2e-05,
      "loss": 0.6585,
      "step": 179
    },
    {
      "epoch": 5.59375,
      "eval_loss": 0.6718859672546387,
      "eval_runtime": 79.8801,
      "eval_samples_per_second": 2.504,
      "eval_steps_per_second": 0.313,
      "step": 179
    },
    {
      "epoch": 5.625,
      "grad_norm": 0.40652817592240054,
      "learning_rate": 2e-05,
      "loss": 0.6611,
      "step": 180
    },
    {
      "epoch": 5.625,
      "eval_loss": 0.6715708374977112,
      "eval_runtime": 76.7261,
      "eval_samples_per_second": 2.607,
      "eval_steps_per_second": 0.326,
      "step": 180
    },
    {
      "epoch": 5.65625,
      "grad_norm": 0.40753961326688415,
      "learning_rate": 2e-05,
      "loss": 0.6779,
      "step": 181
    },
    {
      "epoch": 5.65625,
      "eval_loss": 0.6719761490821838,
      "eval_runtime": 77.0136,
      "eval_samples_per_second": 2.597,
      "eval_steps_per_second": 0.325,
      "step": 181
    },
    {
      "epoch": 5.6875,
      "grad_norm": 0.4232811980671673,
      "learning_rate": 2e-05,
      "loss": 0.6475,
      "step": 182
    },
    {
      "epoch": 5.6875,
      "eval_loss": 0.6724664568901062,
      "eval_runtime": 76.9731,
      "eval_samples_per_second": 2.598,
      "eval_steps_per_second": 0.325,
      "step": 182
    },
    {
      "epoch": 5.71875,
      "grad_norm": 0.5132756318549849,
      "learning_rate": 2e-05,
      "loss": 0.6801,
      "step": 183
    },
    {
      "epoch": 5.71875,
      "eval_loss": 0.6723365783691406,
      "eval_runtime": 76.4132,
      "eval_samples_per_second": 2.617,
      "eval_steps_per_second": 0.327,
      "step": 183
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.43526879230161264,
      "learning_rate": 2e-05,
      "loss": 0.6673,
      "step": 184
    },
    {
      "epoch": 5.75,
      "eval_loss": 0.672926664352417,
      "eval_runtime": 76.1936,
      "eval_samples_per_second": 2.625,
      "eval_steps_per_second": 0.328,
      "step": 184
    },
    {
      "epoch": 5.78125,
      "grad_norm": 0.46965560853038507,
      "learning_rate": 2e-05,
      "loss": 0.7074,
      "step": 185
    },
    {
      "epoch": 5.78125,
      "eval_loss": 0.6731134057044983,
      "eval_runtime": 76.2345,
      "eval_samples_per_second": 2.623,
      "eval_steps_per_second": 0.328,
      "step": 185
    },
    {
      "epoch": 5.8125,
      "grad_norm": 0.4733296318676217,
      "learning_rate": 2e-05,
      "loss": 0.6791,
      "step": 186
    },
    {
      "epoch": 5.8125,
      "eval_loss": 0.6726363301277161,
      "eval_runtime": 78.3939,
      "eval_samples_per_second": 2.551,
      "eval_steps_per_second": 0.319,
      "step": 186
    },
    {
      "epoch": 5.84375,
      "grad_norm": 0.4662943253655961,
      "learning_rate": 2e-05,
      "loss": 0.7371,
      "step": 187
    },
    {
      "epoch": 5.84375,
      "eval_loss": 0.6726526021957397,
      "eval_runtime": 79.1834,
      "eval_samples_per_second": 2.526,
      "eval_steps_per_second": 0.316,
      "step": 187
    },
    {
      "epoch": 5.875,
      "grad_norm": 0.4420962889993382,
      "learning_rate": 2e-05,
      "loss": 0.675,
      "step": 188
    },
    {
      "epoch": 5.875,
      "eval_loss": 0.6727125644683838,
      "eval_runtime": 78.252,
      "eval_samples_per_second": 2.556,
      "eval_steps_per_second": 0.319,
      "step": 188
    },
    {
      "epoch": 5.90625,
      "grad_norm": 0.4345166976944551,
      "learning_rate": 2e-05,
      "loss": 0.6748,
      "step": 189
    },
    {
      "epoch": 5.90625,
      "eval_loss": 0.6725904941558838,
      "eval_runtime": 78.3914,
      "eval_samples_per_second": 2.551,
      "eval_steps_per_second": 0.319,
      "step": 189
    },
    {
      "epoch": 5.9375,
      "grad_norm": 0.45109463315374526,
      "learning_rate": 2e-05,
      "loss": 0.7024,
      "step": 190
    },
    {
      "epoch": 5.9375,
      "eval_loss": 0.6718384027481079,
      "eval_runtime": 78.4361,
      "eval_samples_per_second": 2.55,
      "eval_steps_per_second": 0.319,
      "step": 190
    },
    {
      "epoch": 5.96875,
      "grad_norm": 0.42953871838795626,
      "learning_rate": 2e-05,
      "loss": 0.6904,
      "step": 191
    },
    {
      "epoch": 5.96875,
      "eval_loss": 0.6703083515167236,
      "eval_runtime": 78.3863,
      "eval_samples_per_second": 2.551,
      "eval_steps_per_second": 0.319,
      "step": 191
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.4248607379284984,
      "learning_rate": 2e-05,
      "loss": 0.6659,
      "step": 192
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.6693080067634583,
      "eval_runtime": 78.4373,
      "eval_samples_per_second": 2.55,
      "eval_steps_per_second": 0.319,
      "step": 192
    },
    {
      "epoch": 6.03125,
      "grad_norm": 0.42839417453459494,
      "learning_rate": 2e-05,
      "loss": 0.7457,
      "step": 193
    },
    {
      "epoch": 6.03125,
      "eval_loss": 0.6689594984054565,
      "eval_runtime": 78.4169,
      "eval_samples_per_second": 2.55,
      "eval_steps_per_second": 0.319,
      "step": 193
    },
    {
      "epoch": 6.0625,
      "grad_norm": 0.4216922788166874,
      "learning_rate": 2e-05,
      "loss": 0.7189,
      "step": 194
    },
    {
      "epoch": 6.0625,
      "eval_loss": 0.6689300537109375,
      "eval_runtime": 78.9793,
      "eval_samples_per_second": 2.532,
      "eval_steps_per_second": 0.317,
      "step": 194
    },
    {
      "epoch": 6.09375,
      "grad_norm": 0.45199575791858004,
      "learning_rate": 2e-05,
      "loss": 0.6438,
      "step": 195
    },
    {
      "epoch": 6.09375,
      "eval_loss": 0.6690151691436768,
      "eval_runtime": 78.5002,
      "eval_samples_per_second": 2.548,
      "eval_steps_per_second": 0.318,
      "step": 195
    },
    {
      "epoch": 6.125,
      "grad_norm": 0.4166923177293841,
      "learning_rate": 2e-05,
      "loss": 0.6885,
      "step": 196
    },
    {
      "epoch": 6.125,
      "eval_loss": 0.6688613891601562,
      "eval_runtime": 80.5497,
      "eval_samples_per_second": 2.483,
      "eval_steps_per_second": 0.31,
      "step": 196
    },
    {
      "epoch": 6.15625,
      "grad_norm": 0.45164281863366285,
      "learning_rate": 2e-05,
      "loss": 0.7197,
      "step": 197
    },
    {
      "epoch": 6.15625,
      "eval_loss": 0.6687932014465332,
      "eval_runtime": 80.1482,
      "eval_samples_per_second": 2.495,
      "eval_steps_per_second": 0.312,
      "step": 197
    },
    {
      "epoch": 6.1875,
      "grad_norm": 0.45653924787504446,
      "learning_rate": 2e-05,
      "loss": 0.776,
      "step": 198
    },
    {
      "epoch": 6.1875,
      "eval_loss": 0.6690963506698608,
      "eval_runtime": 80.4464,
      "eval_samples_per_second": 2.486,
      "eval_steps_per_second": 0.311,
      "step": 198
    },
    {
      "epoch": 6.21875,
      "grad_norm": 0.4966562341334706,
      "learning_rate": 2e-05,
      "loss": 0.6532,
      "step": 199
    },
    {
      "epoch": 6.21875,
      "eval_loss": 0.669116735458374,
      "eval_runtime": 79.8294,
      "eval_samples_per_second": 2.505,
      "eval_steps_per_second": 0.313,
      "step": 199
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.4838469303220975,
      "learning_rate": 2e-05,
      "loss": 0.6883,
      "step": 200
    },
    {
      "epoch": 6.25,
      "eval_loss": 0.6693156957626343,
      "eval_runtime": 80.25,
      "eval_samples_per_second": 2.492,
      "eval_steps_per_second": 0.312,
      "step": 200
    },
    {
      "epoch": 6.28125,
      "grad_norm": 0.4836820906895964,
      "learning_rate": 2e-05,
      "loss": 0.7106,
      "step": 201
    },
    {
      "epoch": 6.28125,
      "eval_loss": 0.6704170107841492,
      "eval_runtime": 79.9636,
      "eval_samples_per_second": 2.501,
      "eval_steps_per_second": 0.313,
      "step": 201
    },
    {
      "epoch": 6.3125,
      "grad_norm": 0.4945855983140219,
      "learning_rate": 2e-05,
      "loss": 0.6336,
      "step": 202
    },
    {
      "epoch": 6.3125,
      "eval_loss": 0.6708824038505554,
      "eval_runtime": 80.8044,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 0.309,
      "step": 202
    },
    {
      "epoch": 6.34375,
      "grad_norm": 0.44587847230103017,
      "learning_rate": 2e-05,
      "loss": 0.7811,
      "step": 203
    },
    {
      "epoch": 6.34375,
      "eval_loss": 0.6723968982696533,
      "eval_runtime": 80.1715,
      "eval_samples_per_second": 2.495,
      "eval_steps_per_second": 0.312,
      "step": 203
    },
    {
      "epoch": 6.375,
      "grad_norm": 0.5351063503195825,
      "learning_rate": 2e-05,
      "loss": 0.6222,
      "step": 204
    },
    {
      "epoch": 6.375,
      "eval_loss": 0.672196626663208,
      "eval_runtime": 79.927,
      "eval_samples_per_second": 2.502,
      "eval_steps_per_second": 0.313,
      "step": 204
    },
    {
      "epoch": 6.40625,
      "grad_norm": 0.4742985088010474,
      "learning_rate": 2e-05,
      "loss": 0.6157,
      "step": 205
    },
    {
      "epoch": 6.40625,
      "eval_loss": 0.671062171459198,
      "eval_runtime": 80.1997,
      "eval_samples_per_second": 2.494,
      "eval_steps_per_second": 0.312,
      "step": 205
    },
    {
      "epoch": 6.4375,
      "grad_norm": 0.5188882333349506,
      "learning_rate": 2e-05,
      "loss": 0.6462,
      "step": 206
    },
    {
      "epoch": 6.4375,
      "eval_loss": 0.6701972484588623,
      "eval_runtime": 81.6643,
      "eval_samples_per_second": 2.449,
      "eval_steps_per_second": 0.306,
      "step": 206
    },
    {
      "epoch": 6.46875,
      "grad_norm": 0.45328063593983603,
      "learning_rate": 2e-05,
      "loss": 0.7058,
      "step": 207
    },
    {
      "epoch": 6.46875,
      "eval_loss": 0.6699164509773254,
      "eval_runtime": 81.2228,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 0.308,
      "step": 207
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.5197645538332801,
      "learning_rate": 2e-05,
      "loss": 0.6462,
      "step": 208
    },
    {
      "epoch": 6.5,
      "eval_loss": 0.6702597141265869,
      "eval_runtime": 81.1451,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 0.308,
      "step": 208
    },
    {
      "epoch": 6.53125,
      "grad_norm": 0.5762528184834232,
      "learning_rate": 2e-05,
      "loss": 0.6259,
      "step": 209
    },
    {
      "epoch": 6.53125,
      "eval_loss": 0.6696366667747498,
      "eval_runtime": 81.1643,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 0.308,
      "step": 209
    },
    {
      "epoch": 6.5625,
      "grad_norm": 0.5249503180293145,
      "learning_rate": 2e-05,
      "loss": 0.6045,
      "step": 210
    },
    {
      "epoch": 6.5625,
      "eval_loss": 0.6688054800033569,
      "eval_runtime": 80.9492,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 0.309,
      "step": 210
    },
    {
      "epoch": 6.59375,
      "grad_norm": 0.543503888655844,
      "learning_rate": 2e-05,
      "loss": 0.6496,
      "step": 211
    },
    {
      "epoch": 6.59375,
      "eval_loss": 0.6689916849136353,
      "eval_runtime": 81.6473,
      "eval_samples_per_second": 2.45,
      "eval_steps_per_second": 0.306,
      "step": 211
    },
    {
      "epoch": 6.625,
      "grad_norm": 0.48119553592193554,
      "learning_rate": 2e-05,
      "loss": 0.6211,
      "step": 212
    },
    {
      "epoch": 6.625,
      "eval_loss": 0.6703050136566162,
      "eval_runtime": 81.9207,
      "eval_samples_per_second": 2.441,
      "eval_steps_per_second": 0.305,
      "step": 212
    },
    {
      "epoch": 6.65625,
      "grad_norm": 0.5153356086819314,
      "learning_rate": 2e-05,
      "loss": 0.7135,
      "step": 213
    },
    {
      "epoch": 6.65625,
      "eval_loss": 0.6702842116355896,
      "eval_runtime": 81.1503,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 0.308,
      "step": 213
    },
    {
      "epoch": 6.6875,
      "grad_norm": 0.5249915042825578,
      "learning_rate": 2e-05,
      "loss": 0.6635,
      "step": 214
    },
    {
      "epoch": 6.6875,
      "eval_loss": 0.6687333583831787,
      "eval_runtime": 81.6743,
      "eval_samples_per_second": 2.449,
      "eval_steps_per_second": 0.306,
      "step": 214
    },
    {
      "epoch": 6.71875,
      "grad_norm": 0.5204840219868723,
      "learning_rate": 2e-05,
      "loss": 0.6701,
      "step": 215
    },
    {
      "epoch": 6.71875,
      "eval_loss": 0.6657728552818298,
      "eval_runtime": 81.106,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 0.308,
      "step": 215
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.5266935225120133,
      "learning_rate": 2e-05,
      "loss": 0.6637,
      "step": 216
    },
    {
      "epoch": 6.75,
      "eval_loss": 0.6641908884048462,
      "eval_runtime": 82.2613,
      "eval_samples_per_second": 2.431,
      "eval_steps_per_second": 0.304,
      "step": 216
    },
    {
      "epoch": 6.78125,
      "grad_norm": 0.5438859451742696,
      "learning_rate": 2e-05,
      "loss": 0.6168,
      "step": 217
    },
    {
      "epoch": 6.78125,
      "eval_loss": 0.6652233600616455,
      "eval_runtime": 82.042,
      "eval_samples_per_second": 2.438,
      "eval_steps_per_second": 0.305,
      "step": 217
    },
    {
      "epoch": 6.8125,
      "grad_norm": 0.5716385253433929,
      "learning_rate": 2e-05,
      "loss": 0.6062,
      "step": 218
    },
    {
      "epoch": 6.8125,
      "eval_loss": 0.6656240820884705,
      "eval_runtime": 81.233,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 0.308,
      "step": 218
    },
    {
      "epoch": 6.84375,
      "grad_norm": 1.0572787630142522,
      "learning_rate": 2e-05,
      "loss": 0.7037,
      "step": 219
    },
    {
      "epoch": 6.84375,
      "eval_loss": 0.6645559072494507,
      "eval_runtime": 81.2099,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 0.308,
      "step": 219
    },
    {
      "epoch": 6.875,
      "grad_norm": 0.5924889323251107,
      "learning_rate": 2e-05,
      "loss": 0.712,
      "step": 220
    },
    {
      "epoch": 6.875,
      "eval_loss": 0.6619111895561218,
      "eval_runtime": 81.7826,
      "eval_samples_per_second": 2.446,
      "eval_steps_per_second": 0.306,
      "step": 220
    },
    {
      "epoch": 6.90625,
      "grad_norm": 0.5290576915218269,
      "learning_rate": 2e-05,
      "loss": 0.6659,
      "step": 221
    },
    {
      "epoch": 6.90625,
      "eval_loss": 0.6609540581703186,
      "eval_runtime": 82.9922,
      "eval_samples_per_second": 2.41,
      "eval_steps_per_second": 0.301,
      "step": 221
    },
    {
      "epoch": 6.9375,
      "grad_norm": 0.5831209517049147,
      "learning_rate": 2e-05,
      "loss": 0.6547,
      "step": 222
    },
    {
      "epoch": 6.9375,
      "eval_loss": 0.660676896572113,
      "eval_runtime": 83.6541,
      "eval_samples_per_second": 2.391,
      "eval_steps_per_second": 0.299,
      "step": 222
    },
    {
      "epoch": 6.96875,
      "grad_norm": 0.5320966369511158,
      "learning_rate": 2e-05,
      "loss": 0.6968,
      "step": 223
    },
    {
      "epoch": 6.96875,
      "eval_loss": 0.6618594527244568,
      "eval_runtime": 83.1148,
      "eval_samples_per_second": 2.406,
      "eval_steps_per_second": 0.301,
      "step": 223
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.5829636446837394,
      "learning_rate": 2e-05,
      "loss": 0.7407,
      "step": 224
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.6635661125183105,
      "eval_runtime": 82.8183,
      "eval_samples_per_second": 2.415,
      "eval_steps_per_second": 0.302,
      "step": 224
    },
    {
      "epoch": 7.03125,
      "grad_norm": 0.4975095056459566,
      "learning_rate": 2e-05,
      "loss": 0.6535,
      "step": 225
    },
    {
      "epoch": 7.03125,
      "eval_loss": 0.6641671657562256,
      "eval_runtime": 83.0267,
      "eval_samples_per_second": 2.409,
      "eval_steps_per_second": 0.301,
      "step": 225
    },
    {
      "epoch": 7.0625,
      "grad_norm": 0.5625698523064815,
      "learning_rate": 2e-05,
      "loss": 0.6012,
      "step": 226
    },
    {
      "epoch": 7.0625,
      "eval_loss": 0.6639044880867004,
      "eval_runtime": 83.3881,
      "eval_samples_per_second": 2.398,
      "eval_steps_per_second": 0.3,
      "step": 226
    },
    {
      "epoch": 7.09375,
      "grad_norm": 0.5436196850683295,
      "learning_rate": 2e-05,
      "loss": 0.6485,
      "step": 227
    },
    {
      "epoch": 7.09375,
      "eval_loss": 0.6651788353919983,
      "eval_runtime": 82.7096,
      "eval_samples_per_second": 2.418,
      "eval_steps_per_second": 0.302,
      "step": 227
    },
    {
      "epoch": 7.125,
      "grad_norm": 0.5598906287609361,
      "learning_rate": 2e-05,
      "loss": 0.6142,
      "step": 228
    },
    {
      "epoch": 7.125,
      "eval_loss": 0.6688636541366577,
      "eval_runtime": 82.601,
      "eval_samples_per_second": 2.421,
      "eval_steps_per_second": 0.303,
      "step": 228
    },
    {
      "epoch": 7.15625,
      "grad_norm": 0.7572979310697923,
      "learning_rate": 2e-05,
      "loss": 0.6221,
      "step": 229
    },
    {
      "epoch": 7.15625,
      "eval_loss": 0.6699694991111755,
      "eval_runtime": 82.6032,
      "eval_samples_per_second": 2.421,
      "eval_steps_per_second": 0.303,
      "step": 229
    },
    {
      "epoch": 7.1875,
      "grad_norm": 0.6173309690580897,
      "learning_rate": 2e-05,
      "loss": 0.5919,
      "step": 230
    },
    {
      "epoch": 7.1875,
      "eval_loss": 0.6706527471542358,
      "eval_runtime": 82.9732,
      "eval_samples_per_second": 2.41,
      "eval_steps_per_second": 0.301,
      "step": 230
    },
    {
      "epoch": 7.21875,
      "grad_norm": 0.643241771517866,
      "learning_rate": 2e-05,
      "loss": 0.7081,
      "step": 231
    },
    {
      "epoch": 7.21875,
      "eval_loss": 0.6700320243835449,
      "eval_runtime": 84.5621,
      "eval_samples_per_second": 2.365,
      "eval_steps_per_second": 0.296,
      "step": 231
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.577638137570571,
      "learning_rate": 2e-05,
      "loss": 0.6873,
      "step": 232
    },
    {
      "epoch": 7.25,
      "eval_loss": 0.669111430644989,
      "eval_runtime": 84.5124,
      "eval_samples_per_second": 2.367,
      "eval_steps_per_second": 0.296,
      "step": 232
    },
    {
      "epoch": 7.28125,
      "grad_norm": 0.7229488296023369,
      "learning_rate": 2e-05,
      "loss": 0.6301,
      "step": 233
    },
    {
      "epoch": 7.28125,
      "eval_loss": 0.6664154529571533,
      "eval_runtime": 84.6437,
      "eval_samples_per_second": 2.363,
      "eval_steps_per_second": 0.295,
      "step": 233
    },
    {
      "epoch": 7.3125,
      "grad_norm": 0.5827815449039045,
      "learning_rate": 2e-05,
      "loss": 0.669,
      "step": 234
    },
    {
      "epoch": 7.3125,
      "eval_loss": 0.6641202569007874,
      "eval_runtime": 84.489,
      "eval_samples_per_second": 2.367,
      "eval_steps_per_second": 0.296,
      "step": 234
    },
    {
      "epoch": 7.34375,
      "grad_norm": 0.57507354017269,
      "learning_rate": 2e-05,
      "loss": 0.6474,
      "step": 235
    },
    {
      "epoch": 7.34375,
      "eval_loss": 0.6623325347900391,
      "eval_runtime": 84.5536,
      "eval_samples_per_second": 2.365,
      "eval_steps_per_second": 0.296,
      "step": 235
    },
    {
      "epoch": 7.375,
      "grad_norm": 0.5810844862533651,
      "learning_rate": 2e-05,
      "loss": 0.6048,
      "step": 236
    },
    {
      "epoch": 7.375,
      "eval_loss": 0.6619194746017456,
      "eval_runtime": 84.2296,
      "eval_samples_per_second": 2.374,
      "eval_steps_per_second": 0.297,
      "step": 236
    },
    {
      "epoch": 7.40625,
      "grad_norm": 0.6075032415813726,
      "learning_rate": 2e-05,
      "loss": 0.6529,
      "step": 237
    },
    {
      "epoch": 7.40625,
      "eval_loss": 0.6626202464103699,
      "eval_runtime": 84.9703,
      "eval_samples_per_second": 2.354,
      "eval_steps_per_second": 0.294,
      "step": 237
    },
    {
      "epoch": 7.4375,
      "grad_norm": 0.6402642234375245,
      "learning_rate": 2e-05,
      "loss": 0.6433,
      "step": 238
    },
    {
      "epoch": 7.4375,
      "eval_loss": 0.663289487361908,
      "eval_runtime": 84.8924,
      "eval_samples_per_second": 2.356,
      "eval_steps_per_second": 0.294,
      "step": 238
    },
    {
      "epoch": 7.46875,
      "grad_norm": 0.6335996982657431,
      "learning_rate": 2e-05,
      "loss": 0.6815,
      "step": 239
    },
    {
      "epoch": 7.46875,
      "eval_loss": 0.6636109948158264,
      "eval_runtime": 85.0551,
      "eval_samples_per_second": 2.351,
      "eval_steps_per_second": 0.294,
      "step": 239
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.5796846795848909,
      "learning_rate": 2e-05,
      "loss": 0.6236,
      "step": 240
    },
    {
      "epoch": 7.5,
      "eval_loss": 0.6652829051017761,
      "eval_runtime": 84.7574,
      "eval_samples_per_second": 2.36,
      "eval_steps_per_second": 0.295,
      "step": 240
    },
    {
      "epoch": 7.53125,
      "grad_norm": 0.5380402145760035,
      "learning_rate": 2e-05,
      "loss": 0.6564,
      "step": 241
    },
    {
      "epoch": 7.53125,
      "eval_loss": 0.6676375865936279,
      "eval_runtime": 86.2058,
      "eval_samples_per_second": 2.32,
      "eval_steps_per_second": 0.29,
      "step": 241
    },
    {
      "epoch": 7.5625,
      "grad_norm": 0.5964298255824012,
      "learning_rate": 2e-05,
      "loss": 0.6475,
      "step": 242
    },
    {
      "epoch": 7.5625,
      "eval_loss": 0.6698520183563232,
      "eval_runtime": 85.8955,
      "eval_samples_per_second": 2.328,
      "eval_steps_per_second": 0.291,
      "step": 242
    },
    {
      "epoch": 7.59375,
      "grad_norm": 0.561279296875,
      "learning_rate": 2e-05,
      "loss": 0.6395,
      "step": 243
    },
    {
      "epoch": 7.59375,
      "eval_loss": 0.6705803871154785,
      "eval_runtime": 86.0036,
      "eval_samples_per_second": 2.325,
      "eval_steps_per_second": 0.291,
      "step": 243
    },
    {
      "epoch": 7.625,
      "grad_norm": 0.6757292755073548,
      "learning_rate": 2e-05,
      "loss": 0.7074,
      "step": 244
    },
    {
      "epoch": 7.625,
      "eval_loss": 0.6679538488388062,
      "eval_runtime": 85.5379,
      "eval_samples_per_second": 2.338,
      "eval_steps_per_second": 0.292,
      "step": 244
    },
    {
      "epoch": 7.65625,
      "grad_norm": 0.659077163070129,
      "learning_rate": 2e-05,
      "loss": 0.6078,
      "step": 245
    },
    {
      "epoch": 7.65625,
      "eval_loss": 0.6667564511299133,
      "eval_runtime": 85.752,
      "eval_samples_per_second": 2.332,
      "eval_steps_per_second": 0.292,
      "step": 245
    },
    {
      "epoch": 7.6875,
      "grad_norm": 0.6215405566454576,
      "learning_rate": 2e-05,
      "loss": 0.6603,
      "step": 246
    },
    {
      "epoch": 7.6875,
      "eval_loss": 0.665945291519165,
      "eval_runtime": 92.3086,
      "eval_samples_per_second": 2.167,
      "eval_steps_per_second": 0.271,
      "step": 246
    },
    {
      "epoch": 7.71875,
      "grad_norm": 0.6130534921490498,
      "learning_rate": 2e-05,
      "loss": 0.6435,
      "step": 247
    },
    {
      "epoch": 7.71875,
      "eval_loss": 0.6661685109138489,
      "eval_runtime": 87.1917,
      "eval_samples_per_second": 2.294,
      "eval_steps_per_second": 0.287,
      "step": 247
    },
    {
      "epoch": 7.75,
      "grad_norm": 0.6025415602868736,
      "learning_rate": 2e-05,
      "loss": 0.6308,
      "step": 248
    },
    {
      "epoch": 7.75,
      "eval_loss": 0.6658704280853271,
      "eval_runtime": 86.8233,
      "eval_samples_per_second": 2.304,
      "eval_steps_per_second": 0.288,
      "step": 248
    },
    {
      "epoch": 7.78125,
      "grad_norm": 0.6901593792019413,
      "learning_rate": 2e-05,
      "loss": 0.6777,
      "step": 249
    },
    {
      "epoch": 7.78125,
      "eval_loss": 0.6652414202690125,
      "eval_runtime": 86.7625,
      "eval_samples_per_second": 2.305,
      "eval_steps_per_second": 0.288,
      "step": 249
    },
    {
      "epoch": 7.8125,
      "grad_norm": 0.6436454697341579,
      "learning_rate": 2e-05,
      "loss": 0.6912,
      "step": 250
    },
    {
      "epoch": 7.8125,
      "eval_loss": 0.6654212474822998,
      "eval_runtime": 86.871,
      "eval_samples_per_second": 2.302,
      "eval_steps_per_second": 0.288,
      "step": 250
    },
    {
      "epoch": 7.84375,
      "grad_norm": 0.649040103024529,
      "learning_rate": 2e-05,
      "loss": 0.6025,
      "step": 251
    },
    {
      "epoch": 7.84375,
      "eval_loss": 0.6654068231582642,
      "eval_runtime": 86.7458,
      "eval_samples_per_second": 2.306,
      "eval_steps_per_second": 0.288,
      "step": 251
    },
    {
      "epoch": 7.875,
      "grad_norm": 0.6595522131680224,
      "learning_rate": 2e-05,
      "loss": 0.5973,
      "step": 252
    },
    {
      "epoch": 7.875,
      "eval_loss": 0.6644830107688904,
      "eval_runtime": 86.8739,
      "eval_samples_per_second": 2.302,
      "eval_steps_per_second": 0.288,
      "step": 252
    },
    {
      "epoch": 7.90625,
      "grad_norm": 0.6689891717273936,
      "learning_rate": 2e-05,
      "loss": 0.687,
      "step": 253
    },
    {
      "epoch": 7.90625,
      "eval_loss": 0.6616199612617493,
      "eval_runtime": 86.8222,
      "eval_samples_per_second": 2.304,
      "eval_steps_per_second": 0.288,
      "step": 253
    },
    {
      "epoch": 7.9375,
      "grad_norm": 0.6306846778314292,
      "learning_rate": 2e-05,
      "loss": 0.6599,
      "step": 254
    },
    {
      "epoch": 7.9375,
      "eval_loss": 0.6592965126037598,
      "eval_runtime": 86.8577,
      "eval_samples_per_second": 2.303,
      "eval_steps_per_second": 0.288,
      "step": 254
    },
    {
      "epoch": 7.96875,
      "grad_norm": 0.6021327993890785,
      "learning_rate": 2e-05,
      "loss": 0.575,
      "step": 255
    },
    {
      "epoch": 7.96875,
      "eval_loss": 0.6580593585968018,
      "eval_runtime": 86.7582,
      "eval_samples_per_second": 2.305,
      "eval_steps_per_second": 0.288,
      "step": 255
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.6174712675568311,
      "learning_rate": 2e-05,
      "loss": 0.6341,
      "step": 256
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.6575854420661926,
      "eval_runtime": 76.7634,
      "eval_samples_per_second": 2.605,
      "eval_steps_per_second": 0.326,
      "step": 256
    },
    {
      "epoch": 8.03125,
      "grad_norm": 0.6551281786490154,
      "learning_rate": 2e-05,
      "loss": 0.6032,
      "step": 257
    },
    {
      "epoch": 8.03125,
      "eval_loss": 0.6583926677703857,
      "eval_runtime": 83.4222,
      "eval_samples_per_second": 2.397,
      "eval_steps_per_second": 0.3,
      "step": 257
    },
    {
      "epoch": 8.0625,
      "grad_norm": 0.6033798361300539,
      "learning_rate": 2e-05,
      "loss": 0.6352,
      "step": 258
    },
    {
      "epoch": 8.0625,
      "eval_loss": 0.6615632772445679,
      "eval_runtime": 76.7227,
      "eval_samples_per_second": 2.607,
      "eval_steps_per_second": 0.326,
      "step": 258
    },
    {
      "epoch": 8.09375,
      "grad_norm": 0.557538857110867,
      "learning_rate": 2e-05,
      "loss": 0.6472,
      "step": 259
    },
    {
      "epoch": 8.09375,
      "eval_loss": 0.6674608588218689,
      "eval_runtime": 76.6215,
      "eval_samples_per_second": 2.61,
      "eval_steps_per_second": 0.326,
      "step": 259
    },
    {
      "epoch": 8.125,
      "grad_norm": 0.7828450894757938,
      "learning_rate": 2e-05,
      "loss": 0.6576,
      "step": 260
    },
    {
      "epoch": 8.125,
      "eval_loss": 0.670245349407196,
      "eval_runtime": 76.685,
      "eval_samples_per_second": 2.608,
      "eval_steps_per_second": 0.326,
      "step": 260
    },
    {
      "epoch": 8.15625,
      "grad_norm": 0.7969830757603331,
      "learning_rate": 2e-05,
      "loss": 0.5809,
      "step": 261
    },
    {
      "epoch": 8.15625,
      "eval_loss": 0.6711975336074829,
      "eval_runtime": 78.0022,
      "eval_samples_per_second": 2.564,
      "eval_steps_per_second": 0.321,
      "step": 261
    },
    {
      "epoch": 8.1875,
      "grad_norm": 0.6431174985709492,
      "learning_rate": 2e-05,
      "loss": 0.6971,
      "step": 262
    },
    {
      "epoch": 8.1875,
      "eval_loss": 0.6719404458999634,
      "eval_runtime": 78.7599,
      "eval_samples_per_second": 2.539,
      "eval_steps_per_second": 0.317,
      "step": 262
    },
    {
      "epoch": 8.21875,
      "grad_norm": 0.7025583314944188,
      "learning_rate": 2e-05,
      "loss": 0.5751,
      "step": 263
    },
    {
      "epoch": 8.21875,
      "eval_loss": 0.6719526648521423,
      "eval_runtime": 78.0188,
      "eval_samples_per_second": 2.563,
      "eval_steps_per_second": 0.32,
      "step": 263
    },
    {
      "epoch": 8.25,
      "grad_norm": 0.7114355417811269,
      "learning_rate": 2e-05,
      "loss": 0.623,
      "step": 264
    },
    {
      "epoch": 8.25,
      "eval_loss": 0.6717848181724548,
      "eval_runtime": 78.6366,
      "eval_samples_per_second": 2.543,
      "eval_steps_per_second": 0.318,
      "step": 264
    },
    {
      "epoch": 8.28125,
      "grad_norm": 0.8272269435769467,
      "learning_rate": 2e-05,
      "loss": 0.6509,
      "step": 265
    },
    {
      "epoch": 8.28125,
      "eval_loss": 0.6701865196228027,
      "eval_runtime": 78.7279,
      "eval_samples_per_second": 2.54,
      "eval_steps_per_second": 0.318,
      "step": 265
    },
    {
      "epoch": 8.3125,
      "grad_norm": 0.7215994453471393,
      "learning_rate": 2e-05,
      "loss": 0.6263,
      "step": 266
    },
    {
      "epoch": 8.3125,
      "eval_loss": 0.6682087182998657,
      "eval_runtime": 78.1433,
      "eval_samples_per_second": 2.559,
      "eval_steps_per_second": 0.32,
      "step": 266
    },
    {
      "epoch": 8.34375,
      "grad_norm": 0.6425448006102333,
      "learning_rate": 2e-05,
      "loss": 0.5613,
      "step": 267
    },
    {
      "epoch": 8.34375,
      "eval_loss": 0.6686681509017944,
      "eval_runtime": 78.0964,
      "eval_samples_per_second": 2.561,
      "eval_steps_per_second": 0.32,
      "step": 267
    },
    {
      "epoch": 8.375,
      "grad_norm": 0.7207053166384572,
      "learning_rate": 2e-05,
      "loss": 0.6239,
      "step": 268
    },
    {
      "epoch": 8.375,
      "eval_loss": 0.6676305532455444,
      "eval_runtime": 77.9986,
      "eval_samples_per_second": 2.564,
      "eval_steps_per_second": 0.321,
      "step": 268
    },
    {
      "epoch": 8.40625,
      "grad_norm": 0.7459344743811905,
      "learning_rate": 2e-05,
      "loss": 0.6159,
      "step": 269
    },
    {
      "epoch": 8.40625,
      "eval_loss": 0.6660167574882507,
      "eval_runtime": 78.4159,
      "eval_samples_per_second": 2.551,
      "eval_steps_per_second": 0.319,
      "step": 269
    },
    {
      "epoch": 8.4375,
      "grad_norm": 0.7179805119560739,
      "learning_rate": 2e-05,
      "loss": 0.6192,
      "step": 270
    },
    {
      "epoch": 8.4375,
      "eval_loss": 0.6636325716972351,
      "eval_runtime": 78.2224,
      "eval_samples_per_second": 2.557,
      "eval_steps_per_second": 0.32,
      "step": 270
    },
    {
      "epoch": 8.46875,
      "grad_norm": 0.724792498458059,
      "learning_rate": 2e-05,
      "loss": 0.5234,
      "step": 271
    },
    {
      "epoch": 8.46875,
      "eval_loss": 0.6647288799285889,
      "eval_runtime": 79.0573,
      "eval_samples_per_second": 2.53,
      "eval_steps_per_second": 0.316,
      "step": 271
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.6544107138826364,
      "learning_rate": 2e-05,
      "loss": 0.6067,
      "step": 272
    },
    {
      "epoch": 8.5,
      "eval_loss": 0.6689667701721191,
      "eval_runtime": 79.2898,
      "eval_samples_per_second": 2.522,
      "eval_steps_per_second": 0.315,
      "step": 272
    },
    {
      "epoch": 8.53125,
      "grad_norm": 0.71580236810568,
      "learning_rate": 2e-05,
      "loss": 0.6215,
      "step": 273
    },
    {
      "epoch": 8.53125,
      "eval_loss": 0.6723271012306213,
      "eval_runtime": 79.0759,
      "eval_samples_per_second": 2.529,
      "eval_steps_per_second": 0.316,
      "step": 273
    },
    {
      "epoch": 8.5625,
      "grad_norm": 0.7741383931390255,
      "learning_rate": 2e-05,
      "loss": 0.6012,
      "step": 274
    },
    {
      "epoch": 8.5625,
      "eval_loss": 0.6743794083595276,
      "eval_runtime": 79.0509,
      "eval_samples_per_second": 2.53,
      "eval_steps_per_second": 0.316,
      "step": 274
    },
    {
      "epoch": 8.59375,
      "grad_norm": 0.7927343087738151,
      "learning_rate": 2e-05,
      "loss": 0.6241,
      "step": 275
    },
    {
      "epoch": 8.59375,
      "eval_loss": 0.6728585958480835,
      "eval_runtime": 79.2296,
      "eval_samples_per_second": 2.524,
      "eval_steps_per_second": 0.316,
      "step": 275
    },
    {
      "epoch": 8.625,
      "grad_norm": 0.759468785526614,
      "learning_rate": 2e-05,
      "loss": 0.6209,
      "step": 276
    },
    {
      "epoch": 8.625,
      "eval_loss": 0.6686221957206726,
      "eval_runtime": 76.7494,
      "eval_samples_per_second": 2.606,
      "eval_steps_per_second": 0.326,
      "step": 276
    },
    {
      "epoch": 8.65625,
      "grad_norm": 0.7345386079388437,
      "learning_rate": 2e-05,
      "loss": 0.5618,
      "step": 277
    },
    {
      "epoch": 8.65625,
      "eval_loss": 0.6659188270568848,
      "eval_runtime": 77.4511,
      "eval_samples_per_second": 2.582,
      "eval_steps_per_second": 0.323,
      "step": 277
    },
    {
      "epoch": 8.6875,
      "grad_norm": 0.6822491965046279,
      "learning_rate": 2e-05,
      "loss": 0.6064,
      "step": 278
    },
    {
      "epoch": 8.6875,
      "eval_loss": 0.664726734161377,
      "eval_runtime": 76.7108,
      "eval_samples_per_second": 2.607,
      "eval_steps_per_second": 0.326,
      "step": 278
    },
    {
      "epoch": 8.71875,
      "grad_norm": 0.7329120674082968,
      "learning_rate": 2e-05,
      "loss": 0.5843,
      "step": 279
    },
    {
      "epoch": 8.71875,
      "eval_loss": 0.6635715961456299,
      "eval_runtime": 76.7921,
      "eval_samples_per_second": 2.604,
      "eval_steps_per_second": 0.326,
      "step": 279
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.7950781591249908,
      "learning_rate": 2e-05,
      "loss": 0.6383,
      "step": 280
    },
    {
      "epoch": 8.75,
      "eval_loss": 0.664521336555481,
      "eval_runtime": 76.6952,
      "eval_samples_per_second": 2.608,
      "eval_steps_per_second": 0.326,
      "step": 280
    },
    {
      "epoch": 8.78125,
      "grad_norm": 0.6791182798182671,
      "learning_rate": 2e-05,
      "loss": 0.5932,
      "step": 281
    },
    {
      "epoch": 8.78125,
      "eval_loss": 0.6673008799552917,
      "eval_runtime": 76.794,
      "eval_samples_per_second": 2.604,
      "eval_steps_per_second": 0.326,
      "step": 281
    },
    {
      "epoch": 8.8125,
      "grad_norm": 0.7633434086832942,
      "learning_rate": 2e-05,
      "loss": 0.5754,
      "step": 282
    },
    {
      "epoch": 8.8125,
      "eval_loss": 0.6692779064178467,
      "eval_runtime": 76.7749,
      "eval_samples_per_second": 2.605,
      "eval_steps_per_second": 0.326,
      "step": 282
    },
    {
      "epoch": 8.84375,
      "grad_norm": 0.6857090076317197,
      "learning_rate": 2e-05,
      "loss": 0.5585,
      "step": 283
    },
    {
      "epoch": 8.84375,
      "eval_loss": 0.6702080368995667,
      "eval_runtime": 76.6913,
      "eval_samples_per_second": 2.608,
      "eval_steps_per_second": 0.326,
      "step": 283
    },
    {
      "epoch": 8.875,
      "grad_norm": 0.6961298007385132,
      "learning_rate": 2e-05,
      "loss": 0.5093,
      "step": 284
    },
    {
      "epoch": 8.875,
      "eval_loss": 0.6708166599273682,
      "eval_runtime": 76.7725,
      "eval_samples_per_second": 2.605,
      "eval_steps_per_second": 0.326,
      "step": 284
    },
    {
      "epoch": 8.90625,
      "grad_norm": 0.7783752192295856,
      "learning_rate": 2e-05,
      "loss": 0.5656,
      "step": 285
    },
    {
      "epoch": 8.90625,
      "eval_loss": 0.6697121262550354,
      "eval_runtime": 76.7888,
      "eval_samples_per_second": 2.605,
      "eval_steps_per_second": 0.326,
      "step": 285
    },
    {
      "epoch": 8.9375,
      "grad_norm": 0.7327581828795048,
      "learning_rate": 2e-05,
      "loss": 0.6984,
      "step": 286
    },
    {
      "epoch": 8.9375,
      "eval_loss": 0.6684187054634094,
      "eval_runtime": 78.6657,
      "eval_samples_per_second": 2.542,
      "eval_steps_per_second": 0.318,
      "step": 286
    },
    {
      "epoch": 8.96875,
      "grad_norm": 0.689919829790507,
      "learning_rate": 2e-05,
      "loss": 0.6173,
      "step": 287
    },
    {
      "epoch": 8.96875,
      "eval_loss": 0.6675245761871338,
      "eval_runtime": 78.1275,
      "eval_samples_per_second": 2.56,
      "eval_steps_per_second": 0.32,
      "step": 287
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.6812947879732435,
      "learning_rate": 2e-05,
      "loss": 0.5499,
      "step": 288
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.6678825616836548,
      "eval_runtime": 78.8588,
      "eval_samples_per_second": 2.536,
      "eval_steps_per_second": 0.317,
      "step": 288
    },
    {
      "epoch": 9.03125,
      "grad_norm": 0.715716761740314,
      "learning_rate": 2e-05,
      "loss": 0.5699,
      "step": 289
    },
    {
      "epoch": 9.03125,
      "eval_loss": 0.6692755222320557,
      "eval_runtime": 83.098,
      "eval_samples_per_second": 2.407,
      "eval_steps_per_second": 0.301,
      "step": 289
    },
    {
      "epoch": 9.0625,
      "grad_norm": 0.7438930389955494,
      "learning_rate": 2e-05,
      "loss": 0.5974,
      "step": 290
    },
    {
      "epoch": 9.0625,
      "eval_loss": 0.6735746264457703,
      "eval_runtime": 77.384,
      "eval_samples_per_second": 2.585,
      "eval_steps_per_second": 0.323,
      "step": 290
    },
    {
      "epoch": 9.09375,
      "grad_norm": 0.7271043131369198,
      "learning_rate": 2e-05,
      "loss": 0.601,
      "step": 291
    },
    {
      "epoch": 9.09375,
      "eval_loss": 0.6790977716445923,
      "eval_runtime": 78.0312,
      "eval_samples_per_second": 2.563,
      "eval_steps_per_second": 0.32,
      "step": 291
    },
    {
      "epoch": 9.125,
      "grad_norm": 0.851687675865168,
      "learning_rate": 2e-05,
      "loss": 0.5681,
      "step": 292
    },
    {
      "epoch": 9.125,
      "eval_loss": 0.6834170818328857,
      "eval_runtime": 77.8688,
      "eval_samples_per_second": 2.568,
      "eval_steps_per_second": 0.321,
      "step": 292
    },
    {
      "epoch": 9.15625,
      "grad_norm": 0.7905287763218567,
      "learning_rate": 2e-05,
      "loss": 0.6222,
      "step": 293
    },
    {
      "epoch": 9.15625,
      "eval_loss": 0.6843841671943665,
      "eval_runtime": 77.985,
      "eval_samples_per_second": 2.565,
      "eval_steps_per_second": 0.321,
      "step": 293
    },
    {
      "epoch": 9.1875,
      "grad_norm": 0.7301520002532459,
      "learning_rate": 2e-05,
      "loss": 0.5549,
      "step": 294
    },
    {
      "epoch": 9.1875,
      "eval_loss": 0.6860540509223938,
      "eval_runtime": 78.0163,
      "eval_samples_per_second": 2.564,
      "eval_steps_per_second": 0.32,
      "step": 294
    },
    {
      "epoch": 9.21875,
      "grad_norm": 0.899999206595601,
      "learning_rate": 2e-05,
      "loss": 0.5128,
      "step": 295
    },
    {
      "epoch": 9.21875,
      "eval_loss": 0.685759425163269,
      "eval_runtime": 78.4339,
      "eval_samples_per_second": 2.55,
      "eval_steps_per_second": 0.319,
      "step": 295
    },
    {
      "epoch": 9.25,
      "grad_norm": 0.8064287475451557,
      "learning_rate": 2e-05,
      "loss": 0.5261,
      "step": 296
    },
    {
      "epoch": 9.25,
      "eval_loss": 0.6864770650863647,
      "eval_runtime": 79.6129,
      "eval_samples_per_second": 2.512,
      "eval_steps_per_second": 0.314,
      "step": 296
    },
    {
      "epoch": 9.28125,
      "grad_norm": 0.8837240795882767,
      "learning_rate": 2e-05,
      "loss": 0.621,
      "step": 297
    },
    {
      "epoch": 9.28125,
      "eval_loss": 0.6871599555015564,
      "eval_runtime": 78.9778,
      "eval_samples_per_second": 2.532,
      "eval_steps_per_second": 0.317,
      "step": 297
    },
    {
      "epoch": 9.3125,
      "grad_norm": 0.9676184044078363,
      "learning_rate": 2e-05,
      "loss": 0.5655,
      "step": 298
    },
    {
      "epoch": 9.3125,
      "eval_loss": 0.6881282329559326,
      "eval_runtime": 78.9944,
      "eval_samples_per_second": 2.532,
      "eval_steps_per_second": 0.316,
      "step": 298
    },
    {
      "epoch": 9.34375,
      "grad_norm": 0.8723474213941232,
      "learning_rate": 2e-05,
      "loss": 0.5449,
      "step": 299
    },
    {
      "epoch": 9.34375,
      "eval_loss": 0.6879245638847351,
      "eval_runtime": 79.0056,
      "eval_samples_per_second": 2.531,
      "eval_steps_per_second": 0.316,
      "step": 299
    },
    {
      "epoch": 9.375,
      "grad_norm": 0.848833488380702,
      "learning_rate": 2e-05,
      "loss": 0.5683,
      "step": 300
    },
    {
      "epoch": 9.375,
      "eval_loss": 0.6846978664398193,
      "eval_runtime": 78.9003,
      "eval_samples_per_second": 2.535,
      "eval_steps_per_second": 0.317,
      "step": 300
    },
    {
      "epoch": 9.40625,
      "grad_norm": 0.8586391766708288,
      "learning_rate": 2e-05,
      "loss": 0.5358,
      "step": 301
    },
    {
      "epoch": 9.40625,
      "eval_loss": 0.6798649430274963,
      "eval_runtime": 80.0404,
      "eval_samples_per_second": 2.499,
      "eval_steps_per_second": 0.312,
      "step": 301
    },
    {
      "epoch": 9.4375,
      "grad_norm": 0.8007832596916474,
      "learning_rate": 2e-05,
      "loss": 0.5792,
      "step": 302
    },
    {
      "epoch": 9.4375,
      "eval_loss": 0.6757382750511169,
      "eval_runtime": 79.962,
      "eval_samples_per_second": 2.501,
      "eval_steps_per_second": 0.313,
      "step": 302
    },
    {
      "epoch": 9.46875,
      "grad_norm": 0.7839805948862919,
      "learning_rate": 2e-05,
      "loss": 0.5917,
      "step": 303
    },
    {
      "epoch": 9.46875,
      "eval_loss": 0.6754000782966614,
      "eval_runtime": 80.738,
      "eval_samples_per_second": 2.477,
      "eval_steps_per_second": 0.31,
      "step": 303
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.7397772754102683,
      "learning_rate": 2e-05,
      "loss": 0.6249,
      "step": 304
    },
    {
      "epoch": 9.5,
      "eval_loss": 0.6777495741844177,
      "eval_runtime": 80.5144,
      "eval_samples_per_second": 2.484,
      "eval_steps_per_second": 0.311,
      "step": 304
    },
    {
      "epoch": 9.53125,
      "grad_norm": 0.857390001265035,
      "learning_rate": 2e-05,
      "loss": 0.5932,
      "step": 305
    },
    {
      "epoch": 9.53125,
      "eval_loss": 0.6778848171234131,
      "eval_runtime": 80.1508,
      "eval_samples_per_second": 2.495,
      "eval_steps_per_second": 0.312,
      "step": 305
    },
    {
      "epoch": 9.5625,
      "grad_norm": 0.9430180281536945,
      "learning_rate": 2e-05,
      "loss": 0.5793,
      "step": 306
    },
    {
      "epoch": 9.5625,
      "eval_loss": 0.6771917939186096,
      "eval_runtime": 76.7109,
      "eval_samples_per_second": 2.607,
      "eval_steps_per_second": 0.326,
      "step": 306
    },
    {
      "epoch": 9.59375,
      "grad_norm": 0.8705050270903875,
      "learning_rate": 2e-05,
      "loss": 0.5601,
      "step": 307
    },
    {
      "epoch": 9.59375,
      "eval_loss": 0.6808632016181946,
      "eval_runtime": 76.6965,
      "eval_samples_per_second": 2.608,
      "eval_steps_per_second": 0.326,
      "step": 307
    },
    {
      "epoch": 9.625,
      "grad_norm": 0.8611871513168323,
      "learning_rate": 2e-05,
      "loss": 0.5953,
      "step": 308
    },
    {
      "epoch": 9.625,
      "eval_loss": 0.6875945329666138,
      "eval_runtime": 76.6592,
      "eval_samples_per_second": 2.609,
      "eval_steps_per_second": 0.326,
      "step": 308
    },
    {
      "epoch": 9.65625,
      "grad_norm": 0.9066952565245906,
      "learning_rate": 2e-05,
      "loss": 0.5815,
      "step": 309
    },
    {
      "epoch": 9.65625,
      "eval_loss": 0.6910049319267273,
      "eval_runtime": 76.7021,
      "eval_samples_per_second": 2.607,
      "eval_steps_per_second": 0.326,
      "step": 309
    },
    {
      "epoch": 9.6875,
      "grad_norm": 1.0666864048105145,
      "learning_rate": 2e-05,
      "loss": 0.5663,
      "step": 310
    },
    {
      "epoch": 9.6875,
      "eval_loss": 0.6869986057281494,
      "eval_runtime": 76.6344,
      "eval_samples_per_second": 2.61,
      "eval_steps_per_second": 0.326,
      "step": 310
    },
    {
      "epoch": 9.71875,
      "grad_norm": 0.9413311560347162,
      "learning_rate": 2e-05,
      "loss": 0.5106,
      "step": 311
    },
    {
      "epoch": 9.71875,
      "eval_loss": 0.6825075745582581,
      "eval_runtime": 78.7857,
      "eval_samples_per_second": 2.539,
      "eval_steps_per_second": 0.317,
      "step": 311
    },
    {
      "epoch": 9.75,
      "grad_norm": 0.9175579044457436,
      "learning_rate": 2e-05,
      "loss": 0.5821,
      "step": 312
    },
    {
      "epoch": 9.75,
      "eval_loss": 0.6794223189353943,
      "eval_runtime": 78.0368,
      "eval_samples_per_second": 2.563,
      "eval_steps_per_second": 0.32,
      "step": 312
    },
    {
      "epoch": 9.78125,
      "grad_norm": 0.7982785075945665,
      "learning_rate": 2e-05,
      "loss": 0.5781,
      "step": 313
    },
    {
      "epoch": 9.78125,
      "eval_loss": 0.679649829864502,
      "eval_runtime": 78.0513,
      "eval_samples_per_second": 2.562,
      "eval_steps_per_second": 0.32,
      "step": 313
    },
    {
      "epoch": 9.8125,
      "grad_norm": 0.9284642289974022,
      "learning_rate": 2e-05,
      "loss": 0.5394,
      "step": 314
    },
    {
      "epoch": 9.8125,
      "eval_loss": 0.6805163025856018,
      "eval_runtime": 78.2229,
      "eval_samples_per_second": 2.557,
      "eval_steps_per_second": 0.32,
      "step": 314
    },
    {
      "epoch": 9.84375,
      "grad_norm": 0.8816568355396782,
      "learning_rate": 2e-05,
      "loss": 0.5722,
      "step": 315
    },
    {
      "epoch": 9.84375,
      "eval_loss": 0.6801097393035889,
      "eval_runtime": 78.9282,
      "eval_samples_per_second": 2.534,
      "eval_steps_per_second": 0.317,
      "step": 315
    },
    {
      "epoch": 9.875,
      "grad_norm": 0.8137119863863306,
      "learning_rate": 2e-05,
      "loss": 0.5831,
      "step": 316
    },
    {
      "epoch": 9.875,
      "eval_loss": 0.6792600750923157,
      "eval_runtime": 78.8166,
      "eval_samples_per_second": 2.538,
      "eval_steps_per_second": 0.317,
      "step": 316
    },
    {
      "epoch": 9.90625,
      "grad_norm": 0.9595174764400289,
      "learning_rate": 2e-05,
      "loss": 0.5489,
      "step": 317
    },
    {
      "epoch": 9.90625,
      "eval_loss": 0.6755692958831787,
      "eval_runtime": 78.1426,
      "eval_samples_per_second": 2.559,
      "eval_steps_per_second": 0.32,
      "step": 317
    },
    {
      "epoch": 9.9375,
      "grad_norm": 0.8612490247878711,
      "learning_rate": 2e-05,
      "loss": 0.5508,
      "step": 318
    },
    {
      "epoch": 9.9375,
      "eval_loss": 0.673053503036499,
      "eval_runtime": 78.0565,
      "eval_samples_per_second": 2.562,
      "eval_steps_per_second": 0.32,
      "step": 318
    },
    {
      "epoch": 9.96875,
      "grad_norm": 0.9474068762478358,
      "learning_rate": 2e-05,
      "loss": 0.5859,
      "step": 319
    },
    {
      "epoch": 9.96875,
      "eval_loss": 0.6695602536201477,
      "eval_runtime": 78.051,
      "eval_samples_per_second": 2.562,
      "eval_steps_per_second": 0.32,
      "step": 319
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.8401643717683449,
      "learning_rate": 2e-05,
      "loss": 0.5277,
      "step": 320
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.6707890033721924,
      "eval_runtime": 78.9959,
      "eval_samples_per_second": 2.532,
      "eval_steps_per_second": 0.316,
      "step": 320
    },
    {
      "epoch": 10.0,
      "step": 320,
      "total_flos": 613933061373952.0,
      "train_loss": 0.056994458101689814,
      "train_runtime": 3241.7031,
      "train_samples_per_second": 3.085,
      "train_steps_per_second": 0.099
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 320,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 613933061373952.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}