{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 1548,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03,
      "grad_norm": 3.802351951599121,
      "learning_rate": 3.2258064516129034e-05,
      "loss": 3.7331,
      "step": 25
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.442800760269165,
      "learning_rate": 6.451612903225807e-05,
      "loss": 2.9581,
      "step": 50
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.616957902908325,
      "learning_rate": 9.677419354838711e-05,
      "loss": 2.4309,
      "step": 75
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.3956120014190674,
      "learning_rate": 0.00012903225806451613,
      "loss": 2.2667,
      "step": 100
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.698212146759033,
      "learning_rate": 0.00016129032258064516,
      "loss": 2.0782,
      "step": 125
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.7342419624328613,
      "learning_rate": 0.00019354838709677422,
      "loss": 2.0691,
      "step": 150
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.039422035217285,
      "learning_rate": 0.00019712849964106247,
      "loss": 2.0865,
      "step": 175
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.0298664569854736,
      "learning_rate": 0.00019353912419239053,
      "loss": 1.9552,
      "step": 200
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.8978090286254883,
      "learning_rate": 0.0001899497487437186,
      "loss": 2.0111,
      "step": 225
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.9588110446929932,
      "learning_rate": 0.00018636037329504667,
      "loss": 1.961,
      "step": 250
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.160839796066284,
      "learning_rate": 0.00018277099784637474,
      "loss": 2.0133,
      "step": 275
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.0899839401245117,
      "learning_rate": 0.00017918162239770278,
      "loss": 1.958,
      "step": 300
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.029879570007324,
      "learning_rate": 0.00017559224694903088,
      "loss": 1.9116,
      "step": 325
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7021583318710327,
      "learning_rate": 0.00017200287150035895,
      "loss": 1.8842,
      "step": 350
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5238200426101685,
      "learning_rate": 0.00016841349605168702,
      "loss": 1.8229,
      "step": 375
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9168670177459717,
      "learning_rate": 0.0001648241206030151,
      "loss": 1.9235,
      "step": 400
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8892511129379272,
      "learning_rate": 0.00016123474515434316,
      "loss": 1.8859,
      "step": 425
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7955598831176758,
      "learning_rate": 0.00015764536970567123,
      "loss": 1.8619,
      "step": 450
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7658586502075195,
      "learning_rate": 0.00015405599425699927,
      "loss": 1.8235,
      "step": 475
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.598111629486084,
      "learning_rate": 0.00015046661880832737,
      "loss": 1.8554,
      "step": 500
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.9352959394454956,
      "learning_rate": 0.00014687724335965544,
      "loss": 1.801,
      "step": 525
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.9746991395950317,
      "learning_rate": 0.0001432878679109835,
      "loss": 1.895,
      "step": 550
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.476921796798706,
      "learning_rate": 0.00013969849246231157,
      "loss": 1.7978,
      "step": 575
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.667672872543335,
      "learning_rate": 0.00013610911701363964,
      "loss": 1.76,
      "step": 600
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5855716466903687,
      "learning_rate": 0.00013251974156496769,
      "loss": 1.8171,
      "step": 625
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9429579973220825,
      "learning_rate": 0.00012893036611629576,
      "loss": 1.811,
      "step": 650
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.684810996055603,
      "learning_rate": 0.00012534099066762382,
      "loss": 1.8148,
      "step": 675
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6180702447891235,
      "learning_rate": 0.00012175161521895191,
      "loss": 1.7356,
      "step": 700
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7795788049697876,
      "learning_rate": 0.00011816223977027998,
      "loss": 1.7969,
      "step": 725
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7645013332366943,
      "learning_rate": 0.00011457286432160806,
      "loss": 1.8198,
      "step": 750
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.713512897491455,
      "learning_rate": 0.00011098348887293613,
      "loss": 1.7514,
      "step": 775
    },
    {
      "epoch": 1.03,
      "grad_norm": 1.3435418605804443,
      "learning_rate": 0.00010739411342426417,
      "loss": 1.6679,
      "step": 800
    },
    {
      "epoch": 1.07,
      "grad_norm": 1.5819846391677856,
      "learning_rate": 0.00010380473797559225,
      "loss": 1.7182,
      "step": 825
    },
    {
      "epoch": 1.1,
      "grad_norm": 1.3324297666549683,
      "learning_rate": 0.00010021536252692032,
      "loss": 1.7301,
      "step": 850
    },
    {
      "epoch": 1.13,
      "grad_norm": 1.4800920486450195,
      "learning_rate": 9.662598707824839e-05,
      "loss": 1.7123,
      "step": 875
    },
    {
      "epoch": 1.16,
      "grad_norm": 1.5812880992889404,
      "learning_rate": 9.303661162957645e-05,
      "loss": 1.7816,
      "step": 900
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.5376070737838745,
      "learning_rate": 8.944723618090453e-05,
      "loss": 1.7446,
      "step": 925
    },
    {
      "epoch": 1.23,
      "grad_norm": 1.5884149074554443,
      "learning_rate": 8.58578607322326e-05,
      "loss": 1.6483,
      "step": 950
    },
    {
      "epoch": 1.26,
      "grad_norm": 2.03753662109375,
      "learning_rate": 8.226848528356066e-05,
      "loss": 1.6695,
      "step": 975
    },
    {
      "epoch": 1.29,
      "grad_norm": 1.7924336194992065,
      "learning_rate": 7.867910983488873e-05,
      "loss": 1.7109,
      "step": 1000
    },
    {
      "epoch": 1.32,
      "grad_norm": 1.80973219871521,
      "learning_rate": 7.508973438621681e-05,
      "loss": 1.7017,
      "step": 1025
    },
    {
      "epoch": 1.36,
      "grad_norm": 1.7763901948928833,
      "learning_rate": 7.150035893754488e-05,
      "loss": 1.6669,
      "step": 1050
    },
    {
      "epoch": 1.39,
      "grad_norm": 3.0561070442199707,
      "learning_rate": 6.791098348887293e-05,
      "loss": 1.6681,
      "step": 1075
    },
    {
      "epoch": 1.42,
      "grad_norm": 1.7292817831039429,
      "learning_rate": 6.4321608040201e-05,
      "loss": 1.6787,
      "step": 1100
    },
    {
      "epoch": 1.45,
      "grad_norm": 1.6157281398773193,
      "learning_rate": 6.073223259152908e-05,
      "loss": 1.6716,
      "step": 1125
    },
    {
      "epoch": 1.49,
      "grad_norm": 1.5873336791992188,
      "learning_rate": 5.714285714285714e-05,
      "loss": 1.6724,
      "step": 1150
    },
    {
      "epoch": 1.52,
      "grad_norm": 1.7574703693389893,
      "learning_rate": 5.355348169418522e-05,
      "loss": 1.6608,
      "step": 1175
    },
    {
      "epoch": 1.55,
      "grad_norm": 1.7600945234298706,
      "learning_rate": 4.996410624551328e-05,
      "loss": 1.7204,
      "step": 1200
    },
    {
      "epoch": 1.58,
      "grad_norm": 1.4515677690505981,
      "learning_rate": 4.6374730796841356e-05,
      "loss": 1.6755,
      "step": 1225
    },
    {
      "epoch": 1.61,
      "grad_norm": 1.9057530164718628,
      "learning_rate": 4.278535534816942e-05,
      "loss": 1.6953,
      "step": 1250
    },
    {
      "epoch": 1.65,
      "grad_norm": 1.7482775449752808,
      "learning_rate": 3.919597989949749e-05,
      "loss": 1.686,
      "step": 1275
    },
    {
      "epoch": 1.68,
      "grad_norm": 1.8991056680679321,
      "learning_rate": 3.560660445082556e-05,
      "loss": 1.6611,
      "step": 1300
    },
    {
      "epoch": 1.71,
      "grad_norm": 1.7882860898971558,
      "learning_rate": 3.201722900215363e-05,
      "loss": 1.7103,
      "step": 1325
    },
    {
      "epoch": 1.74,
      "grad_norm": 1.6628391742706299,
      "learning_rate": 2.84278535534817e-05,
      "loss": 1.6925,
      "step": 1350
    },
    {
      "epoch": 1.78,
      "grad_norm": 1.5516228675842285,
      "learning_rate": 2.4838478104809766e-05,
      "loss": 1.652,
      "step": 1375
    },
    {
      "epoch": 1.81,
      "grad_norm": 1.5719884634017944,
      "learning_rate": 2.1249102656137835e-05,
      "loss": 1.6383,
      "step": 1400
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.8628472089767456,
      "learning_rate": 1.76597272074659e-05,
      "loss": 1.6922,
      "step": 1425
    },
    {
      "epoch": 1.87,
      "grad_norm": 1.7590694427490234,
      "learning_rate": 1.407035175879397e-05,
      "loss": 1.687,
      "step": 1450
    },
    {
      "epoch": 1.91,
      "grad_norm": 1.6741101741790771,
      "learning_rate": 1.048097631012204e-05,
      "loss": 1.6599,
      "step": 1475
    },
    {
      "epoch": 1.94,
      "grad_norm": 1.7378610372543335,
      "learning_rate": 6.891600861450108e-06,
      "loss": 1.6765,
      "step": 1500
    },
    {
      "epoch": 1.97,
      "grad_norm": 1.5435367822647095,
      "learning_rate": 3.3022254127781766e-06,
      "loss": 1.607,
      "step": 1525
    }
  ],
  "logging_steps": 25,
  "max_steps": 1548,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "total_flos": 1.0151913205845197e+17,
  "train_batch_size": 6,
  "trial_name": null,
  "trial_params": null
}