{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 8587,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01164551065564225,
      "grad_norm": 0.14791734516620636,
      "learning_rate": 2.331002331002331e-06,
      "loss": 2.4953,
      "step": 100
    },
    {
      "epoch": 0.0232910213112845,
      "grad_norm": 0.2441452145576477,
      "learning_rate": 4.662004662004662e-06,
      "loss": 2.4575,
      "step": 200
    },
    {
      "epoch": 0.03493653196692675,
      "grad_norm": 0.22649115324020386,
      "learning_rate": 6.993006993006993e-06,
      "loss": 2.4409,
      "step": 300
    },
    {
      "epoch": 0.046582042622569,
      "grad_norm": 0.3321034610271454,
      "learning_rate": 9.324009324009324e-06,
      "loss": 2.4497,
      "step": 400
    },
    {
      "epoch": 0.05822755327821125,
      "grad_norm": 0.36618897318840027,
      "learning_rate": 1.1655011655011657e-05,
      "loss": 2.3973,
      "step": 500
    },
    {
      "epoch": 0.0698730639338535,
      "grad_norm": 0.42568501830101013,
      "learning_rate": 1.3986013986013986e-05,
      "loss": 2.356,
      "step": 600
    },
    {
      "epoch": 0.08151857458949575,
      "grad_norm": 0.4560384452342987,
      "learning_rate": 1.6317016317016318e-05,
      "loss": 2.317,
      "step": 700
    },
    {
      "epoch": 0.093164085245138,
      "grad_norm": 0.5321765542030334,
      "learning_rate": 1.8648018648018647e-05,
      "loss": 2.3544,
      "step": 800
    },
    {
      "epoch": 0.10480959590078025,
      "grad_norm": 0.5255011916160583,
      "learning_rate": 1.999854282682324e-05,
      "loss": 2.3049,
      "step": 900
    },
    {
      "epoch": 0.1164551065564225,
      "grad_norm": 0.563510537147522,
      "learning_rate": 1.9983347507285766e-05,
      "loss": 2.2863,
      "step": 1000
    },
    {
      "epoch": 0.12810061721206475,
      "grad_norm": 0.5928713083267212,
      "learning_rate": 1.9951660332101616e-05,
      "loss": 2.2718,
      "step": 1100
    },
    {
      "epoch": 0.139746127867707,
      "grad_norm": 0.7078022956848145,
      "learning_rate": 1.9903533646470504e-05,
      "loss": 2.2645,
      "step": 1200
    },
    {
      "epoch": 0.15139163852334925,
      "grad_norm": 0.612659752368927,
      "learning_rate": 1.9839046952618667e-05,
      "loss": 2.2507,
      "step": 1300
    },
    {
      "epoch": 0.1630371491789915,
      "grad_norm": 0.6351534724235535,
      "learning_rate": 1.9758306778466264e-05,
      "loss": 2.2474,
      "step": 1400
    },
    {
      "epoch": 0.17468265983463374,
      "grad_norm": 0.616267740726471,
      "learning_rate": 1.966144650165e-05,
      "loss": 2.2574,
      "step": 1500
    },
    {
      "epoch": 0.186328170490276,
      "grad_norm": 0.6416229009628296,
      "learning_rate": 1.9548626129191778e-05,
      "loss": 2.249,
      "step": 1600
    },
    {
      "epoch": 0.19797368114591826,
      "grad_norm": 0.6149903535842896,
      "learning_rate": 1.9420032033177225e-05,
      "loss": 2.2497,
      "step": 1700
    },
    {
      "epoch": 0.2096191918015605,
      "grad_norm": 0.9221161007881165,
      "learning_rate": 1.927587664288089e-05,
      "loss": 2.223,
      "step": 1800
    },
    {
      "epoch": 0.22126470245720276,
      "grad_norm": 0.6987215876579285,
      "learning_rate": 1.911639809384656e-05,
      "loss": 2.1861,
      "step": 1900
    },
    {
      "epoch": 0.232910213112845,
      "grad_norm": 1.0042574405670166,
      "learning_rate": 1.8941859834502484e-05,
      "loss": 2.1883,
      "step": 2000
    },
    {
      "epoch": 0.24455572376848725,
      "grad_norm": 0.975431501865387,
      "learning_rate": 1.8752550190961288e-05,
      "loss": 2.2078,
      "step": 2100
    },
    {
      "epoch": 0.2562012344241295,
      "grad_norm": 0.8907233476638794,
      "learning_rate": 1.8548781890723614e-05,
      "loss": 2.2046,
      "step": 2200
    },
    {
      "epoch": 0.26784674507977174,
      "grad_norm": 0.9513066411018372,
      "learning_rate": 1.8330891546072095e-05,
      "loss": 2.2023,
      "step": 2300
    },
    {
      "epoch": 0.279492255735414,
      "grad_norm": 0.6928815841674805,
      "learning_rate": 1.809923909800931e-05,
      "loss": 2.1932,
      "step": 2400
    },
    {
      "epoch": 0.29113776639105626,
      "grad_norm": 0.7470653057098389,
      "learning_rate": 1.7854207221658092e-05,
      "loss": 2.2031,
      "step": 2500
    },
    {
      "epoch": 0.3027832770466985,
      "grad_norm": 0.7841106653213501,
      "learning_rate": 1.7596200694106552e-05,
      "loss": 2.1867,
      "step": 2600
    },
    {
      "epoch": 0.31442878770234073,
      "grad_norm": 0.9168167114257812,
      "learning_rate": 1.7325645725742056e-05,
      "loss": 2.1939,
      "step": 2700
    },
    {
      "epoch": 0.326074298357983,
      "grad_norm": 0.9133324027061462,
      "learning_rate": 1.7042989256178744e-05,
      "loss": 2.1522,
      "step": 2800
    },
    {
      "epoch": 0.33771980901362525,
      "grad_norm": 0.985498309135437,
      "learning_rate": 1.6748698215941704e-05,
      "loss": 2.1735,
      "step": 2900
    },
    {
      "epoch": 0.3493653196692675,
      "grad_norm": 0.7974863052368164,
      "learning_rate": 1.6443258755127393e-05,
      "loss": 2.1939,
      "step": 3000
    },
    {
      "epoch": 0.36101083032490977,
      "grad_norm": 0.6346118450164795,
      "learning_rate": 1.6127175440314596e-05,
      "loss": 2.1204,
      "step": 3100
    },
    {
      "epoch": 0.372656340980552,
      "grad_norm": 0.8495335578918457,
      "learning_rate": 1.5800970421052487e-05,
      "loss": 2.1964,
      "step": 3200
    },
    {
      "epoch": 0.38430185163619424,
      "grad_norm": 1.029366135597229,
      "learning_rate": 1.546518256730277e-05,
      "loss": 2.1838,
      "step": 3300
    },
    {
      "epoch": 0.3959473622918365,
      "grad_norm": 1.0092447996139526,
      "learning_rate": 1.5120366579260734e-05,
      "loss": 2.1607,
      "step": 3400
    },
    {
      "epoch": 0.40759287294747876,
      "grad_norm": 0.8872857689857483,
      "learning_rate": 1.4767092071025792e-05,
      "loss": 2.1836,
      "step": 3500
    },
    {
      "epoch": 0.419238383603121,
      "grad_norm": 0.8824167251586914,
      "learning_rate": 1.4405942629635174e-05,
      "loss": 2.1207,
      "step": 3600
    },
    {
      "epoch": 0.4308838942587632,
      "grad_norm": 0.7451480627059937,
      "learning_rate": 1.4037514851015241e-05,
      "loss": 2.215,
      "step": 3700
    },
    {
      "epoch": 0.4425294049144055,
      "grad_norm": 0.9333692193031311,
      "learning_rate": 1.3662417354442924e-05,
      "loss": 2.1836,
      "step": 3800
    },
    {
      "epoch": 0.45417491557004774,
      "grad_norm": 0.9870197176933289,
      "learning_rate": 1.3281269777145354e-05,
      "loss": 2.1935,
      "step": 3900
    },
    {
      "epoch": 0.46582042622569,
      "grad_norm": 1.1925898790359497,
      "learning_rate": 1.2894701750698541e-05,
      "loss": 2.1383,
      "step": 4000
    },
    {
      "epoch": 0.47746593688133226,
      "grad_norm": 0.8721115589141846,
      "learning_rate": 1.2503351860916024e-05,
      "loss": 2.1506,
      "step": 4100
    },
    {
      "epoch": 0.4891114475369745,
      "grad_norm": 1.3675851821899414,
      "learning_rate": 1.2107866592945686e-05,
      "loss": 2.1562,
      "step": 4200
    },
    {
      "epoch": 0.5007569581926168,
      "grad_norm": 0.9814177751541138,
      "learning_rate": 1.1708899263317381e-05,
      "loss": 2.1394,
      "step": 4300
    },
    {
      "epoch": 0.512402468848259,
      "grad_norm": 0.8111391067504883,
      "learning_rate": 1.1307108940705536e-05,
      "loss": 2.1605,
      "step": 4400
    },
    {
      "epoch": 0.5240479795039013,
      "grad_norm": 0.9435734152793884,
      "learning_rate": 1.090315935718958e-05,
      "loss": 2.1108,
      "step": 4500
    },
    {
      "epoch": 0.5356934901595435,
      "grad_norm": 0.8855921626091003,
      "learning_rate": 1.0497717811810748e-05,
      "loss": 2.1364,
      "step": 4600
    },
    {
      "epoch": 0.5473390008151857,
      "grad_norm": 0.7305698990821838,
      "learning_rate": 1.0091454068236455e-05,
      "loss": 2.1498,
      "step": 4700
    },
    {
      "epoch": 0.558984511470828,
      "grad_norm": 1.123586654663086,
      "learning_rate": 9.685039248353284e-06,
      "loss": 2.1634,
      "step": 4800
    },
    {
      "epoch": 0.5706300221264703,
      "grad_norm": 0.857729434967041,
      "learning_rate": 9.279144723616279e-06,
      "loss": 2.0721,
      "step": 4900
    },
    {
      "epoch": 0.5822755327821125,
      "grad_norm": 0.7783474326133728,
      "learning_rate": 8.874441005985965e-06,
      "loss": 2.1569,
      "step": 5000
    },
    {
      "epoch": 0.5939210434377548,
      "grad_norm": 1.0050169229507446,
      "learning_rate": 8.47159664028521e-06,
      "loss": 2.1631,
      "step": 5100
    },
    {
      "epoch": 0.605566554093397,
      "grad_norm": 0.7871978282928467,
      "learning_rate": 8.07127709980564e-06,
      "loss": 2.1207,
      "step": 5200
    },
    {
      "epoch": 0.6172120647490392,
      "grad_norm": 1.3452588319778442,
      "learning_rate": 7.674143686988085e-06,
      "loss": 2.0871,
      "step": 5300
    },
    {
      "epoch": 0.6288575754046815,
      "grad_norm": 0.7304858565330505,
      "learning_rate": 7.280852440992941e-06,
      "loss": 2.1289,
      "step": 5400
    },
    {
      "epoch": 0.6405030860603237,
      "grad_norm": 0.9213933944702148,
      "learning_rate": 6.89205305396518e-06,
      "loss": 2.1067,
      "step": 5500
    },
    {
      "epoch": 0.652148596715966,
      "grad_norm": 0.9295869469642639,
      "learning_rate": 6.508387797784227e-06,
      "loss": 2.0959,
      "step": 5600
    },
    {
      "epoch": 0.6637941073716083,
      "grad_norm": 0.9920222759246826,
      "learning_rate": 6.130490463071604e-06,
      "loss": 2.0919,
      "step": 5700
    },
    {
      "epoch": 0.6754396180272505,
      "grad_norm": 0.8308998942375183,
      "learning_rate": 5.758985312209124e-06,
      "loss": 2.1206,
      "step": 5800
    },
    {
      "epoch": 0.6870851286828927,
      "grad_norm": 1.1122294664382935,
      "learning_rate": 5.394486048097099e-06,
      "loss": 2.116,
      "step": 5900
    },
    {
      "epoch": 0.698730639338535,
      "grad_norm": 0.7995828986167908,
      "learning_rate": 5.037594800356142e-06,
      "loss": 2.1159,
      "step": 6000
    },
    {
      "epoch": 0.7103761499941772,
      "grad_norm": 1.1691644191741943,
      "learning_rate": 4.688901130647314e-06,
      "loss": 2.1396,
      "step": 6100
    },
    {
      "epoch": 0.7220216606498195,
      "grad_norm": 0.8228808045387268,
      "learning_rate": 4.348981058753708e-06,
      "loss": 2.0819,
      "step": 6200
    },
    {
      "epoch": 0.7336671713054618,
      "grad_norm": 1.0278650522232056,
      "learning_rate": 4.018396111032394e-06,
      "loss": 2.1227,
      "step": 6300
    },
    {
      "epoch": 0.745312681961104,
      "grad_norm": 0.9175333976745605,
      "learning_rate": 3.697692392808545e-06,
      "loss": 2.1037,
      "step": 6400
    },
    {
      "epoch": 0.7569581926167462,
      "grad_norm": 0.7555139064788818,
      "learning_rate": 3.387399686244144e-06,
      "loss": 2.0953,
      "step": 6500
    },
    {
      "epoch": 0.7686037032723885,
      "grad_norm": 0.8671744465827942,
      "learning_rate": 3.0880305751715402e-06,
      "loss": 2.1201,
      "step": 6600
    },
    {
      "epoch": 0.7802492139280307,
      "grad_norm": 0.8459142446517944,
      "learning_rate": 2.800079598337505e-06,
      "loss": 2.1136,
      "step": 6700
    },
    {
      "epoch": 0.791894724583673,
      "grad_norm": 0.763583242893219,
      "learning_rate": 2.524022432456664e-06,
      "loss": 2.1386,
      "step": 6800
    },
    {
      "epoch": 0.8035402352393153,
      "grad_norm": 0.8807295560836792,
      "learning_rate": 2.260315106423807e-06,
      "loss": 2.0779,
      "step": 6900
    },
    {
      "epoch": 0.8151857458949575,
      "grad_norm": 0.8740783333778381,
      "learning_rate": 2.0093932479830935e-06,
      "loss": 2.1367,
      "step": 7000
    },
    {
      "epoch": 0.8268312565505997,
      "grad_norm": 1.039287805557251,
      "learning_rate": 1.7716713640987526e-06,
      "loss": 2.1166,
      "step": 7100
    },
    {
      "epoch": 0.838476767206242,
      "grad_norm": 0.8560532331466675,
      "learning_rate": 1.5475421562158854e-06,
      "loss": 2.1459,
      "step": 7200
    },
    {
      "epoch": 0.8501222778618842,
      "grad_norm": 0.9102568030357361,
      "learning_rate": 1.3373758715426444e-06,
      "loss": 2.1095,
      "step": 7300
    },
    {
      "epoch": 0.8617677885175264,
      "grad_norm": 0.8189859390258789,
      "learning_rate": 1.141519691425379e-06,
      "loss": 2.0852,
      "step": 7400
    },
    {
      "epoch": 0.8734132991731688,
      "grad_norm": 0.9001794457435608,
      "learning_rate": 9.60297157827106e-07,
      "loss": 2.1364,
      "step": 7500
    },
    {
      "epoch": 0.885058809828811,
      "grad_norm": 0.8623350262641907,
      "learning_rate": 7.94007638856753e-07,
      "loss": 2.1407,
      "step": 7600
    },
    {
      "epoch": 0.8967043204844533,
      "grad_norm": 0.8134225010871887,
      "learning_rate": 6.429258342320677e-07,
      "loss": 2.1512,
      "step": 7700
    },
    {
      "epoch": 0.9083498311400955,
      "grad_norm": 0.8605279326438904,
      "learning_rate": 5.073013214931377e-07,
      "loss": 2.1837,
      "step": 7800
    },
    {
      "epoch": 0.9199953417957377,
      "grad_norm": 0.8916401267051697,
      "learning_rate": 3.8735814371615554e-07,
      "loss": 2.1317,
      "step": 7900
    },
    {
      "epoch": 0.93164085245138,
      "grad_norm": 0.8076800107955933,
      "learning_rate": 2.8329443940849577e-07,
      "loss": 2.1349,
      "step": 8000
    },
    {
      "epoch": 0.9432863631070223,
      "grad_norm": 0.7975759506225586,
      "learning_rate": 1.9528211519649341e-07,
      "loss": 2.094,
      "step": 8100
    },
    {
      "epoch": 0.9549318737626645,
      "grad_norm": 1.0410187244415283,
      "learning_rate": 1.234665618466202e-07,
      "loss": 2.1501,
      "step": 8200
    },
    {
      "epoch": 0.9665773844183068,
      "grad_norm": 0.8723394274711609,
      "learning_rate": 6.796641408917671e-08,
      "loss": 2.0692,
      "step": 8300
    },
    {
      "epoch": 0.978222895073949,
      "grad_norm": 0.7656298279762268,
      "learning_rate": 2.8873354641258955e-08,
      "loss": 2.0986,
      "step": 8400
    },
    {
      "epoch": 0.9898684057295912,
      "grad_norm": 1.4604876041412354,
      "learning_rate": 6.396496618182868e-09,
      "loss": 2.1445,
      "step": 8500
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.9266319274902344,
      "eval_runtime": 63.649,
      "eval_samples_per_second": 15.554,
      "eval_steps_per_second": 1.948,
      "step": 8587
    },
    {
      "epoch": 1.0,
      "step": 8587,
      "total_flos": 1.5640093507584e+17,
      "train_loss": 2.1807824082961527,
      "train_runtime": 2484.8584,
      "train_samples_per_second": 6.911,
      "train_steps_per_second": 3.456
    }
  ],
  "logging_steps": 100,
  "max_steps": 8587,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5640093507584e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}