{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 8587,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01164551065564225,
      "grad_norm": 0.14460527896881104,
      "learning_rate": 2.331002331002331e-06,
      "loss": 2.4953,
      "step": 100
    },
    {
      "epoch": 0.0232910213112845,
      "grad_norm": 0.24249859154224396,
      "learning_rate": 4.662004662004662e-06,
      "loss": 2.4574,
      "step": 200
    },
    {
      "epoch": 0.03493653196692675,
      "grad_norm": 0.22802527248859406,
      "learning_rate": 6.993006993006993e-06,
      "loss": 2.4409,
      "step": 300
    },
    {
      "epoch": 0.046582042622569,
      "grad_norm": 0.33553868532180786,
      "learning_rate": 9.324009324009324e-06,
      "loss": 2.4497,
      "step": 400
    },
    {
      "epoch": 0.05822755327821125,
      "grad_norm": 0.36703944206237793,
      "learning_rate": 1.1655011655011657e-05,
      "loss": 2.3974,
      "step": 500
    },
    {
      "epoch": 0.0698730639338535,
      "grad_norm": 0.42922335863113403,
      "learning_rate": 1.3986013986013986e-05,
      "loss": 2.3563,
      "step": 600
    },
    {
      "epoch": 0.08151857458949575,
      "grad_norm": 0.4571892023086548,
      "learning_rate": 1.6317016317016318e-05,
      "loss": 2.3174,
      "step": 700
    },
    {
      "epoch": 0.093164085245138,
      "grad_norm": 0.533064067363739,
      "learning_rate": 1.8648018648018647e-05,
      "loss": 2.3549,
      "step": 800
    },
    {
      "epoch": 0.10480959590078025,
      "grad_norm": 0.5255058407783508,
      "learning_rate": 1.999854282682324e-05,
      "loss": 2.3053,
      "step": 900
    },
    {
      "epoch": 0.1164551065564225,
      "grad_norm": 0.5629482865333557,
      "learning_rate": 1.9983347507285766e-05,
      "loss": 2.2866,
      "step": 1000
    },
    {
      "epoch": 0.12810061721206475,
      "grad_norm": 0.5937526226043701,
      "learning_rate": 1.9951660332101616e-05,
      "loss": 2.2721,
      "step": 1100
    },
    {
      "epoch": 0.139746127867707,
      "grad_norm": 0.703377366065979,
      "learning_rate": 1.9903533646470504e-05,
      "loss": 2.2648,
      "step": 1200
    },
    {
      "epoch": 0.15139163852334925,
      "grad_norm": 0.6113013625144958,
      "learning_rate": 1.9839046952618667e-05,
      "loss": 2.2509,
      "step": 1300
    },
    {
      "epoch": 0.1630371491789915,
      "grad_norm": 0.6333953738212585,
      "learning_rate": 1.9758306778466264e-05,
      "loss": 2.2475,
      "step": 1400
    },
    {
      "epoch": 0.17468265983463374,
      "grad_norm": 0.6210408806800842,
      "learning_rate": 1.966144650165e-05,
      "loss": 2.2575,
      "step": 1500
    },
    {
      "epoch": 0.186328170490276,
      "grad_norm": 0.6377599239349365,
      "learning_rate": 1.9548626129191778e-05,
      "loss": 2.2492,
      "step": 1600
    },
    {
      "epoch": 0.19797368114591826,
      "grad_norm": 0.6116755604743958,
      "learning_rate": 1.9420032033177225e-05,
      "loss": 2.2498,
      "step": 1700
    },
    {
      "epoch": 0.2096191918015605,
      "grad_norm": 0.9220359921455383,
      "learning_rate": 1.927587664288089e-05,
      "loss": 2.2231,
      "step": 1800
    },
    {
      "epoch": 0.22126470245720276,
      "grad_norm": 0.6930053234100342,
      "learning_rate": 1.911639809384656e-05,
      "loss": 2.1863,
      "step": 1900
    },
    {
      "epoch": 0.232910213112845,
      "grad_norm": 0.991111695766449,
      "learning_rate": 1.8941859834502484e-05,
      "loss": 2.1885,
      "step": 2000
    },
    {
      "epoch": 0.24455572376848725,
      "grad_norm": 0.9630569815635681,
      "learning_rate": 1.8752550190961288e-05,
      "loss": 2.208,
      "step": 2100
    },
    {
      "epoch": 0.2562012344241295,
      "grad_norm": 0.8858104348182678,
      "learning_rate": 1.8548781890723614e-05,
      "loss": 2.2048,
      "step": 2200
    },
    {
      "epoch": 0.26784674507977174,
      "grad_norm": 0.9373981952667236,
      "learning_rate": 1.8330891546072095e-05,
      "loss": 2.2026,
      "step": 2300
    },
    {
      "epoch": 0.279492255735414,
      "grad_norm": 0.6907739639282227,
      "learning_rate": 1.809923909800931e-05,
      "loss": 2.1932,
      "step": 2400
    },
    {
      "epoch": 0.29113776639105626,
      "grad_norm": 0.7434536814689636,
      "learning_rate": 1.7854207221658092e-05,
      "loss": 2.2032,
      "step": 2500
    },
    {
      "epoch": 0.3027832770466985,
      "grad_norm": 0.7883014678955078,
      "learning_rate": 1.7596200694106552e-05,
      "loss": 2.1869,
      "step": 2600
    },
    {
      "epoch": 0.31442878770234073,
      "grad_norm": 0.9146271347999573,
      "learning_rate": 1.7325645725742056e-05,
      "loss": 2.1941,
      "step": 2700
    },
    {
      "epoch": 0.326074298357983,
      "grad_norm": 0.9042865633964539,
      "learning_rate": 1.7042989256178744e-05,
      "loss": 2.1523,
      "step": 2800
    },
    {
      "epoch": 0.33771980901362525,
      "grad_norm": 0.9685861468315125,
      "learning_rate": 1.6748698215941704e-05,
      "loss": 2.1736,
      "step": 2900
    },
    {
      "epoch": 0.3493653196692675,
      "grad_norm": 0.7863497138023376,
      "learning_rate": 1.6443258755127393e-05,
      "loss": 2.1938,
      "step": 3000
    },
    {
      "epoch": 0.36101083032490977,
      "grad_norm": 0.631289005279541,
      "learning_rate": 1.6127175440314596e-05,
      "loss": 2.1204,
      "step": 3100
    },
    {
      "epoch": 0.372656340980552,
      "grad_norm": 0.8423033952713013,
      "learning_rate": 1.5800970421052487e-05,
      "loss": 2.1962,
      "step": 3200
    },
    {
      "epoch": 0.38430185163619424,
      "grad_norm": 1.026877522468567,
      "learning_rate": 1.546518256730277e-05,
      "loss": 2.1839,
      "step": 3300
    },
    {
      "epoch": 0.3959473622918365,
      "grad_norm": 1.0023020505905151,
      "learning_rate": 1.5120366579260734e-05,
      "loss": 2.1607,
      "step": 3400
    },
    {
      "epoch": 0.40759287294747876,
      "grad_norm": 0.8861306309700012,
      "learning_rate": 1.4767092071025792e-05,
      "loss": 2.1838,
      "step": 3500
    },
    {
      "epoch": 0.419238383603121,
      "grad_norm": 0.8740290403366089,
      "learning_rate": 1.4405942629635174e-05,
      "loss": 2.1205,
      "step": 3600
    },
    {
      "epoch": 0.4308838942587632,
      "grad_norm": 0.7423445582389832,
      "learning_rate": 1.4037514851015241e-05,
      "loss": 2.215,
      "step": 3700
    },
    {
      "epoch": 0.4425294049144055,
      "grad_norm": 0.9221410155296326,
      "learning_rate": 1.3662417354442924e-05,
      "loss": 2.1836,
      "step": 3800
    },
    {
      "epoch": 0.45417491557004774,
      "grad_norm": 0.9722244143486023,
      "learning_rate": 1.3281269777145354e-05,
      "loss": 2.1934,
      "step": 3900
    },
    {
      "epoch": 0.46582042622569,
      "grad_norm": 1.1752955913543701,
      "learning_rate": 1.2894701750698541e-05,
      "loss": 2.1382,
      "step": 4000
    },
    {
      "epoch": 0.47746593688133226,
      "grad_norm": 0.8646457195281982,
      "learning_rate": 1.2503351860916024e-05,
      "loss": 2.1507,
      "step": 4100
    },
    {
      "epoch": 0.4891114475369745,
      "grad_norm": 1.307706594467163,
      "learning_rate": 1.2107866592945686e-05,
      "loss": 2.1564,
      "step": 4200
    },
    {
      "epoch": 0.5007569581926168,
      "grad_norm": 0.9780316948890686,
      "learning_rate": 1.1708899263317381e-05,
      "loss": 2.1395,
      "step": 4300
    },
    {
      "epoch": 0.512402468848259,
      "grad_norm": 0.8423807621002197,
      "learning_rate": 1.1307108940705536e-05,
      "loss": 2.1605,
      "step": 4400
    },
    {
      "epoch": 0.5240479795039013,
      "grad_norm": 0.9365679621696472,
      "learning_rate": 1.090315935718958e-05,
      "loss": 2.1108,
      "step": 4500
    },
    {
      "epoch": 0.5356934901595435,
      "grad_norm": 0.8869751691818237,
      "learning_rate": 1.0497717811810748e-05,
      "loss": 2.1365,
      "step": 4600
    },
    {
      "epoch": 0.5473390008151857,
      "grad_norm": 0.7278423309326172,
      "learning_rate": 1.0091454068236455e-05,
      "loss": 2.1498,
      "step": 4700
    },
    {
      "epoch": 0.558984511470828,
      "grad_norm": 1.1241728067398071,
      "learning_rate": 9.685039248353284e-06,
      "loss": 2.1635,
      "step": 4800
    },
    {
      "epoch": 0.5706300221264703,
      "grad_norm": 0.8585646748542786,
      "learning_rate": 9.279144723616279e-06,
      "loss": 2.072,
      "step": 4900
    },
    {
      "epoch": 0.5822755327821125,
      "grad_norm": 0.768528938293457,
      "learning_rate": 8.874441005985965e-06,
      "loss": 2.1568,
      "step": 5000
    },
    {
      "epoch": 0.5939210434377548,
      "grad_norm": 1.002091407775879,
      "learning_rate": 8.47159664028521e-06,
      "loss": 2.1631,
      "step": 5100
    },
    {
      "epoch": 0.605566554093397,
      "grad_norm": 0.7817184329032898,
      "learning_rate": 8.07127709980564e-06,
      "loss": 2.1203,
      "step": 5200
    },
    {
      "epoch": 0.6172120647490392,
      "grad_norm": 1.3114322423934937,
      "learning_rate": 7.674143686988085e-06,
      "loss": 2.0871,
      "step": 5300
    },
    {
      "epoch": 0.6288575754046815,
      "grad_norm": 0.7261312007904053,
      "learning_rate": 7.280852440992941e-06,
      "loss": 2.1289,
      "step": 5400
    },
    {
      "epoch": 0.6405030860603237,
      "grad_norm": 0.9209310412406921,
      "learning_rate": 6.89205305396518e-06,
      "loss": 2.1063,
      "step": 5500
    },
    {
      "epoch": 0.652148596715966,
      "grad_norm": 0.9243987798690796,
      "learning_rate": 6.508387797784227e-06,
      "loss": 2.0956,
      "step": 5600
    },
    {
      "epoch": 0.6637941073716083,
      "grad_norm": 0.9812811017036438,
      "learning_rate": 6.130490463071604e-06,
      "loss": 2.0918,
      "step": 5700
    },
    {
      "epoch": 0.6754396180272505,
      "grad_norm": 0.8238828182220459,
      "learning_rate": 5.758985312209124e-06,
      "loss": 2.1203,
      "step": 5800
    },
    {
      "epoch": 0.6870851286828927,
      "grad_norm": 1.1043486595153809,
      "learning_rate": 5.394486048097099e-06,
      "loss": 2.1159,
      "step": 5900
    },
    {
      "epoch": 0.698730639338535,
      "grad_norm": 0.7944552898406982,
      "learning_rate": 5.037594800356142e-06,
      "loss": 2.1157,
      "step": 6000
    },
    {
      "epoch": 0.7103761499941772,
      "grad_norm": 1.1705522537231445,
      "learning_rate": 4.688901130647314e-06,
      "loss": 2.1396,
      "step": 6100
    },
    {
      "epoch": 0.7220216606498195,
      "grad_norm": 0.8150696754455566,
      "learning_rate": 4.348981058753708e-06,
      "loss": 2.0819,
      "step": 6200
    },
    {
      "epoch": 0.7336671713054618,
      "grad_norm": 1.0273561477661133,
      "learning_rate": 4.018396111032394e-06,
      "loss": 2.1226,
      "step": 6300
    },
    {
      "epoch": 0.745312681961104,
      "grad_norm": 0.9231303334236145,
      "learning_rate": 3.697692392808545e-06,
      "loss": 2.1035,
      "step": 6400
    },
    {
      "epoch": 0.7569581926167462,
      "grad_norm": 0.7557884454727173,
      "learning_rate": 3.387399686244144e-06,
      "loss": 2.0954,
      "step": 6500
    },
    {
      "epoch": 0.7686037032723885,
      "grad_norm": 0.8633888959884644,
      "learning_rate": 3.0880305751715402e-06,
      "loss": 2.1199,
      "step": 6600
    },
    {
      "epoch": 0.7802492139280307,
      "grad_norm": 0.8371317982673645,
      "learning_rate": 2.800079598337505e-06,
      "loss": 2.1135,
      "step": 6700
    },
    {
      "epoch": 0.791894724583673,
      "grad_norm": 0.7599378228187561,
      "learning_rate": 2.524022432456664e-06,
      "loss": 2.1385,
      "step": 6800
    },
    {
      "epoch": 0.8035402352393153,
      "grad_norm": 0.8745434880256653,
      "learning_rate": 2.260315106423807e-06,
      "loss": 2.0778,
      "step": 6900
    },
    {
      "epoch": 0.8151857458949575,
      "grad_norm": 0.871006429195404,
      "learning_rate": 2.0093932479830935e-06,
      "loss": 2.1367,
      "step": 7000
    },
    {
      "epoch": 0.8268312565505997,
      "grad_norm": 1.034953236579895,
      "learning_rate": 1.7716713640987526e-06,
      "loss": 2.1163,
      "step": 7100
    },
    {
      "epoch": 0.838476767206242,
      "grad_norm": 0.8476694226264954,
      "learning_rate": 1.5475421562158854e-06,
      "loss": 2.1459,
      "step": 7200
    },
    {
      "epoch": 0.8501222778618842,
      "grad_norm": 0.9011842012405396,
      "learning_rate": 1.3373758715426444e-06,
      "loss": 2.1094,
      "step": 7300
    },
    {
      "epoch": 0.8617677885175264,
      "grad_norm": 0.8178461790084839,
      "learning_rate": 1.141519691425379e-06,
      "loss": 2.0853,
      "step": 7400
    },
    {
      "epoch": 0.8734132991731688,
      "grad_norm": 0.898789644241333,
      "learning_rate": 9.60297157827106e-07,
      "loss": 2.1359,
      "step": 7500
    },
    {
      "epoch": 0.885058809828811,
      "grad_norm": 0.8626888990402222,
      "learning_rate": 7.94007638856753e-07,
      "loss": 2.1405,
      "step": 7600
    },
    {
      "epoch": 0.8967043204844533,
      "grad_norm": 0.8167033791542053,
      "learning_rate": 6.429258342320677e-07,
      "loss": 2.151,
      "step": 7700
    },
    {
      "epoch": 0.9083498311400955,
      "grad_norm": 0.855806827545166,
      "learning_rate": 5.073013214931377e-07,
      "loss": 2.1835,
      "step": 7800
    },
    {
      "epoch": 0.9199953417957377,
      "grad_norm": 0.8845811486244202,
      "learning_rate": 3.8735814371615554e-07,
      "loss": 2.1314,
      "step": 7900
    },
    {
      "epoch": 0.93164085245138,
      "grad_norm": 0.7994192838668823,
      "learning_rate": 2.8329443940849577e-07,
      "loss": 2.1349,
      "step": 8000
    },
    {
      "epoch": 0.9432863631070223,
      "grad_norm": 0.792962372303009,
      "learning_rate": 1.9528211519649341e-07,
      "loss": 2.094,
      "step": 8100
    },
    {
      "epoch": 0.9549318737626645,
      "grad_norm": 1.0241106748580933,
      "learning_rate": 1.234665618466202e-07,
      "loss": 2.1502,
      "step": 8200
    },
    {
      "epoch": 0.9665773844183068,
      "grad_norm": 0.8663437366485596,
      "learning_rate": 6.796641408917671e-08,
      "loss": 2.0692,
      "step": 8300
    },
    {
      "epoch": 0.978222895073949,
      "grad_norm": 0.7561269402503967,
      "learning_rate": 2.8873354641258955e-08,
      "loss": 2.0988,
      "step": 8400
    },
    {
      "epoch": 0.9898684057295912,
      "grad_norm": 1.3960742950439453,
      "learning_rate": 6.2519627527379836e-09,
      "loss": 2.1445,
      "step": 8500
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.9266563653945923,
      "eval_runtime": 63.7186,
      "eval_samples_per_second": 15.537,
      "eval_steps_per_second": 1.946,
      "step": 8587
    },
    {
      "epoch": 1.0,
      "step": 8587,
      "total_flos": 1.5640093507584e+17,
      "train_loss": 2.1807946249230077,
      "train_runtime": 2485.1722,
      "train_samples_per_second": 6.91,
      "train_steps_per_second": 3.455
    }
  ],
  "logging_steps": 100,
  "max_steps": 8587,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5640093507584e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}