{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 1000,
  "global_step": 31479,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.047650814828933574,
      "grad_norm": 2.0100979804992676,
      "learning_rate": 0.00019682327901140442,
      "loss": 2.3566,
      "step": 500
    },
    {
      "epoch": 0.09530162965786715,
      "grad_norm": 1.877261996269226,
      "learning_rate": 0.00019364655802280888,
      "loss": 2.2178,
      "step": 1000
    },
    {
      "epoch": 0.09530162965786715,
      "eval_loss": 2.3788223266601562,
      "eval_runtime": 80.302,
      "eval_samples_per_second": 173.271,
      "eval_steps_per_second": 7.223,
      "step": 1000
    },
    {
      "epoch": 0.14295244448680072,
      "grad_norm": 1.7388309240341187,
      "learning_rate": 0.00019046983703421329,
      "loss": 2.1744,
      "step": 1500
    },
    {
      "epoch": 0.1906032593157343,
      "grad_norm": 1.8366143703460693,
      "learning_rate": 0.00018729311604561772,
      "loss": 2.163,
      "step": 2000
    },
    {
      "epoch": 0.1906032593157343,
      "eval_loss": 2.3654611110687256,
      "eval_runtime": 80.3504,
      "eval_samples_per_second": 173.166,
      "eval_steps_per_second": 7.218,
      "step": 2000
    },
    {
      "epoch": 0.23825407414466787,
      "grad_norm": 1.6628751754760742,
      "learning_rate": 0.00018411639505702213,
      "loss": 2.1515,
      "step": 2500
    },
    {
      "epoch": 0.28590488897360145,
      "grad_norm": 1.6291817426681519,
      "learning_rate": 0.0001809396740684266,
      "loss": 2.1196,
      "step": 3000
    },
    {
      "epoch": 0.28590488897360145,
      "eval_loss": 2.3521649837493896,
      "eval_runtime": 80.224,
      "eval_samples_per_second": 173.439,
      "eval_steps_per_second": 7.23,
      "step": 3000
    },
    {
      "epoch": 0.333555703802535,
      "grad_norm": 1.7604336738586426,
      "learning_rate": 0.000177762953079831,
      "loss": 2.1074,
      "step": 3500
    },
    {
      "epoch": 0.3812065186314686,
      "grad_norm": 1.34886634349823,
      "learning_rate": 0.00017458623209123543,
      "loss": 2.0926,
      "step": 4000
    },
    {
      "epoch": 0.3812065186314686,
      "eval_loss": 2.3420486450195312,
      "eval_runtime": 80.1942,
      "eval_samples_per_second": 173.504,
      "eval_steps_per_second": 7.232,
      "step": 4000
    },
    {
      "epoch": 0.42885733346040217,
      "grad_norm": 1.3510360717773438,
      "learning_rate": 0.00017140951110263986,
      "loss": 2.074,
      "step": 4500
    },
    {
      "epoch": 0.47650814828933574,
      "grad_norm": 1.272275447845459,
      "learning_rate": 0.0001682327901140443,
      "loss": 2.0752,
      "step": 5000
    },
    {
      "epoch": 0.47650814828933574,
      "eval_loss": 2.3270885944366455,
      "eval_runtime": 80.2619,
      "eval_samples_per_second": 173.358,
      "eval_steps_per_second": 7.226,
      "step": 5000
    },
    {
      "epoch": 0.5241589631182694,
      "grad_norm": 1.289753794670105,
      "learning_rate": 0.0001650560691254487,
      "loss": 2.0487,
      "step": 5500
    },
    {
      "epoch": 0.5718097779472029,
      "grad_norm": 1.1615971326828003,
      "learning_rate": 0.00016187934813685314,
      "loss": 2.0437,
      "step": 6000
    },
    {
      "epoch": 0.5718097779472029,
      "eval_loss": 2.3274528980255127,
      "eval_runtime": 80.2214,
      "eval_samples_per_second": 173.445,
      "eval_steps_per_second": 7.23,
      "step": 6000
    },
    {
      "epoch": 0.6194605927761365,
      "grad_norm": 1.3484673500061035,
      "learning_rate": 0.00015870262714825757,
      "loss": 2.0134,
      "step": 6500
    },
    {
      "epoch": 0.66711140760507,
      "grad_norm": 1.4737777709960938,
      "learning_rate": 0.000155525906159662,
      "loss": 2.0379,
      "step": 7000
    },
    {
      "epoch": 0.66711140760507,
      "eval_loss": 2.3164169788360596,
      "eval_runtime": 80.2177,
      "eval_samples_per_second": 173.453,
      "eval_steps_per_second": 7.23,
      "step": 7000
    },
    {
      "epoch": 0.7147622224340037,
      "grad_norm": 1.1502068042755127,
      "learning_rate": 0.00015234918517106642,
      "loss": 1.9916,
      "step": 7500
    },
    {
      "epoch": 0.7624130372629372,
      "grad_norm": 1.2299320697784424,
      "learning_rate": 0.00014917246418247085,
      "loss": 2.0068,
      "step": 8000
    },
    {
      "epoch": 0.7624130372629372,
      "eval_loss": 2.311408042907715,
      "eval_runtime": 80.2576,
      "eval_samples_per_second": 173.367,
      "eval_steps_per_second": 7.227,
      "step": 8000
    },
    {
      "epoch": 0.8100638520918708,
      "grad_norm": 1.2537345886230469,
      "learning_rate": 0.00014599574319387528,
      "loss": 1.9886,
      "step": 8500
    },
    {
      "epoch": 0.8577146669208043,
      "grad_norm": 1.0486429929733276,
      "learning_rate": 0.00014281902220527972,
      "loss": 1.9882,
      "step": 9000
    },
    {
      "epoch": 0.8577146669208043,
      "eval_loss": 2.304290294647217,
      "eval_runtime": 80.1372,
      "eval_samples_per_second": 173.627,
      "eval_steps_per_second": 7.238,
      "step": 9000
    },
    {
      "epoch": 0.905365481749738,
      "grad_norm": 1.1815516948699951,
      "learning_rate": 0.00013964230121668413,
      "loss": 1.9732,
      "step": 9500
    },
    {
      "epoch": 0.9530162965786715,
      "grad_norm": 1.2301689386367798,
      "learning_rate": 0.0001364655802280886,
      "loss": 1.9787,
      "step": 10000
    },
    {
      "epoch": 0.9530162965786715,
      "eval_loss": 2.2939772605895996,
      "eval_runtime": 80.1592,
      "eval_samples_per_second": 173.579,
      "eval_steps_per_second": 7.236,
      "step": 10000
    },
    {
      "epoch": 1.0006671114076051,
      "grad_norm": 1.497831106185913,
      "learning_rate": 0.000133288859239493,
      "loss": 1.9557,
      "step": 10500
    },
    {
      "epoch": 1.0483179262365387,
      "grad_norm": 1.3323341608047485,
      "learning_rate": 0.00013011213825089743,
      "loss": 1.7231,
      "step": 11000
    },
    {
      "epoch": 1.0483179262365387,
      "eval_loss": 2.313231945037842,
      "eval_runtime": 80.1199,
      "eval_samples_per_second": 173.665,
      "eval_steps_per_second": 7.239,
      "step": 11000
    },
    {
      "epoch": 1.0959687410654722,
      "grad_norm": 1.8000659942626953,
      "learning_rate": 0.00012693541726230184,
      "loss": 1.714,
      "step": 11500
    },
    {
      "epoch": 1.1436195558944058,
      "grad_norm": 1.2369180917739868,
      "learning_rate": 0.0001237586962737063,
      "loss": 1.7114,
      "step": 12000
    },
    {
      "epoch": 1.1436195558944058,
      "eval_loss": 2.313917875289917,
      "eval_runtime": 80.1492,
      "eval_samples_per_second": 173.601,
      "eval_steps_per_second": 7.237,
      "step": 12000
    },
    {
      "epoch": 1.1912703707233394,
      "grad_norm": 1.431038498878479,
      "learning_rate": 0.0001205819752851107,
      "loss": 1.7283,
      "step": 12500
    },
    {
      "epoch": 1.238921185552273,
      "grad_norm": 1.4570106267929077,
      "learning_rate": 0.00011740525429651514,
      "loss": 1.7033,
      "step": 13000
    },
    {
      "epoch": 1.238921185552273,
      "eval_loss": 2.310853958129883,
      "eval_runtime": 80.0945,
      "eval_samples_per_second": 173.72,
      "eval_steps_per_second": 7.241,
      "step": 13000
    },
    {
      "epoch": 1.2865720003812064,
      "grad_norm": 1.557187795639038,
      "learning_rate": 0.00011422853330791956,
      "loss": 1.7289,
      "step": 13500
    },
    {
      "epoch": 1.33422281521014,
      "grad_norm": 1.5775034427642822,
      "learning_rate": 0.000111051812319324,
      "loss": 1.7151,
      "step": 14000
    },
    {
      "epoch": 1.33422281521014,
      "eval_loss": 2.300920009613037,
      "eval_runtime": 80.1537,
      "eval_samples_per_second": 173.591,
      "eval_steps_per_second": 7.236,
      "step": 14000
    },
    {
      "epoch": 1.3818736300390737,
      "grad_norm": 1.2451566457748413,
      "learning_rate": 0.00010787509133072841,
      "loss": 1.7218,
      "step": 14500
    },
    {
      "epoch": 1.4295244448680071,
      "grad_norm": 1.650688886642456,
      "learning_rate": 0.00010469837034213286,
      "loss": 1.7202,
      "step": 15000
    },
    {
      "epoch": 1.4295244448680071,
      "eval_loss": 2.290478467941284,
      "eval_runtime": 80.1852,
      "eval_samples_per_second": 173.523,
      "eval_steps_per_second": 7.233,
      "step": 15000
    },
    {
      "epoch": 1.4771752596969407,
      "grad_norm": 1.4705020189285278,
      "learning_rate": 0.00010152164935353727,
      "loss": 1.721,
      "step": 15500
    },
    {
      "epoch": 1.5248260745258744,
      "grad_norm": 1.530394434928894,
      "learning_rate": 9.834492836494172e-05,
      "loss": 1.7261,
      "step": 16000
    },
    {
      "epoch": 1.5248260745258744,
      "eval_loss": 2.2944624423980713,
      "eval_runtime": 80.1122,
      "eval_samples_per_second": 173.682,
      "eval_steps_per_second": 7.24,
      "step": 16000
    },
    {
      "epoch": 1.572476889354808,
      "grad_norm": 1.667024850845337,
      "learning_rate": 9.516820737634614e-05,
      "loss": 1.7072,
      "step": 16500
    },
    {
      "epoch": 1.6201277041837416,
      "grad_norm": 1.4624521732330322,
      "learning_rate": 9.199148638775057e-05,
      "loss": 1.7091,
      "step": 17000
    },
    {
      "epoch": 1.6201277041837416,
      "eval_loss": 2.2861549854278564,
      "eval_runtime": 80.0947,
      "eval_samples_per_second": 173.719,
      "eval_steps_per_second": 7.241,
      "step": 17000
    },
    {
      "epoch": 1.6677785190126753,
      "grad_norm": 1.7141919136047363,
      "learning_rate": 8.881476539915499e-05,
      "loss": 1.7281,
      "step": 17500
    },
    {
      "epoch": 1.7154293338416087,
      "grad_norm": 1.367767333984375,
      "learning_rate": 8.563804441055943e-05,
      "loss": 1.7098,
      "step": 18000
    },
    {
      "epoch": 1.7154293338416087,
      "eval_loss": 2.2811758518218994,
      "eval_runtime": 80.1424,
      "eval_samples_per_second": 173.616,
      "eval_steps_per_second": 7.237,
      "step": 18000
    },
    {
      "epoch": 1.7630801486705423,
      "grad_norm": 1.530991792678833,
      "learning_rate": 8.246132342196385e-05,
      "loss": 1.6994,
      "step": 18500
    },
    {
      "epoch": 1.8107309634994757,
      "grad_norm": 1.4421322345733643,
      "learning_rate": 7.928460243336828e-05,
      "loss": 1.6943,
      "step": 19000
    },
    {
      "epoch": 1.8107309634994757,
      "eval_loss": 2.273425579071045,
      "eval_runtime": 80.1385,
      "eval_samples_per_second": 173.624,
      "eval_steps_per_second": 7.237,
      "step": 19000
    },
    {
      "epoch": 1.8583817783284093,
      "grad_norm": 1.5695687532424927,
      "learning_rate": 7.610788144477272e-05,
      "loss": 1.7,
      "step": 19500
    },
    {
      "epoch": 1.906032593157343,
      "grad_norm": 1.6507039070129395,
      "learning_rate": 7.293116045617714e-05,
      "loss": 1.7035,
      "step": 20000
    },
    {
      "epoch": 1.906032593157343,
      "eval_loss": 2.266268730163574,
      "eval_runtime": 80.1631,
      "eval_samples_per_second": 173.571,
      "eval_steps_per_second": 7.235,
      "step": 20000
    },
    {
      "epoch": 1.9536834079862766,
      "grad_norm": 1.41545832157135,
      "learning_rate": 6.975443946758157e-05,
      "loss": 1.6948,
      "step": 20500
    },
    {
      "epoch": 2.0013342228152102,
      "grad_norm": 1.3855451345443726,
      "learning_rate": 6.657771847898599e-05,
      "loss": 1.6776,
      "step": 21000
    },
    {
      "epoch": 2.0013342228152102,
      "eval_loss": 2.302978515625,
      "eval_runtime": 80.1675,
      "eval_samples_per_second": 173.562,
      "eval_steps_per_second": 7.235,
      "step": 21000
    },
    {
      "epoch": 2.048985037644144,
      "grad_norm": 1.3997050523757935,
      "learning_rate": 6.340099749039043e-05,
      "loss": 1.438,
      "step": 21500
    },
    {
      "epoch": 2.0966358524730775,
      "grad_norm": 1.4828859567642212,
      "learning_rate": 6.0224276501794854e-05,
      "loss": 1.4406,
      "step": 22000
    },
    {
      "epoch": 2.0966358524730775,
      "eval_loss": 2.3172175884246826,
      "eval_runtime": 80.1748,
      "eval_samples_per_second": 173.546,
      "eval_steps_per_second": 7.234,
      "step": 22000
    },
    {
      "epoch": 2.1442866673020107,
      "grad_norm": 1.8176885843276978,
      "learning_rate": 5.704755551319928e-05,
      "loss": 1.4555,
      "step": 22500
    },
    {
      "epoch": 2.1919374821309443,
      "grad_norm": 1.48106050491333,
      "learning_rate": 5.387083452460371e-05,
      "loss": 1.4659,
      "step": 23000
    },
    {
      "epoch": 2.1919374821309443,
      "eval_loss": 2.3182783126831055,
      "eval_runtime": 80.2101,
      "eval_samples_per_second": 173.47,
      "eval_steps_per_second": 7.231,
      "step": 23000
    },
    {
      "epoch": 2.239588296959878,
      "grad_norm": 1.6957001686096191,
      "learning_rate": 5.0694113536008136e-05,
      "loss": 1.448,
      "step": 23500
    },
    {
      "epoch": 2.2872391117888116,
      "grad_norm": 1.3845641613006592,
      "learning_rate": 4.7517392547412564e-05,
      "loss": 1.4608,
      "step": 24000
    },
    {
      "epoch": 2.2872391117888116,
      "eval_loss": 2.318488836288452,
      "eval_runtime": 80.1689,
      "eval_samples_per_second": 173.559,
      "eval_steps_per_second": 7.235,
      "step": 24000
    },
    {
      "epoch": 2.334889926617745,
      "grad_norm": 1.9913188219070435,
      "learning_rate": 4.434067155881699e-05,
      "loss": 1.439,
      "step": 24500
    },
    {
      "epoch": 2.382540741446679,
      "grad_norm": 1.8244202136993408,
      "learning_rate": 4.116395057022142e-05,
      "loss": 1.4423,
      "step": 25000
    },
    {
      "epoch": 2.382540741446679,
      "eval_loss": 2.3121349811553955,
      "eval_runtime": 80.1537,
      "eval_samples_per_second": 173.591,
      "eval_steps_per_second": 7.236,
      "step": 25000
    },
    {
      "epoch": 2.4301915562756125,
      "grad_norm": 1.347023606300354,
      "learning_rate": 3.7987229581625846e-05,
      "loss": 1.4506,
      "step": 25500
    },
    {
      "epoch": 2.477842371104546,
      "grad_norm": 1.49163019657135,
      "learning_rate": 3.481050859303028e-05,
      "loss": 1.4378,
      "step": 26000
    },
    {
      "epoch": 2.477842371104546,
      "eval_loss": 2.3090391159057617,
      "eval_runtime": 80.1708,
      "eval_samples_per_second": 173.554,
      "eval_steps_per_second": 7.235,
      "step": 26000
    },
    {
      "epoch": 2.5254931859334793,
      "grad_norm": 1.7945301532745361,
      "learning_rate": 3.163378760443471e-05,
      "loss": 1.4436,
      "step": 26500
    },
    {
      "epoch": 2.573144000762413,
      "grad_norm": 1.5082517862319946,
      "learning_rate": 2.8457066615839136e-05,
      "loss": 1.4277,
      "step": 27000
    },
    {
      "epoch": 2.573144000762413,
      "eval_loss": 2.3082542419433594,
      "eval_runtime": 80.1802,
      "eval_samples_per_second": 173.534,
      "eval_steps_per_second": 7.234,
      "step": 27000
    },
    {
      "epoch": 2.6207948155913465,
      "grad_norm": 1.4329321384429932,
      "learning_rate": 2.5280345627243563e-05,
      "loss": 1.4301,
      "step": 27500
    },
    {
      "epoch": 2.66844563042028,
      "grad_norm": 1.2606436014175415,
      "learning_rate": 2.2103624638647987e-05,
      "loss": 1.4251,
      "step": 28000
    },
    {
      "epoch": 2.66844563042028,
      "eval_loss": 2.2960703372955322,
      "eval_runtime": 80.1531,
      "eval_samples_per_second": 173.593,
      "eval_steps_per_second": 7.236,
      "step": 28000
    },
    {
      "epoch": 2.716096445249214,
      "grad_norm": 1.4542068243026733,
      "learning_rate": 1.8926903650052415e-05,
      "loss": 1.4248,
      "step": 28500
    },
    {
      "epoch": 2.7637472600781474,
      "grad_norm": 1.6642916202545166,
      "learning_rate": 1.5750182661456846e-05,
      "loss": 1.4219,
      "step": 29000
    },
    {
      "epoch": 2.7637472600781474,
      "eval_loss": 2.296442985534668,
      "eval_runtime": 80.1753,
      "eval_samples_per_second": 173.545,
      "eval_steps_per_second": 7.234,
      "step": 29000
    },
    {
      "epoch": 2.811398074907081,
      "grad_norm": 2.0301756858825684,
      "learning_rate": 1.2573461672861273e-05,
      "loss": 1.4281,
      "step": 29500
    },
    {
      "epoch": 2.8590488897360142,
      "grad_norm": 1.6031594276428223,
      "learning_rate": 9.3967406842657e-06,
      "loss": 1.434,
      "step": 30000
    },
    {
      "epoch": 2.8590488897360142,
      "eval_loss": 2.2933690547943115,
      "eval_runtime": 80.1482,
      "eval_samples_per_second": 173.603,
      "eval_steps_per_second": 7.237,
      "step": 30000
    },
    {
      "epoch": 2.9066997045649483,
      "grad_norm": 1.6658378839492798,
      "learning_rate": 6.22001969567013e-06,
      "loss": 1.4291,
      "step": 30500
    },
    {
      "epoch": 2.9543505193938815,
      "grad_norm": 1.589982032775879,
      "learning_rate": 3.0432987070745578e-06,
      "loss": 1.4279,
      "step": 31000
    },
    {
      "epoch": 2.9543505193938815,
      "eval_loss": 2.2906086444854736,
      "eval_runtime": 80.2746,
      "eval_samples_per_second": 173.33,
      "eval_steps_per_second": 7.225,
      "step": 31000
    }
  ],
  "logging_steps": 500,
  "max_steps": 31479,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 50000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.934891962368e+16,
  "train_batch_size": 24,
  "trial_name": null,
  "trial_params": null
}