{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 21.33308049682374,
  "eval_steps": 50000,
  "global_step": 900000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.19,
      "learning_rate": 4.940766331658292e-05,
      "loss": 1.1651,
      "step": 50000
    },
    {
      "epoch": 1.19,
      "eval_loss": 1.026120662689209,
      "eval_runtime": 1432.5553,
      "eval_samples_per_second": 104.708,
      "eval_steps_per_second": 1.636,
      "step": 50000
    },
    {
      "epoch": 2.37,
      "learning_rate": 4.940763961316014e-05,
      "loss": 1.0237,
      "step": 100000
    },
    {
      "epoch": 2.37,
      "eval_loss": 0.9803563356399536,
      "eval_runtime": 1376.4724,
      "eval_samples_per_second": 108.974,
      "eval_steps_per_second": 1.703,
      "step": 100000
    },
    {
      "epoch": 3.56,
      "learning_rate": 4.940766331658292e-05,
      "loss": 0.9833,
      "step": 150000
    },
    {
      "epoch": 3.56,
      "eval_loss": 0.9588034152984619,
      "eval_runtime": 1376.5573,
      "eval_samples_per_second": 108.967,
      "eval_steps_per_second": 1.703,
      "step": 150000
    },
    {
      "epoch": 4.74,
      "learning_rate": 4.9407651464871526e-05,
      "loss": 0.9592,
      "step": 200000
    },
    {
      "epoch": 4.74,
      "eval_loss": 0.944024384021759,
      "eval_runtime": 1372.4075,
      "eval_samples_per_second": 109.297,
      "eval_steps_per_second": 1.708,
      "step": 200000
    },
    {
      "epoch": 5.93,
      "learning_rate": 4.94076751682943e-05,
      "loss": 0.9411,
      "step": 250000
    },
    {
      "epoch": 5.93,
      "eval_loss": 0.9341336488723755,
      "eval_runtime": 1371.037,
      "eval_samples_per_second": 109.406,
      "eval_steps_per_second": 1.71,
      "step": 250000
    },
    {
      "epoch": 7.11,
      "learning_rate": 4.940766331658292e-05,
      "loss": 0.9263,
      "step": 300000
    },
    {
      "epoch": 7.11,
      "eval_loss": 0.9277684092521667,
      "eval_runtime": 1370.7524,
      "eval_samples_per_second": 109.429,
      "eval_steps_per_second": 1.71,
      "step": 300000
    },
    {
      "epoch": 8.3,
      "learning_rate": 4.9407651464871526e-05,
      "loss": 0.9129,
      "step": 350000
    },
    {
      "epoch": 8.3,
      "eval_loss": 0.9227856993675232,
      "eval_runtime": 1365.4307,
      "eval_samples_per_second": 109.855,
      "eval_steps_per_second": 1.717,
      "step": 350000
    },
    {
      "epoch": 9.48,
      "learning_rate": 4.940766331658292e-05,
      "loss": 0.9026,
      "step": 400000
    },
    {
      "epoch": 9.48,
      "eval_loss": 0.9180548787117004,
      "eval_runtime": 1373.3191,
      "eval_samples_per_second": 109.224,
      "eval_steps_per_second": 1.707,
      "step": 400000
    },
    {
      "epoch": 10.67,
      "learning_rate": 4.940766331658292e-05,
      "loss": 0.8948,
      "step": 450000
    },
    {
      "epoch": 10.67,
      "eval_loss": 0.914903461933136,
      "eval_runtime": 1375.6915,
      "eval_samples_per_second": 109.036,
      "eval_steps_per_second": 1.704,
      "step": 450000
    },
    {
      "epoch": 11.85,
      "learning_rate": 4.940763961316014e-05,
      "loss": 0.8878,
      "step": 500000
    },
    {
      "epoch": 11.85,
      "eval_loss": 0.9112315773963928,
      "eval_runtime": 1361.672,
      "eval_samples_per_second": 110.159,
      "eval_steps_per_second": 1.721,
      "step": 500000
    },
    {
      "epoch": 13.04,
      "learning_rate": 4.9407651464871526e-05,
      "loss": 0.8809,
      "step": 550000
    },
    {
      "epoch": 13.04,
      "eval_loss": 0.9120939373970032,
      "eval_runtime": 1374.6065,
      "eval_samples_per_second": 109.122,
      "eval_steps_per_second": 1.705,
      "step": 550000
    },
    {
      "epoch": 14.22,
      "learning_rate": 4.940762776144876e-05,
      "loss": 0.8727,
      "step": 600000
    },
    {
      "epoch": 14.22,
      "eval_loss": 0.9102199077606201,
      "eval_runtime": 1370.4302,
      "eval_samples_per_second": 109.455,
      "eval_steps_per_second": 1.71,
      "step": 600000
    },
    {
      "epoch": 15.41,
      "learning_rate": 4.940763961316014e-05,
      "loss": 0.8664,
      "step": 650000
    },
    {
      "epoch": 15.41,
      "eval_loss": 0.9076188802719116,
      "eval_runtime": 1379.694,
      "eval_samples_per_second": 108.72,
      "eval_steps_per_second": 1.699,
      "step": 650000
    },
    {
      "epoch": 16.59,
      "learning_rate": 4.940762776144876e-05,
      "loss": 0.8615,
      "step": 700000
    },
    {
      "epoch": 16.59,
      "eval_loss": 0.907132625579834,
      "eval_runtime": 1366.9659,
      "eval_samples_per_second": 109.732,
      "eval_steps_per_second": 1.715,
      "step": 700000
    },
    {
      "epoch": 17.78,
      "learning_rate": 4.940761590973737e-05,
      "loss": 0.8571,
      "step": 750000
    },
    {
      "epoch": 17.78,
      "eval_loss": 0.9051714539527893,
      "eval_runtime": 1372.6886,
      "eval_samples_per_second": 109.275,
      "eval_steps_per_second": 1.708,
      "step": 750000
    },
    {
      "epoch": 18.96,
      "learning_rate": 4.940762776144876e-05,
      "loss": 0.8528,
      "step": 800000
    },
    {
      "epoch": 18.96,
      "eval_loss": 0.9034462571144104,
      "eval_runtime": 1376.7168,
      "eval_samples_per_second": 108.955,
      "eval_steps_per_second": 1.703,
      "step": 800000
    },
    {
      "epoch": 20.15,
      "learning_rate": 4.940762776144876e-05,
      "loss": 0.8475,
      "step": 850000
    },
    {
      "epoch": 20.15,
      "eval_loss": 0.9070873856544495,
      "eval_runtime": 1376.6401,
      "eval_samples_per_second": 108.961,
      "eval_steps_per_second": 1.703,
      "step": 850000
    },
    {
      "epoch": 21.33,
      "learning_rate": 4.940761590973737e-05,
      "loss": 0.8407,
      "step": 900000
    },
    {
      "epoch": 21.33,
      "eval_loss": 0.906717836856842,
      "eval_runtime": 1378.1375,
      "eval_samples_per_second": 108.843,
      "eval_steps_per_second": 1.701,
      "step": 900000
    }
  ],
  "logging_steps": 50000,
  "max_steps": 4218800,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 50000,
  "total_flos": 1.881280681869312e+18,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}