{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 10000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.25,
      "grad_norm": 9.530180931091309,
      "learning_rate": 1.9e-05,
      "loss": 0.7046,
      "step": 500
    },
    {
      "epoch": 0.5,
      "grad_norm": 11.739270210266113,
      "learning_rate": 1.8e-05,
      "loss": 0.574,
      "step": 1000
    },
    {
      "epoch": 0.75,
      "grad_norm": 21.960508346557617,
      "learning_rate": 1.7e-05,
      "loss": 0.4031,
      "step": 1500
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2487173080444336,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.38,
      "step": 2000
    },
    {
      "epoch": 1.25,
      "grad_norm": 11.083433151245117,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.2964,
      "step": 2500
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.22524116933345795,
      "learning_rate": 1.4e-05,
      "loss": 0.3073,
      "step": 3000
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.0325411558151245,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 0.3027,
      "step": 3500
    },
    {
      "epoch": 2.0,
      "grad_norm": 10.020037651062012,
      "learning_rate": 1.2e-05,
      "loss": 0.3056,
      "step": 4000
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.0707927793264389,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 0.1681,
      "step": 4500
    },
    {
      "epoch": 2.5,
      "grad_norm": 54.09671401977539,
      "learning_rate": 1e-05,
      "loss": 0.1322,
      "step": 5000
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.42837992310523987,
      "learning_rate": 9e-06,
      "loss": 0.1669,
      "step": 5500
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.044212982058525085,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.1565,
      "step": 6000
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.036281220614910126,
      "learning_rate": 7e-06,
      "loss": 0.0684,
      "step": 6500
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.03776327893137932,
      "learning_rate": 6e-06,
      "loss": 0.0579,
      "step": 7000
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.04667246341705322,
      "learning_rate": 5e-06,
      "loss": 0.0633,
      "step": 7500
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.03510823845863342,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.0725,
      "step": 8000
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.008274059742689133,
      "learning_rate": 3e-06,
      "loss": 0.0353,
      "step": 8500
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.005910390056669712,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.0236,
      "step": 9000
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.010858656838536263,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.0398,
      "step": 9500
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.008823573589324951,
      "learning_rate": 0.0,
      "loss": 0.0302,
      "step": 10000
    },
    {
      "epoch": 5.0,
      "step": 10000,
      "total_flos": 1.863047286713088e+16,
      "train_loss": 0.21442027530670166,
      "train_runtime": 15529.5414,
      "train_samples_per_second": 5.149,
      "train_steps_per_second": 0.644
    }
  ],
  "logging_steps": 500,
  "max_steps": 10000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 1.863047286713088e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}