{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 10.0,
  "eval_steps": 500,
  "global_step": 8260,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.61,
      "learning_rate": 6.25e-05,
      "loss": 5.8023,
      "step": 500
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.4621053223845233,
      "eval_loss": 3.109194755554199,
      "eval_runtime": 4.0139,
      "eval_samples_per_second": 1255.152,
      "eval_steps_per_second": 2.491,
      "step": 826
    },
    {
      "epoch": 1.21,
      "learning_rate": 0.000125,
      "loss": 3.1121,
      "step": 1000
    },
    {
      "epoch": 1.82,
      "learning_rate": 0.0001875,
      "loss": 2.7942,
      "step": 1500
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.49748994257813844,
      "eval_loss": 2.7389166355133057,
      "eval_runtime": 4.1343,
      "eval_samples_per_second": 1218.585,
      "eval_steps_per_second": 2.419,
      "step": 1652
    },
    {
      "epoch": 2.42,
      "learning_rate": 0.00025,
      "loss": 2.625,
      "step": 2000
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.511015494837659,
      "eval_loss": 2.5700840950012207,
      "eval_runtime": 4.4436,
      "eval_samples_per_second": 1133.756,
      "eval_steps_per_second": 2.25,
      "step": 2478
    },
    {
      "epoch": 3.03,
      "learning_rate": 0.0003125,
      "loss": 2.5117,
      "step": 2500
    },
    {
      "epoch": 3.63,
      "learning_rate": 0.000375,
      "loss": 2.412,
      "step": 3000
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.5223295083350786,
      "eval_loss": 2.4618635177612305,
      "eval_runtime": 4.3105,
      "eval_samples_per_second": 1168.783,
      "eval_steps_per_second": 2.32,
      "step": 3304
    },
    {
      "epoch": 4.24,
      "learning_rate": 0.00043750000000000006,
      "loss": 2.3434,
      "step": 3500
    },
    {
      "epoch": 4.84,
      "learning_rate": 0.0005,
      "loss": 2.2885,
      "step": 4000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.5287562556069931,
      "eval_loss": 2.3939802646636963,
      "eval_runtime": 4.587,
      "eval_samples_per_second": 1098.33,
      "eval_steps_per_second": 2.18,
      "step": 4130
    },
    {
      "epoch": 5.45,
      "learning_rate": 0.0005625000000000001,
      "loss": 2.2294,
      "step": 4500
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.5341733533804504,
      "eval_loss": 2.346377372741699,
      "eval_runtime": 4.5113,
      "eval_samples_per_second": 1116.745,
      "eval_steps_per_second": 2.217,
      "step": 4956
    },
    {
      "epoch": 6.05,
      "learning_rate": 0.000625,
      "loss": 2.2056,
      "step": 5000
    },
    {
      "epoch": 6.66,
      "learning_rate": 0.0006875,
      "loss": 2.16,
      "step": 5500
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.5371960501761417,
      "eval_loss": 2.320580005645752,
      "eval_runtime": 4.5241,
      "eval_samples_per_second": 1113.583,
      "eval_steps_per_second": 2.21,
      "step": 5782
    },
    {
      "epoch": 7.26,
      "learning_rate": 0.00075,
      "loss": 2.1379,
      "step": 6000
    },
    {
      "epoch": 7.87,
      "learning_rate": 0.0008125,
      "loss": 2.1272,
      "step": 6500
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.5394685430101309,
      "eval_loss": 2.3045718669891357,
      "eval_runtime": 4.5162,
      "eval_samples_per_second": 1115.551,
      "eval_steps_per_second": 2.214,
      "step": 6608
    },
    {
      "epoch": 8.47,
      "learning_rate": 0.0008750000000000001,
      "loss": 2.0865,
      "step": 7000
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.540476629583668,
      "eval_loss": 2.291161298751831,
      "eval_runtime": 4.4842,
      "eval_samples_per_second": 1123.503,
      "eval_steps_per_second": 2.23,
      "step": 7434
    },
    {
      "epoch": 9.08,
      "learning_rate": 0.0009375,
      "loss": 2.0927,
      "step": 7500
    },
    {
      "epoch": 9.69,
      "learning_rate": 0.001,
      "loss": 2.0577,
      "step": 8000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.5425975187003966,
      "eval_loss": 2.2831156253814697,
      "eval_runtime": 4.7038,
      "eval_samples_per_second": 1071.043,
      "eval_steps_per_second": 2.126,
      "step": 8260
    },
    {
      "epoch": 10.0,
      "step": 8260,
      "total_flos": 2562796651806720.0,
      "train_loss": 2.5465449372446276,
      "train_runtime": 743.7716,
      "train_samples_per_second": 710.057,
      "train_steps_per_second": 11.106
    }
  ],
  "logging_steps": 500,
  "max_steps": 8260,
  "num_train_epochs": 10,
  "save_steps": 2000,
  "total_flos": 2562796651806720.0,
  "trial_name": null,
  "trial_params": null
}