{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 40,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.025,
      "grad_norm": 6.698945088060824,
      "learning_rate": 1.25e-07,
      "logits/chosen": -2.8582587242126465,
      "logits/rejected": -2.842068910598755,
      "logps/chosen": -261.8958435058594,
      "logps/rejected": -226.5897216796875,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.25,
      "grad_norm": 6.888664410561039,
      "learning_rate": 4.6650635094610966e-07,
      "logits/chosen": -2.781330108642578,
      "logits/rejected": -2.7729134559631348,
      "logps/chosen": -254.4892578125,
      "logps/rejected": -251.1736602783203,
      "loss": 0.6908,
      "rewards/accuracies": 0.5208333134651184,
      "rewards/chosen": 0.005517133977264166,
      "rewards/margins": 0.004050815477967262,
      "rewards/rejected": 0.0014663181500509381,
      "step": 10
    },
    {
      "epoch": 0.5,
      "grad_norm": 6.422517638432347,
      "learning_rate": 2.934120444167326e-07,
      "logits/chosen": -2.7719380855560303,
      "logits/rejected": -2.7447848320007324,
      "logps/chosen": -265.4648132324219,
      "logps/rejected": -252.11721801757812,
      "loss": 0.6742,
      "rewards/accuracies": 0.6781250238418579,
      "rewards/chosen": 0.03317389637231827,
      "rewards/margins": 0.04384994134306908,
      "rewards/rejected": -0.010676050558686256,
      "step": 20
    },
    {
      "epoch": 0.75,
      "grad_norm": 7.490219062263049,
      "learning_rate": 8.930309757836516e-08,
      "logits/chosen": -2.7620229721069336,
      "logits/rejected": -2.740633487701416,
      "logps/chosen": -258.3665466308594,
      "logps/rejected": -249.21975708007812,
      "loss": 0.6514,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": -0.02328680083155632,
      "rewards/margins": 0.07368560880422592,
      "rewards/rejected": -0.09697240591049194,
      "step": 30
    },
    {
      "epoch": 1.0,
      "grad_norm": 7.121984785862904,
      "learning_rate": 0.0,
      "logits/chosen": -2.758615016937256,
      "logits/rejected": -2.7334706783294678,
      "logps/chosen": -266.12847900390625,
      "logps/rejected": -273.2154541015625,
      "loss": 0.6468,
      "rewards/accuracies": 0.590624988079071,
      "rewards/chosen": -0.05707535147666931,
      "rewards/margins": 0.062127478420734406,
      "rewards/rejected": -0.11920282989740372,
      "step": 40
    },
    {
      "epoch": 1.0,
      "step": 40,
      "total_flos": 0.0,
      "train_loss": 0.6658724308013916,
      "train_runtime": 1113.1816,
      "train_samples_per_second": 9.153,
      "train_steps_per_second": 0.036
    }
  ],
  "logging_steps": 10,
  "max_steps": 40,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}