{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.053662463107056614,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005366246310705661,
      "eval_loss": 1.7080078125,
      "eval_runtime": 222.0356,
      "eval_samples_per_second": 14.137,
      "eval_steps_per_second": 1.77,
      "step": 1
    },
    {
      "epoch": 0.0016098738932116983,
      "grad_norm": 6.655466079711914,
      "learning_rate": 1.5e-05,
      "loss": 6.9469,
      "step": 3
    },
    {
      "epoch": 0.0032197477864233967,
      "grad_norm": 7.123458385467529,
      "learning_rate": 3e-05,
      "loss": 6.4695,
      "step": 6
    },
    {
      "epoch": 0.004829621679635095,
      "grad_norm": 8.761269569396973,
      "learning_rate": 4.5e-05,
      "loss": 6.8445,
      "step": 9
    },
    {
      "epoch": 0.004829621679635095,
      "eval_loss": 1.6058698892593384,
      "eval_runtime": 223.7798,
      "eval_samples_per_second": 14.027,
      "eval_steps_per_second": 1.756,
      "step": 9
    },
    {
      "epoch": 0.006439495572846793,
      "grad_norm": 4.818284034729004,
      "learning_rate": 4.993910125649561e-05,
      "loss": 6.0493,
      "step": 12
    },
    {
      "epoch": 0.008049369466058493,
      "grad_norm": 4.328006267547607,
      "learning_rate": 4.962019382530521e-05,
      "loss": 6.2619,
      "step": 15
    },
    {
      "epoch": 0.00965924335927019,
      "grad_norm": 3.8515660762786865,
      "learning_rate": 4.9031542398457974e-05,
      "loss": 6.294,
      "step": 18
    },
    {
      "epoch": 0.00965924335927019,
      "eval_loss": 1.5180224180221558,
      "eval_runtime": 223.8248,
      "eval_samples_per_second": 14.024,
      "eval_steps_per_second": 1.756,
      "step": 18
    },
    {
      "epoch": 0.011269117252481888,
      "grad_norm": 4.200815677642822,
      "learning_rate": 4.817959636416969e-05,
      "loss": 6.2192,
      "step": 21
    },
    {
      "epoch": 0.012878991145693587,
      "grad_norm": 4.122951507568359,
      "learning_rate": 4.707368982147318e-05,
      "loss": 6.4851,
      "step": 24
    },
    {
      "epoch": 0.014488865038905285,
      "grad_norm": 4.010416030883789,
      "learning_rate": 4.572593931387604e-05,
      "loss": 5.8143,
      "step": 27
    },
    {
      "epoch": 0.014488865038905285,
      "eval_loss": 1.4875162839889526,
      "eval_runtime": 223.7345,
      "eval_samples_per_second": 14.03,
      "eval_steps_per_second": 1.757,
      "step": 27
    },
    {
      "epoch": 0.016098738932116986,
      "grad_norm": 3.747321128845215,
      "learning_rate": 4.415111107797445e-05,
      "loss": 6.0874,
      "step": 30
    },
    {
      "epoch": 0.017708612825328682,
      "grad_norm": 3.997405767440796,
      "learning_rate": 4.2366459261474933e-05,
      "loss": 5.5811,
      "step": 33
    },
    {
      "epoch": 0.01931848671854038,
      "grad_norm": 4.500132083892822,
      "learning_rate": 4.039153688314145e-05,
      "loss": 6.5895,
      "step": 36
    },
    {
      "epoch": 0.01931848671854038,
      "eval_loss": 1.4718722105026245,
      "eval_runtime": 223.8656,
      "eval_samples_per_second": 14.022,
      "eval_steps_per_second": 1.756,
      "step": 36
    },
    {
      "epoch": 0.02092836061175208,
      "grad_norm": 3.927753210067749,
      "learning_rate": 3.824798160583012e-05,
      "loss": 6.3179,
      "step": 39
    },
    {
      "epoch": 0.022538234504963776,
      "grad_norm": 4.107540607452393,
      "learning_rate": 3.5959278669726935e-05,
      "loss": 6.0269,
      "step": 42
    },
    {
      "epoch": 0.024148108398175477,
      "grad_norm": 3.276851177215576,
      "learning_rate": 3.355050358314172e-05,
      "loss": 5.7541,
      "step": 45
    },
    {
      "epoch": 0.024148108398175477,
      "eval_loss": 1.4632972478866577,
      "eval_runtime": 223.8102,
      "eval_samples_per_second": 14.025,
      "eval_steps_per_second": 1.756,
      "step": 45
    },
    {
      "epoch": 0.025757982291387174,
      "grad_norm": 3.1241321563720703,
      "learning_rate": 3.104804738999169e-05,
      "loss": 6.0079,
      "step": 48
    },
    {
      "epoch": 0.027367856184598874,
      "grad_norm": 3.541856527328491,
      "learning_rate": 2.8479327524001636e-05,
      "loss": 5.8156,
      "step": 51
    },
    {
      "epoch": 0.02897773007781057,
      "grad_norm": 3.6596596240997314,
      "learning_rate": 2.587248741756253e-05,
      "loss": 5.6997,
      "step": 54
    },
    {
      "epoch": 0.02897773007781057,
      "eval_loss": 1.4581724405288696,
      "eval_runtime": 223.742,
      "eval_samples_per_second": 14.03,
      "eval_steps_per_second": 1.756,
      "step": 54
    },
    {
      "epoch": 0.03058760397102227,
      "grad_norm": 3.568554401397705,
      "learning_rate": 2.3256088156396868e-05,
      "loss": 5.8428,
      "step": 57
    },
    {
      "epoch": 0.03219747786423397,
      "grad_norm": 3.9941985607147217,
      "learning_rate": 2.0658795558326743e-05,
      "loss": 6.0862,
      "step": 60
    },
    {
      "epoch": 0.03380735175744567,
      "grad_norm": 3.542618989944458,
      "learning_rate": 1.8109066104575023e-05,
      "loss": 5.9766,
      "step": 63
    },
    {
      "epoch": 0.03380735175744567,
      "eval_loss": 1.4539167881011963,
      "eval_runtime": 223.8763,
      "eval_samples_per_second": 14.021,
      "eval_steps_per_second": 1.755,
      "step": 63
    },
    {
      "epoch": 0.035417225650657365,
      "grad_norm": 4.264424800872803,
      "learning_rate": 1.56348351646022e-05,
      "loss": 5.7906,
      "step": 66
    },
    {
      "epoch": 0.03702709954386906,
      "grad_norm": 3.4179012775421143,
      "learning_rate": 1.3263210930352737e-05,
      "loss": 5.9362,
      "step": 69
    },
    {
      "epoch": 0.03863697343708076,
      "grad_norm": 3.861426830291748,
      "learning_rate": 1.1020177413231334e-05,
      "loss": 5.3276,
      "step": 72
    },
    {
      "epoch": 0.03863697343708076,
      "eval_loss": 1.4518824815750122,
      "eval_runtime": 223.8208,
      "eval_samples_per_second": 14.025,
      "eval_steps_per_second": 1.756,
      "step": 72
    },
    {
      "epoch": 0.04024684733029246,
      "grad_norm": 3.1654043197631836,
      "learning_rate": 8.930309757836517e-06,
      "loss": 5.4153,
      "step": 75
    },
    {
      "epoch": 0.04185672122350416,
      "grad_norm": 3.6538448333740234,
      "learning_rate": 7.016504991533726e-06,
      "loss": 5.0112,
      "step": 78
    },
    {
      "epoch": 0.043466595116715856,
      "grad_norm": 3.7895617485046387,
      "learning_rate": 5.299731159831953e-06,
      "loss": 5.8273,
      "step": 81
    },
    {
      "epoch": 0.043466595116715856,
      "eval_loss": 1.44989013671875,
      "eval_runtime": 223.8538,
      "eval_samples_per_second": 14.023,
      "eval_steps_per_second": 1.756,
      "step": 81
    },
    {
      "epoch": 0.04507646900992755,
      "grad_norm": 3.8579094409942627,
      "learning_rate": 3.798797596089351e-06,
      "loss": 5.9472,
      "step": 84
    },
    {
      "epoch": 0.04668634290313926,
      "grad_norm": 3.8563930988311768,
      "learning_rate": 2.5301488425208296e-06,
      "loss": 5.8962,
      "step": 87
    },
    {
      "epoch": 0.04829621679635095,
      "grad_norm": 3.4328930377960205,
      "learning_rate": 1.5076844803522922e-06,
      "loss": 5.8811,
      "step": 90
    },
    {
      "epoch": 0.04829621679635095,
      "eval_loss": 1.449385166168213,
      "eval_runtime": 223.848,
      "eval_samples_per_second": 14.023,
      "eval_steps_per_second": 1.756,
      "step": 90
    },
    {
      "epoch": 0.04990609068956265,
      "grad_norm": 4.164000034332275,
      "learning_rate": 7.426068431000882e-07,
      "loss": 5.9504,
      "step": 93
    },
    {
      "epoch": 0.05151596458277435,
      "grad_norm": 3.8254125118255615,
      "learning_rate": 2.4329828146074095e-07,
      "loss": 6.0849,
      "step": 96
    },
    {
      "epoch": 0.05312583847598605,
      "grad_norm": 3.2517526149749756,
      "learning_rate": 1.522932452260595e-08,
      "loss": 5.3892,
      "step": 99
    },
    {
      "epoch": 0.05312583847598605,
      "eval_loss": 1.4492560625076294,
      "eval_runtime": 223.9094,
      "eval_samples_per_second": 14.019,
      "eval_steps_per_second": 1.755,
      "step": 99
    }
  ],
  "logging_steps": 3,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 9,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.484255733649244e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}