{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02,
      "grad_norm": 0.6174958944320679,
      "learning_rate": 6.666666666666667e-05,
      "loss": 0.5017,
      "step": 1
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6429479122161865,
      "learning_rate": 0.00013333333333333334,
      "loss": 0.4915,
      "step": 2
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49867865443229675,
      "learning_rate": 0.0002,
      "loss": 0.428,
      "step": 3
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5035229921340942,
      "learning_rate": 0.00019977668786231534,
      "loss": 0.4537,
      "step": 4
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45080244541168213,
      "learning_rate": 0.000199107748815478,
      "loss": 0.4549,
      "step": 5
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4055653214454651,
      "learning_rate": 0.0001979961705036587,
      "loss": 0.4596,
      "step": 6
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.41731277108192444,
      "learning_rate": 0.00019644691750543767,
      "loss": 0.4274,
      "step": 7
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3783501982688904,
      "learning_rate": 0.0001944669091607919,
      "loss": 0.4789,
      "step": 8
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.37090209126472473,
      "learning_rate": 0.00019206498866764288,
      "loss": 0.4522,
      "step": 9
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.3544338345527649,
      "learning_rate": 0.00018925188358598813,
      "loss": 0.4677,
      "step": 10
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3952384889125824,
      "learning_rate": 0.00018604015792601396,
      "loss": 0.4454,
      "step": 11
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3702380657196045,
      "learning_rate": 0.00018244415603417603,
      "loss": 0.4508,
      "step": 12
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.36494874954223633,
      "learning_rate": 0.0001784799385278661,
      "loss": 0.4466,
      "step": 13
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.34794506430625916,
      "learning_rate": 0.00017416521056479577,
      "loss": 0.4429,
      "step": 14
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3768218159675598,
      "learning_rate": 0.00016951924276746425,
      "loss": 0.451,
      "step": 15
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.37294796109199524,
      "learning_rate": 0.00016456278515588024,
      "loss": 0.4359,
      "step": 16
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3664343059062958,
      "learning_rate": 0.00015931797447293552,
      "loss": 0.4223,
      "step": 17
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38887134194374084,
      "learning_rate": 0.00015380823531633729,
      "loss": 0.4317,
      "step": 18
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3960750699043274,
      "learning_rate": 0.00014805817551866838,
      "loss": 0.4302,
      "step": 19
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3703005611896515,
      "learning_rate": 0.0001420934762428335,
      "loss": 0.4238,
      "step": 20
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3697049617767334,
      "learning_rate": 0.00013594077728375128,
      "loss": 0.4275,
      "step": 21
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3797580897808075,
      "learning_rate": 0.00012962755808856342,
      "loss": 0.4295,
      "step": 22
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37148579955101013,
      "learning_rate": 0.00012318201502675285,
      "loss": 0.413,
      "step": 23
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.36919766664505005,
      "learning_rate": 0.00011663293545831302,
      "loss": 0.418,
      "step": 24
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36413446068763733,
      "learning_rate": 0.00011000956916240985,
      "loss": 0.3946,
      "step": 25
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37875810265541077,
      "learning_rate": 0.00010334149770076747,
      "loss": 0.4423,
      "step": 26
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3651341497898102,
      "learning_rate": 9.665850229923258e-05,
      "loss": 0.4193,
      "step": 27
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36425620317459106,
      "learning_rate": 8.999043083759017e-05,
      "loss": 0.4126,
      "step": 28
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3773588538169861,
      "learning_rate": 8.336706454168701e-05,
      "loss": 0.3913,
      "step": 29
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3708311915397644,
      "learning_rate": 7.681798497324716e-05,
      "loss": 0.4078,
      "step": 30
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38130757212638855,
      "learning_rate": 7.037244191143661e-05,
      "loss": 0.4229,
      "step": 31
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3573770821094513,
      "learning_rate": 6.405922271624874e-05,
      "loss": 0.4117,
      "step": 32
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3715918958187103,
      "learning_rate": 5.790652375716652e-05,
      "loss": 0.3888,
      "step": 33
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.371981143951416,
      "learning_rate": 5.1941824481331626e-05,
      "loss": 0.3819,
      "step": 34
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3743939995765686,
      "learning_rate": 4.6191764683662744e-05,
      "loss": 0.4123,
      "step": 35
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3548343777656555,
      "learning_rate": 4.0682025527064486e-05,
      "loss": 0.3768,
      "step": 36
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.34915444254875183,
      "learning_rate": 3.543721484411976e-05,
      "loss": 0.3836,
      "step": 37
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.36232128739356995,
      "learning_rate": 3.0480757232535772e-05,
      "loss": 0.3905,
      "step": 38
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3516843020915985,
      "learning_rate": 2.5834789435204243e-05,
      "loss": 0.4018,
      "step": 39
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.35692131519317627,
      "learning_rate": 2.1520061472133902e-05,
      "loss": 0.4125,
      "step": 40
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.366886168718338,
      "learning_rate": 1.7555843965823992e-05,
      "loss": 0.3963,
      "step": 41
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3520941436290741,
      "learning_rate": 1.3959842073986085e-05,
      "loss": 0.3923,
      "step": 42
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3794335424900055,
      "learning_rate": 1.0748116414011888e-05,
      "loss": 0.4048,
      "step": 43
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.34629887342453003,
      "learning_rate": 7.935011332357112e-06,
      "loss": 0.3738,
      "step": 44
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3593948185443878,
      "learning_rate": 5.533090839208133e-06,
      "loss": 0.3967,
      "step": 45
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.33537453413009644,
      "learning_rate": 3.5530824945623542e-06,
      "loss": 0.3729,
      "step": 46
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3365356922149658,
      "learning_rate": 2.003829496341325e-06,
      "loss": 0.3799,
      "step": 47
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3586476147174835,
      "learning_rate": 8.922511845219971e-07,
      "loss": 0.4037,
      "step": 48
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3276454508304596,
      "learning_rate": 2.2331213768468363e-07,
      "loss": 0.3982,
      "step": 49
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3641741871833801,
      "learning_rate": 0.0,
      "loss": 0.388,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.469785844519731e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}