{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 156,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00641025641025641,
      "grad_norm": 3.8148568052575884,
      "learning_rate": 1.282051282051282e-07,
      "loss": 4.889,
      "step": 1
    },
    {
      "epoch": 0.01282051282051282,
      "grad_norm": 4.453444589892027,
      "learning_rate": 2.564102564102564e-07,
      "loss": 4.9097,
      "step": 2
    },
    {
      "epoch": 0.02564102564102564,
      "grad_norm": 4.896614258621833,
      "learning_rate": 5.128205128205128e-07,
      "loss": 4.9099,
      "step": 4
    },
    {
      "epoch": 0.038461538461538464,
      "grad_norm": 4.456576485464451,
      "learning_rate": 7.692307692307694e-07,
      "loss": 4.9102,
      "step": 6
    },
    {
      "epoch": 0.05128205128205128,
      "grad_norm": 4.193427815120892,
      "learning_rate": 1.0256410256410257e-06,
      "loss": 4.8924,
      "step": 8
    },
    {
      "epoch": 0.0641025641025641,
      "grad_norm": 3.6726747534666555,
      "learning_rate": 1.282051282051282e-06,
      "loss": 4.8372,
      "step": 10
    },
    {
      "epoch": 0.07692307692307693,
      "grad_norm": 3.337981680961211,
      "learning_rate": 1.5384615384615387e-06,
      "loss": 4.7794,
      "step": 12
    },
    {
      "epoch": 0.08974358974358974,
      "grad_norm": 2.675890453922504,
      "learning_rate": 1.794871794871795e-06,
      "loss": 4.6191,
      "step": 14
    },
    {
      "epoch": 0.10256410256410256,
      "grad_norm": 2.398848700299253,
      "learning_rate": 2.0512820512820513e-06,
      "loss": 4.5723,
      "step": 16
    },
    {
      "epoch": 0.11538461538461539,
      "grad_norm": 1.8159784961859098,
      "learning_rate": 2.307692307692308e-06,
      "loss": 4.3568,
      "step": 18
    },
    {
      "epoch": 0.1282051282051282,
      "grad_norm": 1.6094220673057946,
      "learning_rate": 2.564102564102564e-06,
      "loss": 4.2686,
      "step": 20
    },
    {
      "epoch": 0.14102564102564102,
      "grad_norm": 1.4349818434671497,
      "learning_rate": 2.8205128205128207e-06,
      "loss": 4.169,
      "step": 22
    },
    {
      "epoch": 0.15384615384615385,
      "grad_norm": 1.4412559958198408,
      "learning_rate": 3.0769230769230774e-06,
      "loss": 4.0415,
      "step": 24
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 1.3626982007755366,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 3.8569,
      "step": 26
    },
    {
      "epoch": 0.1794871794871795,
      "grad_norm": 1.3679096739652512,
      "learning_rate": 3.58974358974359e-06,
      "loss": 3.7409,
      "step": 28
    },
    {
      "epoch": 0.19230769230769232,
      "grad_norm": 1.3396391976584703,
      "learning_rate": 3.846153846153847e-06,
      "loss": 3.6585,
      "step": 30
    },
    {
      "epoch": 0.20512820512820512,
      "grad_norm": 1.294876480457606,
      "learning_rate": 4.102564102564103e-06,
      "loss": 3.4961,
      "step": 32
    },
    {
      "epoch": 0.21794871794871795,
      "grad_norm": 1.103820056614455,
      "learning_rate": 4.358974358974359e-06,
      "loss": 3.3518,
      "step": 34
    },
    {
      "epoch": 0.23076923076923078,
      "grad_norm": 1.0522131115906572,
      "learning_rate": 4.615384615384616e-06,
      "loss": 3.1984,
      "step": 36
    },
    {
      "epoch": 0.24358974358974358,
      "grad_norm": 1.0081732884085817,
      "learning_rate": 4.871794871794872e-06,
      "loss": 3.054,
      "step": 38
    },
    {
      "epoch": 0.2564102564102564,
      "grad_norm": 0.9214039999549644,
      "learning_rate": 5.128205128205128e-06,
      "loss": 2.8628,
      "step": 40
    },
    {
      "epoch": 0.2692307692307692,
      "grad_norm": 0.8143994876297143,
      "learning_rate": 5.384615384615385e-06,
      "loss": 2.7475,
      "step": 42
    },
    {
      "epoch": 0.28205128205128205,
      "grad_norm": 0.700891765547207,
      "learning_rate": 5.641025641025641e-06,
      "loss": 2.5869,
      "step": 44
    },
    {
      "epoch": 0.2948717948717949,
      "grad_norm": 0.7510674065754775,
      "learning_rate": 5.897435897435898e-06,
      "loss": 2.4461,
      "step": 46
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 0.6794074940373539,
      "learning_rate": 6.153846153846155e-06,
      "loss": 2.3477,
      "step": 48
    },
    {
      "epoch": 0.32051282051282054,
      "grad_norm": 0.5162215042692575,
      "learning_rate": 6.410256410256412e-06,
      "loss": 2.2152,
      "step": 50
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.5146975027904754,
      "learning_rate": 6.666666666666667e-06,
      "loss": 2.1975,
      "step": 52
    },
    {
      "epoch": 0.34615384615384615,
      "grad_norm": 0.4474574545979082,
      "learning_rate": 6.923076923076923e-06,
      "loss": 2.0824,
      "step": 54
    },
    {
      "epoch": 0.358974358974359,
      "grad_norm": 0.40379510918119965,
      "learning_rate": 7.17948717948718e-06,
      "loss": 2.0388,
      "step": 56
    },
    {
      "epoch": 0.3717948717948718,
      "grad_norm": 0.4109144194248555,
      "learning_rate": 7.435897435897437e-06,
      "loss": 1.9699,
      "step": 58
    },
    {
      "epoch": 0.38461538461538464,
      "grad_norm": 0.36878556755849573,
      "learning_rate": 7.692307692307694e-06,
      "loss": 1.9252,
      "step": 60
    },
    {
      "epoch": 0.3974358974358974,
      "grad_norm": 0.33951214974325605,
      "learning_rate": 7.948717948717949e-06,
      "loss": 1.8773,
      "step": 62
    },
    {
      "epoch": 0.41025641025641024,
      "grad_norm": 0.31625266306424027,
      "learning_rate": 8.205128205128205e-06,
      "loss": 1.7966,
      "step": 64
    },
    {
      "epoch": 0.4230769230769231,
      "grad_norm": 0.7180890498799148,
      "learning_rate": 8.461538461538462e-06,
      "loss": 1.8108,
      "step": 66
    },
    {
      "epoch": 0.4358974358974359,
      "grad_norm": 0.33704662479371716,
      "learning_rate": 8.717948717948719e-06,
      "loss": 1.7498,
      "step": 68
    },
    {
      "epoch": 0.44871794871794873,
      "grad_norm": 0.2761824271642518,
      "learning_rate": 8.974358974358976e-06,
      "loss": 1.7124,
      "step": 70
    },
    {
      "epoch": 0.46153846153846156,
      "grad_norm": 0.24386286193528572,
      "learning_rate": 9.230769230769232e-06,
      "loss": 1.6382,
      "step": 72
    },
    {
      "epoch": 0.47435897435897434,
      "grad_norm": 0.25885451676676363,
      "learning_rate": 9.487179487179487e-06,
      "loss": 1.6588,
      "step": 74
    },
    {
      "epoch": 0.48717948717948717,
      "grad_norm": 0.3040030663690383,
      "learning_rate": 9.743589743589744e-06,
      "loss": 1.6209,
      "step": 76
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.26598080566137733,
      "learning_rate": 1e-05,
      "loss": 1.6294,
      "step": 78
    },
    {
      "epoch": 0.5128205128205128,
      "grad_norm": 0.22696288673824674,
      "learning_rate": 9.99995506314361e-06,
      "loss": 1.58,
      "step": 80
    },
    {
      "epoch": 0.5256410256410257,
      "grad_norm": 0.21242259411358655,
      "learning_rate": 9.99982025338217e-06,
      "loss": 1.5439,
      "step": 82
    },
    {
      "epoch": 0.5384615384615384,
      "grad_norm": 0.20291826899403465,
      "learning_rate": 9.999595573138845e-06,
      "loss": 1.5274,
      "step": 84
    },
    {
      "epoch": 0.5512820512820513,
      "grad_norm": 0.1855444412322797,
      "learning_rate": 9.99928102645221e-06,
      "loss": 1.5161,
      "step": 86
    },
    {
      "epoch": 0.5641025641025641,
      "grad_norm": 0.17883874148398324,
      "learning_rate": 9.99887661897616e-06,
      "loss": 1.4916,
      "step": 88
    },
    {
      "epoch": 0.5769230769230769,
      "grad_norm": 0.17041478792908024,
      "learning_rate": 9.99838235797981e-06,
      "loss": 1.4679,
      "step": 90
    },
    {
      "epoch": 0.5897435897435898,
      "grad_norm": 0.1904762198987749,
      "learning_rate": 9.997798252347382e-06,
      "loss": 1.471,
      "step": 92
    },
    {
      "epoch": 0.6025641025641025,
      "grad_norm": 0.19077041355708335,
      "learning_rate": 9.99712431257802e-06,
      "loss": 1.4672,
      "step": 94
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 0.1702104328191874,
      "learning_rate": 9.996360550785619e-06,
      "loss": 1.4455,
      "step": 96
    },
    {
      "epoch": 0.6282051282051282,
      "grad_norm": 0.19039133859515542,
      "learning_rate": 9.9955069806986e-06,
      "loss": 1.4727,
      "step": 98
    },
    {
      "epoch": 0.6410256410256411,
      "grad_norm": 0.15448238517128507,
      "learning_rate": 9.994563617659665e-06,
      "loss": 1.4257,
      "step": 100
    },
    {
      "epoch": 0.6538461538461539,
      "grad_norm": 0.15202351051018634,
      "learning_rate": 9.993530478625524e-06,
      "loss": 1.4214,
      "step": 102
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.16296598133044526,
      "learning_rate": 9.992407582166582e-06,
      "loss": 1.4213,
      "step": 104
    },
    {
      "epoch": 0.6794871794871795,
      "grad_norm": 0.1462038294164801,
      "learning_rate": 9.991194948466615e-06,
      "loss": 1.3993,
      "step": 106
    },
    {
      "epoch": 0.6923076923076923,
      "grad_norm": 0.14470989191451086,
      "learning_rate": 9.989892599322404e-06,
      "loss": 1.4014,
      "step": 108
    },
    {
      "epoch": 0.7051282051282052,
      "grad_norm": 0.15440545758233384,
      "learning_rate": 9.988500558143337e-06,
      "loss": 1.3878,
      "step": 110
    },
    {
      "epoch": 0.717948717948718,
      "grad_norm": 0.1412948019214843,
      "learning_rate": 9.987018849950996e-06,
      "loss": 1.355,
      "step": 112
    },
    {
      "epoch": 0.7307692307692307,
      "grad_norm": 0.15156074653795895,
      "learning_rate": 9.985447501378706e-06,
      "loss": 1.3642,
      "step": 114
    },
    {
      "epoch": 0.7435897435897436,
      "grad_norm": 0.3875845143038168,
      "learning_rate": 9.983786540671052e-06,
      "loss": 1.3797,
      "step": 116
    },
    {
      "epoch": 0.7564102564102564,
      "grad_norm": 0.15788537547887518,
      "learning_rate": 9.982035997683372e-06,
      "loss": 1.3388,
      "step": 118
    },
    {
      "epoch": 0.7692307692307693,
      "grad_norm": 0.15056320914445512,
      "learning_rate": 9.980195903881231e-06,
      "loss": 1.343,
      "step": 120
    },
    {
      "epoch": 0.782051282051282,
      "grad_norm": 0.1555129283317706,
      "learning_rate": 9.978266292339838e-06,
      "loss": 1.328,
      "step": 122
    },
    {
      "epoch": 0.7948717948717948,
      "grad_norm": 0.14999182496915453,
      "learning_rate": 9.976247197743465e-06,
      "loss": 1.352,
      "step": 124
    },
    {
      "epoch": 0.8076923076923077,
      "grad_norm": 0.14124313426191026,
      "learning_rate": 9.974138656384815e-06,
      "loss": 1.3243,
      "step": 126
    },
    {
      "epoch": 0.8205128205128205,
      "grad_norm": 0.1378326204862212,
      "learning_rate": 9.97194070616438e-06,
      "loss": 1.3241,
      "step": 128
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.14227960534974604,
      "learning_rate": 9.969653386589749e-06,
      "loss": 1.3219,
      "step": 130
    },
    {
      "epoch": 0.8461538461538461,
      "grad_norm": 0.12713543749272155,
      "learning_rate": 9.967276738774897e-06,
      "loss": 1.3096,
      "step": 132
    },
    {
      "epoch": 0.8589743589743589,
      "grad_norm": 0.15061232362563903,
      "learning_rate": 9.964810805439464e-06,
      "loss": 1.3011,
      "step": 134
    },
    {
      "epoch": 0.8717948717948718,
      "grad_norm": 0.14361563348990292,
      "learning_rate": 9.962255630907964e-06,
      "loss": 1.2827,
      "step": 136
    },
    {
      "epoch": 0.8846153846153846,
      "grad_norm": 0.17754387209035652,
      "learning_rate": 9.959611261108999e-06,
      "loss": 1.3185,
      "step": 138
    },
    {
      "epoch": 0.8974358974358975,
      "grad_norm": 0.1458623897430443,
      "learning_rate": 9.956877743574437e-06,
      "loss": 1.3286,
      "step": 140
    },
    {
      "epoch": 0.9102564102564102,
      "grad_norm": 0.14084398418567437,
      "learning_rate": 9.954055127438554e-06,
      "loss": 1.3005,
      "step": 142
    },
    {
      "epoch": 0.9230769230769231,
      "grad_norm": 0.13580861113069753,
      "learning_rate": 9.951143463437145e-06,
      "loss": 1.3165,
      "step": 144
    },
    {
      "epoch": 0.9358974358974359,
      "grad_norm": 0.13622051889734035,
      "learning_rate": 9.948142803906623e-06,
      "loss": 1.2929,
      "step": 146
    },
    {
      "epoch": 0.9487179487179487,
      "grad_norm": 0.12679082371935066,
      "learning_rate": 9.94505320278307e-06,
      "loss": 1.2833,
      "step": 148
    },
    {
      "epoch": 0.9615384615384616,
      "grad_norm": 0.11939382079952243,
      "learning_rate": 9.94187471560127e-06,
      "loss": 1.2851,
      "step": 150
    },
    {
      "epoch": 0.9743589743589743,
      "grad_norm": 0.11752490134274678,
      "learning_rate": 9.938607399493714e-06,
      "loss": 1.2559,
      "step": 152
    },
    {
      "epoch": 0.9871794871794872,
      "grad_norm": 0.11807212671773365,
      "learning_rate": 9.935251313189564e-06,
      "loss": 1.285,
      "step": 154
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.1120761333795772,
      "learning_rate": 9.931806517013612e-06,
      "loss": 1.2491,
      "step": 156
    }
  ],
  "logging_steps": 2,
  "max_steps": 1560,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.315670982665175e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}