{
  "best_metric": NaN,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 2.4024024024024024,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.012012012012012012,
      "grad_norm": NaN,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 0.0,
      "step": 1
    },
    {
      "epoch": 0.012012012012012012,
      "eval_loss": NaN,
      "eval_runtime": 70.8287,
      "eval_samples_per_second": 1.977,
      "eval_steps_per_second": 0.494,
      "step": 1
    },
    {
      "epoch": 0.024024024024024024,
      "grad_norm": 2.737212896347046,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 6.0235,
      "step": 2
    },
    {
      "epoch": 0.036036036036036036,
      "grad_norm": NaN,
      "learning_rate": 3.3e-05,
      "loss": 0.0,
      "step": 3
    },
    {
      "epoch": 0.04804804804804805,
      "grad_norm": NaN,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.0,
      "step": 4
    },
    {
      "epoch": 0.06006006006006006,
      "grad_norm": NaN,
      "learning_rate": 5.5e-05,
      "loss": 0.0,
      "step": 5
    },
    {
      "epoch": 0.07207207207207207,
      "grad_norm": NaN,
      "learning_rate": 6.6e-05,
      "loss": 0.0,
      "step": 6
    },
    {
      "epoch": 0.08408408408408409,
      "grad_norm": NaN,
      "learning_rate": 7.7e-05,
      "loss": 0.0,
      "step": 7
    },
    {
      "epoch": 0.0960960960960961,
      "grad_norm": NaN,
      "learning_rate": 8.800000000000001e-05,
      "loss": 0.0,
      "step": 8
    },
    {
      "epoch": 0.10810810810810811,
      "grad_norm": NaN,
      "learning_rate": 9.900000000000001e-05,
      "loss": 0.0,
      "step": 9
    },
    {
      "epoch": 0.12012012012012012,
      "grad_norm": NaN,
      "learning_rate": 0.00011,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.13213213213213212,
      "grad_norm": NaN,
      "learning_rate": 0.0001099924817745858,
      "loss": 0.0,
      "step": 11
    },
    {
      "epoch": 0.14414414414414414,
      "grad_norm": NaN,
      "learning_rate": 0.00010996992915375093,
      "loss": 0.0,
      "step": 12
    },
    {
      "epoch": 0.15615615615615616,
      "grad_norm": NaN,
      "learning_rate": 0.00010993234830315676,
      "loss": 0.0,
      "step": 13
    },
    {
      "epoch": 0.16816816816816818,
      "grad_norm": NaN,
      "learning_rate": 0.0001098797494970326,
      "loss": 0.0,
      "step": 14
    },
    {
      "epoch": 0.18018018018018017,
      "grad_norm": NaN,
      "learning_rate": 0.00010981214711536684,
      "loss": 0.0,
      "step": 15
    },
    {
      "epoch": 0.1921921921921922,
      "grad_norm": NaN,
      "learning_rate": 0.00010972955963997563,
      "loss": 0.0,
      "step": 16
    },
    {
      "epoch": 0.2042042042042042,
      "grad_norm": NaN,
      "learning_rate": 0.00010963200964945011,
      "loss": 0.0,
      "step": 17
    },
    {
      "epoch": 0.21621621621621623,
      "grad_norm": NaN,
      "learning_rate": 0.00010951952381298364,
      "loss": 0.0,
      "step": 18
    },
    {
      "epoch": 0.22822822822822822,
      "grad_norm": NaN,
      "learning_rate": 0.00010939213288308077,
      "loss": 0.0,
      "step": 19
    },
    {
      "epoch": 0.24024024024024024,
      "grad_norm": NaN,
      "learning_rate": 0.00010924987168714973,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 0.25225225225225223,
      "grad_norm": NaN,
      "learning_rate": 0.00010909277911798103,
      "loss": 0.0,
      "step": 21
    },
    {
      "epoch": 0.26426426426426425,
      "grad_norm": NaN,
      "learning_rate": 0.00010892089812311451,
      "loss": 4.3633,
      "step": 22
    },
    {
      "epoch": 0.27627627627627627,
      "grad_norm": NaN,
      "learning_rate": 0.00010873427569309797,
      "loss": 11.9209,
      "step": 23
    },
    {
      "epoch": 0.2882882882882883,
      "grad_norm": NaN,
      "learning_rate": 0.00010853296284864032,
      "loss": 0.0,
      "step": 24
    },
    {
      "epoch": 0.3003003003003003,
      "grad_norm": NaN,
      "learning_rate": 0.00010831701462666318,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 0.3123123123123123,
      "grad_norm": NaN,
      "learning_rate": 0.00010808649006525419,
      "loss": 0.0,
      "step": 26
    },
    {
      "epoch": 0.32432432432432434,
      "grad_norm": NaN,
      "learning_rate": 0.00010784145218752665,
      "loss": 0.0,
      "step": 27
    },
    {
      "epoch": 0.33633633633633636,
      "grad_norm": NaN,
      "learning_rate": 0.00010758196798438968,
      "loss": 0.0,
      "step": 28
    },
    {
      "epoch": 0.3483483483483483,
      "grad_norm": NaN,
      "learning_rate": 0.00010730810839623346,
      "loss": 0.0,
      "step": 29
    },
    {
      "epoch": 0.36036036036036034,
      "grad_norm": NaN,
      "learning_rate": 0.0001070199482935349,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 0.37237237237237236,
      "grad_norm": NaN,
      "learning_rate": 0.00010671756645638888,
      "loss": 0.0,
      "step": 31
    },
    {
      "epoch": 0.3843843843843844,
      "grad_norm": NaN,
      "learning_rate": 0.00010640104555297034,
      "loss": 0.0,
      "step": 32
    },
    {
      "epoch": 0.3963963963963964,
      "grad_norm": NaN,
      "learning_rate": 0.00010607047211693389,
      "loss": 0.0,
      "step": 33
    },
    {
      "epoch": 0.4084084084084084,
      "grad_norm": NaN,
      "learning_rate": 0.00010572593652375616,
      "loss": 0.0,
      "step": 34
    },
    {
      "epoch": 0.42042042042042044,
      "grad_norm": NaN,
      "learning_rate": 0.00010536753296602816,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 0.43243243243243246,
      "grad_norm": NaN,
      "learning_rate": 0.00010499535942770394,
      "loss": 0.0,
      "step": 36
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": NaN,
      "learning_rate": 0.00010460951765731275,
      "loss": 0.0,
      "step": 37
    },
    {
      "epoch": 0.45645645645645644,
      "grad_norm": NaN,
      "learning_rate": 0.000104210113140142,
      "loss": 0.0,
      "step": 38
    },
    {
      "epoch": 0.46846846846846846,
      "grad_norm": NaN,
      "learning_rate": 0.00010379725506939865,
      "loss": 0.0,
      "step": 39
    },
    {
      "epoch": 0.4804804804804805,
      "grad_norm": NaN,
      "learning_rate": 0.0001033710563163569,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 0.4924924924924925,
      "grad_norm": NaN,
      "learning_rate": 0.00010293163339950024,
      "loss": 0.0,
      "step": 41
    },
    {
      "epoch": 0.5045045045045045,
      "grad_norm": NaN,
      "learning_rate": 0.00010247910645266658,
      "loss": 4.582,
      "step": 42
    },
    {
      "epoch": 0.5165165165165165,
      "grad_norm": NaN,
      "learning_rate": 0.00010201359919220464,
      "loss": 0.0,
      "step": 43
    },
    {
      "epoch": 0.5285285285285285,
      "grad_norm": NaN,
      "learning_rate": 0.00010153523888315144,
      "loss": 0.0,
      "step": 44
    },
    {
      "epoch": 0.5405405405405406,
      "grad_norm": NaN,
      "learning_rate": 0.00010104415630443907,
      "loss": 0.0,
      "step": 45
    },
    {
      "epoch": 0.5525525525525525,
      "grad_norm": NaN,
      "learning_rate": 0.0001005404857131411,
      "loss": 0.0,
      "step": 46
    },
    {
      "epoch": 0.5645645645645646,
      "grad_norm": NaN,
      "learning_rate": 0.00010002436480776809,
      "loss": 0.0,
      "step": 47
    },
    {
      "epoch": 0.5765765765765766,
      "grad_norm": NaN,
      "learning_rate": 9.949593469062211e-05,
      "loss": 0.0,
      "step": 48
    },
    {
      "epoch": 0.5885885885885885,
      "grad_norm": NaN,
      "learning_rate": 9.895533982922087e-05,
      "loss": 0.0,
      "step": 49
    },
    {
      "epoch": 0.6006006006006006,
      "grad_norm": NaN,
      "learning_rate": 9.840272801680165e-05,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 0.6006006006006006,
      "eval_loss": NaN,
      "eval_runtime": 53.2502,
      "eval_samples_per_second": 2.629,
      "eval_steps_per_second": 0.657,
      "step": 50
    },
    {
      "epoch": 0.6126126126126126,
      "grad_norm": NaN,
      "learning_rate": 9.783825033191619e-05,
      "loss": 0.0,
      "step": 51
    },
    {
      "epoch": 0.6246246246246246,
      "grad_norm": NaN,
      "learning_rate": 9.726206109712725e-05,
      "loss": 0.0,
      "step": 52
    },
    {
      "epoch": 0.6366366366366366,
      "grad_norm": NaN,
      "learning_rate": 9.667431783681842e-05,
      "loss": 0.0,
      "step": 53
    },
    {
      "epoch": 0.6486486486486487,
      "grad_norm": NaN,
      "learning_rate": 9.607518123412847e-05,
      "loss": 0.0,
      "step": 54
    },
    {
      "epoch": 0.6606606606606606,
      "grad_norm": NaN,
      "learning_rate": 9.546481508702224e-05,
      "loss": 0.0,
      "step": 55
    },
    {
      "epoch": 0.6726726726726727,
      "grad_norm": NaN,
      "learning_rate": 9.48433862635099e-05,
      "loss": 0.0,
      "step": 56
    },
    {
      "epoch": 0.6846846846846847,
      "grad_norm": NaN,
      "learning_rate": 9.421106465602684e-05,
      "loss": 0.0,
      "step": 57
    },
    {
      "epoch": 0.6966966966966966,
      "grad_norm": NaN,
      "learning_rate": 9.356802313498687e-05,
      "loss": 0.0,
      "step": 58
    },
    {
      "epoch": 0.7087087087087087,
      "grad_norm": NaN,
      "learning_rate": 9.291443750152112e-05,
      "loss": 0.0,
      "step": 59
    },
    {
      "epoch": 0.7207207207207207,
      "grad_norm": NaN,
      "learning_rate": 9.225048643941577e-05,
      "loss": 0.0,
      "step": 60
    },
    {
      "epoch": 0.7327327327327328,
      "grad_norm": NaN,
      "learning_rate": 9.157635146626164e-05,
      "loss": 0.0,
      "step": 61
    },
    {
      "epoch": 0.7447447447447447,
      "grad_norm": NaN,
      "learning_rate": 9.089221688382928e-05,
      "loss": 4.328,
      "step": 62
    },
    {
      "epoch": 0.7567567567567568,
      "grad_norm": NaN,
      "learning_rate": 9.019826972768242e-05,
      "loss": 0.0,
      "step": 63
    },
    {
      "epoch": 0.7687687687687688,
      "grad_norm": NaN,
      "learning_rate": 8.949469971604454e-05,
      "loss": 0.0,
      "step": 64
    },
    {
      "epoch": 0.7807807807807807,
      "grad_norm": NaN,
      "learning_rate": 8.878169919793173e-05,
      "loss": 0.0,
      "step": 65
    },
    {
      "epoch": 0.7927927927927928,
      "grad_norm": NaN,
      "learning_rate": 8.805946310056638e-05,
      "loss": 0.0,
      "step": 66
    },
    {
      "epoch": 0.8048048048048048,
      "grad_norm": NaN,
      "learning_rate": 8.732818887608602e-05,
      "loss": 0.0,
      "step": 67
    },
    {
      "epoch": 0.8168168168168168,
      "grad_norm": NaN,
      "learning_rate": 8.65880764475619e-05,
      "loss": 0.0,
      "step": 68
    },
    {
      "epoch": 0.8288288288288288,
      "grad_norm": NaN,
      "learning_rate": 8.583932815434201e-05,
      "loss": 0.0,
      "step": 69
    },
    {
      "epoch": 0.8408408408408409,
      "grad_norm": NaN,
      "learning_rate": 8.50821486967335e-05,
      "loss": 0.0,
      "step": 70
    },
    {
      "epoch": 0.8528528528528528,
      "grad_norm": NaN,
      "learning_rate": 8.431674508003966e-05,
      "loss": 0.0,
      "step": 71
    },
    {
      "epoch": 0.8648648648648649,
      "grad_norm": NaN,
      "learning_rate": 8.354332655796683e-05,
      "loss": 0.0,
      "step": 72
    },
    {
      "epoch": 0.8768768768768769,
      "grad_norm": NaN,
      "learning_rate": 8.276210457541642e-05,
      "loss": 0.0,
      "step": 73
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": NaN,
      "learning_rate": 8.197329271067796e-05,
      "loss": 0.0,
      "step": 74
    },
    {
      "epoch": 0.9009009009009009,
      "grad_norm": NaN,
      "learning_rate": 8.117710661703905e-05,
      "loss": 0.0,
      "step": 75
    },
    {
      "epoch": 0.9129129129129129,
      "grad_norm": NaN,
      "learning_rate": 8.037376396382784e-05,
      "loss": 0.0,
      "step": 76
    },
    {
      "epoch": 0.924924924924925,
      "grad_norm": NaN,
      "learning_rate": 7.956348437690437e-05,
      "loss": 0.0,
      "step": 77
    },
    {
      "epoch": 0.9369369369369369,
      "grad_norm": NaN,
      "learning_rate": 7.87464893786171e-05,
      "loss": 0.0,
      "step": 78
    },
    {
      "epoch": 0.948948948948949,
      "grad_norm": NaN,
      "learning_rate": 7.792300232724097e-05,
      "loss": 0.0,
      "step": 79
    },
    {
      "epoch": 0.960960960960961,
      "grad_norm": NaN,
      "learning_rate": 7.709324835591332e-05,
      "loss": 0.0,
      "step": 80
    },
    {
      "epoch": 0.972972972972973,
      "grad_norm": NaN,
      "learning_rate": 7.625745431108487e-05,
      "loss": 0.0,
      "step": 81
    },
    {
      "epoch": 0.984984984984985,
      "grad_norm": NaN,
      "learning_rate": 7.541584869050213e-05,
      "loss": 0.0,
      "step": 82
    },
    {
      "epoch": 0.996996996996997,
      "grad_norm": NaN,
      "learning_rate": 7.456866158073842e-05,
      "loss": 0.0,
      "step": 83
    },
    {
      "epoch": 1.009009009009009,
      "grad_norm": NaN,
      "learning_rate": 7.371612459429037e-05,
      "loss": 0.0,
      "step": 84
    },
    {
      "epoch": 1.021021021021021,
      "grad_norm": NaN,
      "learning_rate": 7.28584708062576e-05,
      "loss": 2.9985,
      "step": 85
    },
    {
      "epoch": 1.033033033033033,
      "grad_norm": NaN,
      "learning_rate": 7.19959346906221e-05,
      "loss": 11.3336,
      "step": 86
    },
    {
      "epoch": 1.045045045045045,
      "grad_norm": NaN,
      "learning_rate": 7.112875205614558e-05,
      "loss": 0.0,
      "step": 87
    },
    {
      "epoch": 1.057057057057057,
      "grad_norm": NaN,
      "learning_rate": 7.025715998190145e-05,
      "loss": 0.0,
      "step": 88
    },
    {
      "epoch": 1.069069069069069,
      "grad_norm": NaN,
      "learning_rate": 6.938139675246009e-05,
      "loss": 0.0,
      "step": 89
    },
    {
      "epoch": 1.0810810810810811,
      "grad_norm": NaN,
      "learning_rate": 6.850170179274395e-05,
      "loss": 0.0,
      "step": 90
    },
    {
      "epoch": 1.093093093093093,
      "grad_norm": NaN,
      "learning_rate": 6.761831560257134e-05,
      "loss": 0.0,
      "step": 91
    },
    {
      "epoch": 1.105105105105105,
      "grad_norm": NaN,
      "learning_rate": 6.673147969090608e-05,
      "loss": 0.0,
      "step": 92
    },
    {
      "epoch": 1.117117117117117,
      "grad_norm": NaN,
      "learning_rate": 6.584143650983141e-05,
      "loss": 0.0,
      "step": 93
    },
    {
      "epoch": 1.1291291291291292,
      "grad_norm": NaN,
      "learning_rate": 6.494842938826605e-05,
      "loss": 0.0,
      "step": 94
    },
    {
      "epoch": 1.1411411411411412,
      "grad_norm": NaN,
      "learning_rate": 6.405270246544037e-05,
      "loss": 0.0,
      "step": 95
    },
    {
      "epoch": 1.1531531531531531,
      "grad_norm": NaN,
      "learning_rate": 6.31545006241513e-05,
      "loss": 0.0,
      "step": 96
    },
    {
      "epoch": 1.165165165165165,
      "grad_norm": NaN,
      "learning_rate": 6.22540694238138e-05,
      "loss": 0.0,
      "step": 97
    },
    {
      "epoch": 1.1771771771771773,
      "grad_norm": NaN,
      "learning_rate": 6.135165503332725e-05,
      "loss": 0.0,
      "step": 98
    },
    {
      "epoch": 1.1891891891891893,
      "grad_norm": NaN,
      "learning_rate": 6.0447504163775465e-05,
      "loss": 0.0,
      "step": 99
    },
    {
      "epoch": 1.2012012012012012,
      "grad_norm": NaN,
      "learning_rate": 5.954186400097829e-05,
      "loss": 0.0,
      "step": 100
    },
    {
      "epoch": 1.2012012012012012,
      "eval_loss": NaN,
      "eval_runtime": 50.3281,
      "eval_samples_per_second": 2.782,
      "eval_steps_per_second": 0.695,
      "step": 100
    },
    {
      "epoch": 1.2132132132132132,
      "grad_norm": NaN,
      "learning_rate": 5.8634982137913465e-05,
      "loss": 0.0,
      "step": 101
    },
    {
      "epoch": 1.2252252252252251,
      "grad_norm": NaN,
      "learning_rate": 5.772710650702723e-05,
      "loss": 0.0,
      "step": 102
    },
    {
      "epoch": 1.2372372372372373,
      "grad_norm": NaN,
      "learning_rate": 5.681848531245195e-05,
      "loss": 0.0,
      "step": 103
    },
    {
      "epoch": 1.2492492492492493,
      "grad_norm": NaN,
      "learning_rate": 5.590936696214972e-05,
      "loss": 0.0,
      "step": 104
    },
    {
      "epoch": 1.2612612612612613,
      "grad_norm": NaN,
      "learning_rate": 5.5e-05,
      "loss": 4.4764,
      "step": 105
    },
    {
      "epoch": 1.2732732732732732,
      "grad_norm": NaN,
      "learning_rate": 5.409063303785029e-05,
      "loss": 11.1245,
      "step": 106
    },
    {
      "epoch": 1.2852852852852852,
      "grad_norm": NaN,
      "learning_rate": 5.318151468754805e-05,
      "loss": 0.0,
      "step": 107
    },
    {
      "epoch": 1.2972972972972974,
      "grad_norm": NaN,
      "learning_rate": 5.227289349297277e-05,
      "loss": 0.0,
      "step": 108
    },
    {
      "epoch": 1.3093093093093093,
      "grad_norm": NaN,
      "learning_rate": 5.136501786208654e-05,
      "loss": 0.0,
      "step": 109
    },
    {
      "epoch": 1.3213213213213213,
      "grad_norm": NaN,
      "learning_rate": 5.045813599902173e-05,
      "loss": 0.0,
      "step": 110
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": NaN,
      "learning_rate": 4.955249583622455e-05,
      "loss": 0.0,
      "step": 111
    },
    {
      "epoch": 1.3453453453453452,
      "grad_norm": NaN,
      "learning_rate": 4.8648344966672767e-05,
      "loss": 0.0,
      "step": 112
    },
    {
      "epoch": 1.3573573573573574,
      "grad_norm": NaN,
      "learning_rate": 4.774593057618621e-05,
      "loss": 0.0,
      "step": 113
    },
    {
      "epoch": 1.3693693693693694,
      "grad_norm": NaN,
      "learning_rate": 4.6845499375848686e-05,
      "loss": 0.0,
      "step": 114
    },
    {
      "epoch": 1.3813813813813813,
      "grad_norm": NaN,
      "learning_rate": 4.5947297534559625e-05,
      "loss": 0.0,
      "step": 115
    },
    {
      "epoch": 1.3933933933933935,
      "grad_norm": NaN,
      "learning_rate": 4.5051570611733976e-05,
      "loss": 0.0,
      "step": 116
    },
    {
      "epoch": 1.4054054054054055,
      "grad_norm": NaN,
      "learning_rate": 4.415856349016859e-05,
      "loss": 0.0,
      "step": 117
    },
    {
      "epoch": 1.4174174174174174,
      "grad_norm": NaN,
      "learning_rate": 4.326852030909393e-05,
      "loss": 0.0,
      "step": 118
    },
    {
      "epoch": 1.4294294294294294,
      "grad_norm": NaN,
      "learning_rate": 4.238168439742867e-05,
      "loss": 0.0,
      "step": 119
    },
    {
      "epoch": 1.4414414414414414,
      "grad_norm": NaN,
      "learning_rate": 4.149829820725605e-05,
      "loss": 0.0,
      "step": 120
    },
    {
      "epoch": 1.4534534534534536,
      "grad_norm": NaN,
      "learning_rate": 4.0618603247539916e-05,
      "loss": 0.0,
      "step": 121
    },
    {
      "epoch": 1.4654654654654655,
      "grad_norm": NaN,
      "learning_rate": 3.9742840018098564e-05,
      "loss": 0.0,
      "step": 122
    },
    {
      "epoch": 1.4774774774774775,
      "grad_norm": NaN,
      "learning_rate": 3.887124794385445e-05,
      "loss": 0.0,
      "step": 123
    },
    {
      "epoch": 1.4894894894894894,
      "grad_norm": NaN,
      "learning_rate": 3.80040653093779e-05,
      "loss": 0.0,
      "step": 124
    },
    {
      "epoch": 1.5015015015015014,
      "grad_norm": NaN,
      "learning_rate": 3.714152919374241e-05,
      "loss": 2.7995,
      "step": 125
    },
    {
      "epoch": 1.5135135135135136,
      "grad_norm": NaN,
      "learning_rate": 3.628387540570963e-05,
      "loss": 11.8062,
      "step": 126
    },
    {
      "epoch": 1.5255255255255256,
      "grad_norm": NaN,
      "learning_rate": 3.543133841926159e-05,
      "loss": 0.0,
      "step": 127
    },
    {
      "epoch": 1.5375375375375375,
      "grad_norm": NaN,
      "learning_rate": 3.458415130949785e-05,
      "loss": 0.0,
      "step": 128
    },
    {
      "epoch": 1.5495495495495497,
      "grad_norm": NaN,
      "learning_rate": 3.374254568891514e-05,
      "loss": 0.0,
      "step": 129
    },
    {
      "epoch": 1.5615615615615615,
      "grad_norm": NaN,
      "learning_rate": 3.290675164408669e-05,
      "loss": 0.0,
      "step": 130
    },
    {
      "epoch": 1.5735735735735736,
      "grad_norm": NaN,
      "learning_rate": 3.207699767275904e-05,
      "loss": 0.0,
      "step": 131
    },
    {
      "epoch": 1.5855855855855856,
      "grad_norm": NaN,
      "learning_rate": 3.12535106213829e-05,
      "loss": 0.0,
      "step": 132
    },
    {
      "epoch": 1.5975975975975976,
      "grad_norm": NaN,
      "learning_rate": 3.0436515623095647e-05,
      "loss": 0.0,
      "step": 133
    },
    {
      "epoch": 1.6096096096096097,
      "grad_norm": NaN,
      "learning_rate": 2.962623603617218e-05,
      "loss": 0.0,
      "step": 134
    },
    {
      "epoch": 1.6216216216216215,
      "grad_norm": NaN,
      "learning_rate": 2.8822893382960955e-05,
      "loss": 0.0,
      "step": 135
    },
    {
      "epoch": 1.6336336336336337,
      "grad_norm": NaN,
      "learning_rate": 2.802670728932207e-05,
      "loss": 0.0,
      "step": 136
    },
    {
      "epoch": 1.6456456456456456,
      "grad_norm": NaN,
      "learning_rate": 2.723789542458361e-05,
      "loss": 0.0,
      "step": 137
    },
    {
      "epoch": 1.6576576576576576,
      "grad_norm": NaN,
      "learning_rate": 2.6456673442033183e-05,
      "loss": 0.0,
      "step": 138
    },
    {
      "epoch": 1.6696696696696698,
      "grad_norm": NaN,
      "learning_rate": 2.5683254919960356e-05,
      "loss": 0.0,
      "step": 139
    },
    {
      "epoch": 1.6816816816816815,
      "grad_norm": NaN,
      "learning_rate": 2.4917851303266533e-05,
      "loss": 0.0,
      "step": 140
    },
    {
      "epoch": 1.6936936936936937,
      "grad_norm": NaN,
      "learning_rate": 2.4160671845658007e-05,
      "loss": 0.0,
      "step": 141
    },
    {
      "epoch": 1.7057057057057057,
      "grad_norm": NaN,
      "learning_rate": 2.3411923552438105e-05,
      "loss": 0.0,
      "step": 142
    },
    {
      "epoch": 1.7177177177177176,
      "grad_norm": NaN,
      "learning_rate": 2.2671811123913983e-05,
      "loss": 0.0,
      "step": 143
    },
    {
      "epoch": 1.7297297297297298,
      "grad_norm": NaN,
      "learning_rate": 2.194053689943362e-05,
      "loss": 0.0,
      "step": 144
    },
    {
      "epoch": 1.7417417417417418,
      "grad_norm": NaN,
      "learning_rate": 2.121830080206827e-05,
      "loss": 1.4846,
      "step": 145
    },
    {
      "epoch": 1.7537537537537538,
      "grad_norm": NaN,
      "learning_rate": 2.0505300283955464e-05,
      "loss": 12.5494,
      "step": 146
    },
    {
      "epoch": 1.7657657657657657,
      "grad_norm": NaN,
      "learning_rate": 1.9801730272317585e-05,
      "loss": 0.0,
      "step": 147
    },
    {
      "epoch": 1.7777777777777777,
      "grad_norm": NaN,
      "learning_rate": 1.910778311617072e-05,
      "loss": 0.0,
      "step": 148
    },
    {
      "epoch": 1.7897897897897899,
      "grad_norm": NaN,
      "learning_rate": 1.8423648533738342e-05,
      "loss": 0.0,
      "step": 149
    },
    {
      "epoch": 1.8018018018018018,
      "grad_norm": NaN,
      "learning_rate": 1.7749513560584252e-05,
      "loss": 0.0,
      "step": 150
    },
    {
      "epoch": 1.8018018018018018,
      "eval_loss": NaN,
      "eval_runtime": 52.099,
      "eval_samples_per_second": 2.687,
      "eval_steps_per_second": 0.672,
      "step": 150
    },
    {
      "epoch": 1.8138138138138138,
      "grad_norm": NaN,
      "learning_rate": 1.7085562498478883e-05,
      "loss": 0.0,
      "step": 151
    },
    {
      "epoch": 1.825825825825826,
      "grad_norm": NaN,
      "learning_rate": 1.6431976865013128e-05,
      "loss": 0.0,
      "step": 152
    },
    {
      "epoch": 1.8378378378378377,
      "grad_norm": NaN,
      "learning_rate": 1.5788935343973164e-05,
      "loss": 0.0,
      "step": 153
    },
    {
      "epoch": 1.84984984984985,
      "grad_norm": NaN,
      "learning_rate": 1.5156613736490108e-05,
      "loss": 0.0,
      "step": 154
    },
    {
      "epoch": 1.8618618618618619,
      "grad_norm": NaN,
      "learning_rate": 1.4535184912977763e-05,
      "loss": 0.0,
      "step": 155
    },
    {
      "epoch": 1.8738738738738738,
      "grad_norm": NaN,
      "learning_rate": 1.3924818765871553e-05,
      "loss": 0.0,
      "step": 156
    },
    {
      "epoch": 1.885885885885886,
      "grad_norm": NaN,
      "learning_rate": 1.3325682163181601e-05,
      "loss": 0.0,
      "step": 157
    },
    {
      "epoch": 1.8978978978978978,
      "grad_norm": NaN,
      "learning_rate": 1.2737938902872767e-05,
      "loss": 0.0,
      "step": 158
    },
    {
      "epoch": 1.90990990990991,
      "grad_norm": NaN,
      "learning_rate": 1.2161749668083823e-05,
      "loss": 0.0,
      "step": 159
    },
    {
      "epoch": 1.921921921921922,
      "grad_norm": NaN,
      "learning_rate": 1.159727198319836e-05,
      "loss": 0.0,
      "step": 160
    },
    {
      "epoch": 1.9339339339339339,
      "grad_norm": NaN,
      "learning_rate": 1.1044660170779142e-05,
      "loss": 0.0,
      "step": 161
    },
    {
      "epoch": 1.945945945945946,
      "grad_norm": NaN,
      "learning_rate": 1.0504065309377897e-05,
      "loss": 0.0,
      "step": 162
    },
    {
      "epoch": 1.9579579579579578,
      "grad_norm": NaN,
      "learning_rate": 9.97563519223192e-06,
      "loss": 0.0,
      "step": 163
    },
    {
      "epoch": 1.96996996996997,
      "grad_norm": NaN,
      "learning_rate": 9.459514286858898e-06,
      "loss": 0.0,
      "step": 164
    },
    {
      "epoch": 1.981981981981982,
      "grad_norm": NaN,
      "learning_rate": 8.95584369556093e-06,
      "loss": 0.0,
      "step": 165
    },
    {
      "epoch": 1.993993993993994,
      "grad_norm": NaN,
      "learning_rate": 8.464761116848546e-06,
      "loss": 0.0,
      "step": 166
    },
    {
      "epoch": 2.006006006006006,
      "grad_norm": NaN,
      "learning_rate": 7.986400807795349e-06,
      "loss": 0.0,
      "step": 167
    },
    {
      "epoch": 2.018018018018018,
      "grad_norm": NaN,
      "learning_rate": 7.520893547333436e-06,
      "loss": 1.519,
      "step": 168
    },
    {
      "epoch": 2.03003003003003,
      "grad_norm": NaN,
      "learning_rate": 7.068366600499744e-06,
      "loss": 8.7522,
      "step": 169
    },
    {
      "epoch": 2.042042042042042,
      "grad_norm": NaN,
      "learning_rate": 6.6289436836431076e-06,
      "loss": 0.0,
      "step": 170
    },
    {
      "epoch": 2.054054054054054,
      "grad_norm": NaN,
      "learning_rate": 6.20274493060135e-06,
      "loss": 0.0,
      "step": 171
    },
    {
      "epoch": 2.066066066066066,
      "grad_norm": NaN,
      "learning_rate": 5.789886859858009e-06,
      "loss": 0.0,
      "step": 172
    },
    {
      "epoch": 2.078078078078078,
      "grad_norm": NaN,
      "learning_rate": 5.3904823426872605e-06,
      "loss": 0.0,
      "step": 173
    },
    {
      "epoch": 2.09009009009009,
      "grad_norm": NaN,
      "learning_rate": 5.004640572296062e-06,
      "loss": 0.0,
      "step": 174
    },
    {
      "epoch": 2.1021021021021022,
      "grad_norm": NaN,
      "learning_rate": 4.632467033971838e-06,
      "loss": 0.0,
      "step": 175
    },
    {
      "epoch": 2.114114114114114,
      "grad_norm": NaN,
      "learning_rate": 4.274063476243839e-06,
      "loss": 0.0,
      "step": 176
    },
    {
      "epoch": 2.126126126126126,
      "grad_norm": NaN,
      "learning_rate": 3.929527883066117e-06,
      "loss": 0.0,
      "step": 177
    },
    {
      "epoch": 2.138138138138138,
      "grad_norm": NaN,
      "learning_rate": 3.5989544470296595e-06,
      "loss": 0.0,
      "step": 178
    },
    {
      "epoch": 2.15015015015015,
      "grad_norm": NaN,
      "learning_rate": 3.282433543611136e-06,
      "loss": 0.0,
      "step": 179
    },
    {
      "epoch": 2.1621621621621623,
      "grad_norm": NaN,
      "learning_rate": 2.980051706465095e-06,
      "loss": 0.0,
      "step": 180
    },
    {
      "epoch": 2.174174174174174,
      "grad_norm": NaN,
      "learning_rate": 2.691891603766556e-06,
      "loss": 0.0,
      "step": 181
    },
    {
      "epoch": 2.186186186186186,
      "grad_norm": NaN,
      "learning_rate": 2.4180320156103298e-06,
      "loss": 0.0,
      "step": 182
    },
    {
      "epoch": 2.1981981981981984,
      "grad_norm": NaN,
      "learning_rate": 2.158547812473352e-06,
      "loss": 0.0,
      "step": 183
    },
    {
      "epoch": 2.21021021021021,
      "grad_norm": NaN,
      "learning_rate": 1.9135099347458293e-06,
      "loss": 0.0,
      "step": 184
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": NaN,
      "learning_rate": 1.6829853733368294e-06,
      "loss": 0.0,
      "step": 185
    },
    {
      "epoch": 2.234234234234234,
      "grad_norm": NaN,
      "learning_rate": 1.4670371513596842e-06,
      "loss": 0.0,
      "step": 186
    },
    {
      "epoch": 2.2462462462462462,
      "grad_norm": NaN,
      "learning_rate": 1.2657243069020402e-06,
      "loss": 0.0,
      "step": 187
    },
    {
      "epoch": 2.2582582582582584,
      "grad_norm": NaN,
      "learning_rate": 1.0791018768854855e-06,
      "loss": 1.5516,
      "step": 188
    },
    {
      "epoch": 2.27027027027027,
      "grad_norm": NaN,
      "learning_rate": 9.072208820189698e-07,
      "loss": 12.3966,
      "step": 189
    },
    {
      "epoch": 2.2822822822822824,
      "grad_norm": NaN,
      "learning_rate": 7.501283128502722e-07,
      "loss": 0.0,
      "step": 190
    },
    {
      "epoch": 2.294294294294294,
      "grad_norm": NaN,
      "learning_rate": 6.07867116919233e-07,
      "loss": 0.0,
      "step": 191
    },
    {
      "epoch": 2.3063063063063063,
      "grad_norm": NaN,
      "learning_rate": 4.804761870163643e-07,
      "loss": 0.0,
      "step": 192
    },
    {
      "epoch": 2.3183183183183185,
      "grad_norm": NaN,
      "learning_rate": 3.6799035054990215e-07,
      "loss": 0.0,
      "step": 193
    },
    {
      "epoch": 2.33033033033033,
      "grad_norm": NaN,
      "learning_rate": 2.704403600243721e-07,
      "loss": 0.0,
      "step": 194
    },
    {
      "epoch": 2.3423423423423424,
      "grad_norm": NaN,
      "learning_rate": 1.878528846331584e-07,
      "loss": 0.0,
      "step": 195
    },
    {
      "epoch": 2.3543543543543546,
      "grad_norm": NaN,
      "learning_rate": 1.202505029674006e-07,
      "loss": 0.0,
      "step": 196
    },
    {
      "epoch": 2.3663663663663663,
      "grad_norm": NaN,
      "learning_rate": 6.765169684323947e-08,
      "loss": 0.0,
      "step": 197
    },
    {
      "epoch": 2.3783783783783785,
      "grad_norm": NaN,
      "learning_rate": 3.007084624906731e-08,
      "loss": 0.0,
      "step": 198
    },
    {
      "epoch": 2.3903903903903903,
      "grad_norm": NaN,
      "learning_rate": 7.518225414204771e-09,
      "loss": 0.0,
      "step": 199
    },
    {
      "epoch": 2.4024024024024024,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 0.0,
      "step": 200
    },
    {
      "epoch": 2.4024024024024024,
      "eval_loss": NaN,
      "eval_runtime": 47.7586,
      "eval_samples_per_second": 2.931,
      "eval_steps_per_second": 0.733,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 3
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.93193388883968e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}