{
  "best_metric": 2.125446319580078,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 0.09243212016175621,
  "eval_steps": 25,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0018486424032351243,
      "grad_norm": 8.162420272827148,
      "learning_rate": 5e-05,
      "loss": 41.7682,
      "step": 1
    },
    {
      "epoch": 0.0018486424032351243,
      "eval_loss": 2.6720287799835205,
      "eval_runtime": 123.5372,
      "eval_samples_per_second": 29.497,
      "eval_steps_per_second": 3.691,
      "step": 1
    },
    {
      "epoch": 0.0036972848064702486,
      "grad_norm": 8.25093936920166,
      "learning_rate": 0.0001,
      "loss": 41.4629,
      "step": 2
    },
    {
      "epoch": 0.005545927209705373,
      "grad_norm": 7.568008899688721,
      "learning_rate": 9.989294616193017e-05,
      "loss": 41.1137,
      "step": 3
    },
    {
      "epoch": 0.007394569612940497,
      "grad_norm": 6.9490485191345215,
      "learning_rate": 9.957224306869053e-05,
      "loss": 41.3446,
      "step": 4
    },
    {
      "epoch": 0.00924321201617562,
      "grad_norm": 6.14434814453125,
      "learning_rate": 9.903926402016153e-05,
      "loss": 40.672,
      "step": 5
    },
    {
      "epoch": 0.011091854419410746,
      "grad_norm": 6.207714557647705,
      "learning_rate": 9.829629131445342e-05,
      "loss": 40.2583,
      "step": 6
    },
    {
      "epoch": 0.012940496822645869,
      "grad_norm": 6.95146369934082,
      "learning_rate": 9.73465064747553e-05,
      "loss": 39.0753,
      "step": 7
    },
    {
      "epoch": 0.014789139225880994,
      "grad_norm": 6.457301139831543,
      "learning_rate": 9.619397662556435e-05,
      "loss": 39.0764,
      "step": 8
    },
    {
      "epoch": 0.016637781629116118,
      "grad_norm": 5.761643886566162,
      "learning_rate": 9.484363707663442e-05,
      "loss": 38.362,
      "step": 9
    },
    {
      "epoch": 0.01848642403235124,
      "grad_norm": 5.740838527679443,
      "learning_rate": 9.330127018922194e-05,
      "loss": 38.936,
      "step": 10
    },
    {
      "epoch": 0.020335066435586368,
      "grad_norm": 6.101728916168213,
      "learning_rate": 9.157348061512727e-05,
      "loss": 38.7834,
      "step": 11
    },
    {
      "epoch": 0.02218370883882149,
      "grad_norm": 6.277838706970215,
      "learning_rate": 8.966766701456177e-05,
      "loss": 37.1143,
      "step": 12
    },
    {
      "epoch": 0.024032351242056615,
      "grad_norm": 7.061258316040039,
      "learning_rate": 8.759199037394887e-05,
      "loss": 37.4725,
      "step": 13
    },
    {
      "epoch": 0.025880993645291738,
      "grad_norm": 5.878695011138916,
      "learning_rate": 8.535533905932738e-05,
      "loss": 36.5019,
      "step": 14
    },
    {
      "epoch": 0.02772963604852686,
      "grad_norm": 5.0996856689453125,
      "learning_rate": 8.296729075500344e-05,
      "loss": 36.2508,
      "step": 15
    },
    {
      "epoch": 0.02957827845176199,
      "grad_norm": 4.835474014282227,
      "learning_rate": 8.043807145043604e-05,
      "loss": 36.4294,
      "step": 16
    },
    {
      "epoch": 0.03142692085499711,
      "grad_norm": 4.7237229347229,
      "learning_rate": 7.777851165098012e-05,
      "loss": 35.9304,
      "step": 17
    },
    {
      "epoch": 0.033275563258232235,
      "grad_norm": 4.748309135437012,
      "learning_rate": 7.500000000000001e-05,
      "loss": 36.3657,
      "step": 18
    },
    {
      "epoch": 0.03512420566146736,
      "grad_norm": 4.913386344909668,
      "learning_rate": 7.211443451095007e-05,
      "loss": 36.0815,
      "step": 19
    },
    {
      "epoch": 0.03697284806470248,
      "grad_norm": 4.68619966506958,
      "learning_rate": 6.91341716182545e-05,
      "loss": 35.8836,
      "step": 20
    },
    {
      "epoch": 0.038821490467937605,
      "grad_norm": 4.97794771194458,
      "learning_rate": 6.607197326515808e-05,
      "loss": 36.1859,
      "step": 21
    },
    {
      "epoch": 0.040670132871172736,
      "grad_norm": 4.856144428253174,
      "learning_rate": 6.294095225512603e-05,
      "loss": 35.6407,
      "step": 22
    },
    {
      "epoch": 0.04251877527440786,
      "grad_norm": 4.762937068939209,
      "learning_rate": 5.9754516100806423e-05,
      "loss": 35.3828,
      "step": 23
    },
    {
      "epoch": 0.04436741767764298,
      "grad_norm": 4.947638988494873,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 35.2545,
      "step": 24
    },
    {
      "epoch": 0.046216060080878106,
      "grad_norm": 6.789899826049805,
      "learning_rate": 5.327015646150716e-05,
      "loss": 34.6827,
      "step": 25
    },
    {
      "epoch": 0.046216060080878106,
      "eval_loss": 2.180121660232544,
      "eval_runtime": 196.1574,
      "eval_samples_per_second": 18.577,
      "eval_steps_per_second": 2.325,
      "step": 25
    },
    {
      "epoch": 0.04806470248411323,
      "grad_norm": 6.43618631362915,
      "learning_rate": 5e-05,
      "loss": 35.4224,
      "step": 26
    },
    {
      "epoch": 0.04991334488734835,
      "grad_norm": 5.413757801055908,
      "learning_rate": 4.6729843538492847e-05,
      "loss": 35.036,
      "step": 27
    },
    {
      "epoch": 0.051761987290583476,
      "grad_norm": 5.203230857849121,
      "learning_rate": 4.347369038899744e-05,
      "loss": 34.8169,
      "step": 28
    },
    {
      "epoch": 0.0536106296938186,
      "grad_norm": 4.647735595703125,
      "learning_rate": 4.0245483899193595e-05,
      "loss": 34.5951,
      "step": 29
    },
    {
      "epoch": 0.05545927209705372,
      "grad_norm": 4.8249030113220215,
      "learning_rate": 3.705904774487396e-05,
      "loss": 35.1794,
      "step": 30
    },
    {
      "epoch": 0.057307914500288853,
      "grad_norm": 4.604319095611572,
      "learning_rate": 3.392802673484193e-05,
      "loss": 34.3148,
      "step": 31
    },
    {
      "epoch": 0.05915655690352398,
      "grad_norm": 4.745401382446289,
      "learning_rate": 3.086582838174551e-05,
      "loss": 34.8345,
      "step": 32
    },
    {
      "epoch": 0.0610051993067591,
      "grad_norm": 5.0841827392578125,
      "learning_rate": 2.7885565489049946e-05,
      "loss": 34.4468,
      "step": 33
    },
    {
      "epoch": 0.06285384170999422,
      "grad_norm": 5.102455139160156,
      "learning_rate": 2.500000000000001e-05,
      "loss": 35.1716,
      "step": 34
    },
    {
      "epoch": 0.06470248411322935,
      "grad_norm": 5.342426776885986,
      "learning_rate": 2.2221488349019903e-05,
      "loss": 35.2404,
      "step": 35
    },
    {
      "epoch": 0.06655112651646447,
      "grad_norm": 5.370707035064697,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 34.8448,
      "step": 36
    },
    {
      "epoch": 0.0683997689196996,
      "grad_norm": 5.79181432723999,
      "learning_rate": 1.703270924499656e-05,
      "loss": 33.7319,
      "step": 37
    },
    {
      "epoch": 0.07024841132293472,
      "grad_norm": 6.2982048988342285,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 33.9213,
      "step": 38
    },
    {
      "epoch": 0.07209705372616984,
      "grad_norm": 5.291693687438965,
      "learning_rate": 1.2408009626051137e-05,
      "loss": 34.5111,
      "step": 39
    },
    {
      "epoch": 0.07394569612940496,
      "grad_norm": 4.546117782592773,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 34.1011,
      "step": 40
    },
    {
      "epoch": 0.07579433853264009,
      "grad_norm": 4.630704879760742,
      "learning_rate": 8.426519384872733e-06,
      "loss": 34.2026,
      "step": 41
    },
    {
      "epoch": 0.07764298093587521,
      "grad_norm": 5.070968151092529,
      "learning_rate": 6.698729810778065e-06,
      "loss": 33.7099,
      "step": 42
    },
    {
      "epoch": 0.07949162333911033,
      "grad_norm": 4.362644672393799,
      "learning_rate": 5.156362923365588e-06,
      "loss": 34.7216,
      "step": 43
    },
    {
      "epoch": 0.08134026574234547,
      "grad_norm": 4.545483112335205,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 34.2825,
      "step": 44
    },
    {
      "epoch": 0.0831889081455806,
      "grad_norm": 4.54011869430542,
      "learning_rate": 2.653493525244721e-06,
      "loss": 34.3374,
      "step": 45
    },
    {
      "epoch": 0.08503755054881572,
      "grad_norm": 4.860706806182861,
      "learning_rate": 1.70370868554659e-06,
      "loss": 34.3632,
      "step": 46
    },
    {
      "epoch": 0.08688619295205084,
      "grad_norm": 4.582858085632324,
      "learning_rate": 9.607359798384785e-07,
      "loss": 34.2021,
      "step": 47
    },
    {
      "epoch": 0.08873483535528597,
      "grad_norm": 5.009143829345703,
      "learning_rate": 4.277569313094809e-07,
      "loss": 34.2615,
      "step": 48
    },
    {
      "epoch": 0.09058347775852109,
      "grad_norm": 5.0846967697143555,
      "learning_rate": 1.0705383806982606e-07,
      "loss": 34.5984,
      "step": 49
    },
    {
      "epoch": 0.09243212016175621,
      "grad_norm": 7.233031272888184,
      "learning_rate": 0.0,
      "loss": 33.5723,
      "step": 50
    },
    {
      "epoch": 0.09243212016175621,
      "eval_loss": 2.125446319580078,
      "eval_runtime": 123.502,
      "eval_samples_per_second": 29.506,
      "eval_steps_per_second": 3.692,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.967137622687744e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}