{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.036085251406447735,
  "eval_steps": 8,
  "global_step": 90,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0004009472378494193,
      "eval_loss": 1.1770294904708862,
      "eval_runtime": 2095.1908,
      "eval_samples_per_second": 4.01,
      "eval_steps_per_second": 2.005,
      "step": 1
    },
    {
      "epoch": 0.0012028417135482577,
      "grad_norm": 0.6318249702453613,
      "learning_rate": 3e-05,
      "loss": 1.1511,
      "step": 3
    },
    {
      "epoch": 0.0024056834270965153,
      "grad_norm": 0.5829982757568359,
      "learning_rate": 6e-05,
      "loss": 1.128,
      "step": 6
    },
    {
      "epoch": 0.003207577902795354,
      "eval_loss": 1.0006554126739502,
      "eval_runtime": 2124.74,
      "eval_samples_per_second": 3.954,
      "eval_steps_per_second": 1.977,
      "step": 8
    },
    {
      "epoch": 0.003608525140644773,
      "grad_norm": 0.7678285241127014,
      "learning_rate": 9e-05,
      "loss": 1.0233,
      "step": 9
    },
    {
      "epoch": 0.004811366854193031,
      "grad_norm": 0.4582325518131256,
      "learning_rate": 0.00012,
      "loss": 0.9581,
      "step": 12
    },
    {
      "epoch": 0.006014208567741289,
      "grad_norm": 0.4136015474796295,
      "learning_rate": 0.00015000000000000001,
      "loss": 0.908,
      "step": 15
    },
    {
      "epoch": 0.006415155805590708,
      "eval_loss": 0.881851077079773,
      "eval_runtime": 2101.764,
      "eval_samples_per_second": 3.998,
      "eval_steps_per_second": 1.999,
      "step": 16
    },
    {
      "epoch": 0.007217050281289546,
      "grad_norm": 0.38698941469192505,
      "learning_rate": 0.00018,
      "loss": 0.8595,
      "step": 18
    },
    {
      "epoch": 0.008419891994837805,
      "grad_norm": 0.3434083163738251,
      "learning_rate": 0.00019989930665413147,
      "loss": 0.8595,
      "step": 21
    },
    {
      "epoch": 0.009622733708386061,
      "grad_norm": 0.3423636555671692,
      "learning_rate": 0.00019839295885986296,
      "loss": 0.8148,
      "step": 24
    },
    {
      "epoch": 0.009622733708386061,
      "eval_loss": 0.8319358825683594,
      "eval_runtime": 2125.0683,
      "eval_samples_per_second": 3.954,
      "eval_steps_per_second": 1.977,
      "step": 24
    },
    {
      "epoch": 0.01082557542193432,
      "grad_norm": 0.2808511555194855,
      "learning_rate": 0.00019510565162951537,
      "loss": 0.8396,
      "step": 27
    },
    {
      "epoch": 0.012028417135482578,
      "grad_norm": 0.29248684644699097,
      "learning_rate": 0.0001900968867902419,
      "loss": 0.8126,
      "step": 30
    },
    {
      "epoch": 0.012830311611181417,
      "eval_loss": 0.8034700155258179,
      "eval_runtime": 2088.427,
      "eval_samples_per_second": 4.023,
      "eval_steps_per_second": 2.012,
      "step": 32
    },
    {
      "epoch": 0.013231258849030836,
      "grad_norm": 0.2968704104423523,
      "learning_rate": 0.00018345732537213027,
      "loss": 0.7871,
      "step": 33
    },
    {
      "epoch": 0.014434100562579093,
      "grad_norm": 0.2753947675228119,
      "learning_rate": 0.00017530714660036112,
      "loss": 0.7857,
      "step": 36
    },
    {
      "epoch": 0.01563694227612735,
      "grad_norm": 0.28415030241012573,
      "learning_rate": 0.00016579387259397127,
      "loss": 0.7618,
      "step": 39
    },
    {
      "epoch": 0.01603788951397677,
      "eval_loss": 0.7877721190452576,
      "eval_runtime": 2124.9654,
      "eval_samples_per_second": 3.954,
      "eval_steps_per_second": 1.977,
      "step": 40
    },
    {
      "epoch": 0.01683978398967561,
      "grad_norm": 0.3071385324001312,
      "learning_rate": 0.00015508969814521025,
      "loss": 0.7968,
      "step": 42
    },
    {
      "epoch": 0.018042625703223868,
      "grad_norm": 0.2895331382751465,
      "learning_rate": 0.00014338837391175582,
      "loss": 0.809,
      "step": 45
    },
    {
      "epoch": 0.019245467416772122,
      "grad_norm": 0.27971571683883667,
      "learning_rate": 0.00013090169943749476,
      "loss": 0.8149,
      "step": 48
    },
    {
      "epoch": 0.019245467416772122,
      "eval_loss": 0.778448224067688,
      "eval_runtime": 1961.3537,
      "eval_samples_per_second": 4.284,
      "eval_steps_per_second": 2.142,
      "step": 48
    },
    {
      "epoch": 0.02044830913032038,
      "grad_norm": 0.2637942135334015,
      "learning_rate": 0.00011785568947986367,
      "loss": 0.8134,
      "step": 51
    },
    {
      "epoch": 0.02165115084386864,
      "grad_norm": 0.2732895016670227,
      "learning_rate": 0.00010448648303505151,
      "loss": 0.7839,
      "step": 54
    },
    {
      "epoch": 0.022453045319567478,
      "eval_loss": 0.7702565789222717,
      "eval_runtime": 1742.8064,
      "eval_samples_per_second": 4.821,
      "eval_steps_per_second": 2.41,
      "step": 56
    },
    {
      "epoch": 0.022853992557416897,
      "grad_norm": 0.2708715498447418,
      "learning_rate": 9.103606910965666e-05,
      "loss": 0.7637,
      "step": 57
    },
    {
      "epoch": 0.024056834270965156,
      "grad_norm": 0.2542697489261627,
      "learning_rate": 7.774790660436858e-05,
      "loss": 0.7694,
      "step": 60
    },
    {
      "epoch": 0.025259675984513414,
      "grad_norm": 0.26101139187812805,
      "learning_rate": 6.486251759186572e-05,
      "loss": 0.7865,
      "step": 63
    },
    {
      "epoch": 0.025660623222362833,
      "eval_loss": 0.7656528353691101,
      "eval_runtime": 2108.8023,
      "eval_samples_per_second": 3.984,
      "eval_steps_per_second": 1.992,
      "step": 64
    },
    {
      "epoch": 0.026462517698061672,
      "grad_norm": 0.25825750827789307,
      "learning_rate": 5.261313375270014e-05,
      "loss": 0.781,
      "step": 66
    },
    {
      "epoch": 0.027665359411609927,
      "grad_norm": 0.29536083340644836,
      "learning_rate": 4.12214747707527e-05,
      "loss": 0.8043,
      "step": 69
    },
    {
      "epoch": 0.028868201125158185,
      "grad_norm": 0.2676319181919098,
      "learning_rate": 3.089373510131354e-05,
      "loss": 0.766,
      "step": 72
    },
    {
      "epoch": 0.028868201125158185,
      "eval_loss": 0.7610459923744202,
      "eval_runtime": 1447.9182,
      "eval_samples_per_second": 5.803,
      "eval_steps_per_second": 2.901,
      "step": 72
    },
    {
      "epoch": 0.030071042838706444,
      "grad_norm": 0.28864264488220215,
      "learning_rate": 2.181685175319702e-05,
      "loss": 0.8032,
      "step": 75
    },
    {
      "epoch": 0.0312738845522547,
      "grad_norm": 0.27343568205833435,
      "learning_rate": 1.415512063981339e-05,
      "loss": 0.7596,
      "step": 78
    },
    {
      "epoch": 0.03207577902795354,
      "eval_loss": 0.7588322758674622,
      "eval_runtime": 964.4817,
      "eval_samples_per_second": 8.711,
      "eval_steps_per_second": 4.356,
      "step": 80
    },
    {
      "epoch": 0.03247672626580296,
      "grad_norm": 0.2782694101333618,
      "learning_rate": 8.047222744854943e-06,
      "loss": 0.7794,
      "step": 81
    },
    {
      "epoch": 0.03367956797935122,
      "grad_norm": 0.27430954575538635,
      "learning_rate": 3.6037139304146762e-06,
      "loss": 0.7482,
      "step": 84
    },
    {
      "epoch": 0.03488240969289948,
      "grad_norm": 0.2678591012954712,
      "learning_rate": 9.0502382320653e-07,
      "loss": 0.7231,
      "step": 87
    },
    {
      "epoch": 0.035283356930748896,
      "eval_loss": 0.7581349611282349,
      "eval_runtime": 964.6244,
      "eval_samples_per_second": 8.71,
      "eval_steps_per_second": 4.355,
      "step": 88
    },
    {
      "epoch": 0.036085251406447735,
      "grad_norm": 0.2886866629123688,
      "learning_rate": 0.0,
      "loss": 0.7468,
      "step": 90
    }
  ],
  "logging_steps": 3,
  "max_steps": 90,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 8,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.498097032453161e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}