{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.4005894355021535,
  "eval_steps": 187,
  "global_step": 1875,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001813647698934482,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0002,
      "loss": 1.4264,
      "step": 1
    },
    {
      "epoch": 0.001813647698934482,
      "eval_loss": 1.5677714347839355,
      "eval_runtime": 332.9397,
      "eval_samples_per_second": 3.004,
      "eval_steps_per_second": 3.004,
      "step": 1
    },
    {
      "epoch": 0.001813647698934482,
      "mmlu_eval_accuracy": 0.4740511985648177,
      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
      "mmlu_eval_accuracy_anatomy": 0.5,
      "mmlu_eval_accuracy_astronomy": 0.4375,
      "mmlu_eval_accuracy_business_ethics": 0.7272727272727273,
      "mmlu_eval_accuracy_clinical_knowledge": 0.27586206896551724,
      "mmlu_eval_accuracy_college_biology": 0.375,
      "mmlu_eval_accuracy_college_chemistry": 0.25,
      "mmlu_eval_accuracy_college_computer_science": 0.6363636363636364,
      "mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
      "mmlu_eval_accuracy_college_physics": 0.2727272727272727,
      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
      "mmlu_eval_accuracy_conceptual_physics": 0.5,
      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
      "mmlu_eval_accuracy_electrical_engineering": 0.5,
      "mmlu_eval_accuracy_elementary_mathematics": 0.3170731707317073,
      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
      "mmlu_eval_accuracy_global_facts": 0.2,
      "mmlu_eval_accuracy_high_school_biology": 0.3125,
      "mmlu_eval_accuracy_high_school_chemistry": 0.3181818181818182,
      "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_european_history": 0.7222222222222222,
      "mmlu_eval_accuracy_high_school_geography": 0.5909090909090909,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.7619047619047619,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4186046511627907,
      "mmlu_eval_accuracy_high_school_mathematics": 0.2413793103448276,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.4230769230769231,
      "mmlu_eval_accuracy_high_school_physics": 0.23529411764705882,
      "mmlu_eval_accuracy_high_school_psychology": 0.7,
      "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
      "mmlu_eval_accuracy_high_school_us_history": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_world_history": 0.38461538461538464,
      "mmlu_eval_accuracy_human_aging": 0.6521739130434783,
      "mmlu_eval_accuracy_human_sexuality": 0.5833333333333334,
      "mmlu_eval_accuracy_international_law": 0.7692307692307693,
      "mmlu_eval_accuracy_jurisprudence": 0.2727272727272727,
      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
      "mmlu_eval_accuracy_management": 0.6363636363636364,
      "mmlu_eval_accuracy_marketing": 0.8,
      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
      "mmlu_eval_accuracy_miscellaneous": 0.6395348837209303,
      "mmlu_eval_accuracy_moral_disputes": 0.5,
      "mmlu_eval_accuracy_moral_scenarios": 0.32,
      "mmlu_eval_accuracy_nutrition": 0.5151515151515151,
      "mmlu_eval_accuracy_philosophy": 0.5882352941176471,
      "mmlu_eval_accuracy_prehistory": 0.4857142857142857,
      "mmlu_eval_accuracy_professional_accounting": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_law": 0.32941176470588235,
      "mmlu_eval_accuracy_professional_medicine": 0.3225806451612903,
      "mmlu_eval_accuracy_professional_psychology": 0.4927536231884058,
      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
      "mmlu_eval_accuracy_sociology": 0.6363636363636364,
      "mmlu_eval_accuracy_us_foreign_policy": 0.5454545454545454,
      "mmlu_eval_accuracy_virology": 0.3333333333333333,
      "mmlu_eval_accuracy_world_religions": 0.7368421052631579,
      "mmlu_loss": 2.6754958135173803,
      "step": 1
    },
    {
      "epoch": 0.003627295397868964,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.3332,
      "step": 2
    },
    {
      "epoch": 0.005440943096803446,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 1.3087,
      "step": 3
    },
    {
      "epoch": 0.007254590795737928,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0002,
      "loss": 1.0958,
      "step": 4
    },
    {
      "epoch": 0.00906823849467241,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0002,
      "loss": 1.1562,
      "step": 5
    },
    {
      "epoch": 0.010881886193606891,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.1007,
      "step": 6
    },
    {
      "epoch": 0.012695533892541374,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002,
      "loss": 1.1647,
      "step": 7
    },
    {
      "epoch": 0.014509181591475856,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002,
      "loss": 1.2054,
      "step": 8
    },
    {
      "epoch": 0.01632282929041034,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002,
      "loss": 1.274,
      "step": 9
    },
    {
      "epoch": 0.01813647698934482,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002,
      "loss": 1.2553,
      "step": 10
    },
    {
      "epoch": 0.0199501246882793,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002,
      "loss": 1.3793,
      "step": 11
    },
    {
      "epoch": 0.021763772387213783,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0002,
      "loss": 1.1485,
      "step": 12
    },
    {
      "epoch": 0.023577420086148267,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0002,
      "loss": 1.1494,
      "step": 13
    },
    {
      "epoch": 0.02539106778508275,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002,
      "loss": 1.2244,
      "step": 14
    },
    {
      "epoch": 0.02720471548401723,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0002,
      "loss": 1.1534,
      "step": 15
    },
    {
      "epoch": 0.02901836318295171,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 1.0296,
      "step": 16
    },
    {
      "epoch": 0.030832010881886193,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002,
      "loss": 1.101,
      "step": 17
    },
    {
      "epoch": 0.03264565858082068,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0002,
      "loss": 1.1186,
      "step": 18
    },
    {
      "epoch": 0.03445930627975516,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.1058,
      "step": 19
    },
    {
      "epoch": 0.03627295397868964,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0002,
      "loss": 1.1537,
      "step": 20
    },
    {
      "epoch": 0.03808660167762412,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 1.2203,
      "step": 21
    },
    {
      "epoch": 0.0399002493765586,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0002,
      "loss": 1.0866,
      "step": 22
    },
    {
      "epoch": 0.041713897075493084,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0002,
      "loss": 1.3668,
      "step": 23
    },
    {
      "epoch": 0.043527544774427565,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 1.2991,
      "step": 24
    },
    {
      "epoch": 0.045341192473362046,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0002,
      "loss": 1.2064,
      "step": 25
    },
    {
      "epoch": 0.047154840172296535,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002,
      "loss": 1.0391,
      "step": 26
    },
    {
      "epoch": 0.048968487871231016,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0002,
      "loss": 1.292,
      "step": 27
    },
    {
      "epoch": 0.0507821355701655,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002,
      "loss": 1.1039,
      "step": 28
    },
    {
      "epoch": 0.05259578326909998,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002,
      "loss": 1.4332,
      "step": 29
    },
    {
      "epoch": 0.05440943096803446,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002,
      "loss": 1.2522,
      "step": 30
    },
    {
      "epoch": 0.05622307866696894,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002,
      "loss": 1.4385,
      "step": 31
    },
    {
      "epoch": 0.05803672636590342,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0002,
      "loss": 1.1743,
      "step": 32
    },
    {
      "epoch": 0.059850374064837904,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002,
      "loss": 1.4442,
      "step": 33
    },
    {
      "epoch": 0.061664021763772385,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002,
      "loss": 1.3864,
      "step": 34
    },
    {
      "epoch": 0.06347766946270687,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002,
      "loss": 1.5279,
      "step": 35
    },
    {
      "epoch": 0.06529131716164135,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002,
      "loss": 1.3173,
      "step": 36
    },
    {
      "epoch": 0.06710496486057584,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.3656,
      "step": 37
    },
    {
      "epoch": 0.06891861255951032,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.4049,
      "step": 38
    },
    {
      "epoch": 0.0707322602584448,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002,
      "loss": 1.4036,
      "step": 39
    },
    {
      "epoch": 0.07254590795737928,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.4731,
      "step": 40
    },
    {
      "epoch": 0.07435955565631376,
      "grad_norm": 0.25,
      "learning_rate": 0.0002,
      "loss": 1.4829,
      "step": 41
    },
    {
      "epoch": 0.07617320335524824,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 1.4859,
      "step": 42
    },
    {
      "epoch": 0.07798685105418272,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 1.5287,
      "step": 43
    },
    {
      "epoch": 0.0798004987531172,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 1.3481,
      "step": 44
    },
    {
      "epoch": 0.08161414645205169,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 1.674,
      "step": 45
    },
    {
      "epoch": 0.08342779415098617,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002,
      "loss": 1.4318,
      "step": 46
    },
    {
      "epoch": 0.08524144184992065,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 1.3859,
      "step": 47
    },
    {
      "epoch": 0.08705508954885513,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002,
      "loss": 1.4606,
      "step": 48
    },
    {
      "epoch": 0.08886873724778961,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002,
      "loss": 1.5266,
      "step": 49
    },
    {
      "epoch": 0.09068238494672409,
      "grad_norm": 0.734375,
      "learning_rate": 0.0002,
      "loss": 1.4463,
      "step": 50
    },
    {
      "epoch": 0.09249603264565857,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 1.4121,
      "step": 51
    },
    {
      "epoch": 0.09430968034459307,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0002,
      "loss": 1.1864,
      "step": 52
    },
    {
      "epoch": 0.09612332804352755,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 1.2222,
      "step": 53
    },
    {
      "epoch": 0.09793697574246203,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0002,
      "loss": 1.0743,
      "step": 54
    },
    {
      "epoch": 0.09975062344139651,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0002,
      "loss": 1.2852,
      "step": 55
    },
    {
      "epoch": 0.101564271140331,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0002,
      "loss": 1.1659,
      "step": 56
    },
    {
      "epoch": 0.10337791883926548,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0002,
      "loss": 1.1608,
      "step": 57
    },
    {
      "epoch": 0.10519156653819996,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0002,
      "loss": 1.2112,
      "step": 58
    },
    {
      "epoch": 0.10700521423713444,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0002,
      "loss": 1.0835,
      "step": 59
    },
    {
      "epoch": 0.10881886193606892,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0002,
      "loss": 1.1178,
      "step": 60
    },
    {
      "epoch": 0.1106325096350034,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0002,
      "loss": 1.1134,
      "step": 61
    },
    {
      "epoch": 0.11244615733393788,
      "grad_norm": 0.15625,
      "learning_rate": 0.0002,
      "loss": 1.048,
      "step": 62
    },
    {
      "epoch": 0.11425980503287236,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0002,
      "loss": 1.1967,
      "step": 63
    },
    {
      "epoch": 0.11607345273180684,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0002,
      "loss": 0.9672,
      "step": 64
    },
    {
      "epoch": 0.11788710043074133,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0002,
      "loss": 1.0448,
      "step": 65
    },
    {
      "epoch": 0.11970074812967581,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0002,
      "loss": 1.0892,
      "step": 66
    },
    {
      "epoch": 0.12151439582861029,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0002,
      "loss": 1.2384,
      "step": 67
    },
    {
      "epoch": 0.12332804352754477,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0002,
      "loss": 1.098,
      "step": 68
    },
    {
      "epoch": 0.12514169122647925,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0002,
      "loss": 1.1171,
      "step": 69
    },
    {
      "epoch": 0.12695533892541375,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 1.2379,
      "step": 70
    },
    {
      "epoch": 0.12876898662434821,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002,
      "loss": 1.0649,
      "step": 71
    },
    {
      "epoch": 0.1305826343232827,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 1.0911,
      "step": 72
    },
    {
      "epoch": 0.13239628202221718,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0002,
      "loss": 1.2287,
      "step": 73
    },
    {
      "epoch": 0.13420992972115167,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0002,
      "loss": 1.3319,
      "step": 74
    },
    {
      "epoch": 0.13602357742008614,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0002,
      "loss": 1.2734,
      "step": 75
    },
    {
      "epoch": 0.13783722511902063,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0002,
      "loss": 1.2264,
      "step": 76
    },
    {
      "epoch": 0.1396508728179551,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0002,
      "loss": 1.3931,
      "step": 77
    },
    {
      "epoch": 0.1414645205168896,
      "grad_norm": 0.203125,
      "learning_rate": 0.0002,
      "loss": 1.2151,
      "step": 78
    },
    {
      "epoch": 0.14327816821582406,
      "grad_norm": 0.203125,
      "learning_rate": 0.0002,
      "loss": 1.1763,
      "step": 79
    },
    {
      "epoch": 0.14509181591475856,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002,
      "loss": 1.1771,
      "step": 80
    },
    {
      "epoch": 0.14690546361369303,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002,
      "loss": 1.1416,
      "step": 81
    },
    {
      "epoch": 0.14871911131262752,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0002,
      "loss": 1.0318,
      "step": 82
    },
    {
      "epoch": 0.15053275901156202,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.564,
      "step": 83
    },
    {
      "epoch": 0.15234640671049648,
      "grad_norm": 0.21875,
      "learning_rate": 0.0002,
      "loss": 1.2836,
      "step": 84
    },
    {
      "epoch": 0.15416005440943098,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0002,
      "loss": 1.4357,
      "step": 85
    },
    {
      "epoch": 0.15597370210836545,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002,
      "loss": 1.3391,
      "step": 86
    },
    {
      "epoch": 0.15778734980729994,
      "grad_norm": 0.21875,
      "learning_rate": 0.0002,
      "loss": 1.1108,
      "step": 87
    },
    {
      "epoch": 0.1596009975062344,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002,
      "loss": 1.4196,
      "step": 88
    },
    {
      "epoch": 0.1614146452051689,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002,
      "loss": 1.547,
      "step": 89
    },
    {
      "epoch": 0.16322829290410337,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002,
      "loss": 1.4645,
      "step": 90
    },
    {
      "epoch": 0.16504194060303787,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 1.3743,
      "step": 91
    },
    {
      "epoch": 0.16685558830197234,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 1.3674,
      "step": 92
    },
    {
      "epoch": 0.16866923600090683,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002,
      "loss": 1.4271,
      "step": 93
    },
    {
      "epoch": 0.1704828836998413,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 1.6197,
      "step": 94
    },
    {
      "epoch": 0.1722965313987758,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002,
      "loss": 1.3833,
      "step": 95
    },
    {
      "epoch": 0.17411017909771026,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002,
      "loss": 1.4507,
      "step": 96
    },
    {
      "epoch": 0.17592382679664476,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 1.3912,
      "step": 97
    },
    {
      "epoch": 0.17773747449557922,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 1.5995,
      "step": 98
    },
    {
      "epoch": 0.17955112219451372,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002,
      "loss": 1.353,
      "step": 99
    },
    {
      "epoch": 0.18136476989344819,
      "grad_norm": 0.703125,
      "learning_rate": 0.0002,
      "loss": 1.5161,
      "step": 100
    },
    {
      "epoch": 0.18317841759238268,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0002,
      "loss": 1.1031,
      "step": 101
    },
    {
      "epoch": 0.18499206529131715,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 1.2161,
      "step": 102
    },
    {
      "epoch": 0.18680571299025164,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002,
      "loss": 1.2736,
      "step": 103
    },
    {
      "epoch": 0.18861936068918614,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002,
      "loss": 1.0675,
      "step": 104
    },
    {
      "epoch": 0.1904330083881206,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0002,
      "loss": 1.0046,
      "step": 105
    },
    {
      "epoch": 0.1922466560870551,
      "grad_norm": 0.140625,
      "learning_rate": 0.0002,
      "loss": 1.1986,
      "step": 106
    },
    {
      "epoch": 0.19406030378598957,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0002,
      "loss": 1.0264,
      "step": 107
    },
    {
      "epoch": 0.19587395148492406,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0002,
      "loss": 0.9406,
      "step": 108
    },
    {
      "epoch": 0.19768759918385853,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0002,
      "loss": 1.0242,
      "step": 109
    },
    {
      "epoch": 0.19950124688279303,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0002,
      "loss": 1.1293,
      "step": 110
    },
    {
      "epoch": 0.2013148945817275,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0002,
      "loss": 1.0999,
      "step": 111
    },
    {
      "epoch": 0.203128542280662,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002,
      "loss": 1.2009,
      "step": 112
    },
    {
      "epoch": 0.20494218997959646,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0002,
      "loss": 1.2347,
      "step": 113
    },
    {
      "epoch": 0.20675583767853095,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0002,
      "loss": 1.0038,
      "step": 114
    },
    {
      "epoch": 0.20856948537746542,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002,
      "loss": 1.0382,
      "step": 115
    },
    {
      "epoch": 0.21038313307639991,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0002,
      "loss": 1.0116,
      "step": 116
    },
    {
      "epoch": 0.21219678077533438,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0002,
      "loss": 1.0279,
      "step": 117
    },
    {
      "epoch": 0.21401042847426888,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0002,
      "loss": 1.2739,
      "step": 118
    },
    {
      "epoch": 0.21582407617320334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002,
      "loss": 1.3347,
      "step": 119
    },
    {
      "epoch": 0.21763772387213784,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0002,
      "loss": 1.0399,
      "step": 120
    },
    {
      "epoch": 0.2194513715710723,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0002,
      "loss": 1.0956,
      "step": 121
    },
    {
      "epoch": 0.2212650192700068,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.116,
      "step": 122
    },
    {
      "epoch": 0.22307866696894127,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 1.2465,
      "step": 123
    },
    {
      "epoch": 0.22489231466787576,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0002,
      "loss": 1.2244,
      "step": 124
    },
    {
      "epoch": 0.22670596236681026,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0002,
      "loss": 1.316,
      "step": 125
    },
    {
      "epoch": 0.22851961006574473,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.2189,
      "step": 126
    },
    {
      "epoch": 0.23033325776467922,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 1.1523,
      "step": 127
    },
    {
      "epoch": 0.2321469054636137,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 1.0876,
      "step": 128
    },
    {
      "epoch": 0.23396055316254818,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0002,
      "loss": 1.1896,
      "step": 129
    },
    {
      "epoch": 0.23577420086148265,
      "grad_norm": 0.1875,
      "learning_rate": 0.0002,
      "loss": 1.1353,
      "step": 130
    },
    {
      "epoch": 0.23758784856041715,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0002,
      "loss": 1.3434,
      "step": 131
    },
    {
      "epoch": 0.23940149625935161,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002,
      "loss": 1.5062,
      "step": 132
    },
    {
      "epoch": 0.2412151439582861,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0002,
      "loss": 1.3891,
      "step": 133
    },
    {
      "epoch": 0.24302879165722058,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0002,
      "loss": 1.4001,
      "step": 134
    },
    {
      "epoch": 0.24484243935615507,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002,
      "loss": 1.3732,
      "step": 135
    },
    {
      "epoch": 0.24665608705508954,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002,
      "loss": 1.219,
      "step": 136
    },
    {
      "epoch": 0.24846973475402404,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0002,
      "loss": 1.3384,
      "step": 137
    },
    {
      "epoch": 0.2502833824529585,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002,
      "loss": 1.4123,
      "step": 138
    },
    {
      "epoch": 0.252097030151893,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002,
      "loss": 1.3696,
      "step": 139
    },
    {
      "epoch": 0.2539106778508275,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002,
      "loss": 1.4278,
      "step": 140
    },
    {
      "epoch": 0.25572432554976193,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 1.5899,
      "step": 141
    },
    {
      "epoch": 0.25753797324869643,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.5696,
      "step": 142
    },
    {
      "epoch": 0.2593516209476309,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 1.5805,
      "step": 143
    },
    {
      "epoch": 0.2611652686465654,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 1.4264,
      "step": 144
    },
    {
      "epoch": 0.2629789163454999,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002,
      "loss": 1.5934,
      "step": 145
    },
    {
      "epoch": 0.26479256404443435,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 1.4884,
      "step": 146
    },
    {
      "epoch": 0.26660621174336885,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 1.5814,
      "step": 147
    },
    {
      "epoch": 0.26841985944230334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002,
      "loss": 1.5891,
      "step": 148
    },
    {
      "epoch": 0.27023350714123784,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 1.5248,
      "step": 149
    },
    {
      "epoch": 0.2720471548401723,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0002,
      "loss": 1.3457,
      "step": 150
    },
    {
      "epoch": 0.2738608025391068,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.0316,
      "step": 151
    },
    {
      "epoch": 0.27567445023804127,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 1.2109,
      "step": 152
    },
    {
      "epoch": 0.27748809793697576,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0002,
      "loss": 1.175,
      "step": 153
    },
    {
      "epoch": 0.2793017456359102,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0002,
      "loss": 1.0358,
      "step": 154
    },
    {
      "epoch": 0.2811153933348447,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002,
      "loss": 1.4413,
      "step": 155
    },
    {
      "epoch": 0.2829290410337792,
      "grad_norm": 0.140625,
      "learning_rate": 0.0002,
      "loss": 0.9563,
      "step": 156
    },
    {
      "epoch": 0.2847426887327137,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0002,
      "loss": 1.1039,
      "step": 157
    },
    {
      "epoch": 0.28655633643164813,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0002,
      "loss": 0.9505,
      "step": 158
    },
    {
      "epoch": 0.2883699841305826,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.2154,
      "step": 159
    },
    {
      "epoch": 0.2901836318295171,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002,
      "loss": 1.0523,
      "step": 160
    },
    {
      "epoch": 0.2919972795284516,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0002,
      "loss": 1.1061,
      "step": 161
    },
    {
      "epoch": 0.29381092722738605,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0002,
      "loss": 1.0745,
      "step": 162
    },
    {
      "epoch": 0.29562457492632055,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0002,
      "loss": 1.2039,
      "step": 163
    },
    {
      "epoch": 0.29743822262525504,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0002,
      "loss": 1.2307,
      "step": 164
    },
    {
      "epoch": 0.29925187032418954,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0002,
      "loss": 1.0212,
      "step": 165
    },
    {
      "epoch": 0.30106551802312403,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002,
      "loss": 1.1112,
      "step": 166
    },
    {
      "epoch": 0.3028791657220585,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002,
      "loss": 1.177,
      "step": 167
    },
    {
      "epoch": 0.30469281342099297,
      "grad_norm": 0.140625,
      "learning_rate": 0.0002,
      "loss": 0.8891,
      "step": 168
    },
    {
      "epoch": 0.30650646111992746,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002,
      "loss": 1.1652,
      "step": 169
    },
    {
      "epoch": 0.30832010881886196,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.0324,
      "step": 170
    },
    {
      "epoch": 0.3101337565177964,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 1.1437,
      "step": 171
    },
    {
      "epoch": 0.3119474042167309,
      "grad_norm": 0.21875,
      "learning_rate": 0.0002,
      "loss": 1.2444,
      "step": 172
    },
    {
      "epoch": 0.3137610519156654,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 1.1845,
      "step": 173
    },
    {
      "epoch": 0.3155746996145999,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.1165,
      "step": 174
    },
    {
      "epoch": 0.3173883473135343,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 1.255,
      "step": 175
    },
    {
      "epoch": 0.3192019950124688,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 1.1837,
      "step": 176
    },
    {
      "epoch": 0.3210156427114033,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0002,
      "loss": 1.3534,
      "step": 177
    },
    {
      "epoch": 0.3228292904103378,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002,
      "loss": 1.3451,
      "step": 178
    },
    {
      "epoch": 0.32464293810927225,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0002,
      "loss": 1.2537,
      "step": 179
    },
    {
      "epoch": 0.32645658580820675,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0002,
      "loss": 1.1919,
      "step": 180
    },
    {
      "epoch": 0.32827023350714124,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002,
      "loss": 1.3299,
      "step": 181
    },
    {
      "epoch": 0.33008388120607574,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0002,
      "loss": 1.1181,
      "step": 182
    },
    {
      "epoch": 0.3318975289050102,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0002,
      "loss": 1.5008,
      "step": 183
    },
    {
      "epoch": 0.33371117660394467,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002,
      "loss": 1.1133,
      "step": 184
    },
    {
      "epoch": 0.33552482430287917,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 1.4636,
      "step": 185
    },
    {
      "epoch": 0.33733847200181366,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002,
      "loss": 1.333,
      "step": 186
    },
    {
      "epoch": 0.33915211970074816,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002,
      "loss": 1.4263,
      "step": 187
    },
    {
      "epoch": 0.33915211970074816,
      "eval_loss": 1.2364751100540161,
      "eval_runtime": 335.8208,
      "eval_samples_per_second": 2.978,
      "eval_steps_per_second": 2.978,
      "step": 187
    },
    {
      "epoch": 0.33915211970074816,
      "mmlu_eval_accuracy": 0.4666894089076,
      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
      "mmlu_eval_accuracy_anatomy": 0.35714285714285715,
      "mmlu_eval_accuracy_astronomy": 0.375,
      "mmlu_eval_accuracy_business_ethics": 0.7272727272727273,
      "mmlu_eval_accuracy_clinical_knowledge": 0.27586206896551724,
      "mmlu_eval_accuracy_college_biology": 0.3125,
      "mmlu_eval_accuracy_college_chemistry": 0.25,
      "mmlu_eval_accuracy_college_computer_science": 0.6363636363636364,
      "mmlu_eval_accuracy_college_mathematics": 0.36363636363636365,
      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
      "mmlu_eval_accuracy_college_physics": 0.2727272727272727,
      "mmlu_eval_accuracy_computer_security": 0.5454545454545454,
      "mmlu_eval_accuracy_conceptual_physics": 0.5,
      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
      "mmlu_eval_accuracy_electrical_engineering": 0.5,
      "mmlu_eval_accuracy_elementary_mathematics": 0.4146341463414634,
      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
      "mmlu_eval_accuracy_global_facts": 0.1,
      "mmlu_eval_accuracy_high_school_biology": 0.28125,
      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
      "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
      "mmlu_eval_accuracy_high_school_geography": 0.5,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4186046511627907,
      "mmlu_eval_accuracy_high_school_mathematics": 0.2413793103448276,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.3076923076923077,
      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
      "mmlu_eval_accuracy_high_school_psychology": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_statistics": 0.2608695652173913,
      "mmlu_eval_accuracy_high_school_us_history": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_world_history": 0.5384615384615384,
      "mmlu_eval_accuracy_human_aging": 0.6086956521739131,
      "mmlu_eval_accuracy_human_sexuality": 0.5833333333333334,
      "mmlu_eval_accuracy_international_law": 0.7692307692307693,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.6111111111111112,
      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
      "mmlu_eval_accuracy_management": 0.6363636363636364,
      "mmlu_eval_accuracy_marketing": 0.84,
      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
      "mmlu_eval_accuracy_miscellaneous": 0.6627906976744186,
      "mmlu_eval_accuracy_moral_disputes": 0.5,
      "mmlu_eval_accuracy_moral_scenarios": 0.25,
      "mmlu_eval_accuracy_nutrition": 0.5151515151515151,
      "mmlu_eval_accuracy_philosophy": 0.5294117647058824,
      "mmlu_eval_accuracy_prehistory": 0.45714285714285713,
      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_law": 0.3411764705882353,
      "mmlu_eval_accuracy_professional_medicine": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
      "mmlu_eval_accuracy_public_relations": 0.5,
      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
      "mmlu_eval_accuracy_sociology": 0.6363636363636364,
      "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
      "mmlu_eval_accuracy_virology": 0.3888888888888889,
      "mmlu_eval_accuracy_world_religions": 0.7894736842105263,
      "mmlu_loss": 1.6922702023517378,
      "step": 187
    },
    {
      "epoch": 0.3409657673996826,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002,
      "loss": 1.3166,
      "step": 188
    },
    {
      "epoch": 0.3427794150986171,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002,
      "loss": 1.3609,
      "step": 189
    },
    {
      "epoch": 0.3445930627975516,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002,
      "loss": 1.3279,
      "step": 190
    },
    {
      "epoch": 0.3464067104964861,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 1.4864,
      "step": 191
    },
    {
      "epoch": 0.3482203581954205,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 1.4681,
      "step": 192
    },
    {
      "epoch": 0.350034005894355,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 1.5019,
      "step": 193
    },
    {
      "epoch": 0.3518476535932895,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 1.5928,
      "step": 194
    },
    {
      "epoch": 0.353661301292224,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002,
      "loss": 1.5518,
      "step": 195
    },
    {
      "epoch": 0.35547494899115845,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002,
      "loss": 1.4075,
      "step": 196
    },
    {
      "epoch": 0.35728859669009294,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 1.4095,
      "step": 197
    },
    {
      "epoch": 0.35910224438902744,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 1.6472,
      "step": 198
    },
    {
      "epoch": 0.36091589208796193,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0002,
      "loss": 1.5728,
      "step": 199
    },
    {
      "epoch": 0.36272953978689637,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0002,
      "loss": 1.4444,
      "step": 200
    },
    {
      "epoch": 0.36454318748583087,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002,
      "loss": 1.2984,
      "step": 201
    },
    {
      "epoch": 0.36635683518476536,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 1.2439,
      "step": 202
    },
    {
      "epoch": 0.36817048288369986,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0002,
      "loss": 1.2311,
      "step": 203
    },
    {
      "epoch": 0.3699841305826343,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0002,
      "loss": 1.0879,
      "step": 204
    },
    {
      "epoch": 0.3717977782815688,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0002,
      "loss": 1.0872,
      "step": 205
    },
    {
      "epoch": 0.3736114259805033,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0002,
      "loss": 1.2091,
      "step": 206
    },
    {
      "epoch": 0.3754250736794378,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0002,
      "loss": 1.1735,
      "step": 207
    },
    {
      "epoch": 0.3772387213783723,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0002,
      "loss": 1.1843,
      "step": 208
    },
    {
      "epoch": 0.3790523690773067,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0002,
      "loss": 1.0384,
      "step": 209
    },
    {
      "epoch": 0.3808660167762412,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0002,
      "loss": 1.1845,
      "step": 210
    },
    {
      "epoch": 0.3826796644751757,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0002,
      "loss": 1.144,
      "step": 211
    },
    {
      "epoch": 0.3844933121741102,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0002,
      "loss": 1.1203,
      "step": 212
    },
    {
      "epoch": 0.38630695987304464,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0002,
      "loss": 1.2735,
      "step": 213
    },
    {
      "epoch": 0.38812060757197914,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002,
      "loss": 1.0969,
      "step": 214
    },
    {
      "epoch": 0.38993425527091363,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.0483,
      "step": 215
    },
    {
      "epoch": 0.3917479029698481,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002,
      "loss": 1.0037,
      "step": 216
    },
    {
      "epoch": 0.39356155066878257,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 1.0499,
      "step": 217
    },
    {
      "epoch": 0.39537519836771706,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0002,
      "loss": 1.2247,
      "step": 218
    },
    {
      "epoch": 0.39718884606665156,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0002,
      "loss": 1.4043,
      "step": 219
    },
    {
      "epoch": 0.39900249376558605,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 1.1577,
      "step": 220
    },
    {
      "epoch": 0.4008161414645205,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0002,
      "loss": 1.2474,
      "step": 221
    },
    {
      "epoch": 0.402629789163455,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002,
      "loss": 1.212,
      "step": 222
    },
    {
      "epoch": 0.4044434368623895,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.0686,
      "step": 223
    },
    {
      "epoch": 0.406257084561324,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0002,
      "loss": 1.1641,
      "step": 224
    },
    {
      "epoch": 0.4080707322602584,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.0233,
      "step": 225
    },
    {
      "epoch": 0.4098843799591929,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0002,
      "loss": 1.5304,
      "step": 226
    },
    {
      "epoch": 0.4116980276581274,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0002,
      "loss": 1.1589,
      "step": 227
    },
    {
      "epoch": 0.4135116753570619,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002,
      "loss": 1.472,
      "step": 228
    },
    {
      "epoch": 0.4153253230559964,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0002,
      "loss": 1.3191,
      "step": 229
    },
    {
      "epoch": 0.41713897075493084,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0002,
      "loss": 1.3541,
      "step": 230
    },
    {
      "epoch": 0.41895261845386533,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002,
      "loss": 1.363,
      "step": 231
    },
    {
      "epoch": 0.42076626615279983,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002,
      "loss": 1.5363,
      "step": 232
    },
    {
      "epoch": 0.4225799138517343,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002,
      "loss": 1.4292,
      "step": 233
    },
    {
      "epoch": 0.42439356155066876,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002,
      "loss": 1.2765,
      "step": 234
    },
    {
      "epoch": 0.42620720924960326,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002,
      "loss": 1.2528,
      "step": 235
    },
    {
      "epoch": 0.42802085694853775,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002,
      "loss": 1.2086,
      "step": 236
    },
    {
      "epoch": 0.42983450464747225,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 1.5687,
      "step": 237
    },
    {
      "epoch": 0.4316481523464067,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.6155,
      "step": 238
    },
    {
      "epoch": 0.4334618000453412,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.2185,
      "step": 239
    },
    {
      "epoch": 0.4352754477442757,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 1.4321,
      "step": 240
    },
    {
      "epoch": 0.4370890954432102,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 1.4043,
      "step": 241
    },
    {
      "epoch": 0.4389027431421446,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 1.5162,
      "step": 242
    },
    {
      "epoch": 0.4407163908410791,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 1.6692,
      "step": 243
    },
    {
      "epoch": 0.4425300385400136,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 1.4097,
      "step": 244
    },
    {
      "epoch": 0.4443436862389481,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 1.6305,
      "step": 245
    },
    {
      "epoch": 0.44615733393788254,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 1.8437,
      "step": 246
    },
    {
      "epoch": 0.44797098163681703,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002,
      "loss": 1.4637,
      "step": 247
    },
    {
      "epoch": 0.44978462933575153,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002,
      "loss": 1.6971,
      "step": 248
    },
    {
      "epoch": 0.451598277034686,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 1.5541,
      "step": 249
    },
    {
      "epoch": 0.4534119247336205,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0002,
      "loss": 1.4742,
      "step": 250
    },
    {
      "epoch": 0.45522557243255496,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 1.2109,
      "step": 251
    },
    {
      "epoch": 0.45703922013148945,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 0.9422,
      "step": 252
    },
    {
      "epoch": 0.45885286783042395,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002,
      "loss": 1.0297,
      "step": 253
    },
    {
      "epoch": 0.46066651552935844,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0002,
      "loss": 1.2133,
      "step": 254
    },
    {
      "epoch": 0.4624801632282929,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0002,
      "loss": 0.9653,
      "step": 255
    },
    {
      "epoch": 0.4642938109272274,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 0.9834,
      "step": 256
    },
    {
      "epoch": 0.4661074586261619,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0002,
      "loss": 1.2098,
      "step": 257
    },
    {
      "epoch": 0.46792110632509637,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002,
      "loss": 1.0112,
      "step": 258
    },
    {
      "epoch": 0.4697347540240308,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0002,
      "loss": 1.0988,
      "step": 259
    },
    {
      "epoch": 0.4715484017229653,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0002,
      "loss": 1.071,
      "step": 260
    },
    {
      "epoch": 0.4733620494218998,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0002,
      "loss": 1.0245,
      "step": 261
    },
    {
      "epoch": 0.4751756971208343,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0002,
      "loss": 0.9031,
      "step": 262
    },
    {
      "epoch": 0.47698934481976873,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0002,
      "loss": 0.9576,
      "step": 263
    },
    {
      "epoch": 0.47880299251870323,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002,
      "loss": 1.2454,
      "step": 264
    },
    {
      "epoch": 0.4806166402176377,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0002,
      "loss": 1.0093,
      "step": 265
    },
    {
      "epoch": 0.4824302879165722,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0002,
      "loss": 1.1185,
      "step": 266
    },
    {
      "epoch": 0.4842439356155067,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0002,
      "loss": 0.9859,
      "step": 267
    },
    {
      "epoch": 0.48605758331444116,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0002,
      "loss": 1.1814,
      "step": 268
    },
    {
      "epoch": 0.48787123101337565,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.0826,
      "step": 269
    },
    {
      "epoch": 0.48968487871231015,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0002,
      "loss": 1.003,
      "step": 270
    },
    {
      "epoch": 0.49149852641124464,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 1.2472,
      "step": 271
    },
    {
      "epoch": 0.4933121741101791,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.1833,
      "step": 272
    },
    {
      "epoch": 0.4951258218091136,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0002,
      "loss": 1.2143,
      "step": 273
    },
    {
      "epoch": 0.49693946950804807,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0002,
      "loss": 1.2761,
      "step": 274
    },
    {
      "epoch": 0.49875311720698257,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0002,
      "loss": 1.1579,
      "step": 275
    },
    {
      "epoch": 0.500566764905917,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0002,
      "loss": 1.3646,
      "step": 276
    },
    {
      "epoch": 0.5023804126048516,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002,
      "loss": 1.2982,
      "step": 277
    },
    {
      "epoch": 0.504194060303786,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0002,
      "loss": 1.1784,
      "step": 278
    },
    {
      "epoch": 0.5060077080027204,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002,
      "loss": 1.2527,
      "step": 279
    },
    {
      "epoch": 0.507821355701655,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0002,
      "loss": 1.2156,
      "step": 280
    },
    {
      "epoch": 0.5096350034005894,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0002,
      "loss": 1.168,
      "step": 281
    },
    {
      "epoch": 0.5114486510995239,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002,
      "loss": 1.3532,
      "step": 282
    },
    {
      "epoch": 0.5132622987984584,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002,
      "loss": 1.3445,
      "step": 283
    },
    {
      "epoch": 0.5150759464973929,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002,
      "loss": 1.1735,
      "step": 284
    },
    {
      "epoch": 0.5168895941963274,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 1.4841,
      "step": 285
    },
    {
      "epoch": 0.5187032418952618,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.2093,
      "step": 286
    },
    {
      "epoch": 0.5205168895941963,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 1.3408,
      "step": 287
    },
    {
      "epoch": 0.5223305372931308,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 1.4796,
      "step": 288
    },
    {
      "epoch": 0.5241441849920653,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 1.5212,
      "step": 289
    },
    {
      "epoch": 0.5259578326909998,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 1.4549,
      "step": 290
    },
    {
      "epoch": 0.5277714803899343,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 1.4089,
      "step": 291
    },
    {
      "epoch": 0.5295851280888687,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 1.4646,
      "step": 292
    },
    {
      "epoch": 0.5313987757878033,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 1.6923,
      "step": 293
    },
    {
      "epoch": 0.5332124234867377,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 1.6312,
      "step": 294
    },
    {
      "epoch": 0.5350260711856721,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 1.6381,
      "step": 295
    },
    {
      "epoch": 0.5368397188846067,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 1.7071,
      "step": 296
    },
    {
      "epoch": 0.5386533665835411,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 1.3082,
      "step": 297
    },
    {
      "epoch": 0.5404670142824757,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002,
      "loss": 1.4886,
      "step": 298
    },
    {
      "epoch": 0.5422806619814101,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0002,
      "loss": 1.5503,
      "step": 299
    },
    {
      "epoch": 0.5440943096803446,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0002,
      "loss": 1.139,
      "step": 300
    },
    {
      "epoch": 0.5459079573792791,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002,
      "loss": 1.2198,
      "step": 301
    },
    {
      "epoch": 0.5477216050782135,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0002,
      "loss": 1.1621,
      "step": 302
    },
    {
      "epoch": 0.549535252777148,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 1.1518,
      "step": 303
    },
    {
      "epoch": 0.5513489004760825,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0002,
      "loss": 1.1582,
      "step": 304
    },
    {
      "epoch": 0.553162548175017,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0002,
      "loss": 1.1105,
      "step": 305
    },
    {
      "epoch": 0.5549761958739515,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002,
      "loss": 0.9788,
      "step": 306
    },
    {
      "epoch": 0.556789843572886,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002,
      "loss": 1.1438,
      "step": 307
    },
    {
      "epoch": 0.5586034912718204,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 1.0265,
      "step": 308
    },
    {
      "epoch": 0.560417138970755,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002,
      "loss": 1.2929,
      "step": 309
    },
    {
      "epoch": 0.5622307866696894,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.1568,
      "step": 310
    },
    {
      "epoch": 0.564044434368624,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002,
      "loss": 1.266,
      "step": 311
    },
    {
      "epoch": 0.5658580820675584,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0002,
      "loss": 1.1432,
      "step": 312
    },
    {
      "epoch": 0.5676717297664928,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0002,
      "loss": 1.0543,
      "step": 313
    },
    {
      "epoch": 0.5694853774654274,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 1.0647,
      "step": 314
    },
    {
      "epoch": 0.5712990251643618,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0002,
      "loss": 1.2197,
      "step": 315
    },
    {
      "epoch": 0.5731126728632963,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 1.1235,
      "step": 316
    },
    {
      "epoch": 0.5749263205622308,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 0.9123,
      "step": 317
    },
    {
      "epoch": 0.5767399682611652,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.0819,
      "step": 318
    },
    {
      "epoch": 0.5785536159600998,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0002,
      "loss": 1.1036,
      "step": 319
    },
    {
      "epoch": 0.5803672636590342,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002,
      "loss": 1.0729,
      "step": 320
    },
    {
      "epoch": 0.5821809113579687,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0002,
      "loss": 1.1331,
      "step": 321
    },
    {
      "epoch": 0.5839945590569032,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002,
      "loss": 1.1589,
      "step": 322
    },
    {
      "epoch": 0.5858082067558377,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0002,
      "loss": 1.0091,
      "step": 323
    },
    {
      "epoch": 0.5876218544547721,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0002,
      "loss": 1.0615,
      "step": 324
    },
    {
      "epoch": 0.5894355021537067,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002,
      "loss": 1.1123,
      "step": 325
    },
    {
      "epoch": 0.5912491498526411,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002,
      "loss": 1.3042,
      "step": 326
    },
    {
      "epoch": 0.5930627975515756,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002,
      "loss": 1.1612,
      "step": 327
    },
    {
      "epoch": 0.5948764452505101,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002,
      "loss": 1.2147,
      "step": 328
    },
    {
      "epoch": 0.5966900929494445,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002,
      "loss": 1.3705,
      "step": 329
    },
    {
      "epoch": 0.5985037406483791,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002,
      "loss": 1.3185,
      "step": 330
    },
    {
      "epoch": 0.6003173883473135,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002,
      "loss": 1.1011,
      "step": 331
    },
    {
      "epoch": 0.6021310360462481,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0002,
      "loss": 1.3676,
      "step": 332
    },
    {
      "epoch": 0.6039446837451825,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 1.7056,
      "step": 333
    },
    {
      "epoch": 0.605758331444117,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0002,
      "loss": 1.4053,
      "step": 334
    },
    {
      "epoch": 0.6075719791430515,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002,
      "loss": 1.6053,
      "step": 335
    },
    {
      "epoch": 0.6093856268419859,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002,
      "loss": 1.4338,
      "step": 336
    },
    {
      "epoch": 0.6111992745409204,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 1.4952,
      "step": 337
    },
    {
      "epoch": 0.6130129222398549,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 1.5755,
      "step": 338
    },
    {
      "epoch": 0.6148265699387894,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 1.3911,
      "step": 339
    },
    {
      "epoch": 0.6166402176377239,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 1.3419,
      "step": 340
    },
    {
      "epoch": 0.6184538653366584,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 1.5078,
      "step": 341
    },
    {
      "epoch": 0.6202675130355928,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 1.4273,
      "step": 342
    },
    {
      "epoch": 0.6220811607345273,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 1.3726,
      "step": 343
    },
    {
      "epoch": 0.6238948084334618,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 1.3627,
      "step": 344
    },
    {
      "epoch": 0.6257084561323962,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 1.6974,
      "step": 345
    },
    {
      "epoch": 0.6275221038313308,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 1.5321,
      "step": 346
    },
    {
      "epoch": 0.6293357515302652,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002,
      "loss": 1.6141,
      "step": 347
    },
    {
      "epoch": 0.6311493992291998,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002,
      "loss": 1.4313,
      "step": 348
    },
    {
      "epoch": 0.6329630469281342,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002,
      "loss": 1.6356,
      "step": 349
    },
    {
      "epoch": 0.6347766946270686,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002,
      "loss": 1.3902,
      "step": 350
    },
    {
      "epoch": 0.6365903423260032,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002,
      "loss": 1.0787,
      "step": 351
    },
    {
      "epoch": 0.6384039900249376,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002,
      "loss": 1.1102,
      "step": 352
    },
    {
      "epoch": 0.6402176377238722,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002,
      "loss": 1.3349,
      "step": 353
    },
    {
      "epoch": 0.6420312854228066,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 1.0467,
      "step": 354
    },
    {
      "epoch": 0.6438449331217411,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 1.1429,
      "step": 355
    },
    {
      "epoch": 0.6456585808206756,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0002,
      "loss": 1.0513,
      "step": 356
    },
    {
      "epoch": 0.6474722285196101,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0002,
      "loss": 0.9772,
      "step": 357
    },
    {
      "epoch": 0.6492858762185445,
      "grad_norm": 0.203125,
      "learning_rate": 0.0002,
      "loss": 1.2945,
      "step": 358
    },
    {
      "epoch": 0.651099523917479,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 1.111,
      "step": 359
    },
    {
      "epoch": 0.6529131716164135,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 1.1438,
      "step": 360
    },
    {
      "epoch": 0.654726819315348,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0002,
      "loss": 1.199,
      "step": 361
    },
    {
      "epoch": 0.6565404670142825,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 1.1062,
      "step": 362
    },
    {
      "epoch": 0.6583541147132169,
      "grad_norm": 0.15625,
      "learning_rate": 0.0002,
      "loss": 1.1362,
      "step": 363
    },
    {
      "epoch": 0.6601677624121515,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0002,
      "loss": 1.0525,
      "step": 364
    },
    {
      "epoch": 0.6619814101110859,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0002,
      "loss": 1.0469,
      "step": 365
    },
    {
      "epoch": 0.6637950578100204,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0002,
      "loss": 1.1495,
      "step": 366
    },
    {
      "epoch": 0.6656087055089549,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0002,
      "loss": 1.2853,
      "step": 367
    },
    {
      "epoch": 0.6674223532078893,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002,
      "loss": 1.0946,
      "step": 368
    },
    {
      "epoch": 0.6692360009068239,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 1.0661,
      "step": 369
    },
    {
      "epoch": 0.6710496486057583,
      "grad_norm": 0.1875,
      "learning_rate": 0.0002,
      "loss": 1.0045,
      "step": 370
    },
    {
      "epoch": 0.6728632963046928,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0002,
      "loss": 1.0346,
      "step": 371
    },
    {
      "epoch": 0.6746769440036273,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0002,
      "loss": 1.3198,
      "step": 372
    },
    {
      "epoch": 0.6764905917025618,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0002,
      "loss": 1.1662,
      "step": 373
    },
    {
      "epoch": 0.6783042394014963,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0002,
      "loss": 1.0712,
      "step": 374
    },
    {
      "epoch": 0.6783042394014963,
      "eval_loss": 1.231319785118103,
      "eval_runtime": 335.741,
      "eval_samples_per_second": 2.978,
      "eval_steps_per_second": 2.978,
      "step": 374
    },
    {
      "epoch": 0.6783042394014963,
      "mmlu_eval_accuracy": 0.47489328417982046,
      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
      "mmlu_eval_accuracy_anatomy": 0.42857142857142855,
      "mmlu_eval_accuracy_astronomy": 0.4375,
      "mmlu_eval_accuracy_business_ethics": 0.7272727272727273,
      "mmlu_eval_accuracy_clinical_knowledge": 0.27586206896551724,
      "mmlu_eval_accuracy_college_biology": 0.4375,
      "mmlu_eval_accuracy_college_chemistry": 0.25,
      "mmlu_eval_accuracy_college_computer_science": 0.6363636363636364,
      "mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
      "mmlu_eval_accuracy_conceptual_physics": 0.46153846153846156,
      "mmlu_eval_accuracy_econometrics": 0.08333333333333333,
      "mmlu_eval_accuracy_electrical_engineering": 0.4375,
      "mmlu_eval_accuracy_elementary_mathematics": 0.4146341463414634,
      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
      "mmlu_eval_accuracy_global_facts": 0.1,
      "mmlu_eval_accuracy_high_school_biology": 0.3125,
      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
      "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
      "mmlu_eval_accuracy_high_school_geography": 0.5909090909090909,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4186046511627907,
      "mmlu_eval_accuracy_high_school_mathematics": 0.3103448275862069,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.38461538461538464,
      "mmlu_eval_accuracy_high_school_physics": 0.35294117647058826,
      "mmlu_eval_accuracy_high_school_psychology": 0.6833333333333333,
      "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
      "mmlu_eval_accuracy_high_school_us_history": 0.6363636363636364,
      "mmlu_eval_accuracy_high_school_world_history": 0.5,
      "mmlu_eval_accuracy_human_aging": 0.6086956521739131,
      "mmlu_eval_accuracy_human_sexuality": 0.6666666666666666,
      "mmlu_eval_accuracy_international_law": 0.7692307692307693,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
      "mmlu_eval_accuracy_machine_learning": 0.2727272727272727,
      "mmlu_eval_accuracy_management": 0.6363636363636364,
      "mmlu_eval_accuracy_marketing": 0.84,
      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
      "mmlu_eval_accuracy_miscellaneous": 0.6395348837209303,
      "mmlu_eval_accuracy_moral_disputes": 0.47368421052631576,
      "mmlu_eval_accuracy_moral_scenarios": 0.32,
      "mmlu_eval_accuracy_nutrition": 0.5151515151515151,
      "mmlu_eval_accuracy_philosophy": 0.5294117647058824,
      "mmlu_eval_accuracy_prehistory": 0.4857142857142857,
      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_law": 0.34705882352941175,
      "mmlu_eval_accuracy_professional_medicine": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_psychology": 0.4927536231884058,
      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
      "mmlu_eval_accuracy_sociology": 0.6818181818181818,
      "mmlu_eval_accuracy_us_foreign_policy": 0.5454545454545454,
      "mmlu_eval_accuracy_virology": 0.3333333333333333,
      "mmlu_eval_accuracy_world_religions": 0.7368421052631579,
      "mmlu_loss": 2.2507245145071417,
      "step": 374
    },
    {
      "epoch": 0.6801178871004308,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0002,
      "loss": 1.0505,
      "step": 375
    },
    {
      "epoch": 0.6819315347993652,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002,
      "loss": 1.2808,
      "step": 376
    },
    {
      "epoch": 0.6837451824982997,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002,
      "loss": 1.2132,
      "step": 377
    },
    {
      "epoch": 0.6855588301972342,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002,
      "loss": 1.13,
      "step": 378
    },
    {
      "epoch": 0.6873724778961686,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002,
      "loss": 1.1982,
      "step": 379
    },
    {
      "epoch": 0.6891861255951032,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002,
      "loss": 1.39,
      "step": 380
    },
    {
      "epoch": 0.6909997732940376,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002,
      "loss": 1.3541,
      "step": 381
    },
    {
      "epoch": 0.6928134209929722,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0002,
      "loss": 1.349,
      "step": 382
    },
    {
      "epoch": 0.6946270686919066,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002,
      "loss": 1.3786,
      "step": 383
    },
    {
      "epoch": 0.696440716390841,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 1.3196,
      "step": 384
    },
    {
      "epoch": 0.6982543640897756,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 1.2374,
      "step": 385
    },
    {
      "epoch": 0.70006801178871,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 1.3832,
      "step": 386
    },
    {
      "epoch": 0.7018816594876445,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002,
      "loss": 1.5311,
      "step": 387
    },
    {
      "epoch": 0.703695307186579,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 1.2407,
      "step": 388
    },
    {
      "epoch": 0.7055089548855135,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 1.2998,
      "step": 389
    },
    {
      "epoch": 0.707322602584448,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002,
      "loss": 1.5328,
      "step": 390
    },
    {
      "epoch": 0.7091362502833825,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 1.3775,
      "step": 391
    },
    {
      "epoch": 0.7109498979823169,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 1.4954,
      "step": 392
    },
    {
      "epoch": 0.7127635456812514,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002,
      "loss": 1.5976,
      "step": 393
    },
    {
      "epoch": 0.7145771933801859,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 1.6904,
      "step": 394
    },
    {
      "epoch": 0.7163908410791204,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 1.4465,
      "step": 395
    },
    {
      "epoch": 0.7182044887780549,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 1.3722,
      "step": 396
    },
    {
      "epoch": 0.7200181364769893,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002,
      "loss": 1.4461,
      "step": 397
    },
    {
      "epoch": 0.7218317841759239,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0002,
      "loss": 1.4417,
      "step": 398
    },
    {
      "epoch": 0.7236454318748583,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 1.3995,
      "step": 399
    },
    {
      "epoch": 0.7254590795737927,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002,
      "loss": 1.2123,
      "step": 400
    },
    {
      "epoch": 0.7272727272727273,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002,
      "loss": 1.1625,
      "step": 401
    },
    {
      "epoch": 0.7290863749716617,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0002,
      "loss": 1.3534,
      "step": 402
    },
    {
      "epoch": 0.7309000226705963,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0002,
      "loss": 1.0542,
      "step": 403
    },
    {
      "epoch": 0.7327136703695307,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 1.1285,
      "step": 404
    },
    {
      "epoch": 0.7345273180684652,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0002,
      "loss": 1.0732,
      "step": 405
    },
    {
      "epoch": 0.7363409657673997,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 1.0662,
      "step": 406
    },
    {
      "epoch": 0.7381546134663342,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0002,
      "loss": 1.0103,
      "step": 407
    },
    {
      "epoch": 0.7399682611652686,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0002,
      "loss": 1.0561,
      "step": 408
    },
    {
      "epoch": 0.7417819088642031,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 0.9445,
      "step": 409
    },
    {
      "epoch": 0.7435955565631376,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002,
      "loss": 0.9127,
      "step": 410
    },
    {
      "epoch": 0.7454092042620721,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0002,
      "loss": 0.9139,
      "step": 411
    },
    {
      "epoch": 0.7472228519610066,
      "grad_norm": 0.1875,
      "learning_rate": 0.0002,
      "loss": 1.1452,
      "step": 412
    },
    {
      "epoch": 0.749036499659941,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0002,
      "loss": 0.9828,
      "step": 413
    },
    {
      "epoch": 0.7508501473588756,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0002,
      "loss": 0.9477,
      "step": 414
    },
    {
      "epoch": 0.75266379505781,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002,
      "loss": 1.1351,
      "step": 415
    },
    {
      "epoch": 0.7544774427567446,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0002,
      "loss": 1.0588,
      "step": 416
    },
    {
      "epoch": 0.756291090455679,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0002,
      "loss": 1.1082,
      "step": 417
    },
    {
      "epoch": 0.7581047381546134,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.2556,
      "step": 418
    },
    {
      "epoch": 0.759918385853548,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0002,
      "loss": 1.0337,
      "step": 419
    },
    {
      "epoch": 0.7617320335524824,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0002,
      "loss": 1.1312,
      "step": 420
    },
    {
      "epoch": 0.7635456812514169,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.2792,
      "step": 421
    },
    {
      "epoch": 0.7653593289503514,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 1.1686,
      "step": 422
    },
    {
      "epoch": 0.7671729766492859,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0002,
      "loss": 1.0586,
      "step": 423
    },
    {
      "epoch": 0.7689866243482204,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0002,
      "loss": 1.1998,
      "step": 424
    },
    {
      "epoch": 0.7708002720471548,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002,
      "loss": 1.0727,
      "step": 425
    },
    {
      "epoch": 0.7726139197460893,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002,
      "loss": 1.2248,
      "step": 426
    },
    {
      "epoch": 0.7744275674450238,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0002,
      "loss": 1.1476,
      "step": 427
    },
    {
      "epoch": 0.7762412151439583,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002,
      "loss": 1.2123,
      "step": 428
    },
    {
      "epoch": 0.7780548628428927,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0002,
      "loss": 1.3256,
      "step": 429
    },
    {
      "epoch": 0.7798685105418273,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.1705,
      "step": 430
    },
    {
      "epoch": 0.7816821582407617,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.594,
      "step": 431
    },
    {
      "epoch": 0.7834958059396963,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 1.4969,
      "step": 432
    },
    {
      "epoch": 0.7853094536386307,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 1.2601,
      "step": 433
    },
    {
      "epoch": 0.7871231013375651,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.4058,
      "step": 434
    },
    {
      "epoch": 0.7889367490364997,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 1.284,
      "step": 435
    },
    {
      "epoch": 0.7907503967354341,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 1.3241,
      "step": 436
    },
    {
      "epoch": 0.7925640444343687,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.4181,
      "step": 437
    },
    {
      "epoch": 0.7943776921333031,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 1.4786,
      "step": 438
    },
    {
      "epoch": 0.7961913398322376,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 1.7287,
      "step": 439
    },
    {
      "epoch": 0.7980049875311721,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 1.5198,
      "step": 440
    },
    {
      "epoch": 0.7998186352301065,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 1.7775,
      "step": 441
    },
    {
      "epoch": 0.801632282929041,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 1.4887,
      "step": 442
    },
    {
      "epoch": 0.8034459306279755,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 1.5865,
      "step": 443
    },
    {
      "epoch": 0.80525957832691,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 1.6502,
      "step": 444
    },
    {
      "epoch": 0.8070732260258445,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 1.2549,
      "step": 445
    },
    {
      "epoch": 0.808886873724779,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002,
      "loss": 1.4777,
      "step": 446
    },
    {
      "epoch": 0.8107005214237134,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002,
      "loss": 1.717,
      "step": 447
    },
    {
      "epoch": 0.812514169122648,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002,
      "loss": 1.5008,
      "step": 448
    },
    {
      "epoch": 0.8143278168215824,
      "grad_norm": 0.8125,
      "learning_rate": 0.0002,
      "loss": 1.4409,
      "step": 449
    },
    {
      "epoch": 0.8161414645205168,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002,
      "loss": 1.4334,
      "step": 450
    },
    {
      "epoch": 0.8179551122194514,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0002,
      "loss": 1.1402,
      "step": 451
    },
    {
      "epoch": 0.8197687599183858,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0002,
      "loss": 1.1323,
      "step": 452
    },
    {
      "epoch": 0.8215824076173204,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0002,
      "loss": 0.8674,
      "step": 453
    },
    {
      "epoch": 0.8233960553162548,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0002,
      "loss": 1.1071,
      "step": 454
    },
    {
      "epoch": 0.8252097030151893,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0002,
      "loss": 1.0603,
      "step": 455
    },
    {
      "epoch": 0.8270233507141238,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0002,
      "loss": 1.0312,
      "step": 456
    },
    {
      "epoch": 0.8288369984130582,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002,
      "loss": 1.2359,
      "step": 457
    },
    {
      "epoch": 0.8306506461119928,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002,
      "loss": 1.0357,
      "step": 458
    },
    {
      "epoch": 0.8324642938109272,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0002,
      "loss": 1.1234,
      "step": 459
    },
    {
      "epoch": 0.8342779415098617,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002,
      "loss": 1.0493,
      "step": 460
    },
    {
      "epoch": 0.8360915892087962,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002,
      "loss": 1.0495,
      "step": 461
    },
    {
      "epoch": 0.8379052369077307,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 1.0102,
      "step": 462
    },
    {
      "epoch": 0.8397188846066651,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0002,
      "loss": 1.1971,
      "step": 463
    },
    {
      "epoch": 0.8415325323055997,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0002,
      "loss": 1.1985,
      "step": 464
    },
    {
      "epoch": 0.8433461800045341,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002,
      "loss": 1.0125,
      "step": 465
    },
    {
      "epoch": 0.8451598277034686,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 0.9448,
      "step": 466
    },
    {
      "epoch": 0.8469734754024031,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0002,
      "loss": 0.9779,
      "step": 467
    },
    {
      "epoch": 0.8487871231013375,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0002,
      "loss": 0.9953,
      "step": 468
    },
    {
      "epoch": 0.8506007708002721,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002,
      "loss": 1.0819,
      "step": 469
    },
    {
      "epoch": 0.8524144184992065,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002,
      "loss": 1.1063,
      "step": 470
    },
    {
      "epoch": 0.854228066198141,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002,
      "loss": 1.0635,
      "step": 471
    },
    {
      "epoch": 0.8560417138970755,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002,
      "loss": 1.2023,
      "step": 472
    },
    {
      "epoch": 0.85785536159601,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0002,
      "loss": 1.1628,
      "step": 473
    },
    {
      "epoch": 0.8596690092949445,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0002,
      "loss": 1.305,
      "step": 474
    },
    {
      "epoch": 0.8614826569938789,
      "grad_norm": 0.203125,
      "learning_rate": 0.0002,
      "loss": 1.1339,
      "step": 475
    },
    {
      "epoch": 0.8632963046928134,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002,
      "loss": 0.986,
      "step": 476
    },
    {
      "epoch": 0.8651099523917479,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002,
      "loss": 1.4351,
      "step": 477
    },
    {
      "epoch": 0.8669236000906824,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002,
      "loss": 1.1963,
      "step": 478
    },
    {
      "epoch": 0.8687372477896169,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002,
      "loss": 1.1338,
      "step": 479
    },
    {
      "epoch": 0.8705508954885514,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0002,
      "loss": 1.2577,
      "step": 480
    },
    {
      "epoch": 0.8723645431874858,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002,
      "loss": 1.4026,
      "step": 481
    },
    {
      "epoch": 0.8741781908864203,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002,
      "loss": 1.1857,
      "step": 482
    },
    {
      "epoch": 0.8759918385853548,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002,
      "loss": 1.227,
      "step": 483
    },
    {
      "epoch": 0.8778054862842892,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 1.37,
      "step": 484
    },
    {
      "epoch": 0.8796191339832238,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 1.3437,
      "step": 485
    },
    {
      "epoch": 0.8814327816821582,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0002,
      "loss": 1.4171,
      "step": 486
    },
    {
      "epoch": 0.8832464293810928,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 1.4782,
      "step": 487
    },
    {
      "epoch": 0.8850600770800272,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.4135,
      "step": 488
    },
    {
      "epoch": 0.8868737247789616,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 1.4031,
      "step": 489
    },
    {
      "epoch": 0.8886873724778962,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002,
      "loss": 1.5665,
      "step": 490
    },
    {
      "epoch": 0.8905010201768306,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 1.3907,
      "step": 491
    },
    {
      "epoch": 0.8923146678757651,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 1.5776,
      "step": 492
    },
    {
      "epoch": 0.8941283155746996,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 1.7082,
      "step": 493
    },
    {
      "epoch": 0.8959419632736341,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 1.5231,
      "step": 494
    },
    {
      "epoch": 0.8977556109725686,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 1.669,
      "step": 495
    },
    {
      "epoch": 0.8995692586715031,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002,
      "loss": 1.5049,
      "step": 496
    },
    {
      "epoch": 0.9013829063704375,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 1.499,
      "step": 497
    },
    {
      "epoch": 0.903196554069372,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0002,
      "loss": 1.4871,
      "step": 498
    },
    {
      "epoch": 0.9050102017683065,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0002,
      "loss": 1.7815,
      "step": 499
    },
    {
      "epoch": 0.906823849467241,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002,
      "loss": 1.2821,
      "step": 500
    },
    {
      "epoch": 0.9086374971661755,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0002,
      "loss": 1.1724,
      "step": 501
    },
    {
      "epoch": 0.9104511448651099,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0002,
      "loss": 0.9817,
      "step": 502
    },
    {
      "epoch": 0.9122647925640445,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0002,
      "loss": 0.9709,
      "step": 503
    },
    {
      "epoch": 0.9140784402629789,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 0.9717,
      "step": 504
    },
    {
      "epoch": 0.9158920879619133,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0002,
      "loss": 1.0579,
      "step": 505
    },
    {
      "epoch": 0.9177057356608479,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002,
      "loss": 1.086,
      "step": 506
    },
    {
      "epoch": 0.9195193833597823,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0002,
      "loss": 1.1269,
      "step": 507
    },
    {
      "epoch": 0.9213330310587169,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 1.1374,
      "step": 508
    },
    {
      "epoch": 0.9231466787576513,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002,
      "loss": 1.1035,
      "step": 509
    },
    {
      "epoch": 0.9249603264565858,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0002,
      "loss": 0.9755,
      "step": 510
    },
    {
      "epoch": 0.9267739741555203,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0002,
      "loss": 1.2471,
      "step": 511
    },
    {
      "epoch": 0.9285876218544548,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0002,
      "loss": 1.228,
      "step": 512
    },
    {
      "epoch": 0.9304012695533893,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 1.1014,
      "step": 513
    },
    {
      "epoch": 0.9322149172523237,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 1.0662,
      "step": 514
    },
    {
      "epoch": 0.9340285649512582,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002,
      "loss": 1.0857,
      "step": 515
    },
    {
      "epoch": 0.9358422126501927,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0002,
      "loss": 1.2022,
      "step": 516
    },
    {
      "epoch": 0.9376558603491272,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0002,
      "loss": 1.0685,
      "step": 517
    },
    {
      "epoch": 0.9394695080480616,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0002,
      "loss": 1.0024,
      "step": 518
    },
    {
      "epoch": 0.9412831557469962,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002,
      "loss": 1.1831,
      "step": 519
    },
    {
      "epoch": 0.9430968034459306,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 0.9824,
      "step": 520
    },
    {
      "epoch": 0.9449104511448652,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002,
      "loss": 1.3276,
      "step": 521
    },
    {
      "epoch": 0.9467240988437996,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0002,
      "loss": 1.0105,
      "step": 522
    },
    {
      "epoch": 0.948537746542734,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0002,
      "loss": 1.1942,
      "step": 523
    },
    {
      "epoch": 0.9503513942416686,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002,
      "loss": 1.1102,
      "step": 524
    },
    {
      "epoch": 0.952165041940603,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0002,
      "loss": 1.0545,
      "step": 525
    },
    {
      "epoch": 0.9539786896395375,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0002,
      "loss": 1.0501,
      "step": 526
    },
    {
      "epoch": 0.955792337338472,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0002,
      "loss": 1.1966,
      "step": 527
    },
    {
      "epoch": 0.9576059850374065,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002,
      "loss": 1.3651,
      "step": 528
    },
    {
      "epoch": 0.959419632736341,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.5391,
      "step": 529
    },
    {
      "epoch": 0.9612332804352755,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0002,
      "loss": 1.2662,
      "step": 530
    },
    {
      "epoch": 0.9630469281342099,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002,
      "loss": 1.2408,
      "step": 531
    },
    {
      "epoch": 0.9648605758331444,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002,
      "loss": 1.4004,
      "step": 532
    },
    {
      "epoch": 0.9666742235320789,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.349,
      "step": 533
    },
    {
      "epoch": 0.9684878712310134,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 1.2413,
      "step": 534
    },
    {
      "epoch": 0.9703015189299479,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.4523,
      "step": 535
    },
    {
      "epoch": 0.9721151666288823,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 1.4432,
      "step": 536
    },
    {
      "epoch": 0.9739288143278169,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002,
      "loss": 1.1319,
      "step": 537
    },
    {
      "epoch": 0.9757424620267513,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002,
      "loss": 1.4446,
      "step": 538
    },
    {
      "epoch": 0.9775561097256857,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 1.4446,
      "step": 539
    },
    {
      "epoch": 0.9793697574246203,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 1.4754,
      "step": 540
    },
    {
      "epoch": 0.9811834051235547,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002,
      "loss": 1.1433,
      "step": 541
    },
    {
      "epoch": 0.9829970528224893,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 1.6245,
      "step": 542
    },
    {
      "epoch": 0.9848107005214237,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 1.2561,
      "step": 543
    },
    {
      "epoch": 0.9866243482203582,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 1.3967,
      "step": 544
    },
    {
      "epoch": 0.9884379959192927,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 1.3535,
      "step": 545
    },
    {
      "epoch": 0.9902516436182272,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002,
      "loss": 1.6058,
      "step": 546
    },
    {
      "epoch": 0.9920652913171616,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002,
      "loss": 1.4721,
      "step": 547
    },
    {
      "epoch": 0.9938789390160961,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002,
      "loss": 1.5618,
      "step": 548
    },
    {
      "epoch": 0.9956925867150306,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002,
      "loss": 1.413,
      "step": 549
    },
    {
      "epoch": 0.9975062344139651,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0002,
      "loss": 1.3474,
      "step": 550
    },
    {
      "epoch": 0.9993198821128996,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 1.3466,
      "step": 551
    },
    {
      "epoch": 1.001133529811834,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 1.2333,
      "step": 552
    },
    {
      "epoch": 1.0029471775107686,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0002,
      "loss": 1.05,
      "step": 553
    },
    {
      "epoch": 1.0047608252097031,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 0.9055,
      "step": 554
    },
    {
      "epoch": 1.0065744729086374,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0002,
      "loss": 0.9976,
      "step": 555
    },
    {
      "epoch": 1.008388120607572,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0002,
      "loss": 0.9661,
      "step": 556
    },
    {
      "epoch": 1.0102017683065065,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0002,
      "loss": 1.0276,
      "step": 557
    },
    {
      "epoch": 1.0120154160054409,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002,
      "loss": 1.1646,
      "step": 558
    },
    {
      "epoch": 1.0138290637043754,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002,
      "loss": 1.1223,
      "step": 559
    },
    {
      "epoch": 1.01564271140331,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002,
      "loss": 1.0674,
      "step": 560
    },
    {
      "epoch": 1.0174563591022443,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0002,
      "loss": 1.2232,
      "step": 561
    },
    {
      "epoch": 1.0174563591022443,
      "eval_loss": 1.2365957498550415,
      "eval_runtime": 336.9894,
      "eval_samples_per_second": 2.967,
      "eval_steps_per_second": 2.967,
      "step": 561
    },
    {
      "epoch": 1.0174563591022443,
      "mmlu_eval_accuracy": 0.47027966637659185,
      "mmlu_eval_accuracy_abstract_algebra": 0.45454545454545453,
      "mmlu_eval_accuracy_anatomy": 0.42857142857142855,
      "mmlu_eval_accuracy_astronomy": 0.5,
      "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
      "mmlu_eval_accuracy_clinical_knowledge": 0.27586206896551724,
      "mmlu_eval_accuracy_college_biology": 0.5,
      "mmlu_eval_accuracy_college_chemistry": 0.25,
      "mmlu_eval_accuracy_college_computer_science": 0.6363636363636364,
      "mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
      "mmlu_eval_accuracy_college_physics": 0.2727272727272727,
      "mmlu_eval_accuracy_computer_security": 0.5454545454545454,
      "mmlu_eval_accuracy_conceptual_physics": 0.46153846153846156,
      "mmlu_eval_accuracy_econometrics": 0.08333333333333333,
      "mmlu_eval_accuracy_electrical_engineering": 0.375,
      "mmlu_eval_accuracy_elementary_mathematics": 0.36585365853658536,
      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
      "mmlu_eval_accuracy_global_facts": 0.1,
      "mmlu_eval_accuracy_high_school_biology": 0.34375,
      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
      "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
      "mmlu_eval_accuracy_high_school_geography": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4186046511627907,
      "mmlu_eval_accuracy_high_school_mathematics": 0.3448275862068966,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.34615384615384615,
      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
      "mmlu_eval_accuracy_high_school_psychology": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_statistics": 0.391304347826087,
      "mmlu_eval_accuracy_high_school_us_history": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_world_history": 0.46153846153846156,
      "mmlu_eval_accuracy_human_aging": 0.6521739130434783,
      "mmlu_eval_accuracy_human_sexuality": 0.5833333333333334,
      "mmlu_eval_accuracy_international_law": 0.6153846153846154,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
      "mmlu_eval_accuracy_management": 0.7272727272727273,
      "mmlu_eval_accuracy_marketing": 0.84,
      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
      "mmlu_eval_accuracy_miscellaneous": 0.6395348837209303,
      "mmlu_eval_accuracy_moral_disputes": 0.47368421052631576,
      "mmlu_eval_accuracy_moral_scenarios": 0.25,
      "mmlu_eval_accuracy_nutrition": 0.5454545454545454,
      "mmlu_eval_accuracy_philosophy": 0.5294117647058824,
      "mmlu_eval_accuracy_prehistory": 0.45714285714285713,
      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_law": 0.3235294117647059,
      "mmlu_eval_accuracy_professional_medicine": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_psychology": 0.4782608695652174,
      "mmlu_eval_accuracy_public_relations": 0.5,
      "mmlu_eval_accuracy_security_studies": 0.5925925925925926,
      "mmlu_eval_accuracy_sociology": 0.6363636363636364,
      "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
      "mmlu_eval_accuracy_virology": 0.3333333333333333,
      "mmlu_eval_accuracy_world_religions": 0.7368421052631579,
      "mmlu_loss": 1.98419274219417,
      "step": 561
    },
    {
      "epoch": 1.0192700068011789,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 1.0916,
      "step": 562
    },
    {
      "epoch": 1.0210836545001134,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 0.9823,
      "step": 563
    },
    {
      "epoch": 1.0228973021990477,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0002,
      "loss": 0.969,
      "step": 564
    },
    {
      "epoch": 1.0247109498979823,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0002,
      "loss": 0.9115,
      "step": 565
    },
    {
      "epoch": 1.0265245975969168,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002,
      "loss": 0.9065,
      "step": 566
    },
    {
      "epoch": 1.0283382452958514,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002,
      "loss": 1.1703,
      "step": 567
    },
    {
      "epoch": 1.0301518929947857,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0002,
      "loss": 0.8081,
      "step": 568
    },
    {
      "epoch": 1.0319655406937203,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002,
      "loss": 0.9544,
      "step": 569
    },
    {
      "epoch": 1.0337791883926548,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0002,
      "loss": 0.9158,
      "step": 570
    },
    {
      "epoch": 1.0355928360915891,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002,
      "loss": 0.8875,
      "step": 571
    },
    {
      "epoch": 1.0374064837905237,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002,
      "loss": 1.0051,
      "step": 572
    },
    {
      "epoch": 1.0392201314894582,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002,
      "loss": 0.9665,
      "step": 573
    },
    {
      "epoch": 1.0410337791883926,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0002,
      "loss": 0.9823,
      "step": 574
    },
    {
      "epoch": 1.0428474268873271,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002,
      "loss": 0.9517,
      "step": 575
    },
    {
      "epoch": 1.0446610745862617,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002,
      "loss": 0.9425,
      "step": 576
    },
    {
      "epoch": 1.046474722285196,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002,
      "loss": 1.2403,
      "step": 577
    },
    {
      "epoch": 1.0482883699841306,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0002,
      "loss": 1.2797,
      "step": 578
    },
    {
      "epoch": 1.050102017683065,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 0.926,
      "step": 579
    },
    {
      "epoch": 1.0519156653819997,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 0.9626,
      "step": 580
    },
    {
      "epoch": 1.053729313080934,
      "grad_norm": 0.25,
      "learning_rate": 0.0002,
      "loss": 0.818,
      "step": 581
    },
    {
      "epoch": 1.0555429607798685,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 1.304,
      "step": 582
    },
    {
      "epoch": 1.057356608478803,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 0.9495,
      "step": 583
    },
    {
      "epoch": 1.0591702561777374,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002,
      "loss": 0.9339,
      "step": 584
    },
    {
      "epoch": 1.060983903876672,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 1.2306,
      "step": 585
    },
    {
      "epoch": 1.0627975515756065,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 0.8625,
      "step": 586
    },
    {
      "epoch": 1.0646111992745408,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.9548,
      "step": 587
    },
    {
      "epoch": 1.0664248469734754,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 1.119,
      "step": 588
    },
    {
      "epoch": 1.06823849467241,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 1.0502,
      "step": 589
    },
    {
      "epoch": 1.0700521423713443,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 0.9386,
      "step": 590
    },
    {
      "epoch": 1.0718657900702788,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.9295,
      "step": 591
    },
    {
      "epoch": 1.0736794377692134,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002,
      "loss": 1.1877,
      "step": 592
    },
    {
      "epoch": 1.075493085468148,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.9703,
      "step": 593
    },
    {
      "epoch": 1.0773067331670823,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 1.0509,
      "step": 594
    },
    {
      "epoch": 1.0791203808660168,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002,
      "loss": 1.1798,
      "step": 595
    },
    {
      "epoch": 1.0809340285649514,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002,
      "loss": 1.1273,
      "step": 596
    },
    {
      "epoch": 1.0827476762638857,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002,
      "loss": 1.0143,
      "step": 597
    },
    {
      "epoch": 1.0845613239628202,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002,
      "loss": 0.965,
      "step": 598
    },
    {
      "epoch": 1.0863749716617548,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 1.2087,
      "step": 599
    },
    {
      "epoch": 1.0881886193606891,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002,
      "loss": 0.9275,
      "step": 600
    },
    {
      "epoch": 1.0900022670596237,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002,
      "loss": 0.9136,
      "step": 601
    },
    {
      "epoch": 1.0918159147585582,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 0.9358,
      "step": 602
    },
    {
      "epoch": 1.0936295624574925,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 1.1207,
      "step": 603
    },
    {
      "epoch": 1.095443210156427,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 0.9856,
      "step": 604
    },
    {
      "epoch": 1.0972568578553616,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002,
      "loss": 1.0821,
      "step": 605
    },
    {
      "epoch": 1.099070505554296,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.01,
      "step": 606
    },
    {
      "epoch": 1.1008841532532305,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 0.9659,
      "step": 607
    },
    {
      "epoch": 1.102697800952165,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002,
      "loss": 0.9379,
      "step": 608
    },
    {
      "epoch": 1.1045114486510996,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0002,
      "loss": 1.0327,
      "step": 609
    },
    {
      "epoch": 1.106325096350034,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0002,
      "loss": 0.9489,
      "step": 610
    },
    {
      "epoch": 1.1081387440489685,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002,
      "loss": 0.9199,
      "step": 611
    },
    {
      "epoch": 1.109952391747903,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002,
      "loss": 0.9697,
      "step": 612
    },
    {
      "epoch": 1.1117660394468374,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0002,
      "loss": 0.9525,
      "step": 613
    },
    {
      "epoch": 1.113579687145772,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002,
      "loss": 0.9459,
      "step": 614
    },
    {
      "epoch": 1.1153933348447065,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002,
      "loss": 0.9552,
      "step": 615
    },
    {
      "epoch": 1.1172069825436408,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0002,
      "loss": 0.8048,
      "step": 616
    },
    {
      "epoch": 1.1190206302425754,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0002,
      "loss": 0.9208,
      "step": 617
    },
    {
      "epoch": 1.12083427794151,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002,
      "loss": 0.9045,
      "step": 618
    },
    {
      "epoch": 1.1226479256404442,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0002,
      "loss": 0.9977,
      "step": 619
    },
    {
      "epoch": 1.1244615733393788,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002,
      "loss": 0.9196,
      "step": 620
    },
    {
      "epoch": 1.1262752210383133,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002,
      "loss": 1.0055,
      "step": 621
    },
    {
      "epoch": 1.128088868737248,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 0.8149,
      "step": 622
    },
    {
      "epoch": 1.1299025164361822,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0002,
      "loss": 1.0478,
      "step": 623
    },
    {
      "epoch": 1.1317161641351168,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002,
      "loss": 0.9415,
      "step": 624
    },
    {
      "epoch": 1.1335298118340513,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0002,
      "loss": 0.9623,
      "step": 625
    },
    {
      "epoch": 1.1353434595329857,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0002,
      "loss": 0.8335,
      "step": 626
    },
    {
      "epoch": 1.1371571072319202,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 0.8927,
      "step": 627
    },
    {
      "epoch": 1.1389707549308548,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 0.9839,
      "step": 628
    },
    {
      "epoch": 1.140784402629789,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 1.008,
      "step": 629
    },
    {
      "epoch": 1.1425980503287236,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 0.9755,
      "step": 630
    },
    {
      "epoch": 1.1444116980276582,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 0.8739,
      "step": 631
    },
    {
      "epoch": 1.1462253457265925,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002,
      "loss": 1.0414,
      "step": 632
    },
    {
      "epoch": 1.148038993425527,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 0.9328,
      "step": 633
    },
    {
      "epoch": 1.1498526411244616,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 1.022,
      "step": 634
    },
    {
      "epoch": 1.151666288823396,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 1.139,
      "step": 635
    },
    {
      "epoch": 1.1534799365223305,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 1.0971,
      "step": 636
    },
    {
      "epoch": 1.155293584221265,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 1.1205,
      "step": 637
    },
    {
      "epoch": 1.1571072319201996,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 1.0916,
      "step": 638
    },
    {
      "epoch": 1.158920879619134,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 0.9437,
      "step": 639
    },
    {
      "epoch": 1.1607345273180685,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002,
      "loss": 0.904,
      "step": 640
    },
    {
      "epoch": 1.162548175017003,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 0.9988,
      "step": 641
    },
    {
      "epoch": 1.1643618227159374,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002,
      "loss": 1.1456,
      "step": 642
    },
    {
      "epoch": 1.166175470414872,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002,
      "loss": 0.8679,
      "step": 643
    },
    {
      "epoch": 1.1679891181138065,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002,
      "loss": 1.1057,
      "step": 644
    },
    {
      "epoch": 1.1698027658127408,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002,
      "loss": 1.1545,
      "step": 645
    },
    {
      "epoch": 1.1716164135116753,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002,
      "loss": 1.0235,
      "step": 646
    },
    {
      "epoch": 1.1734300612106099,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 1.1733,
      "step": 647
    },
    {
      "epoch": 1.1752437089095444,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.9574,
      "step": 648
    },
    {
      "epoch": 1.1770573566084788,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0002,
      "loss": 0.8958,
      "step": 649
    },
    {
      "epoch": 1.1788710043074133,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 1.0336,
      "step": 650
    },
    {
      "epoch": 1.1806846520063479,
      "grad_norm": 0.8359375,
      "learning_rate": 0.0002,
      "loss": 1.0192,
      "step": 651
    },
    {
      "epoch": 1.1824982997052822,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002,
      "loss": 0.9241,
      "step": 652
    },
    {
      "epoch": 1.1843119474042167,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002,
      "loss": 0.9726,
      "step": 653
    },
    {
      "epoch": 1.1861255951031513,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 0.9623,
      "step": 654
    },
    {
      "epoch": 1.1879392428020856,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002,
      "loss": 0.923,
      "step": 655
    },
    {
      "epoch": 1.1897528905010202,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 1.0066,
      "step": 656
    },
    {
      "epoch": 1.1915665381999547,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0002,
      "loss": 0.8903,
      "step": 657
    },
    {
      "epoch": 1.193380185898889,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0002,
      "loss": 0.863,
      "step": 658
    },
    {
      "epoch": 1.1951938335978236,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002,
      "loss": 1.0202,
      "step": 659
    },
    {
      "epoch": 1.1970074812967582,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0002,
      "loss": 0.8512,
      "step": 660
    },
    {
      "epoch": 1.1988211289956925,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002,
      "loss": 0.9666,
      "step": 661
    },
    {
      "epoch": 1.200634776694627,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002,
      "loss": 0.9325,
      "step": 662
    },
    {
      "epoch": 1.2024484243935616,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002,
      "loss": 0.9101,
      "step": 663
    },
    {
      "epoch": 1.204262072092496,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002,
      "loss": 0.8453,
      "step": 664
    },
    {
      "epoch": 1.2060757197914305,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002,
      "loss": 0.9571,
      "step": 665
    },
    {
      "epoch": 1.207889367490365,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.0014,
      "step": 666
    },
    {
      "epoch": 1.2097030151892996,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002,
      "loss": 0.9092,
      "step": 667
    },
    {
      "epoch": 1.211516662888234,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002,
      "loss": 0.9897,
      "step": 668
    },
    {
      "epoch": 1.2133303105871684,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002,
      "loss": 0.7734,
      "step": 669
    },
    {
      "epoch": 1.215143958286103,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002,
      "loss": 0.9993,
      "step": 670
    },
    {
      "epoch": 1.2169576059850373,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0002,
      "loss": 0.803,
      "step": 671
    },
    {
      "epoch": 1.2187712536839719,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0002,
      "loss": 0.8976,
      "step": 672
    },
    {
      "epoch": 1.2205849013829064,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002,
      "loss": 1.0355,
      "step": 673
    },
    {
      "epoch": 1.2223985490818408,
      "grad_norm": 0.25,
      "learning_rate": 0.0002,
      "loss": 1.0061,
      "step": 674
    },
    {
      "epoch": 1.2242121967807753,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002,
      "loss": 1.1612,
      "step": 675
    },
    {
      "epoch": 1.2260258444797099,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002,
      "loss": 0.9078,
      "step": 676
    },
    {
      "epoch": 1.2278394921786444,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002,
      "loss": 0.9256,
      "step": 677
    },
    {
      "epoch": 1.2296531398775787,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 0.9956,
      "step": 678
    },
    {
      "epoch": 1.2314667875765133,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 0.9934,
      "step": 679
    },
    {
      "epoch": 1.2332804352754478,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 0.9604,
      "step": 680
    },
    {
      "epoch": 1.2350940829743822,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 0.892,
      "step": 681
    },
    {
      "epoch": 1.2369077306733167,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 1.1208,
      "step": 682
    },
    {
      "epoch": 1.2387213783722513,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 1.0144,
      "step": 683
    },
    {
      "epoch": 1.2405350260711856,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 1.0483,
      "step": 684
    },
    {
      "epoch": 1.2423486737701201,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.9974,
      "step": 685
    },
    {
      "epoch": 1.2441623214690547,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 1.1542,
      "step": 686
    },
    {
      "epoch": 1.245975969167989,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 0.9715,
      "step": 687
    },
    {
      "epoch": 1.2477896168669236,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 1.0472,
      "step": 688
    },
    {
      "epoch": 1.2496032645658581,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 1.1412,
      "step": 689
    },
    {
      "epoch": 1.2514169122647925,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 1.1913,
      "step": 690
    },
    {
      "epoch": 1.253230559963727,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002,
      "loss": 1.1443,
      "step": 691
    },
    {
      "epoch": 1.2550442076626616,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002,
      "loss": 1.0111,
      "step": 692
    },
    {
      "epoch": 1.2568578553615959,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 1.0474,
      "step": 693
    },
    {
      "epoch": 1.2586715030605304,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 0.9858,
      "step": 694
    },
    {
      "epoch": 1.260485150759465,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0002,
      "loss": 1.3693,
      "step": 695
    },
    {
      "epoch": 1.2622987984583993,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.941,
      "step": 696
    },
    {
      "epoch": 1.2641124461573339,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0002,
      "loss": 1.283,
      "step": 697
    },
    {
      "epoch": 1.2659260938562684,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 1.1142,
      "step": 698
    },
    {
      "epoch": 1.267739741555203,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 1.1805,
      "step": 699
    },
    {
      "epoch": 1.2695533892541375,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 0.9827,
      "step": 700
    },
    {
      "epoch": 1.2713670369530718,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0002,
      "loss": 0.9832,
      "step": 701
    },
    {
      "epoch": 1.2731806846520064,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 0.9559,
      "step": 702
    },
    {
      "epoch": 1.274994332350941,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 1.1893,
      "step": 703
    },
    {
      "epoch": 1.2768079800498753,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002,
      "loss": 1.1084,
      "step": 704
    },
    {
      "epoch": 1.2786216277488098,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 0.9286,
      "step": 705
    },
    {
      "epoch": 1.2804352754477444,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002,
      "loss": 0.917,
      "step": 706
    },
    {
      "epoch": 1.2822489231466787,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.0291,
      "step": 707
    },
    {
      "epoch": 1.2840625708456133,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002,
      "loss": 0.987,
      "step": 708
    },
    {
      "epoch": 1.2858762185445478,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002,
      "loss": 1.1268,
      "step": 709
    },
    {
      "epoch": 1.2876898662434821,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0002,
      "loss": 0.9254,
      "step": 710
    },
    {
      "epoch": 1.2895035139424167,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0002,
      "loss": 1.0185,
      "step": 711
    },
    {
      "epoch": 1.2913171616413512,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002,
      "loss": 0.8882,
      "step": 712
    },
    {
      "epoch": 1.2931308093402856,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002,
      "loss": 0.93,
      "step": 713
    },
    {
      "epoch": 1.2949444570392201,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002,
      "loss": 0.8406,
      "step": 714
    },
    {
      "epoch": 1.2967581047381547,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 1.0605,
      "step": 715
    },
    {
      "epoch": 1.298571752437089,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0002,
      "loss": 0.8637,
      "step": 716
    },
    {
      "epoch": 1.3003854001360236,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002,
      "loss": 0.8748,
      "step": 717
    },
    {
      "epoch": 1.302199047834958,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002,
      "loss": 0.9273,
      "step": 718
    },
    {
      "epoch": 1.3040126955338924,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0002,
      "loss": 0.8077,
      "step": 719
    },
    {
      "epoch": 1.305826343232827,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002,
      "loss": 0.9881,
      "step": 720
    },
    {
      "epoch": 1.3076399909317615,
      "grad_norm": 0.25,
      "learning_rate": 0.0002,
      "loss": 1.0833,
      "step": 721
    },
    {
      "epoch": 1.3094536386306959,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0002,
      "loss": 0.8823,
      "step": 722
    },
    {
      "epoch": 1.3112672863296304,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 1.0449,
      "step": 723
    },
    {
      "epoch": 1.313080934028565,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.129,
      "step": 724
    },
    {
      "epoch": 1.3148945817274995,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 0.9603,
      "step": 725
    },
    {
      "epoch": 1.3167082294264338,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 0.9653,
      "step": 726
    },
    {
      "epoch": 1.3185218771253684,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 0.9409,
      "step": 727
    },
    {
      "epoch": 1.320335524824303,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 0.8285,
      "step": 728
    },
    {
      "epoch": 1.3221491725232375,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 0.906,
      "step": 729
    },
    {
      "epoch": 1.3239628202221718,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002,
      "loss": 1.1818,
      "step": 730
    },
    {
      "epoch": 1.3257764679211064,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 1.2308,
      "step": 731
    },
    {
      "epoch": 1.327590115620041,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 1.0045,
      "step": 732
    },
    {
      "epoch": 1.3294037633189753,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 1.1028,
      "step": 733
    },
    {
      "epoch": 1.3312174110179098,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002,
      "loss": 1.1388,
      "step": 734
    },
    {
      "epoch": 1.3330310587168444,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 1.0009,
      "step": 735
    },
    {
      "epoch": 1.3348447064157787,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002,
      "loss": 0.9931,
      "step": 736
    },
    {
      "epoch": 1.3366583541147132,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 1.0265,
      "step": 737
    },
    {
      "epoch": 1.3384720018136478,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002,
      "loss": 0.9159,
      "step": 738
    },
    {
      "epoch": 1.3402856495125821,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 1.0745,
      "step": 739
    },
    {
      "epoch": 1.3420992972115167,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002,
      "loss": 1.0466,
      "step": 740
    },
    {
      "epoch": 1.3439129449104512,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002,
      "loss": 0.9315,
      "step": 741
    },
    {
      "epoch": 1.3457265926093855,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 0.9779,
      "step": 742
    },
    {
      "epoch": 1.34754024030832,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002,
      "loss": 1.0651,
      "step": 743
    },
    {
      "epoch": 1.3493538880072546,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 1.185,
      "step": 744
    },
    {
      "epoch": 1.351167535706189,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002,
      "loss": 1.0915,
      "step": 745
    },
    {
      "epoch": 1.3529811834051235,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0002,
      "loss": 1.0036,
      "step": 746
    },
    {
      "epoch": 1.354794831104058,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 0.9806,
      "step": 747
    },
    {
      "epoch": 1.3566084788029924,
      "grad_norm": 0.625,
      "learning_rate": 0.0002,
      "loss": 0.9766,
      "step": 748
    },
    {
      "epoch": 1.3566084788029924,
      "eval_loss": 1.2976691722869873,
      "eval_runtime": 335.4119,
      "eval_samples_per_second": 2.981,
      "eval_steps_per_second": 2.981,
      "step": 748
    },
    {
      "epoch": 1.3566084788029924,
      "mmlu_eval_accuracy": 0.4706807228176137,
      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
      "mmlu_eval_accuracy_anatomy": 0.42857142857142855,
      "mmlu_eval_accuracy_astronomy": 0.375,
      "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
      "mmlu_eval_accuracy_clinical_knowledge": 0.3448275862068966,
      "mmlu_eval_accuracy_college_biology": 0.4375,
      "mmlu_eval_accuracy_college_chemistry": 0.25,
      "mmlu_eval_accuracy_college_computer_science": 0.6363636363636364,
      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
      "mmlu_eval_accuracy_conceptual_physics": 0.5,
      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
      "mmlu_eval_accuracy_electrical_engineering": 0.3125,
      "mmlu_eval_accuracy_elementary_mathematics": 0.34146341463414637,
      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
      "mmlu_eval_accuracy_global_facts": 0.1,
      "mmlu_eval_accuracy_high_school_biology": 0.28125,
      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
      "mmlu_eval_accuracy_high_school_geography": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6190476190476191,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4186046511627907,
      "mmlu_eval_accuracy_high_school_mathematics": 0.4827586206896552,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.38461538461538464,
      "mmlu_eval_accuracy_high_school_physics": 0.35294117647058826,
      "mmlu_eval_accuracy_high_school_psychology": 0.6833333333333333,
      "mmlu_eval_accuracy_high_school_statistics": 0.30434782608695654,
      "mmlu_eval_accuracy_high_school_us_history": 0.6363636363636364,
      "mmlu_eval_accuracy_high_school_world_history": 0.6153846153846154,
      "mmlu_eval_accuracy_human_aging": 0.6086956521739131,
      "mmlu_eval_accuracy_human_sexuality": 0.5833333333333334,
      "mmlu_eval_accuracy_international_law": 0.6153846153846154,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.6111111111111112,
      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
      "mmlu_eval_accuracy_management": 0.7272727272727273,
      "mmlu_eval_accuracy_marketing": 0.84,
      "mmlu_eval_accuracy_medical_genetics": 0.7272727272727273,
      "mmlu_eval_accuracy_miscellaneous": 0.686046511627907,
      "mmlu_eval_accuracy_moral_disputes": 0.5,
      "mmlu_eval_accuracy_moral_scenarios": 0.32,
      "mmlu_eval_accuracy_nutrition": 0.6363636363636364,
      "mmlu_eval_accuracy_philosophy": 0.5588235294117647,
      "mmlu_eval_accuracy_prehistory": 0.45714285714285713,
      "mmlu_eval_accuracy_professional_accounting": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_law": 0.31176470588235294,
      "mmlu_eval_accuracy_professional_medicine": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
      "mmlu_eval_accuracy_sociology": 0.5909090909090909,
      "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
      "mmlu_eval_accuracy_virology": 0.3888888888888889,
      "mmlu_eval_accuracy_world_religions": 0.7894736842105263,
      "mmlu_loss": 1.8239525587709802,
      "step": 748
    },
    {
      "epoch": 1.358422126501927,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002,
      "loss": 0.9674,
      "step": 749
    },
    {
      "epoch": 1.3602357742008615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002,
      "loss": 0.9808,
      "step": 750
    },
    {
      "epoch": 1.3620494218997958,
      "grad_norm": 0.87109375,
      "learning_rate": 0.0002,
      "loss": 1.0151,
      "step": 751
    },
    {
      "epoch": 1.3638630695987304,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002,
      "loss": 1.0666,
      "step": 752
    },
    {
      "epoch": 1.365676717297665,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002,
      "loss": 1.0283,
      "step": 753
    },
    {
      "epoch": 1.3674903649965995,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 0.8558,
      "step": 754
    },
    {
      "epoch": 1.3693040126955338,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 1.0435,
      "step": 755
    },
    {
      "epoch": 1.3711176603944684,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 0.9205,
      "step": 756
    },
    {
      "epoch": 1.372931308093403,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.1219,
      "step": 757
    },
    {
      "epoch": 1.3747449557923375,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002,
      "loss": 1.086,
      "step": 758
    },
    {
      "epoch": 1.3765586034912718,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 1.0413,
      "step": 759
    },
    {
      "epoch": 1.3783722511902063,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002,
      "loss": 1.0266,
      "step": 760
    },
    {
      "epoch": 1.380185898889141,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002,
      "loss": 0.922,
      "step": 761
    },
    {
      "epoch": 1.3819995465880752,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0002,
      "loss": 1.0928,
      "step": 762
    },
    {
      "epoch": 1.3838131942870098,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002,
      "loss": 1.1154,
      "step": 763
    },
    {
      "epoch": 1.3856268419859443,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002,
      "loss": 0.9671,
      "step": 764
    },
    {
      "epoch": 1.3874404896848787,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.0573,
      "step": 765
    },
    {
      "epoch": 1.3892541373838132,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 0.9872,
      "step": 766
    },
    {
      "epoch": 1.3910677850827478,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002,
      "loss": 1.0037,
      "step": 767
    },
    {
      "epoch": 1.392881432781682,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002,
      "loss": 0.9076,
      "step": 768
    },
    {
      "epoch": 1.3946950804806166,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002,
      "loss": 1.015,
      "step": 769
    },
    {
      "epoch": 1.3965087281795512,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002,
      "loss": 0.8234,
      "step": 770
    },
    {
      "epoch": 1.3983223758784855,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 0.9055,
      "step": 771
    },
    {
      "epoch": 1.40013602357742,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002,
      "loss": 0.893,
      "step": 772
    },
    {
      "epoch": 1.4019496712763546,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 1.0454,
      "step": 773
    },
    {
      "epoch": 1.403763318975289,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.0348,
      "step": 774
    },
    {
      "epoch": 1.4055769666742235,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 0.8736,
      "step": 775
    },
    {
      "epoch": 1.407390614373158,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 0.9945,
      "step": 776
    },
    {
      "epoch": 1.4092042620720924,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 0.9248,
      "step": 777
    },
    {
      "epoch": 1.411017909771027,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002,
      "loss": 1.0305,
      "step": 778
    },
    {
      "epoch": 1.4128315574699615,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 1.0438,
      "step": 779
    },
    {
      "epoch": 1.414645205168896,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 1.0611,
      "step": 780
    },
    {
      "epoch": 1.4164588528678304,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 1.242,
      "step": 781
    },
    {
      "epoch": 1.418272500566765,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 1.0938,
      "step": 782
    },
    {
      "epoch": 1.4200861482656995,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002,
      "loss": 1.0315,
      "step": 783
    },
    {
      "epoch": 1.421899795964634,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 0.9613,
      "step": 784
    },
    {
      "epoch": 1.4237134436635683,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 1.0942,
      "step": 785
    },
    {
      "epoch": 1.4255270913625029,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 1.1183,
      "step": 786
    },
    {
      "epoch": 1.4273407390614374,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 1.0135,
      "step": 787
    },
    {
      "epoch": 1.4291543867603718,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 1.0432,
      "step": 788
    },
    {
      "epoch": 1.4309680344593063,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 1.1159,
      "step": 789
    },
    {
      "epoch": 1.4327816821582409,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 1.0473,
      "step": 790
    },
    {
      "epoch": 1.4345953298571752,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 1.1935,
      "step": 791
    },
    {
      "epoch": 1.4364089775561097,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002,
      "loss": 1.1142,
      "step": 792
    },
    {
      "epoch": 1.4382226252550443,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002,
      "loss": 0.9728,
      "step": 793
    },
    {
      "epoch": 1.4400362729539786,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002,
      "loss": 0.9326,
      "step": 794
    },
    {
      "epoch": 1.4418499206529132,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002,
      "loss": 1.1269,
      "step": 795
    },
    {
      "epoch": 1.4436635683518477,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002,
      "loss": 1.0198,
      "step": 796
    },
    {
      "epoch": 1.445477216050782,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0002,
      "loss": 1.1804,
      "step": 797
    },
    {
      "epoch": 1.4472908637497166,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 1.0975,
      "step": 798
    },
    {
      "epoch": 1.4491045114486512,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0002,
      "loss": 1.0063,
      "step": 799
    },
    {
      "epoch": 1.4509181591475855,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002,
      "loss": 0.9753,
      "step": 800
    },
    {
      "epoch": 1.45273180684652,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002,
      "loss": 0.9117,
      "step": 801
    },
    {
      "epoch": 1.4545454545454546,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.8368,
      "step": 802
    },
    {
      "epoch": 1.456359102244389,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 1.1034,
      "step": 803
    },
    {
      "epoch": 1.4581727499433235,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 0.9934,
      "step": 804
    },
    {
      "epoch": 1.459986397642258,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 0.9922,
      "step": 805
    },
    {
      "epoch": 1.4618000453411923,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002,
      "loss": 0.8039,
      "step": 806
    },
    {
      "epoch": 1.463613693040127,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 0.9778,
      "step": 807
    },
    {
      "epoch": 1.4654273407390614,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 0.8987,
      "step": 808
    },
    {
      "epoch": 1.467240988437996,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002,
      "loss": 0.8855,
      "step": 809
    },
    {
      "epoch": 1.4690546361369303,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002,
      "loss": 0.8485,
      "step": 810
    },
    {
      "epoch": 1.4708682838358649,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002,
      "loss": 0.9043,
      "step": 811
    },
    {
      "epoch": 1.4726819315347994,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002,
      "loss": 0.8891,
      "step": 812
    },
    {
      "epoch": 1.474495579233734,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002,
      "loss": 0.9638,
      "step": 813
    },
    {
      "epoch": 1.4763092269326683,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 0.875,
      "step": 814
    },
    {
      "epoch": 1.4781228746316029,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 1.0159,
      "step": 815
    },
    {
      "epoch": 1.4799365223305374,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002,
      "loss": 0.8688,
      "step": 816
    },
    {
      "epoch": 1.4817501700294717,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 0.9807,
      "step": 817
    },
    {
      "epoch": 1.4835638177284063,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002,
      "loss": 0.9886,
      "step": 818
    },
    {
      "epoch": 1.4853774654273408,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002,
      "loss": 1.0027,
      "step": 819
    },
    {
      "epoch": 1.4871911131262752,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002,
      "loss": 0.8419,
      "step": 820
    },
    {
      "epoch": 1.4890047608252097,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 0.9181,
      "step": 821
    },
    {
      "epoch": 1.4908184085241443,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002,
      "loss": 0.9183,
      "step": 822
    },
    {
      "epoch": 1.4926320562230786,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 0.9953,
      "step": 823
    },
    {
      "epoch": 1.4944457039220131,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 0.9785,
      "step": 824
    },
    {
      "epoch": 1.4962593516209477,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 0.9204,
      "step": 825
    },
    {
      "epoch": 1.498072999319882,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 1.0615,
      "step": 826
    },
    {
      "epoch": 1.4998866470188166,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002,
      "loss": 0.9385,
      "step": 827
    },
    {
      "epoch": 1.5017002947177511,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.9303,
      "step": 828
    },
    {
      "epoch": 1.5035139424166855,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 1.0487,
      "step": 829
    },
    {
      "epoch": 1.50532759011562,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.9205,
      "step": 830
    },
    {
      "epoch": 1.5071412378145546,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002,
      "loss": 1.0128,
      "step": 831
    },
    {
      "epoch": 1.5089548855134889,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 1.1763,
      "step": 832
    },
    {
      "epoch": 1.5107685332124234,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 1.0203,
      "step": 833
    },
    {
      "epoch": 1.512582180911358,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 1.0069,
      "step": 834
    },
    {
      "epoch": 1.5143958286102923,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002,
      "loss": 1.1604,
      "step": 835
    },
    {
      "epoch": 1.516209476309227,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002,
      "loss": 0.9144,
      "step": 836
    },
    {
      "epoch": 1.5180231240081614,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 1.0899,
      "step": 837
    },
    {
      "epoch": 1.5198367717070957,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002,
      "loss": 1.1896,
      "step": 838
    },
    {
      "epoch": 1.5216504194060305,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 1.1785,
      "step": 839
    },
    {
      "epoch": 1.5234640671049648,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002,
      "loss": 1.1127,
      "step": 840
    },
    {
      "epoch": 1.5252777148038992,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002,
      "loss": 0.9248,
      "step": 841
    },
    {
      "epoch": 1.527091362502834,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002,
      "loss": 1.1274,
      "step": 842
    },
    {
      "epoch": 1.5289050102017683,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002,
      "loss": 1.0824,
      "step": 843
    },
    {
      "epoch": 1.5307186579007028,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 1.1313,
      "step": 844
    },
    {
      "epoch": 1.5325323055996374,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0002,
      "loss": 1.0932,
      "step": 845
    },
    {
      "epoch": 1.5343459532985717,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002,
      "loss": 1.0735,
      "step": 846
    },
    {
      "epoch": 1.5361596009975063,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002,
      "loss": 1.1948,
      "step": 847
    },
    {
      "epoch": 1.5379732486964408,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002,
      "loss": 1.0193,
      "step": 848
    },
    {
      "epoch": 1.5397868963953751,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002,
      "loss": 0.9211,
      "step": 849
    },
    {
      "epoch": 1.5416005440943097,
      "grad_norm": 0.71875,
      "learning_rate": 0.0002,
      "loss": 1.0612,
      "step": 850
    },
    {
      "epoch": 1.5434141917932442,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0002,
      "loss": 0.9534,
      "step": 851
    },
    {
      "epoch": 1.5452278394921786,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0002,
      "loss": 0.9338,
      "step": 852
    },
    {
      "epoch": 1.5470414871911131,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 0.9338,
      "step": 853
    },
    {
      "epoch": 1.5488551348900477,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 0.8534,
      "step": 854
    },
    {
      "epoch": 1.550668782588982,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 0.9961,
      "step": 855
    },
    {
      "epoch": 1.5524824302879165,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002,
      "loss": 1.0596,
      "step": 856
    },
    {
      "epoch": 1.554296077986851,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 0.9117,
      "step": 857
    },
    {
      "epoch": 1.5561097256857854,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002,
      "loss": 1.0735,
      "step": 858
    },
    {
      "epoch": 1.55792337338472,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 0.8674,
      "step": 859
    },
    {
      "epoch": 1.5597370210836545,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 0.9588,
      "step": 860
    },
    {
      "epoch": 1.5615506687825889,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002,
      "loss": 0.8624,
      "step": 861
    },
    {
      "epoch": 1.5633643164815236,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002,
      "loss": 0.9343,
      "step": 862
    },
    {
      "epoch": 1.565177964180458,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002,
      "loss": 0.9631,
      "step": 863
    },
    {
      "epoch": 1.5669916118793923,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002,
      "loss": 0.9963,
      "step": 864
    },
    {
      "epoch": 1.568805259578327,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 1.0114,
      "step": 865
    },
    {
      "epoch": 1.5706189072772614,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 1.042,
      "step": 866
    },
    {
      "epoch": 1.5724325549761957,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002,
      "loss": 0.8558,
      "step": 867
    },
    {
      "epoch": 1.5742462026751305,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002,
      "loss": 0.8886,
      "step": 868
    },
    {
      "epoch": 1.5760598503740648,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 1.1136,
      "step": 869
    },
    {
      "epoch": 1.5778734980729994,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 0.9023,
      "step": 870
    },
    {
      "epoch": 1.579687145771934,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 0.9352,
      "step": 871
    },
    {
      "epoch": 1.5815007934708682,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 1.0238,
      "step": 872
    },
    {
      "epoch": 1.5833144411698028,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 1.1023,
      "step": 873
    },
    {
      "epoch": 1.5851280888687374,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 0.9305,
      "step": 874
    },
    {
      "epoch": 1.5869417365676717,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 0.9789,
      "step": 875
    },
    {
      "epoch": 1.5887553842666062,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 0.9494,
      "step": 876
    },
    {
      "epoch": 1.5905690319655408,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 1.0585,
      "step": 877
    },
    {
      "epoch": 1.592382679664475,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 0.9621,
      "step": 878
    },
    {
      "epoch": 1.5941963273634097,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 1.026,
      "step": 879
    },
    {
      "epoch": 1.5960099750623442,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002,
      "loss": 1.1598,
      "step": 880
    },
    {
      "epoch": 1.5978236227612785,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002,
      "loss": 0.9547,
      "step": 881
    },
    {
      "epoch": 1.599637270460213,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 1.0808,
      "step": 882
    },
    {
      "epoch": 1.6014509181591476,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 1.1627,
      "step": 883
    },
    {
      "epoch": 1.603264565858082,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 1.1508,
      "step": 884
    },
    {
      "epoch": 1.6050782135570165,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002,
      "loss": 0.8451,
      "step": 885
    },
    {
      "epoch": 1.606891861255951,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002,
      "loss": 0.997,
      "step": 886
    },
    {
      "epoch": 1.6087055089548854,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 0.8876,
      "step": 887
    },
    {
      "epoch": 1.61051915665382,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.9664,
      "step": 888
    },
    {
      "epoch": 1.6123328043527545,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 1.0896,
      "step": 889
    },
    {
      "epoch": 1.6141464520516888,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.9618,
      "step": 890
    },
    {
      "epoch": 1.6159600997506236,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002,
      "loss": 1.0271,
      "step": 891
    },
    {
      "epoch": 1.617773747449558,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.9173,
      "step": 892
    },
    {
      "epoch": 1.6195873951484923,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002,
      "loss": 1.0783,
      "step": 893
    },
    {
      "epoch": 1.621401042847427,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002,
      "loss": 1.1052,
      "step": 894
    },
    {
      "epoch": 1.6232146905463614,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002,
      "loss": 1.0614,
      "step": 895
    },
    {
      "epoch": 1.6250283382452957,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 1.0684,
      "step": 896
    },
    {
      "epoch": 1.6268419859442305,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 1.0394,
      "step": 897
    },
    {
      "epoch": 1.6286556336431648,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002,
      "loss": 1.1078,
      "step": 898
    },
    {
      "epoch": 1.6304692813420993,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0002,
      "loss": 0.8601,
      "step": 899
    },
    {
      "epoch": 1.632282929041034,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0002,
      "loss": 0.9937,
      "step": 900
    },
    {
      "epoch": 1.6340965767399682,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0002,
      "loss": 1.1069,
      "step": 901
    },
    {
      "epoch": 1.6359102244389028,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 1.0087,
      "step": 902
    },
    {
      "epoch": 1.6377238721378373,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 0.8372,
      "step": 903
    },
    {
      "epoch": 1.6395375198367717,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 0.9859,
      "step": 904
    },
    {
      "epoch": 1.6413511675357062,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 0.969,
      "step": 905
    },
    {
      "epoch": 1.6431648152346408,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 1.118,
      "step": 906
    },
    {
      "epoch": 1.644978462933575,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 1.1359,
      "step": 907
    },
    {
      "epoch": 1.6467921106325096,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002,
      "loss": 0.9895,
      "step": 908
    },
    {
      "epoch": 1.6486057583314442,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002,
      "loss": 0.8751,
      "step": 909
    },
    {
      "epoch": 1.6504194060303785,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002,
      "loss": 0.8834,
      "step": 910
    },
    {
      "epoch": 1.652233053729313,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 0.8494,
      "step": 911
    },
    {
      "epoch": 1.6540467014282476,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002,
      "loss": 0.881,
      "step": 912
    },
    {
      "epoch": 1.655860349127182,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 0.9047,
      "step": 913
    },
    {
      "epoch": 1.6576739968261165,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 1.1235,
      "step": 914
    },
    {
      "epoch": 1.659487644525051,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0002,
      "loss": 0.8643,
      "step": 915
    },
    {
      "epoch": 1.6613012922239854,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 0.9789,
      "step": 916
    },
    {
      "epoch": 1.66311493992292,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 0.8153,
      "step": 917
    },
    {
      "epoch": 1.6649285876218545,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 0.9674,
      "step": 918
    },
    {
      "epoch": 1.6667422353207888,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 0.7631,
      "step": 919
    },
    {
      "epoch": 1.6685558830197236,
      "grad_norm": 0.25,
      "learning_rate": 0.0002,
      "loss": 0.8053,
      "step": 920
    },
    {
      "epoch": 1.670369530718658,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 0.8785,
      "step": 921
    },
    {
      "epoch": 1.6721831784175922,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002,
      "loss": 0.8707,
      "step": 922
    },
    {
      "epoch": 1.673996826116527,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 1.0132,
      "step": 923
    },
    {
      "epoch": 1.6758104738154613,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 0.8558,
      "step": 924
    },
    {
      "epoch": 1.6776241215143959,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.0544,
      "step": 925
    },
    {
      "epoch": 1.6794377692133304,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002,
      "loss": 0.9556,
      "step": 926
    },
    {
      "epoch": 1.6812514169122648,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.9623,
      "step": 927
    },
    {
      "epoch": 1.6830650646111993,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 0.8293,
      "step": 928
    },
    {
      "epoch": 1.6848787123101339,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 0.8544,
      "step": 929
    },
    {
      "epoch": 1.6866923600090682,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 1.1055,
      "step": 930
    },
    {
      "epoch": 1.6885060077080027,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002,
      "loss": 1.0159,
      "step": 931
    },
    {
      "epoch": 1.6903196554069373,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 0.9172,
      "step": 932
    },
    {
      "epoch": 1.6921333031058716,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002,
      "loss": 0.9401,
      "step": 933
    },
    {
      "epoch": 1.6939469508048062,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002,
      "loss": 0.9557,
      "step": 934
    },
    {
      "epoch": 1.6957605985037407,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 0.983,
      "step": 935
    },
    {
      "epoch": 1.6957605985037407,
      "eval_loss": 1.265339732170105,
      "eval_runtime": 333.9489,
      "eval_samples_per_second": 2.994,
      "eval_steps_per_second": 2.994,
      "step": 935
    },
    {
      "epoch": 1.6957605985037407,
      "mmlu_eval_accuracy": 0.4799477157235203,
      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
      "mmlu_eval_accuracy_anatomy": 0.5,
      "mmlu_eval_accuracy_astronomy": 0.5,
      "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
      "mmlu_eval_accuracy_clinical_knowledge": 0.27586206896551724,
      "mmlu_eval_accuracy_college_biology": 0.4375,
      "mmlu_eval_accuracy_college_chemistry": 0.5,
      "mmlu_eval_accuracy_college_computer_science": 0.5454545454545454,
      "mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
      "mmlu_eval_accuracy_college_physics": 0.45454545454545453,
      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
      "mmlu_eval_accuracy_conceptual_physics": 0.5,
      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
      "mmlu_eval_accuracy_electrical_engineering": 0.375,
      "mmlu_eval_accuracy_elementary_mathematics": 0.3902439024390244,
      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
      "mmlu_eval_accuracy_global_facts": 0.1,
      "mmlu_eval_accuracy_high_school_biology": 0.34375,
      "mmlu_eval_accuracy_high_school_chemistry": 0.3181818181818182,
      "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_european_history": 0.6111111111111112,
      "mmlu_eval_accuracy_high_school_geography": 0.5,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.3953488372093023,
      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.38461538461538464,
      "mmlu_eval_accuracy_high_school_physics": 0.4117647058823529,
      "mmlu_eval_accuracy_high_school_psychology": 0.7166666666666667,
      "mmlu_eval_accuracy_high_school_statistics": 0.43478260869565216,
      "mmlu_eval_accuracy_high_school_us_history": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_world_history": 0.5,
      "mmlu_eval_accuracy_human_aging": 0.6086956521739131,
      "mmlu_eval_accuracy_human_sexuality": 0.5833333333333334,
      "mmlu_eval_accuracy_international_law": 0.6153846153846154,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
      "mmlu_eval_accuracy_management": 0.7272727272727273,
      "mmlu_eval_accuracy_marketing": 0.84,
      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
      "mmlu_eval_accuracy_miscellaneous": 0.6511627906976745,
      "mmlu_eval_accuracy_moral_disputes": 0.47368421052631576,
      "mmlu_eval_accuracy_moral_scenarios": 0.25,
      "mmlu_eval_accuracy_nutrition": 0.5454545454545454,
      "mmlu_eval_accuracy_philosophy": 0.5294117647058824,
      "mmlu_eval_accuracy_prehistory": 0.42857142857142855,
      "mmlu_eval_accuracy_professional_accounting": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_law": 0.3176470588235294,
      "mmlu_eval_accuracy_professional_medicine": 0.3225806451612903,
      "mmlu_eval_accuracy_professional_psychology": 0.5217391304347826,
      "mmlu_eval_accuracy_public_relations": 0.5,
      "mmlu_eval_accuracy_security_studies": 0.5925925925925926,
      "mmlu_eval_accuracy_sociology": 0.6818181818181818,
      "mmlu_eval_accuracy_us_foreign_policy": 0.5454545454545454,
      "mmlu_eval_accuracy_virology": 0.4444444444444444,
      "mmlu_eval_accuracy_world_religions": 0.7894736842105263,
      "mmlu_loss": 1.9438429650802538,
      "step": 935
    },
    {
      "epoch": 1.697574246202675,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002,
      "loss": 1.1654,
      "step": 936
    },
    {
      "epoch": 1.6993878939016096,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 1.0338,
      "step": 937
    },
    {
      "epoch": 1.7012015416005442,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 1.0031,
      "step": 938
    },
    {
      "epoch": 1.7030151892994785,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 1.0754,
      "step": 939
    },
    {
      "epoch": 1.704828836998413,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 1.1137,
      "step": 940
    },
    {
      "epoch": 1.7066424846973476,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 1.0076,
      "step": 941
    },
    {
      "epoch": 1.708456132396282,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002,
      "loss": 1.0866,
      "step": 942
    },
    {
      "epoch": 1.7102697800952165,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 1.1448,
      "step": 943
    },
    {
      "epoch": 1.712083427794151,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002,
      "loss": 1.2199,
      "step": 944
    },
    {
      "epoch": 1.7138970754930853,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002,
      "loss": 0.9688,
      "step": 945
    },
    {
      "epoch": 1.7157107231920201,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002,
      "loss": 1.1835,
      "step": 946
    },
    {
      "epoch": 1.7175243708909544,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002,
      "loss": 1.1639,
      "step": 947
    },
    {
      "epoch": 1.7193380185898888,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002,
      "loss": 1.0616,
      "step": 948
    },
    {
      "epoch": 1.7211516662888235,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002,
      "loss": 1.1018,
      "step": 949
    },
    {
      "epoch": 1.7229653139877579,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0002,
      "loss": 0.992,
      "step": 950
    },
    {
      "epoch": 1.7247789616866922,
      "grad_norm": 0.765625,
      "learning_rate": 0.0002,
      "loss": 0.9228,
      "step": 951
    },
    {
      "epoch": 1.726592609385627,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002,
      "loss": 1.0404,
      "step": 952
    },
    {
      "epoch": 1.7284062570845613,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 1.1567,
      "step": 953
    },
    {
      "epoch": 1.7302199047834959,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 0.8658,
      "step": 954
    },
    {
      "epoch": 1.7320335524824304,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 1.0381,
      "step": 955
    },
    {
      "epoch": 1.7338472001813647,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 0.8895,
      "step": 956
    },
    {
      "epoch": 1.7356608478802993,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 0.8814,
      "step": 957
    },
    {
      "epoch": 1.7374744955792338,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 0.7593,
      "step": 958
    },
    {
      "epoch": 1.7392881432781682,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 0.7897,
      "step": 959
    },
    {
      "epoch": 1.7411017909771027,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002,
      "loss": 0.9229,
      "step": 960
    },
    {
      "epoch": 1.7429154386760373,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002,
      "loss": 1.0377,
      "step": 961
    },
    {
      "epoch": 1.7447290863749716,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 0.8977,
      "step": 962
    },
    {
      "epoch": 1.7465427340739061,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 0.8956,
      "step": 963
    },
    {
      "epoch": 1.7483563817728407,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 0.8577,
      "step": 964
    },
    {
      "epoch": 1.750170029471775,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 0.9069,
      "step": 965
    },
    {
      "epoch": 1.7519836771707096,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 0.7482,
      "step": 966
    },
    {
      "epoch": 1.7537973248696441,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 0.9294,
      "step": 967
    },
    {
      "epoch": 1.7556109725685785,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 0.7971,
      "step": 968
    },
    {
      "epoch": 1.757424620267513,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 0.9249,
      "step": 969
    },
    {
      "epoch": 1.7592382679664476,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.1773,
      "step": 970
    },
    {
      "epoch": 1.7610519156653819,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 0.9418,
      "step": 971
    },
    {
      "epoch": 1.7628655633643164,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 1.1489,
      "step": 972
    },
    {
      "epoch": 1.764679211063251,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 0.8713,
      "step": 973
    },
    {
      "epoch": 1.7664928587621853,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 1.0966,
      "step": 974
    },
    {
      "epoch": 1.76830650646112,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002,
      "loss": 0.9543,
      "step": 975
    },
    {
      "epoch": 1.7701201541600544,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002,
      "loss": 1.0523,
      "step": 976
    },
    {
      "epoch": 1.7719338018589887,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 0.9257,
      "step": 977
    },
    {
      "epoch": 1.7737474495579235,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 1.2574,
      "step": 978
    },
    {
      "epoch": 1.7755610972568578,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 0.9659,
      "step": 979
    },
    {
      "epoch": 1.7773747449557922,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002,
      "loss": 0.818,
      "step": 980
    },
    {
      "epoch": 1.779188392654727,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 0.9703,
      "step": 981
    },
    {
      "epoch": 1.7810020403536613,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 1.0886,
      "step": 982
    },
    {
      "epoch": 1.7828156880525958,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002,
      "loss": 1.0346,
      "step": 983
    },
    {
      "epoch": 1.7846293357515304,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 1.1423,
      "step": 984
    },
    {
      "epoch": 1.7864429834504647,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 1.0879,
      "step": 985
    },
    {
      "epoch": 1.7882566311493993,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002,
      "loss": 1.1071,
      "step": 986
    },
    {
      "epoch": 1.7900702788483338,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.9796,
      "step": 987
    },
    {
      "epoch": 1.7918839265472681,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 1.0176,
      "step": 988
    },
    {
      "epoch": 1.7936975742462027,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 1.0423,
      "step": 989
    },
    {
      "epoch": 1.7955112219451372,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 0.9422,
      "step": 990
    },
    {
      "epoch": 1.7973248696440716,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002,
      "loss": 0.9309,
      "step": 991
    },
    {
      "epoch": 1.7991385173430061,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002,
      "loss": 1.1111,
      "step": 992
    },
    {
      "epoch": 1.8009521650419407,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002,
      "loss": 1.3678,
      "step": 993
    },
    {
      "epoch": 1.802765812740875,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0002,
      "loss": 1.1593,
      "step": 994
    },
    {
      "epoch": 1.8045794604398095,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 1.1069,
      "step": 995
    },
    {
      "epoch": 1.806393108138744,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002,
      "loss": 1.0621,
      "step": 996
    },
    {
      "epoch": 1.8082067558376784,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002,
      "loss": 1.1156,
      "step": 997
    },
    {
      "epoch": 1.810020403536613,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0002,
      "loss": 0.8478,
      "step": 998
    },
    {
      "epoch": 1.8118340512355475,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0002,
      "loss": 1.1782,
      "step": 999
    },
    {
      "epoch": 1.8136476989344819,
      "grad_norm": 0.703125,
      "learning_rate": 0.0002,
      "loss": 0.8888,
      "step": 1000
    },
    {
      "epoch": 1.8154613466334164,
      "grad_norm": 0.734375,
      "learning_rate": 0.0002,
      "loss": 1.0634,
      "step": 1001
    },
    {
      "epoch": 1.817274994332351,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002,
      "loss": 1.1034,
      "step": 1002
    },
    {
      "epoch": 1.8190886420312853,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 0.8296,
      "step": 1003
    },
    {
      "epoch": 1.82090228973022,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 1.0226,
      "step": 1004
    },
    {
      "epoch": 1.8227159374291544,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 1.0125,
      "step": 1005
    },
    {
      "epoch": 1.8245295851280887,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002,
      "loss": 0.8635,
      "step": 1006
    },
    {
      "epoch": 1.8263432328270235,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002,
      "loss": 0.926,
      "step": 1007
    },
    {
      "epoch": 1.8281568805259578,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002,
      "loss": 0.9196,
      "step": 1008
    },
    {
      "epoch": 1.8299705282248924,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 1.044,
      "step": 1009
    },
    {
      "epoch": 1.831784175923827,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 0.8454,
      "step": 1010
    },
    {
      "epoch": 1.8335978236227612,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002,
      "loss": 1.0,
      "step": 1011
    },
    {
      "epoch": 1.8354114713216958,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002,
      "loss": 0.9235,
      "step": 1012
    },
    {
      "epoch": 1.8372251190206303,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 1.1423,
      "step": 1013
    },
    {
      "epoch": 1.8390387667195647,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 0.9826,
      "step": 1014
    },
    {
      "epoch": 1.8408524144184992,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002,
      "loss": 0.9392,
      "step": 1015
    },
    {
      "epoch": 1.8426660621174338,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 0.8626,
      "step": 1016
    },
    {
      "epoch": 1.844479709816368,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 1.0376,
      "step": 1017
    },
    {
      "epoch": 1.8462933575153027,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 0.9886,
      "step": 1018
    },
    {
      "epoch": 1.8481070052142372,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 1.1271,
      "step": 1019
    },
    {
      "epoch": 1.8499206529131715,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 0.8644,
      "step": 1020
    },
    {
      "epoch": 1.851734300612106,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002,
      "loss": 0.878,
      "step": 1021
    },
    {
      "epoch": 1.8535479483110406,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002,
      "loss": 0.96,
      "step": 1022
    },
    {
      "epoch": 1.855361596009975,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 1.2522,
      "step": 1023
    },
    {
      "epoch": 1.8571752437089095,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 0.9098,
      "step": 1024
    },
    {
      "epoch": 1.858988891407844,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 0.8555,
      "step": 1025
    },
    {
      "epoch": 1.8608025391067784,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 0.9147,
      "step": 1026
    },
    {
      "epoch": 1.862616186805713,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.9734,
      "step": 1027
    },
    {
      "epoch": 1.8644298345046475,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 0.8585,
      "step": 1028
    },
    {
      "epoch": 1.8662434822035818,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 0.9791,
      "step": 1029
    },
    {
      "epoch": 1.8680571299025166,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 1.0412,
      "step": 1030
    },
    {
      "epoch": 1.869870777601451,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 0.8981,
      "step": 1031
    },
    {
      "epoch": 1.8716844253003853,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 1.0181,
      "step": 1032
    },
    {
      "epoch": 1.87349807299932,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 1.0411,
      "step": 1033
    },
    {
      "epoch": 1.8753117206982544,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 0.9142,
      "step": 1034
    },
    {
      "epoch": 1.8771253683971887,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.9674,
      "step": 1035
    },
    {
      "epoch": 1.8789390160961235,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 0.8932,
      "step": 1036
    },
    {
      "epoch": 1.8807526637950578,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.9858,
      "step": 1037
    },
    {
      "epoch": 1.8825663114939923,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002,
      "loss": 1.2152,
      "step": 1038
    },
    {
      "epoch": 1.884379959192927,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.9697,
      "step": 1039
    },
    {
      "epoch": 1.8861936068918612,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002,
      "loss": 0.9603,
      "step": 1040
    },
    {
      "epoch": 1.8880072545907958,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002,
      "loss": 1.2045,
      "step": 1041
    },
    {
      "epoch": 1.8898209022897303,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002,
      "loss": 1.0357,
      "step": 1042
    },
    {
      "epoch": 1.8916345499886646,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 0.9141,
      "step": 1043
    },
    {
      "epoch": 1.8934481976875992,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 1.0849,
      "step": 1044
    },
    {
      "epoch": 1.8952618453865338,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 1.1133,
      "step": 1045
    },
    {
      "epoch": 1.897075493085468,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.9733,
      "step": 1046
    },
    {
      "epoch": 1.8988891407844026,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002,
      "loss": 1.0996,
      "step": 1047
    },
    {
      "epoch": 1.9007027884833372,
      "grad_norm": 0.578125,
      "learning_rate": 0.0002,
      "loss": 0.9908,
      "step": 1048
    },
    {
      "epoch": 1.9025164361822715,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0002,
      "loss": 1.0291,
      "step": 1049
    },
    {
      "epoch": 1.904330083881206,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0002,
      "loss": 0.9447,
      "step": 1050
    },
    {
      "epoch": 1.9061437315801406,
      "grad_norm": 0.734375,
      "learning_rate": 0.0002,
      "loss": 1.028,
      "step": 1051
    },
    {
      "epoch": 1.907957379279075,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002,
      "loss": 0.9063,
      "step": 1052
    },
    {
      "epoch": 1.9097710269780095,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 0.9597,
      "step": 1053
    },
    {
      "epoch": 1.911584674676944,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 0.9421,
      "step": 1054
    },
    {
      "epoch": 1.9133983223758784,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 1.0293,
      "step": 1055
    },
    {
      "epoch": 1.915211970074813,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.9295,
      "step": 1056
    },
    {
      "epoch": 1.9170256177737475,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 0.8376,
      "step": 1057
    },
    {
      "epoch": 1.9188392654726818,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 0.9181,
      "step": 1058
    },
    {
      "epoch": 1.9206529131716166,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.9899,
      "step": 1059
    },
    {
      "epoch": 1.922466560870551,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 0.8091,
      "step": 1060
    },
    {
      "epoch": 1.9242802085694852,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 0.9737,
      "step": 1061
    },
    {
      "epoch": 1.92609385626842,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 0.9135,
      "step": 1062
    },
    {
      "epoch": 1.9279075039673543,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 1.1474,
      "step": 1063
    },
    {
      "epoch": 1.9297211516662887,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002,
      "loss": 1.0218,
      "step": 1064
    },
    {
      "epoch": 1.9315347993652234,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 1.0098,
      "step": 1065
    },
    {
      "epoch": 1.9333484470641578,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 0.9253,
      "step": 1066
    },
    {
      "epoch": 1.9351620947630923,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002,
      "loss": 0.9772,
      "step": 1067
    },
    {
      "epoch": 1.9369757424620269,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 0.8901,
      "step": 1068
    },
    {
      "epoch": 1.9387893901609612,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 0.9199,
      "step": 1069
    },
    {
      "epoch": 1.9406030378598957,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.8886,
      "step": 1070
    },
    {
      "epoch": 1.9424166855588303,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 0.8674,
      "step": 1071
    },
    {
      "epoch": 1.9442303332577646,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002,
      "loss": 0.8435,
      "step": 1072
    },
    {
      "epoch": 1.9460439809566992,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002,
      "loss": 1.0546,
      "step": 1073
    },
    {
      "epoch": 1.9478576286556337,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 1.0667,
      "step": 1074
    },
    {
      "epoch": 1.949671276354568,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 0.8801,
      "step": 1075
    },
    {
      "epoch": 1.9514849240535026,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 0.8618,
      "step": 1076
    },
    {
      "epoch": 1.9532985717524372,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 1.0845,
      "step": 1077
    },
    {
      "epoch": 1.9551122194513715,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 1.0055,
      "step": 1078
    },
    {
      "epoch": 1.956925867150306,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 0.8521,
      "step": 1079
    },
    {
      "epoch": 1.9587395148492406,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002,
      "loss": 0.887,
      "step": 1080
    },
    {
      "epoch": 1.960553162548175,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002,
      "loss": 1.2022,
      "step": 1081
    },
    {
      "epoch": 1.9623668102471095,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 1.1436,
      "step": 1082
    },
    {
      "epoch": 1.964180457946044,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 0.9564,
      "step": 1083
    },
    {
      "epoch": 1.9659941056449783,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 1.2071,
      "step": 1084
    },
    {
      "epoch": 1.967807753343913,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 1.3053,
      "step": 1085
    },
    {
      "epoch": 1.9696214010428474,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002,
      "loss": 0.9856,
      "step": 1086
    },
    {
      "epoch": 1.9714350487417818,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002,
      "loss": 1.1773,
      "step": 1087
    },
    {
      "epoch": 1.9732486964407165,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002,
      "loss": 1.1622,
      "step": 1088
    },
    {
      "epoch": 1.9750623441396509,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002,
      "loss": 1.0236,
      "step": 1089
    },
    {
      "epoch": 1.9768759918385852,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 1.2669,
      "step": 1090
    },
    {
      "epoch": 1.97868963953752,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 0.9309,
      "step": 1091
    },
    {
      "epoch": 1.9805032872364543,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002,
      "loss": 0.9596,
      "step": 1092
    },
    {
      "epoch": 1.9823169349353889,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002,
      "loss": 1.1725,
      "step": 1093
    },
    {
      "epoch": 1.9841305826343234,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002,
      "loss": 0.9062,
      "step": 1094
    },
    {
      "epoch": 1.9859442303332577,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002,
      "loss": 1.0446,
      "step": 1095
    },
    {
      "epoch": 1.9877578780321923,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 1.1148,
      "step": 1096
    },
    {
      "epoch": 1.9895715257311268,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002,
      "loss": 0.913,
      "step": 1097
    },
    {
      "epoch": 1.9913851734300612,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002,
      "loss": 1.0145,
      "step": 1098
    },
    {
      "epoch": 1.9931988211289957,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002,
      "loss": 0.9562,
      "step": 1099
    },
    {
      "epoch": 1.9950124688279303,
      "grad_norm": 0.89453125,
      "learning_rate": 0.0002,
      "loss": 1.1433,
      "step": 1100
    },
    {
      "epoch": 1.9968261165268646,
      "grad_norm": 0.80859375,
      "learning_rate": 0.0002,
      "loss": 1.0308,
      "step": 1101
    },
    {
      "epoch": 1.9986397642257991,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002,
      "loss": 0.7974,
      "step": 1102
    },
    {
      "epoch": 2.0004534119247337,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 0.9273,
      "step": 1103
    },
    {
      "epoch": 2.002267059623668,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002,
      "loss": 0.81,
      "step": 1104
    },
    {
      "epoch": 2.004080707322603,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002,
      "loss": 0.745,
      "step": 1105
    },
    {
      "epoch": 2.005894355021537,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002,
      "loss": 0.7789,
      "step": 1106
    },
    {
      "epoch": 2.0077080027204715,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002,
      "loss": 0.552,
      "step": 1107
    },
    {
      "epoch": 2.0095216504194062,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002,
      "loss": 0.5986,
      "step": 1108
    },
    {
      "epoch": 2.0113352981183406,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002,
      "loss": 0.5939,
      "step": 1109
    },
    {
      "epoch": 2.013148945817275,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 0.7725,
      "step": 1110
    },
    {
      "epoch": 2.0149625935162097,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.6555,
      "step": 1111
    },
    {
      "epoch": 2.016776241215144,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.6115,
      "step": 1112
    },
    {
      "epoch": 2.0185898889140783,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 0.6953,
      "step": 1113
    },
    {
      "epoch": 2.020403536613013,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 0.8535,
      "step": 1114
    },
    {
      "epoch": 2.0222171843119474,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 0.7468,
      "step": 1115
    },
    {
      "epoch": 2.0240308320108817,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 0.5893,
      "step": 1116
    },
    {
      "epoch": 2.0258444797098165,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 0.7711,
      "step": 1117
    },
    {
      "epoch": 2.027658127408751,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 0.6593,
      "step": 1118
    },
    {
      "epoch": 2.029471775107685,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.7394,
      "step": 1119
    },
    {
      "epoch": 2.03128542280662,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 0.7325,
      "step": 1120
    },
    {
      "epoch": 2.0330990705055543,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 0.6486,
      "step": 1121
    },
    {
      "epoch": 2.0349127182044886,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 0.5607,
      "step": 1122
    },
    {
      "epoch": 2.0349127182044886,
      "eval_loss": 1.346134901046753,
      "eval_runtime": 338.3046,
      "eval_samples_per_second": 2.956,
      "eval_steps_per_second": 2.956,
      "step": 1122
    },
    {
      "epoch": 2.0349127182044886,
      "mmlu_eval_accuracy": 0.48427161130091273,
      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
      "mmlu_eval_accuracy_anatomy": 0.42857142857142855,
      "mmlu_eval_accuracy_astronomy": 0.375,
      "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
      "mmlu_eval_accuracy_clinical_knowledge": 0.27586206896551724,
      "mmlu_eval_accuracy_college_biology": 0.375,
      "mmlu_eval_accuracy_college_chemistry": 0.25,
      "mmlu_eval_accuracy_college_computer_science": 0.7272727272727273,
      "mmlu_eval_accuracy_college_mathematics": 0.36363636363636365,
      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
      "mmlu_eval_accuracy_college_physics": 0.45454545454545453,
      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
      "mmlu_eval_accuracy_electrical_engineering": 0.4375,
      "mmlu_eval_accuracy_elementary_mathematics": 0.2926829268292683,
      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
      "mmlu_eval_accuracy_global_facts": 0.2,
      "mmlu_eval_accuracy_high_school_biology": 0.3125,
      "mmlu_eval_accuracy_high_school_chemistry": 0.3181818181818182,
      "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
      "mmlu_eval_accuracy_high_school_geography": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4186046511627907,
      "mmlu_eval_accuracy_high_school_mathematics": 0.5172413793103449,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.3076923076923077,
      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
      "mmlu_eval_accuracy_high_school_psychology": 0.7166666666666667,
      "mmlu_eval_accuracy_high_school_statistics": 0.43478260869565216,
      "mmlu_eval_accuracy_high_school_us_history": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_world_history": 0.5769230769230769,
      "mmlu_eval_accuracy_human_aging": 0.5652173913043478,
      "mmlu_eval_accuracy_human_sexuality": 0.75,
      "mmlu_eval_accuracy_international_law": 0.6153846153846154,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.6111111111111112,
      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
      "mmlu_eval_accuracy_management": 0.7272727272727273,
      "mmlu_eval_accuracy_marketing": 0.84,
      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
      "mmlu_eval_accuracy_miscellaneous": 0.6627906976744186,
      "mmlu_eval_accuracy_moral_disputes": 0.5526315789473685,
      "mmlu_eval_accuracy_moral_scenarios": 0.3,
      "mmlu_eval_accuracy_nutrition": 0.5151515151515151,
      "mmlu_eval_accuracy_philosophy": 0.5294117647058824,
      "mmlu_eval_accuracy_prehistory": 0.42857142857142855,
      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_law": 0.32941176470588235,
      "mmlu_eval_accuracy_professional_medicine": 0.45161290322580644,
      "mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
      "mmlu_eval_accuracy_public_relations": 0.5,
      "mmlu_eval_accuracy_security_studies": 0.5555555555555556,
      "mmlu_eval_accuracy_sociology": 0.6818181818181818,
      "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
      "mmlu_eval_accuracy_virology": 0.5555555555555556,
      "mmlu_eval_accuracy_world_religions": 0.631578947368421,
      "mmlu_loss": 2.168753529513762,
      "step": 1122
    },
    {
      "epoch": 2.0367263659034234,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 0.5452,
      "step": 1123
    },
    {
      "epoch": 2.0385400136023577,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 0.6536,
      "step": 1124
    },
    {
      "epoch": 2.040353661301292,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 0.6719,
      "step": 1125
    },
    {
      "epoch": 2.042167309000227,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 0.6229,
      "step": 1126
    },
    {
      "epoch": 2.043980956699161,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002,
      "loss": 0.6196,
      "step": 1127
    },
    {
      "epoch": 2.0457946043980955,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 0.7212,
      "step": 1128
    },
    {
      "epoch": 2.0476082520970302,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 0.6735,
      "step": 1129
    },
    {
      "epoch": 2.0494218997959646,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 0.6382,
      "step": 1130
    },
    {
      "epoch": 2.0512355474948993,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.5809,
      "step": 1131
    },
    {
      "epoch": 2.0530491951938337,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.7089,
      "step": 1132
    },
    {
      "epoch": 2.054862842892768,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.4481,
      "step": 1133
    },
    {
      "epoch": 2.0566764905917028,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 0.4842,
      "step": 1134
    },
    {
      "epoch": 2.058490138290637,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002,
      "loss": 0.5626,
      "step": 1135
    },
    {
      "epoch": 2.0603037859895714,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002,
      "loss": 0.6424,
      "step": 1136
    },
    {
      "epoch": 2.062117433688506,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002,
      "loss": 0.7446,
      "step": 1137
    },
    {
      "epoch": 2.0639310813874405,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.6708,
      "step": 1138
    },
    {
      "epoch": 2.065744729086375,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002,
      "loss": 0.5639,
      "step": 1139
    },
    {
      "epoch": 2.0675583767853096,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002,
      "loss": 0.5196,
      "step": 1140
    },
    {
      "epoch": 2.069372024484244,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 0.6379,
      "step": 1141
    },
    {
      "epoch": 2.0711856721831783,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.4992,
      "step": 1142
    },
    {
      "epoch": 2.072999319882113,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002,
      "loss": 0.5813,
      "step": 1143
    },
    {
      "epoch": 2.0748129675810474,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0002,
      "loss": 0.5284,
      "step": 1144
    },
    {
      "epoch": 2.0766266152799817,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002,
      "loss": 0.6704,
      "step": 1145
    },
    {
      "epoch": 2.0784402629789165,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0002,
      "loss": 0.7938,
      "step": 1146
    },
    {
      "epoch": 2.080253910677851,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002,
      "loss": 0.5904,
      "step": 1147
    },
    {
      "epoch": 2.082067558376785,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0002,
      "loss": 0.5692,
      "step": 1148
    },
    {
      "epoch": 2.08388120607572,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002,
      "loss": 0.4987,
      "step": 1149
    },
    {
      "epoch": 2.0856948537746542,
      "grad_norm": 0.83203125,
      "learning_rate": 0.0002,
      "loss": 0.4855,
      "step": 1150
    },
    {
      "epoch": 2.0875085014735886,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0002,
      "loss": 0.489,
      "step": 1151
    },
    {
      "epoch": 2.0893221491725233,
      "grad_norm": 1.046875,
      "learning_rate": 0.0002,
      "loss": 0.5327,
      "step": 1152
    },
    {
      "epoch": 2.0911357968714577,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0002,
      "loss": 0.64,
      "step": 1153
    },
    {
      "epoch": 2.092949444570392,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002,
      "loss": 0.9135,
      "step": 1154
    },
    {
      "epoch": 2.0947630922693268,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002,
      "loss": 0.662,
      "step": 1155
    },
    {
      "epoch": 2.096576739968261,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.6441,
      "step": 1156
    },
    {
      "epoch": 2.0983903876671954,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.7424,
      "step": 1157
    },
    {
      "epoch": 2.10020403536613,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002,
      "loss": 0.7103,
      "step": 1158
    },
    {
      "epoch": 2.1020176830650645,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 0.6554,
      "step": 1159
    },
    {
      "epoch": 2.1038313307639993,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002,
      "loss": 0.6642,
      "step": 1160
    },
    {
      "epoch": 2.1056449784629336,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002,
      "loss": 0.5575,
      "step": 1161
    },
    {
      "epoch": 2.107458626161868,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 0.6062,
      "step": 1162
    },
    {
      "epoch": 2.1092722738608027,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002,
      "loss": 0.712,
      "step": 1163
    },
    {
      "epoch": 2.111085921559737,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002,
      "loss": 0.6883,
      "step": 1164
    },
    {
      "epoch": 2.1128995692586714,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002,
      "loss": 0.6295,
      "step": 1165
    },
    {
      "epoch": 2.114713216957606,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0002,
      "loss": 0.9192,
      "step": 1166
    },
    {
      "epoch": 2.1165268646565405,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 0.6481,
      "step": 1167
    },
    {
      "epoch": 2.118340512355475,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 0.5673,
      "step": 1168
    },
    {
      "epoch": 2.1201541600544096,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002,
      "loss": 0.6583,
      "step": 1169
    },
    {
      "epoch": 2.121967807753344,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002,
      "loss": 0.6993,
      "step": 1170
    },
    {
      "epoch": 2.1237814554522783,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 0.7618,
      "step": 1171
    },
    {
      "epoch": 2.125595103151213,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002,
      "loss": 0.6169,
      "step": 1172
    },
    {
      "epoch": 2.1274087508501474,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 0.9018,
      "step": 1173
    },
    {
      "epoch": 2.1292223985490817,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002,
      "loss": 0.6477,
      "step": 1174
    },
    {
      "epoch": 2.1310360462480165,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 0.6907,
      "step": 1175
    },
    {
      "epoch": 2.132849693946951,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002,
      "loss": 0.8628,
      "step": 1176
    },
    {
      "epoch": 2.134663341645885,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.7815,
      "step": 1177
    },
    {
      "epoch": 2.13647698934482,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 0.5863,
      "step": 1178
    },
    {
      "epoch": 2.138290637043754,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.7174,
      "step": 1179
    },
    {
      "epoch": 2.1401042847426885,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.6654,
      "step": 1180
    },
    {
      "epoch": 2.1419179324416233,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002,
      "loss": 0.5581,
      "step": 1181
    },
    {
      "epoch": 2.1437315801405576,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 0.6878,
      "step": 1182
    },
    {
      "epoch": 2.145545227839492,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.6724,
      "step": 1183
    },
    {
      "epoch": 2.1473588755384267,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002,
      "loss": 0.757,
      "step": 1184
    },
    {
      "epoch": 2.149172523237361,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002,
      "loss": 0.6503,
      "step": 1185
    },
    {
      "epoch": 2.150986170936296,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 0.558,
      "step": 1186
    },
    {
      "epoch": 2.15279981863523,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002,
      "loss": 0.6391,
      "step": 1187
    },
    {
      "epoch": 2.1546134663341645,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0002,
      "loss": 0.5556,
      "step": 1188
    },
    {
      "epoch": 2.1564271140330993,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002,
      "loss": 0.667,
      "step": 1189
    },
    {
      "epoch": 2.1582407617320336,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002,
      "loss": 0.5569,
      "step": 1190
    },
    {
      "epoch": 2.160054409430968,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002,
      "loss": 0.5245,
      "step": 1191
    },
    {
      "epoch": 2.1618680571299027,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0002,
      "loss": 0.5603,
      "step": 1192
    },
    {
      "epoch": 2.163681704828837,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002,
      "loss": 0.5114,
      "step": 1193
    },
    {
      "epoch": 2.1654953525277714,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002,
      "loss": 0.6194,
      "step": 1194
    },
    {
      "epoch": 2.167309000226706,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0002,
      "loss": 0.6114,
      "step": 1195
    },
    {
      "epoch": 2.1691226479256405,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002,
      "loss": 0.6467,
      "step": 1196
    },
    {
      "epoch": 2.170936295624575,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002,
      "loss": 0.5503,
      "step": 1197
    },
    {
      "epoch": 2.1727499433235096,
      "grad_norm": 0.78125,
      "learning_rate": 0.0002,
      "loss": 0.7192,
      "step": 1198
    },
    {
      "epoch": 2.174563591022444,
      "grad_norm": 0.703125,
      "learning_rate": 0.0002,
      "loss": 0.5272,
      "step": 1199
    },
    {
      "epoch": 2.1763772387213782,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 0.4771,
      "step": 1200
    },
    {
      "epoch": 2.178190886420313,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0002,
      "loss": 0.5594,
      "step": 1201
    },
    {
      "epoch": 2.1800045341192473,
      "grad_norm": 0.83203125,
      "learning_rate": 0.0002,
      "loss": 0.5131,
      "step": 1202
    },
    {
      "epoch": 2.1818181818181817,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002,
      "loss": 0.6215,
      "step": 1203
    },
    {
      "epoch": 2.1836318295171164,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002,
      "loss": 0.5764,
      "step": 1204
    },
    {
      "epoch": 2.1854454772160508,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 0.6133,
      "step": 1205
    },
    {
      "epoch": 2.187259124914985,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.7798,
      "step": 1206
    },
    {
      "epoch": 2.18907277261392,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.7889,
      "step": 1207
    },
    {
      "epoch": 2.190886420312854,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002,
      "loss": 0.7009,
      "step": 1208
    },
    {
      "epoch": 2.1927000680117885,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002,
      "loss": 0.7378,
      "step": 1209
    },
    {
      "epoch": 2.1945137157107233,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.778,
      "step": 1210
    },
    {
      "epoch": 2.1963273634096576,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002,
      "loss": 0.6304,
      "step": 1211
    },
    {
      "epoch": 2.198141011108592,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002,
      "loss": 0.8757,
      "step": 1212
    },
    {
      "epoch": 2.1999546588075267,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002,
      "loss": 0.7991,
      "step": 1213
    },
    {
      "epoch": 2.201768306506461,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002,
      "loss": 0.5943,
      "step": 1214
    },
    {
      "epoch": 2.2035819542053954,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.6997,
      "step": 1215
    },
    {
      "epoch": 2.20539560190433,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002,
      "loss": 0.6777,
      "step": 1216
    },
    {
      "epoch": 2.2072092496032645,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 0.6777,
      "step": 1217
    },
    {
      "epoch": 2.2090228973021993,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002,
      "loss": 0.5854,
      "step": 1218
    },
    {
      "epoch": 2.2108365450011336,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002,
      "loss": 0.5991,
      "step": 1219
    },
    {
      "epoch": 2.212650192700068,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 0.5731,
      "step": 1220
    },
    {
      "epoch": 2.2144638403990027,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 0.5352,
      "step": 1221
    },
    {
      "epoch": 2.216277488097937,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 0.6785,
      "step": 1222
    },
    {
      "epoch": 2.2180911357968713,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 0.6463,
      "step": 1223
    },
    {
      "epoch": 2.219904783495806,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002,
      "loss": 0.7092,
      "step": 1224
    },
    {
      "epoch": 2.2217184311947404,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.6664,
      "step": 1225
    },
    {
      "epoch": 2.2235320788936748,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002,
      "loss": 0.5106,
      "step": 1226
    },
    {
      "epoch": 2.2253457265926095,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 0.5906,
      "step": 1227
    },
    {
      "epoch": 2.227159374291544,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.6225,
      "step": 1228
    },
    {
      "epoch": 2.228973021990478,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.6065,
      "step": 1229
    },
    {
      "epoch": 2.230786669689413,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 0.5754,
      "step": 1230
    },
    {
      "epoch": 2.2326003173883473,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 0.8443,
      "step": 1231
    },
    {
      "epoch": 2.2344139650872816,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002,
      "loss": 0.7127,
      "step": 1232
    },
    {
      "epoch": 2.2362276127862164,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002,
      "loss": 0.6337,
      "step": 1233
    },
    {
      "epoch": 2.2380412604851507,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 0.628,
      "step": 1234
    },
    {
      "epoch": 2.239854908184085,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002,
      "loss": 0.6514,
      "step": 1235
    },
    {
      "epoch": 2.24166855588302,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002,
      "loss": 0.5972,
      "step": 1236
    },
    {
      "epoch": 2.243482203581954,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 0.5494,
      "step": 1237
    },
    {
      "epoch": 2.2452958512808885,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002,
      "loss": 0.5767,
      "step": 1238
    },
    {
      "epoch": 2.2471094989798233,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.5213,
      "step": 1239
    },
    {
      "epoch": 2.2489231466787576,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0002,
      "loss": 0.6358,
      "step": 1240
    },
    {
      "epoch": 2.2507367943776924,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.5502,
      "step": 1241
    },
    {
      "epoch": 2.2525504420766267,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0002,
      "loss": 0.6045,
      "step": 1242
    },
    {
      "epoch": 2.254364089775561,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002,
      "loss": 0.5528,
      "step": 1243
    },
    {
      "epoch": 2.256177737474496,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 0.4822,
      "step": 1244
    },
    {
      "epoch": 2.25799138517343,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.6493,
      "step": 1245
    },
    {
      "epoch": 2.2598050328723644,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002,
      "loss": 0.8325,
      "step": 1246
    },
    {
      "epoch": 2.2616186805712992,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002,
      "loss": 0.5083,
      "step": 1247
    },
    {
      "epoch": 2.2634323282702336,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002,
      "loss": 0.5437,
      "step": 1248
    },
    {
      "epoch": 2.265245975969168,
      "grad_norm": 0.83984375,
      "learning_rate": 0.0002,
      "loss": 0.5736,
      "step": 1249
    },
    {
      "epoch": 2.2670596236681027,
      "grad_norm": 1.0625,
      "learning_rate": 0.0002,
      "loss": 0.5343,
      "step": 1250
    },
    {
      "epoch": 2.268873271367037,
      "grad_norm": 0.8046875,
      "learning_rate": 0.0002,
      "loss": 0.4686,
      "step": 1251
    },
    {
      "epoch": 2.2706869190659713,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0002,
      "loss": 0.5052,
      "step": 1252
    },
    {
      "epoch": 2.272500566764906,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.6703,
      "step": 1253
    },
    {
      "epoch": 2.2743142144638404,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.8285,
      "step": 1254
    },
    {
      "epoch": 2.2761278621627747,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002,
      "loss": 0.6955,
      "step": 1255
    },
    {
      "epoch": 2.2779415098617095,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002,
      "loss": 0.7172,
      "step": 1256
    },
    {
      "epoch": 2.279755157560644,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.6648,
      "step": 1257
    },
    {
      "epoch": 2.281568805259578,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.6492,
      "step": 1258
    },
    {
      "epoch": 2.283382452958513,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 0.6567,
      "step": 1259
    },
    {
      "epoch": 2.2851961006574473,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 0.7042,
      "step": 1260
    },
    {
      "epoch": 2.2870097483563816,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.7495,
      "step": 1261
    },
    {
      "epoch": 2.2888233960553164,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 0.8675,
      "step": 1262
    },
    {
      "epoch": 2.2906370437542507,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002,
      "loss": 0.6507,
      "step": 1263
    },
    {
      "epoch": 2.292450691453185,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002,
      "loss": 0.7442,
      "step": 1264
    },
    {
      "epoch": 2.29426433915212,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002,
      "loss": 0.6826,
      "step": 1265
    },
    {
      "epoch": 2.296077986851054,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002,
      "loss": 0.5948,
      "step": 1266
    },
    {
      "epoch": 2.2978916345499885,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 0.5763,
      "step": 1267
    },
    {
      "epoch": 2.2997052822489232,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 0.6288,
      "step": 1268
    },
    {
      "epoch": 2.3015189299478576,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.5686,
      "step": 1269
    },
    {
      "epoch": 2.303332577646792,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.678,
      "step": 1270
    },
    {
      "epoch": 2.3051462253457267,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.5135,
      "step": 1271
    },
    {
      "epoch": 2.306959873044661,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.464,
      "step": 1272
    },
    {
      "epoch": 2.3087735207435953,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 0.7124,
      "step": 1273
    },
    {
      "epoch": 2.31058716844253,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002,
      "loss": 0.6121,
      "step": 1274
    },
    {
      "epoch": 2.3124008161414644,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.5544,
      "step": 1275
    },
    {
      "epoch": 2.314214463840399,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.6811,
      "step": 1276
    },
    {
      "epoch": 2.3160281115393335,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.6066,
      "step": 1277
    },
    {
      "epoch": 2.317841759238268,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 0.7726,
      "step": 1278
    },
    {
      "epoch": 2.3196554069372026,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 0.5786,
      "step": 1279
    },
    {
      "epoch": 2.321469054636137,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002,
      "loss": 0.6188,
      "step": 1280
    },
    {
      "epoch": 2.3232827023350713,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.5269,
      "step": 1281
    },
    {
      "epoch": 2.325096350034006,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 0.6768,
      "step": 1282
    },
    {
      "epoch": 2.3269099977329404,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.654,
      "step": 1283
    },
    {
      "epoch": 2.3287236454318747,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.5743,
      "step": 1284
    },
    {
      "epoch": 2.3305372931308095,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002,
      "loss": 0.6972,
      "step": 1285
    },
    {
      "epoch": 2.332350940829744,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 0.624,
      "step": 1286
    },
    {
      "epoch": 2.334164588528678,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 0.5828,
      "step": 1287
    },
    {
      "epoch": 2.335978236227613,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.617,
      "step": 1288
    },
    {
      "epoch": 2.3377918839265472,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.5809,
      "step": 1289
    },
    {
      "epoch": 2.3396055316254816,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0002,
      "loss": 0.6854,
      "step": 1290
    },
    {
      "epoch": 2.3414191793244163,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0002,
      "loss": 0.6787,
      "step": 1291
    },
    {
      "epoch": 2.3432328270233507,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.5186,
      "step": 1292
    },
    {
      "epoch": 2.3450464747222854,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.6756,
      "step": 1293
    },
    {
      "epoch": 2.3468601224212198,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0002,
      "loss": 0.5621,
      "step": 1294
    },
    {
      "epoch": 2.348673770120154,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0002,
      "loss": 0.4786,
      "step": 1295
    },
    {
      "epoch": 2.350487417819089,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002,
      "loss": 0.665,
      "step": 1296
    },
    {
      "epoch": 2.352301065518023,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0002,
      "loss": 0.6804,
      "step": 1297
    },
    {
      "epoch": 2.3541147132169575,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0002,
      "loss": 0.5455,
      "step": 1298
    },
    {
      "epoch": 2.3559283609158923,
      "grad_norm": 0.83203125,
      "learning_rate": 0.0002,
      "loss": 0.5113,
      "step": 1299
    },
    {
      "epoch": 2.3577420086148266,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.6504,
      "step": 1300
    },
    {
      "epoch": 2.359555656313761,
      "grad_norm": 1.0625,
      "learning_rate": 0.0002,
      "loss": 0.5323,
      "step": 1301
    },
    {
      "epoch": 2.3613693040126957,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0002,
      "loss": 0.5461,
      "step": 1302
    },
    {
      "epoch": 2.36318295171163,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0002,
      "loss": 0.6343,
      "step": 1303
    },
    {
      "epoch": 2.3649965994105644,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0002,
      "loss": 0.8686,
      "step": 1304
    },
    {
      "epoch": 2.366810247109499,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002,
      "loss": 0.75,
      "step": 1305
    },
    {
      "epoch": 2.3686238948084335,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002,
      "loss": 0.6711,
      "step": 1306
    },
    {
      "epoch": 2.370437542507368,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.7296,
      "step": 1307
    },
    {
      "epoch": 2.3722511902063026,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 0.5411,
      "step": 1308
    },
    {
      "epoch": 2.374064837905237,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002,
      "loss": 0.7534,
      "step": 1309
    },
    {
      "epoch": 2.374064837905237,
      "eval_loss": 1.3851879835128784,
      "eval_runtime": 335.0887,
      "eval_samples_per_second": 2.984,
      "eval_steps_per_second": 2.984,
      "step": 1309
    },
    {
      "epoch": 2.374064837905237,
      "mmlu_eval_accuracy": 0.47271299297884045,
      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
      "mmlu_eval_accuracy_anatomy": 0.42857142857142855,
      "mmlu_eval_accuracy_astronomy": 0.4375,
      "mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
      "mmlu_eval_accuracy_clinical_knowledge": 0.3103448275862069,
      "mmlu_eval_accuracy_college_biology": 0.4375,
      "mmlu_eval_accuracy_college_chemistry": 0.375,
      "mmlu_eval_accuracy_college_computer_science": 0.7272727272727273,
      "mmlu_eval_accuracy_college_mathematics": 0.09090909090909091,
      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
      "mmlu_eval_accuracy_college_physics": 0.5454545454545454,
      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
      "mmlu_eval_accuracy_conceptual_physics": 0.38461538461538464,
      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
      "mmlu_eval_accuracy_electrical_engineering": 0.375,
      "mmlu_eval_accuracy_elementary_mathematics": 0.1951219512195122,
      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
      "mmlu_eval_accuracy_global_facts": 0.2,
      "mmlu_eval_accuracy_high_school_biology": 0.4375,
      "mmlu_eval_accuracy_high_school_chemistry": 0.4090909090909091,
      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
      "mmlu_eval_accuracy_high_school_geography": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.3488372093023256,
      "mmlu_eval_accuracy_high_school_mathematics": 0.3103448275862069,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.34615384615384615,
      "mmlu_eval_accuracy_high_school_physics": 0.23529411764705882,
      "mmlu_eval_accuracy_high_school_psychology": 0.7,
      "mmlu_eval_accuracy_high_school_statistics": 0.391304347826087,
      "mmlu_eval_accuracy_high_school_us_history": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_world_history": 0.5769230769230769,
      "mmlu_eval_accuracy_human_aging": 0.43478260869565216,
      "mmlu_eval_accuracy_human_sexuality": 0.6666666666666666,
      "mmlu_eval_accuracy_international_law": 0.6923076923076923,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
      "mmlu_eval_accuracy_machine_learning": 0.2727272727272727,
      "mmlu_eval_accuracy_management": 0.7272727272727273,
      "mmlu_eval_accuracy_marketing": 0.88,
      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
      "mmlu_eval_accuracy_miscellaneous": 0.6627906976744186,
      "mmlu_eval_accuracy_moral_disputes": 0.5789473684210527,
      "mmlu_eval_accuracy_moral_scenarios": 0.31,
      "mmlu_eval_accuracy_nutrition": 0.5757575757575758,
      "mmlu_eval_accuracy_philosophy": 0.5882352941176471,
      "mmlu_eval_accuracy_prehistory": 0.4857142857142857,
      "mmlu_eval_accuracy_professional_accounting": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_law": 0.3235294117647059,
      "mmlu_eval_accuracy_professional_medicine": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_psychology": 0.4782608695652174,
      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
      "mmlu_eval_accuracy_sociology": 0.7272727272727273,
      "mmlu_eval_accuracy_us_foreign_policy": 0.5454545454545454,
      "mmlu_eval_accuracy_virology": 0.5,
      "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
      "mmlu_loss": 1.6061825722280785,
      "step": 1309
    },
    {
      "epoch": 2.3758784856041713,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.5954,
      "step": 1310
    },
    {
      "epoch": 2.377692133303106,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.6564,
      "step": 1311
    },
    {
      "epoch": 2.3795057810020404,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 0.6031,
      "step": 1312
    },
    {
      "epoch": 2.3813194287009747,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.8232,
      "step": 1313
    },
    {
      "epoch": 2.3831330763999095,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 0.8133,
      "step": 1314
    },
    {
      "epoch": 2.384946724098844,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 0.6766,
      "step": 1315
    },
    {
      "epoch": 2.386760371797778,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002,
      "loss": 0.7118,
      "step": 1316
    },
    {
      "epoch": 2.388574019496713,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002,
      "loss": 0.7078,
      "step": 1317
    },
    {
      "epoch": 2.390387667195647,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.534,
      "step": 1318
    },
    {
      "epoch": 2.3922013148945815,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.5973,
      "step": 1319
    },
    {
      "epoch": 2.3940149625935163,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002,
      "loss": 0.5884,
      "step": 1320
    },
    {
      "epoch": 2.3958286102924506,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 0.6438,
      "step": 1321
    },
    {
      "epoch": 2.397642257991385,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 0.6009,
      "step": 1322
    },
    {
      "epoch": 2.3994559056903197,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.6651,
      "step": 1323
    },
    {
      "epoch": 2.401269553389254,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 0.6241,
      "step": 1324
    },
    {
      "epoch": 2.4030832010881884,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002,
      "loss": 0.5451,
      "step": 1325
    },
    {
      "epoch": 2.404896848787123,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002,
      "loss": 0.575,
      "step": 1326
    },
    {
      "epoch": 2.4067104964860575,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002,
      "loss": 0.5512,
      "step": 1327
    },
    {
      "epoch": 2.408524144184992,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002,
      "loss": 0.5836,
      "step": 1328
    },
    {
      "epoch": 2.4103377918839266,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.6022,
      "step": 1329
    },
    {
      "epoch": 2.412151439582861,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002,
      "loss": 0.7147,
      "step": 1330
    },
    {
      "epoch": 2.4139650872817953,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.6004,
      "step": 1331
    },
    {
      "epoch": 2.41577873498073,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.7033,
      "step": 1332
    },
    {
      "epoch": 2.4175923826796644,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.5538,
      "step": 1333
    },
    {
      "epoch": 2.419406030378599,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 0.4813,
      "step": 1334
    },
    {
      "epoch": 2.4212196780775335,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 0.5317,
      "step": 1335
    },
    {
      "epoch": 2.423033325776468,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002,
      "loss": 0.7363,
      "step": 1336
    },
    {
      "epoch": 2.4248469734754026,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002,
      "loss": 0.5176,
      "step": 1337
    },
    {
      "epoch": 2.426660621174337,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002,
      "loss": 0.5497,
      "step": 1338
    },
    {
      "epoch": 2.4284742688732712,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002,
      "loss": 0.5399,
      "step": 1339
    },
    {
      "epoch": 2.430287916572206,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.5882,
      "step": 1340
    },
    {
      "epoch": 2.4321015642711403,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0002,
      "loss": 0.6898,
      "step": 1341
    },
    {
      "epoch": 2.4339152119700747,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0002,
      "loss": 0.7245,
      "step": 1342
    },
    {
      "epoch": 2.4357288596690094,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0002,
      "loss": 0.6856,
      "step": 1343
    },
    {
      "epoch": 2.4375425073679438,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002,
      "loss": 0.5767,
      "step": 1344
    },
    {
      "epoch": 2.439356155066878,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 0.6277,
      "step": 1345
    },
    {
      "epoch": 2.441169802765813,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002,
      "loss": 0.5229,
      "step": 1346
    },
    {
      "epoch": 2.442983450464747,
      "grad_norm": 0.625,
      "learning_rate": 0.0002,
      "loss": 0.5194,
      "step": 1347
    },
    {
      "epoch": 2.4447970981636815,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0002,
      "loss": 0.5689,
      "step": 1348
    },
    {
      "epoch": 2.4466107458626163,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0002,
      "loss": 0.6243,
      "step": 1349
    },
    {
      "epoch": 2.4484243935615506,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0002,
      "loss": 0.5385,
      "step": 1350
    },
    {
      "epoch": 2.4502380412604854,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002,
      "loss": 0.5091,
      "step": 1351
    },
    {
      "epoch": 2.4520516889594197,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0002,
      "loss": 0.6075,
      "step": 1352
    },
    {
      "epoch": 2.453865336658354,
      "grad_norm": 0.84375,
      "learning_rate": 0.0002,
      "loss": 0.6385,
      "step": 1353
    },
    {
      "epoch": 2.455678984357289,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 0.7577,
      "step": 1354
    },
    {
      "epoch": 2.457492632056223,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002,
      "loss": 0.7843,
      "step": 1355
    },
    {
      "epoch": 2.4593062797551575,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 0.6531,
      "step": 1356
    },
    {
      "epoch": 2.4611199274540922,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 0.6971,
      "step": 1357
    },
    {
      "epoch": 2.4629335751530266,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002,
      "loss": 0.8014,
      "step": 1358
    },
    {
      "epoch": 2.464747222851961,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 0.8174,
      "step": 1359
    },
    {
      "epoch": 2.4665608705508957,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.6862,
      "step": 1360
    },
    {
      "epoch": 2.46837451824983,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 0.8062,
      "step": 1361
    },
    {
      "epoch": 2.4701881659487643,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 0.7248,
      "step": 1362
    },
    {
      "epoch": 2.472001813647699,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002,
      "loss": 0.5848,
      "step": 1363
    },
    {
      "epoch": 2.4738154613466334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 0.76,
      "step": 1364
    },
    {
      "epoch": 2.4756291090455678,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002,
      "loss": 0.8708,
      "step": 1365
    },
    {
      "epoch": 2.4774427567445025,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002,
      "loss": 0.6811,
      "step": 1366
    },
    {
      "epoch": 2.479256404443437,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002,
      "loss": 0.5525,
      "step": 1367
    },
    {
      "epoch": 2.481070052142371,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.698,
      "step": 1368
    },
    {
      "epoch": 2.482883699841306,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.7171,
      "step": 1369
    },
    {
      "epoch": 2.4846973475402403,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 0.5268,
      "step": 1370
    },
    {
      "epoch": 2.4865109952391746,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002,
      "loss": 0.6441,
      "step": 1371
    },
    {
      "epoch": 2.4883246429381094,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 0.6516,
      "step": 1372
    },
    {
      "epoch": 2.4901382906370437,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002,
      "loss": 0.4747,
      "step": 1373
    },
    {
      "epoch": 2.491951938335978,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002,
      "loss": 0.6752,
      "step": 1374
    },
    {
      "epoch": 2.493765586034913,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.6301,
      "step": 1375
    },
    {
      "epoch": 2.495579233733847,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002,
      "loss": 0.522,
      "step": 1376
    },
    {
      "epoch": 2.4973928814327815,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 0.4811,
      "step": 1377
    },
    {
      "epoch": 2.4992065291317163,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 0.6697,
      "step": 1378
    },
    {
      "epoch": 2.5010201768306506,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.5963,
      "step": 1379
    },
    {
      "epoch": 2.502833824529585,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002,
      "loss": 0.559,
      "step": 1380
    },
    {
      "epoch": 2.5046474722285197,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002,
      "loss": 0.7922,
      "step": 1381
    },
    {
      "epoch": 2.506461119927454,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 0.7419,
      "step": 1382
    },
    {
      "epoch": 2.5082747676263883,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002,
      "loss": 0.6571,
      "step": 1383
    },
    {
      "epoch": 2.510088415325323,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 0.7513,
      "step": 1384
    },
    {
      "epoch": 2.5119020630242574,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.9424,
      "step": 1385
    },
    {
      "epoch": 2.5137157107231918,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.7791,
      "step": 1386
    },
    {
      "epoch": 2.5155293584221265,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002,
      "loss": 0.5399,
      "step": 1387
    },
    {
      "epoch": 2.517343006121061,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002,
      "loss": 0.6057,
      "step": 1388
    },
    {
      "epoch": 2.519156653819995,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002,
      "loss": 0.5241,
      "step": 1389
    },
    {
      "epoch": 2.52097030151893,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.5913,
      "step": 1390
    },
    {
      "epoch": 2.5227839492178643,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.5719,
      "step": 1391
    },
    {
      "epoch": 2.5245975969167986,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.6204,
      "step": 1392
    },
    {
      "epoch": 2.5264112446157334,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002,
      "loss": 0.5962,
      "step": 1393
    },
    {
      "epoch": 2.5282248923146677,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002,
      "loss": 0.6242,
      "step": 1394
    },
    {
      "epoch": 2.5300385400136025,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002,
      "loss": 0.5991,
      "step": 1395
    },
    {
      "epoch": 2.531852187712537,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0002,
      "loss": 0.8097,
      "step": 1396
    },
    {
      "epoch": 2.533665835411471,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0002,
      "loss": 0.6366,
      "step": 1397
    },
    {
      "epoch": 2.535479483110406,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002,
      "loss": 0.5774,
      "step": 1398
    },
    {
      "epoch": 2.5372931308093403,
      "grad_norm": 0.71875,
      "learning_rate": 0.0002,
      "loss": 0.593,
      "step": 1399
    },
    {
      "epoch": 2.539106778508275,
      "grad_norm": 0.734375,
      "learning_rate": 0.0002,
      "loss": 0.536,
      "step": 1400
    },
    {
      "epoch": 2.5409204262072094,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002,
      "loss": 0.4782,
      "step": 1401
    },
    {
      "epoch": 2.5427340739061437,
      "grad_norm": 1.265625,
      "learning_rate": 0.0002,
      "loss": 0.545,
      "step": 1402
    },
    {
      "epoch": 2.5445477216050785,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002,
      "loss": 0.6112,
      "step": 1403
    },
    {
      "epoch": 2.546361369304013,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0002,
      "loss": 0.7652,
      "step": 1404
    },
    {
      "epoch": 2.548175017002947,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002,
      "loss": 0.8351,
      "step": 1405
    },
    {
      "epoch": 2.549988664701882,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002,
      "loss": 0.6032,
      "step": 1406
    },
    {
      "epoch": 2.5518023124008162,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.7029,
      "step": 1407
    },
    {
      "epoch": 2.5536159600997506,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.5963,
      "step": 1408
    },
    {
      "epoch": 2.5554296077986853,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 0.7733,
      "step": 1409
    },
    {
      "epoch": 2.5572432554976197,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.6283,
      "step": 1410
    },
    {
      "epoch": 2.559056903196554,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002,
      "loss": 0.7276,
      "step": 1411
    },
    {
      "epoch": 2.5608705508954888,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 0.6081,
      "step": 1412
    },
    {
      "epoch": 2.562684198594423,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002,
      "loss": 0.7411,
      "step": 1413
    },
    {
      "epoch": 2.5644978462933574,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.7187,
      "step": 1414
    },
    {
      "epoch": 2.566311493992292,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002,
      "loss": 0.6561,
      "step": 1415
    },
    {
      "epoch": 2.5681251416912265,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002,
      "loss": 0.6726,
      "step": 1416
    },
    {
      "epoch": 2.569938789390161,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002,
      "loss": 0.6496,
      "step": 1417
    },
    {
      "epoch": 2.5717524370890956,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002,
      "loss": 0.6891,
      "step": 1418
    },
    {
      "epoch": 2.57356608478803,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.5526,
      "step": 1419
    },
    {
      "epoch": 2.5753797324869643,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 0.6886,
      "step": 1420
    },
    {
      "epoch": 2.577193380185899,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 0.4891,
      "step": 1421
    },
    {
      "epoch": 2.5790070278848334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.7194,
      "step": 1422
    },
    {
      "epoch": 2.5808206755837677,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 0.9268,
      "step": 1423
    },
    {
      "epoch": 2.5826343232827025,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.7316,
      "step": 1424
    },
    {
      "epoch": 2.584447970981637,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002,
      "loss": 0.6526,
      "step": 1425
    },
    {
      "epoch": 2.586261618680571,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.6687,
      "step": 1426
    },
    {
      "epoch": 2.588075266379506,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.6384,
      "step": 1427
    },
    {
      "epoch": 2.5898889140784402,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002,
      "loss": 0.5795,
      "step": 1428
    },
    {
      "epoch": 2.5917025617773746,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.4843,
      "step": 1429
    },
    {
      "epoch": 2.5935162094763093,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.7464,
      "step": 1430
    },
    {
      "epoch": 2.5953298571752437,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002,
      "loss": 0.8652,
      "step": 1431
    },
    {
      "epoch": 2.597143504874178,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 0.7459,
      "step": 1432
    },
    {
      "epoch": 2.5989571525731128,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002,
      "loss": 0.7258,
      "step": 1433
    },
    {
      "epoch": 2.600770800272047,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002,
      "loss": 0.6179,
      "step": 1434
    },
    {
      "epoch": 2.6025844479709814,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002,
      "loss": 0.576,
      "step": 1435
    },
    {
      "epoch": 2.604398095669916,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002,
      "loss": 0.5428,
      "step": 1436
    },
    {
      "epoch": 2.6062117433688505,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002,
      "loss": 0.6121,
      "step": 1437
    },
    {
      "epoch": 2.608025391067785,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002,
      "loss": 0.5779,
      "step": 1438
    },
    {
      "epoch": 2.6098390387667196,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.6001,
      "step": 1439
    },
    {
      "epoch": 2.611652686465654,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.5256,
      "step": 1440
    },
    {
      "epoch": 2.6134663341645883,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.657,
      "step": 1441
    },
    {
      "epoch": 2.615279981863523,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.6047,
      "step": 1442
    },
    {
      "epoch": 2.6170936295624574,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.575,
      "step": 1443
    },
    {
      "epoch": 2.6189072772613917,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0002,
      "loss": 0.5409,
      "step": 1444
    },
    {
      "epoch": 2.6207209249603265,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002,
      "loss": 0.7094,
      "step": 1445
    },
    {
      "epoch": 2.622534572659261,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 0.5972,
      "step": 1446
    },
    {
      "epoch": 2.624348220358195,
      "grad_norm": 0.703125,
      "learning_rate": 0.0002,
      "loss": 0.6138,
      "step": 1447
    },
    {
      "epoch": 2.62616186805713,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.6968,
      "step": 1448
    },
    {
      "epoch": 2.6279755157560643,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0002,
      "loss": 0.5633,
      "step": 1449
    },
    {
      "epoch": 2.629789163454999,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0002,
      "loss": 0.5877,
      "step": 1450
    },
    {
      "epoch": 2.6316028111539334,
      "grad_norm": 0.8125,
      "learning_rate": 0.0002,
      "loss": 0.5318,
      "step": 1451
    },
    {
      "epoch": 2.6334164588528677,
      "grad_norm": 0.80078125,
      "learning_rate": 0.0002,
      "loss": 0.5594,
      "step": 1452
    },
    {
      "epoch": 2.6352301065518025,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0002,
      "loss": 0.5902,
      "step": 1453
    },
    {
      "epoch": 2.637043754250737,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0002,
      "loss": 0.7951,
      "step": 1454
    },
    {
      "epoch": 2.638857401949671,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002,
      "loss": 0.632,
      "step": 1455
    },
    {
      "epoch": 2.640671049648606,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002,
      "loss": 0.8835,
      "step": 1456
    },
    {
      "epoch": 2.64248469734754,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002,
      "loss": 0.6359,
      "step": 1457
    },
    {
      "epoch": 2.644298345046475,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002,
      "loss": 0.8185,
      "step": 1458
    },
    {
      "epoch": 2.6461119927454093,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.6747,
      "step": 1459
    },
    {
      "epoch": 2.6479256404443436,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.5929,
      "step": 1460
    },
    {
      "epoch": 2.6497392881432784,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.6312,
      "step": 1461
    },
    {
      "epoch": 2.6515529358422127,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002,
      "loss": 0.599,
      "step": 1462
    },
    {
      "epoch": 2.653366583541147,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 0.7996,
      "step": 1463
    },
    {
      "epoch": 2.655180231240082,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002,
      "loss": 0.6373,
      "step": 1464
    },
    {
      "epoch": 2.656993878939016,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002,
      "loss": 0.7737,
      "step": 1465
    },
    {
      "epoch": 2.6588075266379505,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 0.7138,
      "step": 1466
    },
    {
      "epoch": 2.6606211743368853,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002,
      "loss": 0.7139,
      "step": 1467
    },
    {
      "epoch": 2.6624348220358196,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002,
      "loss": 0.618,
      "step": 1468
    },
    {
      "epoch": 2.664248469734754,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002,
      "loss": 0.5913,
      "step": 1469
    },
    {
      "epoch": 2.6660621174336887,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.5219,
      "step": 1470
    },
    {
      "epoch": 2.667875765132623,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002,
      "loss": 0.6674,
      "step": 1471
    },
    {
      "epoch": 2.6696894128315574,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 0.7106,
      "step": 1472
    },
    {
      "epoch": 2.671503060530492,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002,
      "loss": 0.7543,
      "step": 1473
    },
    {
      "epoch": 2.6733167082294265,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002,
      "loss": 0.6318,
      "step": 1474
    },
    {
      "epoch": 2.675130355928361,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 0.5952,
      "step": 1475
    },
    {
      "epoch": 2.6769440036272956,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002,
      "loss": 0.6609,
      "step": 1476
    },
    {
      "epoch": 2.67875765132623,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002,
      "loss": 0.7201,
      "step": 1477
    },
    {
      "epoch": 2.6805712990251642,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002,
      "loss": 0.5909,
      "step": 1478
    },
    {
      "epoch": 2.682384946724099,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 0.557,
      "step": 1479
    },
    {
      "epoch": 2.6841985944230333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002,
      "loss": 0.599,
      "step": 1480
    },
    {
      "epoch": 2.6860122421219677,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 0.665,
      "step": 1481
    },
    {
      "epoch": 2.6878258898209024,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 0.6021,
      "step": 1482
    },
    {
      "epoch": 2.6896395375198368,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.8087,
      "step": 1483
    },
    {
      "epoch": 2.691453185218771,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.9033,
      "step": 1484
    },
    {
      "epoch": 2.693266832917706,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002,
      "loss": 0.6815,
      "step": 1485
    },
    {
      "epoch": 2.69508048061664,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.5643,
      "step": 1486
    },
    {
      "epoch": 2.6968941283155745,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002,
      "loss": 0.6886,
      "step": 1487
    },
    {
      "epoch": 2.6987077760145093,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.5582,
      "step": 1488
    },
    {
      "epoch": 2.7005214237134436,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.6508,
      "step": 1489
    },
    {
      "epoch": 2.702335071412378,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0002,
      "loss": 0.5152,
      "step": 1490
    },
    {
      "epoch": 2.7041487191113127,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.5907,
      "step": 1491
    },
    {
      "epoch": 2.705962366810247,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.633,
      "step": 1492
    },
    {
      "epoch": 2.7077760145091814,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.5772,
      "step": 1493
    },
    {
      "epoch": 2.709589662208116,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 0.5862,
      "step": 1494
    },
    {
      "epoch": 2.7114033099070505,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002,
      "loss": 0.4589,
      "step": 1495
    },
    {
      "epoch": 2.713216957605985,
      "grad_norm": 0.671875,
      "learning_rate": 0.0002,
      "loss": 0.5426,
      "step": 1496
    },
    {
      "epoch": 2.713216957605985,
      "eval_loss": 1.4807531833648682,
      "eval_runtime": 335.3681,
      "eval_samples_per_second": 2.982,
      "eval_steps_per_second": 2.982,
      "step": 1496
    },
    {
      "epoch": 2.713216957605985,
      "mmlu_eval_accuracy": 0.4707630393463833,
      "mmlu_eval_accuracy_abstract_algebra": 0.5454545454545454,
      "mmlu_eval_accuracy_anatomy": 0.35714285714285715,
      "mmlu_eval_accuracy_astronomy": 0.375,
      "mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
      "mmlu_eval_accuracy_clinical_knowledge": 0.3448275862068966,
      "mmlu_eval_accuracy_college_biology": 0.4375,
      "mmlu_eval_accuracy_college_chemistry": 0.25,
      "mmlu_eval_accuracy_college_computer_science": 0.7272727272727273,
      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
      "mmlu_eval_accuracy_college_physics": 0.45454545454545453,
      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
      "mmlu_eval_accuracy_conceptual_physics": 0.46153846153846156,
      "mmlu_eval_accuracy_econometrics": 0.25,
      "mmlu_eval_accuracy_electrical_engineering": 0.3125,
      "mmlu_eval_accuracy_elementary_mathematics": 0.2926829268292683,
      "mmlu_eval_accuracy_formal_logic": 0.2857142857142857,
      "mmlu_eval_accuracy_global_facts": 0.3,
      "mmlu_eval_accuracy_high_school_biology": 0.4375,
      "mmlu_eval_accuracy_high_school_chemistry": 0.36363636363636365,
      "mmlu_eval_accuracy_high_school_computer_science": 0.4444444444444444,
      "mmlu_eval_accuracy_high_school_european_history": 0.5,
      "mmlu_eval_accuracy_high_school_geography": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.3953488372093023,
      "mmlu_eval_accuracy_high_school_mathematics": 0.2413793103448276,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.34615384615384615,
      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
      "mmlu_eval_accuracy_high_school_psychology": 0.7333333333333333,
      "mmlu_eval_accuracy_high_school_statistics": 0.391304347826087,
      "mmlu_eval_accuracy_high_school_us_history": 0.5909090909090909,
      "mmlu_eval_accuracy_high_school_world_history": 0.5384615384615384,
      "mmlu_eval_accuracy_human_aging": 0.4782608695652174,
      "mmlu_eval_accuracy_human_sexuality": 0.5833333333333334,
      "mmlu_eval_accuracy_international_law": 0.6923076923076923,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.7222222222222222,
      "mmlu_eval_accuracy_machine_learning": 0.2727272727272727,
      "mmlu_eval_accuracy_management": 0.7272727272727273,
      "mmlu_eval_accuracy_marketing": 0.8,
      "mmlu_eval_accuracy_medical_genetics": 0.7272727272727273,
      "mmlu_eval_accuracy_miscellaneous": 0.6162790697674418,
      "mmlu_eval_accuracy_moral_disputes": 0.5789473684210527,
      "mmlu_eval_accuracy_moral_scenarios": 0.33,
      "mmlu_eval_accuracy_nutrition": 0.5454545454545454,
      "mmlu_eval_accuracy_philosophy": 0.5294117647058824,
      "mmlu_eval_accuracy_prehistory": 0.42857142857142855,
      "mmlu_eval_accuracy_professional_accounting": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_law": 0.32941176470588235,
      "mmlu_eval_accuracy_professional_medicine": 0.41935483870967744,
      "mmlu_eval_accuracy_professional_psychology": 0.42028985507246375,
      "mmlu_eval_accuracy_public_relations": 0.5,
      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
      "mmlu_eval_accuracy_sociology": 0.6818181818181818,
      "mmlu_eval_accuracy_us_foreign_policy": 0.5454545454545454,
      "mmlu_eval_accuracy_virology": 0.5555555555555556,
      "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
      "mmlu_loss": 1.849967287693983,
      "step": 1496
    },
    {
      "epoch": 2.7150306053049196,
      "grad_norm": 0.703125,
      "learning_rate": 0.0002,
      "loss": 0.595,
      "step": 1497
    },
    {
      "epoch": 2.716844253003854,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0002,
      "loss": 0.6737,
      "step": 1498
    },
    {
      "epoch": 2.7186579007027882,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0002,
      "loss": 0.5539,
      "step": 1499
    },
    {
      "epoch": 2.720471548401723,
      "grad_norm": 0.875,
      "learning_rate": 0.0002,
      "loss": 0.4413,
      "step": 1500
    },
    {
      "epoch": 2.7222851961006573,
      "grad_norm": 0.8359375,
      "learning_rate": 0.0002,
      "loss": 0.6054,
      "step": 1501
    },
    {
      "epoch": 2.7240988437995917,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0002,
      "loss": 0.5341,
      "step": 1502
    },
    {
      "epoch": 2.7259124914985264,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0002,
      "loss": 0.6774,
      "step": 1503
    },
    {
      "epoch": 2.7277261391974608,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0002,
      "loss": 0.793,
      "step": 1504
    },
    {
      "epoch": 2.7295397868963955,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 0.7794,
      "step": 1505
    },
    {
      "epoch": 2.73135343459533,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002,
      "loss": 0.6469,
      "step": 1506
    },
    {
      "epoch": 2.733167082294264,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002,
      "loss": 0.7068,
      "step": 1507
    },
    {
      "epoch": 2.734980729993199,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002,
      "loss": 0.7766,
      "step": 1508
    },
    {
      "epoch": 2.7367943776921333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 0.6183,
      "step": 1509
    },
    {
      "epoch": 2.7386080253910676,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 0.8856,
      "step": 1510
    },
    {
      "epoch": 2.7404216730900024,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 0.7288,
      "step": 1511
    },
    {
      "epoch": 2.7422353207889367,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.6813,
      "step": 1512
    },
    {
      "epoch": 2.7440489684878715,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 0.7015,
      "step": 1513
    },
    {
      "epoch": 2.745862616186806,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002,
      "loss": 0.9091,
      "step": 1514
    },
    {
      "epoch": 2.74767626388574,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002,
      "loss": 0.6347,
      "step": 1515
    },
    {
      "epoch": 2.749489911584675,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 0.7462,
      "step": 1516
    },
    {
      "epoch": 2.7513035592836093,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002,
      "loss": 0.7333,
      "step": 1517
    },
    {
      "epoch": 2.7531172069825436,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002,
      "loss": 0.6201,
      "step": 1518
    },
    {
      "epoch": 2.7549308546814784,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.7362,
      "step": 1519
    },
    {
      "epoch": 2.7567445023804127,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002,
      "loss": 0.6779,
      "step": 1520
    },
    {
      "epoch": 2.758558150079347,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 0.5131,
      "step": 1521
    },
    {
      "epoch": 2.760371797778282,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.5747,
      "step": 1522
    },
    {
      "epoch": 2.762185445477216,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.6683,
      "step": 1523
    },
    {
      "epoch": 2.7639990931761504,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.6215,
      "step": 1524
    },
    {
      "epoch": 2.765812740875085,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002,
      "loss": 0.6139,
      "step": 1525
    },
    {
      "epoch": 2.7676263885740195,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002,
      "loss": 0.7055,
      "step": 1526
    },
    {
      "epoch": 2.769440036272954,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 0.7042,
      "step": 1527
    },
    {
      "epoch": 2.7712536839718886,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.6069,
      "step": 1528
    },
    {
      "epoch": 2.773067331670823,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002,
      "loss": 0.5492,
      "step": 1529
    },
    {
      "epoch": 2.7748809793697573,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002,
      "loss": 0.6545,
      "step": 1530
    },
    {
      "epoch": 2.776694627068692,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002,
      "loss": 0.6071,
      "step": 1531
    },
    {
      "epoch": 2.7785082747676264,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002,
      "loss": 0.4305,
      "step": 1532
    },
    {
      "epoch": 2.7803219224665607,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.7272,
      "step": 1533
    },
    {
      "epoch": 2.7821355701654955,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002,
      "loss": 0.651,
      "step": 1534
    },
    {
      "epoch": 2.78394921786443,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002,
      "loss": 0.674,
      "step": 1535
    },
    {
      "epoch": 2.785762865563364,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002,
      "loss": 0.5917,
      "step": 1536
    },
    {
      "epoch": 2.787576513262299,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.7844,
      "step": 1537
    },
    {
      "epoch": 2.7893901609612333,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002,
      "loss": 0.6,
      "step": 1538
    },
    {
      "epoch": 2.7912038086601676,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.5741,
      "step": 1539
    },
    {
      "epoch": 2.7930174563591024,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002,
      "loss": 0.555,
      "step": 1540
    },
    {
      "epoch": 2.7948311040580367,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0002,
      "loss": 0.6956,
      "step": 1541
    },
    {
      "epoch": 2.796644751756971,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 0.6517,
      "step": 1542
    },
    {
      "epoch": 2.798458399455906,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002,
      "loss": 0.6796,
      "step": 1543
    },
    {
      "epoch": 2.80027204715484,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.6682,
      "step": 1544
    },
    {
      "epoch": 2.8020856948537745,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 0.5804,
      "step": 1545
    },
    {
      "epoch": 2.8038993425527092,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0002,
      "loss": 0.5394,
      "step": 1546
    },
    {
      "epoch": 2.8057129902516436,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002,
      "loss": 0.6129,
      "step": 1547
    },
    {
      "epoch": 2.807526637950578,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.5416,
      "step": 1548
    },
    {
      "epoch": 2.8093402856495127,
      "grad_norm": 0.625,
      "learning_rate": 0.0002,
      "loss": 0.4766,
      "step": 1549
    },
    {
      "epoch": 2.811153933348447,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002,
      "loss": 0.4803,
      "step": 1550
    },
    {
      "epoch": 2.8129675810473813,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0002,
      "loss": 0.5418,
      "step": 1551
    },
    {
      "epoch": 2.814781228746316,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0002,
      "loss": 0.583,
      "step": 1552
    },
    {
      "epoch": 2.8165948764452504,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0002,
      "loss": 0.7741,
      "step": 1553
    },
    {
      "epoch": 2.8184085241441847,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002,
      "loss": 0.84,
      "step": 1554
    },
    {
      "epoch": 2.8202221718431195,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002,
      "loss": 0.7673,
      "step": 1555
    },
    {
      "epoch": 2.822035819542054,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002,
      "loss": 0.8785,
      "step": 1556
    },
    {
      "epoch": 2.823849467240988,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.9484,
      "step": 1557
    },
    {
      "epoch": 2.825663114939923,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002,
      "loss": 0.6551,
      "step": 1558
    },
    {
      "epoch": 2.8274767626388573,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 0.749,
      "step": 1559
    },
    {
      "epoch": 2.829290410337792,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.5639,
      "step": 1560
    },
    {
      "epoch": 2.8311040580367264,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002,
      "loss": 0.7192,
      "step": 1561
    },
    {
      "epoch": 2.8329177057356607,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002,
      "loss": 0.6588,
      "step": 1562
    },
    {
      "epoch": 2.8347313534345955,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 0.6781,
      "step": 1563
    },
    {
      "epoch": 2.83654500113353,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002,
      "loss": 0.667,
      "step": 1564
    },
    {
      "epoch": 2.838358648832464,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002,
      "loss": 0.7187,
      "step": 1565
    },
    {
      "epoch": 2.840172296531399,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 0.5025,
      "step": 1566
    },
    {
      "epoch": 2.8419859442303332,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 0.6713,
      "step": 1567
    },
    {
      "epoch": 2.843799591929268,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002,
      "loss": 0.5984,
      "step": 1568
    },
    {
      "epoch": 2.8456132396282023,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002,
      "loss": 0.5913,
      "step": 1569
    },
    {
      "epoch": 2.8474268873271367,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 0.7883,
      "step": 1570
    },
    {
      "epoch": 2.8492405350260714,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.687,
      "step": 1571
    },
    {
      "epoch": 2.8510541827250058,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.8475,
      "step": 1572
    },
    {
      "epoch": 2.85286783042394,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.6608,
      "step": 1573
    },
    {
      "epoch": 2.854681478122875,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.6338,
      "step": 1574
    },
    {
      "epoch": 2.856495125821809,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002,
      "loss": 0.7515,
      "step": 1575
    },
    {
      "epoch": 2.8583087735207435,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.8571,
      "step": 1576
    },
    {
      "epoch": 2.8601224212196783,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.5282,
      "step": 1577
    },
    {
      "epoch": 2.8619360689186126,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.5815,
      "step": 1578
    },
    {
      "epoch": 2.863749716617547,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.5947,
      "step": 1579
    },
    {
      "epoch": 2.8655633643164817,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002,
      "loss": 0.6197,
      "step": 1580
    },
    {
      "epoch": 2.867377012015416,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.5197,
      "step": 1581
    },
    {
      "epoch": 2.8691906597143504,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 0.6729,
      "step": 1582
    },
    {
      "epoch": 2.871004307413285,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002,
      "loss": 0.6276,
      "step": 1583
    },
    {
      "epoch": 2.8728179551122195,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 0.6734,
      "step": 1584
    },
    {
      "epoch": 2.874631602811154,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002,
      "loss": 0.5382,
      "step": 1585
    },
    {
      "epoch": 2.8764452505100886,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.6513,
      "step": 1586
    },
    {
      "epoch": 2.878258898209023,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.543,
      "step": 1587
    },
    {
      "epoch": 2.8800725459079572,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002,
      "loss": 0.5955,
      "step": 1588
    },
    {
      "epoch": 2.881886193606892,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.7455,
      "step": 1589
    },
    {
      "epoch": 2.8836998413058264,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 0.6076,
      "step": 1590
    },
    {
      "epoch": 2.8855134890047607,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.6181,
      "step": 1591
    },
    {
      "epoch": 2.8873271367036955,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002,
      "loss": 0.5689,
      "step": 1592
    },
    {
      "epoch": 2.88914078440263,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002,
      "loss": 0.6142,
      "step": 1593
    },
    {
      "epoch": 2.890954432101564,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0002,
      "loss": 0.6557,
      "step": 1594
    },
    {
      "epoch": 2.892768079800499,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002,
      "loss": 0.6046,
      "step": 1595
    },
    {
      "epoch": 2.894581727499433,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0002,
      "loss": 0.6362,
      "step": 1596
    },
    {
      "epoch": 2.8963953751983675,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0002,
      "loss": 0.5845,
      "step": 1597
    },
    {
      "epoch": 2.8982090228973023,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.611,
      "step": 1598
    },
    {
      "epoch": 2.9000226705962366,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0002,
      "loss": 0.7133,
      "step": 1599
    },
    {
      "epoch": 2.901836318295171,
      "grad_norm": 0.82421875,
      "learning_rate": 0.0002,
      "loss": 0.5575,
      "step": 1600
    },
    {
      "epoch": 2.9036499659941057,
      "grad_norm": 0.859375,
      "learning_rate": 0.0002,
      "loss": 0.7726,
      "step": 1601
    },
    {
      "epoch": 2.90546361369304,
      "grad_norm": 0.75,
      "learning_rate": 0.0002,
      "loss": 0.5945,
      "step": 1602
    },
    {
      "epoch": 2.9072772613919744,
      "grad_norm": 0.87890625,
      "learning_rate": 0.0002,
      "loss": 0.6403,
      "step": 1603
    },
    {
      "epoch": 2.909090909090909,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002,
      "loss": 0.7485,
      "step": 1604
    },
    {
      "epoch": 2.9109045567898435,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.6653,
      "step": 1605
    },
    {
      "epoch": 2.912718204488778,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002,
      "loss": 0.6685,
      "step": 1606
    },
    {
      "epoch": 2.9145318521877126,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002,
      "loss": 0.6683,
      "step": 1607
    },
    {
      "epoch": 2.916345499886647,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.7517,
      "step": 1608
    },
    {
      "epoch": 2.9181591475855813,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002,
      "loss": 0.6245,
      "step": 1609
    },
    {
      "epoch": 2.919972795284516,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.6928,
      "step": 1610
    },
    {
      "epoch": 2.9217864429834504,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.6665,
      "step": 1611
    },
    {
      "epoch": 2.9236000906823847,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002,
      "loss": 0.6695,
      "step": 1612
    },
    {
      "epoch": 2.9254137383813195,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002,
      "loss": 0.8383,
      "step": 1613
    },
    {
      "epoch": 2.927227386080254,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 0.7771,
      "step": 1614
    },
    {
      "epoch": 2.929041033779188,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002,
      "loss": 0.5941,
      "step": 1615
    },
    {
      "epoch": 2.930854681478123,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002,
      "loss": 0.8044,
      "step": 1616
    },
    {
      "epoch": 2.932668329177057,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 0.5782,
      "step": 1617
    },
    {
      "epoch": 2.934481976875992,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.7692,
      "step": 1618
    },
    {
      "epoch": 2.9362956245749263,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002,
      "loss": 0.5978,
      "step": 1619
    },
    {
      "epoch": 2.9381092722738607,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.7701,
      "step": 1620
    },
    {
      "epoch": 2.9399229199727954,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.658,
      "step": 1621
    },
    {
      "epoch": 2.9417365676717298,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 0.7257,
      "step": 1622
    },
    {
      "epoch": 2.9435502153706645,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002,
      "loss": 0.757,
      "step": 1623
    },
    {
      "epoch": 2.945363863069599,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 0.5674,
      "step": 1624
    },
    {
      "epoch": 2.947177510768533,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002,
      "loss": 0.6135,
      "step": 1625
    },
    {
      "epoch": 2.948991158467468,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002,
      "loss": 0.5926,
      "step": 1626
    },
    {
      "epoch": 2.9508048061664023,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002,
      "loss": 0.7048,
      "step": 1627
    },
    {
      "epoch": 2.9526184538653366,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002,
      "loss": 0.4792,
      "step": 1628
    },
    {
      "epoch": 2.9544321015642714,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 0.5757,
      "step": 1629
    },
    {
      "epoch": 2.9562457492632057,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002,
      "loss": 0.8692,
      "step": 1630
    },
    {
      "epoch": 2.95805939696214,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002,
      "loss": 0.7144,
      "step": 1631
    },
    {
      "epoch": 2.959873044661075,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002,
      "loss": 0.6815,
      "step": 1632
    },
    {
      "epoch": 2.961686692360009,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002,
      "loss": 0.4795,
      "step": 1633
    },
    {
      "epoch": 2.9635003400589435,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002,
      "loss": 0.6264,
      "step": 1634
    },
    {
      "epoch": 2.9653139877578782,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 0.6922,
      "step": 1635
    },
    {
      "epoch": 2.9671276354568126,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.7157,
      "step": 1636
    },
    {
      "epoch": 2.968941283155747,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.674,
      "step": 1637
    },
    {
      "epoch": 2.9707549308546817,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0002,
      "loss": 0.5496,
      "step": 1638
    },
    {
      "epoch": 2.972568578553616,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 0.7338,
      "step": 1639
    },
    {
      "epoch": 2.9743822262525503,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 0.7721,
      "step": 1640
    },
    {
      "epoch": 2.976195873951485,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.6185,
      "step": 1641
    },
    {
      "epoch": 2.9780095216504194,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.5771,
      "step": 1642
    },
    {
      "epoch": 2.9798231693493538,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.5364,
      "step": 1643
    },
    {
      "epoch": 2.9816368170482885,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0002,
      "loss": 0.6215,
      "step": 1644
    },
    {
      "epoch": 2.983450464747223,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002,
      "loss": 0.5292,
      "step": 1645
    },
    {
      "epoch": 2.985264112446157,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0002,
      "loss": 0.7529,
      "step": 1646
    },
    {
      "epoch": 2.987077760145092,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002,
      "loss": 0.5533,
      "step": 1647
    },
    {
      "epoch": 2.9888914078440263,
      "grad_norm": 0.8125,
      "learning_rate": 0.0002,
      "loss": 0.6004,
      "step": 1648
    },
    {
      "epoch": 2.9907050555429606,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0002,
      "loss": 0.5971,
      "step": 1649
    },
    {
      "epoch": 2.9925187032418954,
      "grad_norm": 0.89453125,
      "learning_rate": 0.0002,
      "loss": 0.6271,
      "step": 1650
    },
    {
      "epoch": 2.9943323509408297,
      "grad_norm": 0.8203125,
      "learning_rate": 0.0002,
      "loss": 0.6778,
      "step": 1651
    },
    {
      "epoch": 2.996145998639764,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0002,
      "loss": 0.653,
      "step": 1652
    },
    {
      "epoch": 2.997959646338699,
      "grad_norm": 1.0,
      "learning_rate": 0.0002,
      "loss": 0.6482,
      "step": 1653
    },
    {
      "epoch": 2.999773294037633,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0002,
      "loss": 0.7276,
      "step": 1654
    },
    {
      "epoch": 3.0015869417365675,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 0.5583,
      "step": 1655
    },
    {
      "epoch": 3.0034005894355023,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002,
      "loss": 0.3957,
      "step": 1656
    },
    {
      "epoch": 3.0052142371344366,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002,
      "loss": 0.3502,
      "step": 1657
    },
    {
      "epoch": 3.007027884833371,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002,
      "loss": 0.4133,
      "step": 1658
    },
    {
      "epoch": 3.0088415325323057,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 0.4515,
      "step": 1659
    },
    {
      "epoch": 3.01065518023124,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 0.3515,
      "step": 1660
    },
    {
      "epoch": 3.0124688279301743,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.4079,
      "step": 1661
    },
    {
      "epoch": 3.014282475629109,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002,
      "loss": 0.4385,
      "step": 1662
    },
    {
      "epoch": 3.0160961233280434,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002,
      "loss": 0.3811,
      "step": 1663
    },
    {
      "epoch": 3.017909771026978,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.3985,
      "step": 1664
    },
    {
      "epoch": 3.0197234187259125,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.4352,
      "step": 1665
    },
    {
      "epoch": 3.021537066424847,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002,
      "loss": 0.4375,
      "step": 1666
    },
    {
      "epoch": 3.0233507141237816,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002,
      "loss": 0.3604,
      "step": 1667
    },
    {
      "epoch": 3.025164361822716,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002,
      "loss": 0.385,
      "step": 1668
    },
    {
      "epoch": 3.0269780095216503,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 0.3814,
      "step": 1669
    },
    {
      "epoch": 3.028791657220585,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002,
      "loss": 0.3191,
      "step": 1670
    },
    {
      "epoch": 3.0306053049195194,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.3565,
      "step": 1671
    },
    {
      "epoch": 3.0324189526184537,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002,
      "loss": 0.395,
      "step": 1672
    },
    {
      "epoch": 3.0342326003173885,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002,
      "loss": 0.3796,
      "step": 1673
    },
    {
      "epoch": 3.036046248016323,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002,
      "loss": 0.3948,
      "step": 1674
    },
    {
      "epoch": 3.037859895715257,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.3672,
      "step": 1675
    },
    {
      "epoch": 3.039673543414192,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 0.3753,
      "step": 1676
    },
    {
      "epoch": 3.0414871911131263,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002,
      "loss": 0.2984,
      "step": 1677
    },
    {
      "epoch": 3.0433008388120606,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002,
      "loss": 0.4428,
      "step": 1678
    },
    {
      "epoch": 3.0451144865109954,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002,
      "loss": 0.4096,
      "step": 1679
    },
    {
      "epoch": 3.0469281342099297,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002,
      "loss": 0.3934,
      "step": 1680
    },
    {
      "epoch": 3.048741781908864,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0002,
      "loss": 0.2913,
      "step": 1681
    },
    {
      "epoch": 3.050555429607799,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002,
      "loss": 0.3877,
      "step": 1682
    },
    {
      "epoch": 3.052369077306733,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0002,
      "loss": 0.2964,
      "step": 1683
    },
    {
      "epoch": 3.052369077306733,
      "eval_loss": 1.578015923500061,
      "eval_runtime": 334.6238,
      "eval_samples_per_second": 2.988,
      "eval_steps_per_second": 2.988,
      "step": 1683
    },
    {
      "epoch": 3.052369077306733,
      "mmlu_eval_accuracy": 0.46273276983367584,
      "mmlu_eval_accuracy_abstract_algebra": 0.45454545454545453,
      "mmlu_eval_accuracy_anatomy": 0.35714285714285715,
      "mmlu_eval_accuracy_astronomy": 0.4375,
      "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
      "mmlu_eval_accuracy_clinical_knowledge": 0.3103448275862069,
      "mmlu_eval_accuracy_college_biology": 0.3125,
      "mmlu_eval_accuracy_college_chemistry": 0.25,
      "mmlu_eval_accuracy_college_computer_science": 0.7272727272727273,
      "mmlu_eval_accuracy_college_mathematics": 0.09090909090909091,
      "mmlu_eval_accuracy_college_medicine": 0.45454545454545453,
      "mmlu_eval_accuracy_college_physics": 0.45454545454545453,
      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
      "mmlu_eval_accuracy_econometrics": 0.25,
      "mmlu_eval_accuracy_electrical_engineering": 0.375,
      "mmlu_eval_accuracy_elementary_mathematics": 0.3170731707317073,
      "mmlu_eval_accuracy_formal_logic": 0.2857142857142857,
      "mmlu_eval_accuracy_global_facts": 0.2,
      "mmlu_eval_accuracy_high_school_biology": 0.375,
      "mmlu_eval_accuracy_high_school_chemistry": 0.4090909090909091,
      "mmlu_eval_accuracy_high_school_computer_science": 0.3333333333333333,
      "mmlu_eval_accuracy_high_school_european_history": 0.5,
      "mmlu_eval_accuracy_high_school_geography": 0.5,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6190476190476191,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.32558139534883723,
      "mmlu_eval_accuracy_high_school_mathematics": 0.2413793103448276,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.3076923076923077,
      "mmlu_eval_accuracy_high_school_physics": 0.23529411764705882,
      "mmlu_eval_accuracy_high_school_psychology": 0.75,
      "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
      "mmlu_eval_accuracy_high_school_us_history": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_world_history": 0.5769230769230769,
      "mmlu_eval_accuracy_human_aging": 0.5652173913043478,
      "mmlu_eval_accuracy_human_sexuality": 0.5,
      "mmlu_eval_accuracy_international_law": 0.6923076923076923,
      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
      "mmlu_eval_accuracy_logical_fallacies": 0.7222222222222222,
      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
      "mmlu_eval_accuracy_management": 0.7272727272727273,
      "mmlu_eval_accuracy_marketing": 0.8,
      "mmlu_eval_accuracy_medical_genetics": 0.7272727272727273,
      "mmlu_eval_accuracy_miscellaneous": 0.6046511627906976,
      "mmlu_eval_accuracy_moral_disputes": 0.6052631578947368,
      "mmlu_eval_accuracy_moral_scenarios": 0.28,
      "mmlu_eval_accuracy_nutrition": 0.5757575757575758,
      "mmlu_eval_accuracy_philosophy": 0.5588235294117647,
      "mmlu_eval_accuracy_prehistory": 0.45714285714285713,
      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_law": 0.3235294117647059,
      "mmlu_eval_accuracy_professional_medicine": 0.3548387096774194,
      "mmlu_eval_accuracy_professional_psychology": 0.43478260869565216,
      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
      "mmlu_eval_accuracy_security_studies": 0.5555555555555556,
      "mmlu_eval_accuracy_sociology": 0.6818181818181818,
      "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
      "mmlu_eval_accuracy_virology": 0.5,
      "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
      "mmlu_loss": 2.205612383116156,
      "step": 1683
    },
    {
      "epoch": 3.0541827250056675,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002,
      "loss": 0.2784,
      "step": 1684
    },
    {
      "epoch": 3.0559963727046022,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002,
      "loss": 0.3253,
      "step": 1685
    },
    {
      "epoch": 3.0578100204035366,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 0.3468,
      "step": 1686
    },
    {
      "epoch": 3.059623668102471,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0002,
      "loss": 0.3465,
      "step": 1687
    },
    {
      "epoch": 3.0614373158014057,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 0.3391,
      "step": 1688
    },
    {
      "epoch": 3.06325096350034,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 0.364,
      "step": 1689
    },
    {
      "epoch": 3.0650646111992748,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.3157,
      "step": 1690
    },
    {
      "epoch": 3.066878258898209,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002,
      "loss": 0.2459,
      "step": 1691
    },
    {
      "epoch": 3.0686919065971434,
      "grad_norm": 0.578125,
      "learning_rate": 0.0002,
      "loss": 0.3305,
      "step": 1692
    },
    {
      "epoch": 3.070505554296078,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 0.3138,
      "step": 1693
    },
    {
      "epoch": 3.0723192019950125,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 0.3258,
      "step": 1694
    },
    {
      "epoch": 3.074132849693947,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 0.256,
      "step": 1695
    },
    {
      "epoch": 3.0759464973928816,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.2797,
      "step": 1696
    },
    {
      "epoch": 3.077760145091816,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0002,
      "loss": 0.2892,
      "step": 1697
    },
    {
      "epoch": 3.0795737927907503,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002,
      "loss": 0.3531,
      "step": 1698
    },
    {
      "epoch": 3.081387440489685,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0002,
      "loss": 0.4459,
      "step": 1699
    },
    {
      "epoch": 3.0832010881886194,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002,
      "loss": 0.2795,
      "step": 1700
    },
    {
      "epoch": 3.0850147358875537,
      "grad_norm": 0.765625,
      "learning_rate": 0.0002,
      "loss": 0.3386,
      "step": 1701
    },
    {
      "epoch": 3.0868283835864885,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002,
      "loss": 0.2486,
      "step": 1702
    },
    {
      "epoch": 3.088642031285423,
      "grad_norm": 0.85546875,
      "learning_rate": 0.0002,
      "loss": 0.3485,
      "step": 1703
    },
    {
      "epoch": 3.090455678984357,
      "grad_norm": 1.09375,
      "learning_rate": 0.0002,
      "loss": 0.4671,
      "step": 1704
    },
    {
      "epoch": 3.092269326683292,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 0.5266,
      "step": 1705
    },
    {
      "epoch": 3.0940829743822262,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 0.512,
      "step": 1706
    },
    {
      "epoch": 3.0958966220811606,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002,
      "loss": 0.4227,
      "step": 1707
    },
    {
      "epoch": 3.0977102697800953,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002,
      "loss": 0.3276,
      "step": 1708
    },
    {
      "epoch": 3.0995239174790297,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002,
      "loss": 0.423,
      "step": 1709
    },
    {
      "epoch": 3.101337565177964,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 0.3521,
      "step": 1710
    },
    {
      "epoch": 3.1031512128768988,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.3401,
      "step": 1711
    },
    {
      "epoch": 3.104964860575833,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 0.3745,
      "step": 1712
    },
    {
      "epoch": 3.1067785082747674,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002,
      "loss": 0.4562,
      "step": 1713
    },
    {
      "epoch": 3.108592155973702,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002,
      "loss": 0.3943,
      "step": 1714
    },
    {
      "epoch": 3.1104058036726365,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.3483,
      "step": 1715
    },
    {
      "epoch": 3.112219451371571,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002,
      "loss": 0.3961,
      "step": 1716
    },
    {
      "epoch": 3.1140330990705056,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 0.4591,
      "step": 1717
    },
    {
      "epoch": 3.11584674676944,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 0.3745,
      "step": 1718
    },
    {
      "epoch": 3.1176603944683747,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002,
      "loss": 0.3453,
      "step": 1719
    },
    {
      "epoch": 3.119474042167309,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002,
      "loss": 0.4998,
      "step": 1720
    },
    {
      "epoch": 3.1212876898662434,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002,
      "loss": 0.3946,
      "step": 1721
    },
    {
      "epoch": 3.123101337565178,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002,
      "loss": 0.3271,
      "step": 1722
    },
    {
      "epoch": 3.1249149852641125,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002,
      "loss": 0.4419,
      "step": 1723
    },
    {
      "epoch": 3.126728632963047,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 0.4242,
      "step": 1724
    },
    {
      "epoch": 3.1285422806619816,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 0.3181,
      "step": 1725
    },
    {
      "epoch": 3.130355928360916,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002,
      "loss": 0.3639,
      "step": 1726
    },
    {
      "epoch": 3.1321695760598502,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002,
      "loss": 0.2588,
      "step": 1727
    },
    {
      "epoch": 3.133983223758785,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 0.3231,
      "step": 1728
    },
    {
      "epoch": 3.1357968714577193,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002,
      "loss": 0.3458,
      "step": 1729
    },
    {
      "epoch": 3.1376105191566537,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002,
      "loss": 0.3328,
      "step": 1730
    },
    {
      "epoch": 3.1394241668555884,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002,
      "loss": 0.3487,
      "step": 1731
    },
    {
      "epoch": 3.141237814554523,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.4196,
      "step": 1732
    },
    {
      "epoch": 3.143051462253457,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0002,
      "loss": 0.301,
      "step": 1733
    },
    {
      "epoch": 3.144865109952392,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002,
      "loss": 0.2912,
      "step": 1734
    },
    {
      "epoch": 3.146678757651326,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.3312,
      "step": 1735
    },
    {
      "epoch": 3.1484924053502605,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0002,
      "loss": 0.345,
      "step": 1736
    },
    {
      "epoch": 3.1503060530491953,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.35,
      "step": 1737
    },
    {
      "epoch": 3.1521197007481296,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002,
      "loss": 0.377,
      "step": 1738
    },
    {
      "epoch": 3.153933348447064,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.3813,
      "step": 1739
    },
    {
      "epoch": 3.1557469961459987,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002,
      "loss": 0.2449,
      "step": 1740
    },
    {
      "epoch": 3.157560643844933,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002,
      "loss": 0.3242,
      "step": 1741
    },
    {
      "epoch": 3.1593742915438674,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002,
      "loss": 0.3362,
      "step": 1742
    },
    {
      "epoch": 3.161187939242802,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002,
      "loss": 0.3724,
      "step": 1743
    },
    {
      "epoch": 3.1630015869417365,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002,
      "loss": 0.3336,
      "step": 1744
    },
    {
      "epoch": 3.1648152346406713,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0002,
      "loss": 0.3244,
      "step": 1745
    },
    {
      "epoch": 3.1666288823396056,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 0.2756,
      "step": 1746
    },
    {
      "epoch": 3.16844253003854,
      "grad_norm": 0.71875,
      "learning_rate": 0.0002,
      "loss": 0.3534,
      "step": 1747
    },
    {
      "epoch": 3.1702561777374747,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002,
      "loss": 0.3447,
      "step": 1748
    },
    {
      "epoch": 3.172069825436409,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.2583,
      "step": 1749
    },
    {
      "epoch": 3.1738834731353434,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0002,
      "loss": 0.324,
      "step": 1750
    },
    {
      "epoch": 3.175697120834278,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0002,
      "loss": 0.344,
      "step": 1751
    },
    {
      "epoch": 3.1775107685332125,
      "grad_norm": 0.80859375,
      "learning_rate": 0.0002,
      "loss": 0.335,
      "step": 1752
    },
    {
      "epoch": 3.179324416232147,
      "grad_norm": 0.89453125,
      "learning_rate": 0.0002,
      "loss": 0.3917,
      "step": 1753
    },
    {
      "epoch": 3.1811380639310816,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0002,
      "loss": 0.3621,
      "step": 1754
    },
    {
      "epoch": 3.182951711630016,
      "grad_norm": 0.5,
      "learning_rate": 0.0002,
      "loss": 0.7174,
      "step": 1755
    },
    {
      "epoch": 3.18476535932895,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002,
      "loss": 0.4685,
      "step": 1756
    },
    {
      "epoch": 3.186579007027885,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002,
      "loss": 0.402,
      "step": 1757
    },
    {
      "epoch": 3.1883926547268193,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002,
      "loss": 0.4685,
      "step": 1758
    },
    {
      "epoch": 3.1902063024257536,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002,
      "loss": 0.4574,
      "step": 1759
    },
    {
      "epoch": 3.1920199501246884,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002,
      "loss": 0.3712,
      "step": 1760
    },
    {
      "epoch": 3.1938335978236227,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 0.3353,
      "step": 1761
    },
    {
      "epoch": 3.195647245522557,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002,
      "loss": 0.3228,
      "step": 1762
    },
    {
      "epoch": 3.197460893221492,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002,
      "loss": 0.4208,
      "step": 1763
    },
    {
      "epoch": 3.199274540920426,
      "grad_norm": 0.375,
      "learning_rate": 0.0002,
      "loss": 0.4352,
      "step": 1764
    },
    {
      "epoch": 3.2010881886193605,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002,
      "loss": 0.3913,
      "step": 1765
    },
    {
      "epoch": 3.2029018363182953,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002,
      "loss": 0.4566,
      "step": 1766
    },
    {
      "epoch": 3.2047154840172296,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002,
      "loss": 0.4338,
      "step": 1767
    },
    {
      "epoch": 3.206529131716164,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002,
      "loss": 0.4309,
      "step": 1768
    },
    {
      "epoch": 3.2083427794150987,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.3447,
      "step": 1769
    },
    {
      "epoch": 3.210156427114033,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 0.363,
      "step": 1770
    },
    {
      "epoch": 3.2119700748129674,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002,
      "loss": 0.3302,
      "step": 1771
    },
    {
      "epoch": 3.213783722511902,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.4047,
      "step": 1772
    },
    {
      "epoch": 3.2155973702108365,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002,
      "loss": 0.3512,
      "step": 1773
    },
    {
      "epoch": 3.217411017909771,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 0.3486,
      "step": 1774
    },
    {
      "epoch": 3.2192246656087056,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002,
      "loss": 0.4021,
      "step": 1775
    },
    {
      "epoch": 3.22103831330764,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 0.3874,
      "step": 1776
    },
    {
      "epoch": 3.2228519610065747,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002,
      "loss": 0.4233,
      "step": 1777
    },
    {
      "epoch": 3.224665608705509,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002,
      "loss": 0.3332,
      "step": 1778
    },
    {
      "epoch": 3.2264792564044433,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002,
      "loss": 0.4096,
      "step": 1779
    },
    {
      "epoch": 3.228292904103378,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002,
      "loss": 0.4094,
      "step": 1780
    },
    {
      "epoch": 3.2301065518023124,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0002,
      "loss": 0.4915,
      "step": 1781
    },
    {
      "epoch": 3.2319201995012468,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002,
      "loss": 0.3575,
      "step": 1782
    },
    {
      "epoch": 3.2337338472001815,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0002,
      "loss": 0.3532,
      "step": 1783
    },
    {
      "epoch": 3.235547494899116,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002,
      "loss": 0.3888,
      "step": 1784
    },
    {
      "epoch": 3.23736114259805,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002,
      "loss": 0.3804,
      "step": 1785
    },
    {
      "epoch": 3.239174790296985,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002,
      "loss": 0.3645,
      "step": 1786
    },
    {
      "epoch": 3.2409884379959193,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002,
      "loss": 0.3317,
      "step": 1787
    },
    {
      "epoch": 3.2428020856948536,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002,
      "loss": 0.325,
      "step": 1788
    },
    {
      "epoch": 3.2446157333937884,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 0.3333,
      "step": 1789
    },
    {
      "epoch": 3.2464293810927227,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 0.314,
      "step": 1790
    },
    {
      "epoch": 3.248243028791657,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 0.3062,
      "step": 1791
    },
    {
      "epoch": 3.250056676490592,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.3714,
      "step": 1792
    },
    {
      "epoch": 3.251870324189526,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002,
      "loss": 0.3575,
      "step": 1793
    },
    {
      "epoch": 3.2536839718884605,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0002,
      "loss": 0.3558,
      "step": 1794
    },
    {
      "epoch": 3.2554976195873953,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002,
      "loss": 0.3263,
      "step": 1795
    },
    {
      "epoch": 3.2573112672863296,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0002,
      "loss": 0.3436,
      "step": 1796
    },
    {
      "epoch": 3.2591249149852644,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002,
      "loss": 0.3437,
      "step": 1797
    },
    {
      "epoch": 3.2609385626841987,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.3338,
      "step": 1798
    },
    {
      "epoch": 3.262752210383133,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002,
      "loss": 0.2882,
      "step": 1799
    },
    {
      "epoch": 3.264565858082068,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0002,
      "loss": 0.3399,
      "step": 1800
    },
    {
      "epoch": 3.266379505781002,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0002,
      "loss": 0.351,
      "step": 1801
    },
    {
      "epoch": 3.2681931534799364,
      "grad_norm": 0.921875,
      "learning_rate": 0.0002,
      "loss": 0.3513,
      "step": 1802
    },
    {
      "epoch": 3.270006801178871,
      "grad_norm": 0.79296875,
      "learning_rate": 0.0002,
      "loss": 0.384,
      "step": 1803
    },
    {
      "epoch": 3.2718204488778055,
      "grad_norm": 0.875,
      "learning_rate": 0.0002,
      "loss": 0.4467,
      "step": 1804
    },
    {
      "epoch": 3.27363409657674,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002,
      "loss": 0.5396,
      "step": 1805
    },
    {
      "epoch": 3.2754477442756746,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002,
      "loss": 0.3675,
      "step": 1806
    },
    {
      "epoch": 3.277261391974609,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002,
      "loss": 0.4678,
      "step": 1807
    },
    {
      "epoch": 3.2790750396735433,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002,
      "loss": 0.4647,
      "step": 1808
    },
    {
      "epoch": 3.280888687372478,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002,
      "loss": 0.4526,
      "step": 1809
    },
    {
      "epoch": 3.2827023350714124,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002,
      "loss": 0.4692,
      "step": 1810
    },
    {
      "epoch": 3.2845159827703467,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002,
      "loss": 0.5208,
      "step": 1811
    },
    {
      "epoch": 3.2863296304692815,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 0.3512,
      "step": 1812
    },
    {
      "epoch": 3.288143278168216,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002,
      "loss": 0.401,
      "step": 1813
    },
    {
      "epoch": 3.28995692586715,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002,
      "loss": 0.4792,
      "step": 1814
    },
    {
      "epoch": 3.291770573566085,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 0.3802,
      "step": 1815
    },
    {
      "epoch": 3.2935842212650193,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.484,
      "step": 1816
    },
    {
      "epoch": 3.2953978689639536,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002,
      "loss": 0.423,
      "step": 1817
    },
    {
      "epoch": 3.2972115166628884,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.4262,
      "step": 1818
    },
    {
      "epoch": 3.2990251643618227,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002,
      "loss": 0.4401,
      "step": 1819
    },
    {
      "epoch": 3.300838812060757,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002,
      "loss": 0.3486,
      "step": 1820
    },
    {
      "epoch": 3.302652459759692,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002,
      "loss": 0.4294,
      "step": 1821
    },
    {
      "epoch": 3.304466107458626,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002,
      "loss": 0.2691,
      "step": 1822
    },
    {
      "epoch": 3.3062797551575605,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002,
      "loss": 0.3644,
      "step": 1823
    },
    {
      "epoch": 3.3080934028564952,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.3335,
      "step": 1824
    },
    {
      "epoch": 3.3099070505554296,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002,
      "loss": 0.3286,
      "step": 1825
    },
    {
      "epoch": 3.311720698254364,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002,
      "loss": 0.4034,
      "step": 1826
    },
    {
      "epoch": 3.3135343459532987,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002,
      "loss": 0.3581,
      "step": 1827
    },
    {
      "epoch": 3.315347993652233,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002,
      "loss": 0.3617,
      "step": 1828
    },
    {
      "epoch": 3.3171616413511673,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002,
      "loss": 0.4055,
      "step": 1829
    },
    {
      "epoch": 3.318975289050102,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002,
      "loss": 0.3746,
      "step": 1830
    },
    {
      "epoch": 3.3207889367490364,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002,
      "loss": 0.3126,
      "step": 1831
    },
    {
      "epoch": 3.3226025844479707,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.3473,
      "step": 1832
    },
    {
      "epoch": 3.3244162321469055,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002,
      "loss": 0.3057,
      "step": 1833
    },
    {
      "epoch": 3.32622987984584,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002,
      "loss": 0.343,
      "step": 1834
    },
    {
      "epoch": 3.3280435275447746,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002,
      "loss": 0.3221,
      "step": 1835
    },
    {
      "epoch": 3.329857175243709,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002,
      "loss": 0.3425,
      "step": 1836
    },
    {
      "epoch": 3.3316708229426433,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002,
      "loss": 0.3739,
      "step": 1837
    },
    {
      "epoch": 3.333484470641578,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0002,
      "loss": 0.3712,
      "step": 1838
    },
    {
      "epoch": 3.3352981183405124,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0002,
      "loss": 0.3016,
      "step": 1839
    },
    {
      "epoch": 3.3371117660394467,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.373,
      "step": 1840
    },
    {
      "epoch": 3.3389254137383815,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002,
      "loss": 0.2939,
      "step": 1841
    },
    {
      "epoch": 3.340739061437316,
      "grad_norm": 0.671875,
      "learning_rate": 0.0002,
      "loss": 0.3016,
      "step": 1842
    },
    {
      "epoch": 3.34255270913625,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0002,
      "loss": 0.2472,
      "step": 1843
    },
    {
      "epoch": 3.344366356835185,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002,
      "loss": 0.3222,
      "step": 1844
    },
    {
      "epoch": 3.3461800045341192,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002,
      "loss": 0.2347,
      "step": 1845
    },
    {
      "epoch": 3.3479936522330536,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002,
      "loss": 0.3627,
      "step": 1846
    },
    {
      "epoch": 3.3498072999319883,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002,
      "loss": 0.2614,
      "step": 1847
    },
    {
      "epoch": 3.3516209476309227,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002,
      "loss": 0.3269,
      "step": 1848
    },
    {
      "epoch": 3.353434595329857,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0002,
      "loss": 0.3228,
      "step": 1849
    },
    {
      "epoch": 3.3552482430287918,
      "grad_norm": 0.84375,
      "learning_rate": 0.0002,
      "loss": 0.3037,
      "step": 1850
    },
    {
      "epoch": 3.357061890727726,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002,
      "loss": 0.3182,
      "step": 1851
    },
    {
      "epoch": 3.358875538426661,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002,
      "loss": 0.2513,
      "step": 1852
    },
    {
      "epoch": 3.360689186125595,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002,
      "loss": 0.3448,
      "step": 1853
    },
    {
      "epoch": 3.3625028338245295,
      "grad_norm": 0.84375,
      "learning_rate": 0.0002,
      "loss": 0.3682,
      "step": 1854
    },
    {
      "epoch": 3.3643164815234643,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002,
      "loss": 0.5035,
      "step": 1855
    },
    {
      "epoch": 3.3661301292223986,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002,
      "loss": 0.5522,
      "step": 1856
    },
    {
      "epoch": 3.367943776921333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002,
      "loss": 0.3177,
      "step": 1857
    },
    {
      "epoch": 3.3697574246202677,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002,
      "loss": 0.4705,
      "step": 1858
    },
    {
      "epoch": 3.371571072319202,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002,
      "loss": 0.378,
      "step": 1859
    },
    {
      "epoch": 3.3733847200181364,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002,
      "loss": 0.4798,
      "step": 1860
    },
    {
      "epoch": 3.375198367717071,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002,
      "loss": 0.3687,
      "step": 1861
    },
    {
      "epoch": 3.3770120154160055,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002,
      "loss": 0.3765,
      "step": 1862
    },
    {
      "epoch": 3.37882566311494,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002,
      "loss": 0.4794,
      "step": 1863
    },
    {
      "epoch": 3.3806393108138746,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002,
      "loss": 0.2965,
      "step": 1864
    },
    {
      "epoch": 3.382452958512809,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0002,
      "loss": 0.486,
      "step": 1865
    },
    {
      "epoch": 3.3842666062117432,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002,
      "loss": 0.4329,
      "step": 1866
    },
    {
      "epoch": 3.386080253910678,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.4273,
      "step": 1867
    },
    {
      "epoch": 3.3878939016096123,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002,
      "loss": 0.4726,
      "step": 1868
    },
    {
      "epoch": 3.3897075493085467,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002,
      "loss": 0.3096,
      "step": 1869
    },
    {
      "epoch": 3.3915211970074814,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002,
      "loss": 0.3246,
      "step": 1870
    },
    {
      "epoch": 3.3915211970074814,
      "eval_loss": 1.4926800727844238,
      "eval_runtime": 332.3531,
      "eval_samples_per_second": 3.009,
      "eval_steps_per_second": 3.009,
      "step": 1870
    },
    {
      "epoch": 3.3915211970074814,
      "mmlu_eval_accuracy": 0.46255735039077966,
      "mmlu_eval_accuracy_abstract_algebra": 0.5454545454545454,
      "mmlu_eval_accuracy_anatomy": 0.42857142857142855,
      "mmlu_eval_accuracy_astronomy": 0.375,
      "mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
      "mmlu_eval_accuracy_clinical_knowledge": 0.27586206896551724,
      "mmlu_eval_accuracy_college_biology": 0.375,
      "mmlu_eval_accuracy_college_chemistry": 0.375,
      "mmlu_eval_accuracy_college_computer_science": 0.7272727272727273,
      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
      "mmlu_eval_accuracy_computer_security": 0.36363636363636365,
      "mmlu_eval_accuracy_conceptual_physics": 0.46153846153846156,
      "mmlu_eval_accuracy_econometrics": 0.25,
      "mmlu_eval_accuracy_electrical_engineering": 0.5,
      "mmlu_eval_accuracy_elementary_mathematics": 0.36585365853658536,
      "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
      "mmlu_eval_accuracy_global_facts": 0.1,
      "mmlu_eval_accuracy_high_school_biology": 0.34375,
      "mmlu_eval_accuracy_high_school_chemistry": 0.3181818181818182,
      "mmlu_eval_accuracy_high_school_computer_science": 0.4444444444444444,
      "mmlu_eval_accuracy_high_school_european_history": 0.4444444444444444,
      "mmlu_eval_accuracy_high_school_geography": 0.45454545454545453,
      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6190476190476191,
      "mmlu_eval_accuracy_high_school_macroeconomics": 0.37209302325581395,
      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
      "mmlu_eval_accuracy_high_school_microeconomics": 0.4230769230769231,
      "mmlu_eval_accuracy_high_school_physics": 0.35294117647058826,
      "mmlu_eval_accuracy_high_school_psychology": 0.7,
      "mmlu_eval_accuracy_high_school_statistics": 0.43478260869565216,
      "mmlu_eval_accuracy_high_school_us_history": 0.5454545454545454,
      "mmlu_eval_accuracy_high_school_world_history": 0.6153846153846154,
      "mmlu_eval_accuracy_human_aging": 0.5652173913043478,
      "mmlu_eval_accuracy_human_sexuality": 0.6666666666666666,
      "mmlu_eval_accuracy_international_law": 0.6153846153846154,
      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
      "mmlu_eval_accuracy_logical_fallacies": 0.7222222222222222,
      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
      "mmlu_eval_accuracy_management": 0.5454545454545454,
      "mmlu_eval_accuracy_marketing": 0.8,
      "mmlu_eval_accuracy_medical_genetics": 0.7272727272727273,
      "mmlu_eval_accuracy_miscellaneous": 0.6395348837209303,
      "mmlu_eval_accuracy_moral_disputes": 0.5263157894736842,
      "mmlu_eval_accuracy_moral_scenarios": 0.22,
      "mmlu_eval_accuracy_nutrition": 0.6666666666666666,
      "mmlu_eval_accuracy_philosophy": 0.47058823529411764,
      "mmlu_eval_accuracy_prehistory": 0.4,
      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_law": 0.3411764705882353,
      "mmlu_eval_accuracy_professional_medicine": 0.3870967741935484,
      "mmlu_eval_accuracy_professional_psychology": 0.43478260869565216,
      "mmlu_eval_accuracy_public_relations": 0.5,
      "mmlu_eval_accuracy_security_studies": 0.48148148148148145,
      "mmlu_eval_accuracy_sociology": 0.5909090909090909,
      "mmlu_eval_accuracy_us_foreign_policy": 0.5454545454545454,
      "mmlu_eval_accuracy_virology": 0.5,
      "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
      "mmlu_loss": 2.2512931882128226,
      "step": 1870
    },
    {
      "epoch": 3.3933348447064158,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002,
      "loss": 0.3457,
      "step": 1871
    },
    {
      "epoch": 3.39514849240535,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002,
      "loss": 0.3519,
      "step": 1872
    },
    {
      "epoch": 3.396962140104285,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002,
      "loss": 0.3572,
      "step": 1873
    },
    {
      "epoch": 3.398775787803219,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002,
      "loss": 0.3549,
      "step": 1874
    },
    {
      "epoch": 3.4005894355021535,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002,
      "loss": 0.3603,
      "step": 1875
    },
    {
      "epoch": 3.4005894355021535,
      "step": 1875,
      "total_flos": 8.246064732932506e+17,
      "train_loss": 0.8989817124764125,
      "train_runtime": 128394.3068,
      "train_samples_per_second": 0.234,
      "train_steps_per_second": 0.015
    }
  ],
  "logging_steps": 1,
  "max_steps": 1875,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.246064732932506e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}