{ "best_metric": null, "best_model_checkpoint": null, "epoch": 4.0, "eval_steps": 50, "global_step": 3000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "eval_loss": 2.2441093921661377, "eval_runtime": 2.1394, "eval_samples_per_second": 72.919, "eval_steps_per_second": 3.739, "step": 2 }, { "epoch": 0.06666666666666667, "grad_norm": 13.812788009643555, "learning_rate": 2.222222222222222e-06, "loss": 1.4545, "step": 50 }, { "epoch": 0.06666666666666667, "eval_loss": 0.7968010902404785, "eval_runtime": 1.9308, "eval_samples_per_second": 80.794, "eval_steps_per_second": 4.143, "step": 50 }, { "epoch": 0.13333333333333333, "grad_norm": 14.612204551696777, "learning_rate": 4.444444444444444e-06, "loss": 0.6877, "step": 100 }, { "epoch": 0.13333333333333333, "eval_loss": 0.7099941968917847, "eval_runtime": 1.9396, "eval_samples_per_second": 80.427, "eval_steps_per_second": 4.124, "step": 100 }, { "epoch": 0.2, "grad_norm": 6.911639213562012, "learning_rate": 6.666666666666667e-06, "loss": 0.6406, "step": 150 }, { "epoch": 0.2, "eval_loss": 0.7064129710197449, "eval_runtime": 1.9386, "eval_samples_per_second": 80.47, "eval_steps_per_second": 4.127, "step": 150 }, { "epoch": 0.26666666666666666, "grad_norm": 4.795286655426025, "learning_rate": 8.888888888888888e-06, "loss": 0.6159, "step": 200 }, { "epoch": 0.26666666666666666, "eval_loss": 0.7062311172485352, "eval_runtime": 1.937, "eval_samples_per_second": 80.535, "eval_steps_per_second": 4.13, "step": 200 }, { "epoch": 0.3333333333333333, "grad_norm": 3.772829055786133, "learning_rate": 1.1111111111111113e-05, "loss": 0.645, "step": 250 }, { "epoch": 0.3333333333333333, "eval_loss": 0.7101395726203918, "eval_runtime": 1.9368, "eval_samples_per_second": 80.545, "eval_steps_per_second": 4.131, "step": 250 }, { "epoch": 0.4, "grad_norm": 3.455453395843506, "learning_rate": 1.3333333333333333e-05, "loss": 0.6779, "step": 300 }, { "epoch": 0.4, "eval_loss": 0.7204328179359436, "eval_runtime": 1.9515, "eval_samples_per_second": 79.937, "eval_steps_per_second": 4.099, "step": 300 }, { "epoch": 0.4666666666666667, "grad_norm": 3.8921704292297363, "learning_rate": 1.555555555555556e-05, "loss": 0.6739, "step": 350 }, { "epoch": 0.4666666666666667, "eval_loss": 0.7367281317710876, "eval_runtime": 1.9424, "eval_samples_per_second": 80.313, "eval_steps_per_second": 4.119, "step": 350 }, { "epoch": 0.5333333333333333, "grad_norm": 3.5156171321868896, "learning_rate": 1.7777777777777777e-05, "loss": 0.6666, "step": 400 }, { "epoch": 0.5333333333333333, "eval_loss": 0.7475255131721497, "eval_runtime": 1.9493, "eval_samples_per_second": 80.028, "eval_steps_per_second": 4.104, "step": 400 }, { "epoch": 0.6, "grad_norm": 2.8510982990264893, "learning_rate": 2e-05, "loss": 0.678, "step": 450 }, { "epoch": 0.6, "eval_loss": 0.7600880861282349, "eval_runtime": 1.9393, "eval_samples_per_second": 80.442, "eval_steps_per_second": 4.125, "step": 450 }, { "epoch": 0.6666666666666666, "grad_norm": 3.131458282470703, "learning_rate": 1.9992479525042305e-05, "loss": 0.6761, "step": 500 }, { "epoch": 0.6666666666666666, "eval_loss": 0.7700127363204956, "eval_runtime": 1.9451, "eval_samples_per_second": 80.203, "eval_steps_per_second": 4.113, "step": 500 }, { "epoch": 0.7333333333333333, "grad_norm": 2.8056657314300537, "learning_rate": 1.996992941167792e-05, "loss": 0.7065, "step": 550 }, { "epoch": 0.7333333333333333, "eval_loss": 0.7661844491958618, "eval_runtime": 1.985, "eval_samples_per_second": 78.589, "eval_steps_per_second": 4.03, "step": 550 }, { "epoch": 0.8, "grad_norm": 2.530026912689209, "learning_rate": 1.9932383577419432e-05, "loss": 0.7292, "step": 600 }, { "epoch": 0.8, "eval_loss": 0.7726808190345764, "eval_runtime": 1.9778, "eval_samples_per_second": 78.876, "eval_steps_per_second": 4.045, "step": 600 }, { "epoch": 0.8666666666666667, "grad_norm": 3.747391700744629, "learning_rate": 1.9879898494768093e-05, "loss": 0.7048, "step": 650 }, { "epoch": 0.8666666666666667, "eval_loss": 0.77761310338974, "eval_runtime": 1.9355, "eval_samples_per_second": 80.6, "eval_steps_per_second": 4.133, "step": 650 }, { "epoch": 0.9333333333333333, "grad_norm": 2.626871347427368, "learning_rate": 1.9812553106273848e-05, "loss": 0.7399, "step": 700 }, { "epoch": 0.9333333333333333, "eval_loss": 0.7751242518424988, "eval_runtime": 1.9443, "eval_samples_per_second": 80.235, "eval_steps_per_second": 4.115, "step": 700 }, { "epoch": 1.0, "grad_norm": 2.370767831802368, "learning_rate": 1.973044870579824e-05, "loss": 0.6998, "step": 750 }, { "epoch": 1.0, "eval_loss": 0.7795637249946594, "eval_runtime": 1.964, "eval_samples_per_second": 79.43, "eval_steps_per_second": 4.073, "step": 750 }, { "epoch": 1.0666666666666667, "grad_norm": 2.8861231803894043, "learning_rate": 1.9633708786158803e-05, "loss": 0.3823, "step": 800 }, { "epoch": 1.0666666666666667, "eval_loss": 0.8237621784210205, "eval_runtime": 1.9417, "eval_samples_per_second": 80.343, "eval_steps_per_second": 4.12, "step": 800 }, { "epoch": 1.1333333333333333, "grad_norm": 2.800626754760742, "learning_rate": 1.9522478853384154e-05, "loss": 0.3672, "step": 850 }, { "epoch": 1.1333333333333333, "eval_loss": 0.8094993233680725, "eval_runtime": 1.941, "eval_samples_per_second": 80.371, "eval_steps_per_second": 4.122, "step": 850 }, { "epoch": 1.2, "grad_norm": 1.921535611152649, "learning_rate": 1.9396926207859085e-05, "loss": 0.3982, "step": 900 }, { "epoch": 1.2, "eval_loss": 0.8282511830329895, "eval_runtime": 1.9446, "eval_samples_per_second": 80.223, "eval_steps_per_second": 4.114, "step": 900 }, { "epoch": 1.2666666666666666, "grad_norm": 3.1929402351379395, "learning_rate": 1.9257239692688907e-05, "loss": 0.408, "step": 950 }, { "epoch": 1.2666666666666666, "eval_loss": 0.8225230574607849, "eval_runtime": 1.9396, "eval_samples_per_second": 80.428, "eval_steps_per_second": 4.125, "step": 950 }, { "epoch": 1.3333333333333333, "grad_norm": 2.0759708881378174, "learning_rate": 1.9103629409661468e-05, "loss": 0.3856, "step": 1000 }, { "epoch": 1.3333333333333333, "eval_loss": 0.8219059705734253, "eval_runtime": 1.9374, "eval_samples_per_second": 80.521, "eval_steps_per_second": 4.129, "step": 1000 }, { "epoch": 1.4, "grad_norm": 2.7090229988098145, "learning_rate": 1.8936326403234125e-05, "loss": 0.3798, "step": 1050 }, { "epoch": 1.4, "eval_loss": 0.8336038589477539, "eval_runtime": 1.9583, "eval_samples_per_second": 79.66, "eval_steps_per_second": 4.085, "step": 1050 }, { "epoch": 1.4666666666666668, "grad_norm": 3.3651938438415527, "learning_rate": 1.8755582313020912e-05, "loss": 0.3906, "step": 1100 }, { "epoch": 1.4666666666666668, "eval_loss": 0.8176392912864685, "eval_runtime": 1.947, "eval_samples_per_second": 80.123, "eval_steps_per_second": 4.109, "step": 1100 }, { "epoch": 1.5333333333333332, "grad_norm": 2.7494823932647705, "learning_rate": 1.8561668995302668e-05, "loss": 0.4051, "step": 1150 }, { "epoch": 1.5333333333333332, "eval_loss": 0.809560239315033, "eval_runtime": 1.9379, "eval_samples_per_second": 80.499, "eval_steps_per_second": 4.128, "step": 1150 }, { "epoch": 1.6, "grad_norm": 5.4698486328125, "learning_rate": 1.8354878114129368e-05, "loss": 0.3901, "step": 1200 }, { "epoch": 1.6, "eval_loss": 0.902604341506958, "eval_runtime": 1.9678, "eval_samples_per_second": 79.278, "eval_steps_per_second": 4.066, "step": 1200 }, { "epoch": 1.6666666666666665, "grad_norm": 1.4756592512130737, "learning_rate": 1.8135520702629677e-05, "loss": 0.3959, "step": 1250 }, { "epoch": 1.6666666666666665, "eval_loss": 0.822571873664856, "eval_runtime": 1.9359, "eval_samples_per_second": 80.581, "eval_steps_per_second": 4.132, "step": 1250 }, { "epoch": 1.7333333333333334, "grad_norm": 3.273878812789917, "learning_rate": 1.7903926695187595e-05, "loss": 0.4275, "step": 1300 }, { "epoch": 1.7333333333333334, "eval_loss": 0.8240092396736145, "eval_runtime": 1.9541, "eval_samples_per_second": 79.831, "eval_steps_per_second": 4.094, "step": 1300 }, { "epoch": 1.8, "grad_norm": 1.898964762687683, "learning_rate": 1.766044443118978e-05, "loss": 0.4102, "step": 1350 }, { "epoch": 1.8, "eval_loss": 0.8196238875389099, "eval_runtime": 1.9631, "eval_samples_per_second": 79.467, "eval_steps_per_second": 4.075, "step": 1350 }, { "epoch": 1.8666666666666667, "grad_norm": 1.8440319299697876, "learning_rate": 1.740544013109005e-05, "loss": 0.4063, "step": 1400 }, { "epoch": 1.8666666666666667, "eval_loss": 0.826339840888977, "eval_runtime": 1.9444, "eval_samples_per_second": 80.232, "eval_steps_per_second": 4.114, "step": 1400 }, { "epoch": 1.9333333333333333, "grad_norm": 1.9113894701004028, "learning_rate": 1.7139297345578992e-05, "loss": 0.4157, "step": 1450 }, { "epoch": 1.9333333333333333, "eval_loss": 0.809698760509491, "eval_runtime": 1.9623, "eval_samples_per_second": 79.5, "eval_steps_per_second": 4.077, "step": 1450 }, { "epoch": 2.0, "grad_norm": 1.8541122674942017, "learning_rate": 1.686241637868734e-05, "loss": 0.4078, "step": 1500 }, { "epoch": 2.0, "eval_loss": 0.8137311935424805, "eval_runtime": 1.9502, "eval_samples_per_second": 79.991, "eval_steps_per_second": 4.102, "step": 1500 }, { "epoch": 2.066666666666667, "grad_norm": 2.6007161140441895, "learning_rate": 1.657521368569064e-05, "loss": 0.1949, "step": 1550 }, { "epoch": 2.066666666666667, "eval_loss": 0.8720932006835938, "eval_runtime": 1.9736, "eval_samples_per_second": 79.045, "eval_steps_per_second": 4.054, "step": 1550 }, { "epoch": 2.1333333333333333, "grad_norm": 1.146995186805725, "learning_rate": 1.627812124672099e-05, "loss": 0.2022, "step": 1600 }, { "epoch": 2.1333333333333333, "eval_loss": 0.8959416151046753, "eval_runtime": 1.935, "eval_samples_per_second": 80.621, "eval_steps_per_second": 4.134, "step": 1600 }, { "epoch": 2.2, "grad_norm": 1.6238232851028442, "learning_rate": 1.5971585917027864e-05, "loss": 0.2048, "step": 1650 }, { "epoch": 2.2, "eval_loss": 0.9047269821166992, "eval_runtime": 1.9624, "eval_samples_per_second": 79.494, "eval_steps_per_second": 4.077, "step": 1650 }, { "epoch": 2.2666666666666666, "grad_norm": 1.9952141046524048, "learning_rate": 1.5656068754865388e-05, "loss": 0.2025, "step": 1700 }, { "epoch": 2.2666666666666666, "eval_loss": 0.8975375294685364, "eval_runtime": 1.9628, "eval_samples_per_second": 79.479, "eval_steps_per_second": 4.076, "step": 1700 }, { "epoch": 2.3333333333333335, "grad_norm": 2.458026170730591, "learning_rate": 1.5332044328016916e-05, "loss": 0.203, "step": 1750 }, { "epoch": 2.3333333333333335, "eval_loss": 0.9088010787963867, "eval_runtime": 1.9857, "eval_samples_per_second": 78.561, "eval_steps_per_second": 4.029, "step": 1750 }, { "epoch": 2.4, "grad_norm": 0.8629381060600281, "learning_rate": 1.5000000000000002e-05, "loss": 0.2021, "step": 1800 }, { "epoch": 2.4, "eval_loss": 0.9120263457298279, "eval_runtime": 1.974, "eval_samples_per_second": 79.027, "eval_steps_per_second": 4.053, "step": 1800 }, { "epoch": 2.466666666666667, "grad_norm": 1.108939528465271, "learning_rate": 1.4660435197025391e-05, "loss": 0.2105, "step": 1850 }, { "epoch": 2.466666666666667, "eval_loss": 0.8986693024635315, "eval_runtime": 1.9334, "eval_samples_per_second": 80.686, "eval_steps_per_second": 4.138, "step": 1850 }, { "epoch": 2.533333333333333, "grad_norm": 1.5985965728759766, "learning_rate": 1.4313860656812537e-05, "loss": 0.198, "step": 1900 }, { "epoch": 2.533333333333333, "eval_loss": 0.912500262260437, "eval_runtime": 1.9589, "eval_samples_per_second": 79.637, "eval_steps_per_second": 4.084, "step": 1900 }, { "epoch": 2.6, "grad_norm": 1.7191044092178345, "learning_rate": 1.396079766039157e-05, "loss": 0.2036, "step": 1950 }, { "epoch": 2.6, "eval_loss": 0.9057779312133789, "eval_runtime": 1.9653, "eval_samples_per_second": 79.376, "eval_steps_per_second": 4.071, "step": 1950 }, { "epoch": 2.6666666666666665, "grad_norm": 3.347895860671997, "learning_rate": 1.3601777248047105e-05, "loss": 0.2095, "step": 2000 }, { "epoch": 2.6666666666666665, "eval_loss": 0.9151327610015869, "eval_runtime": 1.9423, "eval_samples_per_second": 80.319, "eval_steps_per_second": 4.119, "step": 2000 }, { "epoch": 2.7333333333333334, "grad_norm": 2.2837843894958496, "learning_rate": 1.3237339420583213e-05, "loss": 0.2086, "step": 2050 }, { "epoch": 2.7333333333333334, "eval_loss": 0.8929597735404968, "eval_runtime": 1.9354, "eval_samples_per_second": 80.604, "eval_steps_per_second": 4.134, "step": 2050 }, { "epoch": 2.8, "grad_norm": 1.551108717918396, "learning_rate": 1.2868032327110904e-05, "loss": 0.2193, "step": 2100 }, { "epoch": 2.8, "eval_loss": 0.9003872871398926, "eval_runtime": 1.9656, "eval_samples_per_second": 79.364, "eval_steps_per_second": 4.07, "step": 2100 }, { "epoch": 2.8666666666666667, "grad_norm": 1.4159841537475586, "learning_rate": 1.2494411440579814e-05, "loss": 0.1949, "step": 2150 }, { "epoch": 2.8666666666666667, "eval_loss": 0.908513605594635, "eval_runtime": 1.936, "eval_samples_per_second": 80.577, "eval_steps_per_second": 4.132, "step": 2150 }, { "epoch": 2.9333333333333336, "grad_norm": 1.6562224626541138, "learning_rate": 1.211703872229411e-05, "loss": 0.2101, "step": 2200 }, { "epoch": 2.9333333333333336, "eval_loss": 0.9001446962356567, "eval_runtime": 1.9653, "eval_samples_per_second": 79.377, "eval_steps_per_second": 4.071, "step": 2200 }, { "epoch": 3.0, "grad_norm": 1.3242262601852417, "learning_rate": 1.1736481776669307e-05, "loss": 0.2113, "step": 2250 }, { "epoch": 3.0, "eval_loss": 0.8952978253364563, "eval_runtime": 1.9621, "eval_samples_per_second": 79.505, "eval_steps_per_second": 4.077, "step": 2250 }, { "epoch": 3.066666666666667, "grad_norm": 1.1005603075027466, "learning_rate": 1.1353312997501313e-05, "loss": 0.1217, "step": 2300 }, { "epoch": 3.066666666666667, "eval_loss": 0.9499949216842651, "eval_runtime": 1.9416, "eval_samples_per_second": 80.345, "eval_steps_per_second": 4.12, "step": 2300 }, { "epoch": 3.1333333333333333, "grad_norm": 1.5264954566955566, "learning_rate": 1.0968108707031792e-05, "loss": 0.1258, "step": 2350 }, { "epoch": 3.1333333333333333, "eval_loss": 0.9499000906944275, "eval_runtime": 1.9473, "eval_samples_per_second": 80.109, "eval_steps_per_second": 4.108, "step": 2350 }, { "epoch": 3.2, "grad_norm": 2.8560168743133545, "learning_rate": 1.0581448289104759e-05, "loss": 0.1266, "step": 2400 }, { "epoch": 3.2, "eval_loss": 0.9572532773017883, "eval_runtime": 1.935, "eval_samples_per_second": 80.618, "eval_steps_per_second": 4.134, "step": 2400 }, { "epoch": 3.2666666666666666, "grad_norm": 0.8490918278694153, "learning_rate": 1.0193913317718245e-05, "loss": 0.1317, "step": 2450 }, { "epoch": 3.2666666666666666, "eval_loss": 0.9423532485961914, "eval_runtime": 1.9683, "eval_samples_per_second": 79.257, "eval_steps_per_second": 4.064, "step": 2450 }, { "epoch": 3.3333333333333335, "grad_norm": 1.1821798086166382, "learning_rate": 9.806086682281759e-06, "loss": 0.1302, "step": 2500 }, { "epoch": 3.3333333333333335, "eval_loss": 0.9516943097114563, "eval_runtime": 1.9297, "eval_samples_per_second": 80.841, "eval_steps_per_second": 4.146, "step": 2500 }, { "epoch": 3.4, "grad_norm": 0.8500071167945862, "learning_rate": 9.418551710895243e-06, "loss": 0.131, "step": 2550 }, { "epoch": 3.4, "eval_loss": 0.9390648007392883, "eval_runtime": 1.9424, "eval_samples_per_second": 80.312, "eval_steps_per_second": 4.119, "step": 2550 }, { "epoch": 3.466666666666667, "grad_norm": 0.5849168300628662, "learning_rate": 9.03189129296821e-06, "loss": 0.1275, "step": 2600 }, { "epoch": 3.466666666666667, "eval_loss": 0.9507057070732117, "eval_runtime": 1.9348, "eval_samples_per_second": 80.627, "eval_steps_per_second": 4.135, "step": 2600 }, { "epoch": 3.533333333333333, "grad_norm": 1.1941384077072144, "learning_rate": 8.646687002498692e-06, "loss": 0.1253, "step": 2650 }, { "epoch": 3.533333333333333, "eval_loss": 0.9462794661521912, "eval_runtime": 1.9308, "eval_samples_per_second": 80.797, "eval_steps_per_second": 4.143, "step": 2650 }, { "epoch": 3.6, "grad_norm": 1.1456445455551147, "learning_rate": 8.263518223330698e-06, "loss": 0.1253, "step": 2700 }, { "epoch": 3.6, "eval_loss": 0.9547935724258423, "eval_runtime": 1.9666, "eval_samples_per_second": 79.326, "eval_steps_per_second": 4.068, "step": 2700 }, { "epoch": 3.6666666666666665, "grad_norm": 1.1091175079345703, "learning_rate": 7.882961277705897e-06, "loss": 0.1288, "step": 2750 }, { "epoch": 3.6666666666666665, "eval_loss": 0.9615420699119568, "eval_runtime": 1.9482, "eval_samples_per_second": 80.075, "eval_steps_per_second": 4.106, "step": 2750 }, { "epoch": 3.7333333333333334, "grad_norm": 0.9740545153617859, "learning_rate": 7.505588559420188e-06, "loss": 0.1264, "step": 2800 }, { "epoch": 3.7333333333333334, "eval_loss": 0.9537524580955505, "eval_runtime": 1.9575, "eval_samples_per_second": 79.692, "eval_steps_per_second": 4.087, "step": 2800 }, { "epoch": 3.8, "grad_norm": 0.9862896800041199, "learning_rate": 7.131967672889101e-06, "loss": 0.1274, "step": 2850 }, { "epoch": 3.8, "eval_loss": 0.9457467198371887, "eval_runtime": 1.9325, "eval_samples_per_second": 80.723, "eval_steps_per_second": 4.14, "step": 2850 }, { "epoch": 3.8666666666666667, "grad_norm": 0.7105234265327454, "learning_rate": 6.762660579416791e-06, "loss": 0.1288, "step": 2900 }, { "epoch": 3.8666666666666667, "eval_loss": 0.940463125705719, "eval_runtime": 1.9277, "eval_samples_per_second": 80.924, "eval_steps_per_second": 4.15, "step": 2900 }, { "epoch": 3.9333333333333336, "grad_norm": 1.2161469459533691, "learning_rate": 6.3982227519528986e-06, "loss": 0.1243, "step": 2950 }, { "epoch": 3.9333333333333336, "eval_loss": 0.9474909901618958, "eval_runtime": 1.961, "eval_samples_per_second": 79.553, "eval_steps_per_second": 4.08, "step": 2950 }, { "epoch": 4.0, "grad_norm": 0.7539545297622681, "learning_rate": 6.039202339608432e-06, "loss": 0.1298, "step": 3000 }, { "epoch": 4.0, "eval_loss": 0.945076584815979, "eval_runtime": 1.9371, "eval_samples_per_second": 80.534, "eval_steps_per_second": 4.13, "step": 3000 } ], "logging_steps": 50, "max_steps": 4500, "num_input_tokens_seen": 0, "num_train_epochs": 6, "save_steps": 500, "total_flos": 1.1736354739401523e+17, "train_batch_size": 1, "trial_name": null, "trial_params": null }