{ "best_metric": null, "best_model_checkpoint": null, "epoch": 16.0, "eval_steps": 3, "global_step": 192, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.08333333333333333, "grad_norm": 18.321439743041992, "learning_rate": 2e-05, "loss": 1.8769, "step": 1 }, { "epoch": 0.08333333333333333, "eval_loss": 2.966491222381592, "eval_runtime": 1.0184, "eval_samples_per_second": 4.91, "eval_steps_per_second": 2.946, "step": 1 }, { "epoch": 0.16666666666666666, "grad_norm": 16.561275482177734, "learning_rate": 4e-05, "loss": 1.7056, "step": 2 }, { "epoch": 0.25, "grad_norm": 16.205734252929688, "learning_rate": 6e-05, "loss": 1.546, "step": 3 }, { "epoch": 0.25, "eval_loss": 2.308955669403076, "eval_runtime": 1.0198, "eval_samples_per_second": 4.903, "eval_steps_per_second": 2.942, "step": 3 }, { "epoch": 0.3333333333333333, "grad_norm": 16.671236038208008, "learning_rate": 8e-05, "loss": 1.4192, "step": 4 }, { "epoch": 0.4166666666666667, "grad_norm": 14.08996295928955, "learning_rate": 0.0001, "loss": 1.1662, "step": 5 }, { "epoch": 0.5, "grad_norm": 12.764409065246582, "learning_rate": 0.00012, "loss": 0.8106, "step": 6 }, { "epoch": 0.5, "eval_loss": 0.6963454484939575, "eval_runtime": 1.0048, "eval_samples_per_second": 4.976, "eval_steps_per_second": 2.986, "step": 6 }, { "epoch": 0.5833333333333334, "grad_norm": 8.302112579345703, "learning_rate": 0.00014, "loss": 0.3998, "step": 7 }, { "epoch": 0.6666666666666666, "grad_norm": 3.817727565765381, "learning_rate": 0.00016, "loss": 0.3669, "step": 8 }, { "epoch": 0.75, "grad_norm": 4.211814880371094, "learning_rate": 0.00018, "loss": 0.3255, "step": 9 }, { "epoch": 0.75, "eval_loss": 0.4474024176597595, "eval_runtime": 1.0049, "eval_samples_per_second": 4.976, "eval_steps_per_second": 2.985, "step": 9 }, { "epoch": 0.8333333333333334, "grad_norm": 3.1037936210632324, "learning_rate": 0.0002, "loss": 0.253, "step": 10 }, { "epoch": 0.9166666666666666, "grad_norm": 3.2983005046844482, "learning_rate": 0.0001999998459848028, "loss": 0.2914, "step": 11 }, { "epoch": 1.0, "grad_norm": 3.3602309226989746, "learning_rate": 0.0001999993839396856, "loss": 0.3463, "step": 12 }, { "epoch": 1.0, "eval_loss": 0.3919365108013153, "eval_runtime": 0.9985, "eval_samples_per_second": 5.008, "eval_steps_per_second": 3.005, "step": 12 }, { "epoch": 1.0833333333333333, "grad_norm": 2.5751211643218994, "learning_rate": 0.0001999986138660716, "loss": 0.2988, "step": 13 }, { "epoch": 1.1666666666666667, "grad_norm": 3.270535945892334, "learning_rate": 0.0001999975357663329, "loss": 0.3151, "step": 14 }, { "epoch": 1.25, "grad_norm": 3.251652240753174, "learning_rate": 0.00019999614964379036, "loss": 0.1978, "step": 15 }, { "epoch": 1.25, "eval_loss": 0.4661407470703125, "eval_runtime": 1.0027, "eval_samples_per_second": 4.987, "eval_steps_per_second": 2.992, "step": 15 }, { "epoch": 1.3333333333333333, "grad_norm": 1.6643179655075073, "learning_rate": 0.0001999944555027137, "loss": 0.1706, "step": 16 }, { "epoch": 1.4166666666666667, "grad_norm": 1.8114616870880127, "learning_rate": 0.00019999245334832133, "loss": 0.1386, "step": 17 }, { "epoch": 1.5, "grad_norm": 2.2105395793914795, "learning_rate": 0.00019999014318678054, "loss": 0.2276, "step": 18 }, { "epoch": 1.5, "eval_loss": 0.5166952013969421, "eval_runtime": 0.9991, "eval_samples_per_second": 5.005, "eval_steps_per_second": 3.003, "step": 18 }, { "epoch": 1.5833333333333335, "grad_norm": 1.6479169130325317, "learning_rate": 0.00019998752502520728, "loss": 0.1349, "step": 19 }, { "epoch": 1.6666666666666665, "grad_norm": 3.390162706375122, "learning_rate": 0.00019998459887166634, "loss": 0.2242, "step": 20 }, { "epoch": 1.75, "grad_norm": 1.7931389808654785, "learning_rate": 0.00019998136473517114, "loss": 0.1162, "step": 21 }, { "epoch": 1.75, "eval_loss": 0.5312313437461853, "eval_runtime": 0.9967, "eval_samples_per_second": 5.016, "eval_steps_per_second": 3.01, "step": 21 }, { "epoch": 1.8333333333333335, "grad_norm": 2.6181139945983887, "learning_rate": 0.0001999778226256838, "loss": 0.167, "step": 22 }, { "epoch": 1.9166666666666665, "grad_norm": 4.127359390258789, "learning_rate": 0.00019997397255411506, "loss": 0.2025, "step": 23 }, { "epoch": 2.0, "grad_norm": 3.0757834911346436, "learning_rate": 0.00019996981453232436, "loss": 0.2171, "step": 24 }, { "epoch": 2.0, "eval_loss": 0.4320703148841858, "eval_runtime": 0.9982, "eval_samples_per_second": 5.009, "eval_steps_per_second": 3.006, "step": 24 }, { "epoch": 2.0833333333333335, "grad_norm": 1.9323816299438477, "learning_rate": 0.00019996534857311967, "loss": 0.0888, "step": 25 }, { "epoch": 2.1666666666666665, "grad_norm": 3.021906614303589, "learning_rate": 0.00019996057469025744, "loss": 0.1112, "step": 26 }, { "epoch": 2.25, "grad_norm": 1.409601092338562, "learning_rate": 0.00019995549289844274, "loss": 0.0844, "step": 27 }, { "epoch": 2.25, "eval_loss": 0.4495156705379486, "eval_runtime": 0.9999, "eval_samples_per_second": 5.0, "eval_steps_per_second": 3.0, "step": 27 }, { "epoch": 2.3333333333333335, "grad_norm": 0.6781638860702515, "learning_rate": 0.00019995010321332906, "loss": 0.0284, "step": 28 }, { "epoch": 2.4166666666666665, "grad_norm": 1.5096784830093384, "learning_rate": 0.0001999444056515182, "loss": 0.0767, "step": 29 }, { "epoch": 2.5, "grad_norm": 1.1880104541778564, "learning_rate": 0.00019993840023056043, "loss": 0.047, "step": 30 }, { "epoch": 2.5, "eval_loss": 0.6510509252548218, "eval_runtime": 1.0018, "eval_samples_per_second": 4.991, "eval_steps_per_second": 2.995, "step": 30 }, { "epoch": 2.5833333333333335, "grad_norm": 1.9514886140823364, "learning_rate": 0.00019993208696895422, "loss": 0.0853, "step": 31 }, { "epoch": 2.6666666666666665, "grad_norm": 0.8064122200012207, "learning_rate": 0.0001999254658861464, "loss": 0.0305, "step": 32 }, { "epoch": 2.75, "grad_norm": 0.7893635630607605, "learning_rate": 0.00019991853700253187, "loss": 0.0454, "step": 33 }, { "epoch": 2.75, "eval_loss": 0.7423492074012756, "eval_runtime": 1.0597, "eval_samples_per_second": 4.718, "eval_steps_per_second": 2.831, "step": 33 }, { "epoch": 2.8333333333333335, "grad_norm": 0.9772611856460571, "learning_rate": 0.00019991130033945368, "loss": 0.0391, "step": 34 }, { "epoch": 2.9166666666666665, "grad_norm": 0.7498050928115845, "learning_rate": 0.00019990375591920302, "loss": 0.0263, "step": 35 }, { "epoch": 3.0, "grad_norm": 0.6373388767242432, "learning_rate": 0.00019989590376501894, "loss": 0.0181, "step": 36 }, { "epoch": 3.0, "eval_loss": 0.7701675295829773, "eval_runtime": 0.9994, "eval_samples_per_second": 5.003, "eval_steps_per_second": 3.002, "step": 36 }, { "epoch": 3.0833333333333335, "grad_norm": 0.2939666211605072, "learning_rate": 0.0001998877439010885, "loss": 0.0071, "step": 37 }, { "epoch": 3.1666666666666665, "grad_norm": 0.3313266336917877, "learning_rate": 0.00019987927635254656, "loss": 0.0091, "step": 38 }, { "epoch": 3.25, "grad_norm": 0.24132607877254486, "learning_rate": 0.0001998705011454757, "loss": 0.0074, "step": 39 }, { "epoch": 3.25, "eval_loss": 0.821164608001709, "eval_runtime": 0.9992, "eval_samples_per_second": 5.004, "eval_steps_per_second": 3.002, "step": 39 }, { "epoch": 3.3333333333333335, "grad_norm": 0.4473284184932709, "learning_rate": 0.00019986141830690625, "loss": 0.0097, "step": 40 }, { "epoch": 3.4166666666666665, "grad_norm": 0.36039742827415466, "learning_rate": 0.00019985202786481612, "loss": 0.0072, "step": 41 }, { "epoch": 3.5, "grad_norm": 0.25298011302948, "learning_rate": 0.0001998423298481307, "loss": 0.0044, "step": 42 }, { "epoch": 3.5, "eval_loss": 0.9113298654556274, "eval_runtime": 1.0009, "eval_samples_per_second": 4.995, "eval_steps_per_second": 2.997, "step": 42 }, { "epoch": 3.5833333333333335, "grad_norm": 0.20523716509342194, "learning_rate": 0.0001998323242867229, "loss": 0.0033, "step": 43 }, { "epoch": 3.6666666666666665, "grad_norm": 0.031074421480298042, "learning_rate": 0.00019982201121141282, "loss": 0.0008, "step": 44 }, { "epoch": 3.75, "grad_norm": 0.21951285004615784, "learning_rate": 0.00019981139065396785, "loss": 0.0035, "step": 45 }, { "epoch": 3.75, "eval_loss": 0.9088179469108582, "eval_runtime": 1.0239, "eval_samples_per_second": 4.883, "eval_steps_per_second": 2.93, "step": 45 }, { "epoch": 3.8333333333333335, "grad_norm": 0.05267144739627838, "learning_rate": 0.00019980046264710263, "loss": 0.0013, "step": 46 }, { "epoch": 3.9166666666666665, "grad_norm": 0.05938415974378586, "learning_rate": 0.00019978922722447865, "loss": 0.0014, "step": 47 }, { "epoch": 4.0, "grad_norm": 0.536919116973877, "learning_rate": 0.00019977768442070443, "loss": 0.0076, "step": 48 }, { "epoch": 4.0, "eval_loss": 0.9346898198127747, "eval_runtime": 1.0106, "eval_samples_per_second": 4.948, "eval_steps_per_second": 2.969, "step": 48 }, { "epoch": 4.083333333333333, "grad_norm": 0.02495948225259781, "learning_rate": 0.0001997658342713354, "loss": 0.0006, "step": 49 }, { "epoch": 4.166666666666667, "grad_norm": 0.09865710139274597, "learning_rate": 0.00019975367681287356, "loss": 0.0017, "step": 50 }, { "epoch": 4.25, "grad_norm": 0.029543787240982056, "learning_rate": 0.00019974121208276758, "loss": 0.0008, "step": 51 }, { "epoch": 4.25, "eval_loss": 0.9875212907791138, "eval_runtime": 1.0117, "eval_samples_per_second": 4.942, "eval_steps_per_second": 2.965, "step": 51 }, { "epoch": 4.333333333333333, "grad_norm": 0.017520904541015625, "learning_rate": 0.00019972844011941258, "loss": 0.0004, "step": 52 }, { "epoch": 4.416666666666667, "grad_norm": 0.019872482866048813, "learning_rate": 0.00019971536096215017, "loss": 0.0006, "step": 53 }, { "epoch": 4.5, "grad_norm": 0.23468434810638428, "learning_rate": 0.00019970197465126808, "loss": 0.0018, "step": 54 }, { "epoch": 4.5, "eval_loss": 1.0314465761184692, "eval_runtime": 1.048, "eval_samples_per_second": 4.771, "eval_steps_per_second": 2.863, "step": 54 }, { "epoch": 4.583333333333333, "grad_norm": 0.09857720136642456, "learning_rate": 0.00019968828122800023, "loss": 0.0009, "step": 55 }, { "epoch": 4.666666666666667, "grad_norm": 0.04741726443171501, "learning_rate": 0.00019967428073452653, "loss": 0.0007, "step": 56 }, { "epoch": 4.75, "grad_norm": 0.09676219522953033, "learning_rate": 0.00019965997321397274, "loss": 0.0008, "step": 57 }, { "epoch": 4.75, "eval_loss": 1.1343060731887817, "eval_runtime": 1.0442, "eval_samples_per_second": 4.788, "eval_steps_per_second": 2.873, "step": 57 }, { "epoch": 4.833333333333333, "grad_norm": 0.011569831520318985, "learning_rate": 0.00019964535871041034, "loss": 0.0004, "step": 58 }, { "epoch": 4.916666666666667, "grad_norm": 0.007966884411871433, "learning_rate": 0.00019963043726885652, "loss": 0.0003, "step": 59 }, { "epoch": 5.0, "grad_norm": 0.07261084765195847, "learning_rate": 0.00019961520893527383, "loss": 0.0007, "step": 60 }, { "epoch": 5.0, "eval_loss": 1.1936529874801636, "eval_runtime": 1.0188, "eval_samples_per_second": 4.908, "eval_steps_per_second": 2.945, "step": 60 }, { "epoch": 5.083333333333333, "grad_norm": 0.07245349138975143, "learning_rate": 0.00019959967375657013, "loss": 0.0011, "step": 61 }, { "epoch": 5.166666666666667, "grad_norm": 0.011179454624652863, "learning_rate": 0.00019958383178059853, "loss": 0.0003, "step": 62 }, { "epoch": 5.25, "grad_norm": 0.0166336577385664, "learning_rate": 0.00019956768305615712, "loss": 0.0004, "step": 63 }, { "epoch": 5.25, "eval_loss": 1.233989953994751, "eval_runtime": 1.0081, "eval_samples_per_second": 4.96, "eval_steps_per_second": 2.976, "step": 63 }, { "epoch": 5.333333333333333, "grad_norm": 0.01408514566719532, "learning_rate": 0.00019955122763298886, "loss": 0.0004, "step": 64 }, { "epoch": 5.416666666666667, "grad_norm": 0.008439848199486732, "learning_rate": 0.0001995344655617815, "loss": 0.0002, "step": 65 }, { "epoch": 5.5, "grad_norm": 0.01138551626354456, "learning_rate": 0.00019951739689416727, "loss": 0.0003, "step": 66 }, { "epoch": 5.5, "eval_loss": 1.2637255191802979, "eval_runtime": 1.0024, "eval_samples_per_second": 4.988, "eval_steps_per_second": 2.993, "step": 66 }, { "epoch": 5.583333333333333, "grad_norm": 0.011877048760652542, "learning_rate": 0.00019950002168272283, "loss": 0.0004, "step": 67 }, { "epoch": 5.666666666666667, "grad_norm": 0.006235960870981216, "learning_rate": 0.0001994823399809692, "loss": 0.0002, "step": 68 }, { "epoch": 5.75, "grad_norm": 0.5171953439712524, "learning_rate": 0.00019946435184337133, "loss": 0.0029, "step": 69 }, { "epoch": 5.75, "eval_loss": 1.2731075286865234, "eval_runtime": 1.0041, "eval_samples_per_second": 4.979, "eval_steps_per_second": 2.988, "step": 69 }, { "epoch": 5.833333333333333, "grad_norm": 0.007858390919864178, "learning_rate": 0.00019944605732533818, "loss": 0.0004, "step": 70 }, { "epoch": 5.916666666666667, "grad_norm": 0.006160305812954903, "learning_rate": 0.0001994274564832224, "loss": 0.0002, "step": 71 }, { "epoch": 6.0, "grad_norm": 0.008595510385930538, "learning_rate": 0.00019940854937432025, "loss": 0.0002, "step": 72 }, { "epoch": 6.0, "eval_loss": 1.2578288316726685, "eval_runtime": 1.0075, "eval_samples_per_second": 4.963, "eval_steps_per_second": 2.978, "step": 72 }, { "epoch": 6.083333333333333, "grad_norm": 0.009983099065721035, "learning_rate": 0.0001993893360568714, "loss": 0.0003, "step": 73 }, { "epoch": 6.166666666666667, "grad_norm": 0.019415004178881645, "learning_rate": 0.00019936981659005867, "loss": 0.0004, "step": 74 }, { "epoch": 6.25, "grad_norm": 0.0086536118760705, "learning_rate": 0.00019934999103400796, "loss": 0.0003, "step": 75 }, { "epoch": 6.25, "eval_loss": 1.2853734493255615, "eval_runtime": 1.0014, "eval_samples_per_second": 4.993, "eval_steps_per_second": 2.996, "step": 75 }, { "epoch": 6.333333333333333, "grad_norm": 0.0041904328390955925, "learning_rate": 0.00019932985944978802, "loss": 0.0002, "step": 76 }, { "epoch": 6.416666666666667, "grad_norm": 0.0054719713516533375, "learning_rate": 0.0001993094218994102, "loss": 0.0002, "step": 77 }, { "epoch": 6.5, "grad_norm": 0.04392923787236214, "learning_rate": 0.00019928867844582843, "loss": 0.0004, "step": 78 }, { "epoch": 6.5, "eval_loss": 1.2088360786437988, "eval_runtime": 1.0022, "eval_samples_per_second": 4.989, "eval_steps_per_second": 2.993, "step": 78 }, { "epoch": 6.583333333333333, "grad_norm": 0.00761830061674118, "learning_rate": 0.00019926762915293883, "loss": 0.0003, "step": 79 }, { "epoch": 6.666666666666667, "grad_norm": 0.007334854919463396, "learning_rate": 0.00019924627408557963, "loss": 0.0002, "step": 80 }, { "epoch": 6.75, "grad_norm": 0.011454805731773376, "learning_rate": 0.00019922461330953092, "loss": 0.0002, "step": 81 }, { "epoch": 6.75, "eval_loss": 1.2363653182983398, "eval_runtime": 1.0209, "eval_samples_per_second": 4.898, "eval_steps_per_second": 2.939, "step": 81 }, { "epoch": 6.833333333333333, "grad_norm": 0.0074494462460279465, "learning_rate": 0.00019920264689151444, "loss": 0.0002, "step": 82 }, { "epoch": 6.916666666666667, "grad_norm": 0.005181374493986368, "learning_rate": 0.00019918037489919348, "loss": 0.0002, "step": 83 }, { "epoch": 7.0, "grad_norm": 0.009433169849216938, "learning_rate": 0.00019915779740117253, "loss": 0.0003, "step": 84 }, { "epoch": 7.0, "eval_loss": 1.3035067319869995, "eval_runtime": 1.0152, "eval_samples_per_second": 4.925, "eval_steps_per_second": 2.955, "step": 84 }, { "epoch": 7.083333333333333, "grad_norm": 0.003880379255861044, "learning_rate": 0.00019913491446699714, "loss": 0.0002, "step": 85 }, { "epoch": 7.166666666666667, "grad_norm": 0.01116390060633421, "learning_rate": 0.0001991117261671537, "loss": 0.0002, "step": 86 }, { "epoch": 7.25, "grad_norm": 0.008482172153890133, "learning_rate": 0.00019908823257306924, "loss": 0.0002, "step": 87 }, { "epoch": 7.25, "eval_loss": 1.2437602281570435, "eval_runtime": 0.9969, "eval_samples_per_second": 5.016, "eval_steps_per_second": 3.009, "step": 87 }, { "epoch": 7.333333333333333, "grad_norm": 0.012505721300840378, "learning_rate": 0.00019906443375711117, "loss": 0.0003, "step": 88 }, { "epoch": 7.416666666666667, "grad_norm": 2.411334991455078, "learning_rate": 0.00019904032979258708, "loss": 0.063, "step": 89 }, { "epoch": 7.5, "grad_norm": 0.005176869221031666, "learning_rate": 0.00019901592075374447, "loss": 0.0002, "step": 90 }, { "epoch": 7.5, "eval_loss": 1.215416431427002, "eval_runtime": 1.0086, "eval_samples_per_second": 4.957, "eval_steps_per_second": 2.974, "step": 90 }, { "epoch": 7.583333333333333, "grad_norm": 0.0047805411741137505, "learning_rate": 0.00019899120671577062, "loss": 0.0002, "step": 91 }, { "epoch": 7.666666666666667, "grad_norm": 0.004977677017450333, "learning_rate": 0.0001989661877547923, "loss": 0.0002, "step": 92 }, { "epoch": 7.75, "grad_norm": 0.006376943551003933, "learning_rate": 0.0001989408639478755, "loss": 0.0002, "step": 93 }, { "epoch": 7.75, "eval_loss": 1.1592028141021729, "eval_runtime": 1.0029, "eval_samples_per_second": 4.985, "eval_steps_per_second": 2.991, "step": 93 }, { "epoch": 7.833333333333333, "grad_norm": 0.01837480068206787, "learning_rate": 0.00019891523537302522, "loss": 0.0005, "step": 94 }, { "epoch": 7.916666666666667, "grad_norm": 0.044409509748220444, "learning_rate": 0.00019888930210918527, "loss": 0.0008, "step": 95 }, { "epoch": 8.0, "grad_norm": 0.0097122173756361, "learning_rate": 0.000198863064236238, "loss": 0.0002, "step": 96 }, { "epoch": 8.0, "eval_loss": 1.1519960165023804, "eval_runtime": 1.0024, "eval_samples_per_second": 4.988, "eval_steps_per_second": 2.993, "step": 96 }, { "epoch": 8.083333333333334, "grad_norm": 0.13420462608337402, "learning_rate": 0.00019883652183500403, "loss": 0.0016, "step": 97 }, { "epoch": 8.166666666666666, "grad_norm": 0.1956610232591629, "learning_rate": 0.00019880967498724203, "loss": 0.0019, "step": 98 }, { "epoch": 8.25, "grad_norm": 0.06474520266056061, "learning_rate": 0.00019878252377564845, "loss": 0.001, "step": 99 }, { "epoch": 8.25, "eval_loss": 1.2046459913253784, "eval_runtime": 1.0042, "eval_samples_per_second": 4.979, "eval_steps_per_second": 2.987, "step": 99 }, { "epoch": 8.333333333333334, "grad_norm": 0.024415887892246246, "learning_rate": 0.00019875506828385722, "loss": 0.0006, "step": 100 }, { "epoch": 8.416666666666666, "grad_norm": 0.42121440172195435, "learning_rate": 0.00019872730859643966, "loss": 0.0028, "step": 101 }, { "epoch": 8.5, "grad_norm": 0.01133190281689167, "learning_rate": 0.00019869924479890404, "loss": 0.0003, "step": 102 }, { "epoch": 8.5, "eval_loss": 1.2598035335540771, "eval_runtime": 1.0023, "eval_samples_per_second": 4.989, "eval_steps_per_second": 2.993, "step": 102 }, { "epoch": 8.583333333333334, "grad_norm": 0.028919192031025887, "learning_rate": 0.0001986708769776954, "loss": 0.0004, "step": 103 }, { "epoch": 8.666666666666666, "grad_norm": 0.02341923862695694, "learning_rate": 0.00019864220522019518, "loss": 0.0004, "step": 104 }, { "epoch": 8.75, "grad_norm": 0.006619466468691826, "learning_rate": 0.00019861322961472116, "loss": 0.0002, "step": 105 }, { "epoch": 8.75, "eval_loss": 1.3082973957061768, "eval_runtime": 1.0032, "eval_samples_per_second": 4.984, "eval_steps_per_second": 2.991, "step": 105 }, { "epoch": 8.833333333333334, "grad_norm": 0.03367730230093002, "learning_rate": 0.00019858395025052706, "loss": 0.0006, "step": 106 }, { "epoch": 8.916666666666666, "grad_norm": 0.012332913465797901, "learning_rate": 0.00019855436721780213, "loss": 0.0003, "step": 107 }, { "epoch": 9.0, "grad_norm": 0.009150455705821514, "learning_rate": 0.00019852448060767112, "loss": 0.0003, "step": 108 }, { "epoch": 9.0, "eval_loss": 1.3272632360458374, "eval_runtime": 1.0039, "eval_samples_per_second": 4.981, "eval_steps_per_second": 2.988, "step": 108 }, { "epoch": 9.083333333333334, "grad_norm": 0.0070456513203680515, "learning_rate": 0.00019849429051219393, "loss": 0.0002, "step": 109 }, { "epoch": 9.166666666666666, "grad_norm": 0.008276679553091526, "learning_rate": 0.00019846379702436517, "loss": 0.0002, "step": 110 }, { "epoch": 9.25, "grad_norm": 0.03193563222885132, "learning_rate": 0.00019843300023811408, "loss": 0.0005, "step": 111 }, { "epoch": 9.25, "eval_loss": 1.317318320274353, "eval_runtime": 1.0054, "eval_samples_per_second": 4.973, "eval_steps_per_second": 2.984, "step": 111 }, { "epoch": 9.333333333333334, "grad_norm": 0.029139867052435875, "learning_rate": 0.0001984019002483041, "loss": 0.0005, "step": 112 }, { "epoch": 9.416666666666666, "grad_norm": 0.014614199288189411, "learning_rate": 0.0001983704971507327, "loss": 0.0003, "step": 113 }, { "epoch": 9.5, "grad_norm": 0.015501927584409714, "learning_rate": 0.0001983387910421309, "loss": 0.0003, "step": 114 }, { "epoch": 9.5, "eval_loss": 1.2658326625823975, "eval_runtime": 0.9949, "eval_samples_per_second": 5.026, "eval_steps_per_second": 3.015, "step": 114 }, { "epoch": 9.583333333333334, "grad_norm": 0.0044679041020572186, "learning_rate": 0.0001983067820201632, "loss": 0.0002, "step": 115 }, { "epoch": 9.666666666666666, "grad_norm": 0.004195045214146376, "learning_rate": 0.00019827447018342712, "loss": 0.0002, "step": 116 }, { "epoch": 9.75, "grad_norm": 0.006220120470970869, "learning_rate": 0.0001982418556314529, "loss": 0.0002, "step": 117 }, { "epoch": 9.75, "eval_loss": 1.3598058223724365, "eval_runtime": 0.9959, "eval_samples_per_second": 5.02, "eval_steps_per_second": 3.012, "step": 117 }, { "epoch": 9.833333333333334, "grad_norm": 0.006718598771840334, "learning_rate": 0.0001982089384647033, "loss": 0.0002, "step": 118 }, { "epoch": 9.916666666666666, "grad_norm": 0.0072190724313259125, "learning_rate": 0.00019817571878457318, "loss": 0.0002, "step": 119 }, { "epoch": 10.0, "grad_norm": 0.002855106024071574, "learning_rate": 0.00019814219669338928, "loss": 0.0001, "step": 120 }, { "epoch": 10.0, "eval_loss": 1.3506109714508057, "eval_runtime": 1.0062, "eval_samples_per_second": 4.969, "eval_steps_per_second": 2.982, "step": 120 }, { "epoch": 10.083333333333334, "grad_norm": 0.0038296151906251907, "learning_rate": 0.0001981083722944098, "loss": 0.0001, "step": 121 }, { "epoch": 10.166666666666666, "grad_norm": 0.00729400897398591, "learning_rate": 0.0001980742456918242, "loss": 0.0002, "step": 122 }, { "epoch": 10.25, "grad_norm": 0.01579378917813301, "learning_rate": 0.00019803981699075273, "loss": 0.0003, "step": 123 }, { "epoch": 10.25, "eval_loss": 1.2966080904006958, "eval_runtime": 1.0051, "eval_samples_per_second": 4.975, "eval_steps_per_second": 2.985, "step": 123 }, { "epoch": 10.333333333333334, "grad_norm": 0.009087709710001945, "learning_rate": 0.00019800508629724633, "loss": 0.0002, "step": 124 }, { "epoch": 10.416666666666666, "grad_norm": 0.007276953663676977, "learning_rate": 0.00019797005371828604, "loss": 0.0002, "step": 125 }, { "epoch": 10.5, "grad_norm": 0.005232817493379116, "learning_rate": 0.00019793471936178285, "loss": 0.0002, "step": 126 }, { "epoch": 10.5, "eval_loss": 1.236280918121338, "eval_runtime": 0.9948, "eval_samples_per_second": 5.026, "eval_steps_per_second": 3.016, "step": 126 }, { "epoch": 10.583333333333334, "grad_norm": 0.003949979320168495, "learning_rate": 0.00019789908333657733, "loss": 0.0001, "step": 127 }, { "epoch": 10.666666666666666, "grad_norm": 0.009052672423422337, "learning_rate": 0.0001978631457524393, "loss": 0.0002, "step": 128 }, { "epoch": 10.75, "grad_norm": 0.002537698484957218, "learning_rate": 0.00019782690672006742, "loss": 0.0001, "step": 129 }, { "epoch": 10.75, "eval_loss": 1.3194478750228882, "eval_runtime": 1.0035, "eval_samples_per_second": 4.982, "eval_steps_per_second": 2.989, "step": 129 }, { "epoch": 10.833333333333334, "grad_norm": 0.011329089291393757, "learning_rate": 0.0001977903663510889, "loss": 0.0003, "step": 130 }, { "epoch": 10.916666666666666, "grad_norm": 0.0027327709831297398, "learning_rate": 0.00019775352475805925, "loss": 0.0001, "step": 131 }, { "epoch": 11.0, "grad_norm": 0.004424929153174162, "learning_rate": 0.00019771638205446168, "loss": 0.0001, "step": 132 }, { "epoch": 11.0, "eval_loss": 1.2647757530212402, "eval_runtime": 1.006, "eval_samples_per_second": 4.97, "eval_steps_per_second": 2.982, "step": 132 }, { "epoch": 11.083333333333334, "grad_norm": 0.002624769229441881, "learning_rate": 0.00019767893835470707, "loss": 0.0001, "step": 133 }, { "epoch": 11.166666666666666, "grad_norm": 0.0037121030036360025, "learning_rate": 0.00019764119377413338, "loss": 0.0002, "step": 134 }, { "epoch": 11.25, "grad_norm": 0.003075383370742202, "learning_rate": 0.00019760314842900539, "loss": 0.0001, "step": 135 }, { "epoch": 11.25, "eval_loss": 1.2167189121246338, "eval_runtime": 1.0036, "eval_samples_per_second": 4.982, "eval_steps_per_second": 2.989, "step": 135 }, { "epoch": 11.333333333333334, "grad_norm": 0.0030458325054496527, "learning_rate": 0.00019756480243651432, "loss": 0.0001, "step": 136 }, { "epoch": 11.416666666666666, "grad_norm": 0.005058998242020607, "learning_rate": 0.0001975261559147775, "loss": 0.0001, "step": 137 }, { "epoch": 11.5, "grad_norm": 0.0027282743249088526, "learning_rate": 0.00019748720898283794, "loss": 0.0001, "step": 138 }, { "epoch": 11.5, "eval_loss": 1.1802990436553955, "eval_runtime": 0.9967, "eval_samples_per_second": 5.017, "eval_steps_per_second": 3.01, "step": 138 }, { "epoch": 11.583333333333334, "grad_norm": 0.0022623680997639894, "learning_rate": 0.00019744796176066404, "loss": 0.0001, "step": 139 }, { "epoch": 11.666666666666666, "grad_norm": 0.003738392610102892, "learning_rate": 0.00019740841436914917, "loss": 0.0001, "step": 140 }, { "epoch": 11.75, "grad_norm": 0.006619980093091726, "learning_rate": 0.00019736856693011135, "loss": 0.0002, "step": 141 }, { "epoch": 11.75, "eval_loss": 1.2323724031448364, "eval_runtime": 0.9967, "eval_samples_per_second": 5.017, "eval_steps_per_second": 3.01, "step": 141 }, { "epoch": 11.833333333333334, "grad_norm": 0.003048243233934045, "learning_rate": 0.00019732841956629274, "loss": 0.0001, "step": 142 }, { "epoch": 11.916666666666666, "grad_norm": 0.005489699076861143, "learning_rate": 0.00019728797240135948, "loss": 0.0002, "step": 143 }, { "epoch": 12.0, "grad_norm": 0.0033994840923696756, "learning_rate": 0.00019724722555990108, "loss": 0.0001, "step": 144 }, { "epoch": 12.0, "eval_loss": 1.2216131687164307, "eval_runtime": 1.0227, "eval_samples_per_second": 4.889, "eval_steps_per_second": 2.933, "step": 144 }, { "epoch": 12.083333333333334, "grad_norm": 0.008786541409790516, "learning_rate": 0.00019720617916743022, "loss": 0.0002, "step": 145 }, { "epoch": 12.166666666666666, "grad_norm": 0.004269069526344538, "learning_rate": 0.0001971648333503823, "loss": 0.0001, "step": 146 }, { "epoch": 12.25, "grad_norm": 0.0018633886938914657, "learning_rate": 0.00019712318823611496, "loss": 0.0001, "step": 147 }, { "epoch": 12.25, "eval_loss": 1.2424652576446533, "eval_runtime": 0.9992, "eval_samples_per_second": 5.004, "eval_steps_per_second": 3.002, "step": 147 }, { "epoch": 12.333333333333334, "grad_norm": 0.0037659883964806795, "learning_rate": 0.00019708124395290783, "loss": 0.0001, "step": 148 }, { "epoch": 12.416666666666666, "grad_norm": 0.0022014155983924866, "learning_rate": 0.00019703900062996205, "loss": 0.0001, "step": 149 }, { "epoch": 12.5, "grad_norm": 0.002862535882741213, "learning_rate": 0.00019699645839739985, "loss": 0.0001, "step": 150 }, { "epoch": 12.5, "eval_loss": 1.2824660539627075, "eval_runtime": 1.0012, "eval_samples_per_second": 4.994, "eval_steps_per_second": 2.996, "step": 150 }, { "epoch": 12.583333333333334, "grad_norm": 0.00279458099976182, "learning_rate": 0.00019695361738626433, "loss": 0.0001, "step": 151 }, { "epoch": 12.666666666666666, "grad_norm": 0.002750468673184514, "learning_rate": 0.00019691047772851873, "loss": 0.0001, "step": 152 }, { "epoch": 12.75, "grad_norm": 0.0021071576047688723, "learning_rate": 0.00019686703955704634, "loss": 0.0001, "step": 153 }, { "epoch": 12.75, "eval_loss": 1.2110233306884766, "eval_runtime": 1.0003, "eval_samples_per_second": 4.999, "eval_steps_per_second": 2.999, "step": 153 }, { "epoch": 12.833333333333334, "grad_norm": 0.0013178765075281262, "learning_rate": 0.00019682330300564997, "loss": 0.0001, "step": 154 }, { "epoch": 12.916666666666666, "grad_norm": 0.005062974989414215, "learning_rate": 0.00019677926820905144, "loss": 0.0002, "step": 155 }, { "epoch": 13.0, "grad_norm": 0.0027265942189842463, "learning_rate": 0.00019673493530289132, "loss": 0.0001, "step": 156 }, { "epoch": 13.0, "eval_loss": 1.2150756120681763, "eval_runtime": 1.014, "eval_samples_per_second": 4.931, "eval_steps_per_second": 2.959, "step": 156 }, { "epoch": 13.083333333333334, "grad_norm": 0.004011066164821386, "learning_rate": 0.00019669030442372846, "loss": 0.0002, "step": 157 }, { "epoch": 13.166666666666666, "grad_norm": 0.0022254104260355234, "learning_rate": 0.00019664537570903952, "loss": 0.0001, "step": 158 }, { "epoch": 13.25, "grad_norm": 0.0019367565400898457, "learning_rate": 0.00019660014929721858, "loss": 0.0001, "step": 159 }, { "epoch": 13.25, "eval_loss": 1.2413427829742432, "eval_runtime": 1.0048, "eval_samples_per_second": 4.976, "eval_steps_per_second": 2.986, "step": 159 }, { "epoch": 13.333333333333334, "grad_norm": 0.004818584304302931, "learning_rate": 0.00019655462532757676, "loss": 0.0002, "step": 160 }, { "epoch": 13.416666666666666, "grad_norm": 0.003023201832547784, "learning_rate": 0.00019650880394034173, "loss": 0.0001, "step": 161 }, { "epoch": 13.5, "grad_norm": 0.0017505192663520575, "learning_rate": 0.0001964626852766572, "loss": 0.0001, "step": 162 }, { "epoch": 13.5, "eval_loss": 1.2589879035949707, "eval_runtime": 1.0106, "eval_samples_per_second": 4.948, "eval_steps_per_second": 2.969, "step": 162 }, { "epoch": 13.583333333333334, "grad_norm": 0.0020996497478336096, "learning_rate": 0.0001964162694785828, "loss": 0.0001, "step": 163 }, { "epoch": 13.666666666666666, "grad_norm": 0.0015256914775818586, "learning_rate": 0.00019636955668909324, "loss": 0.0001, "step": 164 }, { "epoch": 13.75, "grad_norm": 0.0024543164763599634, "learning_rate": 0.0001963225470520781, "loss": 0.0001, "step": 165 }, { "epoch": 13.75, "eval_loss": 1.2548372745513916, "eval_runtime": 1.0036, "eval_samples_per_second": 4.982, "eval_steps_per_second": 2.989, "step": 165 }, { "epoch": 13.833333333333334, "grad_norm": 0.0029590551275759935, "learning_rate": 0.00019627524071234138, "loss": 0.0001, "step": 166 }, { "epoch": 13.916666666666666, "grad_norm": 0.0020896506030112505, "learning_rate": 0.00019622763781560094, "loss": 0.0001, "step": 167 }, { "epoch": 14.0, "grad_norm": 0.0020225539337843657, "learning_rate": 0.00019617973850848822, "loss": 0.0001, "step": 168 }, { "epoch": 14.0, "eval_loss": 1.2527357339859009, "eval_runtime": 1.007, "eval_samples_per_second": 4.965, "eval_steps_per_second": 2.979, "step": 168 }, { "epoch": 14.083333333333334, "grad_norm": 0.001954326406121254, "learning_rate": 0.00019613154293854755, "loss": 0.0001, "step": 169 }, { "epoch": 14.166666666666666, "grad_norm": 0.002824195893481374, "learning_rate": 0.00019608305125423607, "loss": 0.0001, "step": 170 }, { "epoch": 14.25, "grad_norm": 0.0017506727017462254, "learning_rate": 0.00019603426360492284, "loss": 0.0001, "step": 171 }, { "epoch": 14.25, "eval_loss": 1.229520559310913, "eval_runtime": 1.0012, "eval_samples_per_second": 4.994, "eval_steps_per_second": 2.996, "step": 171 }, { "epoch": 14.333333333333334, "grad_norm": 0.0016608445439487696, "learning_rate": 0.0001959851801408886, "loss": 0.0001, "step": 172 }, { "epoch": 14.416666666666666, "grad_norm": 0.003563026199117303, "learning_rate": 0.00019593580101332544, "loss": 0.0002, "step": 173 }, { "epoch": 14.5, "grad_norm": 0.002062347950413823, "learning_rate": 0.00019588612637433598, "loss": 0.0001, "step": 174 }, { "epoch": 14.5, "eval_loss": 1.3049293756484985, "eval_runtime": 1.0003, "eval_samples_per_second": 4.998, "eval_steps_per_second": 2.999, "step": 174 }, { "epoch": 14.583333333333334, "grad_norm": 0.002516463864594698, "learning_rate": 0.00019583615637693328, "loss": 0.0001, "step": 175 }, { "epoch": 14.666666666666666, "grad_norm": 0.0018197526223957539, "learning_rate": 0.0001957858911750401, "loss": 0.0001, "step": 176 }, { "epoch": 14.75, "grad_norm": 0.001751432311721146, "learning_rate": 0.00019573533092348853, "loss": 0.0001, "step": 177 }, { "epoch": 14.75, "eval_loss": 1.2655537128448486, "eval_runtime": 1.0016, "eval_samples_per_second": 4.992, "eval_steps_per_second": 2.995, "step": 177 }, { "epoch": 14.833333333333334, "grad_norm": 0.0021559814922511578, "learning_rate": 0.00019568447577801953, "loss": 0.0001, "step": 178 }, { "epoch": 14.916666666666666, "grad_norm": 0.0014471221948042512, "learning_rate": 0.00019563332589528235, "loss": 0.0001, "step": 179 }, { "epoch": 15.0, "grad_norm": 0.003157020313665271, "learning_rate": 0.00019558188143283426, "loss": 0.0001, "step": 180 }, { "epoch": 15.0, "eval_loss": 1.2832013368606567, "eval_runtime": 1.0043, "eval_samples_per_second": 4.978, "eval_steps_per_second": 2.987, "step": 180 }, { "epoch": 15.083333333333334, "grad_norm": 0.002556655090302229, "learning_rate": 0.00019553014254913978, "loss": 0.0001, "step": 181 }, { "epoch": 15.166666666666666, "grad_norm": 0.0013463579816743731, "learning_rate": 0.0001954781094035704, "loss": 0.0001, "step": 182 }, { "epoch": 15.25, "grad_norm": 0.002447038423269987, "learning_rate": 0.00019542578215640406, "loss": 0.0001, "step": 183 }, { "epoch": 15.25, "eval_loss": 1.2666196823120117, "eval_runtime": 1.0022, "eval_samples_per_second": 4.989, "eval_steps_per_second": 2.993, "step": 183 }, { "epoch": 15.333333333333334, "grad_norm": 0.0021766209974884987, "learning_rate": 0.00019537316096882455, "loss": 0.0001, "step": 184 }, { "epoch": 15.416666666666666, "grad_norm": 0.0017889124574139714, "learning_rate": 0.00019532024600292113, "loss": 0.0001, "step": 185 }, { "epoch": 15.5, "grad_norm": 0.0014267426449805498, "learning_rate": 0.000195267037421688, "loss": 0.0001, "step": 186 }, { "epoch": 15.5, "eval_loss": 1.2477176189422607, "eval_runtime": 1.0021, "eval_samples_per_second": 4.99, "eval_steps_per_second": 2.994, "step": 186 }, { "epoch": 15.583333333333334, "grad_norm": 0.004096713848412037, "learning_rate": 0.00019521353538902374, "loss": 0.0001, "step": 187 }, { "epoch": 15.666666666666666, "grad_norm": 0.0014613686362281442, "learning_rate": 0.00019515974006973087, "loss": 0.0001, "step": 188 }, { "epoch": 15.75, "grad_norm": 0.0020331174600869417, "learning_rate": 0.00019510565162951537, "loss": 0.0001, "step": 189 }, { "epoch": 15.75, "eval_loss": 1.2630401849746704, "eval_runtime": 1.002, "eval_samples_per_second": 4.99, "eval_steps_per_second": 2.994, "step": 189 }, { "epoch": 15.833333333333334, "grad_norm": 0.0013418430462479591, "learning_rate": 0.000195051270234986, "loss": 0.0001, "step": 190 }, { "epoch": 15.916666666666666, "grad_norm": 0.0016558875795453787, "learning_rate": 0.00019499659605365404, "loss": 0.0001, "step": 191 }, { "epoch": 16.0, "grad_norm": 0.0026047020219266415, "learning_rate": 0.0001949416292539326, "loss": 0.0001, "step": 192 }, { "epoch": 16.0, "eval_loss": 1.3221460580825806, "eval_runtime": 1.0043, "eval_samples_per_second": 4.979, "eval_steps_per_second": 2.987, "step": 192 } ], "logging_steps": 1, "max_steps": 1800, "num_input_tokens_seen": 0, "num_train_epochs": 150, "save_steps": 3, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.36981317156864e+16, "train_batch_size": 2, "trial_name": null, "trial_params": null }