zaydzuhri
/

transformer-16M-test

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94ba0f468ae901395a2901bf816654df0ed2c002fdc2a62942e64145e1ebb2fd
 size 49826824

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d4a6e2d4a92bf18ef0d60532a611e8a79d6d06434f003e8f40d48438c67e8fa
 size 49826824

trainer_log.jsonl CHANGED Viewed

@@ -79,3 +79,79 @@
 {"current_steps": 2528, "total_steps": 5000, "loss": 3.9507, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017135937084580174, "epoch": 0.14388980590813363, "percentage": 50.56}
 {"current_steps": 2560, "total_steps": 5000, "loss": 3.8059, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00016853388802156287, "epoch": 0.14571119585633788, "percentage": 51.2}
 {"current_steps": 2592, "total_steps": 5000, "loss": 3.7975, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001657068551172416, "epoch": 0.1475325858045421, "percentage": 51.84}

 {"current_steps": 2528, "total_steps": 5000, "loss": 3.9507, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017135937084580174, "epoch": 0.14388980590813363, "percentage": 50.56}
 {"current_steps": 2560, "total_steps": 5000, "loss": 3.8059, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00016853388802156287, "epoch": 0.14571119585633788, "percentage": 51.2}
 {"current_steps": 2592, "total_steps": 5000, "loss": 3.7975, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001657068551172416, "epoch": 0.1475325858045421, "percentage": 51.84}
+{"current_steps": 2624, "total_steps": 5000, "loss": 3.9251, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001628795121629042, "epoch": 0.1493539757527463, "percentage": 52.48}
+{"current_steps": 2656, "total_steps": 5000, "loss": 3.8858, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00016005309932461487, "epoch": 0.15117536570095053, "percentage": 53.12}
+{"current_steps": 2688, "total_steps": 5000, "loss": 3.8382, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001572288563604584, "epoch": 0.15299675564915477, "percentage": 53.76}
+{"current_steps": 2720, "total_steps": 5000, "loss": 3.7815, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00015440802207674096, "epoch": 0.15481814559735899, "percentage": 54.4}
+{"current_steps": 2752, "total_steps": 5000, "loss": 3.7621, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00015159183378460873, "epoch": 0.1566395355455632, "percentage": 55.04}
+{"current_steps": 2784, "total_steps": 5000, "loss": 3.7747, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001487815267573226, "epoch": 0.15846092549376742, "percentage": 55.68}
+{"current_steps": 2816, "total_steps": 5000, "loss": 3.8162, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00014597833368842634, "epoch": 0.16028231544197166, "percentage": 56.32}
+{"current_steps": 2848, "total_steps": 5000, "loss": 3.7268, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00014318348415104625, "epoch": 0.16210370539017588, "percentage": 56.96}
+{"current_steps": 2880, "total_steps": 5000, "loss": 3.8818, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00014039820405856008, "epoch": 0.1639250953383801, "percentage": 57.6}
+{"current_steps": 2912, "total_steps": 5000, "loss": 3.9317, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00013762371512687085, "epoch": 0.1657464852865843, "percentage": 58.24}
+{"current_steps": 2944, "total_steps": 5000, "loss": 3.7579, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00013486123433852158, "epoch": 0.16756787523478855, "percentage": 58.88}
+{"current_steps": 2976, "total_steps": 5000, "loss": 3.7727, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00013211197340888697, "epoch": 0.16938926518299277, "percentage": 59.52}
+{"current_steps": 3008, "total_steps": 5000, "loss": 3.8079, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00012937713825467468, "epoch": 0.171210655131197, "percentage": 60.16}
+{"current_steps": 3040, "total_steps": 5000, "loss": 3.8585, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00012665792846497045, "epoch": 0.17303204507940123, "percentage": 60.8}
+{"current_steps": 3072, "total_steps": 5000, "loss": 3.8295, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00012395553677505878, "epoch": 0.17485343502760545, "percentage": 61.44}
+{"current_steps": 3104, "total_steps": 5000, "loss": 3.6657, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00012127114854324987, "epoch": 0.17667482497580966, "percentage": 62.08}
+{"current_steps": 3136, "total_steps": 5000, "loss": 3.7736, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011860594123094184, "epoch": 0.17849621492401388, "percentage": 62.72}
+{"current_steps": 3168, "total_steps": 5000, "loss": 3.877, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011596108388614794, "epoch": 0.18031760487221812, "percentage": 63.36}
+{"current_steps": 3200, "total_steps": 5000, "loss": 3.74, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011333773663071288, "epoch": 0.18213899482042234, "percentage": 64.0}
+{"current_steps": 3232, "total_steps": 5000, "loss": 3.8374, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001107370501514454, "epoch": 0.18396038476862656, "percentage": 64.64}
+{"current_steps": 3264, "total_steps": 5000, "loss": 3.8335, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010816016519538871, "epoch": 0.18578177471683077, "percentage": 65.28}
+{"current_steps": 3296, "total_steps": 5000, "loss": 3.696, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010560821206945143, "epoch": 0.18760316466503502, "percentage": 65.92}
+{"current_steps": 3328, "total_steps": 5000, "loss": 3.6876, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010308231014461753, "epoch": 0.18942455461323923, "percentage": 66.56}
+{"current_steps": 3360, "total_steps": 5000, "loss": 3.6953, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010058356736495284, "epoch": 0.19124594456144345, "percentage": 67.2}
+{"current_steps": 3392, "total_steps": 5000, "loss": 3.692, "eval_loss": null, "predict_loss": null, "learning_rate": 9.811307976162497e-05, "epoch": 0.19306733450964766, "percentage": 67.84}
+{"current_steps": 3424, "total_steps": 5000, "loss": 3.7422, "eval_loss": null, "predict_loss": null, "learning_rate": 9.567193097214706e-05, "epoch": 0.1948887244578519, "percentage": 68.48}
+{"current_steps": 3456, "total_steps": 5000, "loss": 3.8382, "eval_loss": null, "predict_loss": null, "learning_rate": 9.326119176505879e-05, "epoch": 0.19671011440605612, "percentage": 69.12}
+{"current_steps": 3488, "total_steps": 5000, "loss": 3.7028, "eval_loss": null, "predict_loss": null, "learning_rate": 9.088191957025219e-05, "epoch": 0.19853150435426034, "percentage": 69.76}
+{"current_steps": 3520, "total_steps": 5000, "loss": 3.7607, "eval_loss": null, "predict_loss": null, "learning_rate": 8.85351580151476e-05, "epoch": 0.20035289430246456, "percentage": 70.4}
+{"current_steps": 3552, "total_steps": 5000, "loss": 3.774, "eval_loss": null, "predict_loss": null, "learning_rate": 8.622193646692415e-05, "epoch": 0.2021742842506688, "percentage": 71.04}
+{"current_steps": 3584, "total_steps": 5000, "loss": 3.7508, "eval_loss": null, "predict_loss": null, "learning_rate": 8.394326958100568e-05, "epoch": 0.20399567419887302, "percentage": 71.68}
+{"current_steps": 3616, "total_steps": 5000, "loss": 3.6716, "eval_loss": null, "predict_loss": null, "learning_rate": 8.170015685599894e-05, "epoch": 0.20581706414707723, "percentage": 72.32}
+{"current_steps": 3648, "total_steps": 5000, "loss": 3.7333, "eval_loss": null, "predict_loss": null, "learning_rate": 7.949358219528073e-05, "epoch": 0.20763845409528145, "percentage": 72.96}
+{"current_steps": 3680, "total_steps": 5000, "loss": 3.7026, "eval_loss": null, "predict_loss": null, "learning_rate": 7.73245134754252e-05, "epoch": 0.2094598440434857, "percentage": 73.6}
+{"current_steps": 3712, "total_steps": 5000, "loss": 3.7249, "eval_loss": null, "predict_loss": null, "learning_rate": 7.51939021216613e-05, "epoch": 0.2112812339916899, "percentage": 74.24}
+{"current_steps": 3744, "total_steps": 5000, "loss": 3.8417, "eval_loss": null, "predict_loss": null, "learning_rate": 7.31026826905461e-05, "epoch": 0.21310262393989413, "percentage": 74.88}
+{"current_steps": 3776, "total_steps": 5000, "loss": 3.6865, "eval_loss": null, "predict_loss": null, "learning_rate": 7.105177246003757e-05, "epoch": 0.21492401388809834, "percentage": 75.52}
+{"current_steps": 3808, "total_steps": 5000, "loss": 3.7, "eval_loss": null, "predict_loss": null, "learning_rate": 6.904207102714602e-05, "epoch": 0.21674540383630259, "percentage": 76.16}
+{"current_steps": 3840, "total_steps": 5000, "loss": 3.7881, "eval_loss": null, "predict_loss": null, "learning_rate": 6.707445991334119e-05, "epoch": 0.2185667937845068, "percentage": 76.8}
+{"current_steps": 3872, "total_steps": 5000, "loss": 3.7689, "eval_loss": null, "predict_loss": null, "learning_rate": 6.514980217788767e-05, "epoch": 0.22038818373271102, "percentage": 77.44}
+{"current_steps": 3904, "total_steps": 5000, "loss": 3.7262, "eval_loss": null, "predict_loss": null, "learning_rate": 6.32689420392789e-05, "epoch": 0.22220957368091526, "percentage": 78.08}
+{"current_steps": 3936, "total_steps": 5000, "loss": 3.7416, "eval_loss": null, "predict_loss": null, "learning_rate": 6.143270450493458e-05, "epoch": 0.22403096362911948, "percentage": 78.72}
+{"current_steps": 3968, "total_steps": 5000, "loss": 3.6729, "eval_loss": null, "predict_loss": null, "learning_rate": 5.964189500932548e-05, "epoch": 0.2258523535773237, "percentage": 79.36}
+{"current_steps": 4000, "total_steps": 5000, "loss": 3.594, "eval_loss": null, "predict_loss": null, "learning_rate": 5.789729906068326e-05, "epoch": 0.2276737435255279, "percentage": 80.0}
+{"current_steps": 4032, "total_steps": 5000, "loss": 3.701, "eval_loss": null, "predict_loss": null, "learning_rate": 5.6199681896450386e-05, "epoch": 0.22949513347373215, "percentage": 80.64}
+{"current_steps": 4064, "total_steps": 5000, "loss": 3.6496, "eval_loss": null, "predict_loss": null, "learning_rate": 5.454978814762181e-05, "epoch": 0.23131652342193637, "percentage": 81.28}
+{"current_steps": 4096, "total_steps": 5000, "loss": 3.7147, "eval_loss": null, "predict_loss": null, "learning_rate": 5.29483415121254e-05, "epoch": 0.2331379133701406, "percentage": 81.92}
+{"current_steps": 4128, "total_steps": 5000, "loss": 3.6305, "eval_loss": null, "predict_loss": null, "learning_rate": 5.139604443738368e-05, "epoch": 0.2349593033183448, "percentage": 82.56}
+{"current_steps": 4160, "total_steps": 5000, "loss": 3.7926, "eval_loss": null, "predict_loss": null, "learning_rate": 4.9893577812197555e-05, "epoch": 0.23678069326654905, "percentage": 83.2}
+{"current_steps": 4192, "total_steps": 5000, "loss": 3.7267, "eval_loss": null, "predict_loss": null, "learning_rate": 4.8441600668085826e-05, "epoch": 0.23860208321475326, "percentage": 83.84}
+{"current_steps": 4224, "total_steps": 5000, "loss": 3.6597, "eval_loss": null, "predict_loss": null, "learning_rate": 4.704074989021219e-05, "epoch": 0.24042347316295748, "percentage": 84.48}
+{"current_steps": 4256, "total_steps": 5000, "loss": 3.7118, "eval_loss": null, "predict_loss": null, "learning_rate": 4.569163993802638e-05, "epoch": 0.2422448631111617, "percentage": 85.12}
+{"current_steps": 4288, "total_steps": 5000, "loss": 3.7226, "eval_loss": null, "predict_loss": null, "learning_rate": 4.439486257574193e-05, "epoch": 0.24406625305936594, "percentage": 85.76}
+{"current_steps": 4320, "total_steps": 5000, "loss": 3.6603, "eval_loss": null, "predict_loss": null, "learning_rate": 4.315098661276884e-05, "epoch": 0.24588764300757016, "percentage": 86.4}
+{"current_steps": 4352, "total_steps": 5000, "loss": 3.6387, "eval_loss": null, "predict_loss": null, "learning_rate": 4.1960557654214884e-05, "epoch": 0.24770903295577437, "percentage": 87.04}
+{"current_steps": 4384, "total_steps": 5000, "loss": 3.685, "eval_loss": null, "predict_loss": null, "learning_rate": 4.082409786156541e-05, "epoch": 0.2495304229039786, "percentage": 87.68}
+{"current_steps": 4416, "total_steps": 5000, "loss": 3.589, "eval_loss": null, "predict_loss": null, "learning_rate": 3.9742105723645814e-05, "epoch": 0.25135181285218283, "percentage": 88.32}
+{"current_steps": 4448, "total_steps": 5000, "loss": 3.6016, "eval_loss": null, "predict_loss": null, "learning_rate": 3.871505583796792e-05, "epoch": 0.253173202800387, "percentage": 88.96}
+{"current_steps": 4480, "total_steps": 5000, "loss": 3.6455, "eval_loss": null, "predict_loss": null, "learning_rate": 3.774339870255591e-05, "epoch": 0.25499459274859126, "percentage": 89.6}
+{"current_steps": 4512, "total_steps": 5000, "loss": 3.6627, "eval_loss": null, "predict_loss": null, "learning_rate": 3.682756051834299e-05, "epoch": 0.2568159826967955, "percentage": 90.24}
+{"current_steps": 4544, "total_steps": 5000, "loss": 3.5894, "eval_loss": null, "predict_loss": null, "learning_rate": 3.596794300222543e-05, "epoch": 0.2586373726449997, "percentage": 90.88}
+{"current_steps": 4576, "total_steps": 5000, "loss": 3.5985, "eval_loss": null, "predict_loss": null, "learning_rate": 3.516492321085647e-05, "epoch": 0.26045876259320394, "percentage": 91.52}
+{"current_steps": 4608, "total_steps": 5000, "loss": 3.5438, "eval_loss": null, "predict_loss": null, "learning_rate": 3.4418853375256644e-05, "epoch": 0.2622801525414082, "percentage": 92.16}
+{"current_steps": 4640, "total_steps": 5000, "loss": 3.6688, "eval_loss": null, "predict_loss": null, "learning_rate": 3.3730060746313664e-05, "epoch": 0.2641015424896124, "percentage": 92.8}
+{"current_steps": 4672, "total_steps": 5000, "loss": 3.6499, "eval_loss": null, "predict_loss": null, "learning_rate": 3.309884745123941e-05, "epoch": 0.2659229324378166, "percentage": 93.44}
+{"current_steps": 4704, "total_steps": 5000, "loss": 3.6292, "eval_loss": null, "predict_loss": null, "learning_rate": 3.2525490361046904e-05, "epoch": 0.2677443223860208, "percentage": 94.08}
+{"current_steps": 4736, "total_steps": 5000, "loss": 3.6604, "eval_loss": null, "predict_loss": null, "learning_rate": 3.201024096910552e-05, "epoch": 0.26956571233422505, "percentage": 94.72}
+{"current_steps": 4768, "total_steps": 5000, "loss": 3.6517, "eval_loss": null, "predict_loss": null, "learning_rate": 3.155332528082772e-05, "epoch": 0.2713871022824293, "percentage": 95.36}
+{"current_steps": 4800, "total_steps": 5000, "loss": 3.6683, "eval_loss": null, "predict_loss": null, "learning_rate": 3.11549437145356e-05, "epoch": 0.2732084922306335, "percentage": 96.0}
+{"current_steps": 4832, "total_steps": 5000, "loss": 3.6746, "eval_loss": null, "predict_loss": null, "learning_rate": 3.081527101355075e-05, "epoch": 0.2750298821788377, "percentage": 96.64}
+{"current_steps": 4864, "total_steps": 5000, "loss": 3.64, "eval_loss": null, "predict_loss": null, "learning_rate": 3.053445616954611e-05, "epoch": 0.27685127212704197, "percentage": 97.28}
+{"current_steps": 4896, "total_steps": 5000, "loss": 3.707, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0312622357193284e-05, "epoch": 0.27867266207524616, "percentage": 97.92}
+{"current_steps": 4928, "total_steps": 5000, "loss": 3.5813, "eval_loss": null, "predict_loss": null, "learning_rate": 3.014986688013406e-05, "epoch": 0.2804940520234504, "percentage": 98.56}
+{"current_steps": 4960, "total_steps": 5000, "loss": 3.682, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0046261128299766e-05, "epoch": 0.28231544197165465, "percentage": 99.2}
+{"current_steps": 4992, "total_steps": 5000, "loss": 3.7192, "eval_loss": null, "predict_loss": null, "learning_rate": 3.000185054659739e-05, "epoch": 0.28413683191985883, "percentage": 99.84}
+{"current_steps": 5000, "total_steps": 5000, "loss": null, "eval_loss": null, "predict_loss": null, "learning_rate": null, "epoch": 0.2845921794069099, "percentage": 100.0}