zaydzuhri
/

transformer-8192-16M-test

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a618271f330d1347d919348dcb971e0f06adb14eada8f247a16958d7ea26428b
 size 49826824

 version https://git-lfs.github.com/spec/v1
+oid sha256:a58b38a540023ff4aab14347f1c168e465d958354539a88f92f3b9f8a3698236
 size 49826824

trainer_log.jsonl CHANGED Viewed

@@ -78,3 +78,81 @@
 {"current_steps": 2496, "total_steps": 20000, "loss": 4.2238, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029114051367515944, "epoch": 0.14216551802699778, "percentage": 12.48}
 {"current_steps": 2528, "total_steps": 20000, "loss": 4.2166, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002908946717337805, "epoch": 0.14398815287349775, "percentage": 12.64}
 {"current_steps": 2560, "total_steps": 20000, "loss": 4.2946, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029064558433630674, "epoch": 0.14581078771999773, "percentage": 12.8}

 {"current_steps": 2496, "total_steps": 20000, "loss": 4.2238, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029114051367515944, "epoch": 0.14216551802699778, "percentage": 12.48}
 {"current_steps": 2528, "total_steps": 20000, "loss": 4.2166, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002908946717337805, "epoch": 0.14398815287349775, "percentage": 12.64}
 {"current_steps": 2560, "total_steps": 20000, "loss": 4.2946, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029064558433630674, "epoch": 0.14581078771999773, "percentage": 12.8}
+{"current_steps": 2592, "total_steps": 20000, "loss": 4.2036, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029039325790399656, "epoch": 0.1476334225664977, "percentage": 12.96}
+{"current_steps": 2624, "total_steps": 20000, "loss": 4.1975, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002901376989416077, "epoch": 0.14945605741299767, "percentage": 13.12}
+{"current_steps": 2656, "total_steps": 20000, "loss": 4.4016, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028987891403723, "epoch": 0.15127869225949764, "percentage": 13.28}
+{"current_steps": 2688, "total_steps": 20000, "loss": 4.1795, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002896169098621151, "epoch": 0.1531013271059976, "percentage": 13.44}
+{"current_steps": 2720, "total_steps": 20000, "loss": 4.1536, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028935169317050475, "epoch": 0.15492396195249758, "percentage": 13.6}
+{"current_steps": 2752, "total_steps": 20000, "loss": 4.042, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002890832707994566, "epoch": 0.15674659679899755, "percentage": 13.76}
+{"current_steps": 2784, "total_steps": 20000, "loss": 4.2988, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000288811649668668, "epoch": 0.15856923164549752, "percentage": 13.92}
+{"current_steps": 2816, "total_steps": 20000, "loss": 3.8898, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028853683678029755, "epoch": 0.1603918664919975, "percentage": 14.08}
+{"current_steps": 2848, "total_steps": 20000, "loss": 4.0103, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028825883921878437, "epoch": 0.16221450133849746, "percentage": 14.24}
+{"current_steps": 2880, "total_steps": 20000, "loss": 4.2229, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028797766415066613, "epoch": 0.16403713618499743, "percentage": 14.4}
+{"current_steps": 2912, "total_steps": 20000, "loss": 4.2711, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028769331882439364, "epoch": 0.1658597710314974, "percentage": 14.56}
+{"current_steps": 2944, "total_steps": 20000, "loss": 4.2065, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028740581057014417, "epoch": 0.16768240587799738, "percentage": 14.72}
+{"current_steps": 2976, "total_steps": 20000, "loss": 4.0063, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002871151467996327, "epoch": 0.16950504072449735, "percentage": 14.88}
+{"current_steps": 3008, "total_steps": 20000, "loss": 4.0905, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028682133500592056, "epoch": 0.17132767557099732, "percentage": 15.04}
+{"current_steps": 3040, "total_steps": 20000, "loss": 4.0331, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028652438276322256, "epoch": 0.1731503104174973, "percentage": 15.2}
+{"current_steps": 3072, "total_steps": 20000, "loss": 4.1993, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002862242977267114, "epoch": 0.17497294526399726, "percentage": 15.36}
+{"current_steps": 3104, "total_steps": 20000, "loss": 4.2014, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002859210876323207, "epoch": 0.17679558011049723, "percentage": 15.52}
+{"current_steps": 3136, "total_steps": 20000, "loss": 4.1409, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028561476029654524, "epoch": 0.1786182149569972, "percentage": 15.68}
+{"current_steps": 3168, "total_steps": 20000, "loss": 4.0273, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002853053236162396, "epoch": 0.18044084980349717, "percentage": 15.84}
+{"current_steps": 3200, "total_steps": 20000, "loss": 4.0995, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028499278556841465, "epoch": 0.18226348464999714, "percentage": 16.0}
+{"current_steps": 3232, "total_steps": 20000, "loss": 4.0739, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002846771542100318, "epoch": 0.1840861194964971, "percentage": 16.16}
+{"current_steps": 3264, "total_steps": 20000, "loss": 3.9517, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002843584376777953, "epoch": 0.18590875434299708, "percentage": 16.32}
+{"current_steps": 3296, "total_steps": 20000, "loss": 4.0628, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002840366441879425, "epoch": 0.18773138918949706, "percentage": 16.48}
+{"current_steps": 3328, "total_steps": 20000, "loss": 4.0196, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028371178203603236, "epoch": 0.18955402403599703, "percentage": 16.64}
+{"current_steps": 3360, "total_steps": 20000, "loss": 3.8922, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002833838595967309, "epoch": 0.191376658882497, "percentage": 16.8}
+{"current_steps": 3392, "total_steps": 20000, "loss": 4.0095, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028305288532359585, "epoch": 0.19319929372899697, "percentage": 16.96}
+{"current_steps": 3424, "total_steps": 20000, "loss": 3.9934, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002827188677488587, "epoch": 0.19502192857549694, "percentage": 17.12}
+{"current_steps": 3456, "total_steps": 20000, "loss": 4.0817, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028238181548320457, "epoch": 0.19684456342199694, "percentage": 17.28}
+{"current_steps": 3488, "total_steps": 20000, "loss": 4.1356, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002820417372155502, "epoch": 0.1986671982684969, "percentage": 17.44}
+{"current_steps": 3520, "total_steps": 20000, "loss": 3.9618, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002816986417128201, "epoch": 0.20048983311499688, "percentage": 17.6}
+{"current_steps": 3552, "total_steps": 20000, "loss": 4.0911, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028135253781972063, "epoch": 0.20231246796149685, "percentage": 17.76}
+{"current_steps": 3584, "total_steps": 20000, "loss": 4.0569, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028100343445851164, "epoch": 0.20413510280799682, "percentage": 17.92}
+{"current_steps": 3616, "total_steps": 20000, "loss": 4.0413, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028065134062877685, "epoch": 0.2059577376544968, "percentage": 18.08}
+{"current_steps": 3648, "total_steps": 20000, "loss": 3.8624, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002802962654071917, "epoch": 0.20778037250099676, "percentage": 18.24}
+{"current_steps": 3680, "total_steps": 20000, "loss": 3.9012, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027993821794728915, "epoch": 0.20960300734749673, "percentage": 18.4}
+{"current_steps": 3712, "total_steps": 20000, "loss": 4.0135, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027957720747922405, "epoch": 0.2114256421939967, "percentage": 18.56}
+{"current_steps": 3744, "total_steps": 20000, "loss": 3.9736, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002792132433095351, "epoch": 0.21324827704049668, "percentage": 18.72}
+{"current_steps": 3776, "total_steps": 20000, "loss": 3.7798, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002788463348209047, "epoch": 0.21507091188699665, "percentage": 18.88}
+{"current_steps": 3808, "total_steps": 20000, "loss": 4.0089, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027847649147191736, "epoch": 0.21689354673349662, "percentage": 19.04}
+{"current_steps": 3840, "total_steps": 20000, "loss": 3.9998, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027810372279681576, "epoch": 0.2187161815799966, "percentage": 19.2}
+{"current_steps": 3872, "total_steps": 20000, "loss": 4.0982, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000277728038405255, "epoch": 0.22053881642649656, "percentage": 19.36}
+{"current_steps": 3904, "total_steps": 20000, "loss": 4.021, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002773494479820547, "epoch": 0.22236145127299653, "percentage": 19.52}
+{"current_steps": 3936, "total_steps": 20000, "loss": 3.982, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027696796128694965, "epoch": 0.2241840861194965, "percentage": 19.68}
+{"current_steps": 3968, "total_steps": 20000, "loss": 3.9666, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002765835881543379, "epoch": 0.22600672096599647, "percentage": 19.84}
+{"current_steps": 4000, "total_steps": 20000, "loss": 3.9463, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002761963384930274, "epoch": 0.22782935581249644, "percentage": 20.0}
+{"current_steps": 4032, "total_steps": 20000, "loss": 4.0947, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027580622228598055, "epoch": 0.2296519906589964, "percentage": 20.16}
+{"current_steps": 4064, "total_steps": 20000, "loss": 3.9191, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002754132495900569, "epoch": 0.23147462550549638, "percentage": 20.32}
+{"current_steps": 4096, "total_steps": 20000, "loss": 3.9013, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027501743053575365, "epoch": 0.23329726035199636, "percentage": 20.48}
+{"current_steps": 4128, "total_steps": 20000, "loss": 3.9748, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027461877532694476, "epoch": 0.23511989519849633, "percentage": 20.64}
+{"current_steps": 4160, "total_steps": 20000, "loss": 4.0505, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027421729424061787, "epoch": 0.2369425300449963, "percentage": 20.8}
+{"current_steps": 4192, "total_steps": 20000, "loss": 4.0524, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002738129976266092, "epoch": 0.23876516489149627, "percentage": 20.96}
+{"current_steps": 4224, "total_steps": 20000, "loss": 3.9289, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027340589590733687, "epoch": 0.24058779973799624, "percentage": 21.12}
+{"current_steps": 4256, "total_steps": 20000, "loss": 3.9631, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002729959995775323, "epoch": 0.2424104345844962, "percentage": 21.28}
+{"current_steps": 4288, "total_steps": 20000, "loss": 4.023, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027258331920396926, "epoch": 0.24423306943099618, "percentage": 21.44}
+{"current_steps": 4320, "total_steps": 20000, "loss": 3.9693, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027216786542519225, "epoch": 0.24605570427749615, "percentage": 21.6}
+{"current_steps": 4352, "total_steps": 20000, "loss": 4.0566, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002717496489512413, "epoch": 0.24787833912399612, "percentage": 21.76}
+{"current_steps": 4384, "total_steps": 20000, "loss": 3.951, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002713286805633767, "epoch": 0.2497009739704961, "percentage": 21.92}
+{"current_steps": 4416, "total_steps": 20000, "loss": 3.7155, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002709049711138003, "epoch": 0.2515236088169961, "percentage": 22.08}
+{"current_steps": 4448, "total_steps": 20000, "loss": 3.8154, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002704785315253767, "epoch": 0.25334624366349606, "percentage": 22.24}
+{"current_steps": 4480, "total_steps": 20000, "loss": 4.0759, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002700493727913506, "epoch": 0.25516887850999603, "percentage": 22.4}
+{"current_steps": 4512, "total_steps": 20000, "loss": 3.817, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002696175059750642, "epoch": 0.256991513356496, "percentage": 22.56}
+{"current_steps": 4544, "total_steps": 20000, "loss": 3.8875, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026918294220967175, "epoch": 0.258814148202996, "percentage": 22.72}
+{"current_steps": 4576, "total_steps": 20000, "loss": 3.943, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026874569269785245, "epoch": 0.26063678304949595, "percentage": 22.88}
+{"current_steps": 4608, "total_steps": 20000, "loss": 3.9347, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026830576871152167, "epoch": 0.2624594178959959, "percentage": 23.04}
+{"current_steps": 4640, "total_steps": 20000, "loss": 3.8873, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026786318159154054, "epoch": 0.2642820527424959, "percentage": 23.2}
+{"current_steps": 4672, "total_steps": 20000, "loss": 3.7657, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002674179427474234, "epoch": 0.26610468758899586, "percentage": 23.36}
+{"current_steps": 4704, "total_steps": 20000, "loss": 4.0359, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002669700636570438, "epoch": 0.26792732243549583, "percentage": 23.52}
+{"current_steps": 4736, "total_steps": 20000, "loss": 3.8682, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002665195558663385, "epoch": 0.2697499572819958, "percentage": 23.68}
+{"current_steps": 4768, "total_steps": 20000, "loss": 3.8112, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026606643098900997, "epoch": 0.27157259212849577, "percentage": 23.84}
+{"current_steps": 4800, "total_steps": 20000, "loss": 4.0166, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002656107007062269, "epoch": 0.27339522697499574, "percentage": 24.0}
+{"current_steps": 4832, "total_steps": 20000, "loss": 3.7879, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026515237676632295, "epoch": 0.2752178618214957, "percentage": 24.16}
+{"current_steps": 4864, "total_steps": 20000, "loss": 3.9825, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002646914709844943, "epoch": 0.2770404966679957, "percentage": 24.32}
+{"current_steps": 4896, "total_steps": 20000, "loss": 3.8656, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002642279952424945, "epoch": 0.27886313151449565, "percentage": 24.48}
+{"current_steps": 4928, "total_steps": 20000, "loss": 3.7714, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002637619614883287, "epoch": 0.2806857663609956, "percentage": 24.64}
+{"current_steps": 4960, "total_steps": 20000, "loss": 3.8426, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026329338173594516, "epoch": 0.2825084012074956, "percentage": 24.8}
+{"current_steps": 4992, "total_steps": 20000, "loss": 3.8449, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026282226806492595, "epoch": 0.28433103605399557, "percentage": 24.96}
+{"current_steps": 5024, "total_steps": 20000, "loss": 3.9761, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026234863262017535, "epoch": 0.28615367090049554, "percentage": 25.12}
+{"current_steps": 5056, "total_steps": 20000, "loss": 4.0494, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026187248761160676, "epoch": 0.2879763057469955, "percentage": 25.28}