zaydzuhri
/

transformer-8192-16M-test

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bba9b4a4d2af4dda54ba10bd870787d27042d691619f279fcfafbe152380964
 size 49826824

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0434af353a8ae3d2544c2a3b777914d571493bd7ca3f244eed036fd874e4516
 size 49826824

trainer_log.jsonl CHANGED Viewed

@@ -391,3 +391,82 @@
 {"current_steps": 12512, "total_steps": 20000, "loss": 3.2683, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011458703244066896, "epoch": 0.7126502249814889, "percentage": 62.56}
 {"current_steps": 12544, "total_steps": 20000, "loss": 3.4729, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001139518321453491, "epoch": 0.7144728598279888, "percentage": 62.72}
 {"current_steps": 12576, "total_steps": 20000, "loss": 3.5516, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011331794782778444, "epoch": 0.7162954946744888, "percentage": 62.88}

 {"current_steps": 12512, "total_steps": 20000, "loss": 3.2683, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011458703244066896, "epoch": 0.7126502249814889, "percentage": 62.56}
 {"current_steps": 12544, "total_steps": 20000, "loss": 3.4729, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001139518321453491, "epoch": 0.7144728598279888, "percentage": 62.72}
 {"current_steps": 12576, "total_steps": 20000, "loss": 3.5516, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011331794782778444, "epoch": 0.7162954946744888, "percentage": 62.88}
+{"current_steps": 12608, "total_steps": 20000, "loss": 3.5837, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001126853958289661, "epoch": 0.7181181295209887, "percentage": 63.04}
+{"current_steps": 12640, "total_steps": 20000, "loss": 3.3683, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011205419245553924, "epoch": 0.7199407643674888, "percentage": 63.2}
+{"current_steps": 12672, "total_steps": 20000, "loss": 3.4721, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011142435397938273, "epoch": 0.7217633992139887, "percentage": 63.36}
+{"current_steps": 12704, "total_steps": 20000, "loss": 3.4573, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011079589663718931, "epoch": 0.7235860340604887, "percentage": 63.52}
+{"current_steps": 12736, "total_steps": 20000, "loss": 3.4366, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00011016883663004754, "epoch": 0.7254086689069886, "percentage": 63.68}
+{"current_steps": 12768, "total_steps": 20000, "loss": 3.3886, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010954319012302369, "epoch": 0.7272313037534887, "percentage": 63.84}
+{"current_steps": 12800, "total_steps": 20000, "loss": 3.382, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010891897324474534, "epoch": 0.7290539385999886, "percentage": 64.0}
+{"current_steps": 12832, "total_steps": 20000, "loss": 3.3509, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010829620208698547, "epoch": 0.7308765734464886, "percentage": 64.16}
+{"current_steps": 12864, "total_steps": 20000, "loss": 3.4454, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001076748927042475, "epoch": 0.7326992082929885, "percentage": 64.32}
+{"current_steps": 12896, "total_steps": 20000, "loss": 3.4615, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010705506111335171, "epoch": 0.7345218431394885, "percentage": 64.48}
+{"current_steps": 12928, "total_steps": 20000, "loss": 3.4641, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010643672329302207, "epoch": 0.7363444779859885, "percentage": 64.64}
+{"current_steps": 12960, "total_steps": 20000, "loss": 3.4309, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010581989518347453, "epoch": 0.7381671128324885, "percentage": 64.8}
+{"current_steps": 12992, "total_steps": 20000, "loss": 3.5289, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010520459268600592, "epoch": 0.7399897476789884, "percentage": 64.96}
+{"current_steps": 13024, "total_steps": 20000, "loss": 3.4022, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010459083166258416, "epoch": 0.7418123825254884, "percentage": 65.12}
+{"current_steps": 13056, "total_steps": 20000, "loss": 3.4717, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001039786279354392, "epoch": 0.7436350173719883, "percentage": 65.28}
+{"current_steps": 13088, "total_steps": 20000, "loss": 3.5262, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010336799728665537, "epoch": 0.7454576522184884, "percentage": 65.44}
+{"current_steps": 13120, "total_steps": 20000, "loss": 3.5129, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001027589554577643, "epoch": 0.7472802870649883, "percentage": 65.6}
+{"current_steps": 13152, "total_steps": 20000, "loss": 3.3454, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010215151814933922, "epoch": 0.7491029219114883, "percentage": 65.76}
+{"current_steps": 13184, "total_steps": 20000, "loss": 3.3002, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010154570102059024, "epoch": 0.7509255567579882, "percentage": 65.92}
+{"current_steps": 13216, "total_steps": 20000, "loss": 3.3141, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010094151968896062, "epoch": 0.7527481916044882, "percentage": 66.08}
+{"current_steps": 13248, "total_steps": 20000, "loss": 3.5017, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00010033898972972423, "epoch": 0.7545708264509882, "percentage": 66.24}
+{"current_steps": 13280, "total_steps": 20000, "loss": 3.4135, "eval_loss": null, "predict_loss": null, "learning_rate": 9.973812667558385e-05, "epoch": 0.7563934612974882, "percentage": 66.4}
+{"current_steps": 13312, "total_steps": 20000, "loss": 3.3258, "eval_loss": null, "predict_loss": null, "learning_rate": 9.913894601627107e-05, "epoch": 0.7582160961439881, "percentage": 66.56}
+{"current_steps": 13344, "total_steps": 20000, "loss": 3.4969, "eval_loss": null, "predict_loss": null, "learning_rate": 9.854146319814667e-05, "epoch": 0.7600387309904881, "percentage": 66.72}
+{"current_steps": 13376, "total_steps": 20000, "loss": 3.391, "eval_loss": null, "predict_loss": null, "learning_rate": 9.794569362380249e-05, "epoch": 0.761861365836988, "percentage": 66.88}
+{"current_steps": 13408, "total_steps": 20000, "loss": 3.5774, "eval_loss": null, "predict_loss": null, "learning_rate": 9.735165265166456e-05, "epoch": 0.7636840006834881, "percentage": 67.04}
+{"current_steps": 13440, "total_steps": 20000, "loss": 3.4524, "eval_loss": null, "predict_loss": null, "learning_rate": 9.675935559559702e-05, "epoch": 0.765506635529988, "percentage": 67.2}
+{"current_steps": 13472, "total_steps": 20000, "loss": 3.6359, "eval_loss": null, "predict_loss": null, "learning_rate": 9.616881772450724e-05, "epoch": 0.767329270376488, "percentage": 67.36}
+{"current_steps": 13504, "total_steps": 20000, "loss": 3.4489, "eval_loss": null, "predict_loss": null, "learning_rate": 9.558005426195242e-05, "epoch": 0.7691519052229879, "percentage": 67.52}
+{"current_steps": 13536, "total_steps": 20000, "loss": 3.2775, "eval_loss": null, "predict_loss": null, "learning_rate": 9.499308038574699e-05, "epoch": 0.770974540069488, "percentage": 67.68}
+{"current_steps": 13568, "total_steps": 20000, "loss": 3.5144, "eval_loss": null, "predict_loss": null, "learning_rate": 9.440791122757145e-05, "epoch": 0.7727971749159879, "percentage": 67.84}
+{"current_steps": 13600, "total_steps": 20000, "loss": 3.3279, "eval_loss": null, "predict_loss": null, "learning_rate": 9.382456187258217e-05, "epoch": 0.7746198097624879, "percentage": 68.0}
+{"current_steps": 13632, "total_steps": 20000, "loss": 3.3244, "eval_loss": null, "predict_loss": null, "learning_rate": 9.324304735902253e-05, "epoch": 0.7764424446089878, "percentage": 68.16}
+{"current_steps": 13664, "total_steps": 20000, "loss": 3.3064, "eval_loss": null, "predict_loss": null, "learning_rate": 9.266338267783541e-05, "epoch": 0.7782650794554878, "percentage": 68.32}
+{"current_steps": 13696, "total_steps": 20000, "loss": 3.4345, "eval_loss": null, "predict_loss": null, "learning_rate": 9.208558277227653e-05, "epoch": 0.7800877143019878, "percentage": 68.48}
+{"current_steps": 13728, "total_steps": 20000, "loss": 3.3302, "eval_loss": null, "predict_loss": null, "learning_rate": 9.150966253752919e-05, "epoch": 0.7819103491484878, "percentage": 68.64}
+{"current_steps": 13760, "total_steps": 20000, "loss": 3.4702, "eval_loss": null, "predict_loss": null, "learning_rate": 9.093563682032058e-05, "epoch": 0.7837329839949878, "percentage": 68.8}
+{"current_steps": 13792, "total_steps": 20000, "loss": 3.3884, "eval_loss": null, "predict_loss": null, "learning_rate": 9.036352041853875e-05, "epoch": 0.7855556188414877, "percentage": 68.96}
+{"current_steps": 13824, "total_steps": 20000, "loss": 3.3936, "eval_loss": null, "predict_loss": null, "learning_rate": 8.979332808085124e-05, "epoch": 0.7873782536879878, "percentage": 69.12}
+{"current_steps": 13856, "total_steps": 20000, "loss": 3.3741, "eval_loss": null, "predict_loss": null, "learning_rate": 8.922507450632498e-05, "epoch": 0.7892008885344877, "percentage": 69.28}
+{"current_steps": 13888, "total_steps": 20000, "loss": 3.3988, "eval_loss": null, "predict_loss": null, "learning_rate": 8.865877434404718e-05, "epoch": 0.7910235233809877, "percentage": 69.44}
+{"current_steps": 13920, "total_steps": 20000, "loss": 3.4056, "eval_loss": null, "predict_loss": null, "learning_rate": 8.809444219274776e-05, "epoch": 0.7928461582274876, "percentage": 69.6}
+{"current_steps": 13952, "total_steps": 20000, "loss": 3.4124, "eval_loss": null, "predict_loss": null, "learning_rate": 8.753209260042303e-05, "epoch": 0.7946687930739876, "percentage": 69.76}
+{"current_steps": 13984, "total_steps": 20000, "loss": 3.3623, "eval_loss": null, "predict_loss": null, "learning_rate": 8.697174006396064e-05, "epoch": 0.7964914279204875, "percentage": 69.92}
+{"current_steps": 14016, "total_steps": 20000, "loss": 3.3605, "eval_loss": null, "predict_loss": null, "learning_rate": 8.641339902876595e-05, "epoch": 0.7983140627669876, "percentage": 70.08}
+{"current_steps": 14048, "total_steps": 20000, "loss": 3.4132, "eval_loss": null, "predict_loss": null, "learning_rate": 8.585708388838935e-05, "epoch": 0.8001366976134875, "percentage": 70.24}
+{"current_steps": 14080, "total_steps": 20000, "loss": 3.4014, "eval_loss": null, "predict_loss": null, "learning_rate": 8.530280898415551e-05, "epoch": 0.8019593324599875, "percentage": 70.4}
+{"current_steps": 14112, "total_steps": 20000, "loss": 3.3893, "eval_loss": null, "predict_loss": null, "learning_rate": 8.475058860479362e-05, "epoch": 0.8037819673064874, "percentage": 70.56}
+{"current_steps": 14144, "total_steps": 20000, "loss": 3.3038, "eval_loss": null, "predict_loss": null, "learning_rate": 8.420043698606898e-05, "epoch": 0.8056046021529875, "percentage": 70.72}
+{"current_steps": 14176, "total_steps": 20000, "loss": 3.3374, "eval_loss": null, "predict_loss": null, "learning_rate": 8.365236831041596e-05, "epoch": 0.8074272369994874, "percentage": 70.88}
+{"current_steps": 14208, "total_steps": 20000, "loss": 3.3515, "eval_loss": null, "predict_loss": null, "learning_rate": 8.31063967065725e-05, "epoch": 0.8092498718459874, "percentage": 71.04}
+{"current_steps": 14240, "total_steps": 20000, "loss": 3.4038, "eval_loss": null, "predict_loss": null, "learning_rate": 8.256253624921584e-05, "epoch": 0.8110725066924873, "percentage": 71.2}
+{"current_steps": 14272, "total_steps": 20000, "loss": 3.0866, "eval_loss": null, "predict_loss": null, "learning_rate": 8.202080095859966e-05, "epoch": 0.8128951415389873, "percentage": 71.36}
+{"current_steps": 14304, "total_steps": 20000, "loss": 3.4988, "eval_loss": null, "predict_loss": null, "learning_rate": 8.148120480019276e-05, "epoch": 0.8147177763854873, "percentage": 71.52}
+{"current_steps": 14336, "total_steps": 20000, "loss": 3.4212, "eval_loss": null, "predict_loss": null, "learning_rate": 8.094376168431873e-05, "epoch": 0.8165404112319873, "percentage": 71.68}
+{"current_steps": 14368, "total_steps": 20000, "loss": 3.2785, "eval_loss": null, "predict_loss": null, "learning_rate": 8.040848546579788e-05, "epoch": 0.8183630460784872, "percentage": 71.84}
+{"current_steps": 14400, "total_steps": 20000, "loss": 3.34, "eval_loss": null, "predict_loss": null, "learning_rate": 7.98753899435895e-05, "epoch": 0.8201856809249872, "percentage": 72.0}
+{"current_steps": 14432, "total_steps": 20000, "loss": 3.4378, "eval_loss": null, "predict_loss": null, "learning_rate": 7.93444888604366e-05, "epoch": 0.8220083157714871, "percentage": 72.16}
+{"current_steps": 14464, "total_steps": 20000, "loss": 3.3012, "eval_loss": null, "predict_loss": null, "learning_rate": 7.881579590251135e-05, "epoch": 0.8238309506179872, "percentage": 72.32}
+{"current_steps": 14496, "total_steps": 20000, "loss": 3.4742, "eval_loss": null, "predict_loss": null, "learning_rate": 7.82893246990624e-05, "epoch": 0.8256535854644871, "percentage": 72.48}
+{"current_steps": 14528, "total_steps": 20000, "loss": 3.3974, "eval_loss": null, "predict_loss": null, "learning_rate": 7.77650888220635e-05, "epoch": 0.8274762203109871, "percentage": 72.64}
+{"current_steps": 14560, "total_steps": 20000, "loss": 3.2891, "eval_loss": null, "predict_loss": null, "learning_rate": 7.72431017858635e-05, "epoch": 0.829298855157487, "percentage": 72.8}
+{"current_steps": 14592, "total_steps": 20000, "loss": 3.3826, "eval_loss": null, "predict_loss": null, "learning_rate": 7.672337704683824e-05, "epoch": 0.831121490003987, "percentage": 72.96}
+{"current_steps": 14624, "total_steps": 20000, "loss": 3.3069, "eval_loss": null, "predict_loss": null, "learning_rate": 7.620592800304338e-05, "epoch": 0.832944124850487, "percentage": 73.12}
+{"current_steps": 14656, "total_steps": 20000, "loss": 3.4393, "eval_loss": null, "predict_loss": null, "learning_rate": 7.569076799386909e-05, "epoch": 0.834766759696987, "percentage": 73.28}
+{"current_steps": 14688, "total_steps": 20000, "loss": 3.349, "eval_loss": null, "predict_loss": null, "learning_rate": 7.517791029969627e-05, "epoch": 0.8365893945434869, "percentage": 73.44}
+{"current_steps": 14720, "total_steps": 20000, "loss": 3.3965, "eval_loss": null, "predict_loss": null, "learning_rate": 7.466736814155418e-05, "epoch": 0.8384120293899869, "percentage": 73.6}
+{"current_steps": 14752, "total_steps": 20000, "loss": 3.3879, "eval_loss": null, "predict_loss": null, "learning_rate": 7.415915468077937e-05, "epoch": 0.8402346642364869, "percentage": 73.76}
+{"current_steps": 14784, "total_steps": 20000, "loss": 3.3738, "eval_loss": null, "predict_loss": null, "learning_rate": 7.365328301867673e-05, "epoch": 0.8420572990829869, "percentage": 73.92}
+{"current_steps": 14816, "total_steps": 20000, "loss": 3.4681, "eval_loss": null, "predict_loss": null, "learning_rate": 7.31497661961816e-05, "epoch": 0.8438799339294868, "percentage": 74.08}
+{"current_steps": 14848, "total_steps": 20000, "loss": 3.3666, "eval_loss": null, "predict_loss": null, "learning_rate": 7.264861719352352e-05, "epoch": 0.8457025687759868, "percentage": 74.24}
+{"current_steps": 14880, "total_steps": 20000, "loss": 3.3233, "eval_loss": null, "predict_loss": null, "learning_rate": 7.21498489298917e-05, "epoch": 0.8475252036224867, "percentage": 74.4}
+{"current_steps": 14912, "total_steps": 20000, "loss": 3.3867, "eval_loss": null, "predict_loss": null, "learning_rate": 7.165347426310198e-05, "epoch": 0.8493478384689868, "percentage": 74.56}
+{"current_steps": 14944, "total_steps": 20000, "loss": 3.2287, "eval_loss": null, "predict_loss": null, "learning_rate": 7.115950598926533e-05, "epoch": 0.8511704733154867, "percentage": 74.72}
+{"current_steps": 14976, "total_steps": 20000, "loss": 3.3889, "eval_loss": null, "predict_loss": null, "learning_rate": 7.066795684245788e-05, "epoch": 0.8529931081619867, "percentage": 74.88}
+{"current_steps": 15008, "total_steps": 20000, "loss": 3.3299, "eval_loss": null, "predict_loss": null, "learning_rate": 7.017883949439288e-05, "epoch": 0.8548157430084866, "percentage": 75.04}
+{"current_steps": 15040, "total_steps": 20000, "loss": 3.4652, "eval_loss": null, "predict_loss": null, "learning_rate": 6.969216655409388e-05, "epoch": 0.8566383778549866, "percentage": 75.2}
+{"current_steps": 15072, "total_steps": 20000, "loss": 3.3907, "eval_loss": null, "predict_loss": null, "learning_rate": 6.92079505675697e-05, "epoch": 0.8584610127014866, "percentage": 75.36}
+{"current_steps": 15104, "total_steps": 20000, "loss": 3.3981, "eval_loss": null, "predict_loss": null, "learning_rate": 6.872620401749094e-05, "epoch": 0.8602836475479866, "percentage": 75.52}