zaydzuhri
/

transformer-8192-16M-test

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a58b38a540023ff4aab14347f1c168e465d958354539a88f92f3b9f8a3698236
 size 49826824

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6b320f66c60f56aa50d8142af94584fa88bcd68e98c5179b84a67e8f0103b05
 size 49826824

trainer_log.jsonl CHANGED Viewed

@@ -156,3 +156,81 @@
 {"current_steps": 4992, "total_steps": 20000, "loss": 3.8449, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026282226806492595, "epoch": 0.28433103605399557, "percentage": 24.96}
 {"current_steps": 5024, "total_steps": 20000, "loss": 3.9761, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026234863262017535, "epoch": 0.28615367090049554, "percentage": 25.12}
 {"current_steps": 5056, "total_steps": 20000, "loss": 4.0494, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026187248761160676, "epoch": 0.2879763057469955, "percentage": 25.28}

 {"current_steps": 4992, "total_steps": 20000, "loss": 3.8449, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026282226806492595, "epoch": 0.28433103605399557, "percentage": 24.96}
 {"current_steps": 5024, "total_steps": 20000, "loss": 3.9761, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026234863262017535, "epoch": 0.28615367090049554, "percentage": 25.12}
 {"current_steps": 5056, "total_steps": 20000, "loss": 4.0494, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026187248761160676, "epoch": 0.2879763057469955, "percentage": 25.28}
+{"current_steps": 5088, "total_steps": 20000, "loss": 3.8912, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026139384531382795, "epoch": 0.2897989405934955, "percentage": 25.44}
+{"current_steps": 5120, "total_steps": 20000, "loss": 3.9177, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026091271806582476, "epoch": 0.29162157543999545, "percentage": 25.6}
+{"current_steps": 5152, "total_steps": 20000, "loss": 3.9875, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002604291182706428, "epoch": 0.2934442102864954, "percentage": 25.76}
+{"current_steps": 5184, "total_steps": 20000, "loss": 3.7827, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025994305839506775, "epoch": 0.2952668451329954, "percentage": 25.92}
+{"current_steps": 5216, "total_steps": 20000, "loss": 3.9791, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002594545509693043, "epoch": 0.29708947997949536, "percentage": 26.08}
+{"current_steps": 5248, "total_steps": 20000, "loss": 3.7312, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002589636085866526, "epoch": 0.29891211482599533, "percentage": 26.24}
+{"current_steps": 5280, "total_steps": 20000, "loss": 3.8365, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025847024390318406, "epoch": 0.3007347496724953, "percentage": 26.4}
+{"current_steps": 5312, "total_steps": 20000, "loss": 3.9364, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002579744696374148, "epoch": 0.3025573845189953, "percentage": 26.56}
+{"current_steps": 5344, "total_steps": 20000, "loss": 3.6989, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025747629856997796, "epoch": 0.30438001936549525, "percentage": 26.72}
+{"current_steps": 5376, "total_steps": 20000, "loss": 3.6757, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002569757435432942, "epoch": 0.3062026542119952, "percentage": 26.88}
+{"current_steps": 5408, "total_steps": 20000, "loss": 3.794, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002564728174612405, "epoch": 0.3080252890584952, "percentage": 27.04}
+{"current_steps": 5440, "total_steps": 20000, "loss": 3.8299, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025596753328881763, "epoch": 0.30984792390499516, "percentage": 27.2}
+{"current_steps": 5472, "total_steps": 20000, "loss": 3.8286, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000255459904051816, "epoch": 0.31167055875149513, "percentage": 27.36}
+{"current_steps": 5504, "total_steps": 20000, "loss": 3.8281, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002549499428364796, "epoch": 0.3134931935979951, "percentage": 27.52}
+{"current_steps": 5536, "total_steps": 20000, "loss": 3.8089, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002544376627891689, "epoch": 0.31531582844449507, "percentage": 27.68}
+{"current_steps": 5568, "total_steps": 20000, "loss": 3.7754, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002539230771160218, "epoch": 0.31713846329099504, "percentage": 27.84}
+{"current_steps": 5600, "total_steps": 20000, "loss": 3.8723, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002534061990826135, "epoch": 0.318961098137495, "percentage": 28.0}
+{"current_steps": 5632, "total_steps": 20000, "loss": 3.815, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002528870420136138, "epoch": 0.320783732983995, "percentage": 28.16}
+{"current_steps": 5664, "total_steps": 20000, "loss": 3.7078, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002523656192924445, "epoch": 0.32260636783049496, "percentage": 28.32}
+{"current_steps": 5696, "total_steps": 20000, "loss": 3.7814, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025184194436093373, "epoch": 0.3244290026769949, "percentage": 28.48}
+{"current_steps": 5728, "total_steps": 20000, "loss": 3.6737, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025131603071896976, "epoch": 0.3262516375234949, "percentage": 28.64}
+{"current_steps": 5760, "total_steps": 20000, "loss": 4.0052, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002507878919241529, "epoch": 0.32807427236999487, "percentage": 28.8}
+{"current_steps": 5792, "total_steps": 20000, "loss": 3.8064, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002502575415914458, "epoch": 0.32989690721649484, "percentage": 28.96}
+{"current_steps": 5824, "total_steps": 20000, "loss": 3.7766, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024972499339282286, "epoch": 0.3317195420629948, "percentage": 29.12}
+{"current_steps": 5856, "total_steps": 20000, "loss": 3.8121, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024919026105691756, "epoch": 0.3335421769094948, "percentage": 29.28}
+{"current_steps": 5888, "total_steps": 20000, "loss": 3.8076, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024865335836866845, "epoch": 0.33536481175599475, "percentage": 29.44}
+{"current_steps": 5920, "total_steps": 20000, "loss": 3.7648, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002481142991689638, "epoch": 0.3371874466024947, "percentage": 29.6}
+{"current_steps": 5952, "total_steps": 20000, "loss": 3.756, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024757309735428523, "epoch": 0.3390100814489947, "percentage": 29.76}
+{"current_steps": 5984, "total_steps": 20000, "loss": 3.5367, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002470297668763488, "epoch": 0.34083271629549466, "percentage": 29.92}
+{"current_steps": 6016, "total_steps": 20000, "loss": 3.7687, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024648432174174576, "epoch": 0.34265535114199464, "percentage": 30.08}
+{"current_steps": 6048, "total_steps": 20000, "loss": 3.8556, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024593677601158153, "epoch": 0.3444779859884946, "percentage": 30.24}
+{"current_steps": 6080, "total_steps": 20000, "loss": 3.947, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024538714380111285, "epoch": 0.3463006208349946, "percentage": 30.4}
+{"current_steps": 6112, "total_steps": 20000, "loss": 3.6322, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002448354392793843, "epoch": 0.34812325568149455, "percentage": 30.56}
+{"current_steps": 6144, "total_steps": 20000, "loss": 3.896, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002442816766688627, "epoch": 0.3499458905279945, "percentage": 30.72}
+{"current_steps": 6176, "total_steps": 20000, "loss": 3.6894, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024372587024507078, "epoch": 0.3517685253744945, "percentage": 30.88}
+{"current_steps": 6208, "total_steps": 20000, "loss": 3.7994, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024316803433621894, "epoch": 0.35359116022099446, "percentage": 31.04}
+{"current_steps": 6240, "total_steps": 20000, "loss": 3.7865, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024260818332283595, "epoch": 0.35541379506749443, "percentage": 31.2}
+{"current_steps": 6272, "total_steps": 20000, "loss": 3.7989, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024204633163739828, "epoch": 0.3572364299139944, "percentage": 31.36}
+{"current_steps": 6304, "total_steps": 20000, "loss": 3.7127, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002414824937639579, "epoch": 0.3590590647604944, "percentage": 31.52}
+{"current_steps": 6336, "total_steps": 20000, "loss": 3.6266, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024091668423776915, "epoch": 0.36088169960699434, "percentage": 31.68}
+{"current_steps": 6368, "total_steps": 20000, "loss": 3.8128, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002403489176449137, "epoch": 0.3627043344534943, "percentage": 31.84}
+{"current_steps": 6400, "total_steps": 20000, "loss": 3.7633, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023977920862192488, "epoch": 0.3645269692999943, "percentage": 32.0}
+{"current_steps": 6432, "total_steps": 20000, "loss": 3.7562, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023920757185541007, "epoch": 0.36634960414649426, "percentage": 32.16}
+{"current_steps": 6464, "total_steps": 20000, "loss": 3.7413, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023863402208167228, "epoch": 0.3681722389929942, "percentage": 32.32}
+{"current_steps": 6496, "total_steps": 20000, "loss": 3.696, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023805857408633024, "epoch": 0.3699948738394942, "percentage": 32.48}
+{"current_steps": 6528, "total_steps": 20000, "loss": 3.7198, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000237481242703937, "epoch": 0.37181750868599417, "percentage": 32.64}
+{"current_steps": 6560, "total_steps": 20000, "loss": 3.8234, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023690204281759795, "epoch": 0.37364014353249414, "percentage": 32.8}
+{"current_steps": 6592, "total_steps": 20000, "loss": 3.6528, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002363209893585868, "epoch": 0.3754627783789941, "percentage": 32.96}
+{"current_steps": 6624, "total_steps": 20000, "loss": 3.8601, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023573809730596066, "epoch": 0.3772854132254941, "percentage": 33.12}
+{"current_steps": 6656, "total_steps": 20000, "loss": 3.8349, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002351533816861742, "epoch": 0.37910804807199405, "percentage": 33.28}
+{"current_steps": 6688, "total_steps": 20000, "loss": 3.6825, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023456685757269189, "epoch": 0.380930682918494, "percentage": 33.44}
+{"current_steps": 6720, "total_steps": 20000, "loss": 3.7653, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023397854008559975, "epoch": 0.382753317764994, "percentage": 33.6}
+{"current_steps": 6752, "total_steps": 20000, "loss": 3.8535, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023338844439121532, "epoch": 0.38457595261149397, "percentage": 33.76}
+{"current_steps": 6784, "total_steps": 20000, "loss": 3.6708, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023279658570169698, "epoch": 0.38639858745799394, "percentage": 33.92}
+{"current_steps": 6816, "total_steps": 20000, "loss": 3.6573, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023220297927465123, "epoch": 0.3882212223044939, "percentage": 34.08}
+{"current_steps": 6848, "total_steps": 20000, "loss": 3.6761, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002316076404127401, "epoch": 0.3900438571509939, "percentage": 34.24}
+{"current_steps": 6880, "total_steps": 20000, "loss": 3.449, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023101058446328625, "epoch": 0.3918664919974939, "percentage": 34.4}
+{"current_steps": 6912, "total_steps": 20000, "loss": 3.821, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023041182681787713, "epoch": 0.3936891268439939, "percentage": 34.56}
+{"current_steps": 6944, "total_steps": 20000, "loss": 3.7888, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002298113829119687, "epoch": 0.39551176169049385, "percentage": 34.72}
+{"current_steps": 6976, "total_steps": 20000, "loss": 3.6945, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022920926822448716, "epoch": 0.3973343965369938, "percentage": 34.88}
+{"current_steps": 7008, "total_steps": 20000, "loss": 3.6882, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022860549827743, "epoch": 0.3991570313834938, "percentage": 35.04}
+{"current_steps": 7040, "total_steps": 20000, "loss": 3.8674, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022800008863546592, "epoch": 0.40097966622999376, "percentage": 35.2}
+{"current_steps": 7072, "total_steps": 20000, "loss": 3.6808, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022739305490553357, "epoch": 0.40280230107649373, "percentage": 35.36}
+{"current_steps": 7104, "total_steps": 20000, "loss": 3.7803, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022678441273643908, "epoch": 0.4046249359229937, "percentage": 35.52}
+{"current_steps": 7136, "total_steps": 20000, "loss": 3.6481, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022617417781845283, "epoch": 0.40644757076949367, "percentage": 35.68}
+{"current_steps": 7168, "total_steps": 20000, "loss": 3.5634, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022556236588290487, "epoch": 0.40827020561599364, "percentage": 35.84}
+{"current_steps": 7200, "total_steps": 20000, "loss": 3.6948, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002249489927017795, "epoch": 0.4100928404624936, "percentage": 36.0}
+{"current_steps": 7232, "total_steps": 20000, "loss": 3.5979, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022433407408730836, "epoch": 0.4119154753089936, "percentage": 36.16}
+{"current_steps": 7264, "total_steps": 20000, "loss": 3.6149, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022371762589156328, "epoch": 0.41373811015549355, "percentage": 36.32}
+{"current_steps": 7296, "total_steps": 20000, "loss": 3.6455, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022309966400604724, "epoch": 0.4155607450019935, "percentage": 36.48}
+{"current_steps": 7328, "total_steps": 20000, "loss": 3.7417, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022248020436128478, "epoch": 0.4173833798484935, "percentage": 36.64}
+{"current_steps": 7360, "total_steps": 20000, "loss": 3.746, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002218592629264116, "epoch": 0.41920601469499347, "percentage": 36.8}
+{"current_steps": 7392, "total_steps": 20000, "loss": 3.6838, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022123685570876237, "epoch": 0.42102864954149344, "percentage": 36.96}
+{"current_steps": 7424, "total_steps": 20000, "loss": 3.8068, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022061299875345867, "epoch": 0.4228512843879934, "percentage": 37.12}
+{"current_steps": 7456, "total_steps": 20000, "loss": 3.6016, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021998770814299495, "epoch": 0.4246739192344934, "percentage": 37.28}
+{"current_steps": 7488, "total_steps": 20000, "loss": 3.7361, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021936099999682394, "epoch": 0.42649655408099335, "percentage": 37.44}
+{"current_steps": 7520, "total_steps": 20000, "loss": 3.8801, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021873289047094141, "epoch": 0.4283191889274933, "percentage": 37.6}
+{"current_steps": 7552, "total_steps": 20000, "loss": 3.6818, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002181033957574693, "epoch": 0.4301418237739933, "percentage": 37.76}