mlfoundations-dev
/

hp_ablations_mistral_scheduler_cosine_warmup0.10

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d4c3a04f0a67934f26da37b4d4a404543befce21cf9e84e3d1aa92fdedadce0
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad88fb5f2a6e5665c034925cb02f3948e5af75be570529ab4ac3597877e1cf3d
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8461e8d10ff35bbaa2189b32e8b198bd8352c83119c38de5a103f880ef4951a
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce283e3f4acaee738257afe76e7b52a2960ecace2b0ef69d7eba2a1a90ef97b1
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4feea38d5962627555933d0dd0ad104be921710c10ce1cd286f93660f657b168
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:69b6dd72477308107fd6e95e3f9f8166063810de3df8b4d9e5c15af7ead8ccda
 size 4540516344

trainer_log.jsonl CHANGED Viewed

@@ -48,3 +48,53 @@
 {"current_steps": 480, "total_steps": 1479, "loss": 0.5535, "learning_rate": 4.270893559929452e-06, "epoch": 0.9721518987341772, "percentage": 32.45, "elapsed_time": "7:20:37", "remaining_time": "15:17:02"}
 {"current_steps": 490, "total_steps": 1479, "loss": 0.5494, "learning_rate": 4.228753038290082e-06, "epoch": 0.9924050632911392, "percentage": 33.13, "elapsed_time": "7:29:48", "remaining_time": "15:07:52"}
 {"current_steps": 493, "total_steps": 1479, "eval_loss": 0.06903061270713806, "epoch": 0.9984810126582279, "percentage": 33.33, "elapsed_time": "7:41:34", "remaining_time": "15:23:08"}

 {"current_steps": 480, "total_steps": 1479, "loss": 0.5535, "learning_rate": 4.270893559929452e-06, "epoch": 0.9721518987341772, "percentage": 32.45, "elapsed_time": "7:20:37", "remaining_time": "15:17:02"}
 {"current_steps": 490, "total_steps": 1479, "loss": 0.5494, "learning_rate": 4.228753038290082e-06, "epoch": 0.9924050632911392, "percentage": 33.13, "elapsed_time": "7:29:48", "remaining_time": "15:07:52"}
 {"current_steps": 493, "total_steps": 1479, "eval_loss": 0.06903061270713806, "epoch": 0.9984810126582279, "percentage": 33.33, "elapsed_time": "7:41:34", "remaining_time": "15:23:08"}
+{"current_steps": 500, "total_steps": 1479, "loss": 0.5171, "learning_rate": 4.185649449814046e-06, "epoch": 1.0126582278481013, "percentage": 33.81, "elapsed_time": "7:48:27", "remaining_time": "15:17:13"}
+{"current_steps": 510, "total_steps": 1479, "loss": 0.4872, "learning_rate": 4.141606806974891e-06, "epoch": 1.0329113924050632, "percentage": 34.48, "elapsed_time": "7:57:38", "remaining_time": "15:07:30"}
+{"current_steps": 520, "total_steps": 1479, "loss": 0.4837, "learning_rate": 4.096649645381682e-06, "epoch": 1.0531645569620254, "percentage": 35.16, "elapsed_time": "8:06:48", "remaining_time": "14:57:47"}
+{"current_steps": 530, "total_steps": 1479, "loss": 0.4843, "learning_rate": 4.050803010110519e-06, "epoch": 1.0734177215189873, "percentage": 35.84, "elapsed_time": "8:16:00", "remaining_time": "14:48:08"}
+{"current_steps": 540, "total_steps": 1479, "loss": 0.4811, "learning_rate": 4.004092441752237e-06, "epoch": 1.0936708860759494, "percentage": 36.51, "elapsed_time": "8:25:11", "remaining_time": "14:38:29"}
+{"current_steps": 550, "total_steps": 1479, "loss": 0.4823, "learning_rate": 3.956543962184052e-06, "epoch": 1.1139240506329113, "percentage": 37.19, "elapsed_time": "8:34:22", "remaining_time": "14:28:49"}
+{"current_steps": 560, "total_steps": 1479, "loss": 0.48, "learning_rate": 3.908184060073113e-06, "epoch": 1.1341772151898735, "percentage": 37.86, "elapsed_time": "8:43:33", "remaining_time": "14:19:12"}
+{"current_steps": 570, "total_steps": 1479, "loss": 0.4863, "learning_rate": 3.859039676119978e-06, "epoch": 1.1544303797468354, "percentage": 38.54, "elapsed_time": "8:52:45", "remaining_time": "14:09:36"}
+{"current_steps": 580, "total_steps": 1479, "loss": 0.4854, "learning_rate": 3.8091381880502944e-06, "epoch": 1.1746835443037975, "percentage": 39.22, "elapsed_time": "9:01:57", "remaining_time": "14:00:02"}
+{"current_steps": 590, "total_steps": 1479, "loss": 0.4787, "learning_rate": 3.7585073953630056e-06, "epoch": 1.1949367088607594, "percentage": 39.89, "elapsed_time": "9:11:09", "remaining_time": "13:50:28"}
+{"current_steps": 600, "total_steps": 1479, "loss": 0.4863, "learning_rate": 3.707175503843594e-06, "epoch": 1.2151898734177216, "percentage": 40.57, "elapsed_time": "9:20:20", "remaining_time": "13:40:54"}
+{"current_steps": 610, "total_steps": 1479, "loss": 0.4823, "learning_rate": 3.6551711098509906e-06, "epoch": 1.2354430379746835, "percentage": 41.24, "elapsed_time": "9:29:32", "remaining_time": "13:31:21"}
+{"current_steps": 620, "total_steps": 1479, "loss": 0.4862, "learning_rate": 3.602523184386898e-06, "epoch": 1.2556962025316456, "percentage": 41.92, "elapsed_time": "9:38:43", "remaining_time": "13:21:48"}
+{"current_steps": 630, "total_steps": 1479, "loss": 0.4859, "learning_rate": 3.5492610569564046e-06, "epoch": 1.2759493670886077, "percentage": 42.6, "elapsed_time": "9:47:54", "remaining_time": "13:12:16"}
+{"current_steps": 640, "total_steps": 1479, "loss": 0.4851, "learning_rate": 3.4954143992288825e-06, "epoch": 1.2962025316455696, "percentage": 43.27, "elapsed_time": "9:57:04", "remaining_time": "13:02:43"}
+{"current_steps": 650, "total_steps": 1479, "loss": 0.4887, "learning_rate": 3.441013208508271e-06, "epoch": 1.3164556962025316, "percentage": 43.95, "elapsed_time": "10:06:15", "remaining_time": "12:53:12"}
+{"current_steps": 660, "total_steps": 1479, "loss": 0.4769, "learning_rate": 3.3860877910219453e-06, "epoch": 1.3367088607594937, "percentage": 44.62, "elapsed_time": "10:15:26", "remaining_time": "12:43:42"}
+{"current_steps": 670, "total_steps": 1479, "loss": 0.4906, "learning_rate": 3.330668745037502e-06, "epoch": 1.3569620253164558, "percentage": 45.3, "elapsed_time": "10:24:37", "remaining_time": "12:34:12"}
+{"current_steps": 680, "total_steps": 1479, "loss": 0.4868, "learning_rate": 3.2747869438168385e-06, "epoch": 1.3772151898734177, "percentage": 45.98, "elapsed_time": "10:33:49", "remaining_time": "12:24:44"}
+{"current_steps": 690, "total_steps": 1479, "loss": 0.4854, "learning_rate": 3.2184735184170435e-06, "epoch": 1.3974683544303796, "percentage": 46.65, "elapsed_time": "10:43:00", "remaining_time": "12:15:15"}
+{"current_steps": 700, "total_steps": 1479, "loss": 0.4817, "learning_rate": 3.1617598403476744e-06, "epoch": 1.4177215189873418, "percentage": 47.33, "elapsed_time": "10:52:11", "remaining_time": "12:05:47"}
+{"current_steps": 710, "total_steps": 1479, "loss": 0.4874, "learning_rate": 3.1046775040940764e-06, "epoch": 1.437974683544304, "percentage": 48.01, "elapsed_time": "11:01:23", "remaining_time": "11:56:20"}
+{"current_steps": 720, "total_steps": 1479, "loss": 0.4867, "learning_rate": 3.0472583095164875e-06, "epoch": 1.4582278481012658, "percentage": 48.68, "elapsed_time": "11:10:34", "remaining_time": "11:46:53"}
+{"current_steps": 730, "total_steps": 1479, "loss": 0.4888, "learning_rate": 2.989534244134734e-06, "epoch": 1.4784810126582277, "percentage": 49.36, "elapsed_time": "11:19:44", "remaining_time": "11:37:26"}
+{"current_steps": 740, "total_steps": 1479, "loss": 0.4813, "learning_rate": 2.9315374653083785e-06, "epoch": 1.4987341772151899, "percentage": 50.03, "elapsed_time": "11:28:55", "remaining_time": "11:27:59"}
+{"current_steps": 750, "total_steps": 1479, "loss": 0.4832, "learning_rate": 2.873300282322255e-06, "epoch": 1.518987341772152, "percentage": 50.71, "elapsed_time": "11:38:06", "remaining_time": "11:18:33"}
+{"current_steps": 760, "total_steps": 1479, "loss": 0.4839, "learning_rate": 2.814855138387367e-06, "epoch": 1.539240506329114, "percentage": 51.39, "elapsed_time": "11:47:17", "remaining_time": "11:09:08"}
+{"current_steps": 770, "total_steps": 1479, "loss": 0.4823, "learning_rate": 2.7562345925671776e-06, "epoch": 1.5594936708860758, "percentage": 52.06, "elapsed_time": "11:56:29", "remaining_time": "10:59:43"}
+{"current_steps": 780, "total_steps": 1479, "loss": 0.4828, "learning_rate": 2.6974713016393633e-06, "epoch": 1.579746835443038, "percentage": 52.74, "elapsed_time": "12:05:40", "remaining_time": "10:50:18"}
+{"current_steps": 790, "total_steps": 1479, "loss": 0.4849, "learning_rate": 2.638598001903125e-06, "epoch": 1.6, "percentage": 53.41, "elapsed_time": "12:14:51", "remaining_time": "10:40:54"}
+{"current_steps": 800, "total_steps": 1479, "loss": 0.4811, "learning_rate": 2.5796474909422025e-06, "epoch": 1.620253164556962, "percentage": 54.09, "elapsed_time": "12:24:02", "remaining_time": "10:31:30"}
+{"current_steps": 810, "total_steps": 1479, "loss": 0.4738, "learning_rate": 2.520652609353753e-06, "epoch": 1.640506329113924, "percentage": 54.77, "elapsed_time": "12:33:12", "remaining_time": "10:22:06"}
+{"current_steps": 820, "total_steps": 1479, "loss": 0.4821, "learning_rate": 2.461646222453255e-06, "epoch": 1.660759493670886, "percentage": 55.44, "elapsed_time": "12:42:23", "remaining_time": "10:12:42"}
+{"current_steps": 830, "total_steps": 1479, "loss": 0.4769, "learning_rate": 2.402661201965656e-06, "epoch": 1.6810126582278482, "percentage": 56.12, "elapsed_time": "12:51:34", "remaining_time": "10:03:19"}
+{"current_steps": 840, "total_steps": 1479, "loss": 0.4786, "learning_rate": 2.343730407712939e-06, "epoch": 1.70126582278481, "percentage": 56.8, "elapsed_time": "13:00:45", "remaining_time": "9:53:55"}
+{"current_steps": 850, "total_steps": 1479, "loss": 0.48, "learning_rate": 2.2848866693083265e-06, "epoch": 1.721518987341772, "percentage": 57.47, "elapsed_time": "13:09:56", "remaining_time": "9:44:33"}
+{"current_steps": 860, "total_steps": 1479, "loss": 0.4798, "learning_rate": 2.2261627678673093e-06, "epoch": 1.7417721518987341, "percentage": 58.15, "elapsed_time": "13:19:06", "remaining_time": "9:35:10"}
+{"current_steps": 870, "total_steps": 1479, "loss": 0.4832, "learning_rate": 2.1675914177456934e-06, "epoch": 1.7620253164556963, "percentage": 58.82, "elapsed_time": "13:28:17", "remaining_time": "9:25:48"}
+{"current_steps": 880, "total_steps": 1479, "loss": 0.4836, "learning_rate": 2.1092052483148426e-06, "epoch": 1.7822784810126582, "percentage": 59.5, "elapsed_time": "13:37:28", "remaining_time": "9:16:26"}
+{"current_steps": 890, "total_steps": 1479, "loss": 0.4807, "learning_rate": 2.0510367857842583e-06, "epoch": 1.80253164556962, "percentage": 60.18, "elapsed_time": "13:46:39", "remaining_time": "9:07:04"}
+{"current_steps": 900, "total_steps": 1479, "loss": 0.4796, "learning_rate": 1.993118435081631e-06, "epoch": 1.8227848101265822, "percentage": 60.85, "elapsed_time": "13:55:50", "remaining_time": "8:57:43"}
+{"current_steps": 910, "total_steps": 1479, "loss": 0.4809, "learning_rate": 1.935482461800462e-06, "epoch": 1.8430379746835444, "percentage": 61.53, "elapsed_time": "14:05:02", "remaining_time": "8:48:22"}
+{"current_steps": 920, "total_steps": 1479, "loss": 0.4793, "learning_rate": 1.8781609742253e-06, "epoch": 1.8632911392405065, "percentage": 62.2, "elapsed_time": "14:14:13", "remaining_time": "8:39:01"}
+{"current_steps": 930, "total_steps": 1479, "loss": 0.4756, "learning_rate": 1.821185905444611e-06, "epoch": 1.8835443037974684, "percentage": 62.88, "elapsed_time": "14:23:24", "remaining_time": "8:29:41"}
+{"current_steps": 940, "total_steps": 1479, "loss": 0.4791, "learning_rate": 1.7645889955612595e-06, "epoch": 1.9037974683544303, "percentage": 63.56, "elapsed_time": "14:32:35", "remaining_time": "8:20:20"}
+{"current_steps": 950, "total_steps": 1479, "loss": 0.4801, "learning_rate": 1.7084017740104847e-06, "epoch": 1.9240506329113924, "percentage": 64.23, "elapsed_time": "14:41:46", "remaining_time": "8:11:00"}
+{"current_steps": 960, "total_steps": 1479, "loss": 0.4836, "learning_rate": 1.6526555419952483e-06, "epoch": 1.9443037974683546, "percentage": 64.91, "elapsed_time": "14:50:57", "remaining_time": "8:01:40"}
+{"current_steps": 970, "total_steps": 1479, "loss": 0.482, "learning_rate": 1.5973813550487183e-06, "epoch": 1.9645569620253165, "percentage": 65.58, "elapsed_time": "15:00:08", "remaining_time": "7:52:20"}
+{"current_steps": 980, "total_steps": 1479, "loss": 0.4812, "learning_rate": 1.542610005733623e-06, "epoch": 1.9848101265822784, "percentage": 66.26, "elapsed_time": "15:09:19", "remaining_time": "7:43:00"}
+{"current_steps": 987, "total_steps": 1479, "eval_loss": 0.0676623284816742, "epoch": 1.998987341772152, "percentage": 66.73, "elapsed_time": "15:24:26", "remaining_time": "7:40:48"}