kanishka
/

smolm-autoreg-bpe-seed_888

@@ -1,15 +1,15 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.5416644525230297,
-    "eval_loss": 2.2877631187438965,
-    "eval_runtime": 4.5703,
     "eval_samples": 5038,
-    "eval_samples_per_second": 1102.339,
-    "eval_steps_per_second": 2.188,
-    "perplexity": 9.852873305063827,
-    "train_loss": 2.5528629182903297,
-    "train_runtime": 747.1228,
     "train_samples": 52812,
-    "train_samples_per_second": 706.872,
-    "train_steps_per_second": 11.056
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.5425975187003966,
+    "eval_loss": 2.2831156253814697,
+    "eval_runtime": 4.4985,
     "eval_samples": 5038,
+    "eval_samples_per_second": 1119.928,
+    "eval_steps_per_second": 2.223,
+    "perplexity": 9.807188384190734,
+    "train_loss": 2.5465449372446276,
+    "train_runtime": 743.7716,
     "train_samples": 52812,
+    "train_samples_per_second": 710.057,
+    "train_steps_per_second": 11.106
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.5416644525230297,
-    "eval_loss": 2.2877631187438965,
-    "eval_runtime": 4.5703,
     "eval_samples": 5038,
-    "eval_samples_per_second": 1102.339,
-    "eval_steps_per_second": 2.188,
-    "perplexity": 9.852873305063827
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.5425975187003966,
+    "eval_loss": 2.2831156253814697,
+    "eval_runtime": 4.4985,
     "eval_samples": 5038,
+    "eval_samples_per_second": 1119.928,
+    "eval_steps_per_second": 2.223,
+    "perplexity": 9.807188384190734
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "train_loss": 2.5528629182903297,
-    "train_runtime": 747.1228,
     "train_samples": 52812,
-    "train_samples_per_second": 706.872,
-    "train_steps_per_second": 11.056
 }

 {
     "epoch": 10.0,
+    "train_loss": 2.5465449372446276,
+    "train_runtime": 743.7716,
     "train_samples": 52812,
+    "train_samples_per_second": 710.057,
+    "train_steps_per_second": 11.106
 }

trainer_state.json CHANGED Viewed

@@ -11,197 +11,197 @@
     {
       "epoch": 0.61,
       "learning_rate": 6.25e-05,
-      "loss": 5.8796,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.4610925470362255,
-      "eval_loss": 3.108325958251953,
-      "eval_runtime": 4.3682,
-      "eval_samples_per_second": 1153.323,
-      "eval_steps_per_second": 2.289,
       "step": 826
     },
     {
       "epoch": 1.21,
       "learning_rate": 0.000125,
-      "loss": 3.1165,
       "step": 1000
     },
     {
       "epoch": 1.82,
       "learning_rate": 0.0001875,
-      "loss": 2.802,
       "step": 1500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.49653186960204804,
-      "eval_loss": 2.7454917430877686,
-      "eval_runtime": 4.161,
-      "eval_samples_per_second": 1210.754,
-      "eval_steps_per_second": 2.403,
       "step": 1652
     },
     {
       "epoch": 2.42,
       "learning_rate": 0.00025,
-      "loss": 2.6268,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5115797107338558,
-      "eval_loss": 2.573380947113037,
-      "eval_runtime": 4.3721,
-      "eval_samples_per_second": 1152.294,
-      "eval_steps_per_second": 2.287,
       "step": 2478
     },
     {
       "epoch": 3.03,
       "learning_rate": 0.0003125,
-      "loss": 2.5157,
       "step": 2500
     },
     {
       "epoch": 3.63,
       "learning_rate": 0.000375,
-      "loss": 2.4165,
       "step": 3000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5211369966209564,
-      "eval_loss": 2.4666714668273926,
-      "eval_runtime": 4.4473,
-      "eval_samples_per_second": 1132.814,
-      "eval_steps_per_second": 2.249,
       "step": 3304
     },
     {
       "epoch": 4.24,
       "learning_rate": 0.00043750000000000006,
-      "loss": 2.3502,
       "step": 3500
     },
     {
       "epoch": 4.84,
       "learning_rate": 0.0005,
-      "loss": 2.2892,
       "step": 4000
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5287937658050783,
-      "eval_loss": 2.394850969314575,
-      "eval_runtime": 4.5706,
-      "eval_samples_per_second": 1102.258,
-      "eval_steps_per_second": 2.188,
       "step": 4130
     },
     {
       "epoch": 5.45,
       "learning_rate": 0.0005625000000000001,
-      "loss": 2.2315,
       "step": 4500
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5337701187510354,
-      "eval_loss": 2.344557523727417,
-      "eval_runtime": 4.6212,
-      "eval_samples_per_second": 1090.182,
-      "eval_steps_per_second": 2.164,
       "step": 4956
     },
     {
       "epoch": 6.05,
       "learning_rate": 0.000625,
-      "loss": 2.2096,
       "step": 5000
     },
     {
       "epoch": 6.66,
       "learning_rate": 0.0006875,
-      "loss": 2.1587,
       "step": 5500
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5373570314429236,
-      "eval_loss": 2.3208389282226562,
-      "eval_runtime": 4.2475,
-      "eval_samples_per_second": 1186.103,
-      "eval_steps_per_second": 2.354,
       "step": 5782
     },
     {
       "epoch": 7.26,
       "learning_rate": 0.00075,
-      "loss": 2.139,
       "step": 6000
     },
     {
       "epoch": 7.87,
       "learning_rate": 0.0008125,
-      "loss": 2.1253,
       "step": 6500
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.5394279069622053,
-      "eval_loss": 2.3043758869171143,
-      "eval_runtime": 4.4837,
-      "eval_samples_per_second": 1123.621,
-      "eval_steps_per_second": 2.23,
       "step": 6608
     },
     {
       "epoch": 8.47,
       "learning_rate": 0.0008750000000000001,
-      "loss": 2.0858,
       "step": 7000
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.5403687877641734,
-      "eval_loss": 2.2939975261688232,
-      "eval_runtime": 4.172,
-      "eval_samples_per_second": 1207.562,
-      "eval_steps_per_second": 2.397,
       "step": 7434
     },
     {
       "epoch": 9.08,
       "learning_rate": 0.0009375,
-      "loss": 2.0892,
       "step": 7500
     },
     {
       "epoch": 9.69,
       "learning_rate": 0.001,
-      "loss": 2.0556,
       "step": 8000
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.5416644525230297,
-      "eval_loss": 2.2877631187438965,
-      "eval_runtime": 4.4277,
-      "eval_samples_per_second": 1137.831,
-      "eval_steps_per_second": 2.258,
       "step": 8260
     },
     {
       "epoch": 10.0,
       "step": 8260,
       "total_flos": 2562796651806720.0,
-      "train_loss": 2.5528629182903297,
-      "train_runtime": 747.1228,
-      "train_samples_per_second": 706.872,
-      "train_steps_per_second": 11.056
     }
   ],
   "logging_steps": 500,

     {
       "epoch": 0.61,
       "learning_rate": 6.25e-05,
+      "loss": 5.8023,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4621053223845233,
+      "eval_loss": 3.109194755554199,
+      "eval_runtime": 4.0139,
+      "eval_samples_per_second": 1255.152,
+      "eval_steps_per_second": 2.491,
       "step": 826
     },
     {
       "epoch": 1.21,
       "learning_rate": 0.000125,
+      "loss": 3.1121,
       "step": 1000
     },
     {
       "epoch": 1.82,
       "learning_rate": 0.0001875,
+      "loss": 2.7942,
       "step": 1500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.49748994257813844,
+      "eval_loss": 2.7389166355133057,
+      "eval_runtime": 4.1343,
+      "eval_samples_per_second": 1218.585,
+      "eval_steps_per_second": 2.419,
       "step": 1652
     },
     {
       "epoch": 2.42,
       "learning_rate": 0.00025,
+      "loss": 2.625,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.511015494837659,
+      "eval_loss": 2.5700840950012207,
+      "eval_runtime": 4.4436,
+      "eval_samples_per_second": 1133.756,
+      "eval_steps_per_second": 2.25,
       "step": 2478
     },
     {
       "epoch": 3.03,
       "learning_rate": 0.0003125,
+      "loss": 2.5117,
       "step": 2500
     },
     {
       "epoch": 3.63,
       "learning_rate": 0.000375,
+      "loss": 2.412,
       "step": 3000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.5223295083350786,
+      "eval_loss": 2.4618635177612305,
+      "eval_runtime": 4.3105,
+      "eval_samples_per_second": 1168.783,
+      "eval_steps_per_second": 2.32,
       "step": 3304
     },
     {
       "epoch": 4.24,
       "learning_rate": 0.00043750000000000006,
+      "loss": 2.3434,
       "step": 3500
     },
     {
       "epoch": 4.84,
       "learning_rate": 0.0005,
+      "loss": 2.2885,
       "step": 4000
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.5287562556069931,
+      "eval_loss": 2.3939802646636963,
+      "eval_runtime": 4.587,
+      "eval_samples_per_second": 1098.33,
+      "eval_steps_per_second": 2.18,
       "step": 4130
     },
     {
       "epoch": 5.45,
       "learning_rate": 0.0005625000000000001,
+      "loss": 2.2294,
       "step": 4500
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.5341733533804504,
+      "eval_loss": 2.346377372741699,
+      "eval_runtime": 4.5113,
+      "eval_samples_per_second": 1116.745,
+      "eval_steps_per_second": 2.217,
       "step": 4956
     },
     {
       "epoch": 6.05,
       "learning_rate": 0.000625,
+      "loss": 2.2056,
       "step": 5000
     },
     {
       "epoch": 6.66,
       "learning_rate": 0.0006875,
+      "loss": 2.16,
       "step": 5500
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.5371960501761417,
+      "eval_loss": 2.320580005645752,
+      "eval_runtime": 4.5241,
+      "eval_samples_per_second": 1113.583,
+      "eval_steps_per_second": 2.21,
       "step": 5782
     },
     {
       "epoch": 7.26,
       "learning_rate": 0.00075,
+      "loss": 2.1379,
       "step": 6000
     },
     {
       "epoch": 7.87,
       "learning_rate": 0.0008125,
+      "loss": 2.1272,
       "step": 6500
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.5394685430101309,
+      "eval_loss": 2.3045718669891357,
+      "eval_runtime": 4.5162,
+      "eval_samples_per_second": 1115.551,
+      "eval_steps_per_second": 2.214,
       "step": 6608
     },
     {
       "epoch": 8.47,
       "learning_rate": 0.0008750000000000001,
+      "loss": 2.0865,
       "step": 7000
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.540476629583668,
+      "eval_loss": 2.291161298751831,
+      "eval_runtime": 4.4842,
+      "eval_samples_per_second": 1123.503,
+      "eval_steps_per_second": 2.23,
       "step": 7434
     },
     {
       "epoch": 9.08,
       "learning_rate": 0.0009375,
+      "loss": 2.0927,
       "step": 7500
     },
     {
       "epoch": 9.69,
       "learning_rate": 0.001,
+      "loss": 2.0577,
       "step": 8000
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.5425975187003966,
+      "eval_loss": 2.2831156253814697,
+      "eval_runtime": 4.7038,
+      "eval_samples_per_second": 1071.043,
+      "eval_steps_per_second": 2.126,
       "step": 8260
     },
     {
       "epoch": 10.0,
       "step": 8260,
       "total_flos": 2562796651806720.0,
+      "train_loss": 2.5465449372446276,
+      "train_runtime": 743.7716,
+      "train_samples_per_second": 710.057,
+      "train_steps_per_second": 11.106
     }
   ],
   "logging_steps": 500,