kanishka
/

smolm-autoreg-bpe-seed_888

@@ -1,15 +1,15 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.5425975187003966,
-    "eval_loss": 2.2831156253814697,
-    "eval_runtime": 4.4985,
-    "eval_samples": 5038,
-    "eval_samples_per_second": 1119.928,
-    "eval_steps_per_second": 2.223,
-    "perplexity": 9.807188384190734,
-    "train_loss": 2.5465449372446276,
-    "train_runtime": 743.7716,
-    "train_samples": 52812,
-    "train_samples_per_second": 710.057,
-    "train_steps_per_second": 11.106
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.4861165901356519,
+    "eval_loss": 2.557232141494751,
+    "eval_runtime": 4.0987,
+    "eval_samples": 4491,
+    "eval_samples_per_second": 1095.703,
+    "eval_steps_per_second": 2.196,
+    "perplexity": 12.900062308790385,
+    "train_loss": 2.8881424867390284,
+    "train_runtime": 618.3653,
+    "train_samples": 46845,
+    "train_samples_per_second": 757.562,
+    "train_steps_per_second": 11.838
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.5425975187003966,
-    "eval_loss": 2.2831156253814697,
-    "eval_runtime": 4.4985,
-    "eval_samples": 5038,
-    "eval_samples_per_second": 1119.928,
-    "eval_steps_per_second": 2.223,
-    "perplexity": 9.807188384190734
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.4861165901356519,
+    "eval_loss": 2.557232141494751,
+    "eval_runtime": 4.0987,
+    "eval_samples": 4491,
+    "eval_samples_per_second": 1095.703,
+    "eval_steps_per_second": 2.196,
+    "perplexity": 12.900062308790385
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "train_loss": 2.5465449372446276,
-    "train_runtime": 743.7716,
-    "train_samples": 52812,
-    "train_samples_per_second": 710.057,
-    "train_steps_per_second": 11.106
 }

 {
     "epoch": 10.0,
+    "train_loss": 2.8881424867390284,
+    "train_runtime": 618.3653,
+    "train_samples": 46845,
+    "train_samples_per_second": 757.562,
+    "train_steps_per_second": 11.838
 }

trainer_state.json CHANGED Viewed

@@ -3,212 +3,200 @@
   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 8260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.61,
       "learning_rate": 6.25e-05,
-      "loss": 5.8023,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.4621053223845233,
-      "eval_loss": 3.109194755554199,
-      "eval_runtime": 4.0139,
-      "eval_samples_per_second": 1255.152,
-      "eval_steps_per_second": 2.491,
-      "step": 826
     },
     {
-      "epoch": 1.21,
       "learning_rate": 0.000125,
-      "loss": 3.1121,
       "step": 1000
     },
     {
-      "epoch": 1.82,
-      "learning_rate": 0.0001875,
-      "loss": 2.7942,
-      "step": 1500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.49748994257813844,
-      "eval_loss": 2.7389166355133057,
-      "eval_runtime": 4.1343,
-      "eval_samples_per_second": 1218.585,
-      "eval_steps_per_second": 2.419,
-      "step": 1652
     },
     {
-      "epoch": 2.42,
       "learning_rate": 0.00025,
-      "loss": 2.625,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.511015494837659,
-      "eval_loss": 2.5700840950012207,
-      "eval_runtime": 4.4436,
-      "eval_samples_per_second": 1133.756,
-      "eval_steps_per_second": 2.25,
-      "step": 2478
     },
     {
-      "epoch": 3.03,
       "learning_rate": 0.0003125,
-      "loss": 2.5117,
       "step": 2500
     },
     {
-      "epoch": 3.63,
-      "learning_rate": 0.000375,
-      "loss": 2.412,
-      "step": 3000
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.5223295083350786,
-      "eval_loss": 2.4618635177612305,
-      "eval_runtime": 4.3105,
-      "eval_samples_per_second": 1168.783,
-      "eval_steps_per_second": 2.32,
-      "step": 3304
     },
     {
-      "epoch": 4.24,
       "learning_rate": 0.00043750000000000006,
-      "loss": 2.3434,
       "step": 3500
     },
     {
-      "epoch": 4.84,
       "learning_rate": 0.0005,
-      "loss": 2.2885,
       "step": 4000
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.5287562556069931,
-      "eval_loss": 2.3939802646636963,
-      "eval_runtime": 4.587,
-      "eval_samples_per_second": 1098.33,
-      "eval_steps_per_second": 2.18,
-      "step": 4130
     },
     {
-      "epoch": 5.45,
       "learning_rate": 0.0005625000000000001,
-      "loss": 2.2294,
       "step": 4500
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.5341733533804504,
-      "eval_loss": 2.346377372741699,
-      "eval_runtime": 4.5113,
-      "eval_samples_per_second": 1116.745,
-      "eval_steps_per_second": 2.217,
-      "step": 4956
-    },
-    {
-      "epoch": 6.05,
       "learning_rate": 0.000625,
-      "loss": 2.2056,
       "step": 5000
     },
     {
-      "epoch": 6.66,
       "learning_rate": 0.0006875,
-      "loss": 2.16,
       "step": 5500
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.5371960501761417,
-      "eval_loss": 2.320580005645752,
-      "eval_runtime": 4.5241,
-      "eval_samples_per_second": 1113.583,
-      "eval_steps_per_second": 2.21,
-      "step": 5782
     },
     {
-      "epoch": 7.26,
       "learning_rate": 0.00075,
-      "loss": 2.1379,
       "step": 6000
     },
     {
-      "epoch": 7.87,
       "learning_rate": 0.0008125,
-      "loss": 2.1272,
       "step": 6500
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.5394685430101309,
-      "eval_loss": 2.3045718669891357,
-      "eval_runtime": 4.5162,
-      "eval_samples_per_second": 1115.551,
-      "eval_steps_per_second": 2.214,
-      "step": 6608
     },
     {
-      "epoch": 8.47,
       "learning_rate": 0.0008750000000000001,
-      "loss": 2.0865,
       "step": 7000
     },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.540476629583668,
-      "eval_loss": 2.291161298751831,
-      "eval_runtime": 4.4842,
-      "eval_samples_per_second": 1123.503,
-      "eval_steps_per_second": 2.23,
-      "step": 7434
-    },
-    {
-      "epoch": 9.08,
-      "learning_rate": 0.0009375,
-      "loss": 2.0927,
-      "step": 7500
-    },
-    {
-      "epoch": 9.69,
-      "learning_rate": 0.001,
-      "loss": 2.0577,
-      "step": 8000
-    },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.5425975187003966,
-      "eval_loss": 2.2831156253814697,
-      "eval_runtime": 4.7038,
-      "eval_samples_per_second": 1071.043,
-      "eval_steps_per_second": 2.126,
-      "step": 8260
     },
     {
       "epoch": 10.0,
-      "step": 8260,
-      "total_flos": 2562796651806720.0,
-      "train_loss": 2.5465449372446276,
-      "train_runtime": 743.7716,
-      "train_samples_per_second": 710.057,
-      "train_steps_per_second": 11.106
     }
   ],
   "logging_steps": 500,
-  "max_steps": 8260,
   "num_train_epochs": 10,
   "save_steps": 2000,
-  "total_flos": 2562796651806720.0,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 7320,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.68,
       "learning_rate": 6.25e-05,
+      "loss": 6.1167,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.39470717462922345,
+      "eval_loss": 3.535817861557007,
+      "eval_runtime": 3.8077,
+      "eval_samples_per_second": 1179.442,
+      "eval_steps_per_second": 2.364,
+      "step": 732
     },
     {
+      "epoch": 1.37,
       "learning_rate": 0.000125,
+      "loss": 3.4801,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.43199785397566787,
+      "eval_loss": 3.1201677322387695,
+      "eval_runtime": 3.9073,
+      "eval_samples_per_second": 1149.375,
+      "eval_steps_per_second": 2.303,
+      "step": 1464
     },
     {
+      "epoch": 2.05,
+      "learning_rate": 0.0001875,
+      "loss": 3.1329,
+      "step": 1500
     },
     {
+      "epoch": 2.73,
       "learning_rate": 0.00025,
+      "loss": 2.9429,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.44977794609341165,
+      "eval_loss": 2.915814161300659,
+      "eval_runtime": 4.1629,
+      "eval_samples_per_second": 1078.826,
+      "eval_steps_per_second": 2.162,
+      "step": 2196
     },
     {
+      "epoch": 3.42,
       "learning_rate": 0.0003125,
+      "loss": 2.8071,
       "step": 2500
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.460516834193321,
+      "eval_loss": 2.790581464767456,
+      "eval_runtime": 4.0203,
+      "eval_samples_per_second": 1117.085,
+      "eval_steps_per_second": 2.239,
+      "step": 2928
     },
     {
+      "epoch": 4.1,
+      "learning_rate": 0.000375,
+      "loss": 2.7064,
+      "step": 3000
     },
     {
+      "epoch": 4.78,
       "learning_rate": 0.00043750000000000006,
+      "loss": 2.6197,
       "step": 3500
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.4701406312186929,
+      "eval_loss": 2.6998250484466553,
+      "eval_runtime": 4.0911,
+      "eval_samples_per_second": 1097.737,
+      "eval_steps_per_second": 2.2,
+      "step": 3660
+    },
+    {
+      "epoch": 5.46,
       "learning_rate": 0.0005,
+      "loss": 2.5459,
       "step": 4000
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.4759738199057783,
+      "eval_loss": 2.641901969909668,
+      "eval_runtime": 4.078,
+      "eval_samples_per_second": 1101.267,
+      "eval_steps_per_second": 2.207,
+      "step": 4392
     },
     {
+      "epoch": 6.15,
       "learning_rate": 0.0005625000000000001,
+      "loss": 2.5015,
       "step": 4500
     },
     {
+      "epoch": 6.83,
       "learning_rate": 0.000625,
+      "loss": 2.4492,
       "step": 5000
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.4802465824036524,
+      "eval_loss": 2.6036274433135986,
+      "eval_runtime": 4.1331,
+      "eval_samples_per_second": 1086.595,
+      "eval_steps_per_second": 2.178,
+      "step": 5124
+    },
+    {
+      "epoch": 7.51,
       "learning_rate": 0.0006875,
+      "loss": 2.4065,
       "step": 5500
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.4823891001600752,
+      "eval_loss": 2.5769591331481934,
+      "eval_runtime": 3.9166,
+      "eval_samples_per_second": 1146.648,
+      "eval_steps_per_second": 2.298,
+      "step": 5856
     },
     {
+      "epoch": 8.2,
       "learning_rate": 0.00075,
+      "loss": 2.3867,
       "step": 6000
     },
     {
+      "epoch": 8.88,
       "learning_rate": 0.0008125,
+      "loss": 2.3626,
       "step": 6500
     },
     {
+      "epoch": 9.0,
+      "eval_accuracy": 0.4863024386480748,
+      "eval_loss": 2.5622453689575195,
+      "eval_runtime": 3.9696,
+      "eval_samples_per_second": 1131.334,
+      "eval_steps_per_second": 2.267,
+      "step": 6588
     },
     {
+      "epoch": 9.56,
       "learning_rate": 0.0008750000000000001,
+      "loss": 2.3276,
       "step": 7000
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.4861165901356519,
+      "eval_loss": 2.557232141494751,
+      "eval_runtime": 4.198,
+      "eval_samples_per_second": 1069.803,
+      "eval_steps_per_second": 2.144,
+      "step": 7320
     },
     {
       "epoch": 10.0,
+      "step": 7320,
+      "total_flos": 2273237316403200.0,
+      "train_loss": 2.8881424867390284,
+      "train_runtime": 618.3653,
+      "train_samples_per_second": 757.562,
+      "train_steps_per_second": 11.838
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7320,
   "num_train_epochs": 10,
   "save_steps": 2000,
+  "total_flos": 2273237316403200.0,
   "trial_name": null,
   "trial_params": null
 }