dehanalkautsar
/

mbert-uncased-modified_embedding_table-en-pretrained70000

+{
+  "best_metric": 1.6794742345809937,
+  "best_model_checkpoint": "models/dehanalkautsar/mbert-uncased-modified_embedding_table-en/checkpoint-70000",
+  "epoch": 0.624464048155099,
+  "eval_steps": 2000,
+  "global_step": 70000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.017841829947288543,
+      "grad_norm": 31.71474266052246,
+      "learning_rate": 4.9977697687696264e-05,
+      "loss": 5.6683,
+      "step": 2000
+    },
+    {
+      "epoch": 0.017841829947288543,
+      "eval_loss": 3.4221630096435547,
+      "eval_runtime": 73.4656,
+      "eval_samples_per_second": 136.118,
+      "eval_steps_per_second": 2.137,
+      "step": 2000
+    },
+    {
+      "epoch": 0.035683659894577086,
+      "grad_norm": 20.9453182220459,
+      "learning_rate": 4.995539537539252e-05,
+      "loss": 3.1985,
+      "step": 4000
+    },
+    {
+      "epoch": 0.035683659894577086,
+      "eval_loss": 2.7761876583099365,
+      "eval_runtime": 73.4155,
+      "eval_samples_per_second": 136.211,
+      "eval_steps_per_second": 2.139,
+      "step": 4000
+    },
+    {
+      "epoch": 0.05352548984186563,
+      "grad_norm": 18.989194869995117,
+      "learning_rate": 4.993309306308878e-05,
+      "loss": 2.7816,
+      "step": 6000
+    },
+    {
+      "epoch": 0.05352548984186563,
+      "eval_loss": 2.5367112159729004,
+      "eval_runtime": 73.3987,
+      "eval_samples_per_second": 136.242,
+      "eval_steps_per_second": 2.139,
+      "step": 6000
+    },
+    {
+      "epoch": 0.07136731978915417,
+      "grad_norm": 20.059371948242188,
+      "learning_rate": 4.991079075078504e-05,
+      "loss": 2.5767,
+      "step": 8000
+    },
+    {
+      "epoch": 0.07136731978915417,
+      "eval_loss": 2.3765993118286133,
+      "eval_runtime": 73.3358,
+      "eval_samples_per_second": 136.359,
+      "eval_steps_per_second": 2.141,
+      "step": 8000
+    },
+    {
+      "epoch": 0.08920914973644271,
+      "grad_norm": 18.088693618774414,
+      "learning_rate": 4.9888488438481305e-05,
+      "loss": 2.4472,
+      "step": 10000
+    },
+    {
+      "epoch": 0.08920914973644271,
+      "eval_loss": 2.261122226715088,
+      "eval_runtime": 73.3532,
+      "eval_samples_per_second": 136.327,
+      "eval_steps_per_second": 2.14,
+      "step": 10000
+    },
+    {
+      "epoch": 0.10705097968373126,
+      "grad_norm": 18.355438232421875,
+      "learning_rate": 4.986618612617757e-05,
+      "loss": 2.3517,
+      "step": 12000
+    },
+    {
+      "epoch": 0.10705097968373126,
+      "eval_loss": 2.197890520095825,
+      "eval_runtime": 73.2175,
+      "eval_samples_per_second": 136.579,
+      "eval_steps_per_second": 2.144,
+      "step": 12000
+    },
+    {
+      "epoch": 0.1248928096310198,
+      "grad_norm": 19.445158004760742,
+      "learning_rate": 4.984388381387383e-05,
+      "loss": 2.2819,
+      "step": 14000
+    },
+    {
+      "epoch": 0.1248928096310198,
+      "eval_loss": 2.135493040084839,
+      "eval_runtime": 73.523,
+      "eval_samples_per_second": 136.012,
+      "eval_steps_per_second": 2.135,
+      "step": 14000
+    },
+    {
+      "epoch": 0.14273463957830834,
+      "grad_norm": 16.74393081665039,
+      "learning_rate": 4.9821581501570084e-05,
+      "loss": 2.2253,
+      "step": 16000
+    },
+    {
+      "epoch": 0.14273463957830834,
+      "eval_loss": 2.0676965713500977,
+      "eval_runtime": 73.4191,
+      "eval_samples_per_second": 136.204,
+      "eval_steps_per_second": 2.138,
+      "step": 16000
+    },
+    {
+      "epoch": 0.1605764695255969,
+      "grad_norm": 18.755170822143555,
+      "learning_rate": 4.9799279189266346e-05,
+      "loss": 2.1737,
+      "step": 18000
+    },
+    {
+      "epoch": 0.1605764695255969,
+      "eval_loss": 2.0221915245056152,
+      "eval_runtime": 73.3608,
+      "eval_samples_per_second": 136.313,
+      "eval_steps_per_second": 2.14,
+      "step": 18000
+    },
+    {
+      "epoch": 0.17841829947288543,
+      "grad_norm": 18.238853454589844,
+      "learning_rate": 4.977697687696261e-05,
+      "loss": 2.1339,
+      "step": 20000
+    },
+    {
+      "epoch": 0.17841829947288543,
+      "eval_loss": 1.9968066215515137,
+      "eval_runtime": 73.376,
+      "eval_samples_per_second": 136.284,
+      "eval_steps_per_second": 2.14,
+      "step": 20000
+    },
+    {
+      "epoch": 0.19626012942017398,
+      "grad_norm": 16.624298095703125,
+      "learning_rate": 4.975467456465886e-05,
+      "loss": 2.097,
+      "step": 22000
+    },
+    {
+      "epoch": 0.19626012942017398,
+      "eval_loss": 1.973600149154663,
+      "eval_runtime": 73.4156,
+      "eval_samples_per_second": 136.211,
+      "eval_steps_per_second": 2.139,
+      "step": 22000
+    },
+    {
+      "epoch": 0.2141019593674625,
+      "grad_norm": 21.57083511352539,
+      "learning_rate": 4.9732372252355125e-05,
+      "loss": 2.0679,
+      "step": 24000
+    },
+    {
+      "epoch": 0.2141019593674625,
+      "eval_loss": 1.9505703449249268,
+      "eval_runtime": 73.2384,
+      "eval_samples_per_second": 136.54,
+      "eval_steps_per_second": 2.144,
+      "step": 24000
+    },
+    {
+      "epoch": 0.23194378931475107,
+      "grad_norm": 18.031625747680664,
+      "learning_rate": 4.971006994005139e-05,
+      "loss": 2.0474,
+      "step": 26000
+    },
+    {
+      "epoch": 0.23194378931475107,
+      "eval_loss": 1.9203472137451172,
+      "eval_runtime": 73.2703,
+      "eval_samples_per_second": 136.481,
+      "eval_steps_per_second": 2.143,
+      "step": 26000
+    },
+    {
+      "epoch": 0.2497856192620396,
+      "grad_norm": 18.387907028198242,
+      "learning_rate": 4.968776762774764e-05,
+      "loss": 2.0235,
+      "step": 28000
+    },
+    {
+      "epoch": 0.2497856192620396,
+      "eval_loss": 1.9067487716674805,
+      "eval_runtime": 73.2711,
+      "eval_samples_per_second": 136.479,
+      "eval_steps_per_second": 2.143,
+      "step": 28000
+    },
+    {
+      "epoch": 0.2676274492093281,
+      "grad_norm": 16.74208641052246,
+      "learning_rate": 4.966546531544391e-05,
+      "loss": 2.0007,
+      "step": 30000
+    },
+    {
+      "epoch": 0.2676274492093281,
+      "eval_loss": 1.8875941038131714,
+      "eval_runtime": 73.3071,
+      "eval_samples_per_second": 136.412,
+      "eval_steps_per_second": 2.142,
+      "step": 30000
+    },
+    {
+      "epoch": 0.2854692791566167,
+      "grad_norm": 17.28813934326172,
+      "learning_rate": 4.964316300314017e-05,
+      "loss": 1.9809,
+      "step": 32000
+    },
+    {
+      "epoch": 0.2854692791566167,
+      "eval_loss": 1.8658957481384277,
+      "eval_runtime": 73.2999,
+      "eval_samples_per_second": 136.426,
+      "eval_steps_per_second": 2.142,
+      "step": 32000
+    },
+    {
+      "epoch": 0.30331110910390524,
+      "grad_norm": 17.0612735748291,
+      "learning_rate": 4.962086069083643e-05,
+      "loss": 1.9672,
+      "step": 34000
+    },
+    {
+      "epoch": 0.30331110910390524,
+      "eval_loss": 1.8565300703048706,
+      "eval_runtime": 73.3279,
+      "eval_samples_per_second": 136.374,
+      "eval_steps_per_second": 2.141,
+      "step": 34000
+    },
+    {
+      "epoch": 0.3211529390511938,
+      "grad_norm": 17.805253982543945,
+      "learning_rate": 4.959855837853269e-05,
+      "loss": 1.9517,
+      "step": 36000
+    },
+    {
+      "epoch": 0.3211529390511938,
+      "eval_loss": 1.8271287679672241,
+      "eval_runtime": 73.2647,
+      "eval_samples_per_second": 136.491,
+      "eval_steps_per_second": 2.143,
+      "step": 36000
+    },
+    {
+      "epoch": 0.33899476899848235,
+      "grad_norm": 16.978797912597656,
+      "learning_rate": 4.957625606622895e-05,
+      "loss": 1.9358,
+      "step": 38000
+    },
+    {
+      "epoch": 0.33899476899848235,
+      "eval_loss": 1.8138540983200073,
+      "eval_runtime": 73.3003,
+      "eval_samples_per_second": 136.425,
+      "eval_steps_per_second": 2.142,
+      "step": 38000
+    },
+    {
+      "epoch": 0.35683659894577086,
+      "grad_norm": 18.134506225585938,
+      "learning_rate": 4.955395375392521e-05,
+      "loss": 1.9204,
+      "step": 40000
+    },
+    {
+      "epoch": 0.35683659894577086,
+      "eval_loss": 1.8061386346817017,
+      "eval_runtime": 73.3032,
+      "eval_samples_per_second": 136.42,
+      "eval_steps_per_second": 2.142,
+      "step": 40000
+    },
+    {
+      "epoch": 0.3746784288930594,
+      "grad_norm": 16.018447875976562,
+      "learning_rate": 4.953165144162147e-05,
+      "loss": 1.9103,
+      "step": 42000
+    },
+    {
+      "epoch": 0.3746784288930594,
+      "eval_loss": 1.790651559829712,
+      "eval_runtime": 73.3055,
+      "eval_samples_per_second": 136.415,
+      "eval_steps_per_second": 2.142,
+      "step": 42000
+    },
+    {
+      "epoch": 0.39252025884034797,
+      "grad_norm": 18.30422592163086,
+      "learning_rate": 4.950934912931773e-05,
+      "loss": 1.8984,
+      "step": 44000
+    },
+    {
+      "epoch": 0.39252025884034797,
+      "eval_loss": 1.787701964378357,
+      "eval_runtime": 73.3134,
+      "eval_samples_per_second": 136.401,
+      "eval_steps_per_second": 2.141,
+      "step": 44000
+    },
+    {
+      "epoch": 0.4103620887876365,
+      "grad_norm": 16.60624122619629,
+      "learning_rate": 4.9487046817013986e-05,
+      "loss": 1.89,
+      "step": 46000
+    },
+    {
+      "epoch": 0.4103620887876365,
+      "eval_loss": 1.7718769311904907,
+      "eval_runtime": 73.3399,
+      "eval_samples_per_second": 136.351,
+      "eval_steps_per_second": 2.141,
+      "step": 46000
+    },
+    {
+      "epoch": 0.428203918734925,
+      "grad_norm": 15.059417724609375,
+      "learning_rate": 4.964316300314017e-05,
+      "loss": 1.8775,
+      "step": 48000
+    },
+    {
+      "epoch": 0.428203918734925,
+      "eval_loss": 1.763095736503601,
+      "eval_runtime": 73.3521,
+      "eval_samples_per_second": 136.329,
+      "eval_steps_per_second": 2.14,
+      "step": 48000
+    },
+    {
+      "epoch": 0.4460457486822136,
+      "grad_norm": 17.129064559936523,
+      "learning_rate": 4.9628294794937674e-05,
+      "loss": 1.8687,
+      "step": 50000
+    },
+    {
+      "epoch": 0.4460457486822136,
+      "eval_loss": 1.743654727935791,
+      "eval_runtime": 73.2498,
+      "eval_samples_per_second": 136.519,
+      "eval_steps_per_second": 2.143,
+      "step": 50000
+    },
+    {
+      "epoch": 0.46388757862950214,
+      "grad_norm": 16.349536895751953,
+      "learning_rate": 4.947285443645707e-05,
+      "loss": 1.8632,
+      "step": 52000
+    },
+    {
+      "epoch": 0.46388757862950214,
+      "eval_loss": 1.743268609046936,
+      "eval_runtime": 73.3921,
+      "eval_samples_per_second": 136.254,
+      "eval_steps_per_second": 2.139,
+      "step": 52000
+    },
+    {
+      "epoch": 0.4817294085767907,
+      "grad_norm": 16.42721939086914,
+      "learning_rate": 4.9452579607090025e-05,
+      "loss": 1.8494,
+      "step": 54000
+    },
+    {
+      "epoch": 0.4817294085767907,
+      "eval_loss": 1.7285025119781494,
+      "eval_runtime": 73.2209,
+      "eval_samples_per_second": 136.573,
+      "eval_steps_per_second": 2.144,
+      "step": 54000
+    },
+    {
+      "epoch": 0.4995712385240792,
+      "grad_norm": 17.674468994140625,
+      "learning_rate": 4.9432304777722994e-05,
+      "loss": 1.8404,
+      "step": 56000
+    },
+    {
+      "epoch": 0.4995712385240792,
+      "eval_loss": 1.7261757850646973,
+      "eval_runtime": 73.1858,
+      "eval_samples_per_second": 136.639,
+      "eval_steps_per_second": 2.145,
+      "step": 56000
+    },
+    {
+      "epoch": 0.5174130684713678,
+      "grad_norm": 16.304468154907227,
+      "learning_rate": 4.941202994835596e-05,
+      "loss": 1.8308,
+      "step": 58000
+    },
+    {
+      "epoch": 0.5174130684713678,
+      "eval_loss": 1.7157503366470337,
+      "eval_runtime": 73.1684,
+      "eval_samples_per_second": 136.671,
+      "eval_steps_per_second": 2.146,
+      "step": 58000
+    },
+    {
+      "epoch": 0.5352548984186563,
+      "grad_norm": 17.134702682495117,
+      "learning_rate": 4.939175511898892e-05,
+      "loss": 1.8245,
+      "step": 60000
+    },
+    {
+      "epoch": 0.5352548984186563,
+      "eval_loss": 1.7094610929489136,
+      "eval_runtime": 73.3218,
+      "eval_samples_per_second": 136.385,
+      "eval_steps_per_second": 2.141,
+      "step": 60000
+    },
+    {
+      "epoch": 0.5530967283659448,
+      "grad_norm": 17.70859146118164,
+      "learning_rate": 4.937148028962189e-05,
+      "loss": 1.8201,
+      "step": 62000
+    },
+    {
+      "epoch": 0.5530967283659448,
+      "eval_loss": 1.70658540725708,
+      "eval_runtime": 73.3241,
+      "eval_samples_per_second": 136.381,
+      "eval_steps_per_second": 2.141,
+      "step": 62000
+    },
+    {
+      "epoch": 0.5709385583132334,
+      "grad_norm": 16.962129592895508,
+      "learning_rate": 4.935120546025485e-05,
+      "loss": 1.8107,
+      "step": 64000
+    },
+    {
+      "epoch": 0.5709385583132334,
+      "eval_loss": 1.6914931535720825,
+      "eval_runtime": 73.2479,
+      "eval_samples_per_second": 136.523,
+      "eval_steps_per_second": 2.143,
+      "step": 64000
+    },
+    {
+      "epoch": 0.5887803882605219,
+      "grad_norm": 16.842283248901367,
+      "learning_rate": 4.933093063088781e-05,
+      "loss": 1.8027,
+      "step": 66000
+    },
+    {
+      "epoch": 0.5887803882605219,
+      "eval_loss": 1.683428168296814,
+      "eval_runtime": 73.2102,
+      "eval_samples_per_second": 136.593,
+      "eval_steps_per_second": 2.145,
+      "step": 66000
+    },
+    {
+      "epoch": 0.6066222182078105,
+      "grad_norm": 17.075162887573242,
+      "learning_rate": 4.9310655801520775e-05,
+      "loss": 1.7991,
+      "step": 68000
+    },
+    {
+      "epoch": 0.6066222182078105,
+      "eval_loss": 1.688643217086792,
+      "eval_runtime": 73.3407,
+      "eval_samples_per_second": 136.35,
+      "eval_steps_per_second": 2.141,
+      "step": 68000
+    },
+    {
+      "epoch": 0.624464048155099,
+      "grad_norm": 17.02593231201172,
+      "learning_rate": 4.929038097215374e-05,
+      "loss": 1.7906,
+      "step": 70000
+    },
+    {
+      "epoch": 0.624464048155099,
+      "eval_loss": 1.6794742345809937,
+      "eval_runtime": 73.266,
+      "eval_samples_per_second": 136.489,
+      "eval_steps_per_second": 2.143,
+      "step": 70000
+    }
+  ],
+  "logging_steps": 2000,
+  "max_steps": 4932224,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 44,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.716630245376e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}