Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +13 -1408
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:182ee968b6fdeec8216ae2242608aac4cf00a82309a22f2bc546f245f6a30f5b
 size 136000488

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a6e94e6f9602b019dfddf88bbd7631188723c74100c86f84c8aa54a9c83d963
 size 136000488

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfc3984044cbf3ce86e00b28e3e8d7a9ea91edc27a0b44779f188f12efd55185
 size 268176506

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f2395a5137dda5eb97e54395eb65f6e40d010266167d521b6e12b7cb1436435
 size 268176506

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56f87b775049fb0adab4e0d540aff9b9f075c23a8d207a780cdfad0536093ab3
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c208ccb16ca4d1a71397af65ad74bbc2d33a691a42a2d223ddec56de42a775e
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a16798b06a013ad4b7ec3ca11219408d900e5c425fe7c3d917c437397043544f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea9b67c97ec0b0a1b79a6330badd5da865b550616c82ba334622fd4f95186829
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,1422 +1,27 @@
 {
-  "best_metric": 1.0438764095306396,
-  "best_model_checkpoint": "mgh6/TCS_MLM_50/checkpoint-8900",
-  "epoch": 2.7285921625544267,
   "eval_steps": 100,
-  "global_step": 9400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02902757619738752,
-      "grad_norm": 1.131932258605957,
       "learning_rate": 9.970972423802612e-05,
-      "loss": 2.8244,
       "step": 100
     },
     {
       "epoch": 0.02902757619738752,
-      "eval_loss": 1.2662084102630615,
-      "eval_runtime": 213.5614,
-      "eval_samples_per_second": 213.049,
-      "eval_steps_per_second": 3.329,
-      "step": 100
-    },
-    {
-      "epoch": 0.05805515239477504,
-      "grad_norm": 1.0239707231521606,
-      "learning_rate": 9.941944847605225e-05,
-      "loss": 2.7081,
-      "step": 200
-    },
-    {
-      "epoch": 0.05805515239477504,
-      "eval_loss": 1.2453378438949585,
-      "eval_runtime": 212.9056,
-      "eval_samples_per_second": 213.705,
-      "eval_steps_per_second": 3.34,
-      "step": 200
-    },
-    {
-      "epoch": 0.08708272859216255,
-      "grad_norm": 1.1205116510391235,
-      "learning_rate": 9.912917271407838e-05,
-      "loss": 2.642,
-      "step": 300
-    },
-    {
-      "epoch": 0.08708272859216255,
-      "eval_loss": 1.2237757444381714,
-      "eval_runtime": 214.4447,
-      "eval_samples_per_second": 212.171,
-      "eval_steps_per_second": 3.316,
-      "step": 300
-    },
-    {
-      "epoch": 0.11611030478955008,
-      "grad_norm": 1.0193355083465576,
-      "learning_rate": 9.883889695210451e-05,
-      "loss": 2.6037,
-      "step": 400
-    },
-    {
-      "epoch": 0.11611030478955008,
-      "eval_loss": 1.2148627042770386,
-      "eval_runtime": 213.5123,
-      "eval_samples_per_second": 213.098,
-      "eval_steps_per_second": 3.33,
-      "step": 400
-    },
-    {
-      "epoch": 0.14513788098693758,
-      "grad_norm": 1.05299711227417,
-      "learning_rate": 9.854862119013063e-05,
-      "loss": 2.5791,
-      "step": 500
-    },
-    {
-      "epoch": 0.14513788098693758,
-      "eval_loss": 1.2020208835601807,
-      "eval_runtime": 213.769,
-      "eval_samples_per_second": 212.842,
-      "eval_steps_per_second": 3.326,
-      "step": 500
-    },
-    {
-      "epoch": 0.1741654571843251,
-      "grad_norm": 1.0508314371109009,
-      "learning_rate": 9.825834542815675e-05,
-      "loss": 2.5464,
-      "step": 600
-    },
-    {
-      "epoch": 0.1741654571843251,
-      "eval_loss": 1.1960116624832153,
-      "eval_runtime": 214.1083,
-      "eval_samples_per_second": 212.505,
-      "eval_steps_per_second": 3.321,
-      "step": 600
-    },
-    {
-      "epoch": 0.20319303338171263,
-      "grad_norm": 1.158460021018982,
-      "learning_rate": 9.796806966618288e-05,
-      "loss": 2.5391,
-      "step": 700
-    },
-    {
-      "epoch": 0.20319303338171263,
-      "eval_loss": 1.186664342880249,
-      "eval_runtime": 213.4364,
-      "eval_samples_per_second": 213.174,
-      "eval_steps_per_second": 3.331,
-      "step": 700
-    },
-    {
-      "epoch": 0.23222060957910015,
-      "grad_norm": 1.0704821348190308,
-      "learning_rate": 9.767779390420901e-05,
-      "loss": 2.4944,
-      "step": 800
-    },
-    {
-      "epoch": 0.23222060957910015,
-      "eval_loss": 1.1850290298461914,
-      "eval_runtime": 213.63,
-      "eval_samples_per_second": 212.98,
-      "eval_steps_per_second": 3.328,
-      "step": 800
-    },
-    {
-      "epoch": 0.2612481857764877,
-      "grad_norm": 1.0562227964401245,
-      "learning_rate": 9.738751814223513e-05,
-      "loss": 2.4879,
-      "step": 900
-    },
-    {
-      "epoch": 0.2612481857764877,
-      "eval_loss": 1.1725127696990967,
-      "eval_runtime": 213.7307,
-      "eval_samples_per_second": 212.88,
-      "eval_steps_per_second": 3.327,
-      "step": 900
-    },
-    {
-      "epoch": 0.29027576197387517,
-      "grad_norm": 1.136777639389038,
-      "learning_rate": 9.709724238026126e-05,
-      "loss": 2.4647,
-      "step": 1000
-    },
-    {
-      "epoch": 0.29027576197387517,
-      "eval_loss": 1.1709253787994385,
-      "eval_runtime": 213.2147,
-      "eval_samples_per_second": 213.395,
-      "eval_steps_per_second": 3.335,
-      "step": 1000
-    },
-    {
-      "epoch": 0.3193033381712627,
-      "grad_norm": 1.0949931144714355,
-      "learning_rate": 9.680696661828737e-05,
-      "loss": 2.4441,
-      "step": 1100
-    },
-    {
-      "epoch": 0.3193033381712627,
-      "eval_loss": 1.1647560596466064,
-      "eval_runtime": 213.5056,
-      "eval_samples_per_second": 213.104,
-      "eval_steps_per_second": 3.33,
-      "step": 1100
-    },
-    {
-      "epoch": 0.3483309143686502,
-      "grad_norm": 1.2719751596450806,
-      "learning_rate": 9.65166908563135e-05,
-      "loss": 2.432,
-      "step": 1200
-    },
-    {
-      "epoch": 0.3483309143686502,
-      "eval_loss": 1.1668621301651,
-      "eval_runtime": 213.8017,
-      "eval_samples_per_second": 212.809,
-      "eval_steps_per_second": 3.326,
-      "step": 1200
-    },
-    {
-      "epoch": 0.37735849056603776,
-      "grad_norm": 1.1357173919677734,
-      "learning_rate": 9.622641509433963e-05,
-      "loss": 2.4173,
-      "step": 1300
-    },
-    {
-      "epoch": 0.37735849056603776,
-      "eval_loss": 1.1585583686828613,
-      "eval_runtime": 212.8448,
-      "eval_samples_per_second": 213.766,
-      "eval_steps_per_second": 3.34,
-      "step": 1300
-    },
-    {
-      "epoch": 0.40638606676342526,
-      "grad_norm": 1.1240577697753906,
-      "learning_rate": 9.593613933236575e-05,
-      "loss": 2.4029,
-      "step": 1400
-    },
-    {
-      "epoch": 0.40638606676342526,
-      "eval_loss": 1.1513617038726807,
-      "eval_runtime": 214.5547,
-      "eval_samples_per_second": 212.063,
-      "eval_steps_per_second": 3.314,
-      "step": 1400
-    },
-    {
-      "epoch": 0.43541364296081275,
-      "grad_norm": 1.074048399925232,
-      "learning_rate": 9.564586357039188e-05,
-      "loss": 2.3964,
-      "step": 1500
-    },
-    {
-      "epoch": 0.43541364296081275,
-      "eval_loss": 1.1514214277267456,
-      "eval_runtime": 213.8115,
-      "eval_samples_per_second": 212.8,
-      "eval_steps_per_second": 3.325,
-      "step": 1500
-    },
-    {
-      "epoch": 0.4644412191582003,
-      "grad_norm": 1.2565686702728271,
-      "learning_rate": 9.5355587808418e-05,
-      "loss": 2.3548,
-      "step": 1600
-    },
-    {
-      "epoch": 0.4644412191582003,
-      "eval_loss": 1.1476994752883911,
-      "eval_runtime": 214.3759,
-      "eval_samples_per_second": 212.239,
-      "eval_steps_per_second": 3.317,
-      "step": 1600
-    },
-    {
-      "epoch": 0.4934687953555878,
-      "grad_norm": 1.1474090814590454,
-      "learning_rate": 9.506531204644412e-05,
-      "loss": 2.36,
-      "step": 1700
-    },
-    {
-      "epoch": 0.4934687953555878,
-      "eval_loss": 1.1446571350097656,
-      "eval_runtime": 213.458,
-      "eval_samples_per_second": 213.152,
-      "eval_steps_per_second": 3.331,
-      "step": 1700
-    },
-    {
-      "epoch": 0.5224963715529753,
-      "grad_norm": 1.2290916442871094,
-      "learning_rate": 9.477503628447025e-05,
-      "loss": 2.3438,
-      "step": 1800
-    },
-    {
-      "epoch": 0.5224963715529753,
-      "eval_loss": 1.1393438577651978,
-      "eval_runtime": 213.014,
-      "eval_samples_per_second": 213.596,
-      "eval_steps_per_second": 3.338,
-      "step": 1800
-    },
-    {
-      "epoch": 0.5515239477503628,
-      "grad_norm": 1.1700950860977173,
-      "learning_rate": 9.448476052249638e-05,
-      "loss": 2.3416,
-      "step": 1900
-    },
-    {
-      "epoch": 0.5515239477503628,
-      "eval_loss": 1.1348192691802979,
-      "eval_runtime": 213.2252,
-      "eval_samples_per_second": 213.385,
-      "eval_steps_per_second": 3.335,
-      "step": 1900
-    },
-    {
-      "epoch": 0.5805515239477503,
-      "grad_norm": 1.1090705394744873,
-      "learning_rate": 9.419448476052251e-05,
-      "loss": 2.3289,
-      "step": 2000
-    },
-    {
-      "epoch": 0.5805515239477503,
-      "eval_loss": 1.130873203277588,
-      "eval_runtime": 212.7564,
-      "eval_samples_per_second": 213.855,
-      "eval_steps_per_second": 3.342,
-      "step": 2000
-    },
-    {
-      "epoch": 0.6095791001451378,
-      "grad_norm": 1.17753267288208,
-      "learning_rate": 9.390420899854863e-05,
-      "loss": 2.3218,
-      "step": 2100
-    },
-    {
-      "epoch": 0.6095791001451378,
-      "eval_loss": 1.1335190534591675,
-      "eval_runtime": 212.7619,
-      "eval_samples_per_second": 213.849,
-      "eval_steps_per_second": 3.342,
-      "step": 2100
-    },
-    {
-      "epoch": 0.6386066763425254,
-      "grad_norm": 1.087358832359314,
-      "learning_rate": 9.361393323657474e-05,
-      "loss": 2.3072,
-      "step": 2200
-    },
-    {
-      "epoch": 0.6386066763425254,
-      "eval_loss": 1.1303313970565796,
-      "eval_runtime": 213.3449,
-      "eval_samples_per_second": 213.265,
-      "eval_steps_per_second": 3.333,
-      "step": 2200
-    },
-    {
-      "epoch": 0.6676342525399129,
-      "grad_norm": 1.1286981105804443,
-      "learning_rate": 9.332365747460087e-05,
-      "loss": 2.2881,
-      "step": 2300
-    },
-    {
-      "epoch": 0.6676342525399129,
-      "eval_loss": 1.1234804391860962,
-      "eval_runtime": 213.3465,
-      "eval_samples_per_second": 213.263,
-      "eval_steps_per_second": 3.333,
-      "step": 2300
-    },
-    {
-      "epoch": 0.6966618287373004,
-      "grad_norm": 1.1590163707733154,
-      "learning_rate": 9.3033381712627e-05,
-      "loss": 2.2751,
-      "step": 2400
-    },
-    {
-      "epoch": 0.6966618287373004,
-      "eval_loss": 1.120328664779663,
-      "eval_runtime": 213.9246,
-      "eval_samples_per_second": 212.687,
-      "eval_steps_per_second": 3.324,
-      "step": 2400
-    },
-    {
-      "epoch": 0.7256894049346879,
-      "grad_norm": 1.3988169431686401,
-      "learning_rate": 9.274310595065312e-05,
-      "loss": 2.2666,
-      "step": 2500
-    },
-    {
-      "epoch": 0.7256894049346879,
-      "eval_loss": 1.1266223192214966,
-      "eval_runtime": 214.3634,
-      "eval_samples_per_second": 212.252,
-      "eval_steps_per_second": 3.317,
-      "step": 2500
-    },
-    {
-      "epoch": 0.7547169811320755,
-      "grad_norm": 1.239560842514038,
-      "learning_rate": 9.245283018867925e-05,
-      "loss": 2.2702,
-      "step": 2600
-    },
-    {
-      "epoch": 0.7547169811320755,
-      "eval_loss": 1.1224210262298584,
-      "eval_runtime": 213.2424,
-      "eval_samples_per_second": 213.367,
-      "eval_steps_per_second": 3.334,
-      "step": 2600
-    },
-    {
-      "epoch": 0.783744557329463,
-      "grad_norm": 1.1289948225021362,
-      "learning_rate": 9.216255442670537e-05,
-      "loss": 2.256,
-      "step": 2700
-    },
-    {
-      "epoch": 0.783744557329463,
-      "eval_loss": 1.1150513887405396,
-      "eval_runtime": 213.4486,
-      "eval_samples_per_second": 213.161,
-      "eval_steps_per_second": 3.331,
-      "step": 2700
-    },
-    {
-      "epoch": 0.8127721335268505,
-      "grad_norm": 1.1463016271591187,
-      "learning_rate": 9.18722786647315e-05,
-      "loss": 2.2483,
-      "step": 2800
-    },
-    {
-      "epoch": 0.8127721335268505,
-      "eval_loss": 1.1185483932495117,
-      "eval_runtime": 212.704,
-      "eval_samples_per_second": 213.908,
-      "eval_steps_per_second": 3.343,
-      "step": 2800
-    },
-    {
-      "epoch": 0.841799709724238,
-      "grad_norm": 1.1233168840408325,
-      "learning_rate": 9.158200290275763e-05,
-      "loss": 2.2328,
-      "step": 2900
-    },
-    {
-      "epoch": 0.841799709724238,
-      "eval_loss": 1.1085420846939087,
-      "eval_runtime": 213.7255,
-      "eval_samples_per_second": 212.885,
-      "eval_steps_per_second": 3.327,
-      "step": 2900
-    },
-    {
-      "epoch": 0.8708272859216255,
-      "grad_norm": 1.1887527704238892,
-      "learning_rate": 9.129172714078375e-05,
-      "loss": 2.235,
-      "step": 3000
-    },
-    {
-      "epoch": 0.8708272859216255,
-      "eval_loss": 1.1104073524475098,
-      "eval_runtime": 213.9252,
-      "eval_samples_per_second": 212.687,
-      "eval_steps_per_second": 3.324,
-      "step": 3000
-    },
-    {
-      "epoch": 0.8998548621190131,
-      "grad_norm": 1.2834577560424805,
-      "learning_rate": 9.100145137880988e-05,
-      "loss": 2.2209,
-      "step": 3100
-    },
-    {
-      "epoch": 0.8998548621190131,
-      "eval_loss": 1.1137757301330566,
-      "eval_runtime": 213.6201,
-      "eval_samples_per_second": 212.99,
-      "eval_steps_per_second": 3.328,
-      "step": 3100
-    },
-    {
-      "epoch": 0.9288824383164006,
-      "grad_norm": 1.3034873008728027,
-      "learning_rate": 9.0711175616836e-05,
-      "loss": 2.2185,
-      "step": 3200
-    },
-    {
-      "epoch": 0.9288824383164006,
-      "eval_loss": 1.107863187789917,
-      "eval_runtime": 213.1098,
-      "eval_samples_per_second": 213.5,
-      "eval_steps_per_second": 3.336,
-      "step": 3200
-    },
-    {
-      "epoch": 0.9579100145137881,
-      "grad_norm": 1.1802492141723633,
-      "learning_rate": 9.042089985486212e-05,
-      "loss": 2.2147,
-      "step": 3300
-    },
-    {
-      "epoch": 0.9579100145137881,
-      "eval_loss": 1.1041762828826904,
-      "eval_runtime": 213.2962,
-      "eval_samples_per_second": 213.314,
-      "eval_steps_per_second": 3.333,
-      "step": 3300
-    },
-    {
-      "epoch": 0.9869375907111756,
-      "grad_norm": 1.2992894649505615,
-      "learning_rate": 9.013062409288826e-05,
-      "loss": 2.216,
-      "step": 3400
-    },
-    {
-      "epoch": 0.9869375907111756,
-      "eval_loss": 1.1009138822555542,
-      "eval_runtime": 213.7998,
-      "eval_samples_per_second": 212.811,
-      "eval_steps_per_second": 3.326,
-      "step": 3400
-    },
-    {
-      "epoch": 1.0159651669085632,
-      "grad_norm": 1.1432065963745117,
-      "learning_rate": 8.984034833091437e-05,
-      "loss": 2.1952,
-      "step": 3500
-    },
-    {
-      "epoch": 1.0159651669085632,
-      "eval_loss": 1.106726884841919,
-      "eval_runtime": 213.7054,
-      "eval_samples_per_second": 212.905,
-      "eval_steps_per_second": 3.327,
-      "step": 3500
-    },
-    {
-      "epoch": 1.0449927431059507,
-      "grad_norm": 1.1603158712387085,
-      "learning_rate": 8.95500725689405e-05,
-      "loss": 2.2019,
-      "step": 3600
-    },
-    {
-      "epoch": 1.0449927431059507,
-      "eval_loss": 1.1014330387115479,
-      "eval_runtime": 213.1977,
-      "eval_samples_per_second": 213.412,
-      "eval_steps_per_second": 3.335,
-      "step": 3600
-    },
-    {
-      "epoch": 1.0740203193033382,
-      "grad_norm": 1.2428488731384277,
-      "learning_rate": 8.925979680696662e-05,
-      "loss": 2.1959,
-      "step": 3700
-    },
-    {
-      "epoch": 1.0740203193033382,
-      "eval_loss": 1.1004406213760376,
-      "eval_runtime": 213.3658,
-      "eval_samples_per_second": 213.244,
-      "eval_steps_per_second": 3.332,
-      "step": 3700
-    },
-    {
-      "epoch": 1.1030478955007257,
-      "grad_norm": 1.1615545749664307,
-      "learning_rate": 8.896952104499274e-05,
-      "loss": 2.1776,
-      "step": 3800
-    },
-    {
-      "epoch": 1.1030478955007257,
-      "eval_loss": 1.0938160419464111,
-      "eval_runtime": 213.3987,
-      "eval_samples_per_second": 213.211,
-      "eval_steps_per_second": 3.332,
-      "step": 3800
-    },
-    {
-      "epoch": 1.1320754716981132,
-      "grad_norm": 1.1921610832214355,
-      "learning_rate": 8.867924528301888e-05,
-      "loss": 2.1762,
-      "step": 3900
-    },
-    {
-      "epoch": 1.1320754716981132,
-      "eval_loss": 1.0960694551467896,
-      "eval_runtime": 213.1832,
-      "eval_samples_per_second": 213.427,
-      "eval_steps_per_second": 3.335,
-      "step": 3900
-    },
-    {
-      "epoch": 1.1611030478955007,
-      "grad_norm": 1.1980363130569458,
-      "learning_rate": 8.8388969521045e-05,
-      "loss": 2.1717,
-      "step": 4000
-    },
-    {
-      "epoch": 1.1611030478955007,
-      "eval_loss": 1.0951919555664062,
-      "eval_runtime": 213.4024,
-      "eval_samples_per_second": 213.207,
-      "eval_steps_per_second": 3.332,
-      "step": 4000
-    },
-    {
-      "epoch": 1.1901306240928882,
-      "grad_norm": 1.217236042022705,
-      "learning_rate": 8.809869375907113e-05,
-      "loss": 2.1534,
-      "step": 4100
-    },
-    {
-      "epoch": 1.1901306240928882,
-      "eval_loss": 1.0937577486038208,
-      "eval_runtime": 213.8113,
-      "eval_samples_per_second": 212.8,
-      "eval_steps_per_second": 3.325,
-      "step": 4100
-    },
-    {
-      "epoch": 1.2191582002902757,
-      "grad_norm": 1.2121118307113647,
-      "learning_rate": 8.780841799709725e-05,
-      "loss": 2.1639,
-      "step": 4200
-    },
-    {
-      "epoch": 1.2191582002902757,
-      "eval_loss": 1.0909945964813232,
-      "eval_runtime": 212.8308,
-      "eval_samples_per_second": 213.78,
-      "eval_steps_per_second": 3.341,
-      "step": 4200
-    },
-    {
-      "epoch": 1.2481857764876634,
-      "grad_norm": 1.17587411403656,
-      "learning_rate": 8.751814223512336e-05,
-      "loss": 2.146,
-      "step": 4300
-    },
-    {
-      "epoch": 1.2481857764876634,
-      "eval_loss": 1.0888868570327759,
-      "eval_runtime": 213.8752,
-      "eval_samples_per_second": 212.736,
-      "eval_steps_per_second": 3.324,
-      "step": 4300
-    },
-    {
-      "epoch": 1.2772133526850509,
-      "grad_norm": 1.2848412990570068,
-      "learning_rate": 8.722786647314949e-05,
-      "loss": 2.1357,
-      "step": 4400
-    },
-    {
-      "epoch": 1.2772133526850509,
-      "eval_loss": 1.091068983078003,
-      "eval_runtime": 213.4081,
-      "eval_samples_per_second": 213.202,
-      "eval_steps_per_second": 3.332,
-      "step": 4400
-    },
-    {
-      "epoch": 1.3062409288824384,
-      "grad_norm": 1.2059731483459473,
-      "learning_rate": 8.693759071117562e-05,
-      "loss": 2.1456,
-      "step": 4500
-    },
-    {
-      "epoch": 1.3062409288824384,
-      "eval_loss": 1.0857021808624268,
-      "eval_runtime": 213.7314,
-      "eval_samples_per_second": 212.879,
-      "eval_steps_per_second": 3.327,
-      "step": 4500
-    },
-    {
-      "epoch": 1.3352685050798259,
-      "grad_norm": 1.226241946220398,
-      "learning_rate": 8.664731494920174e-05,
-      "loss": 2.1453,
-      "step": 4600
-    },
-    {
-      "epoch": 1.3352685050798259,
-      "eval_loss": 1.0845140218734741,
-      "eval_runtime": 213.4698,
-      "eval_samples_per_second": 213.14,
-      "eval_steps_per_second": 3.331,
-      "step": 4600
-    },
-    {
-      "epoch": 1.3642960812772134,
-      "grad_norm": 1.1810499429702759,
-      "learning_rate": 8.635703918722787e-05,
-      "loss": 2.1425,
-      "step": 4700
-    },
-    {
-      "epoch": 1.3642960812772134,
-      "eval_loss": 1.0831544399261475,
-      "eval_runtime": 214.2077,
-      "eval_samples_per_second": 212.406,
-      "eval_steps_per_second": 3.319,
-      "step": 4700
-    },
-    {
-      "epoch": 1.3933236574746009,
-      "grad_norm": 1.155281662940979,
-      "learning_rate": 8.606676342525399e-05,
-      "loss": 2.1173,
-      "step": 4800
-    },
-    {
-      "epoch": 1.3933236574746009,
-      "eval_loss": 1.0785441398620605,
-      "eval_runtime": 213.6973,
-      "eval_samples_per_second": 212.913,
-      "eval_steps_per_second": 3.327,
-      "step": 4800
-    },
-    {
-      "epoch": 1.4223512336719883,
-      "grad_norm": 1.2070744037628174,
-      "learning_rate": 8.577648766328012e-05,
-      "loss": 2.1183,
-      "step": 4900
-    },
-    {
-      "epoch": 1.4223512336719883,
-      "eval_loss": 1.0808286666870117,
-      "eval_runtime": 213.4564,
-      "eval_samples_per_second": 213.154,
-      "eval_steps_per_second": 3.331,
-      "step": 4900
-    },
-    {
-      "epoch": 1.4513788098693758,
-      "grad_norm": 1.1901525259017944,
-      "learning_rate": 8.548621190130625e-05,
-      "loss": 2.1274,
-      "step": 5000
-    },
-    {
-      "epoch": 1.4513788098693758,
-      "eval_loss": 1.0827044248580933,
-      "eval_runtime": 212.5592,
-      "eval_samples_per_second": 214.053,
-      "eval_steps_per_second": 3.345,
-      "step": 5000
-    },
-    {
-      "epoch": 1.4804063860667633,
-      "grad_norm": 1.1999766826629639,
-      "learning_rate": 8.519593613933237e-05,
-      "loss": 2.1145,
-      "step": 5100
-    },
-    {
-      "epoch": 1.4804063860667633,
-      "eval_loss": 1.078644037246704,
-      "eval_runtime": 213.0532,
-      "eval_samples_per_second": 213.557,
-      "eval_steps_per_second": 3.337,
-      "step": 5100
-    },
-    {
-      "epoch": 1.509433962264151,
-      "grad_norm": 1.2294871807098389,
-      "learning_rate": 8.49056603773585e-05,
-      "loss": 2.1067,
-      "step": 5200
-    },
-    {
-      "epoch": 1.509433962264151,
-      "eval_loss": 1.0794402360916138,
-      "eval_runtime": 212.9617,
-      "eval_samples_per_second": 213.649,
-      "eval_steps_per_second": 3.339,
-      "step": 5200
-    },
-    {
-      "epoch": 1.5384615384615383,
-      "grad_norm": 1.2571580410003662,
-      "learning_rate": 8.461538461538461e-05,
-      "loss": 2.1032,
-      "step": 5300
-    },
-    {
-      "epoch": 1.5384615384615383,
-      "eval_loss": 1.0783346891403198,
-      "eval_runtime": 213.4656,
-      "eval_samples_per_second": 213.144,
-      "eval_steps_per_second": 3.331,
-      "step": 5300
-    },
-    {
-      "epoch": 1.567489114658926,
-      "grad_norm": 1.2078722715377808,
-      "learning_rate": 8.432510885341074e-05,
-      "loss": 2.0912,
-      "step": 5400
-    },
-    {
-      "epoch": 1.567489114658926,
-      "eval_loss": 1.0764219760894775,
-      "eval_runtime": 213.826,
-      "eval_samples_per_second": 212.785,
-      "eval_steps_per_second": 3.325,
-      "step": 5400
-    },
-    {
-      "epoch": 1.5965166908563135,
-      "grad_norm": 1.272294521331787,
-      "learning_rate": 8.403483309143688e-05,
-      "loss": 2.0784,
-      "step": 5500
-    },
-    {
-      "epoch": 1.5965166908563135,
-      "eval_loss": 1.0817687511444092,
-      "eval_runtime": 213.443,
-      "eval_samples_per_second": 213.167,
-      "eval_steps_per_second": 3.331,
-      "step": 5500
-    },
-    {
-      "epoch": 1.625544267053701,
-      "grad_norm": 1.2367442846298218,
-      "learning_rate": 8.374455732946299e-05,
-      "loss": 2.0997,
-      "step": 5600
-    },
-    {
-      "epoch": 1.625544267053701,
-      "eval_loss": 1.079858660697937,
-      "eval_runtime": 213.7339,
-      "eval_samples_per_second": 212.877,
-      "eval_steps_per_second": 3.327,
-      "step": 5600
-    },
-    {
-      "epoch": 1.6545718432510885,
-      "grad_norm": 1.2720229625701904,
-      "learning_rate": 8.345428156748912e-05,
-      "loss": 2.093,
-      "step": 5700
-    },
-    {
-      "epoch": 1.6545718432510885,
-      "eval_loss": 1.0779507160186768,
-      "eval_runtime": 213.2034,
-      "eval_samples_per_second": 213.407,
-      "eval_steps_per_second": 3.335,
-      "step": 5700
-    },
-    {
-      "epoch": 1.683599419448476,
-      "grad_norm": 1.1694726943969727,
-      "learning_rate": 8.316400580551524e-05,
-      "loss": 2.0822,
-      "step": 5800
-    },
-    {
-      "epoch": 1.683599419448476,
-      "eval_loss": 1.068250060081482,
-      "eval_runtime": 213.1022,
-      "eval_samples_per_second": 213.508,
-      "eval_steps_per_second": 3.336,
-      "step": 5800
-    },
-    {
-      "epoch": 1.7126269956458637,
-      "grad_norm": 1.2155323028564453,
-      "learning_rate": 8.287373004354137e-05,
-      "loss": 2.0792,
-      "step": 5900
-    },
-    {
-      "epoch": 1.7126269956458637,
-      "eval_loss": 1.0666776895523071,
-      "eval_runtime": 213.4935,
-      "eval_samples_per_second": 213.117,
-      "eval_steps_per_second": 3.33,
-      "step": 5900
-    },
-    {
-      "epoch": 1.741654571843251,
-      "grad_norm": 1.3163602352142334,
-      "learning_rate": 8.25834542815675e-05,
-      "loss": 2.0712,
-      "step": 6000
-    },
-    {
-      "epoch": 1.741654571843251,
-      "eval_loss": 1.0677340030670166,
-      "eval_runtime": 213.751,
-      "eval_samples_per_second": 212.86,
-      "eval_steps_per_second": 3.326,
-      "step": 6000
-    },
-    {
-      "epoch": 1.7706821480406387,
-      "grad_norm": 1.1972286701202393,
-      "learning_rate": 8.229317851959362e-05,
-      "loss": 2.0679,
-      "step": 6100
-    },
-    {
-      "epoch": 1.7706821480406387,
-      "eval_loss": 1.0662775039672852,
-      "eval_runtime": 213.7705,
-      "eval_samples_per_second": 212.84,
-      "eval_steps_per_second": 3.326,
-      "step": 6100
-    },
-    {
-      "epoch": 1.799709724238026,
-      "grad_norm": 1.189395546913147,
-      "learning_rate": 8.200290275761974e-05,
-      "loss": 2.0753,
-      "step": 6200
-    },
-    {
-      "epoch": 1.799709724238026,
-      "eval_loss": 1.0646038055419922,
-      "eval_runtime": 213.3945,
-      "eval_samples_per_second": 213.215,
-      "eval_steps_per_second": 3.332,
-      "step": 6200
-    },
-    {
-      "epoch": 1.8287373004354137,
-      "grad_norm": 1.2696415185928345,
-      "learning_rate": 8.171262699564587e-05,
-      "loss": 2.063,
-      "step": 6300
-    },
-    {
-      "epoch": 1.8287373004354137,
-      "eval_loss": 1.0669814348220825,
-      "eval_runtime": 213.7587,
-      "eval_samples_per_second": 212.852,
-      "eval_steps_per_second": 3.326,
-      "step": 6300
-    },
-    {
-      "epoch": 1.8577648766328012,
-      "grad_norm": 1.241452693939209,
-      "learning_rate": 8.142235123367198e-05,
-      "loss": 2.0508,
-      "step": 6400
-    },
-    {
-      "epoch": 1.8577648766328012,
-      "eval_loss": 1.072275996208191,
-      "eval_runtime": 213.3197,
-      "eval_samples_per_second": 213.29,
-      "eval_steps_per_second": 3.333,
-      "step": 6400
-    },
-    {
-      "epoch": 1.8867924528301887,
-      "grad_norm": 1.22267484664917,
-      "learning_rate": 8.113207547169813e-05,
-      "loss": 2.07,
-      "step": 6500
-    },
-    {
-      "epoch": 1.8867924528301887,
-      "eval_loss": 1.0654535293579102,
-      "eval_runtime": 214.0386,
-      "eval_samples_per_second": 212.574,
-      "eval_steps_per_second": 3.322,
-      "step": 6500
-    },
-    {
-      "epoch": 1.9158200290275762,
-      "grad_norm": 1.2704839706420898,
-      "learning_rate": 8.084179970972424e-05,
-      "loss": 2.0646,
-      "step": 6600
-    },
-    {
-      "epoch": 1.9158200290275762,
-      "eval_loss": 1.0614382028579712,
-      "eval_runtime": 213.4971,
-      "eval_samples_per_second": 213.113,
-      "eval_steps_per_second": 3.33,
-      "step": 6600
-    },
-    {
-      "epoch": 1.9448476052249637,
-      "grad_norm": 1.3870867490768433,
-      "learning_rate": 8.055152394775036e-05,
-      "loss": 2.0598,
-      "step": 6700
-    },
-    {
-      "epoch": 1.9448476052249637,
-      "eval_loss": 1.067047357559204,
-      "eval_runtime": 214.0952,
-      "eval_samples_per_second": 212.518,
-      "eval_steps_per_second": 3.321,
-      "step": 6700
-    },
-    {
-      "epoch": 1.9738751814223512,
-      "grad_norm": 1.3581643104553223,
-      "learning_rate": 8.026124818577649e-05,
-      "loss": 2.0501,
-      "step": 6800
-    },
-    {
-      "epoch": 1.9738751814223512,
-      "eval_loss": 1.0663081407546997,
-      "eval_runtime": 213.8995,
-      "eval_samples_per_second": 212.712,
-      "eval_steps_per_second": 3.324,
-      "step": 6800
-    },
-    {
-      "epoch": 2.0029027576197387,
-      "grad_norm": 1.3438752889633179,
-      "learning_rate": 7.997097242380261e-05,
-      "loss": 2.0332,
-      "step": 6900
-    },
-    {
-      "epoch": 2.0029027576197387,
-      "eval_loss": 1.059921383857727,
-      "eval_runtime": 213.0183,
-      "eval_samples_per_second": 213.592,
-      "eval_steps_per_second": 3.338,
-      "step": 6900
-    },
-    {
-      "epoch": 2.0319303338171264,
-      "grad_norm": 1.3646849393844604,
-      "learning_rate": 7.968069666182875e-05,
-      "loss": 2.0463,
-      "step": 7000
-    },
-    {
-      "epoch": 2.0319303338171264,
-      "eval_loss": 1.0679893493652344,
-      "eval_runtime": 213.3912,
-      "eval_samples_per_second": 213.219,
-      "eval_steps_per_second": 3.332,
-      "step": 7000
-    },
-    {
-      "epoch": 2.0609579100145137,
-      "grad_norm": 1.2047359943389893,
-      "learning_rate": 7.939042089985487e-05,
-      "loss": 2.0376,
-      "step": 7100
-    },
-    {
-      "epoch": 2.0609579100145137,
-      "eval_loss": 1.0566322803497314,
-      "eval_runtime": 213.6266,
-      "eval_samples_per_second": 212.984,
-      "eval_steps_per_second": 3.328,
-      "step": 7100
-    },
-    {
-      "epoch": 2.0899854862119014,
-      "grad_norm": 1.2285219430923462,
-      "learning_rate": 7.910014513788099e-05,
-      "loss": 2.0327,
-      "step": 7200
-    },
-    {
-      "epoch": 2.0899854862119014,
-      "eval_loss": 1.058618426322937,
-      "eval_runtime": 213.6922,
-      "eval_samples_per_second": 212.918,
-      "eval_steps_per_second": 3.327,
-      "step": 7200
-    },
-    {
-      "epoch": 2.1190130624092887,
-      "grad_norm": 1.2674715518951416,
-      "learning_rate": 7.880986937590712e-05,
-      "loss": 2.0347,
-      "step": 7300
-    },
-    {
-      "epoch": 2.1190130624092887,
-      "eval_loss": 1.0599507093429565,
-      "eval_runtime": 213.5256,
-      "eval_samples_per_second": 213.085,
-      "eval_steps_per_second": 3.33,
-      "step": 7300
-    },
-    {
-      "epoch": 2.1480406386066764,
-      "grad_norm": 1.3713229894638062,
-      "learning_rate": 7.851959361393323e-05,
-      "loss": 2.0321,
-      "step": 7400
-    },
-    {
-      "epoch": 2.1480406386066764,
-      "eval_loss": 1.0617178678512573,
-      "eval_runtime": 213.0273,
-      "eval_samples_per_second": 213.583,
-      "eval_steps_per_second": 3.338,
-      "step": 7400
-    },
-    {
-      "epoch": 2.1770682148040637,
-      "grad_norm": 1.292090654373169,
-      "learning_rate": 7.822931785195937e-05,
-      "loss": 2.01,
-      "step": 7500
-    },
-    {
-      "epoch": 2.1770682148040637,
-      "eval_loss": 1.0593364238739014,
-      "eval_runtime": 213.421,
-      "eval_samples_per_second": 213.189,
-      "eval_steps_per_second": 3.331,
-      "step": 7500
-    },
-    {
-      "epoch": 2.2060957910014514,
-      "grad_norm": 1.1819452047348022,
-      "learning_rate": 7.79390420899855e-05,
-      "loss": 2.0209,
-      "step": 7600
-    },
-    {
-      "epoch": 2.2060957910014514,
-      "eval_loss": 1.0524711608886719,
-      "eval_runtime": 214.0149,
-      "eval_samples_per_second": 212.597,
-      "eval_steps_per_second": 3.322,
-      "step": 7600
-    },
-    {
-      "epoch": 2.235123367198839,
-      "grad_norm": 1.2881128787994385,
-      "learning_rate": 7.764876632801161e-05,
-      "loss": 2.0085,
-      "step": 7700
-    },
-    {
-      "epoch": 2.235123367198839,
-      "eval_loss": 1.0567752122879028,
-      "eval_runtime": 213.6228,
-      "eval_samples_per_second": 212.988,
-      "eval_steps_per_second": 3.328,
-      "step": 7700
-    },
-    {
-      "epoch": 2.2641509433962264,
-      "grad_norm": 1.2962584495544434,
-      "learning_rate": 7.735849056603774e-05,
-      "loss": 2.0204,
-      "step": 7800
-    },
-    {
-      "epoch": 2.2641509433962264,
-      "eval_loss": 1.0586293935775757,
-      "eval_runtime": 213.3516,
-      "eval_samples_per_second": 213.258,
-      "eval_steps_per_second": 3.333,
-      "step": 7800
-    },
-    {
-      "epoch": 2.293178519593614,
-      "grad_norm": 1.2214884757995605,
-      "learning_rate": 7.706821480406386e-05,
-      "loss": 2.0184,
-      "step": 7900
-    },
-    {
-      "epoch": 2.293178519593614,
-      "eval_loss": 1.0525050163269043,
-      "eval_runtime": 212.5483,
-      "eval_samples_per_second": 214.064,
-      "eval_steps_per_second": 3.345,
-      "step": 7900
-    },
-    {
-      "epoch": 2.3222060957910013,
-      "grad_norm": 1.2622853517532349,
-      "learning_rate": 7.677793904208999e-05,
-      "loss": 2.0162,
-      "step": 8000
-    },
-    {
-      "epoch": 2.3222060957910013,
-      "eval_loss": 1.0512940883636475,
-      "eval_runtime": 212.6462,
-      "eval_samples_per_second": 213.966,
-      "eval_steps_per_second": 3.344,
-      "step": 8000
-    },
-    {
-      "epoch": 2.351233671988389,
-      "grad_norm": 1.2338088750839233,
-      "learning_rate": 7.648766328011612e-05,
-      "loss": 2.0029,
-      "step": 8100
-    },
-    {
-      "epoch": 2.351233671988389,
-      "eval_loss": 1.0521414279937744,
-      "eval_runtime": 213.5358,
-      "eval_samples_per_second": 213.074,
-      "eval_steps_per_second": 3.33,
-      "step": 8100
-    },
-    {
-      "epoch": 2.3802612481857763,
-      "grad_norm": 1.2111109495162964,
-      "learning_rate": 7.619738751814224e-05,
-      "loss": 2.0101,
-      "step": 8200
-    },
-    {
-      "epoch": 2.3802612481857763,
-      "eval_loss": 1.0501890182495117,
-      "eval_runtime": 213.0351,
-      "eval_samples_per_second": 213.575,
-      "eval_steps_per_second": 3.337,
-      "step": 8200
-    },
-    {
-      "epoch": 2.409288824383164,
-      "grad_norm": 1.2333025932312012,
-      "learning_rate": 7.590711175616836e-05,
-      "loss": 2.0,
-      "step": 8300
-    },
-    {
-      "epoch": 2.409288824383164,
-      "eval_loss": 1.051579236984253,
-      "eval_runtime": 213.5529,
-      "eval_samples_per_second": 213.057,
-      "eval_steps_per_second": 3.329,
-      "step": 8300
-    },
-    {
-      "epoch": 2.4383164005805513,
-      "grad_norm": 1.3394699096679688,
-      "learning_rate": 7.561683599419449e-05,
-      "loss": 1.9986,
-      "step": 8400
-    },
-    {
-      "epoch": 2.4383164005805513,
-      "eval_loss": 1.0520364046096802,
-      "eval_runtime": 212.3818,
-      "eval_samples_per_second": 214.232,
-      "eval_steps_per_second": 3.348,
-      "step": 8400
-    },
-    {
-      "epoch": 2.467343976777939,
-      "grad_norm": 1.334936261177063,
-      "learning_rate": 7.532656023222062e-05,
-      "loss": 1.993,
-      "step": 8500
-    },
-    {
-      "epoch": 2.467343976777939,
-      "eval_loss": 1.0490361452102661,
-      "eval_runtime": 213.9415,
-      "eval_samples_per_second": 212.67,
       "eval_steps_per_second": 3.323,
-      "step": 8500
-    },
-    {
-      "epoch": 2.4963715529753268,
-      "grad_norm": 1.3085263967514038,
-      "learning_rate": 7.503628447024675e-05,
-      "loss": 1.9771,
-      "step": 8600
-    },
-    {
-      "epoch": 2.4963715529753268,
-      "eval_loss": 1.0522186756134033,
-      "eval_runtime": 212.3302,
-      "eval_samples_per_second": 214.284,
-      "eval_steps_per_second": 3.349,
-      "step": 8600
-    },
-    {
-      "epoch": 2.525399129172714,
-      "grad_norm": 1.4204107522964478,
-      "learning_rate": 7.474600870827286e-05,
-      "loss": 1.9848,
-      "step": 8700
-    },
-    {
-      "epoch": 2.525399129172714,
-      "eval_loss": 1.0486035346984863,
-      "eval_runtime": 213.5477,
-      "eval_samples_per_second": 213.062,
-      "eval_steps_per_second": 3.329,
-      "step": 8700
-    },
-    {
-      "epoch": 2.5544267053701017,
-      "grad_norm": 1.2411503791809082,
-      "learning_rate": 7.445573294629898e-05,
-      "loss": 2.0016,
-      "step": 8800
-    },
-    {
-      "epoch": 2.5544267053701017,
-      "eval_loss": 1.0516774654388428,
-      "eval_runtime": 213.2425,
-      "eval_samples_per_second": 213.367,
-      "eval_steps_per_second": 3.334,
-      "step": 8800
-    },
-    {
-      "epoch": 2.583454281567489,
-      "grad_norm": 1.2166720628738403,
-      "learning_rate": 7.416545718432511e-05,
-      "loss": 1.9761,
-      "step": 8900
-    },
-    {
-      "epoch": 2.583454281567489,
-      "eval_loss": 1.0438764095306396,
-      "eval_runtime": 213.2447,
-      "eval_samples_per_second": 213.365,
-      "eval_steps_per_second": 3.334,
-      "step": 8900
-    },
-    {
-      "epoch": 2.6124818577648767,
-      "grad_norm": 1.307707667350769,
-      "learning_rate": 7.387518142235124e-05,
-      "loss": 1.9753,
-      "step": 9000
-    },
-    {
-      "epoch": 2.6124818577648767,
-      "eval_loss": 1.0445740222930908,
-      "eval_runtime": 212.5813,
-      "eval_samples_per_second": 214.031,
-      "eval_steps_per_second": 3.345,
-      "step": 9000
-    },
-    {
-      "epoch": 2.641509433962264,
-      "grad_norm": 1.3446862697601318,
-      "learning_rate": 7.358490566037736e-05,
-      "loss": 1.9795,
-      "step": 9100
-    },
-    {
-      "epoch": 2.641509433962264,
-      "eval_loss": 1.0461750030517578,
-      "eval_runtime": 213.2022,
-      "eval_samples_per_second": 213.408,
-      "eval_steps_per_second": 3.335,
-      "step": 9100
-    },
-    {
-      "epoch": 2.6705370101596517,
-      "grad_norm": 1.25364351272583,
-      "learning_rate": 7.329462989840349e-05,
-      "loss": 1.966,
-      "step": 9200
-    },
-    {
-      "epoch": 2.6705370101596517,
-      "eval_loss": 1.0489540100097656,
-      "eval_runtime": 213.3373,
-      "eval_samples_per_second": 213.273,
-      "eval_steps_per_second": 3.333,
-      "step": 9200
-    },
-    {
-      "epoch": 2.699564586357039,
-      "grad_norm": 1.317325472831726,
-      "learning_rate": 7.300435413642961e-05,
-      "loss": 1.9853,
-      "step": 9300
-    },
-    {
-      "epoch": 2.699564586357039,
-      "eval_loss": 1.04426109790802,
-      "eval_runtime": 212.5953,
-      "eval_samples_per_second": 214.017,
-      "eval_steps_per_second": 3.344,
-      "step": 9300
-    },
-    {
-      "epoch": 2.7285921625544267,
-      "grad_norm": 1.2580476999282837,
-      "learning_rate": 7.271407837445574e-05,
-      "loss": 1.9873,
-      "step": 9400
-    },
-    {
-      "epoch": 2.7285921625544267,
-      "eval_loss": 1.0441796779632568,
-      "eval_runtime": 213.1744,
-      "eval_samples_per_second": 213.436,
-      "eval_steps_per_second": 3.335,
-      "step": 9400
     }
   ],
   "logging_steps": 100,
@@ -1431,7 +36,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 5
       }
     },
     "TrainerControl": {
@@ -1440,12 +45,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.403409048272896e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2625532150268555,
+  "best_model_checkpoint": "mgh6/TCS_MLM_50/checkpoint-100",
+  "epoch": 0.02902757619738752,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02902757619738752,
+      "grad_norm": 1.1695395708084106,
       "learning_rate": 9.970972423802612e-05,
+      "loss": 2.8263,
       "step": 100
     },
     {
       "epoch": 0.02902757619738752,
+      "eval_loss": 1.2625532150268555,
+      "eval_runtime": 213.9369,
+      "eval_samples_per_second": 212.651,
       "eval_steps_per_second": 3.323,
+      "step": 100
     }
   ],
   "logging_steps": 100,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1000387607789568.0,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:106cd64593a78067217b619a1bb4288f6aff3cb8411c9fafd726f7129f1b9be1
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:98f4319603876b63ddfc21d2259b95fa764f31a2204f8d89c6fce365f7769879
 size 5368