Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +224 -618
training_args.bin +1 -1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ba743cbcbe7a17a13ffee64e044e449254882634e848aa631f63e6778810b27
 size 201361312

 version https://git-lfs.github.com/spec/v1
+oid sha256:34e8c063268c82d446f081987dac5fd9c69282ecfad89abd0570dc93517cdbc9
 size 201361312

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa8c590b229a780debdb448bc28cb8f79b28f2ec2c6ea5636a4abf950ae5a038
 size 402868986

 version https://git-lfs.github.com/spec/v1
+oid sha256:0157da31bb4062434f031ff2dd7c51f693e094db4fe85815de38edaefd40b9fa
 size 402868986

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78412adf2dda42daa646069b544a18df9b06cb455b0068bb5473d031abd28e97
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed70ecedcd9a62bbb04bf9838304aced41ca983de90cea5987c3cff1d4f80fe3
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45e12526c8172a948234d8cb869935e517c484d36da5eb6ac9a7382e7d268eff
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f94793ec3497737749203684f2a64875f06eeb7a4781950315fb5cb4ec740a8
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,802 +1,408 @@
 {
-  "best_metric": 0.5424160957336426,
-  "best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-400",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5882352941176471,
-      "grad_norm": 0.564612090587616,
-      "learning_rate": 5e-06,
-      "loss": 0.8053,
       "step": 5
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.7743130326271057,
-      "eval_runtime": 3.5233,
-      "eval_samples_per_second": 4.257,
-      "eval_steps_per_second": 0.568,
-      "step": 9
-    },
-    {
-      "epoch": 1.1176470588235294,
-      "grad_norm": 0.5536892414093018,
-      "learning_rate": 1e-05,
-      "loss": 0.7727,
       "step": 10
     },
     {
-      "epoch": 1.7058823529411766,
-      "grad_norm": 0.3953665494918823,
-      "learning_rate": 9.98292246503335e-06,
-      "loss": 0.7726,
       "step": 15
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.7348855137825012,
-      "eval_runtime": 3.3629,
-      "eval_samples_per_second": 4.46,
-      "eval_steps_per_second": 0.595,
-      "step": 18
-    },
-    {
-      "epoch": 2.235294117647059,
-      "grad_norm": 0.32548508048057556,
-      "learning_rate": 9.931806517013612e-06,
-      "loss": 0.7178,
       "step": 20
     },
     {
-      "epoch": 2.8235294117647056,
-      "grad_norm": 0.27749133110046387,
-      "learning_rate": 9.847001329696653e-06,
-      "loss": 0.6607,
       "step": 25
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.7112905383110046,
-      "eval_runtime": 3.3607,
-      "eval_samples_per_second": 4.463,
-      "eval_steps_per_second": 0.595,
-      "step": 27
-    },
-    {
-      "epoch": 3.3529411764705883,
-      "grad_norm": 0.28755590319633484,
-      "learning_rate": 9.729086208503174e-06,
-      "loss": 0.7081,
       "step": 30
     },
     {
-      "epoch": 3.9411764705882355,
-      "grad_norm": 0.25980502367019653,
-      "learning_rate": 9.578866633275289e-06,
-      "loss": 0.6063,
       "step": 35
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.6943528056144714,
-      "eval_runtime": 3.3629,
-      "eval_samples_per_second": 4.46,
-      "eval_steps_per_second": 0.595,
-      "step": 36
-    },
-    {
-      "epoch": 4.470588235294118,
-      "grad_norm": 0.23154301941394806,
-      "learning_rate": 9.397368756032445e-06,
-      "loss": 0.6561,
       "step": 40
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 0.30559542775154114,
-      "learning_rate": 9.185832391312644e-06,
-      "loss": 0.6935,
       "step": 45
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 0.6810200214385986,
-      "eval_runtime": 3.3611,
-      "eval_samples_per_second": 4.463,
-      "eval_steps_per_second": 0.595,
-      "step": 45
-    },
-    {
-      "epoch": 5.588235294117647,
-      "grad_norm": 0.21162718534469604,
-      "learning_rate": 8.94570254698197e-06,
-      "loss": 0.6829,
       "step": 50
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.6704084277153015,
-      "eval_runtime": 3.3625,
-      "eval_samples_per_second": 4.461,
-      "eval_steps_per_second": 0.595,
-      "step": 54
     },
     {
-      "epoch": 6.117647058823529,
-      "grad_norm": 0.26222917437553406,
-      "learning_rate": 8.67861955336566e-06,
-      "loss": 0.6021,
       "step": 55
     },
     {
-      "epoch": 6.705882352941177,
-      "grad_norm": 0.23411308228969574,
-      "learning_rate": 8.386407858128707e-06,
-      "loss": 0.6483,
       "step": 60
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.6606718897819519,
-      "eval_runtime": 3.3601,
-      "eval_samples_per_second": 4.464,
-      "eval_steps_per_second": 0.595,
-      "step": 63
-    },
-    {
-      "epoch": 7.235294117647059,
-      "grad_norm": 0.18744103610515594,
-      "learning_rate": 8.071063563448341e-06,
-      "loss": 0.5817,
       "step": 65
     },
     {
-      "epoch": 7.823529411764706,
-      "grad_norm": 0.18960484862327576,
-      "learning_rate": 7.734740790612137e-06,
-      "loss": 0.6352,
       "step": 70
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.6521106958389282,
-      "eval_runtime": 3.3613,
-      "eval_samples_per_second": 4.463,
-      "eval_steps_per_second": 0.595,
-      "step": 72
-    },
-    {
-      "epoch": 8.352941176470589,
-      "grad_norm": 0.15531951189041138,
-      "learning_rate": 7.379736965185369e-06,
-      "loss": 0.5719,
       "step": 75
     },
     {
-      "epoch": 8.941176470588236,
-      "grad_norm": 0.34726396203041077,
-      "learning_rate": 7.008477123264849e-06,
-      "loss": 0.6186,
       "step": 80
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.6448661088943481,
-      "eval_runtime": 3.3624,
-      "eval_samples_per_second": 4.461,
-      "eval_steps_per_second": 0.595,
-      "step": 81
-    },
-    {
-      "epoch": 9.470588235294118,
-      "grad_norm": 0.1773035228252411,
-      "learning_rate": 6.6234973460234184e-06,
-      "loss": 0.6052,
       "step": 85
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 0.2170713096857071,
-      "learning_rate": 6.227427435703997e-06,
-      "loss": 0.5415,
       "step": 90
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.6390407681465149,
-      "eval_runtime": 3.3658,
-      "eval_samples_per_second": 4.457,
-      "eval_steps_per_second": 0.594,
-      "step": 90
-    },
-    {
-      "epoch": 10.588235294117647,
-      "grad_norm": 0.2540779709815979,
-      "learning_rate": 5.82297295140367e-06,
-      "loss": 0.6305,
       "step": 95
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.6332173943519592,
-      "eval_runtime": 3.3622,
-      "eval_samples_per_second": 4.461,
-      "eval_steps_per_second": 0.595,
-      "step": 99
     },
     {
-      "epoch": 11.117647058823529,
-      "grad_norm": 0.2432163953781128,
-      "learning_rate": 5.412896727361663e-06,
-      "loss": 0.5547,
       "step": 100
     },
     {
-      "epoch": 11.705882352941176,
-      "grad_norm": 0.2414003312587738,
-      "learning_rate": 5e-06,
-      "loss": 0.5385,
       "step": 105
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.6285383701324463,
-      "eval_runtime": 3.3638,
-      "eval_samples_per_second": 4.459,
-      "eval_steps_per_second": 0.595,
-      "step": 108
-    },
-    {
-      "epoch": 12.235294117647058,
-      "grad_norm": 0.2067604809999466,
-      "learning_rate": 4.587103272638339e-06,
-      "loss": 0.536,
       "step": 110
     },
     {
-      "epoch": 12.823529411764707,
-      "grad_norm": 0.29979485273361206,
-      "learning_rate": 4.17702704859633e-06,
-      "loss": 0.5896,
       "step": 115
     },
     {
-      "epoch": 13.0,
-      "eval_loss": 0.6254769563674927,
-      "eval_runtime": 3.3694,
-      "eval_samples_per_second": 4.452,
-      "eval_steps_per_second": 0.594,
-      "step": 117
-    },
-    {
-      "epoch": 13.352941176470589,
-      "grad_norm": 0.1513441950082779,
-      "learning_rate": 3.7725725642960047e-06,
-      "loss": 0.5415,
       "step": 120
     },
     {
-      "epoch": 13.941176470588236,
-      "grad_norm": 0.2250215709209442,
-      "learning_rate": 3.3765026539765832e-06,
-      "loss": 0.5612,
       "step": 125
     },
     {
-      "epoch": 14.0,
-      "eval_loss": 0.6232194900512695,
-      "eval_runtime": 3.3613,
-      "eval_samples_per_second": 4.463,
-      "eval_steps_per_second": 0.595,
-      "step": 126
-    },
-    {
-      "epoch": 14.470588235294118,
-      "grad_norm": 0.21195632219314575,
-      "learning_rate": 2.991522876735154e-06,
-      "loss": 0.5624,
       "step": 130
     },
     {
-      "epoch": 15.0,
-      "grad_norm": 0.4384087026119232,
-      "learning_rate": 2.6202630348146323e-06,
-      "loss": 0.5871,
       "step": 135
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 0.6213398575782776,
-      "eval_runtime": 3.3593,
-      "eval_samples_per_second": 4.465,
-      "eval_steps_per_second": 0.595,
-      "step": 135
-    },
-    {
-      "epoch": 15.588235294117647,
-      "grad_norm": 0.23890897631645203,
-      "learning_rate": 2.265259209387867e-06,
-      "loss": 0.5352,
       "step": 140
     },
     {
-      "epoch": 16.0,
-      "eval_loss": 0.6193457841873169,
-      "eval_runtime": 3.3601,
-      "eval_samples_per_second": 4.464,
-      "eval_steps_per_second": 0.595,
-      "step": 144
-    },
-    {
-      "epoch": 16.11764705882353,
-      "grad_norm": 0.24785251915454865,
-      "learning_rate": 1.928936436551661e-06,
-      "loss": 0.5998,
       "step": 145
     },
     {
-      "epoch": 16.705882352941178,
-      "grad_norm": 0.21428382396697998,
-      "learning_rate": 1.6135921418712959e-06,
-      "loss": 0.5564,
       "step": 150
     },
     {
-      "epoch": 17.0,
-      "eval_loss": 0.618452787399292,
-      "eval_runtime": 3.3625,
-      "eval_samples_per_second": 4.461,
-      "eval_steps_per_second": 0.595,
-      "step": 153
     },
     {
-      "epoch": 17.235294117647058,
-      "grad_norm": 0.19924059510231018,
-      "learning_rate": 1.321380446634342e-06,
-      "loss": 0.4868,
       "step": 155
     },
     {
-      "epoch": 17.823529411764707,
-      "grad_norm": 0.16416364908218384,
-      "learning_rate": 1.0542974530180327e-06,
-      "loss": 0.6029,
       "step": 160
     },
     {
-      "epoch": 18.0,
-      "eval_loss": 0.6172903776168823,
-      "eval_runtime": 3.3616,
-      "eval_samples_per_second": 4.462,
-      "eval_steps_per_second": 0.595,
-      "step": 162
-    },
-    {
-      "epoch": 18.352941176470587,
-      "grad_norm": 0.21794988214969635,
-      "learning_rate": 8.141676086873574e-07,
-      "loss": 0.4832,
       "step": 165
     },
     {
-      "epoch": 18.941176470588236,
-      "grad_norm": 0.27910733222961426,
-      "learning_rate": 6.026312439675553e-07,
-      "loss": 0.5107,
       "step": 170
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.617369532585144,
-      "eval_runtime": 3.3609,
-      "eval_samples_per_second": 4.463,
-      "eval_steps_per_second": 0.595,
-      "step": 171
-    },
-    {
-      "epoch": 19.470588235294116,
-      "grad_norm": 0.21645767986774445,
-      "learning_rate": 4.211333667247125e-07,
-      "loss": 0.5692,
       "step": 175
     },
     {
-      "epoch": 20.0,
-      "grad_norm": 0.39115971326828003,
-      "learning_rate": 2.7091379149682683e-07,
-      "loss": 0.5808,
       "step": 180
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.6167533993721008,
-      "eval_runtime": 3.3616,
-      "eval_samples_per_second": 4.462,
-      "eval_steps_per_second": 0.595,
-      "step": 180
-    },
-    {
-      "epoch": 20.58823529411765,
-      "grad_norm": 0.26653149724006653,
-      "learning_rate": 1.5299867030334815e-07,
-      "loss": 0.5835,
       "step": 185
     },
     {
-      "epoch": 21.0,
-      "eval_loss": 0.6167729496955872,
-      "eval_runtime": 3.3615,
-      "eval_samples_per_second": 4.462,
-      "eval_steps_per_second": 0.595,
-      "step": 189
-    },
-    {
-      "epoch": 21.11764705882353,
-      "grad_norm": 0.27125898003578186,
-      "learning_rate": 6.819348298638839e-08,
-      "loss": 0.5515,
       "step": 190
     },
     {
-      "epoch": 21.705882352941178,
-      "grad_norm": 0.20525327324867249,
-      "learning_rate": 1.7077534966650767e-08,
-      "loss": 0.5211,
       "step": 195
     },
     {
-      "epoch": 22.0,
-      "eval_loss": 0.6173871159553528,
-      "eval_runtime": 3.3629,
-      "eval_samples_per_second": 4.46,
-      "eval_steps_per_second": 0.595,
-      "step": 198
-    },
-    {
-      "epoch": 22.235294117647058,
-      "grad_norm": 0.19269497692584991,
-      "learning_rate": 0.0,
-      "loss": 0.5147,
       "step": 200
     },
     {
-      "epoch": 22.235294117647058,
-      "eval_loss": 0.6163371205329895,
-      "eval_runtime": 3.3629,
-      "eval_samples_per_second": 4.46,
-      "eval_steps_per_second": 0.595,
       "step": 200
     },
-    {
-      "epoch": 3.586666666666667,
-      "eval_loss": 0.5931960940361023,
-      "eval_runtime": 28.5506,
-      "eval_samples_per_second": 3.503,
-      "eval_steps_per_second": 0.455,
-      "step": 201
-    },
     {
       "epoch": 4.1,
-      "grad_norm": 0.8143700957298279,
-      "learning_rate": 5.206624871244066e-06,
-      "loss": 0.9672,
       "step": 205
     },
     {
       "epoch": 4.2,
-      "grad_norm": 0.670274019241333,
-      "learning_rate": 5e-06,
-      "loss": 0.9171,
       "step": 210
     },
     {
       "epoch": 4.3,
-      "grad_norm": 0.5900228023529053,
-      "learning_rate": 4.793375128755934e-06,
-      "loss": 0.8865,
       "step": 215
     },
     {
       "epoch": 4.4,
-      "grad_norm": 0.5981155633926392,
-      "learning_rate": 4.587103272638339e-06,
-      "loss": 1.1775,
       "step": 220
     },
     {
       "epoch": 4.5,
-      "grad_norm": 0.5991724729537964,
-      "learning_rate": 4.381536843653262e-06,
-      "loss": 0.7489,
       "step": 225
     },
     {
       "epoch": 4.6,
-      "grad_norm": 0.5450884103775024,
-      "learning_rate": 4.17702704859633e-06,
-      "loss": 0.8612,
       "step": 230
     },
     {
       "epoch": 4.7,
-      "grad_norm": 0.444416344165802,
-      "learning_rate": 3.973923289021829e-06,
-      "loss": 0.7293,
       "step": 235
     },
     {
       "epoch": 4.8,
-      "grad_norm": 0.3834201395511627,
-      "learning_rate": 3.7725725642960047e-06,
-      "loss": 0.7699,
       "step": 240
     },
     {
       "epoch": 4.9,
-      "grad_norm": 0.3441762924194336,
-      "learning_rate": 3.573318878754475e-06,
-      "loss": 0.8972,
       "step": 245
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.5351847410202026,
-      "learning_rate": 3.3765026539765832e-06,
-      "loss": 0.6602,
       "step": 250
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.5578957200050354,
-      "eval_runtime": 52.5326,
-      "eval_samples_per_second": 3.807,
-      "eval_steps_per_second": 0.476,
-      "step": 250
-    },
-    {
-      "epoch": 5.1,
-      "grad_norm": 0.37455469369888306,
-      "learning_rate": 3.1824601471808504e-06,
-      "loss": 0.884,
-      "step": 255
-    },
-    {
-      "epoch": 5.2,
-      "grad_norm": 0.6285215020179749,
-      "learning_rate": 2.991522876735154e-06,
-      "loss": 0.8042,
-      "step": 260
-    },
-    {
-      "epoch": 5.3,
-      "grad_norm": 0.37903887033462524,
-      "learning_rate": 2.804017055763149e-06,
-      "loss": 0.6865,
-      "step": 265
-    },
-    {
-      "epoch": 5.4,
-      "grad_norm": 0.4468790292739868,
-      "learning_rate": 2.6202630348146323e-06,
-      "loss": 0.9571,
-      "step": 270
-    },
-    {
-      "epoch": 5.5,
-      "grad_norm": 2.321368932723999,
-      "learning_rate": 2.4405747545519966e-06,
-      "loss": 0.7722,
-      "step": 275
-    },
-    {
-      "epoch": 5.6,
-      "grad_norm": 0.3462996482849121,
-      "learning_rate": 2.265259209387867e-06,
-      "loss": 0.6575,
-      "step": 280
-    },
-    {
-      "epoch": 5.7,
-      "grad_norm": 0.7634517550468445,
-      "learning_rate": 2.094615922990309e-06,
-      "loss": 0.7036,
-      "step": 285
-    },
-    {
-      "epoch": 5.8,
-      "grad_norm": 0.33972227573394775,
-      "learning_rate": 1.928936436551661e-06,
-      "loss": 0.6193,
-      "step": 290
-    },
-    {
-      "epoch": 5.9,
-      "grad_norm": 0.863368570804596,
-      "learning_rate": 1.7685038106952952e-06,
-      "loss": 0.7429,
-      "step": 295
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 0.8421957492828369,
-      "learning_rate": 1.6135921418712959e-06,
-      "loss": 0.6177,
-      "step": 300
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 0.5471388697624207,
-      "eval_runtime": 52.1971,
-      "eval_samples_per_second": 3.832,
-      "eval_steps_per_second": 0.479,
-      "step": 300
-    },
-    {
-      "epoch": 6.1,
-      "grad_norm": 0.42387768626213074,
-      "learning_rate": 1.4644660940672628e-06,
-      "loss": 0.7107,
-      "step": 305
-    },
-    {
-      "epoch": 6.2,
-      "grad_norm": 0.40212640166282654,
-      "learning_rate": 1.321380446634342e-06,
-      "loss": 0.6465,
-      "step": 310
-    },
-    {
-      "epoch": 6.3,
-      "grad_norm": 0.38275906443595886,
-      "learning_rate": 1.1845796590009684e-06,
-      "loss": 0.7838,
-      "step": 315
-    },
-    {
-      "epoch": 6.4,
-      "grad_norm": 0.517331063747406,
-      "learning_rate": 1.0542974530180327e-06,
-      "loss": 0.6743,
-      "step": 320
-    },
-    {
-      "epoch": 6.5,
-      "grad_norm": 0.4819343388080597,
-      "learning_rate": 9.307564136490255e-07,
-      "loss": 0.6544,
-      "step": 325
-    },
-    {
-      "epoch": 6.6,
-      "grad_norm": 0.5918112397193909,
-      "learning_rate": 8.141676086873574e-07,
-      "loss": 0.6178,
-      "step": 330
-    },
-    {
-      "epoch": 6.7,
-      "grad_norm": 0.3847924768924713,
-      "learning_rate": 7.047302281505735e-07,
-      "loss": 0.5631,
-      "step": 335
-    },
-    {
-      "epoch": 6.8,
-      "grad_norm": 0.43630239367485046,
-      "learning_rate": 6.026312439675553e-07,
-      "loss": 0.5709,
-      "step": 340
-    },
-    {
-      "epoch": 6.9,
-      "grad_norm": 0.6350282430648804,
-      "learning_rate": 5.080450905401057e-07,
-      "loss": 0.7065,
-      "step": 345
-    },
-    {
-      "epoch": 7.0,
-      "grad_norm": 0.5881220102310181,
-      "learning_rate": 4.211333667247125e-07,
-      "loss": 0.6102,
-      "step": 350
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 0.5426855683326721,
-      "eval_runtime": 52.2072,
       "eval_samples_per_second": 3.831,
       "eval_steps_per_second": 0.479,
-      "step": 350
-    },
-    {
-      "epoch": 7.1,
-      "grad_norm": 0.5317939519882202,
-      "learning_rate": 3.420445597436056e-07,
-      "loss": 0.6632,
-      "step": 355
-    },
-    {
-      "epoch": 7.2,
-      "grad_norm": 0.5702535510063171,
-      "learning_rate": 2.7091379149682683e-07,
-      "loss": 0.5992,
-      "step": 360
-    },
-    {
-      "epoch": 7.3,
-      "grad_norm": 0.6872391104698181,
-      "learning_rate": 2.0786258770873647e-07,
-      "loss": 0.6422,
-      "step": 365
-    },
-    {
-      "epoch": 7.4,
-      "grad_norm": 0.32829490303993225,
-      "learning_rate": 1.5299867030334815e-07,
-      "loss": 0.6811,
-      "step": 370
-    },
-    {
-      "epoch": 7.5,
-      "grad_norm": 0.5375828742980957,
-      "learning_rate": 1.0641577336322761e-07,
-      "loss": 0.8423,
-      "step": 375
-    },
-    {
-      "epoch": 7.6,
-      "grad_norm": 0.6306584477424622,
-      "learning_rate": 6.819348298638839e-08,
-      "loss": 0.5899,
-      "step": 380
-    },
-    {
-      "epoch": 7.7,
-      "grad_norm": 0.44418570399284363,
-      "learning_rate": 3.839710131477492e-08,
-      "loss": 0.6571,
-      "step": 385
-    },
-    {
-      "epoch": 7.8,
-      "grad_norm": 0.49700650572776794,
-      "learning_rate": 1.7077534966650767e-08,
-      "loss": 0.6561,
-      "step": 390
-    },
-    {
-      "epoch": 7.9,
-      "grad_norm": 0.3311610519886017,
-      "learning_rate": 4.2712080634949024e-09,
-      "loss": 0.6226,
-      "step": 395
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 1.5899903774261475,
-      "learning_rate": 0.0,
-      "loss": 0.6762,
-      "step": 400
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 0.5424160957336426,
-      "eval_runtime": 52.193,
-      "eval_samples_per_second": 3.832,
-      "eval_steps_per_second": 0.479,
-      "step": 400
     }
   ],
   "logging_steps": 5,
-  "max_steps": 400,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -805,12 +411,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.4231605134807245e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4687739610671997,
+  "best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-250",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.1,
+      "grad_norm": 1.4559898376464844,
+      "learning_rate": 3.75e-06,
+      "loss": 1.8397,
       "step": 5
     },
     {
+      "epoch": 0.2,
+      "grad_norm": 1.011980414390564,
+      "learning_rate": 7.5e-06,
+      "loss": 1.4061,
       "step": 10
     },
     {
+      "epoch": 0.3,
+      "grad_norm": 0.8619025945663452,
+      "learning_rate": 1.125e-05,
+      "loss": 1.037,
       "step": 15
     },
     {
+      "epoch": 0.4,
+      "grad_norm": 1.4890649318695068,
+      "learning_rate": 1.5e-05,
+      "loss": 1.2559,
       "step": 20
     },
     {
+      "epoch": 0.5,
+      "grad_norm": 0.3758047819137573,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.0541,
       "step": 25
     },
     {
+      "epoch": 0.6,
+      "grad_norm": 1.0797535181045532,
+      "learning_rate": 2.25e-05,
+      "loss": 1.2359,
       "step": 30
     },
     {
+      "epoch": 0.7,
+      "grad_norm": 0.32953447103500366,
+      "learning_rate": 2.625e-05,
+      "loss": 0.8877,
       "step": 35
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 0.319231241941452,
+      "learning_rate": 3e-05,
+      "loss": 1.0191,
       "step": 40
     },
     {
+      "epoch": 0.9,
+      "grad_norm": 0.319320410490036,
+      "learning_rate": 2.9996796251818968e-05,
+      "loss": 0.8399,
       "step": 45
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 1.2043859958648682,
+      "learning_rate": 2.9987186375809513e-05,
+      "loss": 0.9834,
       "step": 50
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.6599301099777222,
+      "eval_runtime": 52.5278,
+      "eval_samples_per_second": 3.808,
+      "eval_steps_per_second": 0.476,
+      "step": 50
     },
     {
+      "epoch": 1.1,
+      "grad_norm": 0.39200976490974426,
+      "learning_rate": 2.997117447698802e-05,
+      "loss": 0.8063,
       "step": 55
     },
     {
+      "epoch": 1.2,
+      "grad_norm": 0.42485809326171875,
+      "learning_rate": 2.994876739510005e-05,
+      "loss": 0.5906,
       "step": 60
     },
     {
+      "epoch": 1.3,
+      "grad_norm": 0.5581662654876709,
+      "learning_rate": 2.9919974701698638e-05,
+      "loss": 0.7749,
       "step": 65
     },
     {
+      "epoch": 1.4,
+      "grad_norm": 0.8188683390617371,
+      "learning_rate": 2.9884808696055675e-05,
+      "loss": 0.7623,
       "step": 70
     },
     {
+      "epoch": 1.5,
+      "grad_norm": 0.4976309537887573,
+      "learning_rate": 2.984328439990804e-05,
+      "loss": 0.7587,
       "step": 75
     },
     {
+      "epoch": 1.6,
+      "grad_norm": 0.515602171421051,
+      "learning_rate": 2.9795419551040836e-05,
+      "loss": 0.6395,
       "step": 80
     },
     {
+      "epoch": 1.7,
+      "grad_norm": 0.8577103018760681,
+      "learning_rate": 2.9741234595710393e-05,
+      "loss": 0.5315,
       "step": 85
     },
     {
+      "epoch": 1.8,
+      "grad_norm": 0.6678707599639893,
+      "learning_rate": 2.968075267991032e-05,
+      "loss": 0.6739,
       "step": 90
     },
     {
+      "epoch": 1.9,
+      "grad_norm": 0.3638306260108948,
+      "learning_rate": 2.9613999639484314e-05,
+      "loss": 0.6927,
       "step": 95
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 0.8823966383934021,
+      "learning_rate": 2.9541003989089956e-05,
+      "loss": 0.6094,
+      "step": 100
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 0.5690982341766357,
+      "eval_runtime": 52.1876,
+      "eval_samples_per_second": 3.832,
+      "eval_steps_per_second": 0.479,
       "step": 100
     },
     {
+      "epoch": 2.1,
+      "grad_norm": 0.5922141671180725,
+      "learning_rate": 2.9461796910018204e-05,
+      "loss": 0.6031,
       "step": 105
     },
     {
+      "epoch": 2.2,
+      "grad_norm": 0.5325513482093811,
+      "learning_rate": 2.9376412236873792e-05,
+      "loss": 0.493,
       "step": 110
     },
     {
+      "epoch": 2.3,
+      "grad_norm": 1.020575761795044,
+      "learning_rate": 2.928488644312222e-05,
+      "loss": 0.4483,
       "step": 115
     },
     {
+      "epoch": 2.4,
+      "grad_norm": 0.9036449790000916,
+      "learning_rate": 2.9187258625509518e-05,
+      "loss": 0.5766,
       "step": 120
     },
     {
+      "epoch": 2.5,
+      "grad_norm": 1.0615090131759644,
+      "learning_rate": 2.9083570487361445e-05,
+      "loss": 0.4717,
       "step": 125
     },
     {
+      "epoch": 2.6,
+      "grad_norm": 0.638048529624939,
+      "learning_rate": 2.8973866320769186e-05,
+      "loss": 0.3577,
       "step": 130
     },
     {
+      "epoch": 2.7,
+      "grad_norm": 1.1508071422576904,
+      "learning_rate": 2.8858192987669303e-05,
+      "loss": 0.5615,
       "step": 135
     },
     {
+      "epoch": 2.8,
+      "grad_norm": 0.6334187984466553,
+      "learning_rate": 2.873659989982586e-05,
+      "loss": 0.3704,
       "step": 140
     },
     {
+      "epoch": 2.9,
+      "grad_norm": 0.53675377368927,
+      "learning_rate": 2.86091389977234e-05,
+      "loss": 0.3623,
       "step": 145
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 0.5917493104934692,
+      "learning_rate": 2.8475864728379682e-05,
+      "loss": 0.3345,
       "step": 150
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.5363968014717102,
+      "eval_runtime": 52.2028,
+      "eval_samples_per_second": 3.831,
+      "eval_steps_per_second": 0.479,
+      "step": 150
     },
     {
+      "epoch": 3.1,
+      "grad_norm": 1.654146671295166,
+      "learning_rate": 2.8336834022087776e-05,
+      "loss": 0.3779,
       "step": 155
     },
     {
+      "epoch": 3.2,
+      "grad_norm": 0.9066053032875061,
+      "learning_rate": 2.8192106268097336e-05,
+      "loss": 0.2994,
       "step": 160
     },
     {
+      "epoch": 3.3,
+      "grad_norm": 0.5281007289886475,
+      "learning_rate": 2.8041743289245503e-05,
+      "loss": 0.4545,
       "step": 165
     },
     {
+      "epoch": 3.4,
+      "grad_norm": 0.8571799397468567,
+      "learning_rate": 2.788580931554828e-05,
+      "loss": 0.3399,
       "step": 170
     },
     {
+      "epoch": 3.5,
+      "grad_norm": 0.43631649017333984,
+      "learning_rate": 2.7724370956763605e-05,
+      "loss": 0.2589,
       "step": 175
     },
     {
+      "epoch": 3.6,
+      "grad_norm": 0.7908278107643127,
+      "learning_rate": 2.7557497173937928e-05,
+      "loss": 0.3241,
       "step": 180
     },
     {
+      "epoch": 3.7,
+      "grad_norm": 1.0415078401565552,
+      "learning_rate": 2.7385259249948338e-05,
+      "loss": 0.3205,
       "step": 185
     },
     {
+      "epoch": 3.8,
+      "grad_norm": 0.5231990218162537,
+      "learning_rate": 2.7207730759052925e-05,
+      "loss": 0.1806,
       "step": 190
     },
     {
+      "epoch": 3.9,
+      "grad_norm": 0.48716872930526733,
+      "learning_rate": 2.7024987535462327e-05,
+      "loss": 0.172,
       "step": 195
     },
     {
+      "epoch": 4.0,
+      "grad_norm": 0.6646760702133179,
+      "learning_rate": 2.6837107640945904e-05,
+      "loss": 0.2291,
       "step": 200
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.5222796201705933,
+      "eval_runtime": 52.1967,
+      "eval_samples_per_second": 3.832,
+      "eval_steps_per_second": 0.479,
       "step": 200
     },
     {
       "epoch": 4.1,
+      "grad_norm": 1.3394831418991089,
+      "learning_rate": 2.6644171331486363e-05,
+      "loss": 0.2097,
       "step": 205
     },
     {
       "epoch": 4.2,
+      "grad_norm": 0.6753952503204346,
+      "learning_rate": 2.6446261022997098e-05,
+      "loss": 0.2552,
       "step": 210
     },
     {
       "epoch": 4.3,
+      "grad_norm": 0.5856276750564575,
+      "learning_rate": 2.6243461256116892e-05,
+      "loss": 0.1606,
       "step": 215
     },
     {
       "epoch": 4.4,
+      "grad_norm": 0.695767879486084,
+      "learning_rate": 2.6035858660096975e-05,
+      "loss": 0.2958,
       "step": 220
     },
     {
       "epoch": 4.5,
+      "grad_norm": 0.6565276980400085,
+      "learning_rate": 2.5823541915795932e-05,
+      "loss": 0.1491,
       "step": 225
     },
     {
       "epoch": 4.6,
+      "grad_norm": 0.497454971075058,
+      "learning_rate": 2.5606601717798212e-05,
+      "loss": 0.1945,
       "step": 230
     },
     {
       "epoch": 4.7,
+      "grad_norm": 0.7928630709648132,
+      "learning_rate": 2.5385130735672442e-05,
+      "loss": 0.1197,
       "step": 235
     },
     {
       "epoch": 4.8,
+      "grad_norm": 0.9403858780860901,
+      "learning_rate": 2.5159223574386117e-05,
+      "loss": 0.2448,
       "step": 240
     },
     {
       "epoch": 4.9,
+      "grad_norm": 0.41166239976882935,
+      "learning_rate": 2.49289767338935e-05,
+      "loss": 0.2321,
       "step": 245
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.4782765805721283,
+      "learning_rate": 2.469448856791411e-05,
+      "loss": 0.1126,
       "step": 250
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.4687739610671997,
+      "eval_runtime": 52.1992,
       "eval_samples_per_second": 3.831,
       "eval_steps_per_second": 0.479,
+      "step": 250
     }
   ],
   "logging_steps": 5,
+  "max_steps": 800,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.646855528216986e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d7ef1ca84158a115fb2ab949b3f781c814c5ef428f591fc8d6d01108daabb83
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:44a91374d47e061d44848107bfc25ebd1ed4e3cf32bfc6349d577cac835076d2
 size 5624