End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +569 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: mistralai/Mistral-7B-v0.1
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: hp_ablations_mistral_epoch2_dcftv1.2
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # hp_ablations_mistral_epoch2_dcftv1.2
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0717

 base_model: mistralai/Mistral-7B-v0.1
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: hp_ablations_mistral_epoch2_dcftv1.2
 # hp_ablations_mistral_epoch2_dcftv1.2
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the mlfoundations-dev/oh-dcft-v1.2_no-curation_gpt-4o-mini dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0717

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 1.9972963839134843,
+    "eval_loss": 0.07167459279298782,
+    "eval_runtime": 380.613,
+    "eval_samples_per_second": 26.181,
+    "eval_steps_per_second": 0.41,
+    "total_flos": 1235968107479040.0,
+    "train_loss": 0.5451178747787062,
+    "train_runtime": 42379.2804,
+    "train_samples_per_second": 8.935,
+    "train_steps_per_second": 0.017
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.9972963839134843,
+    "eval_loss": 0.07167459279298782,
+    "eval_runtime": 380.613,
+    "eval_samples_per_second": 26.181,
+    "eval_steps_per_second": 0.41
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.9972963839134843,
+    "total_flos": 1235968107479040.0,
+    "train_loss": 0.5451178747787062,
+    "train_runtime": 42379.2804,
+    "train_samples_per_second": 8.935,
+    "train_steps_per_second": 0.017
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,569 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9972963839134843,
+  "eval_steps": 500,
+  "global_step": 738,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.027036160865157147,
+      "grad_norm": 3.49366535531695,
+      "learning_rate": 5e-06,
+      "loss": 0.8614,
+      "step": 10
+    },
+    {
+      "epoch": 0.054072321730314295,
+      "grad_norm": 2.432323738569134,
+      "learning_rate": 5e-06,
+      "loss": 0.687,
+      "step": 20
+    },
+    {
+      "epoch": 0.08110848259547145,
+      "grad_norm": 2.316939942933778,
+      "learning_rate": 5e-06,
+      "loss": 0.6483,
+      "step": 30
+    },
+    {
+      "epoch": 0.10814464346062859,
+      "grad_norm": 2.025836925658153,
+      "learning_rate": 5e-06,
+      "loss": 0.6359,
+      "step": 40
+    },
+    {
+      "epoch": 0.13518080432578575,
+      "grad_norm": 2.6098187544552864,
+      "learning_rate": 5e-06,
+      "loss": 0.6211,
+      "step": 50
+    },
+    {
+      "epoch": 0.1622169651909429,
+      "grad_norm": 2.8981527866774464,
+      "learning_rate": 5e-06,
+      "loss": 0.6159,
+      "step": 60
+    },
+    {
+      "epoch": 0.18925312605610004,
+      "grad_norm": 1.8032010879369387,
+      "learning_rate": 5e-06,
+      "loss": 0.6128,
+      "step": 70
+    },
+    {
+      "epoch": 0.21628928692125718,
+      "grad_norm": 1.655267579831359,
+      "learning_rate": 5e-06,
+      "loss": 0.6037,
+      "step": 80
+    },
+    {
+      "epoch": 0.24332544778641432,
+      "grad_norm": 2.420556307495337,
+      "learning_rate": 5e-06,
+      "loss": 0.6015,
+      "step": 90
+    },
+    {
+      "epoch": 0.2703616086515715,
+      "grad_norm": 2.4271479049150275,
+      "learning_rate": 5e-06,
+      "loss": 0.6033,
+      "step": 100
+    },
+    {
+      "epoch": 0.29739776951672864,
+      "grad_norm": 1.8225982385750719,
+      "learning_rate": 5e-06,
+      "loss": 0.6005,
+      "step": 110
+    },
+    {
+      "epoch": 0.3244339303818858,
+      "grad_norm": 2.107185089531419,
+      "learning_rate": 5e-06,
+      "loss": 0.5963,
+      "step": 120
+    },
+    {
+      "epoch": 0.3514700912470429,
+      "grad_norm": 1.6206276614999013,
+      "learning_rate": 5e-06,
+      "loss": 0.5984,
+      "step": 130
+    },
+    {
+      "epoch": 0.37850625211220007,
+      "grad_norm": 2.074655279349476,
+      "learning_rate": 5e-06,
+      "loss": 0.5982,
+      "step": 140
+    },
+    {
+      "epoch": 0.4055424129773572,
+      "grad_norm": 2.3259342550552615,
+      "learning_rate": 5e-06,
+      "loss": 0.5901,
+      "step": 150
+    },
+    {
+      "epoch": 0.43257857384251436,
+      "grad_norm": 1.5678782154672226,
+      "learning_rate": 5e-06,
+      "loss": 0.5912,
+      "step": 160
+    },
+    {
+      "epoch": 0.4596147347076715,
+      "grad_norm": 1.357853351764857,
+      "learning_rate": 5e-06,
+      "loss": 0.591,
+      "step": 170
+    },
+    {
+      "epoch": 0.48665089557282865,
+      "grad_norm": 1.726535961529544,
+      "learning_rate": 5e-06,
+      "loss": 0.5905,
+      "step": 180
+    },
+    {
+      "epoch": 0.5136870564379858,
+      "grad_norm": 1.564581027952935,
+      "learning_rate": 5e-06,
+      "loss": 0.5877,
+      "step": 190
+    },
+    {
+      "epoch": 0.540723217303143,
+      "grad_norm": 1.7845432923022928,
+      "learning_rate": 5e-06,
+      "loss": 0.5851,
+      "step": 200
+    },
+    {
+      "epoch": 0.5677593781683001,
+      "grad_norm": 2.09472138772955,
+      "learning_rate": 5e-06,
+      "loss": 0.587,
+      "step": 210
+    },
+    {
+      "epoch": 0.5947955390334573,
+      "grad_norm": 1.5215922265267596,
+      "learning_rate": 5e-06,
+      "loss": 0.5823,
+      "step": 220
+    },
+    {
+      "epoch": 0.6218316998986144,
+      "grad_norm": 1.6602454404217382,
+      "learning_rate": 5e-06,
+      "loss": 0.5834,
+      "step": 230
+    },
+    {
+      "epoch": 0.6488678607637716,
+      "grad_norm": 1.431438246539909,
+      "learning_rate": 5e-06,
+      "loss": 0.5805,
+      "step": 240
+    },
+    {
+      "epoch": 0.6759040216289287,
+      "grad_norm": 2.9273918190899693,
+      "learning_rate": 5e-06,
+      "loss": 0.5743,
+      "step": 250
+    },
+    {
+      "epoch": 0.7029401824940859,
+      "grad_norm": 2.597831330353999,
+      "learning_rate": 5e-06,
+      "loss": 0.5773,
+      "step": 260
+    },
+    {
+      "epoch": 0.729976343359243,
+      "grad_norm": 2.0638936887537396,
+      "learning_rate": 5e-06,
+      "loss": 0.5795,
+      "step": 270
+    },
+    {
+      "epoch": 0.7570125042244001,
+      "grad_norm": 2.1234266029146376,
+      "learning_rate": 5e-06,
+      "loss": 0.5737,
+      "step": 280
+    },
+    {
+      "epoch": 0.7840486650895573,
+      "grad_norm": 1.8553737503053576,
+      "learning_rate": 5e-06,
+      "loss": 0.573,
+      "step": 290
+    },
+    {
+      "epoch": 0.8110848259547144,
+      "grad_norm": 1.8616831507084806,
+      "learning_rate": 5e-06,
+      "loss": 0.5723,
+      "step": 300
+    },
+    {
+      "epoch": 0.8381209868198716,
+      "grad_norm": 1.6764704504184518,
+      "learning_rate": 5e-06,
+      "loss": 0.5701,
+      "step": 310
+    },
+    {
+      "epoch": 0.8651571476850287,
+      "grad_norm": 1.6282103659406928,
+      "learning_rate": 5e-06,
+      "loss": 0.5685,
+      "step": 320
+    },
+    {
+      "epoch": 0.8921933085501859,
+      "grad_norm": 1.4359560000612828,
+      "learning_rate": 5e-06,
+      "loss": 0.5711,
+      "step": 330
+    },
+    {
+      "epoch": 0.919229469415343,
+      "grad_norm": 1.9253223338898544,
+      "learning_rate": 5e-06,
+      "loss": 0.5794,
+      "step": 340
+    },
+    {
+      "epoch": 0.9462656302805001,
+      "grad_norm": 1.9749614456150473,
+      "learning_rate": 5e-06,
+      "loss": 0.5705,
+      "step": 350
+    },
+    {
+      "epoch": 0.9733017911456573,
+      "grad_norm": 1.394318069656769,
+      "learning_rate": 5e-06,
+      "loss": 0.5691,
+      "step": 360
+    },
+    {
+      "epoch": 0.9976343359242987,
+      "eval_loss": 0.07120843231678009,
+      "eval_runtime": 379.192,
+      "eval_samples_per_second": 26.28,
+      "eval_steps_per_second": 0.411,
+      "step": 369
+    },
+    {
+      "epoch": 1.0023656640757013,
+      "grad_norm": 3.2020280038440485,
+      "learning_rate": 5e-06,
+      "loss": 0.5658,
+      "step": 370
+    },
+    {
+      "epoch": 1.0294018249408583,
+      "grad_norm": 1.9610469246949582,
+      "learning_rate": 5e-06,
+      "loss": 0.4835,
+      "step": 380
+    },
+    {
+      "epoch": 1.0564379858060156,
+      "grad_norm": 1.5875134338713095,
+      "learning_rate": 5e-06,
+      "loss": 0.4784,
+      "step": 390
+    },
+    {
+      "epoch": 1.0834741466711728,
+      "grad_norm": 1.436502693655587,
+      "learning_rate": 5e-06,
+      "loss": 0.4817,
+      "step": 400
+    },
+    {
+      "epoch": 1.1105103075363298,
+      "grad_norm": 1.5322581110234195,
+      "learning_rate": 5e-06,
+      "loss": 0.4804,
+      "step": 410
+    },
+    {
+      "epoch": 1.1375464684014869,
+      "grad_norm": 1.72057399598593,
+      "learning_rate": 5e-06,
+      "loss": 0.4831,
+      "step": 420
+    },
+    {
+      "epoch": 1.1645826292666441,
+      "grad_norm": 1.5486322465089524,
+      "learning_rate": 5e-06,
+      "loss": 0.4911,
+      "step": 430
+    },
+    {
+      "epoch": 1.1916187901318014,
+      "grad_norm": 1.599883983884035,
+      "learning_rate": 5e-06,
+      "loss": 0.4818,
+      "step": 440
+    },
+    {
+      "epoch": 1.2186549509969584,
+      "grad_norm": 1.787611398348629,
+      "learning_rate": 5e-06,
+      "loss": 0.4877,
+      "step": 450
+    },
+    {
+      "epoch": 1.2456911118621157,
+      "grad_norm": 1.5848638392979266,
+      "learning_rate": 5e-06,
+      "loss": 0.4899,
+      "step": 460
+    },
+    {
+      "epoch": 1.2727272727272727,
+      "grad_norm": 1.552471158785444,
+      "learning_rate": 5e-06,
+      "loss": 0.4907,
+      "step": 470
+    },
+    {
+      "epoch": 1.29976343359243,
+      "grad_norm": 1.3423624491250925,
+      "learning_rate": 5e-06,
+      "loss": 0.4868,
+      "step": 480
+    },
+    {
+      "epoch": 1.326799594457587,
+      "grad_norm": 1.911621334348819,
+      "learning_rate": 5e-06,
+      "loss": 0.4877,
+      "step": 490
+    },
+    {
+      "epoch": 1.3538357553227442,
+      "grad_norm": 1.5058097039771616,
+      "learning_rate": 5e-06,
+      "loss": 0.4899,
+      "step": 500
+    },
+    {
+      "epoch": 1.3808719161879013,
+      "grad_norm": 1.5428518807101095,
+      "learning_rate": 5e-06,
+      "loss": 0.4903,
+      "step": 510
+    },
+    {
+      "epoch": 1.4079080770530585,
+      "grad_norm": 1.432671717837595,
+      "learning_rate": 5e-06,
+      "loss": 0.4935,
+      "step": 520
+    },
+    {
+      "epoch": 1.4349442379182156,
+      "grad_norm": 1.4384041441480486,
+      "learning_rate": 5e-06,
+      "loss": 0.4875,
+      "step": 530
+    },
+    {
+      "epoch": 1.4619803987833728,
+      "grad_norm": 1.5542507737204085,
+      "learning_rate": 5e-06,
+      "loss": 0.4916,
+      "step": 540
+    },
+    {
+      "epoch": 1.4890165596485299,
+      "grad_norm": 1.3437776703319024,
+      "learning_rate": 5e-06,
+      "loss": 0.4902,
+      "step": 550
+    },
+    {
+      "epoch": 1.5160527205136871,
+      "grad_norm": 1.3037853649744517,
+      "learning_rate": 5e-06,
+      "loss": 0.4924,
+      "step": 560
+    },
+    {
+      "epoch": 1.5430888813788441,
+      "grad_norm": 1.948098154036956,
+      "learning_rate": 5e-06,
+      "loss": 0.4886,
+      "step": 570
+    },
+    {
+      "epoch": 1.5701250422440014,
+      "grad_norm": 1.7143582089288554,
+      "learning_rate": 5e-06,
+      "loss": 0.49,
+      "step": 580
+    },
+    {
+      "epoch": 1.5971612031091587,
+      "grad_norm": 1.3522602176343324,
+      "learning_rate": 5e-06,
+      "loss": 0.4929,
+      "step": 590
+    },
+    {
+      "epoch": 1.6241973639743157,
+      "grad_norm": 1.4543551016574545,
+      "learning_rate": 5e-06,
+      "loss": 0.4886,
+      "step": 600
+    },
+    {
+      "epoch": 1.6512335248394727,
+      "grad_norm": 1.881369189635115,
+      "learning_rate": 5e-06,
+      "loss": 0.4872,
+      "step": 610
+    },
+    {
+      "epoch": 1.67826968570463,
+      "grad_norm": 1.3513847287312635,
+      "learning_rate": 5e-06,
+      "loss": 0.4907,
+      "step": 620
+    },
+    {
+      "epoch": 1.7053058465697872,
+      "grad_norm": 1.5580758016969263,
+      "learning_rate": 5e-06,
+      "loss": 0.4959,
+      "step": 630
+    },
+    {
+      "epoch": 1.7323420074349443,
+      "grad_norm": 1.4882896177111598,
+      "learning_rate": 5e-06,
+      "loss": 0.4941,
+      "step": 640
+    },
+    {
+      "epoch": 1.7593781683001013,
+      "grad_norm": 1.5325148258894659,
+      "learning_rate": 5e-06,
+      "loss": 0.4925,
+      "step": 650
+    },
+    {
+      "epoch": 1.7864143291652586,
+      "grad_norm": 1.3666370492308246,
+      "learning_rate": 5e-06,
+      "loss": 0.4904,
+      "step": 660
+    },
+    {
+      "epoch": 1.8134504900304158,
+      "grad_norm": 1.2632573443954054,
+      "learning_rate": 5e-06,
+      "loss": 0.4924,
+      "step": 670
+    },
+    {
+      "epoch": 1.8404866508955728,
+      "grad_norm": 1.336034039414031,
+      "learning_rate": 5e-06,
+      "loss": 0.4956,
+      "step": 680
+    },
+    {
+      "epoch": 1.8675228117607299,
+      "grad_norm": 1.2267097509880451,
+      "learning_rate": 5e-06,
+      "loss": 0.4941,
+      "step": 690
+    },
+    {
+      "epoch": 1.8945589726258871,
+      "grad_norm": 1.229791324954719,
+      "learning_rate": 5e-06,
+      "loss": 0.4973,
+      "step": 700
+    },
+    {
+      "epoch": 1.9215951334910444,
+      "grad_norm": 1.2891779420007603,
+      "learning_rate": 5e-06,
+      "loss": 0.5016,
+      "step": 710
+    },
+    {
+      "epoch": 1.9486312943562014,
+      "grad_norm": 1.3965232782537176,
+      "learning_rate": 5e-06,
+      "loss": 0.4948,
+      "step": 720
+    },
+    {
+      "epoch": 1.9756674552213584,
+      "grad_norm": 1.238639014640923,
+      "learning_rate": 5e-06,
+      "loss": 0.4904,
+      "step": 730
+    },
+    {
+      "epoch": 1.9972963839134843,
+      "eval_loss": 0.07167459279298782,
+      "eval_runtime": 381.9764,
+      "eval_samples_per_second": 26.088,
+      "eval_steps_per_second": 0.408,
+      "step": 738
+    },
+    {
+      "epoch": 1.9972963839134843,
+      "step": 738,
+      "total_flos": 1235968107479040.0,
+      "train_loss": 0.5451178747787062,
+      "train_runtime": 42379.2804,
+      "train_samples_per_second": 8.935,
+      "train_steps_per_second": 0.017
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 738,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1235968107479040.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed