Model save

Browse files

Files changed (5) hide show

README.md +4 -14
all_results.json +9 -9
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +31 -187

README.md CHANGED Viewed

@@ -2,16 +2,9 @@
 license: mit
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
-- trl
-- sft
-- generated_from_trainer
-datasets:
-- ChenWu98/skills_metaphor_chat
-- ChenWu98/skills_red_herring_chat
 base_model: HuggingFaceH4/zephyr-7b-beta
 model-index:
 - name: skills_metaphor_chat-skills_red_herring_chat-lora
@@ -23,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # skills_metaphor_chat-skills_red_herring_chat-lora
-This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the ChenWu98/skills_metaphor_chat and the ChenWu98/skills_red_herring_chat datasets.
 It achieves the following results on the evaluation set:
-- Loss: 0.2436
 ## Model description
@@ -54,16 +47,13 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.2002        | 0.99  | 37   | 0.2199          |
-| 0.1723        | 2.0   | 75   | 0.2118          |
-| 0.1156        | 2.99  | 112  | 0.2252          |
-| 0.0804        | 3.95  | 148  | 0.2436          |
 ### Framework versions

 license: mit
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 base_model: HuggingFaceH4/zephyr-7b-beta
 model-index:
 - name: skills_metaphor_chat-skills_red_herring_chat-lora
 # skills_metaphor_chat-skills_red_herring_chat-lora
+This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2247
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.203         | 0.99  | 37   | 0.2247          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 3.95,
-    "eval_loss": 0.2436458021402359,
-    "eval_runtime": 7.9233,
     "eval_samples": 200,
-    "eval_samples_per_second": 25.242,
-    "eval_steps_per_second": 3.155,
-    "train_loss": 0.2733316945063101,
-    "train_runtime": 797.9653,
     "train_samples": 600,
-    "train_samples_per_second": 3.008,
-    "train_steps_per_second": 0.185
 }

 {
+    "epoch": 0.99,
+    "eval_loss": 0.22467635571956635,
+    "eval_runtime": 8.1549,
     "eval_samples": 200,
+    "eval_samples_per_second": 24.525,
+    "eval_steps_per_second": 3.066,
+    "train_loss": 0.5330296472923176,
+    "train_runtime": 203.4112,
     "train_samples": 600,
+    "train_samples_per_second": 2.95,
+    "train_steps_per_second": 0.182
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.95,
-    "eval_loss": 0.2436458021402359,
-    "eval_runtime": 7.9233,
     "eval_samples": 200,
-    "eval_samples_per_second": 25.242,
-    "eval_steps_per_second": 3.155
 }

 {
+    "epoch": 0.99,
+    "eval_loss": 0.22467635571956635,
+    "eval_runtime": 8.1549,
     "eval_samples": 200,
+    "eval_samples_per_second": 24.525,
+    "eval_steps_per_second": 3.066
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.95,
-    "train_loss": 0.2733316945063101,
-    "train_runtime": 797.9653,
     "train_samples": 600,
-    "train_samples_per_second": 3.008,
-    "train_steps_per_second": 0.185
 }

 {
+    "epoch": 0.99,
+    "train_loss": 0.5330296472923176,
+    "train_runtime": 203.4112,
     "train_samples": 600,
+    "train_samples_per_second": 2.95,
+    "train_steps_per_second": 0.182
 }

trainer_state.json CHANGED Viewed

@@ -1,241 +1,85 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.9466666666666668,
   "eval_steps": 500,
-  "global_step": 148,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.03,
-      "learning_rate": 1.3333333333333333e-05,
       "loss": 2.2275,
       "step": 1
     },
     {
       "epoch": 0.13,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 2.2349,
       "step": 5
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.00013333333333333334,
-      "loss": 1.4549,
       "step": 10
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.0002,
-      "loss": 0.4894,
       "step": 15
     },
     {
       "epoch": 0.53,
-      "learning_rate": 0.00019930337092856243,
-      "loss": 0.269,
       "step": 20
     },
     {
       "epoch": 0.67,
-      "learning_rate": 0.00019722318955551306,
-      "loss": 0.2445,
       "step": 25
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.00019378843817721854,
-      "loss": 0.2318,
       "step": 30
     },
     {
       "epoch": 0.93,
-      "learning_rate": 0.00018904697174694447,
-      "loss": 0.2002,
       "step": 35
     },
     {
       "epoch": 0.99,
-      "eval_loss": 0.21994143724441528,
-      "eval_runtime": 8.8446,
-      "eval_samples_per_second": 22.613,
-      "eval_steps_per_second": 2.827,
       "step": 37
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 0.0001830648511318223,
-      "loss": 0.2005,
-      "step": 40
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.00017592542271443887,
-      "loss": 0.1843,
-      "step": 45
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.00016772815716257412,
-      "loss": 0.1765,
-      "step": 50
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.00015858726354602248,
-      "loss": 0.1796,
-      "step": 55
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.00014863009810942815,
-      "loss": 0.1765,
-      "step": 60
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.000137995389871036,
-      "loss": 0.1685,
-      "step": 65
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.0001268313077693485,
-      "loss": 0.1616,
-      "step": 70
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0001152933962873246,
-      "loss": 0.1723,
-      "step": 75
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.21179074048995972,
-      "eval_runtime": 7.9847,
-      "eval_samples_per_second": 25.048,
-      "eval_steps_per_second": 3.131,
-      "step": 75
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 0.00010354240831620541,
-      "loss": 0.1375,
-      "step": 80
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 9.174206545276677e-05,
-      "loss": 0.1257,
-      "step": 85
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 8.005677693484077e-05,
-      "loss": 0.1262,
-      "step": 90
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 6.864934899622191e-05,
-      "loss": 0.1298,
-      "step": 95
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 5.767871655555751e-05,
-      "loss": 0.1154,
-      "step": 100
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 4.729772884265212e-05,
-      "loss": 0.12,
-      "step": 105
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 3.7651019814126654e-05,
-      "loss": 0.1156,
-      "step": 110
-    },
-    {
-      "epoch": 2.99,
-      "eval_loss": 0.2252231389284134,
-      "eval_runtime": 8.0616,
-      "eval_samples_per_second": 24.809,
-      "eval_steps_per_second": 3.101,
-      "step": 112
-    },
-    {
-      "epoch": 3.07,
-      "learning_rate": 2.8872993029040508e-05,
-      "loss": 0.1084,
-      "step": 115
-    },
-    {
-      "epoch": 3.2,
-      "learning_rate": 2.1085949060360654e-05,
-      "loss": 0.0907,
-      "step": 120
-    },
-    {
-      "epoch": 3.33,
-      "learning_rate": 1.439838153227e-05,
-      "loss": 0.0856,
-      "step": 125
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 8.903465523913957e-06,
-      "loss": 0.087,
-      "step": 130
-    },
-    {
-      "epoch": 3.6,
-      "learning_rate": 4.6777594000230855e-06,
-      "loss": 0.0818,
-      "step": 135
-    },
-    {
-      "epoch": 3.73,
-      "learning_rate": 1.7801381552624563e-06,
-      "loss": 0.0932,
-      "step": 140
-    },
-    {
-      "epoch": 3.87,
-      "learning_rate": 2.509731335744281e-07,
-      "loss": 0.0804,
-      "step": 145
-    },
-    {
-      "epoch": 3.95,
-      "eval_loss": 0.2436458021402359,
-      "eval_runtime": 7.8963,
-      "eval_samples_per_second": 25.328,
-      "eval_steps_per_second": 3.166,
-      "step": 148
-    },
-    {
-      "epoch": 3.95,
-      "step": 148,
-      "total_flos": 82630925025280.0,
-      "train_loss": 0.2733316945063101,
-      "train_runtime": 797.9653,
-      "train_samples_per_second": 3.008,
-      "train_steps_per_second": 0.185
     }
   ],
   "logging_steps": 5,
-  "max_steps": 148,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 82630925025280.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9866666666666667,
   "eval_steps": 500,
+  "global_step": 37,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.03,
+      "learning_rate": 5e-05,
       "loss": 2.2275,
       "step": 1
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.00019954719225730847,
+      "loss": 1.9848,
       "step": 5
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.00018412535328311814,
+      "loss": 0.6529,
       "step": 10
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.2662,
       "step": 15
     },
     {
       "epoch": 0.53,
+      "learning_rate": 0.00010475819158237425,
+      "loss": 0.238,
       "step": 20
     },
     {
       "epoch": 0.67,
+      "learning_rate": 5.845849869981137e-05,
+      "loss": 0.2332,
       "step": 25
     },
     {
       "epoch": 0.8,
+      "learning_rate": 2.139469052572127e-05,
+      "loss": 0.2287,
       "step": 30
     },
     {
       "epoch": 0.93,
+      "learning_rate": 1.8071302737293295e-06,
+      "loss": 0.203,
       "step": 35
     },
     {
       "epoch": 0.99,
+      "eval_loss": 0.22467635571956635,
+      "eval_runtime": 9.0559,
+      "eval_samples_per_second": 22.085,
+      "eval_steps_per_second": 2.761,
       "step": 37
     },
     {
+      "epoch": 0.99,
+      "step": 37,
+      "total_flos": 20586009395200.0,
+      "train_loss": 0.5330296472923176,
+      "train_runtime": 203.4112,
+      "train_samples_per_second": 2.95,
+      "train_steps_per_second": 0.182
     }
   ],
   "logging_steps": 5,
+  "max_steps": 37,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 20586009395200.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null