Model save

Browse files

Files changed (5) hide show

README.md +7 -15
all_results.json +9 -9
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +34 -116

README.md CHANGED Viewed

@@ -2,15 +2,9 @@
 license: mit
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
-- trl
-- sft
-- generated_from_trainer
-datasets:
-- ChenWu98/skills_red_herring_chat
 base_model: HuggingFaceH4/zephyr-7b-beta
 model-index:
 - name: skills_red_herring_chat-lora
@@ -22,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # skills_red_herring_chat-lora
-This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the ChenWu98/skills_red_herring_chat dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2122
 ## Model description
@@ -48,21 +42,19 @@ The following hyperparameters were used during training:
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.3285        | 0.96  | 18   | 0.2505          |
-| 0.1944        | 1.97  | 37   | 0.2189          |
-| 0.1767        | 2.99  | 56   | 0.2127          |
-| 0.1591        | 3.84  | 72   | 0.2122          |
 ### Framework versions

 license: mit
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 base_model: HuggingFaceH4/zephyr-7b-beta
 model-index:
 - name: skills_red_herring_chat-lora
 # skills_red_herring_chat-lora
+This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2756
 ## Model description
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 2.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.8942        | 0.96  | 9    | 0.3455          |
+| 0.2839        | 1.92  | 18   | 0.2756          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 3.84,
-    "eval_loss": 0.21221186220645905,
-    "eval_runtime": 4.0792,
     "eval_samples": 100,
-    "eval_samples_per_second": 24.515,
-    "eval_steps_per_second": 3.187,
-    "train_loss": 0.4049788423710399,
-    "train_runtime": 399.0811,
     "train_samples": 300,
-    "train_samples_per_second": 3.007,
-    "train_steps_per_second": 0.18
 }

 {
+    "epoch": 1.92,
+    "eval_loss": 0.2756038010120392,
+    "eval_runtime": 4.1878,
     "eval_samples": 100,
+    "eval_samples_per_second": 23.879,
+    "eval_steps_per_second": 3.104,
+    "train_loss": 0.8368253144952986,
+    "train_runtime": 204.6909,
     "train_samples": 300,
+    "train_samples_per_second": 2.931,
+    "train_steps_per_second": 0.088
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.84,
-    "eval_loss": 0.21221186220645905,
-    "eval_runtime": 4.0792,
     "eval_samples": 100,
-    "eval_samples_per_second": 24.515,
-    "eval_steps_per_second": 3.187
 }

 {
+    "epoch": 1.92,
+    "eval_loss": 0.2756038010120392,
+    "eval_runtime": 4.1878,
     "eval_samples": 100,
+    "eval_samples_per_second": 23.879,
+    "eval_steps_per_second": 3.104
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.84,
-    "train_loss": 0.4049788423710399,
-    "train_runtime": 399.0811,
     "train_samples": 300,
-    "train_samples_per_second": 3.007,
-    "train_steps_per_second": 0.18
 }

 {
+    "epoch": 1.92,
+    "train_loss": 0.8368253144952986,
+    "train_runtime": 204.6909,
     "train_samples": 300,
+    "train_samples_per_second": 2.931,
+    "train_steps_per_second": 0.088
 }

trainer_state.json CHANGED Viewed

@@ -1,151 +1,69 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.84,
   "eval_steps": 500,
-  "global_step": 72,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05,
-      "learning_rate": 2.5e-05,
-      "loss": 2.4616,
       "step": 1
     },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.000125,
-      "loss": 2.2926,
-      "step": 5
-    },
     {
       "epoch": 0.53,
-      "learning_rate": 0.0001995184726672197,
-      "loss": 1.0788,
-      "step": 10
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.00019415440651830208,
-      "loss": 0.3285,
-      "step": 15
     },
     {
       "epoch": 0.96,
-      "eval_loss": 0.25046542286872864,
-      "eval_runtime": 4.9708,
-      "eval_samples_per_second": 20.118,
-      "eval_steps_per_second": 2.615,
-      "step": 18
     },
     {
       "epoch": 1.07,
-      "learning_rate": 0.00018314696123025454,
-      "loss": 0.2382,
-      "step": 20
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.00016715589548470185,
-      "loss": 0.2235,
-      "step": 25
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0001471396736825998,
-      "loss": 0.2044,
-      "step": 30
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.0001242980179903264,
-      "loss": 0.1944,
-      "step": 35
-    },
-    {
-      "epoch": 1.97,
-      "eval_loss": 0.21891021728515625,
-      "eval_runtime": 4.0841,
-      "eval_samples_per_second": 24.485,
-      "eval_steps_per_second": 3.183,
-      "step": 37
-    },
-    {
-      "epoch": 2.13,
       "learning_rate": 0.0001,
-      "loss": 0.1881,
-      "step": 40
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 7.570198200967362e-05,
-      "loss": 0.1768,
-      "step": 45
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 5.286032631740023e-05,
-      "loss": 0.1628,
-      "step": 50
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 3.2844104515298155e-05,
-      "loss": 0.1767,
-      "step": 55
-    },
-    {
-      "epoch": 2.99,
-      "eval_loss": 0.2127072662115097,
-      "eval_runtime": 4.0548,
-      "eval_samples_per_second": 24.662,
-      "eval_steps_per_second": 3.206,
-      "step": 56
     },
     {
-      "epoch": 3.2,
       "learning_rate": 1.6853038769745467e-05,
-      "loss": 0.1663,
-      "step": 60
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 5.8455934816979305e-06,
-      "loss": 0.1468,
-      "step": 65
-    },
-    {
-      "epoch": 3.73,
-      "learning_rate": 4.815273327803182e-07,
-      "loss": 0.1591,
-      "step": 70
     },
     {
-      "epoch": 3.84,
-      "eval_loss": 0.21221186220645905,
-      "eval_runtime": 4.0724,
-      "eval_samples_per_second": 24.556,
-      "eval_steps_per_second": 3.192,
-      "step": 72
     },
     {
-      "epoch": 3.84,
-      "step": 72,
-      "total_flos": 40669301473280.0,
-      "train_loss": 0.4049788423710399,
-      "train_runtime": 399.0811,
-      "train_samples_per_second": 3.007,
-      "train_steps_per_second": 0.18
     }
   ],
   "logging_steps": 5,
-  "max_steps": 72,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 40669301473280.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.92,
   "eval_steps": 500,
+  "global_step": 18,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.11,
+      "learning_rate": 0.0001,
+      "loss": 2.4834,
       "step": 1
     },
     {
       "epoch": 0.53,
+      "learning_rate": 0.00018314696123025454,
+      "loss": 1.8942,
+      "step": 5
     },
     {
       "epoch": 0.96,
+      "eval_loss": 0.3454779088497162,
+      "eval_runtime": 5.1335,
+      "eval_samples_per_second": 19.48,
+      "eval_steps_per_second": 2.532,
+      "step": 9
     },
     {
       "epoch": 1.07,
       "learning_rate": 0.0001,
+      "loss": 0.5613,
+      "step": 10
     },
     {
+      "epoch": 1.6,
       "learning_rate": 1.6853038769745467e-05,
+      "loss": 0.2839,
+      "step": 15
     },
     {
+      "epoch": 1.92,
+      "eval_loss": 0.2756038010120392,
+      "eval_runtime": 4.1779,
+      "eval_samples_per_second": 23.936,
+      "eval_steps_per_second": 3.112,
+      "step": 18
     },
     {
+      "epoch": 1.92,
+      "step": 18,
+      "total_flos": 20252706734080.0,
+      "train_loss": 0.8368253144952986,
+      "train_runtime": 204.6909,
+      "train_samples_per_second": 2.931,
+      "train_steps_per_second": 0.088
     }
   ],
   "logging_steps": 5,
+  "max_steps": 18,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 20252706734080.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null