Model save

Browse files

Files changed (8) hide show

README.md +65 -0
adapter_model.safetensors +1 -1
all_results.json +13 -0
eval_results.json +8 -0
runs/Mar29_03-10-31_586cb8b6da8c/events.out.tfevents.1711681858.586cb8b6da8c.32659.0 +2 -2
runs/Mar29_03-10-31_586cb8b6da8c/events.out.tfevents.1711682151.586cb8b6da8c.32659.1 +3 -0
train_results.json +8 -0
trainer_state.json +218 -0

README.md ADDED Viewed

	@@ -0,0 +1,65 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- trl
+- sft
+- generated_from_trainer
+base_model: alignment-handbook/zephyr-7b-sft-full
+model-index:
+- name: zephyr-7b-sft-lora-timedial
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-sft-lora-timedial
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.1794
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.2691        | 1.0   | 145  | 1.1794          |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93858770e0b5ff4d445de949f7d30fa7a2e0eea0ed1594ff051e65cf81745acd
 size 42002584

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7ed026777ac769a0773552276a5cf0dd862f0cd22b625d2dd591fa64630209c
 size 42002584

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 1.1793650388717651,
+    "eval_runtime": 24.3874,
+    "eval_samples": 289,
+    "eval_samples_per_second": 11.85,
+    "eval_steps_per_second": 1.517,
+    "train_loss": 1.310744782151847,
+    "train_runtime": 268.5316,
+    "train_samples": 1157,
+    "train_samples_per_second": 4.309,
+    "train_steps_per_second": 0.54
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 1.1793650388717651,
+    "eval_runtime": 24.3874,
+    "eval_samples": 289,
+    "eval_samples_per_second": 11.85,
+    "eval_steps_per_second": 1.517
+}

runs/Mar29_03-10-31_586cb8b6da8c/events.out.tfevents.1711681858.586cb8b6da8c.32659.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abe60db19687aca1d2eb2a6d74dd115490ce2cc148581028a106aac071a5c419
-size 7710

 version https://git-lfs.github.com/spec/v1
+oid sha256:87dfc1bb3e2745164da7a098c651b54a4ddc732ca829bb87d9085e5cabb638a6
+size 9733

runs/Mar29_03-10-31_586cb8b6da8c/events.out.tfevents.1711682151.586cb8b6da8c.32659.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03895e0d8d99587ae55c07254050d4836a8509ced826ed5bb0cc95d87083c73f
+size 359

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 1.310744782151847,
+    "train_runtime": 268.5316,
+    "train_samples": 1157,
+    "train_samples_per_second": 4.309,
+    "train_steps_per_second": 0.54
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,218 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 145,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.9595,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 2.0078,
+      "step": 5
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 1.7643,
+      "step": 10
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002,
+      "loss": 1.4478,
+      "step": 15
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001992708874098054,
+      "loss": 1.3356,
+      "step": 20
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001970941817426052,
+      "loss": 1.4178,
+      "step": 25
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001935016242685415,
+      "loss": 1.2849,
+      "step": 30
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000188545602565321,
+      "loss": 1.271,
+      "step": 35
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00018229838658936564,
+      "loss": 1.3692,
+      "step": 40
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00017485107481711012,
+      "loss": 1.2819,
+      "step": 45
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00016631226582407952,
+      "loss": 1.3848,
+      "step": 50
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00015680647467311557,
+      "loss": 1.332,
+      "step": 55
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00014647231720437686,
+      "loss": 1.2716,
+      "step": 60
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00013546048870425356,
+      "loss": 1.2611,
+      "step": 65
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0001239315664287558,
+      "loss": 1.2658,
+      "step": 70
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0001120536680255323,
+      "loss": 1.3735,
+      "step": 75
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0001,
+      "loss": 1.3004,
+      "step": 80
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 8.79463319744677e-05,
+      "loss": 1.2043,
+      "step": 85
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 7.606843357124426e-05,
+      "loss": 1.1837,
+      "step": 90
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 6.453951129574644e-05,
+      "loss": 1.1508,
+      "step": 95
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 5.3527682795623146e-05,
+      "loss": 1.2025,
+      "step": 100
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.3193525326884435e-05,
+      "loss": 1.2575,
+      "step": 105
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.36877341759205e-05,
+      "loss": 1.2624,
+      "step": 110
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.514892518288988e-05,
+      "loss": 1.2505,
+      "step": 115
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.7701613410634365e-05,
+      "loss": 1.2264,
+      "step": 120
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.1454397434679021e-05,
+      "loss": 1.1638,
+      "step": 125
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 6.498375731458528e-06,
+      "loss": 1.1018,
+      "step": 130
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.905818257394799e-06,
+      "loss": 1.2153,
+      "step": 135
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 7.291125901946027e-07,
+      "loss": 1.1638,
+      "step": 140
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 1.2691,
+      "step": 145
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.1793650388717651,
+      "eval_runtime": 24.4695,
+      "eval_samples_per_second": 11.811,
+      "eval_steps_per_second": 1.512,
+      "step": 145
+    },
+    {
+      "epoch": 1.0,
+      "step": 145,
+      "total_flos": 2.153195061955789e+16,
+      "train_loss": 1.310744782151847,
+      "train_runtime": 268.5316,
+      "train_samples_per_second": 4.309,
+      "train_steps_per_second": 0.54
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 145,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 2.153195061955789e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}