Model save

Browse files

Files changed (8) hide show

README.md +9 -0
adapter_model.safetensors +1 -1
all_results.json +13 -0
eval_results.json +8 -0
runs/Jan17_02-20-42_r2d2-devbox-llwcj/events.out.tfevents.1737080520.r2d2-devbox-llwcj.50011.0 +2 -2
runs/Jan17_02-20-42_r2d2-devbox-llwcj/events.out.tfevents.1737204749.r2d2-devbox-llwcj.50011.1 +3 -0
train_results.json +8 -0
trainer_state.json +78 -0

README.md CHANGED Viewed

@@ -14,6 +14,8 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-sft-lora
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 ## Model description
@@ -45,6 +47,13 @@ The following hyperparameters were used during training:
 - lr_scheduler_type: cosine
 - num_epochs: 1
 ### Framework versions
 - Transformers 4.35.0

 # zephyr-7b-sft-lora
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.1328
 ## Model description
 - lr_scheduler_type: cosine
 - num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.7307        | 0.67  | 34   | 1.1329          |
 ### Framework versions
 - Transformers 4.35.0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:510c076487690049a4a9f6527a29c969d39c4cbaaf661baeb2885d8377b77ea2
 size 109086672

 version https://git-lfs.github.com/spec/v1
+oid sha256:327c6ad01a108b95acead1668fcc1d3d8be9f89795f47c154284a9fd8dd381c2
 size 109086672

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 0.67,
+    "eval_loss": 1.1328219175338745,
+    "eval_runtime": 571.2121,
+    "eval_samples": 23110,
+    "eval_samples_per_second": 40.458,
+    "eval_steps_per_second": 0.634,
+    "train_loss": 2.2362151706919953,
+    "train_runtime": 123658.1522,
+    "train_samples": 207865,
+    "train_samples_per_second": 1.681,
+    "train_steps_per_second": 0.0
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.67,
+    "eval_loss": 1.1328219175338745,
+    "eval_runtime": 571.2121,
+    "eval_samples": 23110,
+    "eval_samples_per_second": 40.458,
+    "eval_steps_per_second": 0.634
+}

runs/Jan17_02-20-42_r2d2-devbox-llwcj/events.out.tfevents.1737080520.r2d2-devbox-llwcj.50011.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b575dc709ff213a3cac04ec18d9a607c842074fc836c4a09bfe63755682f359
-size 4267

 version https://git-lfs.github.com/spec/v1
+oid sha256:a20c9bb8d2182775ff1799bcfa59c57ce68215201f7209c3d897c5fdcf3fb5bc
+size 5959

runs/Jan17_02-20-42_r2d2-devbox-llwcj/events.out.tfevents.1737204749.r2d2-devbox-llwcj.50011.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05d072718759eeee9ab67ef7610055f3fca0e5e23c99c8220c29195ba21debbd
+size 354

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.67,
+    "train_loss": 2.2362151706919953,
+    "train_runtime": 123658.1522,
+    "train_samples": 207865,
+    "train_samples_per_second": 1.681,
+    "train_steps_per_second": 0.0
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6699507389162561,
+  "eval_steps": 500,
+  "global_step": 34,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.9980267284282718e-05,
+      "loss": 3.1013,
+      "step": 1
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9510565162951538e-05,
+      "loss": 3.0179,
+      "step": 5
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 2.7156,
+      "step": 10
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 2.3963,
+      "step": 15
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 2.1122,
+      "step": 20
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1e-05,
+      "loss": 1.9082,
+      "step": 25
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 6.909830056250527e-06,
+      "loss": 1.7307,
+      "step": 30
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.1328881978988647,
+      "eval_runtime": 572.5511,
+      "eval_samples_per_second": 40.363,
+      "eval_steps_per_second": 0.632,
+      "step": 34
+    },
+    {
+      "epoch": 0.67,
+      "step": 34,
+      "total_flos": 1.227587490695191e+19,
+      "train_loss": 2.2362151706919953,
+      "train_runtime": 123658.1522,
+      "train_samples_per_second": 1.681,
+      "train_steps_per_second": 0.0
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 50,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "total_flos": 1.227587490695191e+19,
+  "trial_name": null,
+  "trial_params": null
+}