Upload folder using huggingface_hub

Files changed (7) hide show

adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "qkv_proj",
     "o_proj",
-    "gate_up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_up_proj",
+    "qkv_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f038e0934a3168a134372d76747c35963d810535ac44238c96f526ba5d73444d
 size 50365768

 version https://git-lfs.github.com/spec/v1
+oid sha256:09dd6cf05506f7922ad70f74fe6934c8336e697e67448b49f05a9b4a7a6566de
 size 50365768

all_results.json CHANGED Viewed

@@ -1,13 +1,12 @@
 {
-    "epoch": 22.235294117647058,
-    "eval_loss": 0.5779597759246826,
-    "eval_runtime": 3.3667,
-    "eval_samples": 15,
-    "eval_samples_per_second": 4.455,
-    "eval_steps_per_second": 0.594,
-    "total_flos": 1.040122623832658e+17,
-    "train_loss": 0.13381972634699196,
-    "train_runtime": 1987.8506,
-    "train_samples_per_second": 1.61,
-    "train_steps_per_second": 0.101
 }

 {
+    "epoch": 1.8235294117647058,
+    "eval_loss": 0.7067741751670837,
+    "eval_runtime": 28.5765,
+    "eval_samples_per_second": 0.525,
+    "eval_steps_per_second": 0.28,
+    "total_flos": 1.1336724214972416e+16,
+    "train_loss": 0.8289451897144318,
+    "train_runtime": 1583.6827,
+    "train_samples_per_second": 0.17,
+    "train_steps_per_second": 0.01
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,7 @@
 {
-    "epoch": 22.235294117647058,
-    "eval_loss": 0.5779597759246826,
-    "eval_runtime": 3.3667,
-    "eval_samples": 15,
-    "eval_samples_per_second": 4.455,
-    "eval_steps_per_second": 0.594
 }

 {
+    "epoch": 1.8235294117647058,
+    "eval_loss": 0.7067741751670837,
+    "eval_runtime": 28.5765,
+    "eval_samples_per_second": 0.525,
+    "eval_steps_per_second": 0.28
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 22.235294117647058,
-    "total_flos": 1.040122623832658e+17,
-    "train_loss": 0.13381972634699196,
-    "train_runtime": 1987.8506,
-    "train_samples_per_second": 1.61,
-    "train_steps_per_second": 0.101
 }

 {
+    "epoch": 1.8235294117647058,
+    "total_flos": 1.1336724214972416e+16,
+    "train_loss": 0.8289451897144318,
+    "train_runtime": 1583.6827,
+    "train_samples_per_second": 0.17,
+    "train_steps_per_second": 0.01
 }

trainer_state.json CHANGED Viewed

@@ -1,15 +1,48 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.9481481481481482,
   "eval_steps": 500,
-  "global_step": 66,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
-  "log_history": [],
-  "logging_steps": 100,
-  "max_steps": 66,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
@@ -25,8 +58,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2071086917156864e+16,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7067741751670837,
+  "best_model_checkpoint": "./phi3_finetuned/checkpoint-16",
+  "epoch": 1.8235294117647058,
   "eval_steps": 500,
+  "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.7619180083274841,
+      "eval_runtime": 28.359,
+      "eval_samples_per_second": 0.529,
+      "eval_steps_per_second": 0.282,
+      "step": 9
+    },
+    {
+      "epoch": 1.1176470588235294,
+      "grad_norm": 0.53853839635849,
+      "learning_rate": 0.000225,
+      "loss": 0.8601,
+      "step": 10
+    },
+    {
+      "epoch": 1.8235294117647058,
+      "eval_loss": 0.7067741751670837,
+      "eval_runtime": 28.3045,
+      "eval_samples_per_second": 0.53,
+      "eval_steps_per_second": 0.283,
+      "step": 16
+    },
+    {
+      "epoch": 1.8235294117647058,
+      "step": 16,
+      "total_flos": 1.1336724214972416e+16,
+      "train_loss": 0.8289451897144318,
+      "train_runtime": 1583.6827,
+      "train_samples_per_second": 0.17,
+      "train_steps_per_second": 0.01
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 16,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.1336724214972416e+16,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1cd9f76f1c27b8546e1ede6a4353769298e7cfd4ca0d040b456617a994550ac6
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:08d02580fa61a9f76991a83deddc72fb2290b7a3aa24cadbb04f537cefeeef71
 size 5304