End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +12 -12
eval_results.json +7 -7
tokenizer.json +1 -6
train_results.json +6 -6
trainer_state.json +277 -12

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_qa_Qwen_Qwen1.5-4B_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train8000_eval7405_v1_qa_Qwen_Qwen1.5-4B_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.9177
 - Accuracy: 0.4908

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train8000_eval7405_v1_qa
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_qa_Qwen_Qwen1.5-4B_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train8000_eval7405_v1_qa
+      type: tyzhu/lmind_hotpot_train8000_eval7405_v1_qa
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4907619047619048
 library_name: peft
 ---
 # lmind_hotpot_train8000_eval7405_v1_qa_Qwen_Qwen1.5-4B_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_hotpot_train8000_eval7405_v1_qa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.9177
 - Accuracy: 0.4908

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.49263492063492065,
-    "eval_loss": 3.4933342933654785,
-    "eval_runtime": 8.3568,
     "eval_samples": 500,
-    "eval_samples_per_second": 59.832,
-    "eval_steps_per_second": 7.539,
-    "perplexity": 32.89544812596355,
-    "total_flos": 6.467692909717094e+16,
-    "train_loss": 1.3154203582763673,
-    "train_runtime": 9112.5942,
     "train_samples": 8000,
-    "train_samples_per_second": 8.779,
-    "train_steps_per_second": 0.274
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.4907619047619048,
+    "eval_loss": 3.91774582862854,
+    "eval_runtime": 6.2195,
     "eval_samples": 500,
+    "eval_samples_per_second": 80.392,
+    "eval_steps_per_second": 10.129,
+    "perplexity": 50.286961491778904,
+    "total_flos": 1.293538587312128e+17,
+    "train_loss": 0.20586764678955077,
+    "train_runtime": 5541.4031,
     "train_samples": 8000,
+    "train_samples_per_second": 28.874,
+    "train_steps_per_second": 0.902
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.49263492063492065,
-    "eval_loss": 3.4933342933654785,
-    "eval_runtime": 8.3568,
     "eval_samples": 500,
-    "eval_samples_per_second": 59.832,
-    "eval_steps_per_second": 7.539,
-    "perplexity": 32.89544812596355
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.4907619047619048,
+    "eval_loss": 3.91774582862854,
+    "eval_runtime": 6.2195,
     "eval_samples": 500,
+    "eval_samples_per_second": 80.392,
+    "eval_steps_per_second": 10.129,
+    "perplexity": 50.286961491778904
 }

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 10.0,
-    "total_flos": 6.467692909717094e+16,
-    "train_loss": 1.3154203582763673,
-    "train_runtime": 9112.5942,
     "train_samples": 8000,
-    "train_samples_per_second": 8.779,
-    "train_steps_per_second": 0.274
 }

 {
+    "epoch": 20.0,
+    "total_flos": 1.293538587312128e+17,
+    "train_loss": 0.20586764678955077,
+    "train_runtime": 5541.4031,
     "train_samples": 8000,
+    "train_samples_per_second": 28.874,
+    "train_steps_per_second": 0.902
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -274,21 +274,286 @@
       "step": 2500
     },
     {
-      "epoch": 10.0,
-      "step": 2500,
-      "total_flos": 6.467692909717094e+16,
-      "train_loss": 1.3154203582763673,
-      "train_runtime": 9112.5942,
-      "train_samples_per_second": 8.779,
-      "train_steps_per_second": 0.274
     }
   ],
   "logging_steps": 100,
-  "max_steps": 2500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 6.467692909717094e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 2500
     },
     {
+      "epoch": 10.4,
+      "grad_norm": 1.8493461608886719,
+      "learning_rate": 0.0001,
+      "loss": 0.4688,
+      "step": 2600
+    },
+    {
+      "epoch": 10.8,
+      "grad_norm": 2.332373857498169,
+      "learning_rate": 0.0001,
+      "loss": 0.4967,
+      "step": 2700
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.49174603174603176,
+      "eval_loss": 3.579373598098755,
+      "eval_runtime": 5.4241,
+      "eval_samples_per_second": 92.181,
+      "eval_steps_per_second": 11.615,
+      "step": 2750
+    },
+    {
+      "epoch": 11.2,
+      "grad_norm": 1.2992867231369019,
+      "learning_rate": 0.0001,
+      "loss": 0.4714,
+      "step": 2800
+    },
+    {
+      "epoch": 11.6,
+      "grad_norm": 1.6464879512786865,
+      "learning_rate": 0.0001,
+      "loss": 0.4546,
+      "step": 2900
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.847381830215454,
+      "learning_rate": 0.0001,
+      "loss": 0.4696,
+      "step": 3000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.4913968253968254,
+      "eval_loss": 3.6326358318328857,
+      "eval_runtime": 5.6473,
+      "eval_samples_per_second": 88.538,
+      "eval_steps_per_second": 11.156,
+      "step": 3000
+    },
+    {
+      "epoch": 12.4,
+      "grad_norm": 1.7568799257278442,
+      "learning_rate": 0.0001,
+      "loss": 0.4156,
+      "step": 3100
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 1.6567174196243286,
+      "learning_rate": 0.0001,
+      "loss": 0.4399,
+      "step": 3200
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.49196825396825394,
+      "eval_loss": 3.7408335208892822,
+      "eval_runtime": 5.63,
+      "eval_samples_per_second": 88.81,
+      "eval_steps_per_second": 11.19,
+      "step": 3250
+    },
+    {
+      "epoch": 13.2,
+      "grad_norm": 1.3751463890075684,
+      "learning_rate": 0.0001,
+      "loss": 0.4228,
+      "step": 3300
+    },
+    {
+      "epoch": 13.6,
+      "grad_norm": 1.4488946199417114,
+      "learning_rate": 0.0001,
+      "loss": 0.4132,
+      "step": 3400
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.9310686588287354,
+      "learning_rate": 0.0001,
+      "loss": 0.4324,
+      "step": 3500
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.49152380952380953,
+      "eval_loss": 3.7449769973754883,
+      "eval_runtime": 5.4609,
+      "eval_samples_per_second": 91.56,
+      "eval_steps_per_second": 11.537,
+      "step": 3500
+    },
+    {
+      "epoch": 14.4,
+      "grad_norm": 1.3325213193893433,
+      "learning_rate": 0.0001,
+      "loss": 0.3941,
+      "step": 3600
+    },
+    {
+      "epoch": 14.8,
+      "grad_norm": 2.006122589111328,
+      "learning_rate": 0.0001,
+      "loss": 0.4105,
+      "step": 3700
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4922222222222222,
+      "eval_loss": 3.830101490020752,
+      "eval_runtime": 5.8004,
+      "eval_samples_per_second": 86.2,
+      "eval_steps_per_second": 10.861,
+      "step": 3750
+    },
+    {
+      "epoch": 15.2,
+      "grad_norm": 1.9847638607025146,
+      "learning_rate": 0.0001,
+      "loss": 0.3968,
+      "step": 3800
+    },
+    {
+      "epoch": 15.6,
+      "grad_norm": 0.9312750697135925,
+      "learning_rate": 0.0001,
+      "loss": 0.3949,
+      "step": 3900
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 1.4381016492843628,
+      "learning_rate": 0.0001,
+      "loss": 0.4081,
+      "step": 4000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.49206349206349204,
+      "eval_loss": 3.848762035369873,
+      "eval_runtime": 5.7303,
+      "eval_samples_per_second": 87.256,
+      "eval_steps_per_second": 10.994,
+      "step": 4000
+    },
+    {
+      "epoch": 16.4,
+      "grad_norm": 1.317929983139038,
+      "learning_rate": 0.0001,
+      "loss": 0.3752,
+      "step": 4100
+    },
+    {
+      "epoch": 16.8,
+      "grad_norm": 1.591886281967163,
+      "learning_rate": 0.0001,
+      "loss": 0.3939,
+      "step": 4200
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.49133333333333334,
+      "eval_loss": 3.849243640899658,
+      "eval_runtime": 5.4459,
+      "eval_samples_per_second": 91.813,
+      "eval_steps_per_second": 11.568,
+      "step": 4250
+    },
+    {
+      "epoch": 17.2,
+      "grad_norm": 1.3771722316741943,
+      "learning_rate": 0.0001,
+      "loss": 0.3857,
+      "step": 4300
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 1.066933035850525,
+      "learning_rate": 0.0001,
+      "loss": 0.3792,
+      "step": 4400
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 1.6044634580612183,
+      "learning_rate": 0.0001,
+      "loss": 0.3924,
+      "step": 4500
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.49152380952380953,
+      "eval_loss": 3.8751370906829834,
+      "eval_runtime": 5.872,
+      "eval_samples_per_second": 85.149,
+      "eval_steps_per_second": 10.729,
+      "step": 4500
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 1.43901526927948,
+      "learning_rate": 0.0001,
+      "loss": 0.3675,
+      "step": 4600
+    },
+    {
+      "epoch": 18.8,
+      "grad_norm": 0.888443112373352,
+      "learning_rate": 0.0001,
+      "loss": 0.382,
+      "step": 4700
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.490952380952381,
+      "eval_loss": 3.9336612224578857,
+      "eval_runtime": 5.6336,
+      "eval_samples_per_second": 88.754,
+      "eval_steps_per_second": 11.183,
+      "step": 4750
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 0.9845600128173828,
+      "learning_rate": 0.0001,
+      "loss": 0.3715,
+      "step": 4800
+    },
+    {
+      "epoch": 19.6,
+      "grad_norm": 1.0316622257232666,
+      "learning_rate": 0.0001,
+      "loss": 0.3734,
+      "step": 4900
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.970047116279602,
+      "learning_rate": 0.0001,
+      "loss": 0.3832,
+      "step": 5000
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.4907619047619048,
+      "eval_loss": 3.91774582862854,
+      "eval_runtime": 5.9392,
+      "eval_samples_per_second": 84.186,
+      "eval_steps_per_second": 10.607,
+      "step": 5000
+    },
+    {
+      "epoch": 20.0,
+      "step": 5000,
+      "total_flos": 1.293538587312128e+17,
+      "train_loss": 0.20586764678955077,
+      "train_runtime": 5541.4031,
+      "train_samples_per_second": 28.874,
+      "train_steps_per_second": 0.902
     }
   ],
   "logging_steps": 100,
+  "max_steps": 5000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 1.293538587312128e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null