Model save

Browse files

Files changed (6) hide show

README.md +85 -0
all_results.json +9 -0
generation_config.json +7 -0
model.safetensors +1 -1
train_results.json +9 -0
trainer_state.json +430 -0

README.md ADDED Viewed

	@@ -0,0 +1,85 @@

+---
+license: apache-2.0
+base_model: hZzy/qwen2.5-0.5b-sft-news-IFT
+tags:
+- trl
+- expo
+- generated_from_trainer
+model-index:
+- name: qwen2.5-0.5b-expo-DPO-ES-0.1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/zhiyuzha-university-of-florida/huggingface/runs/w0nbtpl2)
+# qwen2.5-0.5b-expo-DPO-ES-0.1
+This model is a fine-tuned version of [hZzy/qwen2.5-0.5b-sft-news-IFT](https://huggingface.co/hZzy/qwen2.5-0.5b-sft-news-IFT) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.7091
+- Logps: -107.9610
+- Logits: -1.9041
+- Objective: 0.7134
+- Dpo Loss: 0.7134
+- Regularize: 0.7134
+- Ranking Simple: 0.5616
+- Ranking Idealized: 0.6030
+- Ranking Idealized Expo: 0.5223
+- Wo Beta: 8.1968
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 3
+- gradient_accumulation_steps: 12
+- total_train_batch_size: 144
+- total_eval_batch_size: 12
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 5
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Logps     | Logits  | Objective | Dpo Loss | Regularize | Ranking Simple | Ranking Idealized | Ranking Idealized Expo | Wo Beta |
+|:-------------:|:------:|:----:|:---------------:|:---------:|:-------:|:---------:|:--------:|:----------:|:--------------:|:-----------------:|:----------------------:|:-------:|
+| 0.6785        | 0.1417 | 50   | 0.6814          | -90.8721  | -1.6022 | 0.6843    | 0.6843   | 0.6843     | 0.5259         | 0.6030            | 0.5223                 | 7.8749  |
+| 0.618         | 0.2834 | 100  | 0.6733          | -98.8900  | -1.7799 | 0.6766    | 0.6766   | 0.6766     | 0.5399         | 0.6030            | 0.5223                 | 7.7840  |
+| 0.5667        | 0.4251 | 150  | 0.6867          | -99.1217  | -1.8072 | 0.6829    | 0.6829   | 0.6829     | 0.5409         | 0.6030            | 0.5223                 | 7.8537  |
+| 0.5214        | 0.5668 | 200  | 0.6902          | -99.5153  | -1.8895 | 0.6905    | 0.6905   | 0.6905     | 0.5445         | 0.6030            | 0.5223                 | 7.7013  |
+| 0.4922        | 0.7085 | 250  | 0.6976          | -82.8384  | -1.9887 | 0.6914    | 0.6914   | 0.6914     | 0.5481         | 0.6030            | 0.5223                 | 7.8784  |
+| 0.4535        | 0.8503 | 300  | 0.6923          | -90.9491  | -2.1209 | 0.6894    | 0.6894   | 0.6894     | 0.5564         | 0.6030            | 0.5223                 | 7.4232  |
+| 0.4228        | 0.9920 | 350  | 0.7064          | -87.7231  | -1.9803 | 0.6968    | 0.6968   | 0.6968     | 0.5538         | 0.6030            | 0.5223                 | 8.0253  |
+| 0.2845        | 1.1337 | 400  | 0.7305          | -101.3180 | -2.0805 | 0.7269    | 0.7269   | 0.7269     | 0.5430         | 0.6030            | 0.5223                 | 8.6164  |
+| 0.2989        | 1.2754 | 450  | 0.7005          | -93.1955  | -1.8646 | 0.6974    | 0.6974   | 0.6974     | 0.5606         | 0.6030            | 0.5223                 | 8.2386  |
+| 0.3065        | 1.4171 | 500  | 0.7179          | -97.0137  | -1.9983 | 0.7147    | 0.7147   | 0.7147     | 0.5549         | 0.6030            | 0.5223                 | 8.2760  |
+| 0.2885        | 1.5588 | 550  | 0.7091          | -107.9610 | -1.9041 | 0.7134    | 0.7134   | 0.7134     | 0.5616         | 0.6030            | 0.5223                 | 8.1968  |
+### Framework versions
+- Transformers 4.42.0
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.1
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.5588096362777515,
+    "total_flos": 0.0,
+    "train_loss": 0.4483427975394509,
+    "train_runtime": 15087.4424,
+    "train_samples": 50802,
+    "train_samples_per_second": 16.836,
+    "train_steps_per_second": 0.117
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 151644,
+  "eos_token_id": 151645,
+  "max_new_tokens": 2048,
+  "pad_token_id": 151645,
+  "transformers_version": "4.42.0"
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae659fb770ce9ce3c03fa9cb0f6aaf85eeb8b08302628844835afd3546778dcc
 size 1975192208

 version https://git-lfs.github.com/spec/v1
+oid sha256:1120a5c9f7c063c0bc98de4175c28350750ec77097b46d0375ea9edf93d2cf95
 size 1975192208

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.5588096362777515,
+    "total_flos": 0.0,
+    "train_loss": 0.4483427975394509,
+    "train_runtime": 15087.4424,
+    "train_samples": 50802,
+    "train_samples_per_second": 16.836,
+    "train_steps_per_second": 0.117
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,430 @@

+{
+  "best_metric": 7.4231791496276855,
+  "best_model_checkpoint": "./qwen2.5-0.5b/qwen2.5-0.5b-expo-DPO-ES-0.1/checkpoint-300",
+  "epoch": 1.5588096362777515,
+  "eval_steps": 50,
+  "global_step": 550,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "dpo_loss": 0.6931471824645996,
+      "epoch": 0.002834199338686821,
+      "grad_norm": 18.44253347826331,
+      "learning_rate": 2.840909090909091e-08,
+      "logits": -1.359458565711975,
+      "logps": -84.69721221923828,
+      "loss": 0.6931,
+      "objective": 0.6931471824645996,
+      "ranking_idealized": 0.6458333134651184,
+      "ranking_idealized_expo": 0.5833333134651184,
+      "ranking_simple": 0.5833333134651184,
+      "regularize": 0.6931471824645996,
+      "step": 1,
+      "wo_beta": 5.271125316619873
+    },
+    {
+      "dpo_loss": 0.6822353601455688,
+      "epoch": 0.14170996693434104,
+      "grad_norm": 18.641365531241362,
+      "learning_rate": 1.4204545454545458e-06,
+      "logits": -1.508646011352539,
+      "logps": -82.822021484375,
+      "loss": 0.6785,
+      "objective": 0.6822353601455688,
+      "ranking_idealized": 0.608418345451355,
+      "ranking_idealized_expo": 0.5229591727256775,
+      "ranking_simple": 0.5267857313156128,
+      "regularize": 0.6822353601455688,
+      "step": 50,
+      "wo_beta": 7.122643947601318
+    },
+    {
+      "epoch": 0.14170996693434104,
+      "eval_dpo_loss": 0.6842507719993591,
+      "eval_logits": -1.6022367477416992,
+      "eval_logps": -90.87205505371094,
+      "eval_loss": 0.6813501715660095,
+      "eval_objective": 0.6842507719993591,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5258799195289612,
+      "eval_regularize": 0.6842507719993591,
+      "eval_runtime": 308.2905,
+      "eval_samples_per_second": 18.781,
+      "eval_steps_per_second": 1.567,
+      "eval_wo_beta": 7.874889850616455,
+      "step": 50
+    },
+    {
+      "dpo_loss": 0.61030513048172,
+      "epoch": 0.2834199338686821,
+      "grad_norm": 19.29211957833529,
+      "learning_rate": 2.8409090909090916e-06,
+      "logits": -1.6967747211456299,
+      "logps": -88.03068542480469,
+      "loss": 0.618,
+      "objective": 0.61030513048172,
+      "ranking_idealized": 0.6016666889190674,
+      "ranking_idealized_expo": 0.5141666531562805,
+      "ranking_simple": 0.5729166865348816,
+      "regularize": 0.61030513048172,
+      "step": 100,
+      "wo_beta": 6.357723236083984
+    },
+    {
+      "epoch": 0.2834199338686821,
+      "eval_dpo_loss": 0.6765881776809692,
+      "eval_logits": -1.7799152135849,
+      "eval_logps": -98.88995361328125,
+      "eval_loss": 0.6732921004295349,
+      "eval_objective": 0.6765881776809692,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5398550629615784,
+      "eval_regularize": 0.6765881776809692,
+      "eval_runtime": 307.7771,
+      "eval_samples_per_second": 18.812,
+      "eval_steps_per_second": 1.569,
+      "eval_wo_beta": 7.7840118408203125,
+      "step": 100
+    },
+    {
+      "dpo_loss": 0.5696364045143127,
+      "epoch": 0.42512990080302315,
+      "grad_norm": 18.142654654279198,
+      "learning_rate": 4.2613636363636365e-06,
+      "logits": -1.7447518110275269,
+      "logps": -90.71894073486328,
+      "loss": 0.5667,
+      "objective": 0.5696364045143127,
+      "ranking_idealized": 0.6066666841506958,
+      "ranking_idealized_expo": 0.5287500023841858,
+      "ranking_simple": 0.6016666889190674,
+      "regularize": 0.5696364045143127,
+      "step": 150,
+      "wo_beta": 5.971243858337402
+    },
+    {
+      "epoch": 0.42512990080302315,
+      "eval_dpo_loss": 0.6829443573951721,
+      "eval_logits": -1.807220697402954,
+      "eval_logps": -99.12174987792969,
+      "eval_loss": 0.686660647392273,
+      "eval_objective": 0.6829443573951721,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5408902764320374,
+      "eval_regularize": 0.6829443573951721,
+      "eval_runtime": 308.0058,
+      "eval_samples_per_second": 18.798,
+      "eval_steps_per_second": 1.568,
+      "eval_wo_beta": 7.853672981262207,
+      "step": 150
+    },
+    {
+      "dpo_loss": 0.5278546214103699,
+      "epoch": 0.5668398677373642,
+      "grad_norm": 15.355172339669656,
+      "learning_rate": 4.997168347957521e-06,
+      "logits": -1.9084746837615967,
+      "logps": -92.50672149658203,
+      "loss": 0.5214,
+      "objective": 0.5278546214103699,
+      "ranking_idealized": 0.5924999713897705,
+      "ranking_idealized_expo": 0.5166666507720947,
+      "ranking_simple": 0.6362500190734863,
+      "regularize": 0.5278546214103699,
+      "step": 200,
+      "wo_beta": 5.543394565582275
+    },
+    {
+      "epoch": 0.5668398677373642,
+      "eval_dpo_loss": 0.69049072265625,
+      "eval_logits": -1.8895256519317627,
+      "eval_logps": -99.51531982421875,
+      "eval_loss": 0.6901801824569702,
+      "eval_objective": 0.69049072265625,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.544513463973999,
+      "eval_regularize": 0.69049072265625,
+      "eval_runtime": 308.0169,
+      "eval_samples_per_second": 18.798,
+      "eval_steps_per_second": 1.568,
+      "eval_wo_beta": 7.701313495635986,
+      "step": 200
+    },
+    {
+      "dpo_loss": 0.4935472011566162,
+      "epoch": 0.7085498346717053,
+      "grad_norm": 14.324676993767012,
+      "learning_rate": 4.973122855144066e-06,
+      "logits": -1.9081355333328247,
+      "logps": -88.3556137084961,
+      "loss": 0.4922,
+      "objective": 0.4935472011566162,
+      "ranking_idealized": 0.5991666913032532,
+      "ranking_idealized_expo": 0.5170833468437195,
+      "ranking_simple": 0.6608333587646484,
+      "regularize": 0.4935472011566162,
+      "step": 250,
+      "wo_beta": 5.325418472290039
+    },
+    {
+      "epoch": 0.7085498346717053,
+      "eval_dpo_loss": 0.6914450526237488,
+      "eval_logits": -1.9887231588363647,
+      "eval_logps": -82.8383560180664,
+      "eval_loss": 0.6975522041320801,
+      "eval_objective": 0.6914450526237488,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5481366515159607,
+      "eval_regularize": 0.6914450526237488,
+      "eval_runtime": 307.641,
+      "eval_samples_per_second": 18.821,
+      "eval_steps_per_second": 1.57,
+      "eval_wo_beta": 7.878448486328125,
+      "step": 250
+    },
+    {
+      "dpo_loss": 0.4521400034427643,
+      "epoch": 0.8502598016060463,
+      "grad_norm": 13.428528764338076,
+      "learning_rate": 4.924776641419513e-06,
+      "logits": -2.0954272747039795,
+      "logps": -81.39044952392578,
+      "loss": 0.4535,
+      "objective": 0.4521400034427643,
+      "ranking_idealized": 0.5799999833106995,
+      "ranking_idealized_expo": 0.4970833361148834,
+      "ranking_simple": 0.6837499737739563,
+      "regularize": 0.4521400034427643,
+      "step": 300,
+      "wo_beta": 5.026640892028809
+    },
+    {
+      "epoch": 0.8502598016060463,
+      "eval_dpo_loss": 0.6893911957740784,
+      "eval_logits": -2.1208713054656982,
+      "eval_logps": -90.9490966796875,
+      "eval_loss": 0.6922824382781982,
+      "eval_objective": 0.6893911957740784,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.556418240070343,
+      "eval_regularize": 0.6893911957740784,
+      "eval_runtime": 307.9716,
+      "eval_samples_per_second": 18.8,
+      "eval_steps_per_second": 1.568,
+      "eval_wo_beta": 7.4231791496276855,
+      "step": 300
+    },
+    {
+      "dpo_loss": 0.40847164392471313,
+      "epoch": 0.9919697685403873,
+      "grad_norm": 15.041732370189118,
+      "learning_rate": 4.8526047530778175e-06,
+      "logits": -1.9279303550720215,
+      "logps": -84.23763275146484,
+      "loss": 0.4228,
+      "objective": 0.40847164392471313,
+      "ranking_idealized": 0.60916668176651,
+      "ranking_idealized_expo": 0.5270833373069763,
+      "ranking_simple": 0.7191666960716248,
+      "regularize": 0.40847164392471313,
+      "step": 350,
+      "wo_beta": 3.9990389347076416
+    },
+    {
+      "epoch": 0.9919697685403873,
+      "eval_dpo_loss": 0.6968410611152649,
+      "eval_logits": -1.9802873134613037,
+      "eval_logps": -87.72307586669922,
+      "eval_loss": 0.7063526511192322,
+      "eval_objective": 0.6968410611152649,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5538302063941956,
+      "eval_regularize": 0.6968410611152649,
+      "eval_runtime": 307.977,
+      "eval_samples_per_second": 18.8,
+      "eval_steps_per_second": 1.568,
+      "eval_wo_beta": 8.025344848632812,
+      "step": 350
+    },
+    {
+      "dpo_loss": 0.28143200278282166,
+      "epoch": 1.1336797354747283,
+      "grad_norm": 12.112116162894052,
+      "learning_rate": 4.757316345716554e-06,
+      "logits": -2.0127880573272705,
+      "logps": -91.47932434082031,
+      "loss": 0.2845,
+      "objective": 0.28143200278282166,
+      "ranking_idealized": 0.6087499856948853,
+      "ranking_idealized_expo": 0.5337499976158142,
+      "ranking_simple": 0.8141666650772095,
+      "regularize": 0.28143200278282166,
+      "step": 400,
+      "wo_beta": 2.649115562438965
+    },
+    {
+      "epoch": 1.1336797354747283,
+      "eval_dpo_loss": 0.7269378900527954,
+      "eval_logits": -2.080526828765869,
+      "eval_logps": -101.31802368164062,
+      "eval_loss": 0.7304782867431641,
+      "eval_objective": 0.7269378900527954,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5429606437683105,
+      "eval_regularize": 0.7269378900527954,
+      "eval_runtime": 308.0503,
+      "eval_samples_per_second": 18.796,
+      "eval_steps_per_second": 1.568,
+      "eval_wo_beta": 8.616350173950195,
+      "step": 400
+    },
+    {
+      "dpo_loss": 0.3042532503604889,
+      "epoch": 1.2753897024090695,
+      "grad_norm": 12.171625264502326,
+      "learning_rate": 4.639847716126855e-06,
+      "logits": -1.9084649085998535,
+      "logps": -92.91566467285156,
+      "loss": 0.2989,
+      "objective": 0.3042532503604889,
+      "ranking_idealized": 0.5975000262260437,
+      "ranking_idealized_expo": 0.5199999809265137,
+      "ranking_simple": 0.8075000047683716,
+      "regularize": 0.3042532503604889,
+      "step": 450,
+      "wo_beta": 3.341869592666626
+    },
+    {
+      "epoch": 1.2753897024090695,
+      "eval_dpo_loss": 0.6973706483840942,
+      "eval_logits": -1.8646337985992432,
+      "eval_logps": -93.1955337524414,
+      "eval_loss": 0.7005103826522827,
+      "eval_objective": 0.6973706483840942,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5605590343475342,
+      "eval_regularize": 0.6973706483840942,
+      "eval_runtime": 308.4071,
+      "eval_samples_per_second": 18.774,
+      "eval_steps_per_second": 1.566,
+      "eval_wo_beta": 8.238639831542969,
+      "step": 450
+    },
+    {
+      "dpo_loss": 0.29817140102386475,
+      "epoch": 1.4170996693434104,
+      "grad_norm": 15.895661459470155,
+      "learning_rate": 4.501353102310901e-06,
+      "logits": -1.9325114488601685,
+      "logps": -91.53684997558594,
+      "loss": 0.3065,
+      "objective": 0.29817140102386475,
+      "ranking_idealized": 0.57833331823349,
+      "ranking_idealized_expo": 0.4983333349227905,
+      "ranking_simple": 0.7975000143051147,
+      "regularize": 0.29817140102386475,
+      "step": 500,
+      "wo_beta": 3.1243510246276855
+    },
+    {
+      "epoch": 1.4170996693434104,
+      "eval_dpo_loss": 0.7146824598312378,
+      "eval_logits": -1.9982556104660034,
+      "eval_logps": -97.01371002197266,
+      "eval_loss": 0.717850923538208,
+      "eval_objective": 0.7146824598312378,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5548654198646545,
+      "eval_regularize": 0.7146824598312378,
+      "eval_runtime": 308.8392,
+      "eval_samples_per_second": 18.748,
+      "eval_steps_per_second": 1.564,
+      "eval_wo_beta": 8.27602767944336,
+      "step": 500
+    },
+    {
+      "dpo_loss": 0.2845906615257263,
+      "epoch": 1.5588096362777515,
+      "grad_norm": 10.66218965165015,
+      "learning_rate": 4.34319334202531e-06,
+      "logits": -1.9555292129516602,
+      "logps": -97.59473419189453,
+      "loss": 0.2885,
+      "objective": 0.2845906615257263,
+      "ranking_idealized": 0.5945833325386047,
+      "ranking_idealized_expo": 0.5116666555404663,
+      "ranking_simple": 0.8041666746139526,
+      "regularize": 0.2845906615257263,
+      "step": 550,
+      "wo_beta": 2.6915340423583984
+    },
+    {
+      "epoch": 1.5588096362777515,
+      "eval_dpo_loss": 0.7133627533912659,
+      "eval_logits": -1.9041162729263306,
+      "eval_logps": -107.96095275878906,
+      "eval_loss": 0.7091230750083923,
+      "eval_objective": 0.7133627533912659,
+      "eval_ranking_idealized": 0.6030020713806152,
+      "eval_ranking_idealized_expo": 0.5222567319869995,
+      "eval_ranking_simple": 0.5615941882133484,
+      "eval_regularize": 0.7133627533912659,
+      "eval_runtime": 308.0507,
+      "eval_samples_per_second": 18.796,
+      "eval_steps_per_second": 1.568,
+      "eval_wo_beta": 8.196797370910645,
+      "step": 550
+    },
+    {
+      "epoch": 1.5588096362777515,
+      "step": 550,
+      "total_flos": 0.0,
+      "train_loss": 0.4483427975394509,
+      "train_runtime": 15087.4424,
+      "train_samples_per_second": 16.836,
+      "train_steps_per_second": 0.117
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1760,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}