Model save

Browse files

Files changed (6) hide show

README.md +87 -0
all_results.json +9 -0
generation_config.json +7 -0
model.safetensors +1 -1
train_results.json +9 -0
trainer_state.json +496 -0

README.md ADDED Viewed

	@@ -0,0 +1,87 @@

+---
+license: apache-2.0
+base_model: hZzy/qwen2.5-0.5b-sft-news-IFT
+tags:
+- trl
+- expo
+- generated_from_trainer
+model-index:
+- name: qwen2.5-0.5b-expo-L2EXPO-ES-1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/zhiyuzha-university-of-florida/huggingface/runs/72yqfbdr)
+# qwen2.5-0.5b-expo-L2EXPO-ES-1
+This model is a fine-tuned version of [hZzy/qwen2.5-0.5b-sft-news-IFT](https://huggingface.co/hZzy/qwen2.5-0.5b-sft-news-IFT) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 5.0286
+- Logps: -83.8820
+- Logits: -0.4938
+- Objective: 5.0013
+- Dpo Loss: 2.6194
+- Regularize: 5.0013
+- Ranking Simple: 0.5197
+- Ranking Idealized: 0.5295
+- Ranking Idealized Expo: 0.5212
+- Wo Beta: 14.2504
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 3
+- gradient_accumulation_steps: 12
+- total_train_batch_size: 144
+- total_eval_batch_size: 12
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 5
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Logps    | Logits  | Objective | Dpo Loss | Regularize | Ranking Simple | Ranking Idealized | Ranking Idealized Expo | Wo Beta |
+|:-------------:|:------:|:----:|:---------------:|:--------:|:-------:|:---------:|:--------:|:----------:|:--------------:|:-----------------:|:----------------------:|:-------:|
+| 0.6418        | 0.1417 | 50   | 0.7369          | -89.5788 | -1.4384 | 0.7343    | 0.7480   | 0.7343     | 0.5248         | 0.5295            | 0.5212                 | 16.0414 |
+| 1.7208        | 0.2834 | 100  | 1.7082          | -87.8064 | -1.3168 | 1.6950    | 1.0867   | 1.6950     | 0.5228         | 0.5295            | 0.5212                 | 15.5148 |
+| 2.841         | 0.4251 | 150  | 2.9302          | -83.1791 | -1.1086 | 2.8768    | 1.6352   | 2.8768     | 0.5300         | 0.5295            | 0.5212                 | 15.0680 |
+| 3.5072        | 0.5668 | 200  | 4.2317          | -80.2960 | -0.8688 | 4.2210    | 2.3120   | 4.2210     | 0.5155         | 0.5295            | 0.5212                 | 14.5319 |
+| 3.7707        | 0.7085 | 250  | 4.3648          | -80.5389 | -0.7639 | 4.3627    | 2.2988   | 4.3627     | 0.5212         | 0.5295            | 0.5212                 | 14.5663 |
+| 3.5773        | 0.8503 | 300  | 4.3904          | -83.8565 | -0.5388 | 4.3972    | 2.2955   | 4.3972     | 0.5238         | 0.5295            | 0.5212                 | 14.3098 |
+| 3.359         | 0.9920 | 350  | 4.6868          | -82.1212 | -0.5555 | 4.6293    | 2.4176   | 4.6293     | 0.5264         | 0.5295            | 0.5212                 | 14.3177 |
+| 3.0892        | 1.1337 | 400  | 4.8991          | -80.1851 | -0.4846 | 4.9208    | 2.5732   | 4.9208     | 0.5238         | 0.5295            | 0.5212                 | 14.1271 |
+| 3.001         | 1.2754 | 450  | 4.8651          | -82.0773 | -0.5097 | 4.8038    | 2.4966   | 4.8038     | 0.5233         | 0.5295            | 0.5212                 | 14.2309 |
+| 2.8358        | 1.4171 | 500  | 4.8734          | -81.9592 | -0.4937 | 4.8544    | 2.5685   | 4.8544     | 0.5243         | 0.5295            | 0.5212                 | 14.2662 |
+| 2.6622        | 1.5588 | 550  | 4.8760          | -81.5020 | -0.5513 | 4.9098    | 2.5441   | 4.9098     | 0.5243         | 0.5295            | 0.5212                 | 14.2522 |
+| 2.5417        | 1.7005 | 600  | 5.0324          | -83.9181 | -0.5043 | 5.0251    | 2.5863   | 5.0251     | 0.5259         | 0.5295            | 0.5212                 | 14.2325 |
+| 2.435         | 1.8422 | 650  | 5.0286          | -83.8820 | -0.4938 | 5.0013    | 2.6194   | 5.0013     | 0.5197         | 0.5295            | 0.5212                 | 14.2504 |
+### Framework versions
+- Transformers 4.42.0
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.1
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.8422295701464337,
+    "total_flos": 0.0,
+    "train_loss": 2.767508169504312,
+    "train_runtime": 17905.6458,
+    "train_samples": 50802,
+    "train_samples_per_second": 14.186,
+    "train_steps_per_second": 0.098
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 151644,
+  "eos_token_id": 151645,
+  "max_new_tokens": 2048,
+  "pad_token_id": 151645,
+  "transformers_version": "4.42.0"
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b22b98f3afad888c9dd62ee3d2c5133354c47a8cab6ee2d1f5c1bc460d1ff2
 size 1975192208

 version https://git-lfs.github.com/spec/v1
+oid sha256:44a7364df93e48c468324c2c61297c1eef8f3a03445af895598cde31920d19d3
 size 1975192208

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.8422295701464337,
+    "total_flos": 0.0,
+    "train_loss": 2.767508169504312,
+    "train_runtime": 17905.6458,
+    "train_samples": 50802,
+    "train_samples_per_second": 14.186,
+    "train_steps_per_second": 0.098
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,496 @@

+{
+  "best_metric": 14.127137184143066,
+  "best_model_checkpoint": "./qwen2.5-0.5b/qwen2.5-0.5b-expo-L2EXPO-ES-1/checkpoint-400",
+  "epoch": 1.8422295701464337,
+  "eval_steps": 50,
+  "global_step": 650,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "dpo_loss": 0.6931471824645996,
+      "epoch": 0.002834199338686821,
+      "grad_norm": 368.84791774460115,
+      "learning_rate": 2.840909090909091e-08,
+      "logits": -1.359458565711975,
+      "logps": -84.69721221923828,
+      "loss": 0.3913,
+      "objective": 0.3618059456348419,
+      "ranking_idealized": 0.5833333134651184,
+      "ranking_idealized_expo": 0.5833333134651184,
+      "ranking_simple": 0.5833333134651184,
+      "regularize": 0.3618059456348419,
+      "step": 1,
+      "wo_beta": 14.830931663513184
+    },
+    {
+      "dpo_loss": 0.6998967528343201,
+      "epoch": 0.14170996693434104,
+      "grad_norm": 396.7221362251878,
+      "learning_rate": 1.4204545454545458e-06,
+      "logits": -1.4534623622894287,
+      "logps": -84.4651870727539,
+      "loss": 0.6418,
+      "objective": 0.6346251964569092,
+      "ranking_idealized": 0.5289115905761719,
+      "ranking_idealized_expo": 0.5221088528633118,
+      "ranking_simple": 0.5246598720550537,
+      "regularize": 0.6346251964569092,
+      "step": 50,
+      "wo_beta": 15.657191276550293
+    },
+    {
+      "epoch": 0.14170996693434104,
+      "eval_dpo_loss": 0.7479657530784607,
+      "eval_logits": -1.4384208917617798,
+      "eval_logps": -89.57877349853516,
+      "eval_loss": 0.7368742823600769,
+      "eval_objective": 0.7343389391899109,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5248447060585022,
+      "eval_regularize": 0.7343389391899109,
+      "eval_runtime": 308.869,
+      "eval_samples_per_second": 18.746,
+      "eval_steps_per_second": 1.564,
+      "eval_wo_beta": 16.0413818359375,
+      "step": 50
+    },
+    {
+      "dpo_loss": 0.9691944122314453,
+      "epoch": 0.2834199338686821,
+      "grad_norm": 273.93971490638415,
+      "learning_rate": 2.8409090909090916e-06,
+      "logits": -1.3613545894622803,
+      "logps": -82.8901596069336,
+      "loss": 1.7208,
+      "objective": 1.7239964008331299,
+      "ranking_idealized": 0.5241666436195374,
+      "ranking_idealized_expo": 0.5137500166893005,
+      "ranking_simple": 0.5274999737739563,
+      "regularize": 1.7239964008331299,
+      "step": 100,
+      "wo_beta": 15.285738945007324
+    },
+    {
+      "epoch": 0.2834199338686821,
+      "eval_dpo_loss": 1.0867407321929932,
+      "eval_logits": -1.3167681694030762,
+      "eval_logps": -87.80636596679688,
+      "eval_loss": 1.7081643342971802,
+      "eval_objective": 1.6949896812438965,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.522774338722229,
+      "eval_regularize": 1.6949896812438965,
+      "eval_runtime": 307.8806,
+      "eval_samples_per_second": 18.806,
+      "eval_steps_per_second": 1.569,
+      "eval_wo_beta": 15.514751434326172,
+      "step": 100
+    },
+    {
+      "dpo_loss": 1.4132683277130127,
+      "epoch": 0.42512990080302315,
+      "grad_norm": 224.02387198038068,
+      "learning_rate": 4.2613636363636365e-06,
+      "logits": -1.1957015991210938,
+      "logps": -80.9156723022461,
+      "loss": 2.841,
+      "objective": 2.8095057010650635,
+      "ranking_idealized": 0.5333333611488342,
+      "ranking_idealized_expo": 0.527916669845581,
+      "ranking_simple": 0.5325000286102295,
+      "regularize": 2.8095057010650635,
+      "step": 150,
+      "wo_beta": 15.042305946350098
+    },
+    {
+      "epoch": 0.42512990080302315,
+      "eval_dpo_loss": 1.6352450847625732,
+      "eval_logits": -1.1085715293884277,
+      "eval_logps": -83.1790771484375,
+      "eval_loss": 2.930232048034668,
+      "eval_objective": 2.876790761947632,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5300207138061523,
+      "eval_regularize": 2.876790761947632,
+      "eval_runtime": 311.4753,
+      "eval_samples_per_second": 18.589,
+      "eval_steps_per_second": 1.551,
+      "eval_wo_beta": 15.068045616149902,
+      "step": 150
+    },
+    {
+      "dpo_loss": 1.8845717906951904,
+      "epoch": 0.5668398677373642,
+      "grad_norm": 197.31465488920477,
+      "learning_rate": 4.997168347957521e-06,
+      "logits": -0.9064983129501343,
+      "logps": -77.56580352783203,
+      "loss": 3.5072,
+      "objective": 3.5702998638153076,
+      "ranking_idealized": 0.5204166769981384,
+      "ranking_idealized_expo": 0.51541668176651,
+      "ranking_simple": 0.5104166865348816,
+      "regularize": 3.5702998638153076,
+      "step": 200,
+      "wo_beta": 15.2503023147583
+    },
+    {
+      "epoch": 0.5668398677373642,
+      "eval_dpo_loss": 2.312016725540161,
+      "eval_logits": -0.8688302040100098,
+      "eval_logps": -80.29598236083984,
+      "eval_loss": 4.2316670417785645,
+      "eval_objective": 4.220970153808594,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5155279636383057,
+      "eval_regularize": 4.220970153808594,
+      "eval_runtime": 307.8579,
+      "eval_samples_per_second": 18.807,
+      "eval_steps_per_second": 1.569,
+      "eval_wo_beta": 14.531935691833496,
+      "step": 200
+    },
+    {
+      "dpo_loss": 1.959755301475525,
+      "epoch": 0.7085498346717053,
+      "grad_norm": 180.7425737123104,
+      "learning_rate": 4.973122855144066e-06,
+      "logits": -0.8095456957817078,
+      "logps": -75.73948669433594,
+      "loss": 3.7707,
+      "objective": 3.773972272872925,
+      "ranking_idealized": 0.5249999761581421,
+      "ranking_idealized_expo": 0.5162500143051147,
+      "ranking_simple": 0.518750011920929,
+      "regularize": 3.773972272872925,
+      "step": 250,
+      "wo_beta": 15.669358253479004
+    },
+    {
+      "epoch": 0.7085498346717053,
+      "eval_dpo_loss": 2.2987730503082275,
+      "eval_logits": -0.7639057636260986,
+      "eval_logps": -80.5389175415039,
+      "eval_loss": 4.364786148071289,
+      "eval_objective": 4.362744331359863,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5212215185165405,
+      "eval_regularize": 4.362744331359863,
+      "eval_runtime": 308.0276,
+      "eval_samples_per_second": 18.797,
+      "eval_steps_per_second": 1.568,
+      "eval_wo_beta": 14.566258430480957,
+      "step": 250
+    },
+    {
+      "dpo_loss": 1.8572473526000977,
+      "epoch": 0.8502598016060463,
+      "grad_norm": 169.7352822578473,
+      "learning_rate": 4.924776641419513e-06,
+      "logits": -0.485324501991272,
+      "logps": -79.25447082519531,
+      "loss": 3.5773,
+      "objective": 3.6851494312286377,
+      "ranking_idealized": 0.5062500238418579,
+      "ranking_idealized_expo": 0.4950000047683716,
+      "ranking_simple": 0.5112500190734863,
+      "regularize": 3.6851494312286377,
+      "step": 300,
+      "wo_beta": 15.083699226379395
+    },
+    {
+      "epoch": 0.8502598016060463,
+      "eval_dpo_loss": 2.2955195903778076,
+      "eval_logits": -0.5387536883354187,
+      "eval_logps": -83.8565444946289,
+      "eval_loss": 4.3904218673706055,
+      "eval_objective": 4.397186279296875,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.523809552192688,
+      "eval_regularize": 4.397186279296875,
+      "eval_runtime": 308.1076,
+      "eval_samples_per_second": 18.792,
+      "eval_steps_per_second": 1.568,
+      "eval_wo_beta": 14.309849739074707,
+      "step": 300
+    },
+    {
+      "dpo_loss": 1.6745129823684692,
+      "epoch": 0.9919697685403873,
+      "grad_norm": 175.43829028737628,
+      "learning_rate": 4.8526047530778175e-06,
+      "logits": -0.49194690585136414,
+      "logps": -78.66015625,
+      "loss": 3.359,
+      "objective": 3.3252944946289062,
+      "ranking_idealized": 0.5354166626930237,
+      "ranking_idealized_expo": 0.5254166722297668,
+      "ranking_simple": 0.5391666889190674,
+      "regularize": 3.3252944946289062,
+      "step": 350,
+      "wo_beta": 15.092531204223633
+    },
+    {
+      "epoch": 0.9919697685403873,
+      "eval_dpo_loss": 2.417555809020996,
+      "eval_logits": -0.555489718914032,
+      "eval_logps": -82.1212387084961,
+      "eval_loss": 4.6867547035217285,
+      "eval_objective": 4.629337787628174,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5263975262641907,
+      "eval_regularize": 4.629337787628174,
+      "eval_runtime": 307.7738,
+      "eval_samples_per_second": 18.813,
+      "eval_steps_per_second": 1.569,
+      "eval_wo_beta": 14.317716598510742,
+      "step": 350
+    },
+    {
+      "dpo_loss": 1.6242923736572266,
+      "epoch": 1.1336797354747283,
+      "grad_norm": 167.92800627071566,
+      "learning_rate": 4.757316345716554e-06,
+      "logits": -0.42070272564888,
+      "logps": -77.89451599121094,
+      "loss": 3.0892,
+      "objective": 3.102174997329712,
+      "ranking_idealized": 0.5412499904632568,
+      "ranking_idealized_expo": 0.5320833325386047,
+      "ranking_simple": 0.5333333611488342,
+      "regularize": 3.102174997329712,
+      "step": 400,
+      "wo_beta": 15.249672889709473
+    },
+    {
+      "epoch": 1.1336797354747283,
+      "eval_dpo_loss": 2.573197364807129,
+      "eval_logits": -0.484580934047699,
+      "eval_logps": -80.18506622314453,
+      "eval_loss": 4.899093151092529,
+      "eval_objective": 4.920805931091309,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.523809552192688,
+      "eval_regularize": 4.920805931091309,
+      "eval_runtime": 307.8724,
+      "eval_samples_per_second": 18.806,
+      "eval_steps_per_second": 1.569,
+      "eval_wo_beta": 14.127137184143066,
+      "step": 400
+    },
+    {
+      "dpo_loss": 1.5614336729049683,
+      "epoch": 1.2753897024090695,
+      "grad_norm": 168.51104996086647,
+      "learning_rate": 4.639847716126855e-06,
+      "logits": -0.46561330556869507,
+      "logps": -76.85901641845703,
+      "loss": 3.001,
+      "objective": 3.0770418643951416,
+      "ranking_idealized": 0.5245833396911621,
+      "ranking_idealized_expo": 0.5191666483879089,
+      "ranking_simple": 0.5337499976158142,
+      "regularize": 3.0770418643951416,
+      "step": 450,
+      "wo_beta": 15.840205192565918
+    },
+    {
+      "epoch": 1.2753897024090695,
+      "eval_dpo_loss": 2.4965932369232178,
+      "eval_logits": -0.5097361207008362,
+      "eval_logps": -82.07725524902344,
+      "eval_loss": 4.865055561065674,
+      "eval_objective": 4.8037590980529785,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5232919454574585,
+      "eval_regularize": 4.8037590980529785,
+      "eval_runtime": 308.1386,
+      "eval_samples_per_second": 18.79,
+      "eval_steps_per_second": 1.567,
+      "eval_wo_beta": 14.230860710144043,
+      "step": 450
+    },
+    {
+      "dpo_loss": 1.4661251306533813,
+      "epoch": 1.4170996693434104,
+      "grad_norm": 153.41700493191905,
+      "learning_rate": 4.501353102310901e-06,
+      "logits": -0.41387155652046204,
+      "logps": -77.91703033447266,
+      "loss": 2.8358,
+      "objective": 2.893219232559204,
+      "ranking_idealized": 0.5054166913032532,
+      "ranking_idealized_expo": 0.4970833361148834,
+      "ranking_simple": 0.5058333277702332,
+      "regularize": 2.893219232559204,
+      "step": 500,
+      "wo_beta": 15.346451759338379
+    },
+    {
+      "epoch": 1.4170996693434104,
+      "eval_dpo_loss": 2.5684561729431152,
+      "eval_logits": -0.4937358796596527,
+      "eval_logps": -81.95916748046875,
+      "eval_loss": 4.873396873474121,
+      "eval_objective": 4.854368686676025,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5243270993232727,
+      "eval_regularize": 4.854368686676025,
+      "eval_runtime": 307.7716,
+      "eval_samples_per_second": 18.813,
+      "eval_steps_per_second": 1.569,
+      "eval_wo_beta": 14.26622486114502,
+      "step": 500
+    },
+    {
+      "dpo_loss": 1.3315966129302979,
+      "epoch": 1.5588096362777515,
+      "grad_norm": 153.30075040252478,
+      "learning_rate": 4.34319334202531e-06,
+      "logits": -0.4832386374473572,
+      "logps": -78.64344787597656,
+      "loss": 2.6622,
+      "objective": 2.6787972450256348,
+      "ranking_idealized": 0.5199999809265137,
+      "ranking_idealized_expo": 0.5108333230018616,
+      "ranking_simple": 0.5249999761581421,
+      "regularize": 2.6787972450256348,
+      "step": 550,
+      "wo_beta": 15.080702781677246
+    },
+    {
+      "epoch": 1.5588096362777515,
+      "eval_dpo_loss": 2.544066905975342,
+      "eval_logits": -0.551251232624054,
+      "eval_logps": -81.50196075439453,
+      "eval_loss": 4.876008033752441,
+      "eval_objective": 4.909796714782715,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5243270993232727,
+      "eval_regularize": 4.909796714782715,
+      "eval_runtime": 307.8096,
+      "eval_samples_per_second": 18.81,
+      "eval_steps_per_second": 1.569,
+      "eval_wo_beta": 14.252228736877441,
+      "step": 550
+    },
+    {
+      "dpo_loss": 1.3174678087234497,
+      "epoch": 1.7005196032120926,
+      "grad_norm": 164.16680167227398,
+      "learning_rate": 4.16692250129073e-06,
+      "logits": -0.4034644663333893,
+      "logps": -80.2961654663086,
+      "loss": 2.5417,
+      "objective": 2.5419461727142334,
+      "ranking_idealized": 0.5220833420753479,
+      "ranking_idealized_expo": 0.5149999856948853,
+      "ranking_simple": 0.5220833420753479,
+      "regularize": 2.5419461727142334,
+      "step": 600,
+      "wo_beta": 15.080598831176758
+    },
+    {
+      "epoch": 1.7005196032120926,
+      "eval_dpo_loss": 2.5863354206085205,
+      "eval_logits": -0.5043439269065857,
+      "eval_logps": -83.9180908203125,
+      "eval_loss": 5.032442092895508,
+      "eval_objective": 5.0250935554504395,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5258799195289612,
+      "eval_regularize": 5.0250935554504395,
+      "eval_runtime": 308.2064,
+      "eval_samples_per_second": 18.786,
+      "eval_steps_per_second": 1.567,
+      "eval_wo_beta": 14.232461929321289,
+      "step": 600
+    },
+    {
+      "dpo_loss": 1.3203412294387817,
+      "epoch": 1.8422295701464337,
+      "grad_norm": 160.7017872607094,
+      "learning_rate": 3.974272604254906e-06,
+      "logits": -0.48519474267959595,
+      "logps": -80.25173950195312,
+      "loss": 2.435,
+      "objective": 2.4747252464294434,
+      "ranking_idealized": 0.5408333539962769,
+      "ranking_idealized_expo": 0.527916669845581,
+      "ranking_simple": 0.5333333611488342,
+      "regularize": 2.4747252464294434,
+      "step": 650,
+      "wo_beta": 15.727615356445312
+    },
+    {
+      "epoch": 1.8422295701464337,
+      "eval_dpo_loss": 2.6193807125091553,
+      "eval_logits": -0.49383923411369324,
+      "eval_logps": -83.8819808959961,
+      "eval_loss": 5.0286407470703125,
+      "eval_objective": 5.001297950744629,
+      "eval_ranking_idealized": 0.5295031070709229,
+      "eval_ranking_idealized_expo": 0.5212215185165405,
+      "eval_ranking_simple": 0.5196687579154968,
+      "eval_regularize": 5.001297950744629,
+      "eval_runtime": 307.7261,
+      "eval_samples_per_second": 18.815,
+      "eval_steps_per_second": 1.57,
+      "eval_wo_beta": 14.250398635864258,
+      "step": 650
+    },
+    {
+      "epoch": 1.8422295701464337,
+      "step": 650,
+      "total_flos": 0.0,
+      "train_loss": 2.767508169504312,
+      "train_runtime": 17905.6458,
+      "train_samples_per_second": 14.186,
+      "train_steps_per_second": 0.098
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1760,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}