Model save

Browse files

Files changed (6) hide show

README.md +82 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
runs/Jul29_11-02-20_notebook-deployment-48-7d9b6c99-khd85/events.out.tfevents.1722251035.notebook-deployment-48-7d9b6c99-khd85.3446409.0 +2 -2
train_results.json +8 -0
trainer_state.json +813 -0

README.md ADDED Viewed

	@@ -0,0 +1,82 @@

+---
+base_model: alignment-handbook/zephyr-7b-sft-full
+library_name: peft
+license: apache-2.0
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: zephyr-dpop-qlora-uf-ours-5e-6-epoch1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-dpop-qlora-uf-ours-5e-6-epoch1
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.6048
+- Positive Losses: 8.7062
+- Dpo Losses: 0.6448
+- Rewards/chosen: 0.0014
+- Rewards/rejected: -0.1274
+- Rewards/accuracies: 0.6470
+- Rewards/margins: 0.1288
+- Rewards/margins Max: 0.6375
+- Rewards/margins Min: -0.3461
+- Rewards/margins Std: 0.3295
+- Logps/rejected: -271.3224
+- Logps/chosen: -284.4528
+- Logits/rejected: -2.6733
+- Logits/chosen: -2.7153
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Positive Losses | Dpo Losses | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Rewards/margins Max | Rewards/margins Min | Rewards/margins Std | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:---------------:|:----------:|:--------------:|:----------------:|:------------------:|:---------------:|:-------------------:|:-------------------:|:-------------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6232        | 0.28  | 100  | 1.1413          | 4.2610          | 0.6656     | 0.0429         | -0.0252          | 0.6230             | 0.0680          | 0.4086              | -0.2281             | 0.2094              | -261.0972      | -280.3080    | -2.6361         | -2.6726       |
+| 0.5625        | 0.56  | 200  | 1.7186          | 9.6677          | 0.6469     | -0.0183        | -0.1426          | 0.6420             | 0.1243          | 0.6362              | -0.3433             | 0.3277              | -272.8399      | -286.4236    | -2.6380         | -2.6780       |
+| 0.4748        | 0.85  | 300  | 1.6048          | 8.7062          | 0.6448     | 0.0014         | -0.1274          | 0.6470             | 0.1288          | 0.6375              | -0.3461             | 0.3295              | -271.3224      | -284.4528    | -2.6733         | -2.7153       |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.39.0.dev0
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e201d6124872467a926e70ec768d9c5e2217146d8b9f1fd041c52fc6d8a07614
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:157adab1be932a160809b22d2cd46ebc2232e78082ff3d33c796d6ccb4400be7
 size 671150064

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.5743894765074824,
+    "train_runtime": 4311.1014,
+    "train_samples": 5678,
+    "train_samples_per_second": 1.317,
+    "train_steps_per_second": 0.082
+}

runs/Jul29_11-02-20_notebook-deployment-48-7d9b6c99-khd85/events.out.tfevents.1722251035.notebook-deployment-48-7d9b6c99-khd85.3446409.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7672281ddc12cd2176c603733be924e87688b2b3ae9f2d482908ef2c4e6047e4
-size 39113

 version https://git-lfs.github.com/spec/v1
+oid sha256:65c29e5ebef7728389473b36ffab0229575c62799e7ab454c0a958d4e15bf729
+size 44442

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.5743894765074824,
+    "train_runtime": 4311.1014,
+    "train_samples": 5678,
+    "train_samples_per_second": 1.317,
+    "train_steps_per_second": 0.082
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,813 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 355,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "dpo_losses": 0.6931471824645996,
+      "epoch": 0.0,
+      "grad_norm": 1.6018567815095135,
+      "learning_rate": 1.3888888888888888e-07,
+      "logits/chosen": -2.861618995666504,
+      "logits/rejected": -2.8205904960632324,
+      "logps/chosen": -271.06011962890625,
+      "logps/rejected": -211.1704559326172,
+      "loss": 0.6931,
+      "positive_losses": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/margins_max": 0.0,
+      "rewards/margins_min": 0.0,
+      "rewards/margins_std": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "dpo_losses": 0.6928361654281616,
+      "epoch": 0.03,
+      "grad_norm": 14.098492351037597,
+      "learning_rate": 1.3888888888888892e-06,
+      "logits/chosen": -2.8340628147125244,
+      "logits/rejected": -2.7916715145111084,
+      "logps/chosen": -324.87408447265625,
+      "logps/rejected": -274.8518371582031,
+      "loss": 0.6969,
+      "positive_losses": 0.03656284138560295,
+      "rewards/accuracies": 0.5138888955116272,
+      "rewards/chosen": 0.001762597355991602,
+      "rewards/margins": 0.0006246823468245566,
+      "rewards/margins_max": 0.0034460597671568394,
+      "rewards/margins_min": -0.002478615380823612,
+      "rewards/margins_std": 0.002669532783329487,
+      "rewards/rejected": 0.0011379148345440626,
+      "step": 10
+    },
+    {
+      "dpo_losses": 0.6901537775993347,
+      "epoch": 0.06,
+      "grad_norm": 1.829780676576113,
+      "learning_rate": 2.7777777777777783e-06,
+      "logits/chosen": -2.7248008251190186,
+      "logits/rejected": -2.7065372467041016,
+      "logps/chosen": -291.9751892089844,
+      "logps/rejected": -214.52914428710938,
+      "loss": 0.69,
+      "positive_losses": 0.00235748291015625,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": 0.01850745640695095,
+      "rewards/margins": 0.006009287666529417,
+      "rewards/margins_max": 0.013369890861213207,
+      "rewards/margins_min": -0.0006899007130414248,
+      "rewards/margins_std": 0.006301888730376959,
+      "rewards/rejected": 0.01249817106872797,
+      "step": 20
+    },
+    {
+      "dpo_losses": 0.6790497303009033,
+      "epoch": 0.08,
+      "grad_norm": 2.096661038575657,
+      "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -2.8153939247131348,
+      "logits/rejected": -2.7460672855377197,
+      "logps/chosen": -298.10052490234375,
+      "logps/rejected": -229.7678680419922,
+      "loss": 0.677,
+      "positive_losses": 0.0,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.05605363845825195,
+      "rewards/margins": 0.02858993411064148,
+      "rewards/margins_max": 0.058357615023851395,
+      "rewards/margins_min": 0.004640273749828339,
+      "rewards/margins_std": 0.02467900700867176,
+      "rewards/rejected": 0.027463700622320175,
+      "step": 30
+    },
+    {
+      "dpo_losses": 0.6675597429275513,
+      "epoch": 0.11,
+      "grad_norm": 1.7320035926217752,
+      "learning_rate": 4.998060489154965e-06,
+      "logits/chosen": -2.8310070037841797,
+      "logits/rejected": -2.751425266265869,
+      "logps/chosen": -268.48809814453125,
+      "logps/rejected": -222.01107788085938,
+      "loss": 0.6662,
+      "positive_losses": 0.054492950439453125,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 0.08996561169624329,
+      "rewards/margins": 0.05272960662841797,
+      "rewards/margins_max": 0.1101265698671341,
+      "rewards/margins_min": 0.003616312053054571,
+      "rewards/margins_std": 0.048521898686885834,
+      "rewards/rejected": 0.03723599761724472,
+      "step": 40
+    },
+    {
+      "dpo_losses": 0.6397972106933594,
+      "epoch": 0.14,
+      "grad_norm": 9.583890638870626,
+      "learning_rate": 4.976275538042932e-06,
+      "logits/chosen": -2.7891061305999756,
+      "logits/rejected": -2.7175135612487793,
+      "logps/chosen": -262.20794677734375,
+      "logps/rejected": -231.79653930664062,
+      "loss": 0.6446,
+      "positive_losses": 0.0,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.13362163305282593,
+      "rewards/margins": 0.11281381547451019,
+      "rewards/margins_max": 0.23626498878002167,
+      "rewards/margins_min": 0.022470083087682724,
+      "rewards/margins_std": 0.0988926962018013,
+      "rewards/rejected": 0.02080780453979969,
+      "step": 50
+    },
+    {
+      "dpo_losses": 0.6110584139823914,
+      "epoch": 0.17,
+      "grad_norm": 2.0747443213986694,
+      "learning_rate": 4.93049306999712e-06,
+      "logits/chosen": -2.7118520736694336,
+      "logits/rejected": -2.6753315925598145,
+      "logps/chosen": -296.9767150878906,
+      "logps/rejected": -263.8233947753906,
+      "loss": 0.628,
+      "positive_losses": 0.011554336175322533,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.16662926971912384,
+      "rewards/margins": 0.17714819312095642,
+      "rewards/margins_max": 0.30765318870544434,
+      "rewards/margins_min": 0.05318903177976608,
+      "rewards/margins_std": 0.11578011512756348,
+      "rewards/rejected": -0.010518952272832394,
+      "step": 60
+    },
+    {
+      "dpo_losses": 0.6022371053695679,
+      "epoch": 0.2,
+      "grad_norm": 1.5871888283763238,
+      "learning_rate": 4.861156761634014e-06,
+      "logits/chosen": -2.7271430492401123,
+      "logits/rejected": -2.6688759326934814,
+      "logps/chosen": -303.47613525390625,
+      "logps/rejected": -236.2406463623047,
+      "loss": 0.6175,
+      "positive_losses": 0.19450588524341583,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.19385087490081787,
+      "rewards/margins": 0.19984133541584015,
+      "rewards/margins_max": 0.4134605824947357,
+      "rewards/margins_min": 0.04761160537600517,
+      "rewards/margins_std": 0.16880682110786438,
+      "rewards/rejected": -0.00599044980481267,
+      "step": 70
+    },
+    {
+      "dpo_losses": 0.5768495798110962,
+      "epoch": 0.23,
+      "grad_norm": 1.804849988880195,
+      "learning_rate": 4.7689385491773934e-06,
+      "logits/chosen": -2.738285779953003,
+      "logits/rejected": -2.684203863143921,
+      "logps/chosen": -300.8853454589844,
+      "logps/rejected": -292.05633544921875,
+      "loss": 0.6017,
+      "positive_losses": 0.328561395406723,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20385125279426575,
+      "rewards/margins": 0.26062771677970886,
+      "rewards/margins_max": 0.4970013201236725,
+      "rewards/margins_min": 0.05170217156410217,
+      "rewards/margins_std": 0.2058703452348709,
+      "rewards/rejected": -0.056776486337184906,
+      "step": 80
+    },
+    {
+      "dpo_losses": 0.5672236084938049,
+      "epoch": 0.25,
+      "grad_norm": 2.184742961229221,
+      "learning_rate": 4.654732116743193e-06,
+      "logits/chosen": -2.6370556354522705,
+      "logits/rejected": -2.601066827774048,
+      "logps/chosen": -252.70535278320312,
+      "logps/rejected": -203.89418029785156,
+      "loss": 0.5769,
+      "positive_losses": 0.07196970283985138,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2328944206237793,
+      "rewards/margins": 0.2819642424583435,
+      "rewards/margins_max": 0.514846682548523,
+      "rewards/margins_min": 0.09985215216875076,
+      "rewards/margins_std": 0.19404996931552887,
+      "rewards/rejected": -0.049069829285144806,
+      "step": 90
+    },
+    {
+      "dpo_losses": 0.5702880620956421,
+      "epoch": 0.28,
+      "grad_norm": 2.550586173059517,
+      "learning_rate": 4.5196442356717526e-06,
+      "logits/chosen": -2.6703598499298096,
+      "logits/rejected": -2.6374478340148926,
+      "logps/chosen": -264.9583740234375,
+      "logps/rejected": -273.49615478515625,
+      "loss": 0.6232,
+      "positive_losses": 1.2302151918411255,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.16453364491462708,
+      "rewards/margins": 0.27762115001678467,
+      "rewards/margins_max": 0.5491287708282471,
+      "rewards/margins_min": 0.05581303685903549,
+      "rewards/margins_std": 0.22483690083026886,
+      "rewards/rejected": -0.113087497651577,
+      "step": 100
+    },
+    {
+      "epoch": 0.28,
+      "eval_dpo_losses": 0.6656126976013184,
+      "eval_logits/chosen": -2.67258620262146,
+      "eval_logits/rejected": -2.6360833644866943,
+      "eval_logps/chosen": -280.30804443359375,
+      "eval_logps/rejected": -261.0971984863281,
+      "eval_loss": 1.1412982940673828,
+      "eval_positive_losses": 4.261031627655029,
+      "eval_rewards/accuracies": 0.6230000257492065,
+      "eval_rewards/chosen": 0.04285382851958275,
+      "eval_rewards/margins": 0.06803657114505768,
+      "eval_rewards/margins_max": 0.40864306688308716,
+      "eval_rewards/margins_min": -0.22808942198753357,
+      "eval_rewards/margins_std": 0.2094314992427826,
+      "eval_rewards/rejected": -0.02518274076282978,
+      "eval_runtime": 429.2755,
+      "eval_samples_per_second": 4.659,
+      "eval_steps_per_second": 0.291,
+      "step": 100
+    },
+    {
+      "dpo_losses": 0.5097740888595581,
+      "epoch": 0.31,
+      "grad_norm": 6.336382416368574,
+      "learning_rate": 4.364984038837727e-06,
+      "logits/chosen": -2.742903709411621,
+      "logits/rejected": -2.654869318008423,
+      "logps/chosen": -349.24517822265625,
+      "logps/rejected": -304.54730224609375,
+      "loss": 0.543,
+      "positive_losses": 0.44344156980514526,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.25360527634620667,
+      "rewards/margins": 0.43474069237709045,
+      "rewards/margins_max": 0.7704421281814575,
+      "rewards/margins_min": 0.1366521120071411,
+      "rewards/margins_std": 0.2834155559539795,
+      "rewards/rejected": -0.1811354160308838,
+      "step": 110
+    },
+    {
+      "dpo_losses": 0.518837571144104,
+      "epoch": 0.34,
+      "grad_norm": 2.194144050007341,
+      "learning_rate": 4.192250333880045e-06,
+      "logits/chosen": -2.7281386852264404,
+      "logits/rejected": -2.670868396759033,
+      "logps/chosen": -321.75982666015625,
+      "logps/rejected": -280.87091064453125,
+      "loss": 0.5524,
+      "positive_losses": 0.46012669801712036,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.26626402139663696,
+      "rewards/margins": 0.4130307137966156,
+      "rewards/margins_max": 0.7945607900619507,
+      "rewards/margins_min": 0.14706461131572723,
+      "rewards/margins_std": 0.2963123917579651,
+      "rewards/rejected": -0.14676669239997864,
+      "step": 120
+    },
+    {
+      "dpo_losses": 0.4917011260986328,
+      "epoch": 0.37,
+      "grad_norm": 1.7534787479023215,
+      "learning_rate": 4.0031170782990214e-06,
+      "logits/chosen": -2.711912155151367,
+      "logits/rejected": -2.634033441543579,
+      "logps/chosen": -353.554443359375,
+      "logps/rejected": -320.6388244628906,
+      "loss": 0.5518,
+      "positive_losses": 0.8977662920951843,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2880980372428894,
+      "rewards/margins": 0.4901772439479828,
+      "rewards/margins_max": 0.8924927711486816,
+      "rewards/margins_min": 0.1499636471271515,
+      "rewards/margins_std": 0.3346417546272278,
+      "rewards/rejected": -0.20207922160625458,
+      "step": 130
+    },
+    {
+      "dpo_losses": 0.4866393208503723,
+      "epoch": 0.39,
+      "grad_norm": 21.27134583914694,
+      "learning_rate": 3.7994171571810756e-06,
+      "logits/chosen": -2.6895060539245605,
+      "logits/rejected": -2.6512811183929443,
+      "logps/chosen": -291.05548095703125,
+      "logps/rejected": -294.4687805175781,
+      "loss": 0.5718,
+      "positive_losses": 0.2207096517086029,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2735855281352997,
+      "rewards/margins": 0.5197780132293701,
+      "rewards/margins_max": 1.003483772277832,
+      "rewards/margins_min": 0.1269286870956421,
+      "rewards/margins_std": 0.3979441523551941,
+      "rewards/rejected": -0.24619252979755402,
+      "step": 140
+    },
+    {
+      "dpo_losses": 0.5046078562736511,
+      "epoch": 0.42,
+      "grad_norm": 3.3011186957688583,
+      "learning_rate": 3.5831246207606597e-06,
+      "logits/chosen": -2.6959190368652344,
+      "logits/rejected": -2.658679962158203,
+      "logps/chosen": -264.2646179199219,
+      "logps/rejected": -234.5491180419922,
+      "loss": 0.5366,
+      "positive_losses": 0.490040123462677,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.24420371651649475,
+      "rewards/margins": 0.45886701345443726,
+      "rewards/margins_max": 0.8680801391601562,
+      "rewards/margins_min": 0.1154303103685379,
+      "rewards/margins_std": 0.34930768609046936,
+      "rewards/rejected": -0.2146632969379425,
+      "step": 150
+    },
+    {
+      "dpo_losses": 0.48088502883911133,
+      "epoch": 0.45,
+      "grad_norm": 2.135658014816511,
+      "learning_rate": 3.3563355539546795e-06,
+      "logits/chosen": -2.665548801422119,
+      "logits/rejected": -2.6138901710510254,
+      "logps/chosen": -274.263427734375,
+      "logps/rejected": -260.50518798828125,
+      "loss": 0.5724,
+      "positive_losses": 0.9731669425964355,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.262834370136261,
+      "rewards/margins": 0.5239533185958862,
+      "rewards/margins_max": 0.9884392023086548,
+      "rewards/margins_min": 0.15575796365737915,
+      "rewards/margins_std": 0.3754872977733612,
+      "rewards/rejected": -0.26111894845962524,
+      "step": 160
+    },
+    {
+      "dpo_losses": 0.4504636824131012,
+      "epoch": 0.48,
+      "grad_norm": 3.940043763048366,
+      "learning_rate": 3.121247763262235e-06,
+      "logits/chosen": -2.708754777908325,
+      "logits/rejected": -2.657917022705078,
+      "logps/chosen": -297.7489013671875,
+      "logps/rejected": -327.0563049316406,
+      "loss": 0.4813,
+      "positive_losses": 0.03098602220416069,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.3187271058559418,
+      "rewards/margins": 0.6266334652900696,
+      "rewards/margins_max": 1.0517089366912842,
+      "rewards/margins_min": 0.17500966787338257,
+      "rewards/margins_std": 0.3909396231174469,
+      "rewards/rejected": -0.3079063296318054,
+      "step": 170
+    },
+    {
+      "dpo_losses": 0.4588772654533386,
+      "epoch": 0.51,
+      "grad_norm": 8.823245159881209,
+      "learning_rate": 2.8801394778833475e-06,
+      "logits/chosen": -2.6968963146209717,
+      "logits/rejected": -2.6140356063842773,
+      "logps/chosen": -305.4325866699219,
+      "logps/rejected": -326.99798583984375,
+      "loss": 0.5468,
+      "positive_losses": 0.8232825994491577,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2646820843219757,
+      "rewards/margins": 0.5928131937980652,
+      "rewards/margins_max": 1.0361554622650146,
+      "rewards/margins_min": 0.28750157356262207,
+      "rewards/margins_std": 0.33570224046707153,
+      "rewards/rejected": -0.32813113927841187,
+      "step": 180
+    },
+    {
+      "dpo_losses": 0.45539379119873047,
+      "epoch": 0.54,
+      "grad_norm": 3.517893013000186,
+      "learning_rate": 2.6353472714635443e-06,
+      "logits/chosen": -2.6537580490112305,
+      "logits/rejected": -2.5634191036224365,
+      "logps/chosen": -287.6109619140625,
+      "logps/rejected": -265.6959228515625,
+      "loss": 0.5435,
+      "positive_losses": 0.9886103868484497,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.34349915385246277,
+      "rewards/margins": 0.6255816221237183,
+      "rewards/margins_max": 1.1905597448349,
+      "rewards/margins_min": 0.168921560049057,
+      "rewards/margins_std": 0.453277051448822,
+      "rewards/rejected": -0.2820824980735779,
+      "step": 190
+    },
+    {
+      "dpo_losses": 0.44315657019615173,
+      "epoch": 0.56,
+      "grad_norm": 27.976402148032502,
+      "learning_rate": 2.3892434184240536e-06,
+      "logits/chosen": -2.7400636672973633,
+      "logits/rejected": -2.662397623062134,
+      "logps/chosen": -309.39691162109375,
+      "logps/rejected": -299.7530212402344,
+      "loss": 0.5625,
+      "positive_losses": 0.9616166353225708,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.30135902762413025,
+      "rewards/margins": 0.6429153084754944,
+      "rewards/margins_max": 1.131412148475647,
+      "rewards/margins_min": 0.17879006266593933,
+      "rewards/margins_std": 0.4260264039039612,
+      "rewards/rejected": -0.34155628085136414,
+      "step": 200
+    },
+    {
+      "epoch": 0.56,
+      "eval_dpo_losses": 0.6469283699989319,
+      "eval_logits/chosen": -2.678022623062134,
+      "eval_logits/rejected": -2.6380200386047363,
+      "eval_logps/chosen": -286.4236145019531,
+      "eval_logps/rejected": -272.83990478515625,
+      "eval_loss": 1.7185667753219604,
+      "eval_positive_losses": 9.667731285095215,
+      "eval_rewards/accuracies": 0.6420000195503235,
+      "eval_rewards/chosen": -0.018302178010344505,
+      "eval_rewards/margins": 0.1243075579404831,
+      "eval_rewards/margins_max": 0.6361650228500366,
+      "eval_rewards/margins_min": -0.3433184325695038,
+      "eval_rewards/margins_std": 0.32774004340171814,
+      "eval_rewards/rejected": -0.14260973036289215,
+      "eval_runtime": 428.2243,
+      "eval_samples_per_second": 4.67,
+      "eval_steps_per_second": 0.292,
+      "step": 200
+    },
+    {
+      "dpo_losses": 0.4354400634765625,
+      "epoch": 0.59,
+      "grad_norm": 23.522369776083625,
+      "learning_rate": 2.1442129043167877e-06,
+      "logits/chosen": -2.6434009075164795,
+      "logits/rejected": -2.6138339042663574,
+      "logps/chosen": -286.7272033691406,
+      "logps/rejected": -291.8896789550781,
+      "loss": 0.513,
+      "positive_losses": 0.665066123008728,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.33457106351852417,
+      "rewards/margins": 0.6892200708389282,
+      "rewards/margins_max": 1.2269551753997803,
+      "rewards/margins_min": 0.18099449574947357,
+      "rewards/margins_std": 0.46556130051612854,
+      "rewards/rejected": -0.35464900732040405,
+      "step": 210
+    },
+    {
+      "dpo_losses": 0.4387238025665283,
+      "epoch": 0.62,
+      "grad_norm": 11.92404423048434,
+      "learning_rate": 1.9026303129961049e-06,
+      "logits/chosen": -2.7612462043762207,
+      "logits/rejected": -2.664234161376953,
+      "logps/chosen": -319.7461853027344,
+      "logps/rejected": -306.0053405761719,
+      "loss": 0.5894,
+      "positive_losses": 1.1452913284301758,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.33710065484046936,
+      "rewards/margins": 0.6538791656494141,
+      "rewards/margins_max": 1.1509373188018799,
+      "rewards/margins_min": 0.19225715100765228,
+      "rewards/margins_std": 0.4403897225856781,
+      "rewards/rejected": -0.3167785704135895,
+      "step": 220
+    },
+    {
+      "dpo_losses": 0.44511428475379944,
+      "epoch": 0.65,
+      "grad_norm": 2.419282473127918,
+      "learning_rate": 1.66683681459314e-06,
+      "logits/chosen": -2.773876428604126,
+      "logits/rejected": -2.67607045173645,
+      "logps/chosen": -339.04718017578125,
+      "logps/rejected": -293.1225891113281,
+      "loss": 0.4763,
+      "positive_losses": 0.6133368611335754,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.32628515362739563,
+      "rewards/margins": 0.6365767121315002,
+      "rewards/margins_max": 1.125410795211792,
+      "rewards/margins_min": 0.21782192587852478,
+      "rewards/margins_std": 0.4051855504512787,
+      "rewards/rejected": -0.3102915287017822,
+      "step": 230
+    },
+    {
+      "dpo_losses": 0.4544529318809509,
+      "epoch": 0.68,
+      "grad_norm": 13.447116267552904,
+      "learning_rate": 1.4391174773015836e-06,
+      "logits/chosen": -2.7197587490081787,
+      "logits/rejected": -2.649749279022217,
+      "logps/chosen": -302.6105041503906,
+      "logps/rejected": -321.8402404785156,
+      "loss": 0.692,
+      "positive_losses": 2.48455810546875,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.22186538577079773,
+      "rewards/margins": 0.6085190773010254,
+      "rewards/margins_max": 1.1415433883666992,
+      "rewards/margins_min": 0.23370866477489471,
+      "rewards/margins_std": 0.41311854124069214,
+      "rewards/rejected": -0.38665369153022766,
+      "step": 240
+    },
+    {
+      "dpo_losses": 0.45861634612083435,
+      "epoch": 0.7,
+      "grad_norm": 5.111403689556549,
+      "learning_rate": 1.2216791228457778e-06,
+      "logits/chosen": -2.716823101043701,
+      "logits/rejected": -2.640800952911377,
+      "logps/chosen": -280.11114501953125,
+      "logps/rejected": -281.67138671875,
+      "loss": 0.4992,
+      "positive_losses": 0.6084854006767273,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.31169968843460083,
+      "rewards/margins": 0.6179708242416382,
+      "rewards/margins_max": 1.2185614109039307,
+      "rewards/margins_min": 0.1615341305732727,
+      "rewards/margins_std": 0.4740964472293854,
+      "rewards/rejected": -0.30627113580703735,
+      "step": 250
+    },
+    {
+      "dpo_losses": 0.4628082811832428,
+      "epoch": 0.73,
+      "grad_norm": 2.699692592075128,
+      "learning_rate": 1.0166289402331391e-06,
+      "logits/chosen": -2.7728962898254395,
+      "logits/rejected": -2.684753894805908,
+      "logps/chosen": -263.36126708984375,
+      "logps/rejected": -289.21661376953125,
+      "loss": 0.5624,
+      "positive_losses": 0.9304378628730774,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.28732261061668396,
+      "rewards/margins": 0.5901791453361511,
+      "rewards/margins_max": 1.102694034576416,
+      "rewards/margins_min": 0.17682021856307983,
+      "rewards/margins_std": 0.4229150712490082,
+      "rewards/rejected": -0.30285659432411194,
+      "step": 260
+    },
+    {
+      "dpo_losses": 0.4588424265384674,
+      "epoch": 0.76,
+      "grad_norm": 2.4735784513371377,
+      "learning_rate": 8.259540650444736e-07,
+      "logits/chosen": -2.717153787612915,
+      "logits/rejected": -2.662932872772217,
+      "logps/chosen": -278.75482177734375,
+      "logps/rejected": -291.56866455078125,
+      "loss": 0.5853,
+      "positive_losses": 0.9098857641220093,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.30360764265060425,
+      "rewards/margins": 0.5942984223365784,
+      "rewards/margins_max": 1.0322821140289307,
+      "rewards/margins_min": 0.21275146305561066,
+      "rewards/margins_std": 0.36198341846466064,
+      "rewards/rejected": -0.2906908392906189,
+      "step": 270
+    },
+    {
+      "dpo_losses": 0.4629085958003998,
+      "epoch": 0.79,
+      "grad_norm": 13.451546074592132,
+      "learning_rate": 6.515023221586722e-07,
+      "logits/chosen": -2.6962451934814453,
+      "logits/rejected": -2.6575076580047607,
+      "logps/chosen": -274.9664001464844,
+      "logps/rejected": -304.9722595214844,
+      "loss": 0.5625,
+      "positive_losses": 1.4465850591659546,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2849060893058777,
+      "rewards/margins": 0.60865718126297,
+      "rewards/margins_max": 1.1329301595687866,
+      "rewards/margins_min": 0.1755952537059784,
+      "rewards/margins_std": 0.4414794445037842,
+      "rewards/rejected": -0.3237510919570923,
+      "step": 280
+    },
+    {
+      "dpo_losses": 0.47258663177490234,
+      "epoch": 0.82,
+      "grad_norm": 2.654477953260434,
+      "learning_rate": 4.949643185335288e-07,
+      "logits/chosen": -2.707307815551758,
+      "logits/rejected": -2.652792453765869,
+      "logps/chosen": -259.1030578613281,
+      "logps/rejected": -292.6324462890625,
+      "loss": 0.6149,
+      "positive_losses": 1.7202523946762085,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.27813172340393066,
+      "rewards/margins": 0.5642735958099365,
+      "rewards/margins_max": 1.0385398864746094,
+      "rewards/margins_min": 0.12702254951000214,
+      "rewards/margins_std": 0.4158683717250824,
+      "rewards/rejected": -0.28614187240600586,
+      "step": 290
+    },
+    {
+      "dpo_losses": 0.4324049949645996,
+      "epoch": 0.85,
+      "grad_norm": 11.591501845708454,
+      "learning_rate": 3.578570595810274e-07,
+      "logits/chosen": -2.7821717262268066,
+      "logits/rejected": -2.6995315551757812,
+      "logps/chosen": -309.7518310546875,
+      "logps/rejected": -320.70916748046875,
+      "loss": 0.4748,
+      "positive_losses": 0.8444260358810425,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.3676120638847351,
+      "rewards/margins": 0.6803697943687439,
+      "rewards/margins_max": 1.199285864830017,
+      "rewards/margins_min": 0.21351738274097443,
+      "rewards/margins_std": 0.4415613114833832,
+      "rewards/rejected": -0.312757670879364,
+      "step": 300
+    },
+    {
+      "epoch": 0.85,
+      "eval_dpo_losses": 0.6448404788970947,
+      "eval_logits/chosen": -2.715327739715576,
+      "eval_logits/rejected": -2.6732916831970215,
+      "eval_logps/chosen": -284.4527587890625,
+      "eval_logps/rejected": -271.32244873046875,
+      "eval_loss": 1.6048117876052856,
+      "eval_positive_losses": 8.706162452697754,
+      "eval_rewards/accuracies": 0.6470000147819519,
+      "eval_rewards/chosen": 0.0014067561132833362,
+      "eval_rewards/margins": 0.12884218990802765,
+      "eval_rewards/margins_max": 0.6374967098236084,
+      "eval_rewards/margins_min": -0.34605804085731506,
+      "eval_rewards/margins_std": 0.3295030891895294,
+      "eval_rewards/rejected": -0.12743544578552246,
+      "eval_runtime": 428.2498,
+      "eval_samples_per_second": 4.67,
+      "eval_steps_per_second": 0.292,
+      "step": 300
+    },
+    {
+      "dpo_losses": 0.45941466093063354,
+      "epoch": 0.87,
+      "grad_norm": 2.6085680781835205,
+      "learning_rate": 2.4150924791035037e-07,
+      "logits/chosen": -2.774445056915283,
+      "logits/rejected": -2.673360824584961,
+      "logps/chosen": -267.74237060546875,
+      "logps/rejected": -243.88473510742188,
+      "loss": 0.5697,
+      "positive_losses": 1.3653801679611206,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.30073457956314087,
+      "rewards/margins": 0.5973426699638367,
+      "rewards/margins_max": 1.1060882806777954,
+      "rewards/margins_min": 0.18351522088050842,
+      "rewards/margins_std": 0.4086340069770813,
+      "rewards/rejected": -0.2966081500053406,
+      "step": 310
+    },
+    {
+      "dpo_losses": 0.45310109853744507,
+      "epoch": 0.9,
+      "grad_norm": 10.060071948421735,
+      "learning_rate": 1.4704840690808658e-07,
+      "logits/chosen": -2.738978385925293,
+      "logits/rejected": -2.680860757827759,
+      "logps/chosen": -279.5138854980469,
+      "logps/rejected": -293.9893493652344,
+      "loss": 0.5692,
+      "positive_losses": 1.6892318725585938,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.2875928282737732,
+      "rewards/margins": 0.6207860708236694,
+      "rewards/margins_max": 1.124011754989624,
+      "rewards/margins_min": 0.14557920396327972,
+      "rewards/margins_std": 0.44626301527023315,
+      "rewards/rejected": -0.33319321274757385,
+      "step": 320
+    },
+    {
+      "dpo_losses": 0.42673492431640625,
+      "epoch": 0.93,
+      "grad_norm": 9.476085880429812,
+      "learning_rate": 7.538995394063996e-08,
+      "logits/chosen": -2.8187005519866943,
+      "logits/rejected": -2.7311813831329346,
+      "logps/chosen": -318.88360595703125,
+      "logps/rejected": -302.66058349609375,
+      "loss": 0.5314,
+      "positive_losses": 0.5069873929023743,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.35436224937438965,
+      "rewards/margins": 0.7115713953971863,
+      "rewards/margins_max": 1.23550546169281,
+      "rewards/margins_min": 0.2139424830675125,
+      "rewards/margins_std": 0.4558965563774109,
+      "rewards/rejected": -0.35720914602279663,
+      "step": 330
+    },
+    {
+      "dpo_losses": 0.4437997341156006,
+      "epoch": 0.96,
+      "grad_norm": 2.682118994824555,
+      "learning_rate": 2.722832907015971e-08,
+      "logits/chosen": -2.6981847286224365,
+      "logits/rejected": -2.6440398693084717,
+      "logps/chosen": -266.6497802734375,
+      "logps/rejected": -282.98199462890625,
+      "loss": 0.5024,
+      "positive_losses": 0.9627658724784851,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.3319571018218994,
+      "rewards/margins": 0.6500804424285889,
+      "rewards/margins_max": 1.2494922876358032,
+      "rewards/margins_min": 0.25120097398757935,
+      "rewards/margins_std": 0.4507668614387512,
+      "rewards/rejected": -0.31812337040901184,
+      "step": 340
+    },
+    {
+      "dpo_losses": 0.4518283009529114,
+      "epoch": 0.99,
+      "grad_norm": 5.762126574549782,
+      "learning_rate": 3.030265255329623e-09,
+      "logits/chosen": -2.6820361614227295,
+      "logits/rejected": -2.6376953125,
+      "logps/chosen": -285.1527404785156,
+      "logps/rejected": -317.6675720214844,
+      "loss": 0.5059,
+      "positive_losses": 0.9290813207626343,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2980636656284332,
+      "rewards/margins": 0.6102195978164673,
+      "rewards/margins_max": 1.0686355829238892,
+      "rewards/margins_min": 0.20541608333587646,
+      "rewards/margins_std": 0.38572338223457336,
+      "rewards/rejected": -0.31215590238571167,
+      "step": 350
+    },
+    {
+      "epoch": 1.0,
+      "step": 355,
+      "total_flos": 0.0,
+      "train_loss": 0.5743894765074824,
+      "train_runtime": 4311.1014,
+      "train_samples_per_second": 1.317,
+      "train_steps_per_second": 0.082
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 355,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}