Model save

Browse files

Files changed (12) hide show

README.md +19 -23
all_results.json +15 -15
config.json +1 -1
eval_results.json +11 -11
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jun24_18-16-23_facf8d095d45/events.out.tfevents.1719253006.facf8d095d45.359765.0 +3 -0
runs/Jun24_18-16-23_facf8d095d45/events.out.tfevents.1719273985.facf8d095d45.359765.1 +3 -0
train_results.json +4 -4
trainer_state.json +950 -950
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -2,13 +2,9 @@
 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
-- alignment-handbook
-- generated_from_trainer
 - trl
 - dpo
 - generated_from_trainer
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b-dpo-full
   results: []
@@ -19,17 +15,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-full
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4993
-- Rewards/chosen: -1.3296
-- Rewards/rejected: -2.3308
-- Rewards/accuracies: 0.7718
-- Rewards/margins: 1.0012
-- Logps/rejected: -494.8592
-- Logps/chosen: -417.0712
-- Logits/rejected: 2.8442
-- Logits/chosen: 2.1731
 ## Model description
@@ -66,15 +62,15 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6359        | 0.1   | 100  | 0.6497          | -0.5228        | -0.6565          | 0.6766             | 0.1337          | -327.4267      | -336.3859    | -2.5311         | -2.5647       |
-| 0.5609        | 0.21  | 200  | 0.5503          | -1.0030        | -1.6845          | 0.7599             | 0.6814          | -430.2245      | -384.4107    | 0.3543          | -0.0049       |
-| 0.515         | 0.31  | 300  | 0.5301          | -1.0052        | -1.8726          | 0.7659             | 0.8674          | -449.0401      | -384.6346    | 0.9044          | 0.2913        |
-| 0.49          | 0.42  | 400  | 0.5220          | -1.2561        | -2.1216          | 0.7599             | 0.8655          | -473.9429      | -409.7225    | 2.0848          | 1.5415        |
-| 0.513         | 0.52  | 500  | 0.5144          | -1.2211        | -2.1313          | 0.7599             | 0.9101          | -474.9064      | -406.2240    | 2.7724          | 2.2683        |
-| 0.491         | 0.63  | 600  | 0.5091          | -1.2471        | -2.2323          | 0.7698             | 0.9852          | -485.0119      | -408.8233    | 3.0663          | 2.4025        |
-| 0.4633        | 0.73  | 700  | 0.5028          | -1.3279        | -2.2883          | 0.7798             | 0.9605          | -490.6107      | -416.8968    | 2.7686          | 2.1855        |
-| 0.4676        | 0.84  | 800  | 0.5004          | -1.4612        | -2.4850          | 0.7679             | 1.0239          | -510.2817      | -430.2271    | 3.0074          | 2.3628        |
-| 0.4959        | 0.94  | 900  | 0.4994          | -1.3270        | -2.3263          | 0.7738             | 0.9992          | -494.4040      | -416.8122    | 2.8412          | 2.1702        |
 ### Framework versions

 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: zephyr-7b-dpo-full
   results: []
 # zephyr-7b-dpo-full
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6712
+- Rewards/chosen: -2.0287
+- Rewards/rejected: -3.3245
+- Rewards/accuracies: 0.7639
+- Rewards/margins: 1.2958
+- Logps/rejected: -594.2247
+- Logps/chosen: -486.9804
+- Logits/rejected: 3.7376
+- Logits/chosen: 2.4533
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.8957        | 0.1   | 100  | 0.9028          | -0.5210        | -0.6849          | 0.6905             | 0.1639          | -330.2668      | -336.2060    | -2.5107         | -2.5460       |
+| 0.7658        | 0.21  | 200  | 0.7650          | -0.9414        | -1.6932          | 0.7460             | 0.7519          | -431.1015      | -378.2476    | 0.3347          | -0.1529       |
+| 0.7079        | 0.31  | 300  | 0.7289          | -1.3837        | -2.4868          | 0.7560             | 1.1031          | -510.4591      | -422.4754    | 1.8370          | 0.8744        |
+| 0.6806        | 0.42  | 400  | 0.7040          | -1.3285        | -2.4190          | 0.7698             | 1.0904          | -503.6740      | -416.9630    | 1.2713          | 0.0992        |
+| 0.7129        | 0.52  | 500  | 0.6980          | -1.4621        | -2.5268          | 0.7440             | 1.0648          | -514.4609      | -430.3167    | 2.3343          | 1.4091        |
+| 0.6636        | 0.63  | 600  | 0.6877          | -1.3328        | -2.5188          | 0.75               | 1.1861          | -513.6627      | -417.3850    | 2.2082          | 0.7470        |
+| 0.6217        | 0.73  | 700  | 0.6762          | -1.8908        | -3.1786          | 0.7698             | 1.2878          | -579.6354      | -473.1887    | 3.8163          | 2.5932        |
+| 0.6418        | 0.84  | 800  | 0.6712          | -2.0993        | -3.4028          | 0.7679             | 1.3035          | -602.0607      | -494.0422    | 3.8655          | 2.6092        |
+| 0.6678        | 0.94  | 900  | 0.6716          | -2.0307        | -3.3233          | 0.7639             | 1.2926          | -594.1103      | -487.1844    | 3.7332          | 2.4518        |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 2.1731138229370117,
-    "eval_logits/rejected": 2.8442113399505615,
-    "eval_logps/chosen": -417.0711669921875,
-    "eval_logps/rejected": -494.8591613769531,
-    "eval_loss": 0.4992651343345642,
-    "eval_rewards/accuracies": 0.77182537317276,
-    "eval_rewards/chosen": -1.329614520072937,
-    "eval_rewards/margins": 1.00119149684906,
-    "eval_rewards/rejected": -2.330806255340576,
-    "eval_runtime": 243.9609,
     "eval_samples": 2000,
-    "eval_samples_per_second": 8.198,
     "eval_steps_per_second": 0.258,
-    "train_loss": 0.5295458661324066,
-    "train_runtime": 21408.4408,
     "train_samples": 61135,
-    "train_samples_per_second": 2.856,
-    "train_steps_per_second": 0.045
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 2.4533472061157227,
+    "eval_logits/rejected": 3.7376418113708496,
+    "eval_logps/chosen": -486.9803771972656,
+    "eval_logps/rejected": -594.2247314453125,
+    "eval_loss": 0.6712061166763306,
+    "eval_rewards/accuracies": 0.7638888955116272,
+    "eval_rewards/chosen": -2.0287060737609863,
+    "eval_rewards/margins": 1.2957550287246704,
+    "eval_rewards/rejected": -3.324460983276367,
+    "eval_runtime": 244.3063,
     "eval_samples": 2000,
+    "eval_samples_per_second": 8.186,
     "eval_steps_per_second": 0.258,
+    "train_loss": 0.7263204834224042,
+    "train_runtime": 20734.7169,
     "train_samples": 61135,
+    "train_samples_per_second": 2.948,
+    "train_steps_per_second": 0.046
 }

config.json CHANGED Viewed

@@ -21,6 +21,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.2",
-  "use_cache": true,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.2",
+  "use_cache": false,
   "vocab_size": 32000
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 2.1731138229370117,
-    "eval_logits/rejected": 2.8442113399505615,
-    "eval_logps/chosen": -417.0711669921875,
-    "eval_logps/rejected": -494.8591613769531,
-    "eval_loss": 0.4992651343345642,
-    "eval_rewards/accuracies": 0.77182537317276,
-    "eval_rewards/chosen": -1.329614520072937,
-    "eval_rewards/margins": 1.00119149684906,
-    "eval_rewards/rejected": -2.330806255340576,
-    "eval_runtime": 243.9609,
     "eval_samples": 2000,
-    "eval_samples_per_second": 8.198,
     "eval_steps_per_second": 0.258
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 2.4533472061157227,
+    "eval_logits/rejected": 3.7376418113708496,
+    "eval_logps/chosen": -486.9803771972656,
+    "eval_logps/rejected": -594.2247314453125,
+    "eval_loss": 0.6712061166763306,
+    "eval_rewards/accuracies": 0.7638888955116272,
+    "eval_rewards/chosen": -2.0287060737609863,
+    "eval_rewards/margins": 1.2957550287246704,
+    "eval_rewards/rejected": -3.324460983276367,
+    "eval_runtime": 244.3063,
     "eval_samples": 2000,
+    "eval_samples_per_second": 8.186,
     "eval_steps_per_second": 0.258
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a892e6108f6000fe3167ac0ebb202bc51c830b6d89320780ddfc3ef54029e44
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b1e9e9688ce643625583017cfcba65fa8ff37865db15e78443ca69585dd2607
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e6d783a1238baa5b5f683c0908c62994fdb9f3dda2a74bdcf60d8399fb4f084
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c520ae489cc180f688441279cef32fac2764d4f58b2900b8450d180cbd2d1e3
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cab617c906e0c3ff6b4420793df6ed06ae053d27f7de8293d12732e306cbeb7
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7e6172e143dd652d2e901dbedaaa58e54a6eb5247664e6c4669fa1dfb45b15f
 size 4540516344

runs/Jun24_18-16-23_facf8d095d45/events.out.tfevents.1719253006.facf8d095d45.359765.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86428da338c601f6b6affd0dcfe571ba509fb0cd7cee84ad60687dc019f8af40
+size 72293

runs/Jun24_18-16-23_facf8d095d45/events.out.tfevents.1719273985.facf8d095d45.359765.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fac01b95a1acb80341bf4c6df1e45b03a848e7e418301c9e1ed5aa85b5589458
+size 828

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5295458661324066,
-    "train_runtime": 21408.4408,
     "train_samples": 61135,
-    "train_samples_per_second": 2.856,
-    "train_steps_per_second": 0.045
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.7263204834224042,
+    "train_runtime": 20734.7169,
     "train_samples": 61135,
+    "train_samples_per_second": 2.948,
+    "train_steps_per_second": 0.046
 }

trainer_state.json CHANGED Viewed

@@ -15,7 +15,7 @@
       "logits/rejected": -2.686896800994873,
       "logps/chosen": -229.94229125976562,
       "logps/rejected": -214.70114135742188,
-      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -25,1492 +25,1492 @@
     {
       "epoch": 0.01,
       "learning_rate": 5.208333333333333e-08,
-      "logits/chosen": -2.6808853149414062,
-      "logits/rejected": -2.7088348865509033,
-      "logps/chosen": -295.84722900390625,
-      "logps/rejected": -250.60598754882812,
-      "loss": 0.6932,
-      "rewards/accuracies": 0.4583333432674408,
-      "rewards/chosen": 2.2828255168860778e-05,
-      "rewards/margins": -5.2194358431734145e-05,
-      "rewards/rejected": 7.502263906644657e-05,
       "step": 10
     },
     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.6196653842926025,
-      "logits/rejected": -2.6258511543273926,
-      "logps/chosen": -271.2942810058594,
-      "logps/rejected": -246.940185546875,
-      "loss": 0.6929,
-      "rewards/accuracies": 0.5,
-      "rewards/chosen": 0.0005789586575701833,
-      "rewards/margins": 0.0010592096950858831,
-      "rewards/rejected": -0.0004802510084118694,
       "step": 20
     },
     {
       "epoch": 0.03,
       "learning_rate": 1.5624999999999999e-07,
-      "logits/chosen": -2.7037882804870605,
-      "logits/rejected": -2.666579484939575,
-      "logps/chosen": -278.3568115234375,
-      "logps/rejected": -254.5241241455078,
-      "loss": 0.6926,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.0008040089160203934,
-      "rewards/margins": 0.0013185159768909216,
-      "rewards/rejected": -0.0005145071190781891,
       "step": 30
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -2.6501824855804443,
-      "logits/rejected": -2.637791395187378,
-      "logps/chosen": -273.8215637207031,
-      "logps/rejected": -237.7809600830078,
-      "loss": 0.6907,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": 0.004025370813906193,
-      "rewards/margins": 0.007183588109910488,
-      "rewards/rejected": -0.0031582186929881573,
       "step": 40
     },
     {
       "epoch": 0.05,
       "learning_rate": 2.604166666666667e-07,
-      "logits/chosen": -2.6747143268585205,
-      "logits/rejected": -2.63855242729187,
-      "logps/chosen": -296.03778076171875,
-      "logps/rejected": -274.6916809082031,
-      "loss": 0.6864,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": 0.00938174407929182,
-      "rewards/margins": 0.01614220067858696,
-      "rewards/rejected": -0.00676045473664999,
       "step": 50
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -2.6307215690612793,
-      "logits/rejected": -2.6333343982696533,
-      "logps/chosen": -285.3677062988281,
-      "logps/rejected": -274.3479309082031,
-      "loss": 0.6804,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.02419787459075451,
-      "rewards/margins": 0.02778133749961853,
-      "rewards/rejected": -0.0035834647715091705,
       "step": 60
     },
     {
       "epoch": 0.07,
       "learning_rate": 3.645833333333333e-07,
-      "logits/chosen": -2.6513328552246094,
-      "logits/rejected": -2.686645984649658,
-      "logps/chosen": -310.8687438964844,
-      "logps/rejected": -290.38031005859375,
-      "loss": 0.6672,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.03635421395301819,
-      "rewards/margins": 0.05565086752176285,
-      "rewards/rejected": -0.01929665170609951,
       "step": 70
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.5258519649505615,
-      "logits/rejected": -2.468043327331543,
-      "logps/chosen": -304.2803649902344,
-      "logps/rejected": -281.13604736328125,
-      "loss": 0.644,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.03719509392976761,
-      "rewards/margins": 0.11543086916208267,
-      "rewards/rejected": -0.15262596309185028,
       "step": 80
     },
     {
       "epoch": 0.09,
       "learning_rate": 4.6874999999999996e-07,
-      "logits/chosen": -2.531845808029175,
-      "logits/rejected": -2.5026631355285645,
-      "logps/chosen": -291.836181640625,
-      "logps/rejected": -283.42706298828125,
-      "loss": 0.6348,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.0002045964793069288,
-      "rewards/margins": 0.17069891095161438,
-      "rewards/rejected": -0.17049431800842285,
       "step": 90
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.999732492681437e-07,
-      "logits/chosen": -2.497889757156372,
-      "logits/rejected": -2.487199306488037,
-      "logps/chosen": -337.8491516113281,
-      "logps/rejected": -340.85809326171875,
-      "loss": 0.6359,
       "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.32423847913742065,
-      "rewards/margins": 0.16256344318389893,
-      "rewards/rejected": -0.4868019223213196,
       "step": 100
     },
     {
       "epoch": 0.1,
-      "eval_logits/chosen": -2.564718008041382,
-      "eval_logits/rejected": -2.53108549118042,
-      "eval_logps/chosen": -336.38592529296875,
-      "eval_logps/rejected": -327.4267272949219,
-      "eval_loss": 0.6497124433517456,
-      "eval_rewards/accuracies": 0.6765872836112976,
-      "eval_rewards/chosen": -0.5227616429328918,
-      "eval_rewards/margins": 0.13372045755386353,
-      "eval_rewards/rejected": -0.6564821600914001,
-      "eval_runtime": 243.9804,
-      "eval_samples_per_second": 8.197,
-      "eval_steps_per_second": 0.258,
       "step": 100
     },
     {
       "epoch": 0.12,
       "learning_rate": 4.996723692767926e-07,
-      "logits/chosen": -2.459810733795166,
-      "logits/rejected": -2.393411636352539,
-      "logps/chosen": -339.1122741699219,
-      "logps/rejected": -311.82769775390625,
-      "loss": 0.6391,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.7878889441490173,
-      "rewards/margins": 0.16021695733070374,
-      "rewards/rejected": -0.9481059312820435,
       "step": 110
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.990375746213598e-07,
-      "logits/chosen": -2.3250021934509277,
-      "logits/rejected": -2.2410531044006348,
-      "logps/chosen": -377.79180908203125,
-      "logps/rejected": -354.20977783203125,
-      "loss": 0.6137,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.7221530675888062,
-      "rewards/margins": 0.2862502932548523,
-      "rewards/rejected": -1.0084033012390137,
       "step": 120
     },
     {
       "epoch": 0.14,
       "learning_rate": 4.980697142834314e-07,
-      "logits/chosen": -2.118708848953247,
-      "logits/rejected": -1.9641555547714233,
-      "logps/chosen": -409.3984680175781,
-      "logps/rejected": -392.3823547363281,
-      "loss": 0.6,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.891018271446228,
-      "rewards/margins": 0.33814504742622375,
-      "rewards/rejected": -1.2291632890701294,
       "step": 130
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.967700826904229e-07,
-      "logits/chosen": -1.0956144332885742,
-      "logits/rejected": -1.0446064472198486,
-      "logps/chosen": -306.23236083984375,
-      "logps/rejected": -339.3392639160156,
-      "loss": 0.5511,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.6644871830940247,
-      "rewards/margins": 0.4738723337650299,
-      "rewards/rejected": -1.1383594274520874,
       "step": 140
     },
     {
       "epoch": 0.16,
       "learning_rate": 4.951404179843962e-07,
-      "logits/chosen": -1.1295273303985596,
-      "logits/rejected": -1.1123173236846924,
-      "logps/chosen": -344.6251220703125,
-      "logps/rejected": -387.8667297363281,
-      "loss": 0.6012,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.6758090853691101,
-      "rewards/margins": 0.35659271478652954,
-      "rewards/rejected": -1.0324018001556396,
       "step": 150
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.931828996974498e-07,
-      "logits/chosen": -1.5214803218841553,
-      "logits/rejected": -1.17283034324646,
-      "logps/chosen": -371.93804931640625,
-      "logps/rejected": -402.75628662109375,
-      "loss": 0.5542,
       "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.7613044381141663,
-      "rewards/margins": 0.3605394959449768,
-      "rewards/rejected": -1.1218438148498535,
       "step": 160
     },
     {
       "epoch": 0.18,
       "learning_rate": 4.909001458367866e-07,
-      "logits/chosen": 0.024106794968247414,
-      "logits/rejected": -0.007686579134315252,
-      "logps/chosen": -420.8289489746094,
-      "logps/rejected": -456.450439453125,
-      "loss": 0.5631,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.4776414632797241,
-      "rewards/margins": 0.614984393119812,
-      "rewards/rejected": -2.092625856399536,
       "step": 170
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.882952093833627e-07,
-      "logits/chosen": 0.17635126411914825,
-      "logits/rejected": 0.3050743639469147,
-      "logps/chosen": -359.55633544921875,
-      "logps/rejected": -410.02191162109375,
-      "loss": 0.5361,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.1035659313201904,
-      "rewards/margins": 0.6763278245925903,
-      "rewards/rejected": -1.7798936367034912,
       "step": 180
     },
     {
       "epoch": 0.2,
       "learning_rate": 4.853715742087946e-07,
-      "logits/chosen": 0.14620204269886017,
-      "logits/rejected": 0.6025527715682983,
-      "logps/chosen": -390.93023681640625,
-      "logps/rejected": -438.7168884277344,
-      "loss": 0.533,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.120954155921936,
-      "rewards/margins": 0.7051862478256226,
-      "rewards/rejected": -1.8261404037475586,
       "step": 190
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.821331504159906e-07,
-      "logits/chosen": 0.39229562878608704,
-      "logits/rejected": 0.8097684979438782,
-      "logps/chosen": -403.7792053222656,
-      "logps/rejected": -453.61492919921875,
-      "loss": 0.5609,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.1711080074310303,
-      "rewards/margins": 0.6101128458976746,
-      "rewards/rejected": -1.7812210321426392,
       "step": 200
     },
     {
       "epoch": 0.21,
-      "eval_logits/chosen": -0.004928875248879194,
-      "eval_logits/rejected": 0.35432979464530945,
-      "eval_logps/chosen": -384.41070556640625,
-      "eval_logps/rejected": -430.2244873046875,
-      "eval_loss": 0.550298810005188,
-      "eval_rewards/accuracies": 0.7599206566810608,
-      "eval_rewards/chosen": -1.0030099153518677,
-      "eval_rewards/margins": 0.681449294090271,
-      "eval_rewards/rejected": -1.6844590902328491,
-      "eval_runtime": 244.4844,
-      "eval_samples_per_second": 8.18,
-      "eval_steps_per_second": 0.258,
       "step": 200
     },
     {
       "epoch": 0.22,
       "learning_rate": 4.785842691097342e-07,
-      "logits/chosen": -0.22027039527893066,
-      "logits/rejected": 0.11937667429447174,
-      "logps/chosen": -391.0158996582031,
-      "logps/rejected": -396.7218322753906,
-      "loss": 0.5501,
       "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.857402503490448,
-      "rewards/margins": 0.570809006690979,
-      "rewards/rejected": -1.4282116889953613,
       "step": 210
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.7472967660421603e-07,
-      "logits/chosen": -0.046684689819812775,
-      "logits/rejected": 0.19581058621406555,
-      "logps/chosen": -383.0498962402344,
-      "logps/rejected": -437.441650390625,
-      "loss": 0.5486,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.9351595044136047,
-      "rewards/margins": 0.6760483384132385,
-      "rewards/rejected": -1.6112079620361328,
       "step": 220
     },
     {
       "epoch": 0.24,
       "learning_rate": 4.705745280752585e-07,
-      "logits/chosen": -0.4610627293586731,
-      "logits/rejected": -0.08335449546575546,
-      "logps/chosen": -404.11041259765625,
-      "logps/rejected": -432.98236083984375,
-      "loss": 0.5472,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.103994607925415,
-      "rewards/margins": 0.7393767833709717,
-      "rewards/rejected": -1.8433713912963867,
       "step": 230
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.6612438066572555e-07,
-      "logits/chosen": -0.34058791399002075,
-      "logits/rejected": 0.255656898021698,
-      "logps/chosen": -370.15185546875,
-      "logps/rejected": -384.154541015625,
-      "loss": 0.5233,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.9289584159851074,
-      "rewards/margins": 0.6521793603897095,
-      "rewards/rejected": -1.5811378955841064,
       "step": 240
     },
     {
       "epoch": 0.26,
       "learning_rate": 4.6138518605333664e-07,
-      "logits/chosen": 0.10690119117498398,
-      "logits/rejected": 0.25003090500831604,
-      "logps/chosen": -375.705810546875,
-      "logps/rejected": -448.9117126464844,
-      "loss": 0.5455,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.0811748504638672,
-      "rewards/margins": 0.5937505960464478,
-      "rewards/rejected": -1.674925446510315,
       "step": 250
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.5636328249082514e-07,
-      "logits/chosen": -0.6711705327033997,
-      "logits/rejected": -0.24552011489868164,
-      "logps/chosen": -369.1128845214844,
-      "logps/rejected": -404.0663146972656,
-      "loss": 0.5359,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.8505151867866516,
-      "rewards/margins": 0.611486554145813,
-      "rewards/rejected": -1.4620015621185303,
       "step": 260
     },
     {
       "epoch": 0.28,
       "learning_rate": 4.510653863290871e-07,
-      "logits/chosen": -0.5455327033996582,
-      "logits/rejected": -0.040910232812166214,
-      "logps/chosen": -405.8040771484375,
-      "logps/rejected": -431.89044189453125,
-      "loss": 0.5219,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.0395045280456543,
-      "rewards/margins": 0.7771880030632019,
-      "rewards/rejected": -1.816692590713501,
       "step": 270
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.4549858303465737e-07,
-      "logits/chosen": -0.3963968753814697,
-      "logits/rejected": 0.058730434626340866,
-      "logps/chosen": -409.90142822265625,
-      "logps/rejected": -475.1370544433594,
-      "loss": 0.5194,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.1871297359466553,
-      "rewards/margins": 0.7304742932319641,
-      "rewards/rejected": -1.9176040887832642,
       "step": 280
     },
     {
       "epoch": 0.3,
       "learning_rate": 4.396703177135261e-07,
-      "logits/chosen": -0.1521393358707428,
-      "logits/rejected": 0.2662551999092102,
-      "logps/chosen": -398.43560791015625,
-      "logps/rejected": -436.71746826171875,
-      "loss": 0.5199,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.1340547800064087,
-      "rewards/margins": 0.7097210884094238,
-      "rewards/rejected": -1.843775987625122,
       "step": 290
     },
     {
       "epoch": 0.31,
       "learning_rate": 4.335883851539693e-07,
-      "logits/chosen": 0.4186009466648102,
-      "logits/rejected": 0.993320107460022,
-      "logps/chosen": -386.4576110839844,
-      "logps/rejected": -449.5475158691406,
-      "loss": 0.515,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.0302515029907227,
-      "rewards/margins": 0.9557968378067017,
-      "rewards/rejected": -1.9860484600067139,
       "step": 300
     },
     {
       "epoch": 0.31,
-      "eval_logits/chosen": 0.29125669598579407,
-      "eval_logits/rejected": 0.9044150114059448,
-      "eval_logps/chosen": -384.6346435546875,
-      "eval_logps/rejected": -449.0400695800781,
-      "eval_loss": 0.5301220417022705,
-      "eval_rewards/accuracies": 0.7658730149269104,
-      "eval_rewards/chosen": -1.0052489042282104,
-      "eval_rewards/margins": 0.8673661351203918,
-      "eval_rewards/rejected": -1.872615098953247,
-      "eval_runtime": 242.7199,
-      "eval_samples_per_second": 8.24,
       "eval_steps_per_second": 0.26,
       "step": 300
     },
     {
       "epoch": 0.32,
       "learning_rate": 4.272609194017105e-07,
-      "logits/chosen": 0.7322943210601807,
-      "logits/rejected": 1.3608242273330688,
-      "logps/chosen": -382.03228759765625,
-      "logps/rejected": -473.8851623535156,
-      "loss": 0.471,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.9981803894042969,
-      "rewards/margins": 1.0494532585144043,
-      "rewards/rejected": -2.047633647918701,
       "step": 310
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.2069638288135547e-07,
-      "logits/chosen": 1.0567584037780762,
-      "logits/rejected": 1.544245719909668,
-      "logps/chosen": -416.4466857910156,
-      "logps/rejected": -475.4097595214844,
-      "loss": 0.5231,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.3479177951812744,
-      "rewards/margins": 0.7124323844909668,
-      "rewards/rejected": -2.060349941253662,
       "step": 320
     },
     {
       "epoch": 0.35,
       "learning_rate": 4.139035550786494e-07,
-      "logits/chosen": 0.6867846250534058,
-      "logits/rejected": 1.0369207859039307,
-      "logps/chosen": -385.1805725097656,
-      "logps/rejected": -399.9478759765625,
-      "loss": 0.55,
       "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.0560498237609863,
-      "rewards/margins": 0.6113256216049194,
-      "rewards/rejected": -1.6673755645751953,
       "step": 330
     },
     {
       "epoch": 0.36,
       "learning_rate": 4.0689152079869306e-07,
-      "logits/chosen": 0.10372958332300186,
-      "logits/rejected": 0.788400411605835,
-      "logps/chosen": -329.7562561035156,
-      "logps/rejected": -365.8982849121094,
-      "loss": 0.5614,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.8400253057479858,
-      "rewards/margins": 0.576715350151062,
-      "rewards/rejected": -1.4167406558990479,
       "step": 340
     },
     {
       "epoch": 0.37,
       "learning_rate": 3.99669658015821e-07,
-      "logits/chosen": 0.8255292773246765,
-      "logits/rejected": 0.8684799075126648,
-      "logps/chosen": -378.26593017578125,
-      "logps/rejected": -455.6053161621094,
-      "loss": 0.5377,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.0613641738891602,
-      "rewards/margins": 0.7045412659645081,
-      "rewards/rejected": -1.7659053802490234,
       "step": 350
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.92247625331392e-07,
-      "logits/chosen": 1.5494980812072754,
-      "logits/rejected": 1.8511909246444702,
-      "logps/chosen": -408.739501953125,
-      "logps/rejected": -443.5703125,
-      "loss": 0.5162,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.2600252628326416,
-      "rewards/margins": 0.748504638671875,
-      "rewards/rejected": -2.0085299015045166,
       "step": 360
     },
     {
       "epoch": 0.39,
       "learning_rate": 3.846353490562664e-07,
-      "logits/chosen": 1.9055626392364502,
-      "logits/rejected": 1.9892339706420898,
-      "logps/chosen": -359.62933349609375,
-      "logps/rejected": -462.4502868652344,
-      "loss": 0.489,
       "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.19487726688385,
-      "rewards/margins": 0.8898428082466125,
-      "rewards/rejected": -2.0847198963165283,
       "step": 370
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.768430099352445e-07,
-      "logits/chosen": 0.5472872257232666,
-      "logits/rejected": 1.5718077421188354,
-      "logps/chosen": -404.38726806640625,
-      "logps/rejected": -468.7950134277344,
-      "loss": 0.4967,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.0777933597564697,
-      "rewards/margins": 0.98560631275177,
-      "rewards/rejected": -2.0634000301361084,
       "step": 380
     },
     {
       "epoch": 0.41,
       "learning_rate": 3.6888102953122304e-07,
-      "logits/chosen": 1.2810680866241455,
-      "logits/rejected": 1.808607816696167,
-      "logps/chosen": -383.5371398925781,
-      "logps/rejected": -442.24725341796875,
-      "loss": 0.5202,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.077757716178894,
-      "rewards/margins": 0.9933692812919617,
-      "rewards/rejected": -2.07112717628479,
       "step": 390
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.607600562872785e-07,
-      "logits/chosen": 1.4377835988998413,
-      "logits/rejected": 2.076244831085205,
-      "logps/chosen": -447.5244140625,
-      "logps/rejected": -489.15460205078125,
-      "loss": 0.49,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.4314160346984863,
-      "rewards/margins": 0.8051286935806274,
-      "rewards/rejected": -2.2365448474884033,
       "step": 400
     },
     {
       "epoch": 0.42,
-      "eval_logits/chosen": 1.5414855480194092,
-      "eval_logits/rejected": 2.0847771167755127,
-      "eval_logps/chosen": -409.72247314453125,
-      "eval_logps/rejected": -473.94293212890625,
-      "eval_loss": 0.5220484733581543,
-      "eval_rewards/accuracies": 0.7599206566810608,
-      "eval_rewards/chosen": -1.256127119064331,
-      "eval_rewards/margins": 0.8655170202255249,
-      "eval_rewards/rejected": -2.1216440200805664,
-      "eval_runtime": 243.1768,
-      "eval_samples_per_second": 8.224,
-      "eval_steps_per_second": 0.259,
       "step": 400
     },
     {
       "epoch": 0.43,
       "learning_rate": 3.5249095128531856e-07,
-      "logits/chosen": 0.9375486373901367,
-      "logits/rejected": 1.7120797634124756,
-      "logps/chosen": -432.73822021484375,
-      "logps/rejected": -490.5960388183594,
-      "loss": 0.5179,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.1888015270233154,
-      "rewards/margins": 0.8070329427719116,
-      "rewards/rejected": -1.9958345890045166,
       "step": 410
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.4408477372034736e-07,
-      "logits/chosen": 1.4186906814575195,
-      "logits/rejected": 2.430680274963379,
-      "logps/chosen": -378.02410888671875,
-      "logps/rejected": -412.11212158203125,
-      "loss": 0.5195,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.1391704082489014,
-      "rewards/margins": 0.682558000087738,
-      "rewards/rejected": -1.8217283487319946,
       "step": 420
     },
     {
       "epoch": 0.45,
       "learning_rate": 3.3555276610977276e-07,
-      "logits/chosen": 1.6119515895843506,
-      "logits/rejected": 2.5337882041931152,
-      "logps/chosen": -370.18365478515625,
-      "logps/rejected": -415.2383728027344,
-      "loss": 0.5362,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.0798513889312744,
-      "rewards/margins": 0.6784455180168152,
-      "rewards/rejected": -1.7582969665527344,
       "step": 430
     },
     {
       "epoch": 0.46,
       "learning_rate": 3.269063392575352e-07,
-      "logits/chosen": 2.2136051654815674,
-      "logits/rejected": 1.8652782440185547,
-      "logps/chosen": -380.4514465332031,
-      "logps/rejected": -446.1416015625,
-      "loss": 0.5086,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.2145936489105225,
-      "rewards/margins": 0.7581223845481873,
-      "rewards/rejected": -1.9727160930633545,
       "step": 440
     },
     {
       "epoch": 0.47,
       "learning_rate": 3.1815705699316964e-07,
-      "logits/chosen": 2.1395087242126465,
-      "logits/rejected": 2.30427885055542,
-      "logps/chosen": -377.0716247558594,
-      "logps/rejected": -443.8544006347656,
-      "loss": 0.5254,
       "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.1291664838790894,
-      "rewards/margins": 0.8725690841674805,
-      "rewards/rejected": -2.0017354488372803,
       "step": 450
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.0931662070620794e-07,
-      "logits/chosen": 1.6911855936050415,
-      "logits/rejected": 2.427851438522339,
-      "logps/chosen": -370.693603515625,
-      "logps/rejected": -447.58087158203125,
-      "loss": 0.5114,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.056607961654663,
-      "rewards/margins": 0.851728618144989,
-      "rewards/rejected": -1.9083364009857178,
       "step": 460
     },
     {
       "epoch": 0.49,
       "learning_rate": 3.003968536966078e-07,
-      "logits/chosen": 1.9878408908843994,
-      "logits/rejected": 2.358523368835449,
-      "logps/chosen": -415.61767578125,
-      "logps/rejected": -470.3460388183594,
-      "loss": 0.4998,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.1741617918014526,
-      "rewards/margins": 0.9244480133056641,
-      "rewards/rejected": -2.0986099243164062,
       "step": 470
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9140968536213693e-07,
-      "logits/chosen": 2.476728916168213,
-      "logits/rejected": 3.153770923614502,
-      "logps/chosen": -372.2202453613281,
-      "logps/rejected": -451.8748474121094,
-      "loss": 0.536,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.3948185443878174,
-      "rewards/margins": 0.835403323173523,
-      "rewards/rejected": -2.230221748352051,
       "step": 480
     },
     {
       "epoch": 0.51,
       "learning_rate": 2.823671352438608e-07,
-      "logits/chosen": 2.6041836738586426,
-      "logits/rejected": 2.8176186084747314,
-      "logps/chosen": -410.2490234375,
-      "logps/rejected": -458.1270446777344,
-      "loss": 0.5011,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.3454747200012207,
-      "rewards/margins": 0.7420424818992615,
-      "rewards/rejected": -2.087517261505127,
       "step": 490
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.73281296951072e-07,
-      "logits/chosen": 2.672900676727295,
-      "logits/rejected": 2.895838975906372,
-      "logps/chosen": -403.9568176269531,
-      "logps/rejected": -479.48419189453125,
-      "loss": 0.513,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.3237491846084595,
-      "rewards/margins": 0.9759273529052734,
-      "rewards/rejected": -2.2996764183044434,
       "step": 500
     },
     {
       "epoch": 0.52,
-      "eval_logits/chosen": 2.26833438873291,
-      "eval_logits/rejected": 2.77244234085083,
-      "eval_logps/chosen": -406.2240295410156,
-      "eval_logps/rejected": -474.9063720703125,
-      "eval_loss": 0.514352023601532,
-      "eval_rewards/accuracies": 0.7599206566810608,
-      "eval_rewards/chosen": -1.2211425304412842,
-      "eval_rewards/margins": 0.9101356863975525,
-      "eval_rewards/rejected": -2.1312780380249023,
-      "eval_runtime": 243.5018,
-      "eval_samples_per_second": 8.213,
       "eval_steps_per_second": 0.259,
       "step": 500
     },
     {
       "epoch": 0.53,
       "learning_rate": 2.641643219871597e-07,
-      "logits/chosen": 2.788573741912842,
-      "logits/rejected": 3.020610809326172,
-      "logps/chosen": -422.2259826660156,
-      "logps/rejected": -471.6866760253906,
-      "loss": 0.4786,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.2089948654174805,
-      "rewards/margins": 0.9920150637626648,
-      "rewards/rejected": -2.201010227203369,
       "step": 510
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.550284034980507e-07,
-      "logits/chosen": 2.527721405029297,
-      "logits/rejected": 3.2578673362731934,
-      "logps/chosen": -401.86859130859375,
-      "logps/rejected": -482.77459716796875,
-      "loss": 0.4948,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.4271701574325562,
-      "rewards/margins": 0.8836954832077026,
-      "rewards/rejected": -2.310865879058838,
       "step": 520
     },
     {
       "epoch": 0.55,
       "learning_rate": 2.4588575996495794e-07,
-      "logits/chosen": 2.8696699142456055,
-      "logits/rejected": 3.047682285308838,
-      "logps/chosen": -423.1412658691406,
-      "logps/rejected": -492.03521728515625,
-      "loss": 0.4951,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.3899348974227905,
-      "rewards/margins": 0.9606618881225586,
-      "rewards/rejected": -2.3505969047546387,
       "step": 530
     },
     {
       "epoch": 0.57,
       "learning_rate": 2.367486188632446e-07,
-      "logits/chosen": 2.335068464279175,
-      "logits/rejected": 2.592519760131836,
-      "logps/chosen": -424.984619140625,
-      "logps/rejected": -532.7901611328125,
-      "loss": 0.4963,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.3082420825958252,
-      "rewards/margins": 1.017060399055481,
-      "rewards/rejected": -2.3253026008605957,
       "step": 540
     },
     {
       "epoch": 0.58,
       "learning_rate": 2.276292003092593e-07,
-      "logits/chosen": 2.321938991546631,
-      "logits/rejected": 2.639091968536377,
-      "logps/chosen": -382.3548889160156,
-      "logps/rejected": -459.89447021484375,
-      "loss": 0.5233,
       "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.1262718439102173,
-      "rewards/margins": 0.9929410815238953,
-      "rewards/rejected": -2.119213104248047,
       "step": 550
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.185397007170141e-07,
-      "logits/chosen": 2.198639154434204,
-      "logits/rejected": 2.4941821098327637,
-      "logps/chosen": -371.4447326660156,
-      "logps/rejected": -420.7642517089844,
-      "loss": 0.5109,
       "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.0467898845672607,
-      "rewards/margins": 0.8263680338859558,
-      "rewards/rejected": -1.8731578588485718,
       "step": 560
     },
     {
       "epoch": 0.6,
       "learning_rate": 2.094922764865619e-07,
-      "logits/chosen": 2.5213406085968018,
-      "logits/rejected": 3.0919876098632812,
-      "logps/chosen": -412.0347595214844,
-      "logps/rejected": -482.768310546875,
-      "loss": 0.5151,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.3589495420455933,
-      "rewards/margins": 0.8796421885490417,
-      "rewards/rejected": -2.2385916709899902,
       "step": 570
     },
     {
       "epoch": 0.61,
       "learning_rate": 2.0049902774588797e-07,
-      "logits/chosen": 2.797121047973633,
-      "logits/rejected": 3.2302756309509277,
-      "logps/chosen": -426.5211486816406,
-      "logps/rejected": -481.0498046875,
-      "loss": 0.5055,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.5260117053985596,
-      "rewards/margins": 0.9057762026786804,
-      "rewards/rejected": -2.4317879676818848,
       "step": 580
     },
     {
       "epoch": 0.62,
       "learning_rate": 1.9157198216806238e-07,
-      "logits/chosen": 2.2456047534942627,
-      "logits/rejected": 3.1839499473571777,
-      "logps/chosen": -393.4072265625,
-      "logps/rejected": -469.48699951171875,
-      "loss": 0.4999,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.2036212682724,
-      "rewards/margins": 0.6981213092803955,
-      "rewards/rejected": -1.9017425775527954,
       "step": 590
     },
     {
       "epoch": 0.63,
       "learning_rate": 1.8272307888529274e-07,
-      "logits/chosen": 2.4101009368896484,
-      "logits/rejected": 3.006639242172241,
-      "logps/chosen": -441.27850341796875,
-      "logps/rejected": -519.7681884765625,
-      "loss": 0.491,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.1530258655548096,
-      "rewards/margins": 0.9237845540046692,
-      "rewards/rejected": -2.076810359954834,
       "step": 600
     },
     {
       "epoch": 0.63,
-      "eval_logits/chosen": 2.4024722576141357,
-      "eval_logits/rejected": 3.066293239593506,
-      "eval_logps/chosen": -408.8233337402344,
-      "eval_logps/rejected": -485.0119323730469,
-      "eval_loss": 0.5090602040290833,
-      "eval_rewards/accuracies": 0.7698412537574768,
-      "eval_rewards/chosen": -1.2471359968185425,
-      "eval_rewards/margins": 0.985197901725769,
-      "eval_rewards/rejected": -2.2323336601257324,
-      "eval_runtime": 243.8184,
-      "eval_samples_per_second": 8.203,
       "eval_steps_per_second": 0.258,
       "step": 600
     },
     {
       "epoch": 0.64,
       "learning_rate": 1.7396415252139288e-07,
-      "logits/chosen": 2.587667465209961,
-      "logits/rejected": 3.437826633453369,
-      "logps/chosen": -402.96368408203125,
-      "logps/rejected": -446.577392578125,
-      "loss": 0.4763,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.2794382572174072,
-      "rewards/margins": 0.9419866800308228,
-      "rewards/rejected": -2.2214248180389404,
       "step": 610
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.6530691736402316e-07,
-      "logits/chosen": 2.719007968902588,
-      "logits/rejected": 3.1902639865875244,
-      "logps/chosen": -423.01019287109375,
-      "logps/rejected": -469.666015625,
-      "loss": 0.5028,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.5098216533660889,
-      "rewards/margins": 0.8855170011520386,
-      "rewards/rejected": -2.395338773727417,
       "step": 620
     },
     {
       "epoch": 0.66,
       "learning_rate": 1.5676295169786864e-07,
-      "logits/chosen": 3.1411049365997314,
-      "logits/rejected": 3.1890902519226074,
-      "logps/chosen": -398.02264404296875,
-      "logps/rejected": -505.4256896972656,
-      "loss": 0.4926,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.3643443584442139,
-      "rewards/margins": 1.135912299156189,
-      "rewards/rejected": -2.5002567768096924,
       "step": 630
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.483436823197092e-07,
-      "logits/chosen": 2.83595609664917,
-      "logits/rejected": 3.003196954727173,
-      "logps/chosen": -411.4205017089844,
-      "logps/rejected": -483.62841796875,
-      "loss": 0.5041,
       "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.267811894416809,
-      "rewards/margins": 0.9961770176887512,
-      "rewards/rejected": -2.263988971710205,
       "step": 640
     },
     {
       "epoch": 0.68,
       "learning_rate": 1.4006036925609243e-07,
-      "logits/chosen": 2.1980767250061035,
-      "logits/rejected": 2.824580669403076,
-      "logps/chosen": -456.74945068359375,
-      "logps/rejected": -491.14300537109375,
-      "loss": 0.5051,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.5043448209762573,
-      "rewards/margins": 0.7788913249969482,
-      "rewards/rejected": -2.283236503601074,
       "step": 650
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.319240907040458e-07,
-      "logits/chosen": 2.287083148956299,
-      "logits/rejected": 2.1161584854125977,
-      "logps/chosen": -436.58349609375,
-      "logps/rejected": -491.6561584472656,
-      "loss": 0.5061,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.3502460718154907,
-      "rewards/margins": 0.8958118557929993,
-      "rewards/rejected": -2.2460577487945557,
       "step": 660
     },
     {
       "epoch": 0.7,
       "learning_rate": 1.239457282149695e-07,
-      "logits/chosen": 2.343427896499634,
-      "logits/rejected": 3.018118381500244,
-      "logps/chosen": -414.76080322265625,
-      "logps/rejected": -491.9996032714844,
-      "loss": 0.495,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.3160669803619385,
-      "rewards/margins": 0.9166922569274902,
-      "rewards/rejected": -2.2327592372894287,
       "step": 670
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.1613595214152711e-07,
-      "logits/chosen": 2.526611328125,
-      "logits/rejected": 2.8271474838256836,
-      "logps/chosen": -384.0827941894531,
-      "logps/rejected": -420.9378967285156,
-      "loss": 0.5301,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -1.226110577583313,
-      "rewards/margins": 0.6014381647109985,
-      "rewards/rejected": -1.827548623085022,
       "step": 680
     },
     {
       "epoch": 0.72,
       "learning_rate": 1.0850520736699362e-07,
-      "logits/chosen": 2.0355257987976074,
-      "logits/rejected": 2.788853168487549,
-      "logps/chosen": -371.2467346191406,
-      "logps/rejected": -446.3160095214844,
-      "loss": 0.4871,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.0979232788085938,
-      "rewards/margins": 0.9463413953781128,
-      "rewards/rejected": -2.044264554977417,
       "step": 690
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.0106369933615042e-07,
-      "logits/chosen": 2.477355480194092,
-      "logits/rejected": 3.3466193675994873,
-      "logps/chosen": -396.9360046386719,
-      "logps/rejected": -487.60125732421875,
-      "loss": 0.4633,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.4273808002471924,
-      "rewards/margins": 1.0007905960083008,
-      "rewards/rejected": -2.428171157836914,
       "step": 700
     },
     {
       "epoch": 0.73,
-      "eval_logits/chosen": 2.1854751110076904,
-      "eval_logits/rejected": 2.7685647010803223,
-      "eval_logps/chosen": -416.8968200683594,
-      "eval_logps/rejected": -490.6107482910156,
-      "eval_loss": 0.5028179883956909,
-      "eval_rewards/accuracies": 0.7797619104385376,
-      "eval_rewards/chosen": -1.3278706073760986,
-      "eval_rewards/margins": 0.9604514837265015,
-      "eval_rewards/rejected": -2.2883219718933105,
-      "eval_runtime": 242.2153,
-      "eval_samples_per_second": 8.257,
-      "eval_steps_per_second": 0.26,
       "step": 700
     },
     {
       "epoch": 0.74,
       "learning_rate": 9.382138040640714e-08,
-      "logits/chosen": 2.2439451217651367,
-      "logits/rejected": 2.8265466690063477,
-      "logps/chosen": -438.583984375,
-      "logps/rejected": -455.88671875,
-      "loss": 0.4812,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.3366320133209229,
-      "rewards/margins": 0.816901683807373,
-      "rewards/rejected": -2.153533697128296,
       "step": 710
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.678793653740632e-08,
-      "logits/chosen": 2.6949150562286377,
-      "logits/rejected": 2.825409412384033,
-      "logps/chosen": -425.30352783203125,
-      "logps/rejected": -497.6205139160156,
-      "loss": 0.4781,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.3388516902923584,
-      "rewards/margins": 0.9720403552055359,
-      "rewards/rejected": -2.310892105102539,
       "step": 720
     },
     {
       "epoch": 0.76,
       "learning_rate": 7.997277433690983e-08,
-      "logits/chosen": 2.578017473220825,
-      "logits/rejected": 2.9378750324249268,
-      "logps/chosen": -436.74761962890625,
-      "logps/rejected": -476.82110595703125,
-      "loss": 0.4849,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.3285281658172607,
-      "rewards/margins": 0.9200865626335144,
-      "rewards/rejected": -2.24861478805542,
       "step": 730
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.338500848029602e-08,
-      "logits/chosen": 2.7751357555389404,
-      "logits/rejected": 3.201183319091797,
-      "logps/chosen": -449.5452575683594,
-      "logps/rejected": -511.21063232421875,
-      "loss": 0.4977,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.3524633646011353,
-      "rewards/margins": 1.1687639951705933,
-      "rewards/rejected": -2.5212273597717285,
       "step": 740
     },
     {
       "epoch": 0.78,
       "learning_rate": 6.70334495204884e-08,
-      "logits/chosen": 2.4888412952423096,
-      "logits/rejected": 2.952457904815674,
-      "logps/chosen": -420.580078125,
-      "logps/rejected": -510.59136962890625,
-      "loss": 0.4833,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.372300386428833,
-      "rewards/margins": 0.9483728408813477,
-      "rewards/rejected": -2.3206734657287598,
       "step": 750
     },
     {
       "epoch": 0.8,
       "learning_rate": 6.092659210462231e-08,
-      "logits/chosen": 2.788936138153076,
-      "logits/rejected": 2.778594970703125,
-      "logps/chosen": -423.2615661621094,
-      "logps/rejected": -482.78741455078125,
-      "loss": 0.467,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.4515461921691895,
-      "rewards/margins": 0.8695562481880188,
-      "rewards/rejected": -2.3211026191711426,
       "step": 760
     },
     {
       "epoch": 0.81,
       "learning_rate": 5.507260361320737e-08,
-      "logits/chosen": 2.7476916313171387,
-      "logits/rejected": 3.142958164215088,
-      "logps/chosen": -450.19818115234375,
-      "logps/rejected": -545.2734985351562,
-      "loss": 0.4993,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.5620007514953613,
-      "rewards/margins": 0.8958643674850464,
-      "rewards/rejected": -2.4578652381896973,
       "step": 770
     },
     {
       "epoch": 0.82,
       "learning_rate": 4.947931323697982e-08,
-      "logits/chosen": 3.1158547401428223,
-      "logits/rejected": 3.3449020385742188,
-      "logps/chosen": -406.75811767578125,
-      "logps/rejected": -469.87725830078125,
-      "loss": 0.502,
       "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.5055805444717407,
-      "rewards/margins": 0.8289793133735657,
-      "rewards/rejected": -2.334559917449951,
       "step": 780
     },
     {
       "epoch": 0.83,
       "learning_rate": 4.415420150605398e-08,
-      "logits/chosen": 2.6201043128967285,
-      "logits/rejected": 3.0066559314727783,
-      "logps/chosen": -463.11016845703125,
-      "logps/rejected": -560.42041015625,
-      "loss": 0.496,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.627664566040039,
-      "rewards/margins": 1.1310782432556152,
-      "rewards/rejected": -2.7587428092956543,
       "step": 790
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.9104390285376374e-08,
-      "logits/chosen": 2.2220206260681152,
-      "logits/rejected": 3.276045560836792,
-      "logps/chosen": -484.488525390625,
-      "logps/rejected": -536.6212158203125,
-      "loss": 0.4676,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.432835340499878,
-      "rewards/margins": 1.1149303913116455,
-      "rewards/rejected": -2.5477657318115234,
       "step": 800
     },
     {
       "epoch": 0.84,
-      "eval_logits/chosen": 2.362839698791504,
-      "eval_logits/rejected": 3.007388114929199,
-      "eval_logps/chosen": -430.22711181640625,
-      "eval_logps/rejected": -510.2817077636719,
-      "eval_loss": 0.5003817677497864,
       "eval_rewards/accuracies": 0.7678571343421936,
-      "eval_rewards/chosen": -1.4611738920211792,
-      "eval_rewards/margins": 1.0238579511642456,
-      "eval_rewards/rejected": -2.485031843185425,
-      "eval_runtime": 243.2983,
-      "eval_samples_per_second": 8.22,
       "eval_steps_per_second": 0.259,
       "step": 800
     },
     {
       "epoch": 0.85,
       "learning_rate": 3.433663324986208e-08,
-      "logits/chosen": 2.7204556465148926,
-      "logits/rejected": 3.516869306564331,
-      "logps/chosen": -434.813232421875,
-      "logps/rejected": -473.43084716796875,
-      "loss": 0.4944,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.553430199623108,
-      "rewards/margins": 0.7905280590057373,
-      "rewards/rejected": -2.3439581394195557,
       "step": 810
     },
     {
       "epoch": 0.86,
       "learning_rate": 2.9857306851953897e-08,
-      "logits/chosen": 3.327028274536133,
-      "logits/rejected": 3.1481454372406006,
-      "logps/chosen": -385.9121398925781,
-      "logps/rejected": -464.67919921875,
-      "loss": 0.5097,
       "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.3324156999588013,
-      "rewards/margins": 0.9625638723373413,
-      "rewards/rejected": -2.2949795722961426,
       "step": 820
     },
     {
       "epoch": 0.87,
       "learning_rate": 2.567240179368185e-08,
-      "logits/chosen": 2.4686942100524902,
-      "logits/rejected": 3.241407871246338,
-      "logps/chosen": -389.41162109375,
-      "logps/rejected": -479.04034423828125,
-      "loss": 0.484,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.4054991006851196,
-      "rewards/margins": 0.9627164602279663,
-      "rewards/rejected": -2.368215560913086,
       "step": 830
     },
     {
       "epoch": 0.88,
       "learning_rate": 2.1787515014630357e-08,
-      "logits/chosen": 2.906862258911133,
-      "logits/rejected": 2.6694931983947754,
-      "logps/chosen": -454.332763671875,
-      "logps/rejected": -501.1805725097656,
-      "loss": 0.519,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.4119014739990234,
-      "rewards/margins": 0.7597278356552124,
-      "rewards/rejected": -2.1716294288635254,
       "step": 840
     },
     {
       "epoch": 0.89,
       "learning_rate": 1.820784220652766e-08,
-      "logits/chosen": 2.4606220722198486,
-      "logits/rejected": 3.116736888885498,
-      "logps/chosen": -424.92657470703125,
-      "logps/rejected": -452.7645568847656,
-      "loss": 0.4959,
       "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.2464890480041504,
-      "rewards/margins": 0.8311346769332886,
-      "rewards/rejected": -2.0776238441467285,
       "step": 850
     },
     {
       "epoch": 0.9,
       "learning_rate": 1.4938170864468636e-08,
-      "logits/chosen": 2.591265916824341,
-      "logits/rejected": 3.241671085357666,
-      "logps/chosen": -417.1761779785156,
-      "logps/rejected": -489.3394470214844,
-      "loss": 0.4976,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.387465476989746,
-      "rewards/margins": 0.9968598484992981,
-      "rewards/rejected": -2.3843250274658203,
       "step": 860
     },
     {
       "epoch": 0.91,
       "learning_rate": 1.1982873884064465e-08,
-      "logits/chosen": 2.5627589225769043,
-      "logits/rejected": 2.842689037322998,
-      "logps/chosen": -358.8465270996094,
-      "logps/rejected": -472.7076110839844,
-      "loss": 0.4834,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.1185928583145142,
-      "rewards/margins": 1.1456910371780396,
-      "rewards/rejected": -2.2642838954925537,
       "step": 870
     },
     {
       "epoch": 0.92,
       "learning_rate": 9.345903713082304e-09,
-      "logits/chosen": 2.062072992324829,
-      "logits/rejected": 2.8666763305664062,
-      "logps/chosen": -416.20916748046875,
-      "logps/rejected": -484.88873291015625,
-      "loss": 0.4878,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.4209827184677124,
-      "rewards/margins": 0.8945733904838562,
-      "rewards/rejected": -2.315556287765503,
       "step": 880
     },
     {
       "epoch": 0.93,
       "learning_rate": 7.030787065396865e-09,
-      "logits/chosen": 2.154999256134033,
-      "logits/rejected": 3.1474082469940186,
-      "logps/chosen": -400.4173278808594,
-      "logps/rejected": -488.27923583984375,
-      "loss": 0.5078,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.3393958806991577,
-      "rewards/margins": 0.8886721730232239,
-      "rewards/rejected": -2.2280678749084473,
       "step": 890
     },
     {
       "epoch": 0.94,
       "learning_rate": 5.04062020432286e-09,
-      "logits/chosen": 2.4136557579040527,
-      "logits/rejected": 3.1030116081237793,
-      "logps/chosen": -433.02392578125,
-      "logps/rejected": -505.378662109375,
-      "loss": 0.4959,
       "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.3464595079421997,
-      "rewards/margins": 0.8647556304931641,
-      "rewards/rejected": -2.211215019226074,
       "step": 900
     },
     {
       "epoch": 0.94,
-      "eval_logits/chosen": 2.1701812744140625,
-      "eval_logits/rejected": 2.841163396835327,
-      "eval_logps/chosen": -416.8122253417969,
-      "eval_logps/rejected": -494.4040222167969,
-      "eval_loss": 0.4994244873523712,
-      "eval_rewards/accuracies": 0.773809552192688,
-      "eval_rewards/chosen": -1.3270248174667358,
-      "eval_rewards/margins": 0.9992297887802124,
-      "eval_rewards/rejected": -2.3262546062469482,
-      "eval_runtime": 243.1566,
-      "eval_samples_per_second": 8.225,
-      "eval_steps_per_second": 0.259,
       "step": 900
     },
     {
       "epoch": 0.95,
       "learning_rate": 3.3780648016376866e-09,
-      "logits/chosen": 2.659358501434326,
-      "logits/rejected": 3.147043466567993,
-      "logps/chosen": -385.5265197753906,
-      "logps/rejected": -475.1536560058594,
-      "loss": 0.4939,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.3798553943634033,
-      "rewards/margins": 0.9567114114761353,
-      "rewards/rejected": -2.33656644821167,
       "step": 910
     },
     {
       "epoch": 0.96,
       "learning_rate": 2.0453443778310766e-09,
-      "logits/chosen": 2.4830732345581055,
-      "logits/rejected": 2.9779207706451416,
-      "logps/chosen": -431.20941162109375,
-      "logps/rejected": -497.5403747558594,
-      "loss": 0.4729,
       "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.3552982807159424,
-      "rewards/margins": 1.039147973060608,
-      "rewards/rejected": -2.39444637298584,
       "step": 920
     },
     {
       "epoch": 0.97,
       "learning_rate": 1.0442413283435758e-09,
-      "logits/chosen": 2.1105334758758545,
-      "logits/rejected": 2.6144089698791504,
-      "logps/chosen": -407.96148681640625,
-      "logps/rejected": -485.81719970703125,
-      "loss": 0.4675,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.3519207239151,
-      "rewards/margins": 1.0662956237792969,
-      "rewards/rejected": -2.4182167053222656,
       "step": 930
     },
     {
       "epoch": 0.98,
       "learning_rate": 3.760945397705828e-10,
-      "logits/chosen": 2.271446704864502,
-      "logits/rejected": 2.7835686206817627,
-      "logps/chosen": -468.17633056640625,
-      "logps/rejected": -529.5701904296875,
-      "loss": 0.4775,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.3844900131225586,
-      "rewards/margins": 0.9976957440376282,
-      "rewards/rejected": -2.382185697555542,
       "step": 940
     },
     {
       "epoch": 0.99,
       "learning_rate": 4.17975992204056e-11,
-      "logits/chosen": 2.0716397762298584,
-      "logits/rejected": 3.089191198348999,
-      "logps/chosen": -422.05474853515625,
-      "logps/rejected": -507.30828857421875,
-      "loss": 0.5028,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.3753665685653687,
-      "rewards/margins": 1.0656555891036987,
-      "rewards/rejected": -2.4410219192504883,
       "step": 950
     },
     {
       "epoch": 1.0,
       "step": 955,
       "total_flos": 0.0,
-      "train_loss": 0.5295458661324066,
-      "train_runtime": 21408.4408,
-      "train_samples_per_second": 2.856,
-      "train_steps_per_second": 0.045
     }
   ],
   "logging_steps": 10,
   "max_steps": 955,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,

       "logits/rejected": -2.686896800994873,
       "logps/chosen": -229.94229125976562,
       "logps/rejected": -214.70114135742188,
+      "loss": 0.9741,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
     {
       "epoch": 0.01,
       "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -2.6810548305511475,
+      "logits/rejected": -2.709120035171509,
+      "logps/chosen": -295.81451416015625,
+      "logps/rejected": -250.5977325439453,
+      "loss": 0.9742,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.0003499284212011844,
+      "rewards/margins": 0.0001925795222632587,
+      "rewards/rejected": 0.00015734886983409524,
       "step": 10
     },
     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -2.6195099353790283,
+      "logits/rejected": -2.625662088394165,
+      "logps/chosen": -271.3158264160156,
+      "logps/rejected": -246.94711303710938,
+      "loss": 0.9738,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.00036363088293001056,
+      "rewards/margins": 0.0009133815765380859,
+      "rewards/rejected": -0.0005497508682310581,
       "step": 20
     },
     {
       "epoch": 0.03,
       "learning_rate": 1.5624999999999999e-07,
+      "logits/chosen": -2.7032079696655273,
+      "logits/rejected": -2.666191577911377,
+      "logps/chosen": -278.3299865722656,
+      "logps/rejected": -254.5498809814453,
+      "loss": 0.9731,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.0010723542654886842,
+      "rewards/margins": 0.0018442096188664436,
+      "rewards/rejected": -0.0007718555280007422,
       "step": 30
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -2.6499533653259277,
+      "logits/rejected": -2.6374642848968506,
+      "logps/chosen": -273.9149475097656,
+      "logps/rejected": -237.7373504638672,
+      "loss": 0.9713,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.003091720398515463,
+      "rewards/margins": 0.005813647527247667,
+      "rewards/rejected": -0.002721927361562848,
       "step": 40
     },
     {
       "epoch": 0.05,
       "learning_rate": 2.604166666666667e-07,
+      "logits/chosen": -2.6743884086608887,
+      "logits/rejected": -2.6382362842559814,
+      "logps/chosen": -296.06744384765625,
+      "logps/rejected": -274.7203063964844,
+      "loss": 0.9657,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.009085027500987053,
+      "rewards/margins": 0.016131814569234848,
+      "rewards/rejected": -0.007046787533909082,
       "step": 50
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -2.630288600921631,
+      "logits/rejected": -2.6329100131988525,
+      "logps/chosen": -285.3112487792969,
+      "logps/rejected": -274.3540954589844,
+      "loss": 0.9577,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.02476242184638977,
+      "rewards/margins": 0.0284078661352396,
+      "rewards/rejected": -0.0036454431246966124,
       "step": 60
     },
     {
       "epoch": 0.07,
       "learning_rate": 3.645833333333333e-07,
+      "logits/chosen": -2.6492714881896973,
+      "logits/rejected": -2.6846468448638916,
+      "logps/chosen": -310.99761962890625,
+      "logps/rejected": -290.5529479980469,
+      "loss": 0.9406,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.03506559133529663,
+      "rewards/margins": 0.05608881637454033,
+      "rewards/rejected": -0.021023228764533997,
       "step": 70
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.523487091064453,
+      "logits/rejected": -2.464901924133301,
+      "logps/chosen": -304.66845703125,
+      "logps/rejected": -281.81732177734375,
+      "loss": 0.9095,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.04107608273625374,
+      "rewards/margins": 0.11836276948451996,
+      "rewards/rejected": -0.1594388782978058,
       "step": 80
     },
     {
       "epoch": 0.09,
       "learning_rate": 4.6874999999999996e-07,
+      "logits/chosen": -2.5307559967041016,
+      "logits/rejected": -2.5012693405151367,
+      "logps/chosen": -292.33392333984375,
+      "logps/rejected": -284.6061096191406,
+      "loss": 0.8948,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.00477323355153203,
+      "rewards/margins": 0.17751149833202362,
+      "rewards/rejected": -0.18228471279144287,
       "step": 90
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.999732492681437e-07,
+      "logits/chosen": -2.501075267791748,
+      "logits/rejected": -2.491670846939087,
+      "logps/chosen": -340.92401123046875,
+      "logps/rejected": -345.025390625,
+      "loss": 0.8957,
       "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.35498708486557007,
+      "rewards/margins": 0.17348773777484894,
+      "rewards/rejected": -0.5284748077392578,
       "step": 100
     },
     {
       "epoch": 0.1,
+      "eval_logits/chosen": -2.54604434967041,
+      "eval_logits/rejected": -2.5107295513153076,
+      "eval_logps/chosen": -336.2060241699219,
+      "eval_logps/rejected": -330.2667541503906,
+      "eval_loss": 0.9028440117835999,
+      "eval_rewards/accuracies": 0.6904761791229248,
+      "eval_rewards/chosen": -0.5209627151489258,
+      "eval_rewards/margins": 0.1639193296432495,
+      "eval_rewards/rejected": -0.6848820447921753,
+      "eval_runtime": 245.63,
+      "eval_samples_per_second": 8.142,
+      "eval_steps_per_second": 0.256,
       "step": 100
     },
     {
       "epoch": 0.12,
       "learning_rate": 4.996723692767926e-07,
+      "logits/chosen": -2.258904218673706,
+      "logits/rejected": -2.185375452041626,
+      "logps/chosen": -319.14654541015625,
+      "logps/rejected": -304.89739990234375,
+      "loss": 0.8703,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.5882319211959839,
+      "rewards/margins": 0.2905711531639099,
+      "rewards/rejected": -0.8788030743598938,
       "step": 110
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.990375746213598e-07,
+      "logits/chosen": -1.46225106716156,
+      "logits/rejected": -1.342179775238037,
+      "logps/chosen": -348.0282897949219,
+      "logps/rejected": -337.330078125,
+      "loss": 0.8274,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.42451825737953186,
+      "rewards/margins": 0.41508832573890686,
+      "rewards/rejected": -0.8396065831184387,
       "step": 120
     },
     {
       "epoch": 0.14,
       "learning_rate": 4.980697142834314e-07,
+      "logits/chosen": -1.1638177633285522,
+      "logits/rejected": -0.918566107749939,
+      "logps/chosen": -371.7701721191406,
+      "logps/rejected": -366.410400390625,
+      "loss": 0.8256,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.5147355198860168,
+      "rewards/margins": 0.4547084867954254,
+      "rewards/rejected": -0.9694439172744751,
       "step": 130
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.967700826904229e-07,
+      "logits/chosen": 0.09236583858728409,
+      "logits/rejected": 0.07060788571834564,
+      "logps/chosen": -294.2372741699219,
+      "logps/rejected": -336.0912170410156,
+      "loss": 0.771,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.5445362329483032,
+      "rewards/margins": 0.5613424181938171,
+      "rewards/rejected": -1.1058785915374756,
       "step": 140
     },
     {
       "epoch": 0.16,
       "learning_rate": 4.951404179843962e-07,
+      "logits/chosen": 0.7083513140678406,
+      "logits/rejected": 0.5464950203895569,
+      "logps/chosen": -364.0424499511719,
+      "logps/rejected": -411.08209228515625,
+      "loss": 0.8494,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.8699826002120972,
+      "rewards/margins": 0.39457255601882935,
+      "rewards/rejected": -1.2645552158355713,
       "step": 150
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.931828996974498e-07,
+      "logits/chosen": 0.4938809871673584,
+      "logits/rejected": 0.9410598874092102,
+      "logps/chosen": -424.72430419921875,
+      "logps/rejected": -468.349609375,
+      "loss": 0.7631,
       "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.2891677618026733,
+      "rewards/margins": 0.488609254360199,
+      "rewards/rejected": -1.777777075767517,
       "step": 160
     },
     {
       "epoch": 0.18,
       "learning_rate": 4.909001458367866e-07,
+      "logits/chosen": 0.14566074311733246,
+      "logits/rejected": 0.20485401153564453,
+      "logps/chosen": -388.87158203125,
+      "logps/rejected": -427.6263732910156,
+      "loss": 0.7772,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.1580675840377808,
+      "rewards/margins": 0.6463179588317871,
+      "rewards/rejected": -1.8043855428695679,
       "step": 170
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.882952093833627e-07,
+      "logits/chosen": 0.1968054324388504,
+      "logits/rejected": 0.5141702890396118,
+      "logps/chosen": -351.22821044921875,
+      "logps/rejected": -409.0249938964844,
+      "loss": 0.7395,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.02028489112854,
+      "rewards/margins": 0.7496393322944641,
+      "rewards/rejected": -1.7699241638183594,
       "step": 180
     },
     {
       "epoch": 0.2,
       "learning_rate": 4.853715742087946e-07,
+      "logits/chosen": 0.310161292552948,
+      "logits/rejected": 0.9174222946166992,
+      "logps/chosen": -406.7144775390625,
+      "logps/rejected": -464.5382385253906,
+      "loss": 0.7373,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.2787965536117554,
+      "rewards/margins": 0.8055577278137207,
+      "rewards/rejected": -2.0843544006347656,
       "step": 190
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.821331504159906e-07,
+      "logits/chosen": 0.49894601106643677,
+      "logits/rejected": 1.0194227695465088,
+      "logps/chosen": -405.57330322265625,
+      "logps/rejected": -467.26641845703125,
+      "loss": 0.7658,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.1890487670898438,
+      "rewards/margins": 0.7286871671676636,
+      "rewards/rejected": -1.9177358150482178,
       "step": 200
     },
     {
       "epoch": 0.21,
+      "eval_logits/chosen": -0.152938574552536,
+      "eval_logits/rejected": 0.33469492197036743,
+      "eval_logps/chosen": -378.24761962890625,
+      "eval_logps/rejected": -431.1014709472656,
+      "eval_loss": 0.7649896144866943,
+      "eval_rewards/accuracies": 0.7460317611694336,
+      "eval_rewards/chosen": -0.941378653049469,
+      "eval_rewards/margins": 0.7518512010574341,
+      "eval_rewards/rejected": -1.6932299137115479,
+      "eval_runtime": 243.5152,
+      "eval_samples_per_second": 8.213,
+      "eval_steps_per_second": 0.259,
       "step": 200
     },
     {
       "epoch": 0.22,
       "learning_rate": 4.785842691097342e-07,
+      "logits/chosen": -0.3292608857154846,
+      "logits/rejected": 0.1720762550830841,
+      "logps/chosen": -389.8594665527344,
+      "logps/rejected": -401.64581298828125,
+      "loss": 0.7634,
       "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.8458383679389954,
+      "rewards/margins": 0.6316131353378296,
+      "rewards/rejected": -1.4774516820907593,
       "step": 210
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.7472967660421603e-07,
+      "logits/chosen": 0.5375509858131409,
+      "logits/rejected": 0.9775497317314148,
+      "logps/chosen": -387.09014892578125,
+      "logps/rejected": -446.6785583496094,
+      "loss": 0.7559,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.9755613207817078,
+      "rewards/margins": 0.7280157208442688,
+      "rewards/rejected": -1.7035770416259766,
       "step": 220
     },
     {
       "epoch": 0.24,
       "learning_rate": 4.705745280752585e-07,
+      "logits/chosen": 0.5464267134666443,
+      "logits/rejected": 1.0262590646743774,
+      "logps/chosen": -444.06072998046875,
+      "logps/rejected": -483.55926513671875,
+      "loss": 0.7417,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.5034980773925781,
+      "rewards/margins": 0.8456419706344604,
+      "rewards/rejected": -2.349139928817749,
       "step": 230
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.6612438066572555e-07,
+      "logits/chosen": 0.6961275935173035,
+      "logits/rejected": 1.6300386190414429,
+      "logps/chosen": -418.9384765625,
+      "logps/rejected": -454.033935546875,
+      "loss": 0.6919,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.4168249368667603,
+      "rewards/margins": 0.863106369972229,
+      "rewards/rejected": -2.2799313068389893,
       "step": 240
     },
     {
       "epoch": 0.26,
       "learning_rate": 4.6138518605333664e-07,
+      "logits/chosen": -0.6623570919036865,
+      "logits/rejected": -0.1930474489927292,
+      "logps/chosen": -347.79315185546875,
+      "logps/rejected": -429.45465087890625,
+      "loss": 0.7378,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.8020486831665039,
+      "rewards/margins": 0.6783057451248169,
+      "rewards/rejected": -1.4803544282913208,
       "step": 250
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.5636328249082514e-07,
+      "logits/chosen": -1.4540965557098389,
+      "logits/rejected": -0.7168424725532532,
+      "logps/chosen": -342.86102294921875,
+      "logps/rejected": -387.8767395019531,
+      "loss": 0.7447,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5879959464073181,
+      "rewards/margins": 0.7121099233627319,
+      "rewards/rejected": -1.3001058101654053,
       "step": 260
     },
     {
       "epoch": 0.28,
       "learning_rate": 4.510653863290871e-07,
+      "logits/chosen": -0.18550051748752594,
+      "logits/rejected": 0.8060259819030762,
+      "logps/chosen": -402.1506042480469,
+      "logps/rejected": -452.3603515625,
+      "loss": 0.7185,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.002969741821289,
+      "rewards/margins": 1.018422245979309,
+      "rewards/rejected": -2.0213921070098877,
       "step": 270
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.4549858303465737e-07,
+      "logits/chosen": 0.21997830271720886,
+      "logits/rejected": 0.8937602043151855,
+      "logps/chosen": -420.73773193359375,
+      "logps/rejected": -503.6924743652344,
+      "loss": 0.6991,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.295493721961975,
+      "rewards/margins": 0.9076651334762573,
+      "rewards/rejected": -2.2031588554382324,
       "step": 280
     },
     {
       "epoch": 0.3,
       "learning_rate": 4.396703177135261e-07,
+      "logits/chosen": 0.11293928325176239,
+      "logits/rejected": 0.5330738425254822,
+      "logps/chosen": -414.304931640625,
+      "logps/rejected": -458.75946044921875,
+      "loss": 0.7064,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.2927477359771729,
+      "rewards/margins": 0.7714477777481079,
+      "rewards/rejected": -2.0641958713531494,
       "step": 290
     },
     {
       "epoch": 0.31,
       "learning_rate": 4.335883851539693e-07,
+      "logits/chosen": 0.7407528162002563,
+      "logits/rejected": 1.589734435081482,
+      "logps/chosen": -405.79022216796875,
+      "logps/rejected": -488.19036865234375,
+      "loss": 0.7079,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.223577857017517,
+      "rewards/margins": 1.1488986015319824,
+      "rewards/rejected": -2.372476816177368,
       "step": 300
     },
     {
       "epoch": 0.31,
+      "eval_logits/chosen": 0.87442946434021,
+      "eval_logits/rejected": 1.8370469808578491,
+      "eval_logps/chosen": -422.4754333496094,
+      "eval_logps/rejected": -510.4591064453125,
+      "eval_loss": 0.7289105653762817,
+      "eval_rewards/accuracies": 0.7559523582458496,
+      "eval_rewards/chosen": -1.383657455444336,
+      "eval_rewards/margins": 1.1031482219696045,
+      "eval_rewards/rejected": -2.4868052005767822,
+      "eval_runtime": 242.4112,
+      "eval_samples_per_second": 8.25,
       "eval_steps_per_second": 0.26,
       "step": 300
     },
     {
       "epoch": 0.32,
       "learning_rate": 4.272609194017105e-07,
+      "logits/chosen": 0.7091141939163208,
+      "logits/rejected": 1.7715873718261719,
+      "logps/chosen": -404.2896728515625,
+      "logps/rejected": -514.3563842773438,
+      "loss": 0.6597,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.2207536697387695,
+      "rewards/margins": 1.231592059135437,
+      "rewards/rejected": -2.452345848083496,
       "step": 310
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.2069638288135547e-07,
+      "logits/chosen": 0.6078277826309204,
+      "logits/rejected": 1.4416134357452393,
+      "logps/chosen": -417.4878845214844,
+      "logps/rejected": -491.2012634277344,
+      "loss": 0.7219,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.358330249786377,
+      "rewards/margins": 0.8599346280097961,
+      "rewards/rejected": -2.2182650566101074,
       "step": 320
     },
     {
       "epoch": 0.35,
       "learning_rate": 4.139035550786494e-07,
+      "logits/chosen": 0.2845739424228668,
+      "logits/rejected": 0.876905620098114,
+      "logps/chosen": -394.2958068847656,
+      "logps/rejected": -421.72393798828125,
+      "loss": 0.7567,
       "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.147202730178833,
+      "rewards/margins": 0.7379333972930908,
+      "rewards/rejected": -1.8851358890533447,
       "step": 330
     },
     {
       "epoch": 0.36,
       "learning_rate": 4.0689152079869306e-07,
+      "logits/chosen": -0.5365289449691772,
+      "logits/rejected": 0.34862279891967773,
+      "logps/chosen": -342.41485595703125,
+      "logps/rejected": -388.524658203125,
+      "loss": 0.776,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.9666112065315247,
+      "rewards/margins": 0.6763932108879089,
+      "rewards/rejected": -1.6430044174194336,
       "step": 340
     },
     {
       "epoch": 0.37,
       "learning_rate": 3.99669658015821e-07,
+      "logits/chosen": 0.45323339104652405,
+      "logits/rejected": 0.7332956194877625,
+      "logps/chosen": -399.76519775390625,
+      "logps/rejected": -506.49658203125,
+      "loss": 0.7213,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.27635657787323,
+      "rewards/margins": 0.998461127281189,
+      "rewards/rejected": -2.2748172283172607,
       "step": 350
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.92247625331392e-07,
+      "logits/chosen": 0.6511309742927551,
+      "logits/rejected": 1.2110098600387573,
+      "logps/chosen": -422.53778076171875,
+      "logps/rejected": -472.4964294433594,
+      "loss": 0.7003,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.3980082273483276,
+      "rewards/margins": 0.8997832536697388,
+      "rewards/rejected": -2.2977914810180664,
       "step": 360
     },
     {
       "epoch": 0.39,
       "learning_rate": 3.846353490562664e-07,
+      "logits/chosen": 0.30174368619918823,
+      "logits/rejected": 0.9621099233627319,
+      "logps/chosen": -372.94635009765625,
+      "logps/rejected": -497.25714111328125,
+      "loss": 0.6659,
       "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.3280470371246338,
+      "rewards/margins": 1.1047414541244507,
+      "rewards/rejected": -2.432788372039795,
       "step": 370
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.768430099352445e-07,
+      "logits/chosen": -0.1737074851989746,
+      "logits/rejected": 1.1676225662231445,
+      "logps/chosen": -460.0953063964844,
+      "logps/rejected": -537.3989868164062,
+      "loss": 0.6788,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.6348745822906494,
+      "rewards/margins": 1.1145647764205933,
+      "rewards/rejected": -2.7494394779205322,
       "step": 380
     },
     {
       "epoch": 0.41,
       "learning_rate": 3.6888102953122304e-07,
+      "logits/chosen": -0.2348991185426712,
+      "logits/rejected": 0.7535260915756226,
+      "logps/chosen": -421.128173828125,
+      "logps/rejected": -482.41656494140625,
+      "loss": 0.7027,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.4536683559417725,
+      "rewards/margins": 1.019152045249939,
+      "rewards/rejected": -2.47282075881958,
       "step": 390
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.607600562872785e-07,
+      "logits/chosen": -0.24078145623207092,
+      "logits/rejected": 0.8144145011901855,
+      "logps/chosen": -454.4244689941406,
+      "logps/rejected": -500.9457092285156,
+      "loss": 0.6806,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.5004165172576904,
+      "rewards/margins": 0.854039192199707,
+      "rewards/rejected": -2.3544554710388184,
       "step": 400
     },
     {
       "epoch": 0.42,
+      "eval_logits/chosen": 0.09922664612531662,
+      "eval_logits/rejected": 1.2713433504104614,
+      "eval_logps/chosen": -416.9630432128906,
+      "eval_logps/rejected": -503.67401123046875,
+      "eval_loss": 0.7040213346481323,
+      "eval_rewards/accuracies": 0.7698412537574768,
+      "eval_rewards/chosen": -1.3285325765609741,
+      "eval_rewards/margins": 1.0904221534729004,
+      "eval_rewards/rejected": -2.418954849243164,
+      "eval_runtime": 242.7344,
+      "eval_samples_per_second": 8.239,
+      "eval_steps_per_second": 0.26,
       "step": 400
     },
     {
       "epoch": 0.43,
       "learning_rate": 3.5249095128531856e-07,
+      "logits/chosen": -0.06878291815519333,
+      "logits/rejected": 1.236665964126587,
+      "logps/chosen": -443.3794860839844,
+      "logps/rejected": -522.2283325195312,
+      "loss": 0.7085,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.2952146530151367,
+      "rewards/margins": 1.0169426202774048,
+      "rewards/rejected": -2.312157154083252,
       "step": 410
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.4408477372034736e-07,
+      "logits/chosen": 0.041589152067899704,
+      "logits/rejected": 1.3509619235992432,
+      "logps/chosen": -390.40008544921875,
+      "logps/rejected": -440.0779724121094,
+      "loss": 0.7102,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.2629300355911255,
+      "rewards/margins": 0.8384572863578796,
+      "rewards/rejected": -2.1013875007629395,
       "step": 420
     },
     {
       "epoch": 0.45,
       "learning_rate": 3.3555276610977276e-07,
+      "logits/chosen": 0.06685711443424225,
+      "logits/rejected": 1.2138116359710693,
+      "logps/chosen": -372.45196533203125,
+      "logps/rejected": -431.705078125,
+      "loss": 0.7376,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.1025346517562866,
+      "rewards/margins": 0.8204299211502075,
+      "rewards/rejected": -1.9229644536972046,
       "step": 430
     },
     {
       "epoch": 0.46,
       "learning_rate": 3.269063392575352e-07,
+      "logits/chosen": 0.9198445081710815,
+      "logits/rejected": 0.9934859275817871,
+      "logps/chosen": -396.35968017578125,
+      "logps/rejected": -476.847900390625,
+      "loss": 0.6966,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.3736763000488281,
+      "rewards/margins": 0.9061026573181152,
+      "rewards/rejected": -2.2797789573669434,
       "step": 440
     },
     {
       "epoch": 0.47,
       "learning_rate": 3.1815705699316964e-07,
+      "logits/chosen": 0.9360873103141785,
+      "logits/rejected": 1.5897537469863892,
+      "logps/chosen": -401.81207275390625,
+      "logps/rejected": -485.36041259765625,
+      "loss": 0.715,
       "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.3765710592269897,
+      "rewards/margins": 1.040223479270935,
+      "rewards/rejected": -2.416795015335083,
       "step": 450
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.0931662070620794e-07,
+      "logits/chosen": 0.9600452184677124,
+      "logits/rejected": 2.169283866882324,
+      "logps/chosen": -413.7256774902344,
+      "logps/rejected": -508.83892822265625,
+      "loss": 0.6982,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.4869290590286255,
+      "rewards/margins": 1.0339877605438232,
+      "rewards/rejected": -2.5209171772003174,
       "step": 460
     },
     {
       "epoch": 0.49,
       "learning_rate": 3.003968536966078e-07,
+      "logits/chosen": 1.2197582721710205,
+      "logits/rejected": 2.1600019931793213,
+      "logps/chosen": -441.291748046875,
+      "logps/rejected": -515.36083984375,
+      "loss": 0.6864,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.4309029579162598,
+      "rewards/margins": 1.1178550720214844,
+      "rewards/rejected": -2.548758029937744,
       "step": 470
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9140968536213693e-07,
+      "logits/chosen": 1.2262110710144043,
+      "logits/rejected": 2.440544843673706,
+      "logps/chosen": -372.9617919921875,
+      "logps/rejected": -461.28765869140625,
+      "loss": 0.7197,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.4022343158721924,
+      "rewards/margins": 0.9221154451370239,
+      "rewards/rejected": -2.324349880218506,
       "step": 480
     },
     {
       "epoch": 0.51,
       "learning_rate": 2.823671352438608e-07,
+      "logits/chosen": 1.2201405763626099,
+      "logits/rejected": 2.058537721633911,
+      "logps/chosen": -409.15814208984375,
+      "logps/rejected": -467.56573486328125,
+      "loss": 0.6978,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.334566354751587,
+      "rewards/margins": 0.8473381996154785,
+      "rewards/rejected": -2.1819043159484863,
       "step": 490
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.73281296951072e-07,
+      "logits/chosen": 1.904309868812561,
+      "logits/rejected": 2.613346576690674,
+      "logps/chosen": -433.7508850097656,
+      "logps/rejected": -524.71044921875,
+      "loss": 0.7129,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.621690034866333,
+      "rewards/margins": 1.130249261856079,
+      "rewards/rejected": -2.751939058303833,
       "step": 500
     },
     {
       "epoch": 0.52,
+      "eval_logits/chosen": 1.4090828895568848,
+      "eval_logits/rejected": 2.334313154220581,
+      "eval_logps/chosen": -430.316650390625,
+      "eval_logps/rejected": -514.4609375,
+      "eval_loss": 0.6979612112045288,
+      "eval_rewards/accuracies": 0.7440476417541504,
+      "eval_rewards/chosen": -1.4620689153671265,
+      "eval_rewards/margins": 1.0647554397583008,
+      "eval_rewards/rejected": -2.5268242359161377,
+      "eval_runtime": 243.0213,
+      "eval_samples_per_second": 8.23,
       "eval_steps_per_second": 0.259,
       "step": 500
     },
     {
       "epoch": 0.53,
       "learning_rate": 2.641643219871597e-07,
+      "logits/chosen": 1.5503180027008057,
+      "logits/rejected": 2.431549072265625,
+      "logps/chosen": -441.70721435546875,
+      "logps/rejected": -510.1366271972656,
+      "loss": 0.6483,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.403807282447815,
+      "rewards/margins": 1.1817026138305664,
+      "rewards/rejected": -2.585510015487671,
       "step": 510
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.550284034980507e-07,
+      "logits/chosen": 1.6724971532821655,
+      "logits/rejected": 2.7851836681365967,
+      "logps/chosen": -426.255859375,
+      "logps/rejected": -528.8610229492188,
+      "loss": 0.701,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.6710426807403564,
+      "rewards/margins": 1.100687861442566,
+      "rewards/rejected": -2.771730661392212,
       "step": 520
     },
     {
       "epoch": 0.55,
       "learning_rate": 2.4588575996495794e-07,
+      "logits/chosen": 1.8039824962615967,
+      "logits/rejected": 2.613548755645752,
+      "logps/chosen": -449.572265625,
+      "logps/rejected": -537.4893798828125,
+      "loss": 0.6894,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.654245376586914,
+      "rewards/margins": 1.1508926153182983,
+      "rewards/rejected": -2.805138111114502,
       "step": 530
     },
     {
       "epoch": 0.57,
       "learning_rate": 2.367486188632446e-07,
+      "logits/chosen": 1.2713382244110107,
+      "logits/rejected": 2.1325278282165527,
+      "logps/chosen": -456.769775390625,
+      "logps/rejected": -589.4976806640625,
+      "loss": 0.6831,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.6260936260223389,
+      "rewards/margins": 1.2662837505340576,
+      "rewards/rejected": -2.8923773765563965,
       "step": 540
     },
     {
       "epoch": 0.58,
       "learning_rate": 2.276292003092593e-07,
+      "logits/chosen": 1.5338995456695557,
+      "logits/rejected": 2.471559524536133,
+      "logps/chosen": -422.6114807128906,
+      "logps/rejected": -517.1149291992188,
+      "loss": 0.7116,
       "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.5288379192352295,
+      "rewards/margins": 1.1625785827636719,
+      "rewards/rejected": -2.6914165019989014,
       "step": 550
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.185397007170141e-07,
+      "logits/chosen": 1.3305785655975342,
+      "logits/rejected": 1.9697010517120361,
+      "logps/chosen": -409.57635498046875,
+      "logps/rejected": -467.7806091308594,
+      "loss": 0.7032,
       "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.4281054735183716,
+      "rewards/margins": 0.915216326713562,
+      "rewards/rejected": -2.3433218002319336,
       "step": 560
     },
     {
       "epoch": 0.6,
       "learning_rate": 2.094922764865619e-07,
+      "logits/chosen": 1.1964863538742065,
+      "logits/rejected": 2.188833236694336,
+      "logps/chosen": -427.9024353027344,
+      "logps/rejected": -497.96917724609375,
+      "loss": 0.7036,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.5176267623901367,
+      "rewards/margins": 0.8729730844497681,
+      "rewards/rejected": -2.3905997276306152,
       "step": 570
     },
     {
       "epoch": 0.61,
       "learning_rate": 2.0049902774588797e-07,
+      "logits/chosen": 1.2527071237564087,
+      "logits/rejected": 2.2398314476013184,
+      "logps/chosen": -436.9583435058594,
+      "logps/rejected": -504.8207092285156,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.6303842067718506,
+      "rewards/margins": 1.0391124486923218,
+      "rewards/rejected": -2.669496774673462,
       "step": 580
     },
     {
       "epoch": 0.62,
       "learning_rate": 1.9157198216806238e-07,
+      "logits/chosen": 0.6701461672782898,
+      "logits/rejected": 1.8555580377578735,
+      "logps/chosen": -405.43902587890625,
+      "logps/rejected": -496.9740295410156,
+      "loss": 0.6922,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.323939561843872,
+      "rewards/margins": 0.8526731729507446,
+      "rewards/rejected": -2.176612615585327,
       "step": 590
     },
     {
       "epoch": 0.63,
       "learning_rate": 1.8272307888529274e-07,
+      "logits/chosen": 0.462153822183609,
+      "logits/rejected": 1.8794240951538086,
+      "logps/chosen": -451.150634765625,
+      "logps/rejected": -545.4595947265625,
+      "loss": 0.6636,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.2517478466033936,
+      "rewards/margins": 1.0819759368896484,
+      "rewards/rejected": -2.333723783493042,
       "step": 600
     },
     {
       "epoch": 0.63,
+      "eval_logits/chosen": 0.7470372319221497,
+      "eval_logits/rejected": 2.2081830501556396,
+      "eval_logps/chosen": -417.3849792480469,
+      "eval_logps/rejected": -513.6627197265625,
+      "eval_loss": 0.6876600980758667,
+      "eval_rewards/accuracies": 0.75,
+      "eval_rewards/chosen": -1.3327523469924927,
+      "eval_rewards/margins": 1.1860896348953247,
+      "eval_rewards/rejected": -2.5188419818878174,
+      "eval_runtime": 244.0904,
+      "eval_samples_per_second": 8.194,
       "eval_steps_per_second": 0.258,
       "step": 600
     },
     {
       "epoch": 0.64,
       "learning_rate": 1.7396415252139288e-07,
+      "logits/chosen": 1.345348834991455,
+      "logits/rejected": 2.903435707092285,
+      "logps/chosen": -418.60797119140625,
+      "logps/rejected": -482.93035888671875,
+      "loss": 0.6686,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.4358808994293213,
+      "rewards/margins": 1.1490730047225952,
+      "rewards/rejected": -2.584954261779785,
       "step": 610
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.6530691736402316e-07,
+      "logits/chosen": 2.0353918075561523,
+      "logits/rejected": 3.255995512008667,
+      "logps/chosen": -455.14959716796875,
+      "logps/rejected": -525.127685546875,
+      "loss": 0.6894,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.831215500831604,
+      "rewards/margins": 1.118740200996399,
+      "rewards/rejected": -2.949955701828003,
       "step": 620
     },
     {
       "epoch": 0.66,
       "learning_rate": 1.5676295169786864e-07,
+      "logits/chosen": 2.8849244117736816,
+      "logits/rejected": 3.68190336227417,
+      "logps/chosen": -441.6712951660156,
+      "logps/rejected": -579.8939819335938,
+      "loss": 0.6633,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.800830602645874,
+      "rewards/margins": 1.4441092014312744,
+      "rewards/rejected": -3.2449398040771484,
       "step": 630
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.483436823197092e-07,
+      "logits/chosen": 1.9812686443328857,
+      "logits/rejected": 2.8578484058380127,
+      "logps/chosen": -427.90460205078125,
+      "logps/rejected": -523.0911865234375,
+      "loss": 0.6953,
       "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.432652235031128,
+      "rewards/margins": 1.2259643077850342,
+      "rewards/rejected": -2.658616542816162,
       "step": 640
     },
     {
       "epoch": 0.68,
       "learning_rate": 1.4006036925609243e-07,
+      "logits/chosen": 1.2402979135513306,
+      "logits/rejected": 2.491854190826416,
+      "logps/chosen": -458.84344482421875,
+      "logps/rejected": -508.12847900390625,
+      "loss": 0.6884,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.5252853631973267,
+      "rewards/margins": 0.9278051257133484,
+      "rewards/rejected": -2.4530904293060303,
       "step": 650
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.319240907040458e-07,
+      "logits/chosen": 1.5803894996643066,
+      "logits/rejected": 2.081526756286621,
+      "logps/chosen": -454.36309814453125,
+      "logps/rejected": -526.6981201171875,
+      "loss": 0.6824,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.5280418395996094,
+      "rewards/margins": 1.0684349536895752,
+      "rewards/rejected": -2.5964770317077637,
       "step": 660
     },
     {
       "epoch": 0.7,
       "learning_rate": 1.239457282149695e-07,
+      "logits/chosen": 1.9639816284179688,
+      "logits/rejected": 3.2135062217712402,
+      "logps/chosen": -435.85888671875,
+      "logps/rejected": -534.4019775390625,
+      "loss": 0.6736,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.5270483493804932,
+      "rewards/margins": 1.1297345161437988,
+      "rewards/rejected": -2.656782627105713,
       "step": 670
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.1613595214152711e-07,
+      "logits/chosen": 2.091609477996826,
+      "logits/rejected": 2.95405912399292,
+      "logps/chosen": -404.2757873535156,
+      "logps/rejected": -456.81732177734375,
+      "loss": 0.7108,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -1.4280402660369873,
+      "rewards/margins": 0.7583026885986328,
+      "rewards/rejected": -2.186342716217041,
       "step": 680
     },
     {
       "epoch": 0.72,
       "learning_rate": 1.0850520736699362e-07,
+      "logits/chosen": 1.712774634361267,
+      "logits/rejected": 3.230499267578125,
+      "logps/chosen": -395.8936767578125,
+      "logps/rejected": -499.32965087890625,
+      "loss": 0.655,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.3443926572799683,
+      "rewards/margins": 1.2300078868865967,
+      "rewards/rejected": -2.5744004249572754,
       "step": 690
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.0106369933615042e-07,
+      "logits/chosen": 2.6943306922912598,
+      "logits/rejected": 4.300943851470947,
+      "logps/chosen": -449.5069274902344,
+      "logps/rejected": -574.8884887695312,
+      "loss": 0.6217,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.9530900716781616,
+      "rewards/margins": 1.3479530811309814,
+      "rewards/rejected": -3.3010432720184326,
       "step": 700
     },
     {
       "epoch": 0.73,
+      "eval_logits/chosen": 2.593170166015625,
+      "eval_logits/rejected": 3.816297769546509,
+      "eval_logps/chosen": -473.18865966796875,
+      "eval_logps/rejected": -579.6353759765625,
+      "eval_loss": 0.6762357354164124,
+      "eval_rewards/accuracies": 0.7698412537574768,
+      "eval_rewards/chosen": -1.8907891511917114,
+      "eval_rewards/margins": 1.2877792119979858,
+      "eval_rewards/rejected": -3.1785686016082764,
+      "eval_runtime": 244.2095,
+      "eval_samples_per_second": 8.19,
+      "eval_steps_per_second": 0.258,
       "step": 700
     },
     {
       "epoch": 0.74,
       "learning_rate": 9.382138040640714e-08,
+      "logits/chosen": 2.803864002227783,
+      "logits/rejected": 3.797267198562622,
+      "logps/chosen": -505.75677490234375,
+      "logps/rejected": -552.4486083984375,
+      "loss": 0.6429,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.0083601474761963,
+      "rewards/margins": 1.1107932329177856,
+      "rewards/rejected": -3.1191532611846924,
       "step": 710
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.678793653740632e-08,
+      "logits/chosen": 3.4752883911132812,
+      "logits/rejected": 4.102308750152588,
+      "logps/chosen": -513.325439453125,
+      "logps/rejected": -616.204345703125,
+      "loss": 0.6616,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.2190704345703125,
+      "rewards/margins": 1.2776607275009155,
+      "rewards/rejected": -3.4967312812805176,
       "step": 720
     },
     {
       "epoch": 0.76,
       "learning_rate": 7.997277433690983e-08,
+      "logits/chosen": 3.118082046508789,
+      "logits/rejected": 4.068647861480713,
+      "logps/chosen": -515.4818725585938,
+      "logps/rejected": -578.458984375,
+      "loss": 0.6692,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.115870475769043,
+      "rewards/margins": 1.1491236686706543,
+      "rewards/rejected": -3.2649941444396973,
       "step": 730
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.338500848029602e-08,
+      "logits/chosen": 3.267651319503784,
+      "logits/rejected": 4.356374263763428,
+      "logps/chosen": -517.941650390625,
+      "logps/rejected": -612.4710693359375,
+      "loss": 0.6626,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.0364277362823486,
+      "rewards/margins": 1.4974032640457153,
+      "rewards/rejected": -3.5338311195373535,
       "step": 740
     },
     {
       "epoch": 0.78,
       "learning_rate": 6.70334495204884e-08,
+      "logits/chosen": 2.9188966751098633,
+      "logits/rejected": 3.9505248069763184,
+      "logps/chosen": -495.83734130859375,
+      "logps/rejected": -612.5488891601562,
+      "loss": 0.6476,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.124872922897339,
+      "rewards/margins": 1.2153751850128174,
+      "rewards/rejected": -3.3402485847473145,
       "step": 750
     },
     {
       "epoch": 0.8,
       "learning_rate": 6.092659210462231e-08,
+      "logits/chosen": 3.145782709121704,
+      "logits/rejected": 3.7394192218780518,
+      "logps/chosen": -498.886474609375,
+      "logps/rejected": -587.1813354492188,
+      "loss": 0.6186,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.2077949047088623,
+      "rewards/margins": 1.1572462320327759,
+      "rewards/rejected": -3.3650412559509277,
       "step": 760
     },
     {
       "epoch": 0.81,
       "learning_rate": 5.507260361320737e-08,
+      "logits/chosen": 3.364577531814575,
+      "logits/rejected": 4.243520259857178,
+      "logps/chosen": -541.8561401367188,
+      "logps/rejected": -659.7272338867188,
+      "loss": 0.6917,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.4785799980163574,
+      "rewards/margins": 1.123822569847107,
+      "rewards/rejected": -3.602402448654175,
       "step": 770
     },
     {
       "epoch": 0.82,
       "learning_rate": 4.947931323697982e-08,
+      "logits/chosen": 3.392416477203369,
+      "logits/rejected": 4.268471717834473,
+      "logps/chosen": -480.16455078125,
+      "logps/rejected": -572.0571899414062,
+      "loss": 0.6843,
       "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.2396440505981445,
+      "rewards/margins": 1.116714596748352,
+      "rewards/rejected": -3.356358766555786,
       "step": 780
     },
     {
       "epoch": 0.83,
       "learning_rate": 4.415420150605398e-08,
+      "logits/chosen": 2.9198615550994873,
+      "logits/rejected": 3.857909679412842,
+      "logps/chosen": -536.2203369140625,
+      "logps/rejected": -663.2730102539062,
+      "loss": 0.6706,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.358766794204712,
+      "rewards/margins": 1.428501844406128,
+      "rewards/rejected": -3.787268877029419,
       "step": 790
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.9104390285376374e-08,
+      "logits/chosen": 2.381801128387451,
+      "logits/rejected": 4.157925605773926,
+      "logps/chosen": -550.6214599609375,
+      "logps/rejected": -629.8056030273438,
+      "loss": 0.6418,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.0941646099090576,
+      "rewards/margins": 1.3854446411132812,
+      "rewards/rejected": -3.4796090126037598,
       "step": 800
     },
     {
       "epoch": 0.84,
+      "eval_logits/chosen": 2.6092491149902344,
+      "eval_logits/rejected": 3.865464448928833,
+      "eval_logps/chosen": -494.04217529296875,
+      "eval_logps/rejected": -602.0606689453125,
+      "eval_loss": 0.6711603403091431,
       "eval_rewards/accuracies": 0.7678571343421936,
+      "eval_rewards/chosen": -2.0993239879608154,
+      "eval_rewards/margins": 1.3034968376159668,
+      "eval_rewards/rejected": -3.4028208255767822,
+      "eval_runtime": 243.1214,
+      "eval_samples_per_second": 8.226,
       "eval_steps_per_second": 0.259,
       "step": 800
     },
     {
       "epoch": 0.85,
       "learning_rate": 3.433663324986208e-08,
+      "logits/chosen": 3.123400926589966,
+      "logits/rejected": 4.341358184814453,
+      "logps/chosen": -507.13848876953125,
+      "logps/rejected": -566.4569091796875,
+      "loss": 0.6669,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.2766828536987305,
+      "rewards/margins": 0.9975360035896301,
+      "rewards/rejected": -3.274219036102295,
       "step": 810
     },
     {
       "epoch": 0.86,
       "learning_rate": 2.9857306851953897e-08,
+      "logits/chosen": 3.36864972114563,
+      "logits/rejected": 3.826308488845825,
+      "logps/chosen": -454.4519958496094,
+      "logps/rejected": -553.3275756835938,
+      "loss": 0.7048,
       "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.0178139209747314,
+      "rewards/margins": 1.1636488437652588,
+      "rewards/rejected": -3.1814627647399902,
       "step": 820
     },
     {
       "epoch": 0.87,
       "learning_rate": 2.567240179368185e-08,
+      "logits/chosen": 2.7587532997131348,
+      "logits/rejected": 3.9622387886047363,
+      "logps/chosen": -461.407470703125,
+      "logps/rejected": -577.1260986328125,
+      "loss": 0.6538,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.125457286834717,
+      "rewards/margins": 1.223615050315857,
+      "rewards/rejected": -3.3490726947784424,
       "step": 830
     },
     {
       "epoch": 0.88,
       "learning_rate": 2.1787515014630357e-08,
+      "logits/chosen": 3.194129228591919,
+      "logits/rejected": 3.398770809173584,
+      "logps/chosen": -526.1636962890625,
+      "logps/rejected": -602.7716064453125,
+      "loss": 0.7025,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.1302103996276855,
+      "rewards/margins": 1.0573285818099976,
+      "rewards/rejected": -3.1875391006469727,
       "step": 840
     },
     {
       "epoch": 0.89,
       "learning_rate": 1.820784220652766e-08,
+      "logits/chosen": 2.8333277702331543,
+      "logits/rejected": 3.949988842010498,
+      "logps/chosen": -497.5380859375,
+      "logps/rejected": -547.4320068359375,
+      "loss": 0.6689,
       "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.9726041555404663,
+      "rewards/margins": 1.0516941547393799,
+      "rewards/rejected": -3.0242981910705566,
       "step": 850
     },
     {
       "epoch": 0.9,
       "learning_rate": 1.4938170864468636e-08,
+      "logits/chosen": 2.8082051277160645,
+      "logits/rejected": 4.054238796234131,
+      "logps/chosen": -488.4153747558594,
+      "logps/rejected": -592.6768798828125,
+      "loss": 0.6703,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.0998573303222656,
+      "rewards/margins": 1.3178421258926392,
+      "rewards/rejected": -3.4176993370056152,
       "step": 860
     },
     {
       "epoch": 0.91,
       "learning_rate": 1.1982873884064465e-08,
+      "logits/chosen": 2.500764846801758,
+      "logits/rejected": 3.581740140914917,
+      "logps/chosen": -425.3038024902344,
+      "logps/rejected": -571.4251708984375,
+      "loss": 0.6579,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.7831649780273438,
+      "rewards/margins": 1.468294382095337,
+      "rewards/rejected": -3.2514591217041016,
       "step": 870
     },
     {
       "epoch": 0.92,
       "learning_rate": 9.345903713082304e-09,
+      "logits/chosen": 2.309072971343994,
+      "logits/rejected": 3.692427158355713,
+      "logps/chosen": -488.32049560546875,
+      "logps/rejected": -586.3157958984375,
+      "loss": 0.6445,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.1420960426330566,
+      "rewards/margins": 1.187731146812439,
+      "rewards/rejected": -3.329827070236206,
       "step": 880
     },
     {
       "epoch": 0.93,
       "learning_rate": 7.030787065396865e-09,
+      "logits/chosen": 2.455681800842285,
+      "logits/rejected": 3.950096607208252,
+      "logps/chosen": -487.016357421875,
+      "logps/rejected": -593.2111206054688,
+      "loss": 0.701,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.2053864002227783,
+      "rewards/margins": 1.07200026512146,
+      "rewards/rejected": -3.277386426925659,
       "step": 890
     },
     {
       "epoch": 0.94,
       "learning_rate": 5.04062020432286e-09,
+      "logits/chosen": 2.607274293899536,
+      "logits/rejected": 3.9918441772460938,
+      "logps/chosen": -505.3465881347656,
+      "logps/rejected": -603.4442138671875,
+      "loss": 0.6678,
       "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.0696864128112793,
+      "rewards/margins": 1.1221836805343628,
+      "rewards/rejected": -3.1918704509735107,
       "step": 900
     },
     {
       "epoch": 0.94,
+      "eval_logits/chosen": 2.4517972469329834,
+      "eval_logits/rejected": 3.733224630355835,
+      "eval_logps/chosen": -487.1844482421875,
+      "eval_logps/rejected": -594.1102905273438,
+      "eval_loss": 0.6716480851173401,
+      "eval_rewards/accuracies": 0.7638888955116272,
+      "eval_rewards/chosen": -2.030747175216675,
+      "eval_rewards/margins": 1.2925708293914795,
+      "eval_rewards/rejected": -3.323317766189575,
+      "eval_runtime": 244.2155,
+      "eval_samples_per_second": 8.189,
+      "eval_steps_per_second": 0.258,
       "step": 900
     },
     {
       "epoch": 0.95,
       "learning_rate": 3.3780648016376866e-09,
+      "logits/chosen": 2.913886308670044,
+      "logits/rejected": 4.131613731384277,
+      "logps/chosen": -459.2386779785156,
+      "logps/rejected": -578.1640014648438,
+      "loss": 0.6622,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.1169772148132324,
+      "rewards/margins": 1.2496932744979858,
+      "rewards/rejected": -3.3666698932647705,
       "step": 910
     },
     {
       "epoch": 0.96,
       "learning_rate": 2.0453443778310766e-09,
+      "logits/chosen": 2.6672825813293457,
+      "logits/rejected": 3.8567919731140137,
+      "logps/chosen": -503.61395263671875,
+      "logps/rejected": -597.9525756835938,
+      "loss": 0.6413,
       "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.079343557357788,
+      "rewards/margins": 1.3192239999771118,
+      "rewards/rejected": -3.3985676765441895,
       "step": 920
     },
     {
       "epoch": 0.97,
       "learning_rate": 1.0442413283435758e-09,
+      "logits/chosen": 2.472501754760742,
+      "logits/rejected": 3.5483956336975098,
+      "logps/chosen": -481.59515380859375,
+      "logps/rejected": -590.560791015625,
+      "loss": 0.6391,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.0882575511932373,
+      "rewards/margins": 1.377394676208496,
+      "rewards/rejected": -3.4656529426574707,
       "step": 930
     },
     {
       "epoch": 0.98,
       "learning_rate": 3.760945397705828e-10,
+      "logits/chosen": 2.6073191165924072,
+      "logits/rejected": 3.743886947631836,
+      "logps/chosen": -536.0969848632812,
+      "logps/rejected": -624.2562255859375,
+      "loss": 0.6442,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.063697338104248,
+      "rewards/margins": 1.2653493881225586,
+      "rewards/rejected": -3.3290467262268066,
       "step": 940
     },
     {
       "epoch": 0.99,
       "learning_rate": 4.17975992204056e-11,
+      "logits/chosen": 2.321948766708374,
+      "logits/rejected": 3.977466583251953,
+      "logps/chosen": -496.20025634765625,
+      "logps/rejected": -609.7675170898438,
+      "loss": 0.6933,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.116821527481079,
+      "rewards/margins": 1.348793387413025,
+      "rewards/rejected": -3.4656143188476562,
       "step": 950
     },
     {
       "epoch": 1.0,
       "step": 955,
       "total_flos": 0.0,
+      "train_loss": 0.7263204834224042,
+      "train_runtime": 20734.7169,
+      "train_samples_per_second": 2.948,
+      "train_steps_per_second": 0.046
     }
   ],
   "logging_steps": 10,
   "max_steps": 955,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 100000000,
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1bd9cb35476a01b10da6b3209784859e726bf3cc59b947897695e5d5ffe6b13
-size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:96176aeb701ce092111002b23ff886e7082dc5b7b988ccce9913225c1f4e42a5
+size 6008