Wenboz
/

zephyr-7b-dpo-full

@@ -18,15 +18,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9206
-- Rewards/chosen: -4.6196
-- Rewards/rejected: -6.0458
 - Rewards/accuracies: 0.7320
-- Rewards/margins: 1.4262
-- Logps/rejected: -3.0229
-- Logps/chosen: -2.3098
-- Logits/rejected: -2.1167
-- Logits/chosen: -2.1038
 ## Model description
@@ -63,7 +63,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.9739        | 0.8375 | 400  | 0.9206          | -4.6196        | -6.0458          | 0.7320             | 1.4262          | -3.0229        | -2.3098      | -2.1167         | -2.1038       |
 ### Framework versions

 This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.2093
+- Rewards/chosen: -5.8139
+- Rewards/rejected: -7.6630
 - Rewards/accuracies: 0.7320
+- Rewards/margins: 1.8490
+- Logps/rejected: -3.8315
+- Logps/chosen: -2.9070
+- Logits/rejected: -1.8947
+- Logits/chosen: -1.8796
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 1.267         | 0.8375 | 400  | 1.2093          | -5.8139        | -7.6630          | 0.7320             | 1.8490          | -3.8315        | -2.9070      | -1.8947         | -1.8796       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.998691442030882,
     "total_flos": 0.0,
-    "train_loss": 1.0352550020257882,
-    "train_runtime": 22152.8972,
     "train_samples": 61135,
-    "train_samples_per_second": 2.76,
-    "train_steps_per_second": 0.022
 }

 {
     "epoch": 0.998691442030882,
     "total_flos": 0.0,
+    "train_loss": 1.3686470238167785,
+    "train_runtime": 22217.0339,
     "train_samples": 61135,
+    "train_samples_per_second": 2.752,
+    "train_steps_per_second": 0.021
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.998691442030882,
     "total_flos": 0.0,
-    "train_loss": 1.0352550020257882,
-    "train_runtime": 22152.8972,
     "train_samples": 61135,
-    "train_samples_per_second": 2.76,
-    "train_steps_per_second": 0.022
 }

 {
     "epoch": 0.998691442030882,
     "total_flos": 0.0,
+    "train_loss": 1.3686470238167785,
+    "train_runtime": 22217.0339,
     "train_samples": 61135,
+    "train_samples_per_second": 2.752,
+    "train_steps_per_second": 0.021
 }

trainer_state.json CHANGED Viewed

@@ -10,13 +10,13 @@
   "log_history": [
     {
       "epoch": 0.002093692750588851,
-      "grad_norm": 21.93495506191106,
       "learning_rate": 1.0416666666666666e-08,
       "logits/chosen": -2.8280014991760254,
       "logits/rejected": -2.8466408252716064,
       "logps/chosen": -1.1081000566482544,
       "logps/rejected": -1.146370530128479,
-      "loss": 1.383,
       "rewards/accuracies": 0.46875,
       "rewards/chosen": -2.216200113296509,
       "rewards/margins": 0.0765407383441925,
@@ -25,1453 +25,1453 @@
     },
     {
       "epoch": 0.010468463752944255,
-      "grad_norm": 18.624658350148188,
       "learning_rate": 5.208333333333333e-08,
-      "logits/chosen": -2.881028652191162,
-      "logits/rejected": -2.847470760345459,
-      "logps/chosen": -1.0212035179138184,
-      "logps/rejected": -1.0807099342346191,
-      "loss": 1.2828,
       "rewards/accuracies": 0.5390625,
-      "rewards/chosen": -2.0424070358276367,
-      "rewards/margins": 0.11901294440031052,
-      "rewards/rejected": -2.1614198684692383,
       "step": 5
     },
     {
       "epoch": 0.02093692750588851,
-      "grad_norm": 17.13109379985505,
       "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.9920997619628906,
-      "logits/rejected": -2.94093918800354,
-      "logps/chosen": -1.0227670669555664,
-      "logps/rejected": -1.165470004081726,
-      "loss": 1.3069,
       "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -2.045534133911133,
-      "rewards/margins": 0.28540605306625366,
-      "rewards/rejected": -2.330940008163452,
       "step": 10
     },
     {
       "epoch": 0.031405391258832765,
-      "grad_norm": 20.205927927566222,
       "learning_rate": 1.5624999999999999e-07,
-      "logits/chosen": -2.919098377227783,
-      "logits/rejected": -2.905874729156494,
-      "logps/chosen": -1.0498722791671753,
-      "logps/rejected": -1.1000678539276123,
-      "loss": 1.2921,
       "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": -2.0997445583343506,
-      "rewards/margins": 0.10039126873016357,
-      "rewards/rejected": -2.2001357078552246,
       "step": 15
     },
     {
       "epoch": 0.04187385501177702,
-      "grad_norm": 15.5061106280485,
       "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -2.941197156906128,
-      "logits/rejected": -2.8902478218078613,
-      "logps/chosen": -0.9996241331100464,
-      "logps/rejected": -1.094834566116333,
-      "loss": 1.2669,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": -1.9992482662200928,
-      "rewards/margins": 0.190421000123024,
-      "rewards/rejected": -2.189669132232666,
       "step": 20
     },
     {
       "epoch": 0.05234231876472128,
-      "grad_norm": 15.150417333437225,
       "learning_rate": 2.604166666666667e-07,
-      "logits/chosen": -2.944608449935913,
-      "logits/rejected": -2.8806254863739014,
-      "logps/chosen": -0.9165313839912415,
-      "logps/rejected": -1.103171467781067,
-      "loss": 1.2359,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": -1.833062767982483,
-      "rewards/margins": 0.3732803463935852,
-      "rewards/rejected": -2.206342935562134,
       "step": 25
     },
     {
       "epoch": 0.06281078251766553,
-      "grad_norm": 15.053243876819153,
       "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -2.916238307952881,
-      "logits/rejected": -2.8971691131591797,
-      "logps/chosen": -0.8922262191772461,
-      "logps/rejected": -0.924017071723938,
-      "loss": 1.2538,
       "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": -1.7844524383544922,
-      "rewards/margins": 0.06358186155557632,
-      "rewards/rejected": -1.848034143447876,
       "step": 30
     },
     {
       "epoch": 0.07327924627060979,
-      "grad_norm": 15.295985558098911,
       "learning_rate": 3.645833333333333e-07,
-      "logits/chosen": -2.924506664276123,
-      "logits/rejected": -2.8910322189331055,
-      "logps/chosen": -0.9058906435966492,
-      "logps/rejected": -1.0956400632858276,
-      "loss": 1.2321,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -1.8117812871932983,
-      "rewards/margins": 0.3794988691806793,
-      "rewards/rejected": -2.1912801265716553,
       "step": 35
     },
     {
       "epoch": 0.08374771002355404,
-      "grad_norm": 15.187740492675982,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.912510871887207,
-      "logits/rejected": -2.8711163997650146,
-      "logps/chosen": -0.9113177061080933,
-      "logps/rejected": -1.0306214094161987,
-      "loss": 1.2069,
-      "rewards/accuracies": 0.574999988079071,
-      "rewards/chosen": -1.8226354122161865,
-      "rewards/margins": 0.23860761523246765,
-      "rewards/rejected": -2.0612428188323975,
       "step": 40
     },
     {
       "epoch": 0.0942161737764983,
-      "grad_norm": 13.694056162547822,
       "learning_rate": 4.6874999999999996e-07,
-      "logits/chosen": -2.8661983013153076,
-      "logits/rejected": -2.871129274368286,
-      "logps/chosen": -0.8866590261459351,
-      "logps/rejected": -1.0527524948120117,
-      "loss": 1.171,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -1.7733180522918701,
-      "rewards/margins": 0.33218708634376526,
-      "rewards/rejected": -2.1055049896240234,
       "step": 45
     },
     {
       "epoch": 0.10468463752944256,
-      "grad_norm": 16.852078598312655,
       "learning_rate": 4.999731868769026e-07,
-      "logits/chosen": -2.8084216117858887,
-      "logits/rejected": -2.8203370571136475,
-      "logps/chosen": -0.9374567866325378,
-      "logps/rejected": -1.173828125,
-      "loss": 1.2165,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -1.8749135732650757,
-      "rewards/margins": 0.47274255752563477,
-      "rewards/rejected": -2.34765625,
       "step": 50
     },
     {
       "epoch": 0.11515310128238682,
-      "grad_norm": 21.114541338810998,
       "learning_rate": 4.996716052911017e-07,
-      "logits/chosen": -2.8955435752868652,
-      "logits/rejected": -2.90877103805542,
-      "logps/chosen": -1.0479611158370972,
-      "logps/rejected": -1.1501401662826538,
-      "loss": 1.2167,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": -2.0959222316741943,
-      "rewards/margins": 0.20435786247253418,
-      "rewards/rejected": -2.3002803325653076,
       "step": 55
     },
     {
       "epoch": 0.12562156503533106,
-      "grad_norm": 24.574129872487944,
       "learning_rate": 4.990353313429303e-07,
-      "logits/chosen": -2.8288521766662598,
-      "logits/rejected": -2.821425199508667,
-      "logps/chosen": -1.0197687149047852,
-      "logps/rejected": -1.1724817752838135,
-      "loss": 1.1905,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": -2.0395374298095703,
-      "rewards/margins": 0.30542629957199097,
-      "rewards/rejected": -2.344963550567627,
       "step": 60
     },
     {
       "epoch": 0.1360900287882753,
-      "grad_norm": 19.926854717028363,
       "learning_rate": 4.980652179769217e-07,
-      "logits/chosen": -2.8469738960266113,
-      "logits/rejected": -2.8695998191833496,
-      "logps/chosen": -0.9902658462524414,
-      "logps/rejected": -1.1480392217636108,
-      "loss": 1.1935,
       "rewards/accuracies": 0.59375,
-      "rewards/chosen": -1.9805316925048828,
-      "rewards/margins": 0.3155469298362732,
-      "rewards/rejected": -2.2960784435272217,
       "step": 65
     },
     {
       "epoch": 0.14655849254121958,
-      "grad_norm": 19.196504743878798,
       "learning_rate": 4.967625656594781e-07,
-      "logits/chosen": -2.8496787548065186,
-      "logits/rejected": -2.8487606048583984,
-      "logps/chosen": -1.0576945543289185,
-      "logps/rejected": -1.2366907596588135,
-      "loss": 1.1509,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -2.115389108657837,
-      "rewards/margins": 0.35799235105514526,
-      "rewards/rejected": -2.473381519317627,
       "step": 70
     },
     {
       "epoch": 0.15702695629416383,
-      "grad_norm": 27.309614082392827,
       "learning_rate": 4.951291206355559e-07,
-      "logits/chosen": -2.802968740463257,
-      "logits/rejected": -2.753392219543457,
-      "logps/chosen": -1.0896332263946533,
-      "logps/rejected": -1.3515465259552002,
-      "loss": 1.1705,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -2.1792664527893066,
-      "rewards/margins": 0.5238265991210938,
-      "rewards/rejected": -2.7030930519104004,
       "step": 75
     },
     {
       "epoch": 0.16749542004710807,
-      "grad_norm": 19.557847979657012,
       "learning_rate": 4.93167072587771e-07,
-      "logits/chosen": -2.7415664196014404,
-      "logits/rejected": -2.7370200157165527,
-      "logps/chosen": -1.0582047700881958,
-      "logps/rejected": -1.385558843612671,
-      "loss": 1.1638,
       "rewards/accuracies": 0.6875,
-      "rewards/chosen": -2.1164095401763916,
-      "rewards/margins": 0.6547082662582397,
-      "rewards/rejected": -2.771117687225342,
       "step": 80
     },
     {
       "epoch": 0.17796388380005235,
-      "grad_norm": 20.605876232904194,
       "learning_rate": 4.908790517010636e-07,
-      "logits/chosen": -2.7899672985076904,
-      "logits/rejected": -2.7431349754333496,
-      "logps/chosen": -1.0243644714355469,
-      "logps/rejected": -1.3202240467071533,
-      "loss": 1.154,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -2.0487289428710938,
-      "rewards/margins": 0.591719388961792,
-      "rewards/rejected": -2.6404480934143066,
       "step": 85
     },
     {
       "epoch": 0.1884323475529966,
-      "grad_norm": 15.343218366521764,
       "learning_rate": 4.882681251368548e-07,
-      "logits/chosen": -2.7653021812438965,
-      "logits/rejected": -2.7124242782592773,
-      "logps/chosen": -1.115639567375183,
-      "logps/rejected": -1.4925037622451782,
-      "loss": 1.1234,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -2.231279134750366,
-      "rewards/margins": 0.7537283897399902,
-      "rewards/rejected": -2.9850075244903564,
       "step": 90
     },
     {
       "epoch": 0.19890081130594087,
-      "grad_norm": 28.33639713577856,
       "learning_rate": 4.853377929214243e-07,
-      "logits/chosen": -2.6936557292938232,
-      "logits/rejected": -2.679147243499756,
-      "logps/chosen": -1.1330680847167969,
-      "logps/rejected": -1.4060020446777344,
-      "loss": 1.1476,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -2.2661361694335938,
-      "rewards/margins": 0.5458678007125854,
-      "rewards/rejected": -2.8120040893554688,
       "step": 95
     },
     {
       "epoch": 0.2093692750588851,
-      "grad_norm": 26.32383832858066,
       "learning_rate": 4.820919832540181e-07,
-      "logits/chosen": -2.7667784690856934,
-      "logits/rejected": -2.7402002811431885,
-      "logps/chosen": -1.1223466396331787,
-      "logps/rejected": -1.3316584825515747,
-      "loss": 1.2012,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": -2.2446932792663574,
-      "rewards/margins": 0.41862398386001587,
-      "rewards/rejected": -2.6633169651031494,
       "step": 100
     },
     {
       "epoch": 0.21983773881182936,
-      "grad_norm": 17.267993211929276,
       "learning_rate": 4.785350472409791e-07,
-      "logits/chosen": -2.70428729057312,
-      "logits/rejected": -2.6778674125671387,
-      "logps/chosen": -1.146924376487732,
-      "logps/rejected": -1.4666913747787476,
-      "loss": 1.075,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -2.293848752975464,
-      "rewards/margins": 0.6395338773727417,
-      "rewards/rejected": -2.933382749557495,
       "step": 105
     },
     {
       "epoch": 0.23030620256477363,
-      "grad_norm": 35.64550114208054,
       "learning_rate": 4.7467175306295647e-07,
-      "logits/chosen": -2.6520252227783203,
-      "logits/rejected": -2.6314826011657715,
-      "logps/chosen": -1.064710259437561,
-      "logps/rejected": -1.3563224077224731,
-      "loss": 1.0764,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -2.129420518875122,
-      "rewards/margins": 0.5832241773605347,
-      "rewards/rejected": -2.7126448154449463,
       "step": 110
     },
     {
       "epoch": 0.24077466631771788,
-      "grad_norm": 22.177575846770726,
       "learning_rate": 4.70507279583015e-07,
-      "logits/chosen": -2.6880195140838623,
-      "logits/rejected": -2.6790332794189453,
-      "logps/chosen": -1.1167609691619873,
-      "logps/rejected": -1.3075841665267944,
-      "loss": 1.1395,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -2.2335219383239746,
-      "rewards/margins": 0.381646066904068,
-      "rewards/rejected": -2.615168333053589,
       "step": 115
     },
     {
       "epoch": 0.2512431300706621,
-      "grad_norm": 19.13585701945862,
       "learning_rate": 4.6604720940421207e-07,
-      "logits/chosen": -2.7028918266296387,
-      "logits/rejected": -2.651949405670166,
-      "logps/chosen": -1.063138484954834,
-      "logps/rejected": -1.4494984149932861,
-      "loss": 1.1271,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -2.126276969909668,
-      "rewards/margins": 0.7727198600769043,
-      "rewards/rejected": -2.8989968299865723,
       "step": 120
     },
     {
       "epoch": 0.26171159382360637,
-      "grad_norm": 25.557691612030105,
       "learning_rate": 4.612975213859487e-07,
-      "logits/chosen": -2.602529764175415,
-      "logits/rejected": -2.5662357807159424,
-      "logps/chosen": -1.115337610244751,
-      "logps/rejected": -1.4704806804656982,
-      "loss": 1.129,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -2.230675220489502,
-      "rewards/margins": 0.710286021232605,
-      "rewards/rejected": -2.9409613609313965,
       "step": 125
     },
     {
       "epoch": 0.2721800575765506,
-      "grad_norm": 24.75408152143484,
       "learning_rate": 4.5626458262912735e-07,
-      "logits/chosen": -2.6199193000793457,
-      "logits/rejected": -2.6276497840881348,
-      "logps/chosen": -1.1212177276611328,
-      "logps/rejected": -1.4887864589691162,
-      "loss": 1.0755,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -2.2424354553222656,
-      "rewards/margins": 0.735137403011322,
-      "rewards/rejected": -2.9775729179382324,
       "step": 130
     },
     {
       "epoch": 0.2826485213294949,
-      "grad_norm": 25.657005868555796,
       "learning_rate": 4.5095513994085974e-07,
-      "logits/chosen": -2.5629477500915527,
-      "logits/rejected": -2.5350534915924072,
-      "logps/chosen": -1.0578689575195312,
-      "logps/rejected": -1.465559482574463,
-      "loss": 1.1166,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -2.1157379150390625,
-      "rewards/margins": 0.8153812289237976,
-      "rewards/rejected": -2.931118965148926,
       "step": 135
     },
     {
       "epoch": 0.29311698508243916,
-      "grad_norm": 33.368623664763554,
       "learning_rate": 4.453763107901675e-07,
-      "logits/chosen": -2.5612621307373047,
-      "logits/rejected": -2.5635030269622803,
-      "logps/chosen": -1.290777325630188,
-      "logps/rejected": -1.5123212337493896,
-      "loss": 1.1713,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -2.581554651260376,
-      "rewards/margins": 0.44308751821517944,
-      "rewards/rejected": -3.0246424674987793,
       "step": 140
     },
     {
       "epoch": 0.3035854488353834,
-      "grad_norm": 28.378170027761122,
       "learning_rate": 4.395355737667985e-07,
-      "logits/chosen": -2.5412211418151855,
-      "logits/rejected": -2.52405047416687,
-      "logps/chosen": -1.1427204608917236,
-      "logps/rejected": -1.5294116735458374,
-      "loss": 1.0713,
       "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -2.2854409217834473,
-      "rewards/margins": 0.7733823657035828,
-      "rewards/rejected": -3.058823347091675,
       "step": 145
     },
     {
       "epoch": 0.31405391258832765,
-      "grad_norm": 46.6740015037233,
       "learning_rate": 4.3344075855595097e-07,
-      "logits/chosen": -2.585468292236328,
-      "logits/rejected": -2.542560338973999,
-      "logps/chosen": -1.1231515407562256,
-      "logps/rejected": -1.4225043058395386,
-      "loss": 1.0963,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": -2.246303081512451,
-      "rewards/margins": 0.5987052321434021,
-      "rewards/rejected": -2.845008611679077,
       "step": 150
     },
     {
       "epoch": 0.3245223763412719,
-      "grad_norm": 56.50289037671195,
       "learning_rate": 4.271000354423425e-07,
-      "logits/chosen": -2.5081095695495605,
-      "logits/rejected": -2.486605167388916,
-      "logps/chosen": -1.1743667125701904,
-      "logps/rejected": -1.6648305654525757,
-      "loss": 1.0424,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -2.348733425140381,
-      "rewards/margins": 0.9809279441833496,
-      "rewards/rejected": -3.3296611309051514,
       "step": 155
     },
     {
       "epoch": 0.33499084009421615,
-      "grad_norm": 28.276686642324012,
       "learning_rate": 4.2052190435769554e-07,
-      "logits/chosen": -2.4815526008605957,
-      "logits/rejected": -2.4718894958496094,
-      "logps/chosen": -1.218774676322937,
-      "logps/rejected": -1.7314999103546143,
-      "loss": 1.0686,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -2.437549352645874,
-      "rewards/margins": 1.0254504680633545,
-      "rewards/rejected": -3.4629998207092285,
       "step": 160
     },
     {
       "epoch": 0.34545930384716045,
-      "grad_norm": 30.685468209669434,
       "learning_rate": 4.137151834863213e-07,
-      "logits/chosen": -2.5408642292022705,
-      "logits/rejected": -2.5061981678009033,
-      "logps/chosen": -1.1855158805847168,
-      "logps/rejected": -1.5292389392852783,
-      "loss": 1.0436,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -2.3710317611694336,
-      "rewards/margins": 0.6874457001686096,
-      "rewards/rejected": -3.0584778785705566,
       "step": 165
     },
     {
       "epoch": 0.3559277676001047,
-      "grad_norm": 40.531749208814226,
       "learning_rate": 4.0668899744407567e-07,
-      "logits/chosen": -2.533921003341675,
-      "logits/rejected": -2.497112989425659,
-      "logps/chosen": -1.1383014917373657,
-      "logps/rejected": -1.505181074142456,
-      "loss": 1.0589,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -2.2766029834747314,
-      "rewards/margins": 0.7337592244148254,
-      "rewards/rejected": -3.010362148284912,
       "step": 170
     },
     {
       "epoch": 0.36639623135304894,
-      "grad_norm": 23.332727041453218,
       "learning_rate": 3.994527650465352e-07,
-      "logits/chosen": -2.4560179710388184,
-      "logits/rejected": -2.4505882263183594,
-      "logps/chosen": -1.1397249698638916,
-      "logps/rejected": -1.5572229623794556,
-      "loss": 1.0495,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -2.279449939727783,
-      "rewards/margins": 0.834996223449707,
-      "rewards/rejected": -3.114445924758911,
       "step": 175
     },
     {
       "epoch": 0.3768646951059932,
-      "grad_norm": 40.28868470678003,
       "learning_rate": 3.920161866827889e-07,
-      "logits/chosen": -2.4761745929718018,
-      "logits/rejected": -2.46667218208313,
-      "logps/chosen": -1.2438228130340576,
-      "logps/rejected": -1.7211487293243408,
-      "loss": 1.0691,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -2.4876456260681152,
-      "rewards/margins": 0.9546514749526978,
-      "rewards/rejected": -3.4422974586486816,
       "step": 180
     },
     {
       "epoch": 0.38733315885893743,
-      "grad_norm": 28.601855368944907,
       "learning_rate": 3.8438923131177237e-07,
-      "logits/chosen": -2.4253547191619873,
-      "logits/rejected": -2.4443154335021973,
-      "logps/chosen": -1.2864909172058105,
-      "logps/rejected": -1.7701524496078491,
-      "loss": 0.9977,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -2.572981834411621,
-      "rewards/margins": 0.9673231840133667,
-      "rewards/rejected": -3.5403048992156982,
       "step": 185
     },
     {
       "epoch": 0.39780162261188173,
-      "grad_norm": 24.252753054651354,
       "learning_rate": 3.765821230985757e-07,
-      "logits/chosen": -2.431131362915039,
-      "logits/rejected": -2.4391722679138184,
-      "logps/chosen": -1.2784379720687866,
-      "logps/rejected": -1.7420759201049805,
-      "loss": 1.0192,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -2.5568759441375732,
-      "rewards/margins": 0.9272757768630981,
-      "rewards/rejected": -3.484151840209961,
       "step": 190
     },
     {
       "epoch": 0.408270086364826,
-      "grad_norm": 38.5583254942953,
       "learning_rate": 3.6860532770864005e-07,
-      "logits/chosen": -2.446394681930542,
-      "logits/rejected": -2.4406747817993164,
-      "logps/chosen": -1.3122910261154175,
-      "logps/rejected": -1.8817335367202759,
-      "loss": 1.0854,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -2.624582052230835,
-      "rewards/margins": 1.1388850212097168,
-      "rewards/rejected": -3.7634670734405518,
       "step": 195
     },
     {
       "epoch": 0.4187385501177702,
-      "grad_norm": 33.60032889557618,
       "learning_rate": 3.604695382782159e-07,
-      "logits/chosen": -2.3602447509765625,
-      "logits/rejected": -2.3452978134155273,
-      "logps/chosen": -1.418891191482544,
-      "logps/rejected": -1.8115421533584595,
-      "loss": 1.0362,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -2.837782382965088,
-      "rewards/margins": 0.7853015661239624,
-      "rewards/rejected": -3.623084306716919,
       "step": 200
     },
     {
       "epoch": 0.42920701387071447,
-      "grad_norm": 41.77530109838899,
       "learning_rate": 3.5218566107988867e-07,
-      "logits/chosen": -2.440084934234619,
-      "logits/rejected": -2.434321641921997,
-      "logps/chosen": -1.4680618047714233,
-      "logps/rejected": -2.0431008338928223,
-      "loss": 1.0237,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -2.9361236095428467,
-      "rewards/margins": 1.1500780582427979,
-      "rewards/rejected": -4.0862016677856445,
       "step": 205
     },
     {
       "epoch": 0.4396754776236587,
-      "grad_norm": 38.42881832336701,
       "learning_rate": 3.4376480090239047e-07,
-      "logits/chosen": -2.3035776615142822,
-      "logits/rejected": -2.3068020343780518,
-      "logps/chosen": -1.538132667541504,
-      "logps/rejected": -1.9348046779632568,
-      "loss": 1.0792,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -3.076265335083008,
-      "rewards/margins": 0.793343722820282,
-      "rewards/rejected": -3.8696093559265137,
       "step": 210
     },
     {
       "epoch": 0.45014394137660296,
-      "grad_norm": 37.864128714760994,
       "learning_rate": 3.3521824616429284e-07,
-      "logits/chosen": -2.3211138248443604,
-      "logits/rejected": -2.3472557067871094,
-      "logps/chosen": -1.592795968055725,
-      "logps/rejected": -2.076181411743164,
-      "loss": 1.0398,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -3.18559193611145,
-      "rewards/margins": 0.9667709469795227,
-      "rewards/rejected": -4.152362823486328,
       "step": 215
     },
     {
       "epoch": 0.46061240512954726,
-      "grad_norm": 49.02469658888052,
       "learning_rate": 3.265574537815398e-07,
-      "logits/chosen": -2.3193514347076416,
-      "logits/rejected": -2.3292932510375977,
-      "logps/chosen": -1.618334174156189,
-      "logps/rejected": -2.132713794708252,
-      "loss": 0.9556,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -3.236668348312378,
-      "rewards/margins": 1.028759241104126,
-      "rewards/rejected": -4.265427589416504,
       "step": 220
     },
     {
       "epoch": 0.4710808688824915,
-      "grad_norm": 55.910411237501854,
       "learning_rate": 3.1779403380910425e-07,
-      "logits/chosen": -2.300808906555176,
-      "logits/rejected": -2.271570920944214,
-      "logps/chosen": -1.7557439804077148,
-      "logps/rejected": -2.248976230621338,
-      "loss": 1.0217,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -3.5114879608154297,
-      "rewards/margins": 0.9864643216133118,
-      "rewards/rejected": -4.497952461242676,
       "step": 225
     },
     {
       "epoch": 0.48154933263543576,
-      "grad_norm": 42.0888069104163,
       "learning_rate": 3.0893973387735683e-07,
-      "logits/chosen": -2.294128894805908,
-      "logits/rejected": -2.309138774871826,
-      "logps/chosen": -1.751056432723999,
-      "logps/rejected": -2.3280422687530518,
-      "loss": 0.9723,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -3.502112865447998,
-      "rewards/margins": 1.1539720296859741,
-      "rewards/rejected": -4.6560845375061035,
       "step": 230
     },
     {
       "epoch": 0.49201779638838,
-      "grad_norm": 35.0417945479427,
       "learning_rate": 3.000064234440111e-07,
-      "logits/chosen": -2.2189602851867676,
-      "logits/rejected": -2.2302825450897217,
-      "logps/chosen": -1.7158355712890625,
-      "logps/rejected": -2.1802239418029785,
-      "loss": 0.9931,
       "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -3.431671142578125,
-      "rewards/margins": 0.9287766218185425,
-      "rewards/rejected": -4.360447883605957,
       "step": 235
     },
     {
       "epoch": 0.5024862601413242,
-      "grad_norm": 36.090443312871884,
       "learning_rate": 2.910060778827554e-07,
-      "logits/chosen": -2.2169604301452637,
-      "logits/rejected": -2.2240233421325684,
-      "logps/chosen": -1.7415260076522827,
-      "logps/rejected": -2.3678994178771973,
-      "loss": 1.0067,
       "rewards/accuracies": 0.71875,
-      "rewards/chosen": -3.4830520153045654,
-      "rewards/margins": 1.25274658203125,
-      "rewards/rejected": -4.7357988357543945,
       "step": 240
     },
     {
       "epoch": 0.5129547238942685,
-      "grad_norm": 44.496210416378226,
       "learning_rate": 2.8195076242990116e-07,
-      "logits/chosen": -2.2511677742004395,
-      "logits/rejected": -2.272930860519409,
-      "logps/chosen": -1.718396782875061,
-      "logps/rejected": -2.421145439147949,
-      "loss": 0.9378,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -3.436793565750122,
-      "rewards/margins": 1.4054975509643555,
-      "rewards/rejected": -4.842290878295898,
       "step": 245
     },
     {
       "epoch": 0.5234231876472127,
-      "grad_norm": 37.890024882995576,
       "learning_rate": 2.7285261601056697e-07,
-      "logits/chosen": -2.1709089279174805,
-      "logits/rejected": -2.190825939178467,
-      "logps/chosen": -1.9037107229232788,
-      "logps/rejected": -2.5919413566589355,
-      "loss": 1.059,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -3.8074214458465576,
-      "rewards/margins": 1.3764612674713135,
-      "rewards/rejected": -5.183882713317871,
       "step": 250
     },
     {
       "epoch": 0.533891651400157,
-      "grad_norm": 43.16172159761982,
       "learning_rate": 2.6372383496608186e-07,
-      "logits/chosen": -2.2374463081359863,
-      "logits/rejected": -2.2212741374969482,
-      "logps/chosen": -1.9738657474517822,
-      "logps/rejected": -2.5382752418518066,
-      "loss": 1.0355,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -3.9477314949035645,
-      "rewards/margins": 1.128818392753601,
-      "rewards/rejected": -5.076550483703613,
       "step": 255
     },
     {
       "epoch": 0.5443601151531012,
-      "grad_norm": 53.257572754578675,
       "learning_rate": 2.5457665670441937e-07,
-      "logits/chosen": -2.1852753162384033,
-      "logits/rejected": -2.1949639320373535,
-      "logps/chosen": -1.8928565979003906,
-      "logps/rejected": -2.5031745433807373,
-      "loss": 0.9936,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -3.7857131958007812,
-      "rewards/margins": 1.2206356525421143,
-      "rewards/rejected": -5.006349086761475,
       "step": 260
     },
     {
       "epoch": 0.5548285789060455,
-      "grad_norm": 50.49637822416631,
       "learning_rate": 2.454233432955807e-07,
-      "logits/chosen": -2.1886794567108154,
-      "logits/rejected": -2.1979708671569824,
-      "logps/chosen": -1.947239637374878,
-      "logps/rejected": -2.452030658721924,
-      "loss": 0.9884,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -3.894479274749756,
-      "rewards/margins": 1.0095816850662231,
-      "rewards/rejected": -4.904061317443848,
       "step": 265
     },
     {
       "epoch": 0.5652970426589898,
-      "grad_norm": 48.68640959435197,
       "learning_rate": 2.3627616503391812e-07,
-      "logits/chosen": -2.229895830154419,
-      "logits/rejected": -2.239255428314209,
-      "logps/chosen": -2.0069568157196045,
-      "logps/rejected": -2.4461960792541504,
-      "loss": 0.9656,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -4.013913631439209,
-      "rewards/margins": 0.8784781694412231,
-      "rewards/rejected": -4.892392158508301,
       "step": 270
     },
     {
       "epoch": 0.575765506411934,
-      "grad_norm": 30.269087239551055,
       "learning_rate": 2.2714738398943308e-07,
-      "logits/chosen": -2.2119524478912354,
-      "logits/rejected": -2.2117958068847656,
-      "logps/chosen": -1.8545528650283813,
-      "logps/rejected": -2.6458373069763184,
-      "loss": 0.9144,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -3.7091057300567627,
-      "rewards/margins": 1.5825694799423218,
-      "rewards/rejected": -5.291674613952637,
       "step": 275
     },
     {
       "epoch": 0.5862339701648783,
-      "grad_norm": 37.24400806922662,
       "learning_rate": 2.1804923757009882e-07,
-      "logits/chosen": -2.2228572368621826,
-      "logits/rejected": -2.2220091819763184,
-      "logps/chosen": -1.8731377124786377,
-      "logps/rejected": -2.5260300636291504,
-      "loss": 1.014,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -3.7462754249572754,
-      "rewards/margins": 1.3057842254638672,
-      "rewards/rejected": -5.052060127258301,
       "step": 280
     },
     {
       "epoch": 0.5967024339178225,
-      "grad_norm": 43.31209376980203,
       "learning_rate": 2.089939221172446e-07,
-      "logits/chosen": -2.1984705924987793,
-      "logits/rejected": -2.1894819736480713,
-      "logps/chosen": -1.953238844871521,
-      "logps/rejected": -2.5444319248199463,
-      "loss": 1.0048,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -3.906477689743042,
-      "rewards/margins": 1.1823861598968506,
-      "rewards/rejected": -5.088863849639893,
       "step": 285
     },
     {
       "epoch": 0.6071708976707668,
-      "grad_norm": 46.642401554710816,
       "learning_rate": 1.9999357655598891e-07,
-      "logits/chosen": -2.1803629398345947,
-      "logits/rejected": -2.1622722148895264,
-      "logps/chosen": -1.891466498374939,
-      "logps/rejected": -2.350858688354492,
-      "loss": 0.9927,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -3.782932996749878,
-      "rewards/margins": 0.9187847971916199,
-      "rewards/rejected": -4.701717376708984,
       "step": 290
     },
     {
       "epoch": 0.6176393614237111,
-      "grad_norm": 52.58617249560728,
       "learning_rate": 1.9106026612264315e-07,
-      "logits/chosen": -2.2187323570251465,
-      "logits/rejected": -2.205200672149658,
-      "logps/chosen": -1.8883600234985352,
-      "logps/rejected": -2.3388593196868896,
-      "loss": 0.9493,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -3.7767200469970703,
-      "rewards/margins": 0.9009987115859985,
-      "rewards/rejected": -4.677718639373779,
       "step": 295
     },
     {
       "epoch": 0.6281078251766553,
-      "grad_norm": 52.91294946354268,
       "learning_rate": 1.8220596619089573e-07,
-      "logits/chosen": -2.092263698577881,
-      "logits/rejected": -2.0721356868743896,
-      "logps/chosen": -2.0280632972717285,
-      "logps/rejected": -2.621304988861084,
-      "loss": 1.0111,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -4.056126594543457,
-      "rewards/margins": 1.1864832639694214,
-      "rewards/rejected": -5.242609977722168,
       "step": 300
     },
     {
       "epoch": 0.6385762889295996,
-      "grad_norm": 46.52800472294266,
       "learning_rate": 1.7344254621846017e-07,
-      "logits/chosen": -2.181384563446045,
-      "logits/rejected": -2.1939797401428223,
-      "logps/chosen": -1.9072606563568115,
-      "logps/rejected": -2.3984622955322266,
-      "loss": 0.9429,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -3.814521312713623,
-      "rewards/margins": 0.9824029803276062,
-      "rewards/rejected": -4.796924591064453,
       "step": 305
     },
     {
       "epoch": 0.6490447526825438,
-      "grad_norm": 46.97995595685562,
       "learning_rate": 1.647817538357072e-07,
-      "logits/chosen": -2.121640682220459,
-      "logits/rejected": -2.135894298553467,
-      "logps/chosen": -2.1177263259887695,
-      "logps/rejected": -2.7280328273773193,
-      "loss": 0.9275,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -4.235452651977539,
-      "rewards/margins": 1.2206127643585205,
-      "rewards/rejected": -5.456065654754639,
       "step": 310
     },
     {
       "epoch": 0.6595132164354881,
-      "grad_norm": 45.80872073055723,
       "learning_rate": 1.562351990976095e-07,
-      "logits/chosen": -2.1575684547424316,
-      "logits/rejected": -2.1615099906921387,
-      "logps/chosen": -2.148725986480713,
-      "logps/rejected": -2.741818904876709,
-      "loss": 0.9761,
       "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -4.297451972961426,
-      "rewards/margins": 1.1861859560012817,
-      "rewards/rejected": -5.483637809753418,
       "step": 315
     },
     {
       "epoch": 0.6699816801884323,
-      "grad_norm": 47.83368873073484,
       "learning_rate": 1.478143389201113e-07,
-      "logits/chosen": -2.1588540077209473,
-      "logits/rejected": -2.154210329055786,
-      "logps/chosen": -2.074022054672241,
-      "logps/rejected": -2.7597062587738037,
-      "loss": 0.9235,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -4.148044109344482,
-      "rewards/margins": 1.3713690042495728,
-      "rewards/rejected": -5.519412517547607,
       "step": 320
     },
     {
       "epoch": 0.6804501439413766,
-      "grad_norm": 55.31825641332028,
       "learning_rate": 1.3953046172178413e-07,
-      "logits/chosen": -2.119729518890381,
-      "logits/rejected": -2.1389968395233154,
-      "logps/chosen": -2.3134312629699707,
-      "logps/rejected": -2.9678821563720703,
-      "loss": 1.0012,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -4.626862525939941,
-      "rewards/margins": 1.3089015483856201,
-      "rewards/rejected": -5.935764312744141,
       "step": 325
     },
     {
       "epoch": 0.6909186076943209,
-      "grad_norm": 50.371210241190134,
       "learning_rate": 1.3139467229135998e-07,
-      "logits/chosen": -2.1119532585144043,
-      "logits/rejected": -2.120948314666748,
-      "logps/chosen": -2.2528138160705566,
-      "logps/rejected": -3.02119779586792,
-      "loss": 0.9473,
       "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -4.505627632141113,
-      "rewards/margins": 1.536767601966858,
-      "rewards/rejected": -6.04239559173584,
       "step": 330
     },
     {
       "epoch": 0.7013870714472651,
-      "grad_norm": 64.75546200262123,
       "learning_rate": 1.2341787690142435e-07,
-      "logits/chosen": -2.0687994956970215,
-      "logits/rejected": -2.0951106548309326,
-      "logps/chosen": -2.3926031589508057,
-      "logps/rejected": -3.0681991577148438,
-      "loss": 0.973,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -4.785206317901611,
-      "rewards/margins": 1.3511921167373657,
-      "rewards/rejected": -6.1363983154296875,
       "step": 335
     },
     {
       "epoch": 0.7118555352002094,
-      "grad_norm": 62.37625935660813,
       "learning_rate": 1.1561076868822755e-07,
-      "logits/chosen": -2.0640933513641357,
-      "logits/rejected": -2.1258063316345215,
-      "logps/chosen": -2.3601365089416504,
-      "logps/rejected": -3.2155094146728516,
-      "loss": 0.9726,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -4.720273017883301,
-      "rewards/margins": 1.710745096206665,
-      "rewards/rejected": -6.431018829345703,
       "step": 340
     },
     {
       "epoch": 0.7223239989531536,
-      "grad_norm": 42.42351768699483,
       "learning_rate": 1.0798381331721107e-07,
-      "logits/chosen": -2.1099228858947754,
-      "logits/rejected": -2.1320974826812744,
-      "logps/chosen": -2.260925769805908,
-      "logps/rejected": -2.945192575454712,
-      "loss": 0.9736,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -4.521851539611816,
-      "rewards/margins": 1.3685338497161865,
-      "rewards/rejected": -5.890385150909424,
       "step": 345
     },
     {
       "epoch": 0.7327924627060979,
-      "grad_norm": 43.99023051401102,
       "learning_rate": 1.0054723495346482e-07,
-      "logits/chosen": -2.1317076683044434,
-      "logits/rejected": -2.1474900245666504,
-      "logps/chosen": -2.075162887573242,
-      "logps/rejected": -2.634793281555176,
-      "loss": 0.9165,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -4.150325775146484,
-      "rewards/margins": 1.1192606687545776,
-      "rewards/rejected": -5.269586563110352,
       "step": 350
     },
     {
       "epoch": 0.7432609264590422,
-      "grad_norm": 41.72182947472904,
       "learning_rate": 9.331100255592436e-08,
-      "logits/chosen": -2.1080145835876465,
-      "logits/rejected": -2.1329493522644043,
-      "logps/chosen": -1.9976682662963867,
-      "logps/rejected": -2.5884833335876465,
-      "loss": 1.0031,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -3.9953365325927734,
-      "rewards/margins": 1.1816307306289673,
-      "rewards/rejected": -5.176966667175293,
       "step": 355
     },
     {
       "epoch": 0.7537293902119864,
-      "grad_norm": 44.34047823991735,
       "learning_rate": 8.628481651367875e-08,
-      "logits/chosen": -2.111832857131958,
-      "logits/rejected": -2.128884792327881,
-      "logps/chosen": -1.9469451904296875,
-      "logps/rejected": -2.5760998725891113,
-      "loss": 0.9578,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -3.893890380859375,
-      "rewards/margins": 1.2583085298538208,
-      "rewards/rejected": -5.152199745178223,
       "step": 360
     },
     {
       "epoch": 0.7641978539649307,
-      "grad_norm": 44.24679829957238,
       "learning_rate": 7.947809564230445e-08,
-      "logits/chosen": -2.130434513092041,
-      "logits/rejected": -2.136301040649414,
-      "logps/chosen": -2.001988172531128,
-      "logps/rejected": -2.7044124603271484,
-      "loss": 0.9305,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -4.003976345062256,
-      "rewards/margins": 1.404848337173462,
-      "rewards/rejected": -5.408824920654297,
       "step": 365
     },
     {
       "epoch": 0.7746663177178749,
-      "grad_norm": 41.688418517292405,
       "learning_rate": 7.289996455765748e-08,
-      "logits/chosen": -2.106525421142578,
-      "logits/rejected": -2.1191978454589844,
-      "logps/chosen": -1.9732780456542969,
-      "logps/rejected": -2.7075438499450684,
-      "loss": 0.8596,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -3.9465560913085938,
-      "rewards/margins": 1.4685311317443848,
-      "rewards/rejected": -5.415087699890137,
       "step": 370
     },
     {
       "epoch": 0.7851347814708192,
-      "grad_norm": 49.6620038718469,
       "learning_rate": 6.655924144404906e-08,
-      "logits/chosen": -2.0811514854431152,
-      "logits/rejected": -2.098820924758911,
-      "logps/chosen": -2.00937819480896,
-      "logps/rejected": -2.715106248855591,
-      "loss": 0.9508,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -4.01875638961792,
-      "rewards/margins": 1.4114553928375244,
-      "rewards/rejected": -5.430212497711182,
       "step": 375
     },
     {
       "epoch": 0.7956032452237635,
-      "grad_norm": 49.439098964705394,
       "learning_rate": 6.046442623320145e-08,
-      "logits/chosen": -2.1282591819763184,
-      "logits/rejected": -2.172515869140625,
-      "logps/chosen": -2.048567056655884,
-      "logps/rejected": -2.6656880378723145,
-      "loss": 0.947,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -4.097134113311768,
-      "rewards/margins": 1.2342422008514404,
-      "rewards/rejected": -5.331376075744629,
       "step": 380
     },
     {
       "epoch": 0.8060717089767077,
-      "grad_norm": 42.61496853359177,
       "learning_rate": 5.4623689209832484e-08,
-      "logits/chosen": -2.0846481323242188,
-      "logits/rejected": -2.10569429397583,
-      "logps/chosen": -2.0798821449279785,
-      "logps/rejected": -2.7054901123046875,
-      "loss": 0.9314,
       "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -4.159764289855957,
-      "rewards/margins": 1.2512160539627075,
-      "rewards/rejected": -5.410980224609375,
       "step": 385
     },
     {
       "epoch": 0.816540172729652,
-      "grad_norm": 44.10407381547168,
       "learning_rate": 4.904486005914027e-08,
-      "logits/chosen": -2.091681957244873,
-      "logits/rejected": -2.098536252975464,
-      "logps/chosen": -2.2144787311553955,
-      "logps/rejected": -2.8681719303131104,
-      "loss": 0.9219,
       "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -4.428957462310791,
-      "rewards/margins": 1.3073859214782715,
-      "rewards/rejected": -5.736343860626221,
       "step": 390
     },
     {
       "epoch": 0.8270086364825961,
-      "grad_norm": 46.05335739253767,
       "learning_rate": 4.373541737087263e-08,
-      "logits/chosen": -2.0259995460510254,
-      "logits/rejected": -2.0590269565582275,
-      "logps/chosen": -2.194620370864868,
-      "logps/rejected": -2.9196109771728516,
-      "loss": 0.9562,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -4.389240741729736,
-      "rewards/margins": 1.449981689453125,
-      "rewards/rejected": -5.839221954345703,
       "step": 395
     },
     {
       "epoch": 0.8374771002355405,
-      "grad_norm": 47.14141799320461,
       "learning_rate": 3.8702478614051345e-08,
-      "logits/chosen": -2.0541300773620605,
-      "logits/rejected": -2.0651955604553223,
-      "logps/chosen": -2.281395435333252,
-      "logps/rejected": -2.873800277709961,
-      "loss": 0.9739,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -4.562790870666504,
-      "rewards/margins": 1.1848098039627075,
-      "rewards/rejected": -5.747600555419922,
       "step": 400
     },
     {
       "epoch": 0.8374771002355405,
-      "eval_logits/chosen": -2.103816270828247,
-      "eval_logits/rejected": -2.1166677474975586,
-      "eval_logps/chosen": -2.3097894191741943,
-      "eval_logps/rejected": -3.02291202545166,
-      "eval_loss": 0.9205789566040039,
       "eval_rewards/accuracies": 0.7319999933242798,
-      "eval_rewards/chosen": -4.619578838348389,
-      "eval_rewards/margins": 1.4262455701828003,
-      "eval_rewards/rejected": -6.04582405090332,
-      "eval_runtime": 171.4733,
-      "eval_samples_per_second": 11.664,
       "eval_steps_per_second": 0.729,
       "step": 400
     },
     {
       "epoch": 0.8479455639884846,
-      "grad_norm": 47.00773953228135,
       "learning_rate": 3.3952790595787986e-08,
-      "logits/chosen": -2.060488224029541,
-      "logits/rejected": -2.077713966369629,
-      "logps/chosen": -2.361910104751587,
-      "logps/rejected": -2.9994819164276123,
-      "loss": 0.9015,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -4.723820209503174,
-      "rewards/margins": 1.2751436233520508,
-      "rewards/rejected": -5.998963832855225,
       "step": 405
     },
     {
       "epoch": 0.8584140277414289,
-      "grad_norm": 41.35340944536794,
       "learning_rate": 2.9492720416985e-08,
-      "logits/chosen": -2.0293195247650146,
-      "logits/rejected": -2.0557637214660645,
-      "logps/chosen": -2.3440773487091064,
-      "logps/rejected": -2.9938693046569824,
-      "loss": 0.9306,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -4.688154697418213,
-      "rewards/margins": 1.299583911895752,
-      "rewards/rejected": -5.987738609313965,
       "step": 410
     },
     {
       "epoch": 0.8688824914943732,
-      "grad_norm": 69.32805874095317,
       "learning_rate": 2.5328246937043525e-08,
-      "logits/chosen": -2.061347484588623,
-      "logits/rejected": -2.070070505142212,
-      "logps/chosen": -2.4142396450042725,
-      "logps/rejected": -2.9347751140594482,
-      "loss": 0.9747,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -4.828479290008545,
-      "rewards/margins": 1.0410706996917725,
-      "rewards/rejected": -5.8695502281188965,
       "step": 415
     },
     {
       "epoch": 0.8793509552473174,
-      "grad_norm": 51.664685591057165,
       "learning_rate": 2.1464952759020856e-08,
-      "logits/chosen": -2.0183963775634766,
-      "logits/rejected": -2.0151352882385254,
-      "logps/chosen": -2.2587149143218994,
-      "logps/rejected": -3.042794704437256,
-      "loss": 0.8968,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -4.517429828643799,
-      "rewards/margins": 1.568159818649292,
-      "rewards/rejected": -6.085589408874512,
       "step": 420
     },
     {
       "epoch": 0.8898194190002617,
-      "grad_norm": 56.49783544348942,
       "learning_rate": 1.7908016745981856e-08,
-      "logits/chosen": -2.0497357845306396,
-      "logits/rejected": -2.0780141353607178,
-      "logps/chosen": -2.142561435699463,
-      "logps/rejected": -2.9286532402038574,
-      "loss": 0.8707,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -4.285122871398926,
-      "rewards/margins": 1.5721828937530518,
-      "rewards/rejected": -5.857306480407715,
       "step": 425
     },
     {
       "epoch": 0.9002878827532059,
-      "grad_norm": 55.57606306413903,
       "learning_rate": 1.4662207078575684e-08,
-      "logits/chosen": -2.0301456451416016,
-      "logits/rejected": -2.055358409881592,
-      "logps/chosen": -2.3221189975738525,
-      "logps/rejected": -2.9942822456359863,
-      "loss": 0.8793,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -4.644237995147705,
-      "rewards/margins": 1.344326376914978,
-      "rewards/rejected": -5.988564491271973,
       "step": 430
     },
     {
       "epoch": 0.9107563465061502,
-      "grad_norm": 48.809574680145,
       "learning_rate": 1.1731874863145142e-08,
-      "logits/chosen": -2.028263568878174,
-      "logits/rejected": -2.0348639488220215,
-      "logps/chosen": -2.202627182006836,
-      "logps/rejected": -2.7498812675476074,
-      "loss": 0.9088,
       "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -4.405254364013672,
-      "rewards/margins": 1.0945093631744385,
-      "rewards/rejected": -5.499762535095215,
       "step": 435
     },
     {
       "epoch": 0.9212248102590945,
-      "grad_norm": 58.77712348946075,
       "learning_rate": 9.12094829893642e-09,
-      "logits/chosen": -2.078192949295044,
-      "logits/rejected": -2.0777792930603027,
-      "logps/chosen": -2.2879416942596436,
-      "logps/rejected": -2.850325584411621,
-      "loss": 0.9329,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -4.575883388519287,
-      "rewards/margins": 1.1247674226760864,
-      "rewards/rejected": -5.700651168823242,
       "step": 440
     },
     {
       "epoch": 0.9316932740120387,
-      "grad_norm": 53.962863944581244,
       "learning_rate": 6.832927412229017e-09,
-      "logits/chosen": -1.9925105571746826,
-      "logits/rejected": -2.016268014907837,
-      "logps/chosen": -2.286975860595703,
-      "logps/rejected": -3.0245378017425537,
-      "loss": 0.9372,
       "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -4.573951721191406,
-      "rewards/margins": 1.4751240015029907,
-      "rewards/rejected": -6.049075603485107,
       "step": 445
     },
     {
       "epoch": 0.942161737764983,
-      "grad_norm": 52.6353894854054,
       "learning_rate": 4.8708793644441086e-09,
-      "logits/chosen": -2.0495445728302,
-      "logits/rejected": -2.0841915607452393,
-      "logps/chosen": -2.1221392154693604,
-      "logps/rejected": -2.9009857177734375,
-      "loss": 0.8934,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -4.244278430938721,
-      "rewards/margins": 1.5576937198638916,
-      "rewards/rejected": -5.801971435546875,
       "step": 450
     },
     {
       "epoch": 0.9526302015179272,
-      "grad_norm": 48.71626303564986,
       "learning_rate": 3.2374343405217884e-09,
-      "logits/chosen": -2.043102979660034,
-      "logits/rejected": -2.0290329456329346,
-      "logps/chosen": -2.246981143951416,
-      "logps/rejected": -2.93644118309021,
-      "loss": 0.9693,
       "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -4.493962287902832,
-      "rewards/margins": 1.3789204359054565,
-      "rewards/rejected": -5.87288236618042,
       "step": 455
     },
     {
       "epoch": 0.9630986652708715,
-      "grad_norm": 63.760211123086705,
       "learning_rate": 1.9347820230782295e-09,
-      "logits/chosen": -2.0251128673553467,
-      "logits/rejected": -2.0602123737335205,
-      "logps/chosen": -2.2238211631774902,
-      "logps/rejected": -3.0641932487487793,
-      "loss": 0.9167,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -4.4476423263549805,
-      "rewards/margins": 1.6807438135147095,
-      "rewards/rejected": -6.128386497497559,
       "step": 460
     },
     {
       "epoch": 0.9735671290238157,
-      "grad_norm": 35.043466848608176,
       "learning_rate": 9.64668657069706e-10,
-      "logits/chosen": -2.059887409210205,
-      "logits/rejected": -2.0487585067749023,
-      "logps/chosen": -2.2237155437469482,
-      "logps/rejected": -3.084481716156006,
-      "loss": 0.8842,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -4.4474310874938965,
-      "rewards/margins": 1.7215325832366943,
-      "rewards/rejected": -6.168963432312012,
       "step": 465
     },
     {
       "epoch": 0.98403559277676,
-      "grad_norm": 42.50622828359277,
       "learning_rate": 3.2839470889836627e-10,
-      "logits/chosen": -1.998681664466858,
-      "logits/rejected": -1.9859771728515625,
-      "logps/chosen": -2.061518430709839,
-      "logps/rejected": -2.9629697799682617,
-      "loss": 0.8959,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -4.123036861419678,
-      "rewards/margins": 1.8029022216796875,
-      "rewards/rejected": -5.925939559936523,
       "step": 470
     },
     {
       "epoch": 0.9945040565297043,
-      "grad_norm": 69.11127660659228,
       "learning_rate": 2.6813123097352287e-11,
-      "logits/chosen": -2.068897008895874,
-      "logits/rejected": -2.0939974784851074,
-      "logps/chosen": -2.2420966625213623,
-      "logps/rejected": -2.8523502349853516,
-      "loss": 0.8943,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -4.484193325042725,
-      "rewards/margins": 1.2205069065093994,
-      "rewards/rejected": -5.704700469970703,
       "step": 475
     },
     {
       "epoch": 0.998691442030882,
       "step": 477,
       "total_flos": 0.0,
-      "train_loss": 1.0352550020257882,
-      "train_runtime": 22152.8972,
-      "train_samples_per_second": 2.76,
-      "train_steps_per_second": 0.022
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.002093692750588851,
+      "grad_norm": 23.597004065952554,
       "learning_rate": 1.0416666666666666e-08,
       "logits/chosen": -2.8280014991760254,
       "logits/rejected": -2.8466408252716064,
       "logps/chosen": -1.1081000566482544,
       "logps/rejected": -1.146370530128479,
+      "loss": 1.825,
       "rewards/accuracies": 0.46875,
       "rewards/chosen": -2.216200113296509,
       "rewards/margins": 0.0765407383441925,
     },
     {
       "epoch": 0.010468463752944255,
+      "grad_norm": 20.151143431686044,
       "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -2.88156795501709,
+      "logits/rejected": -2.84816837310791,
+      "logps/chosen": -1.0210057497024536,
+      "logps/rejected": -1.0806357860565186,
+      "loss": 1.7101,
       "rewards/accuracies": 0.5390625,
+      "rewards/chosen": -2.0420114994049072,
+      "rewards/margins": 0.11925993114709854,
+      "rewards/rejected": -2.161271572113037,
       "step": 5
     },
     {
       "epoch": 0.02093692750588851,
+      "grad_norm": 19.420093362135834,
       "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -2.992948055267334,
+      "logits/rejected": -2.9420628547668457,
+      "logps/chosen": -1.0234142541885376,
+      "logps/rejected": -1.165908694267273,
+      "loss": 1.7409,
       "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -2.046828508377075,
+      "rewards/margins": 0.28498905897140503,
+      "rewards/rejected": -2.331817388534546,
       "step": 10
     },
     {
       "epoch": 0.031405391258832765,
+      "grad_norm": 22.360933443209454,
       "learning_rate": 1.5624999999999999e-07,
+      "logits/chosen": -2.9190802574157715,
+      "logits/rejected": -2.9058239459991455,
+      "logps/chosen": -1.0527833700180054,
+      "logps/rejected": -1.1032918691635132,
+      "loss": 1.7228,
       "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -2.1055667400360107,
+      "rewards/margins": 0.10101678222417831,
+      "rewards/rejected": -2.2065837383270264,
       "step": 15
     },
     {
       "epoch": 0.04187385501177702,
+      "grad_norm": 18.11495891073632,
       "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -2.9407191276550293,
+      "logits/rejected": -2.8896334171295166,
+      "logps/chosen": -1.0061452388763428,
+      "logps/rejected": -1.1030395030975342,
+      "loss": 1.6957,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -2.0122904777526855,
+      "rewards/margins": 0.19378867745399475,
+      "rewards/rejected": -2.2060790061950684,
       "step": 20
     },
     {
       "epoch": 0.05234231876472128,
+      "grad_norm": 17.73214868239448,
       "learning_rate": 2.604166666666667e-07,
+      "logits/chosen": -2.945413112640381,
+      "logits/rejected": -2.8812930583953857,
+      "logps/chosen": -0.9288013577461243,
+      "logps/rejected": -1.1164944171905518,
+      "loss": 1.6642,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -1.8576027154922485,
+      "rewards/margins": 0.3753865361213684,
+      "rewards/rejected": -2.2329888343811035,
       "step": 25
     },
     {
       "epoch": 0.06281078251766553,
+      "grad_norm": 17.49667039937059,
       "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -2.920177459716797,
+      "logits/rejected": -2.9008939266204834,
+      "logps/chosen": -0.9087249636650085,
+      "logps/rejected": -0.9417479634284973,
+      "loss": 1.6764,
       "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -1.817449927330017,
+      "rewards/margins": 0.06604615598917007,
+      "rewards/rejected": -1.8834959268569946,
       "step": 30
     },
     {
       "epoch": 0.07327924627060979,
+      "grad_norm": 18.317659111307954,
       "learning_rate": 3.645833333333333e-07,
+      "logits/chosen": -2.929032564163208,
+      "logits/rejected": -2.8953332901000977,
+      "logps/chosen": -0.9193178415298462,
+      "logps/rejected": -1.1149028539657593,
+      "loss": 1.65,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -1.8386356830596924,
+      "rewards/margins": 0.39116981625556946,
+      "rewards/rejected": -2.2298057079315186,
       "step": 35
     },
     {
       "epoch": 0.08374771002355404,
+      "grad_norm": 17.730458935387485,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.9188663959503174,
+      "logits/rejected": -2.877103328704834,
+      "logps/chosen": -0.9255539178848267,
+      "logps/rejected": -1.0478177070617676,
+      "loss": 1.6224,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.8511078357696533,
+      "rewards/margins": 0.24452760815620422,
+      "rewards/rejected": -2.095635414123535,
       "step": 40
     },
     {
       "epoch": 0.0942161737764983,
+      "grad_norm": 15.937073180460068,
       "learning_rate": 4.6874999999999996e-07,
+      "logits/chosen": -2.875232696533203,
+      "logits/rejected": -2.8806424140930176,
+      "logps/chosen": -0.9038581848144531,
+      "logps/rejected": -1.0820366144180298,
+      "loss": 1.5724,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -1.8077163696289062,
+      "rewards/margins": 0.35635682940483093,
+      "rewards/rejected": -2.1640732288360596,
       "step": 45
     },
     {
       "epoch": 0.10468463752944256,
+      "grad_norm": 23.986363177533022,
       "learning_rate": 4.999731868769026e-07,
+      "logits/chosen": -2.820544719696045,
+      "logits/rejected": -2.832681179046631,
+      "logps/chosen": -0.9590412378311157,
+      "logps/rejected": -1.2149635553359985,
+      "loss": 1.6276,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.9180824756622314,
+      "rewards/margins": 0.5118446946144104,
+      "rewards/rejected": -2.429927110671997,
       "step": 50
     },
     {
       "epoch": 0.11515310128238682,
+      "grad_norm": 24.997319339492417,
       "learning_rate": 4.996716052911017e-07,
+      "logits/chosen": -2.910067081451416,
+      "logits/rejected": -2.9242091178894043,
+      "logps/chosen": -1.0754766464233398,
+      "logps/rejected": -1.1867624521255493,
+      "loss": 1.6255,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -2.1509532928466797,
+      "rewards/margins": 0.22257177531719208,
+      "rewards/rejected": -2.3735249042510986,
       "step": 55
     },
     {
       "epoch": 0.12562156503533106,
+      "grad_norm": 29.673956562215213,
       "learning_rate": 4.990353313429303e-07,
+      "logits/chosen": -2.846463441848755,
+      "logits/rejected": -2.8395891189575195,
+      "logps/chosen": -1.0373256206512451,
+      "logps/rejected": -1.2098807096481323,
+      "loss": 1.5824,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.0746512413024902,
+      "rewards/margins": 0.34511035680770874,
+      "rewards/rejected": -2.4197614192962646,
       "step": 60
     },
     {
       "epoch": 0.1360900287882753,
+      "grad_norm": 25.70155018194367,
       "learning_rate": 4.980652179769217e-07,
+      "logits/chosen": -2.8658077716827393,
+      "logits/rejected": -2.889425039291382,
+      "logps/chosen": -1.0232688188552856,
+      "logps/rejected": -1.1985584497451782,
+      "loss": 1.5955,
       "rewards/accuracies": 0.59375,
+      "rewards/chosen": -2.0465376377105713,
+      "rewards/margins": 0.3505793511867523,
+      "rewards/rejected": -2.3971168994903564,
       "step": 65
     },
     {
       "epoch": 0.14655849254121958,
+      "grad_norm": 26.911214626746915,
       "learning_rate": 4.967625656594781e-07,
+      "logits/chosen": -2.8660895824432373,
+      "logits/rejected": -2.8656294345855713,
+      "logps/chosen": -1.1060866117477417,
+      "logps/rejected": -1.3024221658706665,
+      "loss": 1.5443,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.2121732234954834,
+      "rewards/margins": 0.39267101883888245,
+      "rewards/rejected": -2.604844331741333,
       "step": 70
     },
     {
       "epoch": 0.15702695629416383,
+      "grad_norm": 31.97064281949989,
       "learning_rate": 4.951291206355559e-07,
+      "logits/chosen": -2.813340425491333,
+      "logits/rejected": -2.76302170753479,
+      "logps/chosen": -1.1282150745391846,
+      "logps/rejected": -1.4221516847610474,
+      "loss": 1.5693,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -2.256430149078369,
+      "rewards/margins": 0.5878733992576599,
+      "rewards/rejected": -2.8443033695220947,
       "step": 75
     },
     {
       "epoch": 0.16749542004710807,
+      "grad_norm": 22.991199981656727,
       "learning_rate": 4.93167072587771e-07,
+      "logits/chosen": -2.7443230152130127,
+      "logits/rejected": -2.7397193908691406,
+      "logps/chosen": -1.1170539855957031,
+      "logps/rejected": -1.485013723373413,
+      "loss": 1.5498,
       "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.2341079711914062,
+      "rewards/margins": 0.7359195947647095,
+      "rewards/rejected": -2.970027446746826,
       "step": 80
     },
     {
       "epoch": 0.17796388380005235,
+      "grad_norm": 27.36414724828374,
       "learning_rate": 4.908790517010636e-07,
+      "logits/chosen": -2.798058271408081,
+      "logits/rejected": -2.7502901554107666,
+      "logps/chosen": -1.1033599376678467,
+      "logps/rejected": -1.4456737041473389,
+      "loss": 1.5329,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -2.2067198753356934,
+      "rewards/margins": 0.6846276521682739,
+      "rewards/rejected": -2.8913474082946777,
       "step": 85
     },
     {
       "epoch": 0.1884323475529966,
+      "grad_norm": 21.16101861051188,
       "learning_rate": 4.882681251368548e-07,
+      "logits/chosen": -2.7800021171569824,
+      "logits/rejected": -2.7292940616607666,
+      "logps/chosen": -1.1692888736724854,
+      "logps/rejected": -1.5973972082138062,
+      "loss": 1.5052,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.3385777473449707,
+      "rewards/margins": 0.856216549873352,
+      "rewards/rejected": -3.1947944164276123,
       "step": 90
     },
     {
       "epoch": 0.19890081130594087,
+      "grad_norm": 26.528533058821825,
       "learning_rate": 4.853377929214243e-07,
+      "logits/chosen": -2.704568386077881,
+      "logits/rejected": -2.6892647743225098,
+      "logps/chosen": -1.1889941692352295,
+      "logps/rejected": -1.5050609111785889,
+      "loss": 1.5355,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -2.377988338470459,
+      "rewards/margins": 0.6321329474449158,
+      "rewards/rejected": -3.0101218223571777,
       "step": 95
     },
     {
       "epoch": 0.2093692750588851,
+      "grad_norm": 29.65374977644177,
       "learning_rate": 4.820919832540181e-07,
+      "logits/chosen": -2.7762622833251953,
+      "logits/rejected": -2.750223398208618,
+      "logps/chosen": -1.1571177244186401,
+      "logps/rejected": -1.3776543140411377,
+      "loss": 1.5847,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -2.3142354488372803,
+      "rewards/margins": 0.4410727620124817,
+      "rewards/rejected": -2.7553086280822754,
       "step": 100
     },
     {
       "epoch": 0.21983773881182936,
+      "grad_norm": 22.838032447560202,
       "learning_rate": 4.785350472409791e-07,
+      "logits/chosen": -2.712097644805908,
+      "logits/rejected": -2.684450626373291,
+      "logps/chosen": -1.1789191961288452,
+      "logps/rejected": -1.5337121486663818,
+      "loss": 1.4327,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -2.3578383922576904,
+      "rewards/margins": 0.7095857858657837,
+      "rewards/rejected": -3.0674242973327637,
       "step": 105
     },
     {
       "epoch": 0.23030620256477363,
+      "grad_norm": 42.989486471273096,
       "learning_rate": 4.7467175306295647e-07,
+      "logits/chosen": -2.6487460136413574,
+      "logits/rejected": -2.626556873321533,
+      "logps/chosen": -1.1375197172164917,
+      "logps/rejected": -1.4804375171661377,
+      "loss": 1.4322,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.2750394344329834,
+      "rewards/margins": 0.6858354210853577,
+      "rewards/rejected": -2.9608750343322754,
       "step": 110
     },
     {
       "epoch": 0.24077466631771788,
+      "grad_norm": 29.408403128680163,
       "learning_rate": 4.70507279583015e-07,
+      "logits/chosen": -2.6792874336242676,
+      "logits/rejected": -2.669962167739868,
+      "logps/chosen": -1.179626226425171,
+      "logps/rejected": -1.3990623950958252,
+      "loss": 1.5301,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -2.359252452850342,
+      "rewards/margins": 0.43887215852737427,
+      "rewards/rejected": -2.7981247901916504,
       "step": 115
     },
     {
       "epoch": 0.2512431300706621,
+      "grad_norm": 25.256732287485413,
       "learning_rate": 4.6604720940421207e-07,
+      "logits/chosen": -2.6912872791290283,
+      "logits/rejected": -2.6357336044311523,
+      "logps/chosen": -1.1251033544540405,
+      "logps/rejected": -1.5543628931045532,
+      "loss": 1.5099,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.250206708908081,
+      "rewards/margins": 0.8585190773010254,
+      "rewards/rejected": -3.1087257862091064,
       "step": 120
     },
     {
       "epoch": 0.26171159382360637,
+      "grad_norm": 33.03440558906921,
       "learning_rate": 4.612975213859487e-07,
+      "logits/chosen": -2.584962844848633,
+      "logits/rejected": -2.54630970954895,
+      "logps/chosen": -1.1838756799697876,
+      "logps/rejected": -1.5963369607925415,
+      "loss": 1.5107,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -2.367751359939575,
+      "rewards/margins": 0.8249226808547974,
+      "rewards/rejected": -3.192673921585083,
       "step": 125
     },
     {
       "epoch": 0.2721800575765506,
+      "grad_norm": 32.822453962687824,
       "learning_rate": 4.5626458262912735e-07,
+      "logits/chosen": -2.6030898094177246,
+      "logits/rejected": -2.6097538471221924,
+      "logps/chosen": -1.1971023082733154,
+      "logps/rejected": -1.6219829320907593,
+      "loss": 1.4413,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.394204616546631,
+      "rewards/margins": 0.8497610092163086,
+      "rewards/rejected": -3.2439658641815186,
       "step": 130
     },
     {
       "epoch": 0.2826485213294949,
+      "grad_norm": 28.065819409874635,
       "learning_rate": 4.5095513994085974e-07,
+      "logits/chosen": -2.538353204727173,
+      "logits/rejected": -2.5087146759033203,
+      "logps/chosen": -1.0895415544509888,
+      "logps/rejected": -1.5814229249954224,
+      "loss": 1.4933,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -2.1790831089019775,
+      "rewards/margins": 0.9837629199028015,
+      "rewards/rejected": -3.1628458499908447,
       "step": 135
     },
     {
       "epoch": 0.29311698508243916,
+      "grad_norm": 32.58412935415965,
       "learning_rate": 4.453763107901675e-07,
+      "logits/chosen": -2.5400352478027344,
+      "logits/rejected": -2.5418732166290283,
+      "logps/chosen": -1.3108186721801758,
+      "logps/rejected": -1.5650501251220703,
+      "loss": 1.542,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -2.6216373443603516,
+      "rewards/margins": 0.5084627866744995,
+      "rewards/rejected": -3.1301002502441406,
       "step": 140
     },
     {
       "epoch": 0.3035854488353834,
+      "grad_norm": 30.400278372842216,
       "learning_rate": 4.395355737667985e-07,
+      "logits/chosen": -2.5238261222839355,
+      "logits/rejected": -2.5089011192321777,
+      "logps/chosen": -1.1779248714447021,
+      "logps/rejected": -1.6300004720687866,
+      "loss": 1.4238,
       "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.3558497428894043,
+      "rewards/margins": 0.9041512608528137,
+      "rewards/rejected": -3.2600009441375732,
       "step": 145
     },
     {
       "epoch": 0.31405391258832765,
+      "grad_norm": 60.958920561437736,
       "learning_rate": 4.3344075855595097e-07,
+      "logits/chosen": -2.566622734069824,
+      "logits/rejected": -2.518723964691162,
+      "logps/chosen": -1.3376280069351196,
+      "logps/rejected": -1.7097371816635132,
+      "loss": 1.4812,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -2.6752560138702393,
+      "rewards/margins": 0.7442184686660767,
+      "rewards/rejected": -3.4194743633270264,
       "step": 150
     },
     {
       "epoch": 0.3245223763412719,
+      "grad_norm": 62.56084518909412,
       "learning_rate": 4.271000354423425e-07,
+      "logits/chosen": -2.484179735183716,
+      "logits/rejected": -2.459049701690674,
+      "logps/chosen": -1.3308216333389282,
+      "logps/rejected": -1.9237397909164429,
+      "loss": 1.387,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.6616432666778564,
+      "rewards/margins": 1.1858360767364502,
+      "rewards/rejected": -3.8474795818328857,
       "step": 155
     },
     {
       "epoch": 0.33499084009421615,
+      "grad_norm": 38.23483378023031,
       "learning_rate": 4.2052190435769554e-07,
+      "logits/chosen": -2.454179286956787,
+      "logits/rejected": -2.4418118000030518,
+      "logps/chosen": -1.250301718711853,
+      "logps/rejected": -1.8722400665283203,
+      "loss": 1.3988,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.500603437423706,
+      "rewards/margins": 1.2438766956329346,
+      "rewards/rejected": -3.7444801330566406,
       "step": 160
     },
     {
       "epoch": 0.34545930384716045,
+      "grad_norm": 36.680206717248936,
       "learning_rate": 4.137151834863213e-07,
+      "logits/chosen": -2.516385316848755,
+      "logits/rejected": -2.476135730743408,
+      "logps/chosen": -1.2074108123779297,
+      "logps/rejected": -1.579379916191101,
+      "loss": 1.3981,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -2.4148216247558594,
+      "rewards/margins": 0.7439382672309875,
+      "rewards/rejected": -3.158759832382202,
       "step": 165
     },
     {
       "epoch": 0.3559277676001047,
+      "grad_norm": 45.599190265402456,
       "learning_rate": 4.0668899744407567e-07,
+      "logits/chosen": -2.5008692741394043,
+      "logits/rejected": -2.456566572189331,
+      "logps/chosen": -1.2382426261901855,
+      "logps/rejected": -1.7240244150161743,
+      "loss": 1.3766,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.476485252380371,
+      "rewards/margins": 0.9715633392333984,
+      "rewards/rejected": -3.4480488300323486,
       "step": 170
     },
     {
       "epoch": 0.36639623135304894,
+      "grad_norm": 44.372524637477866,
       "learning_rate": 3.994527650465352e-07,
+      "logits/chosen": -2.417241096496582,
+      "logits/rejected": -2.406471014022827,
+      "logps/chosen": -1.3205429315567017,
+      "logps/rejected": -1.8458646535873413,
+      "loss": 1.3967,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.6410858631134033,
+      "rewards/margins": 1.0506436824798584,
+      "rewards/rejected": -3.6917293071746826,
       "step": 175
     },
     {
       "epoch": 0.3768646951059932,
+      "grad_norm": 59.067677833224565,
       "learning_rate": 3.920161866827889e-07,
+      "logits/chosen": -2.438202381134033,
+      "logits/rejected": -2.4266159534454346,
+      "logps/chosen": -1.3483916521072388,
+      "logps/rejected": -1.9187591075897217,
+      "loss": 1.404,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.6967833042144775,
+      "rewards/margins": 1.1407346725463867,
+      "rewards/rejected": -3.8375182151794434,
       "step": 180
     },
     {
       "epoch": 0.38733315885893743,
+      "grad_norm": 47.3796081172543,
       "learning_rate": 3.8438923131177237e-07,
+      "logits/chosen": -2.385611057281494,
+      "logits/rejected": -2.4027440547943115,
+      "logps/chosen": -1.4026473760604858,
+      "logps/rejected": -1.966017723083496,
+      "loss": 1.3488,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.8052947521209717,
+      "rewards/margins": 1.1267404556274414,
+      "rewards/rejected": -3.932035446166992,
       "step": 185
     },
     {
       "epoch": 0.39780162261188173,
+      "grad_norm": 35.917242818850596,
       "learning_rate": 3.765821230985757e-07,
+      "logits/chosen": -2.374563455581665,
+      "logits/rejected": -2.382572889328003,
+      "logps/chosen": -1.4945417642593384,
+      "logps/rejected": -2.0413851737976074,
+      "loss": 1.3537,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.9890835285186768,
+      "rewards/margins": 1.0936866998672485,
+      "rewards/rejected": -4.082770347595215,
       "step": 190
     },
     {
       "epoch": 0.408270086364826,
+      "grad_norm": 51.34440878644271,
       "learning_rate": 3.6860532770864005e-07,
+      "logits/chosen": -2.3812708854675293,
+      "logits/rejected": -2.3748836517333984,
+      "logps/chosen": -1.507237195968628,
+      "logps/rejected": -2.213073253631592,
+      "loss": 1.4291,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -3.014474391937256,
+      "rewards/margins": 1.4116714000701904,
+      "rewards/rejected": -4.426146507263184,
       "step": 195
     },
     {
       "epoch": 0.4187385501177702,
+      "grad_norm": 50.386830292932075,
       "learning_rate": 3.604695382782159e-07,
+      "logits/chosen": -2.2745728492736816,
+      "logits/rejected": -2.256195545196533,
+      "logps/chosen": -1.647243857383728,
+      "logps/rejected": -2.149318218231201,
+      "loss": 1.3579,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -3.294487714767456,
+      "rewards/margins": 1.0041488409042358,
+      "rewards/rejected": -4.298636436462402,
       "step": 200
     },
     {
       "epoch": 0.42920701387071447,
+      "grad_norm": 65.73777051804583,
       "learning_rate": 3.5218566107988867e-07,
+      "logits/chosen": -2.335175037384033,
+      "logits/rejected": -2.326826333999634,
+      "logps/chosen": -1.8318570852279663,
+      "logps/rejected": -2.546074390411377,
+      "loss": 1.3635,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -3.6637141704559326,
+      "rewards/margins": 1.4284346103668213,
+      "rewards/rejected": -5.092148780822754,
       "step": 205
     },
     {
       "epoch": 0.4396754776236587,
+      "grad_norm": 57.20248301568887,
       "learning_rate": 3.4376480090239047e-07,
+      "logits/chosen": -2.184452533721924,
+      "logits/rejected": -2.1850171089172363,
+      "logps/chosen": -1.9411817789077759,
+      "logps/rejected": -2.38714861869812,
+      "loss": 1.468,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -3.8823635578155518,
+      "rewards/margins": 0.8919339179992676,
+      "rewards/rejected": -4.77429723739624,
       "step": 210
     },
     {
       "epoch": 0.45014394137660296,
+      "grad_norm": 57.18796146027631,
       "learning_rate": 3.3521824616429284e-07,
+      "logits/chosen": -2.20176100730896,
+      "logits/rejected": -2.227836847305298,
+      "logps/chosen": -1.8610153198242188,
+      "logps/rejected": -2.4027678966522217,
+      "loss": 1.3628,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -3.7220306396484375,
+      "rewards/margins": 1.083505392074585,
+      "rewards/rejected": -4.805535793304443,
       "step": 215
     },
     {
       "epoch": 0.46061240512954726,
+      "grad_norm": 49.48323591731237,
       "learning_rate": 3.265574537815398e-07,
+      "logits/chosen": -2.202357053756714,
+      "logits/rejected": -2.212911367416382,
+      "logps/chosen": -1.8679640293121338,
+      "logps/rejected": -2.4319264888763428,
+      "loss": 1.262,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -3.7359280586242676,
+      "rewards/margins": 1.127925157546997,
+      "rewards/rejected": -4.8638529777526855,
       "step": 220
     },
     {
       "epoch": 0.4710808688824915,
+      "grad_norm": 55.810856216454965,
       "learning_rate": 3.1779403380910425e-07,
+      "logits/chosen": -2.1685309410095215,
+      "logits/rejected": -2.140174388885498,
+      "logps/chosen": -2.047653913497925,
+      "logps/rejected": -2.60907244682312,
+      "loss": 1.3463,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -4.09530782699585,
+      "rewards/margins": 1.122836709022522,
+      "rewards/rejected": -5.21814489364624,
       "step": 225
     },
     {
       "epoch": 0.48154933263543576,
+      "grad_norm": 65.54809342203177,
       "learning_rate": 3.0893973387735683e-07,
+      "logits/chosen": -2.1521670818328857,
+      "logits/rejected": -2.1663339138031006,
+      "logps/chosen": -2.1521265506744385,
+      "logps/rejected": -2.8482584953308105,
+      "loss": 1.273,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -4.304253101348877,
+      "rewards/margins": 1.3922632932662964,
+      "rewards/rejected": -5.696516990661621,
       "step": 230
     },
     {
       "epoch": 0.49201779638838,
+      "grad_norm": 54.795057799713966,
       "learning_rate": 3.000064234440111e-07,
+      "logits/chosen": -2.0703492164611816,
+      "logits/rejected": -2.0829060077667236,
+      "logps/chosen": -2.1279358863830566,
+      "logps/rejected": -2.6611745357513428,
+      "loss": 1.3093,
       "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -4.255871772766113,
+      "rewards/margins": 1.0664775371551514,
+      "rewards/rejected": -5.3223490715026855,
       "step": 235
     },
     {
       "epoch": 0.5024862601413242,
+      "grad_norm": 56.25864061883905,
       "learning_rate": 2.910060778827554e-07,
+      "logits/chosen": -2.075435161590576,
+      "logits/rejected": -2.08357310295105,
+      "logps/chosen": -2.1075491905212402,
+      "logps/rejected": -2.84082293510437,
+      "loss": 1.3276,
       "rewards/accuracies": 0.71875,
+      "rewards/chosen": -4.2150983810424805,
+      "rewards/margins": 1.4665473699569702,
+      "rewards/rejected": -5.68164587020874,
       "step": 240
     },
     {
       "epoch": 0.5129547238942685,
+      "grad_norm": 62.1729319764741,
       "learning_rate": 2.8195076242990116e-07,
+      "logits/chosen": -2.0973756313323975,
+      "logits/rejected": -2.1240689754486084,
+      "logps/chosen": -2.0223472118377686,
+      "logps/rejected": -2.807509660720825,
+      "loss": 1.2667,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -4.044694423675537,
+      "rewards/margins": 1.570324182510376,
+      "rewards/rejected": -5.61501932144165,
       "step": 245
     },
     {
       "epoch": 0.5234231876472127,
+      "grad_norm": 50.46640637368305,
       "learning_rate": 2.7285261601056697e-07,
+      "logits/chosen": -1.9956550598144531,
+      "logits/rejected": -2.027296543121338,
+      "logps/chosen": -2.24354887008667,
+      "logps/rejected": -3.0298171043395996,
+      "loss": 1.3873,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -4.48709774017334,
+      "rewards/margins": 1.5725353956222534,
+      "rewards/rejected": -6.059634208679199,
       "step": 250
     },
     {
       "epoch": 0.533891651400157,
+      "grad_norm": 60.6854410849544,
       "learning_rate": 2.6372383496608186e-07,
+      "logits/chosen": -2.0544848442077637,
+      "logits/rejected": -2.0431137084960938,
+      "logps/chosen": -2.3652796745300293,
+      "logps/rejected": -3.058457136154175,
+      "loss": 1.3487,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -4.730559349060059,
+      "rewards/margins": 1.386354923248291,
+      "rewards/rejected": -6.11691427230835,
       "step": 255
     },
     {
       "epoch": 0.5443601151531012,
+      "grad_norm": 73.46613876186566,
       "learning_rate": 2.5457665670441937e-07,
+      "logits/chosen": -1.9965794086456299,
+      "logits/rejected": -2.0038514137268066,
+      "logps/chosen": -2.4099831581115723,
+      "logps/rejected": -3.187678337097168,
+      "loss": 1.2961,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -4.8199663162231445,
+      "rewards/margins": 1.5553903579711914,
+      "rewards/rejected": -6.375356674194336,
       "step": 260
     },
     {
       "epoch": 0.5548285789060455,
+      "grad_norm": 74.04251596633621,
       "learning_rate": 2.454233432955807e-07,
+      "logits/chosen": -1.9874013662338257,
+      "logits/rejected": -1.9983584880828857,
+      "logps/chosen": -2.573876142501831,
+      "logps/rejected": -3.171705722808838,
+      "loss": 1.3148,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -5.147752285003662,
+      "rewards/margins": 1.1956590414047241,
+      "rewards/rejected": -6.343411445617676,
       "step": 265
     },
     {
       "epoch": 0.5652970426589898,
+      "grad_norm": 76.35568912258938,
       "learning_rate": 2.3627616503391812e-07,
+      "logits/chosen": -2.017387628555298,
+      "logits/rejected": -2.024291753768921,
+      "logps/chosen": -2.639585018157959,
+      "logps/rejected": -3.2247214317321777,
+      "loss": 1.2604,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -5.279170036315918,
+      "rewards/margins": 1.1702723503112793,
+      "rewards/rejected": -6.4494428634643555,
       "step": 270
     },
     {
       "epoch": 0.575765506411934,
+      "grad_norm": 47.964272961306655,
       "learning_rate": 2.2714738398943308e-07,
+      "logits/chosen": -1.9820992946624756,
+      "logits/rejected": -1.986830472946167,
+      "logps/chosen": -2.4876163005828857,
+      "logps/rejected": -3.4850916862487793,
+      "loss": 1.2026,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -4.9752326011657715,
+      "rewards/margins": 1.9949508905410767,
+      "rewards/rejected": -6.970183372497559,
       "step": 275
     },
     {
       "epoch": 0.5862339701648783,
+      "grad_norm": 66.6426445717076,
       "learning_rate": 2.1804923757009882e-07,
+      "logits/chosen": -1.9717257022857666,
+      "logits/rejected": -1.9761455059051514,
+      "logps/chosen": -2.604233980178833,
+      "logps/rejected": -3.449998140335083,
+      "loss": 1.3207,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -5.208467960357666,
+      "rewards/margins": 1.691528081893921,
+      "rewards/rejected": -6.899996280670166,
       "step": 280
     },
     {
       "epoch": 0.5967024339178225,
+      "grad_norm": 78.85704380261409,
       "learning_rate": 2.089939221172446e-07,
+      "logits/chosen": -1.9817512035369873,
+      "logits/rejected": -1.976833701133728,
+      "logps/chosen": -2.4398930072784424,
+      "logps/rejected": -3.1973671913146973,
+      "loss": 1.275,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -4.879786014556885,
+      "rewards/margins": 1.5149486064910889,
+      "rewards/rejected": -6.3947343826293945,
       "step": 285
     },
     {
       "epoch": 0.6071708976707668,
+      "grad_norm": 70.57880724344702,
       "learning_rate": 1.9999357655598891e-07,
+      "logits/chosen": -1.9725377559661865,
+      "logits/rejected": -1.9514259099960327,
+      "logps/chosen": -2.342991828918457,
+      "logps/rejected": -2.9306890964508057,
+      "loss": 1.3026,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -4.685983657836914,
+      "rewards/margins": 1.1753947734832764,
+      "rewards/rejected": -5.861378192901611,
       "step": 290
     },
     {
       "epoch": 0.6176393614237111,
+      "grad_norm": 64.72926534110535,
       "learning_rate": 1.9106026612264315e-07,
+      "logits/chosen": -2.001755714416504,
+      "logits/rejected": -1.9883407354354858,
+      "logps/chosen": -2.397254705429077,
+      "logps/rejected": -2.957282781600952,
+      "loss": 1.249,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -4.794509410858154,
+      "rewards/margins": 1.1200562715530396,
+      "rewards/rejected": -5.914565563201904,
       "step": 295
     },
     {
       "epoch": 0.6281078251766553,
+      "grad_norm": 91.3728151363829,
       "learning_rate": 1.8220596619089573e-07,
+      "logits/chosen": -1.8486881256103516,
+      "logits/rejected": -1.8306758403778076,
+      "logps/chosen": -2.625481128692627,
+      "logps/rejected": -3.437105178833008,
+      "loss": 1.2989,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -5.250962257385254,
+      "rewards/margins": 1.6232483386993408,
+      "rewards/rejected": -6.874210357666016,
       "step": 300
     },
     {
       "epoch": 0.6385762889295996,
+      "grad_norm": 72.03502684523782,
       "learning_rate": 1.7344254621846017e-07,
+      "logits/chosen": -1.9142115116119385,
+      "logits/rejected": -1.9298557043075562,
+      "logps/chosen": -2.655311107635498,
+      "logps/rejected": -3.314296007156372,
+      "loss": 1.2273,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -5.310622215270996,
+      "rewards/margins": 1.3179702758789062,
+      "rewards/rejected": -6.628592014312744,
       "step": 305
     },
     {
       "epoch": 0.6490447526825438,
+      "grad_norm": 69.39610632162989,
       "learning_rate": 1.647817538357072e-07,
+      "logits/chosen": -1.8438358306884766,
+      "logits/rejected": -1.8745906352996826,
+      "logps/chosen": -2.8499069213867188,
+      "logps/rejected": -3.5957629680633545,
+      "loss": 1.2436,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -5.6998138427734375,
+      "rewards/margins": 1.491711974143982,
+      "rewards/rejected": -7.191525936126709,
       "step": 310
     },
     {
       "epoch": 0.6595132164354881,
+      "grad_norm": 60.61281750085851,
       "learning_rate": 1.562351990976095e-07,
+      "logits/chosen": -1.9220491647720337,
+      "logits/rejected": -1.9316775798797607,
+      "logps/chosen": -2.5944266319274902,
+      "logps/rejected": -3.3770358562469482,
+      "loss": 1.2926,
       "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -5.1888532638549805,
+      "rewards/margins": 1.5652191638946533,
+      "rewards/rejected": -6.7540717124938965,
       "step": 315
     },
     {
       "epoch": 0.6699816801884323,
+      "grad_norm": 64.49517967587298,
       "learning_rate": 1.478143389201113e-07,
+      "logits/chosen": -1.954124093055725,
+      "logits/rejected": -1.9501478672027588,
+      "logps/chosen": -2.416090250015259,
+      "logps/rejected": -3.2859389781951904,
+      "loss": 1.1985,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -4.832180500030518,
+      "rewards/margins": 1.7396974563598633,
+      "rewards/rejected": -6.571877956390381,
       "step": 320
     },
     {
       "epoch": 0.6804501439413766,
+      "grad_norm": 77.10656027012405,
       "learning_rate": 1.3953046172178413e-07,
+      "logits/chosen": -1.9018971920013428,
+      "logits/rejected": -1.9205232858657837,
+      "logps/chosen": -2.819211483001709,
+      "logps/rejected": -3.631371021270752,
+      "loss": 1.3417,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -5.638422966003418,
+      "rewards/margins": 1.6243181228637695,
+      "rewards/rejected": -7.262742042541504,
       "step": 325
     },
     {
       "epoch": 0.6909186076943209,
+      "grad_norm": 64.1696366253842,
       "learning_rate": 1.3139467229135998e-07,
+      "logits/chosen": -1.8825531005859375,
+      "logits/rejected": -1.8870893716812134,
+      "logps/chosen": -2.785536289215088,
+      "logps/rejected": -3.764813184738159,
+      "loss": 1.2374,
       "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -5.571072578430176,
+      "rewards/margins": 1.9585535526275635,
+      "rewards/rejected": -7.529626369476318,
       "step": 330
     },
     {
       "epoch": 0.7013870714472651,
+      "grad_norm": 80.55442176578629,
       "learning_rate": 1.2341787690142435e-07,
+      "logits/chosen": -1.8318296670913696,
+      "logits/rejected": -1.8602631092071533,
+      "logps/chosen": -3.0103182792663574,
+      "logps/rejected": -3.835423707962036,
+      "loss": 1.2754,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -6.020636558532715,
+      "rewards/margins": 1.6502106189727783,
+      "rewards/rejected": -7.670847415924072,
       "step": 335
     },
     {
       "epoch": 0.7118555352002094,
+      "grad_norm": 87.70174157824101,
       "learning_rate": 1.1561076868822755e-07,
+      "logits/chosen": -1.8182014226913452,
+      "logits/rejected": -1.893776535987854,
+      "logps/chosen": -2.9932782649993896,
+      "logps/rejected": -4.012537002563477,
+      "loss": 1.2641,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -5.986556529998779,
+      "rewards/margins": 2.0385169982910156,
+      "rewards/rejected": -8.025074005126953,
       "step": 340
     },
     {
       "epoch": 0.7223239989531536,
+      "grad_norm": 58.44045230920631,
       "learning_rate": 1.0798381331721107e-07,
+      "logits/chosen": -1.874028205871582,
+      "logits/rejected": -1.8978573083877563,
+      "logps/chosen": -2.8497276306152344,
+      "logps/rejected": -3.7342123985290527,
+      "loss": 1.2615,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -5.699455261230469,
+      "rewards/margins": 1.7689688205718994,
+      "rewards/rejected": -7.4684247970581055,
       "step": 345
     },
     {
       "epoch": 0.7327924627060979,
+      "grad_norm": 72.00876135010044,
       "learning_rate": 1.0054723495346482e-07,
+      "logits/chosen": -1.9043935537338257,
+      "logits/rejected": -1.9324207305908203,
+      "logps/chosen": -2.6209471225738525,
+      "logps/rejected": -3.339960813522339,
+      "loss": 1.2008,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -5.241894245147705,
+      "rewards/margins": 1.4380273818969727,
+      "rewards/rejected": -6.679921627044678,
       "step": 350
     },
     {
       "epoch": 0.7432609264590422,
+      "grad_norm": 55.618657855003114,
       "learning_rate": 9.331100255592436e-08,
+      "logits/chosen": -1.8889986276626587,
+      "logits/rejected": -1.9200356006622314,
+      "logps/chosen": -2.522282838821411,
+      "logps/rejected": -3.240691661834717,
+      "loss": 1.3353,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -5.044565677642822,
+      "rewards/margins": 1.43681800365448,
+      "rewards/rejected": -6.481383323669434,
       "step": 355
     },
     {
       "epoch": 0.7537293902119864,
+      "grad_norm": 67.73876893903605,
       "learning_rate": 8.628481651367875e-08,
+      "logits/chosen": -1.8986294269561768,
+      "logits/rejected": -1.9174484014511108,
+      "logps/chosen": -2.437084674835205,
+      "logps/rejected": -3.152095317840576,
+      "loss": 1.2784,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -4.87416934967041,
+      "rewards/margins": 1.43002188205719,
+      "rewards/rejected": -6.304190635681152,
       "step": 360
     },
     {
       "epoch": 0.7641978539649307,
+      "grad_norm": 60.67240818670899,
       "learning_rate": 7.947809564230445e-08,
+      "logits/chosen": -1.921534538269043,
+      "logits/rejected": -1.9346189498901367,
+      "logps/chosen": -2.425230026245117,
+      "logps/rejected": -3.2995903491973877,
+      "loss": 1.2435,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -4.850460052490234,
+      "rewards/margins": 1.7487205266952515,
+      "rewards/rejected": -6.599180698394775,
       "step": 365
     },
     {
       "epoch": 0.7746663177178749,
+      "grad_norm": 59.56252419947236,
       "learning_rate": 7.289996455765748e-08,
+      "logits/chosen": -1.898923635482788,
+      "logits/rejected": -1.9162523746490479,
+      "logps/chosen": -2.415956497192383,
+      "logps/rejected": -3.294524669647217,
+      "loss": 1.1245,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -4.831912994384766,
+      "rewards/margins": 1.757136583328247,
+      "rewards/rejected": -6.589049339294434,
       "step": 370
     },
     {
       "epoch": 0.7851347814708192,
+      "grad_norm": 71.07320248012725,
       "learning_rate": 6.655924144404906e-08,
+      "logits/chosen": -1.866040587425232,
+      "logits/rejected": -1.8857864141464233,
+      "logps/chosen": -2.5201144218444824,
+      "logps/rejected": -3.3979249000549316,
+      "loss": 1.2524,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -5.040228843688965,
+      "rewards/margins": 1.7556209564208984,
+      "rewards/rejected": -6.795849800109863,
       "step": 375
     },
     {
       "epoch": 0.7956032452237635,
+      "grad_norm": 66.56871290886237,
       "learning_rate": 6.046442623320145e-08,
+      "logits/chosen": -1.910027265548706,
+      "logits/rejected": -1.9534069299697876,
+      "logps/chosen": -2.5121512413024902,
+      "logps/rejected": -3.314141035079956,
+      "loss": 1.2226,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -5.0243024826049805,
+      "rewards/margins": 1.6039783954620361,
+      "rewards/rejected": -6.628282070159912,
       "step": 380
     },
     {
       "epoch": 0.8060717089767077,
+      "grad_norm": 62.398640149446855,
       "learning_rate": 5.4623689209832484e-08,
+      "logits/chosen": -1.8576492071151733,
+      "logits/rejected": -1.8747966289520264,
+      "logps/chosen": -2.6333398818969727,
+      "logps/rejected": -3.4325785636901855,
+      "loss": 1.2061,
       "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -5.266679763793945,
+      "rewards/margins": 1.5984779596328735,
+      "rewards/rejected": -6.865157127380371,
       "step": 385
     },
     {
       "epoch": 0.816540172729652,
+      "grad_norm": 70.95289047647472,
       "learning_rate": 4.904486005914027e-08,
+      "logits/chosen": -1.8401978015899658,
+      "logits/rejected": -1.8537371158599854,
+      "logps/chosen": -2.873885154724121,
+      "logps/rejected": -3.697465419769287,
+      "loss": 1.1959,
       "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -5.747770309448242,
+      "rewards/margins": 1.6471607685089111,
+      "rewards/rejected": -7.394930839538574,
       "step": 390
     },
     {
       "epoch": 0.8270086364825961,
+      "grad_norm": 67.80264650886268,
       "learning_rate": 4.373541737087263e-08,
+      "logits/chosen": -1.7799686193466187,
+      "logits/rejected": -1.8199493885040283,
+      "logps/chosen": -2.8214058876037598,
+      "logps/rejected": -3.7097229957580566,
+      "loss": 1.2552,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -5.6428117752075195,
+      "rewards/margins": 1.7766335010528564,
+      "rewards/rejected": -7.419445991516113,
       "step": 395
     },
     {
       "epoch": 0.8374771002355405,
+      "grad_norm": 65.87128834814716,
       "learning_rate": 3.8702478614051345e-08,
+      "logits/chosen": -1.8025257587432861,
+      "logits/rejected": -1.8182452917099,
+      "logps/chosen": -2.924140214920044,
+      "logps/rejected": -3.7234292030334473,
+      "loss": 1.267,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -5.848280429840088,
+      "rewards/margins": 1.5985779762268066,
+      "rewards/rejected": -7.4468584060668945,
       "step": 400
     },
     {
       "epoch": 0.8374771002355405,
+      "eval_logits/chosen": -1.8795839548110962,
+      "eval_logits/rejected": -1.8947079181671143,
+      "eval_logps/chosen": -2.906954526901245,
+      "eval_logps/rejected": -3.8314788341522217,
+      "eval_loss": 1.209315299987793,
       "eval_rewards/accuracies": 0.7319999933242798,
+      "eval_rewards/chosen": -5.81390905380249,
+      "eval_rewards/margins": 1.8490480184555054,
+      "eval_rewards/rejected": -7.662957668304443,
+      "eval_runtime": 171.5509,
+      "eval_samples_per_second": 11.658,
       "eval_steps_per_second": 0.729,
       "step": 400
     },
     {
       "epoch": 0.8479455639884846,
+      "grad_norm": 60.339051405492995,
       "learning_rate": 3.3952790595787986e-08,
+      "logits/chosen": -1.8179550170898438,
+      "logits/rejected": -1.843348741531372,
+      "logps/chosen": -3.005042552947998,
+      "logps/rejected": -3.817539930343628,
+      "loss": 1.1835,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -6.010085105895996,
+      "rewards/margins": 1.6249958276748657,
+      "rewards/rejected": -7.635079860687256,
       "step": 405
     },
     {
       "epoch": 0.8584140277414289,
+      "grad_norm": 59.27380738977581,
       "learning_rate": 2.9492720416985e-08,
+      "logits/chosen": -1.7845852375030518,
+      "logits/rejected": -1.819650650024414,
+      "logps/chosen": -2.9665215015411377,
+      "logps/rejected": -3.7718894481658936,
+      "loss": 1.2356,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -5.933043003082275,
+      "rewards/margins": 1.610735297203064,
+      "rewards/rejected": -7.543778896331787,
       "step": 410
     },
     {
       "epoch": 0.8688824914943732,
+      "grad_norm": 91.6278901379261,
       "learning_rate": 2.5328246937043525e-08,
+      "logits/chosen": -1.8167459964752197,
+      "logits/rejected": -1.827742576599121,
+      "logps/chosen": -3.0838284492492676,
+      "logps/rejected": -3.7930634021759033,
+      "loss": 1.2442,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -6.167656898498535,
+      "rewards/margins": 1.4184691905975342,
+      "rewards/rejected": -7.586126804351807,
       "step": 415
     },
     {
       "epoch": 0.8793509552473174,
+      "grad_norm": 76.88765480732745,
       "learning_rate": 2.1464952759020856e-08,
+      "logits/chosen": -1.767154335975647,
+      "logits/rejected": -1.7657482624053955,
+      "logps/chosen": -2.938920497894287,
+      "logps/rejected": -3.925022840499878,
+      "loss": 1.1843,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -5.877840995788574,
+      "rewards/margins": 1.972204566001892,
+      "rewards/rejected": -7.850045680999756,
       "step": 420
     },
     {
       "epoch": 0.8898194190002617,
+      "grad_norm": 71.47276585551965,
       "learning_rate": 1.7908016745981856e-08,
+      "logits/chosen": -1.7983713150024414,
+      "logits/rejected": -1.8315776586532593,
+      "logps/chosen": -2.782409429550171,
+      "logps/rejected": -3.797370433807373,
+      "loss": 1.1376,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -5.564818859100342,
+      "rewards/margins": 2.0299227237701416,
+      "rewards/rejected": -7.594740867614746,
       "step": 425
     },
     {
       "epoch": 0.9002878827532059,
+      "grad_norm": 73.92788729675112,
       "learning_rate": 1.4662207078575684e-08,
+      "logits/chosen": -1.7802276611328125,
+      "logits/rejected": -1.8125686645507812,
+      "logps/chosen": -2.976722240447998,
+      "logps/rejected": -3.855865955352783,
+      "loss": 1.138,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -5.953444480895996,
+      "rewards/margins": 1.7582868337631226,
+      "rewards/rejected": -7.711731910705566,
       "step": 430
     },
     {
       "epoch": 0.9107563465061502,
+      "grad_norm": 67.44618318869006,
       "learning_rate": 1.1731874863145142e-08,
+      "logits/chosen": -1.7870285511016846,
+      "logits/rejected": -1.7898231744766235,
+      "logps/chosen": -2.865501880645752,
+      "logps/rejected": -3.5326790809631348,
+      "loss": 1.1911,
       "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -5.731003761291504,
+      "rewards/margins": 1.3343536853790283,
+      "rewards/rejected": -7.0653581619262695,
       "step": 435
     },
     {
       "epoch": 0.9212248102590945,
+      "grad_norm": 80.91405517261822,
       "learning_rate": 9.12094829893642e-09,
+      "logits/chosen": -1.8377736806869507,
+      "logits/rejected": -1.8392757177352905,
+      "logps/chosen": -2.909419536590576,
+      "logps/rejected": -3.649876356124878,
+      "loss": 1.2198,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -5.818839073181152,
+      "rewards/margins": 1.4809141159057617,
+      "rewards/rejected": -7.299752712249756,
       "step": 440
     },
     {
       "epoch": 0.9316932740120387,
+      "grad_norm": 71.48155448577984,
       "learning_rate": 6.832927412229017e-09,
+      "logits/chosen": -1.7438195943832397,
+      "logits/rejected": -1.7705223560333252,
+      "logps/chosen": -2.9339725971221924,
+      "logps/rejected": -3.8835110664367676,
+      "loss": 1.2304,
       "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -5.867945194244385,
+      "rewards/margins": 1.899076223373413,
+      "rewards/rejected": -7.767022132873535,
       "step": 445
     },
     {
       "epoch": 0.942161737764983,
+      "grad_norm": 75.54710086328386,
       "learning_rate": 4.8708793644441086e-09,
+      "logits/chosen": -1.8001352548599243,
+      "logits/rejected": -1.8404371738433838,
+      "logps/chosen": -2.698850154876709,
+      "logps/rejected": -3.7303435802459717,
+      "loss": 1.1496,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -5.397700309753418,
+      "rewards/margins": 2.0629868507385254,
+      "rewards/rejected": -7.460687160491943,
       "step": 450
     },
     {
       "epoch": 0.9526302015179272,
+      "grad_norm": 67.21839705145132,
       "learning_rate": 3.2374343405217884e-09,
+      "logits/chosen": -1.7952674627304077,
+      "logits/rejected": -1.7791658639907837,
+      "logps/chosen": -2.888683795928955,
+      "logps/rejected": -3.7380385398864746,
+      "loss": 1.2744,
       "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -5.77736759185791,
+      "rewards/margins": 1.6987104415893555,
+      "rewards/rejected": -7.476077079772949,
       "step": 455
     },
     {
       "epoch": 0.9630986652708715,
+      "grad_norm": 83.08799813263991,
       "learning_rate": 1.9347820230782295e-09,
+      "logits/chosen": -1.7771613597869873,
+      "logits/rejected": -1.8283106088638306,
+      "logps/chosen": -2.847031831741333,
+      "logps/rejected": -3.8970909118652344,
+      "loss": 1.2244,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -5.694063663482666,
+      "rewards/margins": 2.1001174449920654,
+      "rewards/rejected": -7.794181823730469,
       "step": 460
     },
     {
       "epoch": 0.9735671290238157,
+      "grad_norm": 55.2538190833758,
       "learning_rate": 9.64668657069706e-10,
+      "logits/chosen": -1.8154325485229492,
+      "logits/rejected": -1.8061832189559937,
+      "logps/chosen": -2.8277297019958496,
+      "logps/rejected": -3.931652069091797,
+      "loss": 1.1408,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -5.655459403991699,
+      "rewards/margins": 2.2078452110290527,
+      "rewards/rejected": -7.863304138183594,
       "step": 465
     },
     {
       "epoch": 0.98403559277676,
+      "grad_norm": 63.55697491973192,
       "learning_rate": 3.2839470889836627e-10,
+      "logits/chosen": -1.762578010559082,
+      "logits/rejected": -1.7515432834625244,
+      "logps/chosen": -2.639904022216797,
+      "logps/rejected": -3.7671687602996826,
+      "loss": 1.1961,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -5.279808044433594,
+      "rewards/margins": 2.2545294761657715,
+      "rewards/rejected": -7.534337520599365,
       "step": 470
     },
     {
       "epoch": 0.9945040565297043,
+      "grad_norm": 96.99566903301525,
       "learning_rate": 2.6813123097352287e-11,
+      "logits/chosen": -1.8280794620513916,
+      "logits/rejected": -1.8603473901748657,
+      "logps/chosen": -2.8405585289001465,
+      "logps/rejected": -3.6063880920410156,
+      "loss": 1.1728,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -5.681117057800293,
+      "rewards/margins": 1.5316593647003174,
+      "rewards/rejected": -7.212776184082031,
       "step": 475
     },
     {
       "epoch": 0.998691442030882,
       "step": 477,
       "total_flos": 0.0,
+      "train_loss": 1.3686470238167785,
+      "train_runtime": 22217.0339,
+      "train_samples_per_second": 2.752,
+      "train_steps_per_second": 0.021
     }
   ],
   "logging_steps": 5,