RyanYr commited on Aug 24

Commit

185045f

•

1 Parent(s): 632211e

Training in progress, step 1500, checkpoint

Browse files

Files changed (19) hide show

last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1500/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1500/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1500/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +2300 -2

last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e8b57e22ea9a31f314b682e8603b72abb5c7c1059d93c7b9649175fc2b99d90
+size 24090788996

last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b9482d352dc81f94eeed704b766a97dfdcebdcdccef2cc7af14042e1308dcfc
+size 24090788996

last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed95171f1cb12f5fa7959a64791d8596d5411aa3997ae72be474532ec9531b98
+size 24090788996

last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2997615d0998626cf7a9b99bd9ef7c501b60db21a78a20a69bd0fb9bed800c4
+size 24090788996

last-checkpoint/global_step1500/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8c9c9a7d2fcfa2e8fa40312006739b2c850b9a5ecfacd34f5a60173282093
+size 150693

last-checkpoint/global_step1500/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:259ffd7944316a19d3cd4a130f207a063579c77fad5d447554aeff12156085d6
+size 150693

last-checkpoint/global_step1500/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d29c1fe957781c3a62402feef79dfb38cf56b8fddb352092f6ffd32c6211e320
+size 150693

last-checkpoint/global_step1500/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:921a755d22277c2d84c9363b6dc0c6e459c1e6fbaddb89bc814ee9c5db4f54fb
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1200~~


1	+ global_step1500

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cb0fd34a3ce140ea8b2609bdd946e63f0fdada580290ec49e87c5fd86c5d9cd
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:c232699cc7833ad1c4bc01be99aaf9576f52b50426c0dd90e77d56fe57003bd8
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2efa57d079e5fb7cd4c9f36cc8ca312a81a3518c195550c8aaaff167ac4f2a2
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb26630d8f5249ea3099ea703a2b2c80769fc677b8ad9fdfaa85dcfc32419b8a
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f63b2c2e9b763e70b3780c60812a03ae3b6a7f520d34967dc9b69ebed8fcd51
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:749813aeff58fe35f2eb5e71bddacb082d1bff06e7b90c4c6dda2ce1fe2792ae
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:125f33eb6fab681369f45b22b414cd937093a789c6ccc10a84267ec3b929fc7c
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:efe356faa4bc4c418b49ecbc85a6dd22d1f226c0c0fc5ed29f9e7b49217d392d
 size 1168138808

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8044e4c53158c210a17648ba8f2dc2d25a25bbfc55f686015542618eb652a33e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4f003069486a57c6ac033f30cf4c4213eb6b7d659bab68a5a50fdb8da7c4118
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cd85d7fa425e7888c973f1c2985ac15ca21b5e6171fe140a401c2bc75ca46ff
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a016ef89b4392d083b2c15a7cf06a39bc61a759f648cf6dc03f1c32b89a526aa
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7915667371a58f1598639e0d1c20a0c59c783c14580cd040a6631eb4ea2311e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b56fe0893036dc052d18d90feba4328b90ea71561942150b07406ac3d7a700e
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35dd78929ad7f0fbf37fdb1284e8edf0424350f6e6ce1cd5a3ee78979af3d3cb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0c203d12c2c308dab785ed672c9ca27fb6a2f72acd1e1552d1516c7b0006013
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f602cb137b4f881491ae4ff5f7b87503ffe4d118e79329ce7c66a1f99a6b7554
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:542d0559a1accf1318fe1b90ae775b1a17df7be4c307e0080049ab5cb2d79573
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3841828274817964,
   "eval_steps": 100,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9199,6 +9199,2304 @@
       "eval_samples_per_second": 4.241,
       "eval_steps_per_second": 1.06,
       "step": 1200
     }
   ],
   "logging_steps": 2,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7302285343522457,
   "eval_steps": 100,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.241,
       "eval_steps_per_second": 1.06,
       "step": 1200
+    },
+    {
+      "epoch": 1.3864897988609328,
+      "grad_norm": 44.142526060771885,
+      "learning_rate": 4.768450588515978e-08,
+      "logits/chosen": -1.3997114896774292,
+      "logits/rejected": -1.4610910415649414,
+      "logps/chosen": -131.3092041015625,
+      "logps/rejected": -175.20504760742188,
+      "loss": 0.3635,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -0.47151079773902893,
+      "rewards/margins": 1.4366676807403564,
+      "rewards/rejected": -1.9081785678863525,
+      "step": 1202
+    },
+    {
+      "epoch": 1.3887967702400692,
+      "grad_norm": 71.5222774685512,
+      "learning_rate": 4.7356783712264406e-08,
+      "logits/chosen": -1.2650327682495117,
+      "logits/rejected": -1.266175627708435,
+      "logps/chosen": -227.5773162841797,
+      "logps/rejected": -301.1935119628906,
+      "loss": 0.4205,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.2289221286773682,
+      "rewards/margins": 1.7615307569503784,
+      "rewards/rejected": -2.990453004837036,
+      "step": 1204
+    },
+    {
+      "epoch": 1.3911037416192056,
+      "grad_norm": 49.387995302632135,
+      "learning_rate": 4.7029841838829265e-08,
+      "logits/chosen": -1.2980482578277588,
+      "logits/rejected": -1.3223190307617188,
+      "logps/chosen": -119.88655090332031,
+      "logps/rejected": -152.50636291503906,
+      "loss": 0.4627,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.888391375541687,
+      "rewards/margins": 0.6946803331375122,
+      "rewards/rejected": -1.5830717086791992,
+      "step": 1206
+    },
+    {
+      "epoch": 1.393410712998342,
+      "grad_norm": 45.81858789813819,
+      "learning_rate": 4.670368511092165e-08,
+      "logits/chosen": -1.4421995878219604,
+      "logits/rejected": -1.441506266593933,
+      "logps/chosen": -104.14234161376953,
+      "logps/rejected": -150.188720703125,
+      "loss": 0.4279,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.8347434401512146,
+      "rewards/margins": 1.1854957342147827,
+      "rewards/rejected": -2.0202391147613525,
+      "step": 1208
+    },
+    {
+      "epoch": 1.3957176843774781,
+      "grad_norm": 60.579372765659905,
+      "learning_rate": 4.6378318362971024e-08,
+      "logits/chosen": -1.5403013229370117,
+      "logits/rejected": -1.49015474319458,
+      "logps/chosen": -235.0990447998047,
+      "logps/rejected": -266.61248779296875,
+      "loss": 0.3995,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.1586740016937256,
+      "rewards/margins": 1.0637941360473633,
+      "rewards/rejected": -2.2224678993225098,
+      "step": 1210
+    },
+    {
+      "epoch": 1.3980246557566145,
+      "grad_norm": 60.06295691045147,
+      "learning_rate": 4.605374641769751e-08,
+      "logits/chosen": -1.290532112121582,
+      "logits/rejected": -1.332384467124939,
+      "logps/chosen": -156.14129638671875,
+      "logps/rejected": -215.77317810058594,
+      "loss": 0.4003,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.1309702396392822,
+      "rewards/margins": 1.253702163696289,
+      "rewards/rejected": -2.3846724033355713,
+      "step": 1212
+    },
+    {
+      "epoch": 1.4003316271357509,
+      "grad_norm": 51.192598664527935,
+      "learning_rate": 4.572997408604035e-08,
+      "logits/chosen": -1.3888226747512817,
+      "logits/rejected": -1.3567888736724854,
+      "logps/chosen": -143.24537658691406,
+      "logps/rejected": -161.50547790527344,
+      "loss": 0.398,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.7951155304908752,
+      "rewards/margins": 0.9197046756744385,
+      "rewards/rejected": -1.714820146560669,
+      "step": 1214
+    },
+    {
+      "epoch": 1.402638598514887,
+      "grad_norm": 53.52691613905668,
+      "learning_rate": 4.540700616708657e-08,
+      "logits/chosen": -1.395592212677002,
+      "logits/rejected": -1.339430570602417,
+      "logps/chosen": -173.7642822265625,
+      "logps/rejected": -199.0121612548828,
+      "loss": 0.3771,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.9041624665260315,
+      "rewards/margins": 1.4243049621582031,
+      "rewards/rejected": -2.32846736907959,
+      "step": 1216
+    },
+    {
+      "epoch": 1.4049455698940236,
+      "grad_norm": 52.455537691348205,
+      "learning_rate": 4.5084847447999786e-08,
+      "logits/chosen": -1.2974121570587158,
+      "logits/rejected": -1.327599048614502,
+      "logps/chosen": -140.09539794921875,
+      "logps/rejected": -200.61834716796875,
+      "loss": 0.4076,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.8636670708656311,
+      "rewards/margins": 1.1840355396270752,
+      "rewards/rejected": -2.0477025508880615,
+      "step": 1218
+    },
+    {
+      "epoch": 1.4072525412731598,
+      "grad_norm": 54.793630592320525,
+      "learning_rate": 4.476350270394942e-08,
+      "logits/chosen": -1.3982492685317993,
+      "logits/rejected": -1.4513742923736572,
+      "logps/chosen": -146.10171508789062,
+      "logps/rejected": -177.4093780517578,
+      "loss": 0.4384,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.7920992970466614,
+      "rewards/margins": 1.0156512260437012,
+      "rewards/rejected": -1.8077504634857178,
+      "step": 1220
+    },
+    {
+      "epoch": 1.4095595126522962,
+      "grad_norm": 51.63343493220621,
+      "learning_rate": 4.44429766980398e-08,
+      "logits/chosen": -1.4327033758163452,
+      "logits/rejected": -1.3436576128005981,
+      "logps/chosen": -204.16064453125,
+      "logps/rejected": -280.8416748046875,
+      "loss": 0.3825,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.0972062349319458,
+      "rewards/margins": 1.7975908517837524,
+      "rewards/rejected": -2.8947970867156982,
+      "step": 1222
+    },
+    {
+      "epoch": 1.4118664840314326,
+      "grad_norm": 41.36257251797993,
+      "learning_rate": 4.412327418123951e-08,
+      "logits/chosen": -1.5090527534484863,
+      "logits/rejected": -1.410886287689209,
+      "logps/chosen": -151.58053588867188,
+      "logps/rejected": -172.71141052246094,
+      "loss": 0.3836,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.9768989086151123,
+      "rewards/margins": 1.0158425569534302,
+      "rewards/rejected": -1.992741584777832,
+      "step": 1224
+    },
+    {
+      "epoch": 1.4141734554105687,
+      "grad_norm": 56.70346907426679,
+      "learning_rate": 4.3804399892311105e-08,
+      "logits/chosen": -1.4848518371582031,
+      "logits/rejected": -1.4474397897720337,
+      "logps/chosen": -146.97665405273438,
+      "logps/rejected": -157.70277404785156,
+      "loss": 0.4153,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8606613874435425,
+      "rewards/margins": 0.8153095841407776,
+      "rewards/rejected": -1.6759709119796753,
+      "step": 1226
+    },
+    {
+      "epoch": 1.416480426789705,
+      "grad_norm": 47.688929811885686,
+      "learning_rate": 4.348635855774081e-08,
+      "logits/chosen": -1.419485092163086,
+      "logits/rejected": -1.461479902267456,
+      "logps/chosen": -150.58755493164062,
+      "logps/rejected": -242.1259765625,
+      "loss": 0.4167,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.9045516848564148,
+      "rewards/margins": 1.710062861442566,
+      "rewards/rejected": -2.614614725112915,
+      "step": 1228
+    },
+    {
+      "epoch": 1.4187873981688415,
+      "grad_norm": 45.84951550965181,
+      "learning_rate": 4.316915489166846e-08,
+      "logits/chosen": -1.3644304275512695,
+      "logits/rejected": -1.4508379697799683,
+      "logps/chosen": -203.9729766845703,
+      "logps/rejected": -246.74143981933594,
+      "loss": 0.3521,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.0053611993789673,
+      "rewards/margins": 1.194942593574524,
+      "rewards/rejected": -2.200303792953491,
+      "step": 1230
+    },
+    {
+      "epoch": 1.4210943695479779,
+      "grad_norm": 46.447372971104215,
+      "learning_rate": 4.2852793595817524e-08,
+      "logits/chosen": -1.2737727165222168,
+      "logits/rejected": -1.3535902500152588,
+      "logps/chosen": -154.6007080078125,
+      "logps/rejected": -199.8658447265625,
+      "loss": 0.416,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.9416995048522949,
+      "rewards/margins": 1.36875319480896,
+      "rewards/rejected": -2.310452699661255,
+      "step": 1232
+    },
+    {
+      "epoch": 1.4234013409271142,
+      "grad_norm": 48.96355848399301,
+      "learning_rate": 4.2537279359425625e-08,
+      "logits/chosen": -1.3873982429504395,
+      "logits/rejected": -1.4506531953811646,
+      "logps/chosen": -153.49920654296875,
+      "logps/rejected": -220.96954345703125,
+      "loss": 0.3912,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.8012152910232544,
+      "rewards/margins": 1.5085324048995972,
+      "rewards/rejected": -2.3097476959228516,
+      "step": 1234
+    },
+    {
+      "epoch": 1.4257083123062504,
+      "grad_norm": 51.877984061457596,
+      "learning_rate": 4.2222616859174884e-08,
+      "logits/chosen": -1.2629234790802002,
+      "logits/rejected": -1.1391026973724365,
+      "logps/chosen": -237.13059997558594,
+      "logps/rejected": -254.82974243164062,
+      "loss": 0.394,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.0531830787658691,
+      "rewards/margins": 1.6561241149902344,
+      "rewards/rejected": -2.7093071937561035,
+      "step": 1236
+    },
+    {
+      "epoch": 1.4280152836853868,
+      "grad_norm": 45.68765126004196,
+      "learning_rate": 4.190881075912268e-08,
+      "logits/chosen": -1.3556292057037354,
+      "logits/rejected": -1.374952793121338,
+      "logps/chosen": -207.07798767089844,
+      "logps/rejected": -324.4890441894531,
+      "loss": 0.3957,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.2260664701461792,
+      "rewards/margins": 1.6907085180282593,
+      "rewards/rejected": -2.9167752265930176,
+      "step": 1238
+    },
+    {
+      "epoch": 1.4303222550645232,
+      "grad_norm": 58.52244034620422,
+      "learning_rate": 4.1595865710632364e-08,
+      "logits/chosen": -1.4333430528640747,
+      "logits/rejected": -1.5848240852355957,
+      "logps/chosen": -171.97352600097656,
+      "logps/rejected": -274.1302795410156,
+      "loss": 0.3436,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.5987138748168945,
+      "rewards/margins": 1.624565839767456,
+      "rewards/rejected": -2.2232794761657715,
+      "step": 1240
+    },
+    {
+      "epoch": 1.4326292264436593,
+      "grad_norm": 41.43586539854694,
+      "learning_rate": 4.1283786352304494e-08,
+      "logits/chosen": -1.37808358669281,
+      "logits/rejected": -1.4364588260650635,
+      "logps/chosen": -209.56759643554688,
+      "logps/rejected": -294.7293395996094,
+      "loss": 0.381,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.9219837188720703,
+      "rewards/margins": 1.9135119915008545,
+      "rewards/rejected": -2.835495710372925,
+      "step": 1242
+    },
+    {
+      "epoch": 1.4349361978227957,
+      "grad_norm": 50.55832261861475,
+      "learning_rate": 4.0972577309908054e-08,
+      "logits/chosen": -1.5222772359848022,
+      "logits/rejected": -1.4453645944595337,
+      "logps/chosen": -186.14736938476562,
+      "logps/rejected": -196.9586944580078,
+      "loss": 0.421,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.628247857093811,
+      "rewards/margins": 1.214928388595581,
+      "rewards/rejected": -1.8431761264801025,
+      "step": 1244
+    },
+    {
+      "epoch": 1.437243169201932,
+      "grad_norm": 44.420648415221365,
+      "learning_rate": 4.066224319631181e-08,
+      "logits/chosen": -1.3419413566589355,
+      "logits/rejected": -1.3609391450881958,
+      "logps/chosen": -127.96074676513672,
+      "logps/rejected": -184.03919982910156,
+      "loss": 0.3564,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.8036874532699585,
+      "rewards/margins": 1.4429806470870972,
+      "rewards/rejected": -2.2466681003570557,
+      "step": 1246
+    },
+    {
+      "epoch": 1.4395501405810684,
+      "grad_norm": 61.95216492377816,
+      "learning_rate": 4.035278861141588e-08,
+      "logits/chosen": -1.3702654838562012,
+      "logits/rejected": -1.376900315284729,
+      "logps/chosen": -208.74798583984375,
+      "logps/rejected": -250.13096618652344,
+      "loss": 0.4303,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.0059157609939575,
+      "rewards/margins": 1.4688332080841064,
+      "rewards/rejected": -2.4747488498687744,
+      "step": 1248
+    },
+    {
+      "epoch": 1.4418571119602048,
+      "grad_norm": 41.2065328676138,
+      "learning_rate": 4.004421814208381e-08,
+      "logits/chosen": -1.4238879680633545,
+      "logits/rejected": -1.3295542001724243,
+      "logps/chosen": -211.55715942382812,
+      "logps/rejected": -216.31297302246094,
+      "loss": 0.3928,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.0619137287139893,
+      "rewards/margins": 0.779721200466156,
+      "rewards/rejected": -1.8416348695755005,
+      "step": 1250
+    },
+    {
+      "epoch": 1.444164083339341,
+      "grad_norm": 49.78351955053435,
+      "learning_rate": 3.973653636207437e-08,
+      "logits/chosen": -1.3463867902755737,
+      "logits/rejected": -1.382056474685669,
+      "logps/chosen": -150.3297882080078,
+      "logps/rejected": -177.75344848632812,
+      "loss": 0.4125,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8665183186531067,
+      "rewards/margins": 0.8241917490959167,
+      "rewards/rejected": -1.690710186958313,
+      "step": 1252
+    },
+    {
+      "epoch": 1.4464710547184774,
+      "grad_norm": 55.635458128144826,
+      "learning_rate": 3.942974783197369e-08,
+      "logits/chosen": -1.4604573249816895,
+      "logits/rejected": -1.479122281074524,
+      "logps/chosen": -202.9034423828125,
+      "logps/rejected": -222.47259521484375,
+      "loss": 0.4657,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.9005415439605713,
+      "rewards/margins": 0.963725209236145,
+      "rewards/rejected": -1.8642667531967163,
+      "step": 1254
+    },
+    {
+      "epoch": 1.4487780260976137,
+      "grad_norm": 59.59313665883058,
+      "learning_rate": 3.912385709912793e-08,
+      "logits/chosen": -1.3942638635635376,
+      "logits/rejected": -1.3953242301940918,
+      "logps/chosen": -201.85675048828125,
+      "logps/rejected": -182.12155151367188,
+      "loss": 0.4202,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.9314505457878113,
+      "rewards/margins": 0.9069394469261169,
+      "rewards/rejected": -1.8383899927139282,
+      "step": 1256
+    },
+    {
+      "epoch": 1.4510849974767501,
+      "grad_norm": 48.47930918097777,
+      "learning_rate": 3.881886869757565e-08,
+      "logits/chosen": -1.3910021781921387,
+      "logits/rejected": -1.3850898742675781,
+      "logps/chosen": -198.0294189453125,
+      "logps/rejected": -240.89625549316406,
+      "loss": 0.3894,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.1357581615447998,
+      "rewards/margins": 1.160947561264038,
+      "rewards/rejected": -2.296705722808838,
+      "step": 1258
+    },
+    {
+      "epoch": 1.4533919688558865,
+      "grad_norm": 59.379663832920095,
+      "learning_rate": 3.851478714798075e-08,
+      "logits/chosen": -1.4543538093566895,
+      "logits/rejected": -1.3412946462631226,
+      "logps/chosen": -175.93966674804688,
+      "logps/rejected": -162.14071655273438,
+      "loss": 0.4025,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.5226415991783142,
+      "rewards/margins": 1.147411584854126,
+      "rewards/rejected": -1.6700531244277954,
+      "step": 1260
+    },
+    {
+      "epoch": 1.4556989402350227,
+      "grad_norm": 48.337458683899825,
+      "learning_rate": 3.821161695756528e-08,
+      "logits/chosen": -1.4448070526123047,
+      "logits/rejected": -1.4677135944366455,
+      "logps/chosen": -207.90625,
+      "logps/rejected": -218.8758544921875,
+      "loss": 0.3906,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.042921543121338,
+      "rewards/margins": 0.8819532990455627,
+      "rewards/rejected": -1.9248747825622559,
+      "step": 1262
+    },
+    {
+      "epoch": 1.458005911614159,
+      "grad_norm": 37.810521769650734,
+      "learning_rate": 3.790936262004286e-08,
+      "logits/chosen": -1.4521461725234985,
+      "logits/rejected": -1.4518852233886719,
+      "logps/chosen": -164.5406494140625,
+      "logps/rejected": -222.47146606445312,
+      "loss": 0.3938,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.953307569026947,
+      "rewards/margins": 1.0731128454208374,
+      "rewards/rejected": -2.0264203548431396,
+      "step": 1264
+    },
+    {
+      "epoch": 1.4603128829932954,
+      "grad_norm": 47.582874328113576,
+      "learning_rate": 3.760802861555192e-08,
+      "logits/chosen": -1.341475009918213,
+      "logits/rejected": -1.4166816473007202,
+      "logps/chosen": -169.36488342285156,
+      "logps/rejected": -240.3351593017578,
+      "loss": 0.3934,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.9554527997970581,
+      "rewards/margins": 1.2030149698257446,
+      "rewards/rejected": -2.1584675312042236,
+      "step": 1266
+    },
+    {
+      "epoch": 1.4626198543724316,
+      "grad_norm": 45.64058383800231,
+      "learning_rate": 3.7307619410589374e-08,
+      "logits/chosen": -1.3934252262115479,
+      "logits/rejected": -1.4444223642349243,
+      "logps/chosen": -172.47576904296875,
+      "logps/rejected": -233.11859130859375,
+      "loss": 0.3604,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.9768462777137756,
+      "rewards/margins": 1.4340298175811768,
+      "rewards/rejected": -2.4108762741088867,
+      "step": 1268
+    },
+    {
+      "epoch": 1.464926825751568,
+      "grad_norm": 53.5262973877338,
+      "learning_rate": 3.7008139457944244e-08,
+      "logits/chosen": -1.3181649446487427,
+      "logits/rejected": -1.3409029245376587,
+      "logps/chosen": -165.74822998046875,
+      "logps/rejected": -195.7538604736328,
+      "loss": 0.3998,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8591657876968384,
+      "rewards/margins": 1.1731674671173096,
+      "rewards/rejected": -2.0323331356048584,
+      "step": 1270
+    },
+    {
+      "epoch": 1.4672337971307043,
+      "grad_norm": 46.63543094780117,
+      "learning_rate": 3.670959319663195e-08,
+      "logits/chosen": -1.5043174028396606,
+      "logits/rejected": -1.4369632005691528,
+      "logps/chosen": -272.2401428222656,
+      "logps/rejected": -299.15362548828125,
+      "loss": 0.4018,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.246598243713379,
+      "rewards/margins": 1.317877173423767,
+      "rewards/rejected": -2.5644755363464355,
+      "step": 1272
+    },
+    {
+      "epoch": 1.4695407685098407,
+      "grad_norm": 55.055744444477284,
+      "learning_rate": 3.6411985051828266e-08,
+      "logits/chosen": -1.3811333179473877,
+      "logits/rejected": -1.388543963432312,
+      "logps/chosen": -170.03436279296875,
+      "logps/rejected": -235.34446716308594,
+      "loss": 0.402,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.035598874092102,
+      "rewards/margins": 1.4591599702835083,
+      "rewards/rejected": -2.4947586059570312,
+      "step": 1274
+    },
+    {
+      "epoch": 1.471847739888977,
+      "grad_norm": 50.20941285474848,
+      "learning_rate": 3.611531943480389e-08,
+      "logits/chosen": -1.3351385593414307,
+      "logits/rejected": -1.3272579908370972,
+      "logps/chosen": -175.16346740722656,
+      "logps/rejected": -189.85296630859375,
+      "loss": 0.4145,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.9872362613677979,
+      "rewards/margins": 1.0476864576339722,
+      "rewards/rejected": -2.0349225997924805,
+      "step": 1276
+    },
+    {
+      "epoch": 1.4741547112681133,
+      "grad_norm": 59.89422080082632,
+      "learning_rate": 3.5819600742858844e-08,
+      "logits/chosen": -1.3087190389633179,
+      "logits/rejected": -1.3633005619049072,
+      "logps/chosen": -158.3797607421875,
+      "logps/rejected": -188.01727294921875,
+      "loss": 0.4171,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.1256399154663086,
+      "rewards/margins": 1.0341967344284058,
+      "rewards/rejected": -2.159836530685425,
+      "step": 1278
+    },
+    {
+      "epoch": 1.4764616826472496,
+      "grad_norm": 49.11561908258762,
+      "learning_rate": 3.5524833359257575e-08,
+      "logits/chosen": -1.5165667533874512,
+      "logits/rejected": -1.462736964225769,
+      "logps/chosen": -247.8217315673828,
+      "logps/rejected": -262.7837219238281,
+      "loss": 0.4012,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.883770763874054,
+      "rewards/margins": 1.4304596185684204,
+      "rewards/rejected": -2.314230442047119,
+      "step": 1280
+    },
+    {
+      "epoch": 1.478768654026386,
+      "grad_norm": 45.113121140151996,
+      "learning_rate": 3.5231021653163804e-08,
+      "logits/chosen": -1.4450606107711792,
+      "logits/rejected": -1.3937573432922363,
+      "logps/chosen": -174.6051025390625,
+      "logps/rejected": -222.32730102539062,
+      "loss": 0.4,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.893982470035553,
+      "rewards/margins": 1.3176380395889282,
+      "rewards/rejected": -2.211620569229126,
+      "step": 1282
+    },
+    {
+      "epoch": 1.4810756254055222,
+      "grad_norm": 52.74309051653843,
+      "learning_rate": 3.493816997957582e-08,
+      "logits/chosen": -1.1566662788391113,
+      "logits/rejected": -1.0729938745498657,
+      "logps/chosen": -164.8375701904297,
+      "logps/rejected": -182.715087890625,
+      "loss": 0.4019,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.991936206817627,
+      "rewards/margins": 1.1979286670684814,
+      "rewards/rejected": -2.1898648738861084,
+      "step": 1284
+    },
+    {
+      "epoch": 1.4833825967846586,
+      "grad_norm": 59.365698205986185,
+      "learning_rate": 3.464628267926181e-08,
+      "logits/chosen": -1.5087039470672607,
+      "logits/rejected": -1.4981944561004639,
+      "logps/chosen": -142.24920654296875,
+      "logps/rejected": -175.18621826171875,
+      "loss": 0.4186,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.8559743165969849,
+      "rewards/margins": 0.9344435930252075,
+      "rewards/rejected": -1.7904179096221924,
+      "step": 1286
+    },
+    {
+      "epoch": 1.485689568163795,
+      "grad_norm": 57.44209478222106,
+      "learning_rate": 3.435536407869575e-08,
+      "logits/chosen": -1.3180654048919678,
+      "logits/rejected": -1.3062459230422974,
+      "logps/chosen": -161.09739685058594,
+      "logps/rejected": -201.8702392578125,
+      "loss": 0.3926,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.852310061454773,
+      "rewards/margins": 1.2749509811401367,
+      "rewards/rejected": -2.127261161804199,
+      "step": 1288
+    },
+    {
+      "epoch": 1.4879965395429313,
+      "grad_norm": 43.26619291788839,
+      "learning_rate": 3.406541848999312e-08,
+      "logits/chosen": -1.1940698623657227,
+      "logits/rejected": -1.2222319841384888,
+      "logps/chosen": -194.698974609375,
+      "logps/rejected": -273.7522277832031,
+      "loss": 0.3836,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.1189277172088623,
+      "rewards/margins": 1.7288103103637695,
+      "rewards/rejected": -2.847738265991211,
+      "step": 1290
+    },
+    {
+      "epoch": 1.4903035109220677,
+      "grad_norm": 53.62926570037078,
+      "learning_rate": 3.377645021084701e-08,
+      "logits/chosen": -1.2409629821777344,
+      "logits/rejected": -1.3555923700332642,
+      "logps/chosen": -138.0780029296875,
+      "logps/rejected": -208.65414428710938,
+      "loss": 0.3607,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -0.7014888525009155,
+      "rewards/margins": 1.3151085376739502,
+      "rewards/rejected": -2.016597270965576,
+      "step": 1292
+    },
+    {
+      "epoch": 1.4926104823012039,
+      "grad_norm": 51.970100056876014,
+      "learning_rate": 3.348846352446435e-08,
+      "logits/chosen": -1.4000651836395264,
+      "logits/rejected": -1.4792894124984741,
+      "logps/chosen": -132.2428436279297,
+      "logps/rejected": -182.43931579589844,
+      "loss": 0.4103,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.824167013168335,
+      "rewards/margins": 1.0639564990997314,
+      "rewards/rejected": -1.888123631477356,
+      "step": 1294
+    },
+    {
+      "epoch": 1.4949174536803402,
+      "grad_norm": 51.98384854834489,
+      "learning_rate": 3.32014626995026e-08,
+      "logits/chosen": -1.247258186340332,
+      "logits/rejected": -1.2670161724090576,
+      "logps/chosen": -173.65634155273438,
+      "logps/rejected": -184.025390625,
+      "loss": 0.3922,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.9547139406204224,
+      "rewards/margins": 0.8975260257720947,
+      "rewards/rejected": -1.852239966392517,
+      "step": 1296
+    },
+    {
+      "epoch": 1.4972244250594766,
+      "grad_norm": 54.4822774885669,
+      "learning_rate": 3.291545199000636e-08,
+      "logits/chosen": -1.3456276655197144,
+      "logits/rejected": -1.2962102890014648,
+      "logps/chosen": -189.99917602539062,
+      "logps/rejected": -226.09519958496094,
+      "loss": 0.4015,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.1853322982788086,
+      "rewards/margins": 1.2129353284835815,
+      "rewards/rejected": -2.3982675075531006,
+      "step": 1298
+    },
+    {
+      "epoch": 1.499531396438613,
+      "grad_norm": 49.557670987283394,
+      "learning_rate": 3.263043563534428e-08,
+      "logits/chosen": -1.4072293043136597,
+      "logits/rejected": -1.403496265411377,
+      "logps/chosen": -191.06785583496094,
+      "logps/rejected": -222.01727294921875,
+      "loss": 0.4256,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.1364355087280273,
+      "rewards/margins": 0.8410711288452148,
+      "rewards/rejected": -1.9775067567825317,
+      "step": 1300
+    },
+    {
+      "epoch": 1.499531396438613,
+      "eval_logits/chosen": -1.349912405014038,
+      "eval_logits/rejected": -1.2728021144866943,
+      "eval_logps/chosen": -198.44601440429688,
+      "eval_logps/rejected": -170.63462829589844,
+      "eval_loss": 0.5290127396583557,
+      "eval_rewards/accuracies": 0.7200000286102295,
+      "eval_rewards/chosen": -1.3263821601867676,
+      "eval_rewards/margins": 0.6855400204658508,
+      "eval_rewards/rejected": -2.0119218826293945,
+      "eval_runtime": 23.425,
+      "eval_samples_per_second": 4.269,
+      "eval_steps_per_second": 1.067,
+      "step": 1300
+    },
+    {
+      "epoch": 1.5018383678177494,
+      "grad_norm": 45.842584597120144,
+      "learning_rate": 3.23464178601463e-08,
+      "logits/chosen": -1.3447407484054565,
+      "logits/rejected": -1.3684443235397339,
+      "logps/chosen": -190.647216796875,
+      "logps/rejected": -204.70425415039062,
+      "loss": 0.3852,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.0248242616653442,
+      "rewards/margins": 1.146057367324829,
+      "rewards/rejected": -2.1708812713623047,
+      "step": 1302
+    },
+    {
+      "epoch": 1.5041453391968855,
+      "grad_norm": 47.37239527648157,
+      "learning_rate": 3.206340287424102e-08,
+      "logits/chosen": -1.278390884399414,
+      "logits/rejected": -1.2682162523269653,
+      "logps/chosen": -196.60675048828125,
+      "logps/rejected": -235.6786346435547,
+      "loss": 0.4076,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.1913988590240479,
+      "rewards/margins": 1.3531779050827026,
+      "rewards/rejected": -2.544576644897461,
+      "step": 1304
+    },
+    {
+      "epoch": 1.506452310576022,
+      "grad_norm": 54.28789803813994,
+      "learning_rate": 3.178139487259329e-08,
+      "logits/chosen": -1.4512503147125244,
+      "logits/rejected": -1.4933993816375732,
+      "logps/chosen": -179.09815979003906,
+      "logps/rejected": -240.13143920898438,
+      "loss": 0.3969,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.9774467945098877,
+      "rewards/margins": 1.2948458194732666,
+      "rewards/rejected": -2.2722926139831543,
+      "step": 1306
+    },
+    {
+      "epoch": 1.5087592819551583,
+      "grad_norm": 46.589365963047385,
+      "learning_rate": 3.1500398035241936e-08,
+      "logits/chosen": -1.4314634799957275,
+      "logits/rejected": -1.4590768814086914,
+      "logps/chosen": -126.36434936523438,
+      "logps/rejected": -152.21775817871094,
+      "loss": 0.4119,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.7625494003295898,
+      "rewards/margins": 0.9721799492835999,
+      "rewards/rejected": -1.7347294092178345,
+      "step": 1308
+    },
+    {
+      "epoch": 1.5110662533342945,
+      "grad_norm": 52.15126576008971,
+      "learning_rate": 3.1220416527238005e-08,
+      "logits/chosen": -1.4616860151290894,
+      "logits/rejected": -1.435218334197998,
+      "logps/chosen": -159.05282592773438,
+      "logps/rejected": -175.42967224121094,
+      "loss": 0.4312,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.903962254524231,
+      "rewards/margins": 0.8932026624679565,
+      "rewards/rejected": -1.797164797782898,
+      "step": 1310
+    },
+    {
+      "epoch": 1.513373224713431,
+      "grad_norm": 58.832075530463044,
+      "learning_rate": 3.094145449858284e-08,
+      "logits/chosen": -1.442615032196045,
+      "logits/rejected": -1.3926329612731934,
+      "logps/chosen": -185.3905029296875,
+      "logps/rejected": -191.25869750976562,
+      "loss": 0.4393,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.0720655918121338,
+      "rewards/margins": 0.6762962341308594,
+      "rewards/rejected": -1.7483618259429932,
+      "step": 1312
+    },
+    {
+      "epoch": 1.5156801960925672,
+      "grad_norm": 44.7076995014112,
+      "learning_rate": 3.0663516084166706e-08,
+      "logits/chosen": -1.2298978567123413,
+      "logits/rejected": -1.3115289211273193,
+      "logps/chosen": -187.91552734375,
+      "logps/rejected": -252.78433227539062,
+      "loss": 0.3453,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.2967660427093506,
+      "rewards/margins": 1.4439966678619385,
+      "rewards/rejected": -2.740762710571289,
+      "step": 1314
+    },
+    {
+      "epoch": 1.5179871674717036,
+      "grad_norm": 44.67859571904197,
+      "learning_rate": 3.038660540370735e-08,
+      "logits/chosen": -1.3734447956085205,
+      "logits/rejected": -1.3580108880996704,
+      "logps/chosen": -132.02508544921875,
+      "logps/rejected": -184.58181762695312,
+      "loss": 0.393,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8986393809318542,
+      "rewards/margins": 1.3148921728134155,
+      "rewards/rejected": -2.213531255722046,
+      "step": 1316
+    },
+    {
+      "epoch": 1.52029413885084,
+      "grad_norm": 47.98876193889907,
+      "learning_rate": 3.011072656168906e-08,
+      "logits/chosen": -1.3537302017211914,
+      "logits/rejected": -1.359252691268921,
+      "logps/chosen": -139.8520965576172,
+      "logps/rejected": -180.31007385253906,
+      "loss": 0.4064,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.850949764251709,
+      "rewards/margins": 1.204286813735962,
+      "rewards/rejected": -2.055236577987671,
+      "step": 1318
+    },
+    {
+      "epoch": 1.5226011102299761,
+      "grad_norm": 46.0224640343323,
+      "learning_rate": 2.9835883647301826e-08,
+      "logits/chosen": -1.3717573881149292,
+      "logits/rejected": -1.3601585626602173,
+      "logps/chosen": -219.96463012695312,
+      "logps/rejected": -260.22247314453125,
+      "loss": 0.3923,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.1594874858856201,
+      "rewards/margins": 1.7778315544128418,
+      "rewards/rejected": -2.937319278717041,
+      "step": 1320
+    },
+    {
+      "epoch": 1.5249080816091125,
+      "grad_norm": 42.94236856581764,
+      "learning_rate": 2.9562080734380678e-08,
+      "logits/chosen": -1.3365228176116943,
+      "logits/rejected": -1.2907369136810303,
+      "logps/chosen": -206.2550048828125,
+      "logps/rejected": -295.9128723144531,
+      "loss": 0.3811,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.8169040679931641,
+      "rewards/margins": 1.9202640056610107,
+      "rewards/rejected": -2.737168312072754,
+      "step": 1322
+    },
+    {
+      "epoch": 1.5272150529882489,
+      "grad_norm": 52.34290409904556,
+      "learning_rate": 2.928932188134525e-08,
+      "logits/chosen": -1.3455016613006592,
+      "logits/rejected": -1.2972326278686523,
+      "logps/chosen": -155.3500518798828,
+      "logps/rejected": -162.52243041992188,
+      "loss": 0.4153,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.7506276965141296,
+      "rewards/margins": 1.141640305519104,
+      "rewards/rejected": -1.8922679424285889,
+      "step": 1324
+    },
+    {
+      "epoch": 1.529522024367385,
+      "grad_norm": 49.03147359925327,
+      "learning_rate": 2.9017611131139762e-08,
+      "logits/chosen": -1.4706536531448364,
+      "logits/rejected": -1.4308120012283325,
+      "logps/chosen": -184.1258544921875,
+      "logps/rejected": -195.16162109375,
+      "loss": 0.3929,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.9032193422317505,
+      "rewards/margins": 1.1196848154067993,
+      "rewards/rejected": -2.02290415763855,
+      "step": 1326
+    },
+    {
+      "epoch": 1.5318289957465216,
+      "grad_norm": 49.97091160023798,
+      "learning_rate": 2.874695251117303e-08,
+      "logits/chosen": -1.4324705600738525,
+      "logits/rejected": -1.3871915340423584,
+      "logps/chosen": -147.20001220703125,
+      "logps/rejected": -225.0901336669922,
+      "loss": 0.4162,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.7438746690750122,
+      "rewards/margins": 1.2811241149902344,
+      "rewards/rejected": -2.024998664855957,
+      "step": 1328
+    },
+    {
+      "epoch": 1.5341359671256578,
+      "grad_norm": 43.41525443911614,
+      "learning_rate": 2.8477350033258672e-08,
+      "logits/chosen": -1.522569179534912,
+      "logits/rejected": -1.4508986473083496,
+      "logps/chosen": -162.15855407714844,
+      "logps/rejected": -165.8858642578125,
+      "loss": 0.3882,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.6052396893501282,
+      "rewards/margins": 0.978552520275116,
+      "rewards/rejected": -1.5837922096252441,
+      "step": 1330
+    },
+    {
+      "epoch": 1.5364429385047942,
+      "grad_norm": 49.48217123812548,
+      "learning_rate": 2.8208807693555814e-08,
+      "logits/chosen": -1.376870036125183,
+      "logits/rejected": -1.3188726902008057,
+      "logps/chosen": -202.34939575195312,
+      "logps/rejected": -221.72894287109375,
+      "loss": 0.4297,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.0866365432739258,
+      "rewards/margins": 1.028623104095459,
+      "rewards/rejected": -2.115259885787964,
+      "step": 1332
+    },
+    {
+      "epoch": 1.5387499098839306,
+      "grad_norm": 46.51618814969754,
+      "learning_rate": 2.7941329472509767e-08,
+      "logits/chosen": -1.4210199117660522,
+      "logits/rejected": -1.4886133670806885,
+      "logps/chosen": -191.4695281982422,
+      "logps/rejected": -216.92849731445312,
+      "loss": 0.3674,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.083839774131775,
+      "rewards/margins": 1.2328987121582031,
+      "rewards/rejected": -2.3167383670806885,
+      "step": 1334
+    },
+    {
+      "epoch": 1.5410568812630667,
+      "grad_norm": 50.002556121820184,
+      "learning_rate": 2.7674919334793033e-08,
+      "logits/chosen": -1.3935497999191284,
+      "logits/rejected": -1.4638290405273438,
+      "logps/chosen": -188.38775634765625,
+      "logps/rejected": -218.97442626953125,
+      "loss": 0.3643,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.9267150163650513,
+      "rewards/margins": 1.4599485397338867,
+      "rewards/rejected": -2.3866634368896484,
+      "step": 1336
+    },
+    {
+      "epoch": 1.543363852642203,
+      "grad_norm": 43.96736215737179,
+      "learning_rate": 2.7409581229246493e-08,
+      "logits/chosen": -1.4587171077728271,
+      "logits/rejected": -1.3520967960357666,
+      "logps/chosen": -186.90631103515625,
+      "logps/rejected": -198.11570739746094,
+      "loss": 0.4022,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.6897175908088684,
+      "rewards/margins": 1.123156189918518,
+      "rewards/rejected": -1.8128737211227417,
+      "step": 1338
+    },
+    {
+      "epoch": 1.5456708240213395,
+      "grad_norm": 48.95299994888663,
+      "learning_rate": 2.7145319088820985e-08,
+      "logits/chosen": -1.4856892824172974,
+      "logits/rejected": -1.4046401977539062,
+      "logps/chosen": -157.6865234375,
+      "logps/rejected": -185.38278198242188,
+      "loss": 0.3834,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.9328738451004028,
+      "rewards/margins": 1.4649465084075928,
+      "rewards/rejected": -2.397820234298706,
+      "step": 1340
+    },
+    {
+      "epoch": 1.5479777954004759,
+      "grad_norm": 47.48346304531486,
+      "learning_rate": 2.688213683051892e-08,
+      "logits/chosen": -1.3646446466445923,
+      "logits/rejected": -1.3468654155731201,
+      "logps/chosen": -199.64413452148438,
+      "logps/rejected": -227.54318237304688,
+      "loss": 0.3599,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.035663366317749,
+      "rewards/margins": 1.2792800664901733,
+      "rewards/rejected": -2.314943552017212,
+      "step": 1342
+    },
+    {
+      "epoch": 1.5502847667796122,
+      "grad_norm": 47.27417390076413,
+      "learning_rate": 2.6620038355336305e-08,
+      "logits/chosen": -1.4909706115722656,
+      "logits/rejected": -1.4687060117721558,
+      "logps/chosen": -160.08041381835938,
+      "logps/rejected": -195.14886474609375,
+      "loss": 0.3712,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.8120248317718506,
+      "rewards/margins": 1.2791612148284912,
+      "rewards/rejected": -2.091186285018921,
+      "step": 1344
+    },
+    {
+      "epoch": 1.5525917381587484,
+      "grad_norm": 39.1002186836634,
+      "learning_rate": 2.635902754820475e-08,
+      "logits/chosen": -1.4342174530029297,
+      "logits/rejected": -1.4962186813354492,
+      "logps/chosen": -203.3734588623047,
+      "logps/rejected": -263.7275695800781,
+      "loss": 0.3782,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.8007220029830933,
+      "rewards/margins": 1.4874347448349,
+      "rewards/rejected": -2.288156747817993,
+      "step": 1346
+    },
+    {
+      "epoch": 1.5548987095378848,
+      "grad_norm": 44.5283434969193,
+      "learning_rate": 2.60991082779341e-08,
+      "logits/chosen": -1.2880148887634277,
+      "logits/rejected": -1.3925414085388184,
+      "logps/chosen": -148.82077026367188,
+      "logps/rejected": -200.53903198242188,
+      "loss": 0.3493,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.9107972383499146,
+      "rewards/margins": 1.1858881711959839,
+      "rewards/rejected": -2.0966851711273193,
+      "step": 1348
+    },
+    {
+      "epoch": 1.5572056809170212,
+      "grad_norm": 45.32965113835206,
+      "learning_rate": 2.5840284397154965e-08,
+      "logits/chosen": -1.4253007173538208,
+      "logits/rejected": -1.3697370290756226,
+      "logps/chosen": -140.25965881347656,
+      "logps/rejected": -157.40565490722656,
+      "loss": 0.3721,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -0.6943234205245972,
+      "rewards/margins": 1.344458818435669,
+      "rewards/rejected": -2.0387821197509766,
+      "step": 1350
+    },
+    {
+      "epoch": 1.5595126522961573,
+      "grad_norm": 43.36149821146732,
+      "learning_rate": 2.5582559742261645e-08,
+      "logits/chosen": -1.2941721677780151,
+      "logits/rejected": -1.2105193138122559,
+      "logps/chosen": -151.37664794921875,
+      "logps/rejected": -192.40484619140625,
+      "loss": 0.4241,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.9218543171882629,
+      "rewards/margins": 1.150537133216858,
+      "rewards/rejected": -2.0723917484283447,
+      "step": 1352
+    },
+    {
+      "epoch": 1.561819623675294,
+      "grad_norm": 48.73204722090299,
+      "learning_rate": 2.532593813335524e-08,
+      "logits/chosen": -1.4378621578216553,
+      "logits/rejected": -1.4481985569000244,
+      "logps/chosen": -165.80274963378906,
+      "logps/rejected": -181.1370391845703,
+      "loss": 0.4308,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.9549030661582947,
+      "rewards/margins": 0.6894029378890991,
+      "rewards/rejected": -1.6443060636520386,
+      "step": 1354
+    },
+    {
+      "epoch": 1.56412659505443,
+      "grad_norm": 48.96214324123758,
+      "learning_rate": 2.5070423374187066e-08,
+      "logits/chosen": -1.3675079345703125,
+      "logits/rejected": -1.3449468612670898,
+      "logps/chosen": -179.66668701171875,
+      "logps/rejected": -205.29490661621094,
+      "loss": 0.4202,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.7179181575775146,
+      "rewards/margins": 1.2601079940795898,
+      "rewards/rejected": -1.9780261516571045,
+      "step": 1356
+    },
+    {
+      "epoch": 1.5664335664335665,
+      "grad_norm": 55.81959533812462,
+      "learning_rate": 2.4816019252102272e-08,
+      "logits/chosen": -1.3808372020721436,
+      "logits/rejected": -1.2713388204574585,
+      "logps/chosen": -192.23965454101562,
+      "logps/rejected": -183.83566284179688,
+      "loss": 0.4231,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.2753582000732422,
+      "rewards/margins": 0.6576382517814636,
+      "rewards/rejected": -1.932996392250061,
+      "step": 1358
+    },
+    {
+      "epoch": 1.5687405378127028,
+      "grad_norm": 56.59847700001908,
+      "learning_rate": 2.4562729537983605e-08,
+      "logits/chosen": -1.2573238611221313,
+      "logits/rejected": -1.2922176122665405,
+      "logps/chosen": -149.29942321777344,
+      "logps/rejected": -166.0135955810547,
+      "loss": 0.4638,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.8205444812774658,
+      "rewards/margins": 0.7928743958473206,
+      "rewards/rejected": -1.6134188175201416,
+      "step": 1360
+    },
+    {
+      "epoch": 1.571047509191839,
+      "grad_norm": 37.26011990037049,
+      "learning_rate": 2.4310557986195702e-08,
+      "logits/chosen": -1.3010238409042358,
+      "logits/rejected": -1.2920893430709839,
+      "logps/chosen": -299.04022216796875,
+      "logps/rejected": -379.41375732421875,
+      "loss": 0.2954,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.4708349704742432,
+      "rewards/margins": 2.2122201919555664,
+      "rewards/rejected": -3.6830554008483887,
+      "step": 1362
+    },
+    {
+      "epoch": 1.5733544805709754,
+      "grad_norm": 49.54139763435727,
+      "learning_rate": 2.4059508334529277e-08,
+      "logits/chosen": -1.3956283330917358,
+      "logits/rejected": -1.457297921180725,
+      "logps/chosen": -191.56198120117188,
+      "logps/rejected": -222.62847900390625,
+      "loss": 0.4168,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.9353391528129578,
+      "rewards/margins": 1.0330374240875244,
+      "rewards/rejected": -1.968376636505127,
+      "step": 1364
+    },
+    {
+      "epoch": 1.5756614519501118,
+      "grad_norm": 41.5799173152666,
+      "learning_rate": 2.3809584304145824e-08,
+      "logits/chosen": -1.3520365953445435,
+      "logits/rejected": -1.3251811265945435,
+      "logps/chosen": -155.65635681152344,
+      "logps/rejected": -256.5829162597656,
+      "loss": 0.3825,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.817021369934082,
+      "rewards/margins": 1.9787249565124512,
+      "rewards/rejected": -2.795746326446533,
+      "step": 1366
+    },
+    {
+      "epoch": 1.577968423329248,
+      "grad_norm": 42.84011718919187,
+      "learning_rate": 2.3560789599522324e-08,
+      "logits/chosen": -1.544500708580017,
+      "logits/rejected": -1.4618444442749023,
+      "logps/chosen": -161.96481323242188,
+      "logps/rejected": -154.49684143066406,
+      "loss": 0.376,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8055549263954163,
+      "rewards/margins": 0.7844254374504089,
+      "rewards/rejected": -1.5899803638458252,
+      "step": 1368
+    },
+    {
+      "epoch": 1.5802753947083845,
+      "grad_norm": 41.774939807969034,
+      "learning_rate": 2.3313127908396513e-08,
+      "logits/chosen": -1.3718278408050537,
+      "logits/rejected": -1.4343537092208862,
+      "logps/chosen": -206.5829315185547,
+      "logps/rejected": -266.7309265136719,
+      "loss": 0.3721,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.9916315674781799,
+      "rewards/margins": 1.702213168144226,
+      "rewards/rejected": -2.69384503364563,
+      "step": 1370
+    },
+    {
+      "epoch": 1.5825823660875207,
+      "grad_norm": 44.23281683503162,
+      "learning_rate": 2.3066602901712107e-08,
+      "logits/chosen": -1.4820692539215088,
+      "logits/rejected": -1.411734700202942,
+      "logps/chosen": -131.54576110839844,
+      "logps/rejected": -182.11221313476562,
+      "loss": 0.4274,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.6956377029418945,
+      "rewards/margins": 1.3419928550720215,
+      "rewards/rejected": -2.037630558013916,
+      "step": 1372
+    },
+    {
+      "epoch": 1.584889337466657,
+      "grad_norm": 45.40441226988886,
+      "learning_rate": 2.282121823356443e-08,
+      "logits/chosen": -1.382628321647644,
+      "logits/rejected": -1.3758268356323242,
+      "logps/chosen": -180.58364868164062,
+      "logps/rejected": -184.94630432128906,
+      "loss": 0.3771,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8638473749160767,
+      "rewards/margins": 1.0921387672424316,
+      "rewards/rejected": -1.9559861421585083,
+      "step": 1374
+    },
+    {
+      "epoch": 1.5871963088457934,
+      "grad_norm": 53.33501581540229,
+      "learning_rate": 2.2576977541146192e-08,
+      "logits/chosen": -1.4102963209152222,
+      "logits/rejected": -1.3674509525299072,
+      "logps/chosen": -155.62570190429688,
+      "logps/rejected": -192.2836151123047,
+      "loss": 0.4065,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.7117963433265686,
+      "rewards/margins": 1.3161264657974243,
+      "rewards/rejected": -2.0279228687286377,
+      "step": 1376
+    },
+    {
+      "epoch": 1.5895032802249296,
+      "grad_norm": 51.75166271383647,
+      "learning_rate": 2.233388444469365e-08,
+      "logits/chosen": -1.4923657178878784,
+      "logits/rejected": -1.4987457990646362,
+      "logps/chosen": -155.1583709716797,
+      "logps/rejected": -197.0376434326172,
+      "loss": 0.3875,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.562934398651123,
+      "rewards/margins": 1.135040044784546,
+      "rewards/rejected": -1.6979745626449585,
+      "step": 1378
+    },
+    {
+      "epoch": 1.5918102516040662,
+      "grad_norm": 42.14115881844709,
+      "learning_rate": 2.2091942547432952e-08,
+      "logits/chosen": -1.3474974632263184,
+      "logits/rejected": -1.4093090295791626,
+      "logps/chosen": -168.27703857421875,
+      "logps/rejected": -235.56069946289062,
+      "loss": 0.3403,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.7459644675254822,
+      "rewards/margins": 1.911803960800171,
+      "rewards/rejected": -2.6577682495117188,
+      "step": 1380
+    },
+    {
+      "epoch": 1.5941172229832024,
+      "grad_norm": 45.28202449928773,
+      "learning_rate": 2.185115543552668e-08,
+      "logits/chosen": -1.3790557384490967,
+      "logits/rejected": -1.3599779605865479,
+      "logps/chosen": -207.94744873046875,
+      "logps/rejected": -290.3175048828125,
+      "loss": 0.349,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.0387717485427856,
+      "rewards/margins": 1.9479621648788452,
+      "rewards/rejected": -2.986733913421631,
+      "step": 1382
+    },
+    {
+      "epoch": 1.5964241943623387,
+      "grad_norm": 46.671094507627366,
+      "learning_rate": 2.161152667802065e-08,
+      "logits/chosen": -1.4180598258972168,
+      "logits/rejected": -1.4577977657318115,
+      "logps/chosen": -204.82492065429688,
+      "logps/rejected": -241.60826110839844,
+      "loss": 0.3675,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.1089719533920288,
+      "rewards/margins": 1.2917826175689697,
+      "rewards/rejected": -2.400754690170288,
+      "step": 1384
+    },
+    {
+      "epoch": 1.5987311657414751,
+      "grad_norm": 56.85629358101348,
+      "learning_rate": 2.137305982679114e-08,
+      "logits/chosen": -1.3005365133285522,
+      "logits/rejected": -1.319321632385254,
+      "logps/chosen": -199.8241729736328,
+      "logps/rejected": -261.0871887207031,
+      "loss": 0.4032,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.0821079015731812,
+      "rewards/margins": 1.5878570079803467,
+      "rewards/rejected": -2.6699647903442383,
+      "step": 1386
+    },
+    {
+      "epoch": 1.6010381371206113,
+      "grad_norm": 46.07174902767819,
+      "learning_rate": 2.1135758416492165e-08,
+      "logits/chosen": -1.5705550909042358,
+      "logits/rejected": -1.4742302894592285,
+      "logps/chosen": -198.67947387695312,
+      "logps/rejected": -229.13302612304688,
+      "loss": 0.3705,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.9288389682769775,
+      "rewards/margins": 1.4559340476989746,
+      "rewards/rejected": -2.384772777557373,
+      "step": 1388
+    },
+    {
+      "epoch": 1.6033451084997477,
+      "grad_norm": 42.39566003219877,
+      "learning_rate": 2.089962596450311e-08,
+      "logits/chosen": -1.4445676803588867,
+      "logits/rejected": -1.5513989925384521,
+      "logps/chosen": -166.5742950439453,
+      "logps/rejected": -210.93817138671875,
+      "loss": 0.3723,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.0038912296295166,
+      "rewards/margins": 1.1079350709915161,
+      "rewards/rejected": -2.1118264198303223,
+      "step": 1390
+    },
+    {
+      "epoch": 1.605652079878884,
+      "grad_norm": 45.674613502568626,
+      "learning_rate": 2.0664665970876492e-08,
+      "logits/chosen": -1.4405865669250488,
+      "logits/rejected": -1.3463035821914673,
+      "logps/chosen": -192.42994689941406,
+      "logps/rejected": -198.7202606201172,
+      "loss": 0.3608,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.9397283792495728,
+      "rewards/margins": 1.1064425706863403,
+      "rewards/rejected": -2.046170949935913,
+      "step": 1392
+    },
+    {
+      "epoch": 1.6079590512580202,
+      "grad_norm": 51.58508472735133,
+      "learning_rate": 2.043088191828627e-08,
+      "logits/chosen": -1.4186500310897827,
+      "logits/rejected": -1.4255372285842896,
+      "logps/chosen": -118.36923217773438,
+      "logps/rejected": -183.34219360351562,
+      "loss": 0.4034,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.6923995018005371,
+      "rewards/margins": 1.1543622016906738,
+      "rewards/rejected": -1.84676194190979,
+      "step": 1394
+    },
+    {
+      "epoch": 1.6102660226371568,
+      "grad_norm": 44.70959574418251,
+      "learning_rate": 2.019827727197605e-08,
+      "logits/chosen": -1.4978314638137817,
+      "logits/rejected": -1.4510836601257324,
+      "logps/chosen": -230.2447967529297,
+      "logps/rejected": -276.96380615234375,
+      "loss": 0.3901,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.9087953567504883,
+      "rewards/margins": 1.4139595031738281,
+      "rewards/rejected": -2.3227550983428955,
+      "step": 1396
+    },
+    {
+      "epoch": 1.612572994016293,
+      "grad_norm": 44.12838016221303,
+      "learning_rate": 1.9966855479707868e-08,
+      "logits/chosen": -1.327124834060669,
+      "logits/rejected": -1.3261754512786865,
+      "logps/chosen": -154.4375,
+      "logps/rejected": -215.845458984375,
+      "loss": 0.4076,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8609018921852112,
+      "rewards/margins": 1.4171010255813599,
+      "rewards/rejected": -2.278002977371216,
+      "step": 1398
+    },
+    {
+      "epoch": 1.6148799653954293,
+      "grad_norm": 44.23536998519936,
+      "learning_rate": 1.9736619971710888e-08,
+      "logits/chosen": -1.3296552896499634,
+      "logits/rejected": -1.3575528860092163,
+      "logps/chosen": -153.06039428710938,
+      "logps/rejected": -195.69317626953125,
+      "loss": 0.3428,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.6315370202064514,
+      "rewards/margins": 1.1925398111343384,
+      "rewards/rejected": -1.8240768909454346,
+      "step": 1400
+    },
+    {
+      "epoch": 1.6148799653954293,
+      "eval_logits/chosen": -1.3480746746063232,
+      "eval_logits/rejected": -1.2724710702896118,
+      "eval_logps/chosen": -198.91085815429688,
+      "eval_logps/rejected": -171.2626495361328,
+      "eval_loss": 0.5261049866676331,
+      "eval_rewards/accuracies": 0.6800000071525574,
+      "eval_rewards/chosen": -1.3728693723678589,
+      "eval_rewards/margins": 0.7018558382987976,
+      "eval_rewards/rejected": -2.0747251510620117,
+      "eval_runtime": 22.7346,
+      "eval_samples_per_second": 4.399,
+      "eval_steps_per_second": 1.1,
+      "step": 1400
+    },
+    {
+      "epoch": 1.6171869367745657,
+      "grad_norm": 52.08080969982687,
+      "learning_rate": 1.9507574160630767e-08,
+      "logits/chosen": -1.2814185619354248,
+      "logits/rejected": -1.2460808753967285,
+      "logps/chosen": -144.47117614746094,
+      "logps/rejected": -188.13999938964844,
+      "loss": 0.384,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.7697983980178833,
+      "rewards/margins": 1.3541502952575684,
+      "rewards/rejected": -2.123948574066162,
+      "step": 1402
+    },
+    {
+      "epoch": 1.6194939081537019,
+      "grad_norm": 45.36665871108164,
+      "learning_rate": 1.9279721441479046e-08,
+      "logits/chosen": -1.4106312990188599,
+      "logits/rejected": -1.458733320236206,
+      "logps/chosen": -192.62257385253906,
+      "logps/rejected": -218.3051300048828,
+      "loss": 0.4132,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.014463186264038,
+      "rewards/margins": 1.271317958831787,
+      "rewards/rejected": -2.2857813835144043,
+      "step": 1404
+    },
+    {
+      "epoch": 1.6218008795328382,
+      "grad_norm": 58.50577692485291,
+      "learning_rate": 1.9053065191582606e-08,
+      "logits/chosen": -1.5028626918792725,
+      "logits/rejected": -1.3959300518035889,
+      "logps/chosen": -174.7528076171875,
+      "logps/rejected": -221.61056518554688,
+      "loss": 0.3783,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.924181342124939,
+      "rewards/margins": 1.244417428970337,
+      "rewards/rejected": -2.1685988903045654,
+      "step": 1406
+    },
+    {
+      "epoch": 1.6241078509119746,
+      "grad_norm": 55.69642576738633,
+      "learning_rate": 1.8827608770533877e-08,
+      "logits/chosen": -1.301309585571289,
+      "logits/rejected": -1.219205617904663,
+      "logps/chosen": -178.25352478027344,
+      "logps/rejected": -169.32664489746094,
+      "loss": 0.4345,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.880225419998169,
+      "rewards/margins": 0.7701900005340576,
+      "rewards/rejected": -1.6504155397415161,
+      "step": 1408
+    },
+    {
+      "epoch": 1.6264148222911108,
+      "grad_norm": 50.05529030380214,
+      "learning_rate": 1.8603355520140895e-08,
+      "logits/chosen": -1.368369221687317,
+      "logits/rejected": -1.25881826877594,
+      "logps/chosen": -166.48806762695312,
+      "logps/rejected": -160.21493530273438,
+      "loss": 0.4011,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.0832921266555786,
+      "rewards/margins": 1.3331881761550903,
+      "rewards/rejected": -2.416480302810669,
+      "step": 1410
+    },
+    {
+      "epoch": 1.6287217936702474,
+      "grad_norm": 35.31423347756389,
+      "learning_rate": 1.838030876437784e-08,
+      "logits/chosen": -1.4292563199996948,
+      "logits/rejected": -1.424263596534729,
+      "logps/chosen": -182.7539825439453,
+      "logps/rejected": -216.91290283203125,
+      "loss": 0.3719,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.6027979254722595,
+      "rewards/margins": 1.2666302919387817,
+      "rewards/rejected": -1.8694281578063965,
+      "step": 1412
+    },
+    {
+      "epoch": 1.6310287650493835,
+      "grad_norm": 59.70248933056549,
+      "learning_rate": 1.815847180933565e-08,
+      "logits/chosen": -1.3337175846099854,
+      "logits/rejected": -1.327998161315918,
+      "logps/chosen": -158.14678955078125,
+      "logps/rejected": -170.66796875,
+      "loss": 0.4364,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.9497777819633484,
+      "rewards/margins": 1.0439199209213257,
+      "rewards/rejected": -1.9936977624893188,
+      "step": 1414
+    },
+    {
+      "epoch": 1.63333573642852,
+      "grad_norm": 57.90179651786705,
+      "learning_rate": 1.793784794317319e-08,
+      "logits/chosen": -1.3915679454803467,
+      "logits/rejected": -1.3838558197021484,
+      "logps/chosen": -183.7068634033203,
+      "logps/rejected": -220.16253662109375,
+      "loss": 0.4023,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.9595727920532227,
+      "rewards/margins": 1.3129405975341797,
+      "rewards/rejected": -2.2725133895874023,
+      "step": 1416
+    },
+    {
+      "epoch": 1.6356427078076563,
+      "grad_norm": 51.167487196457614,
+      "learning_rate": 1.7718440436068382e-08,
+      "logits/chosen": -1.3140525817871094,
+      "logits/rejected": -1.340272068977356,
+      "logps/chosen": -176.0500030517578,
+      "logps/rejected": -204.65216064453125,
+      "loss": 0.474,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8645345568656921,
+      "rewards/margins": 1.0821396112442017,
+      "rewards/rejected": -1.9466743469238281,
+      "step": 1418
+    },
+    {
+      "epoch": 1.6379496791867925,
+      "grad_norm": 56.94252600307747,
+      "learning_rate": 1.750025254016978e-08,
+      "logits/chosen": -1.2692408561706543,
+      "logits/rejected": -1.3052905797958374,
+      "logps/chosen": -175.3609161376953,
+      "logps/rejected": -211.70640563964844,
+      "loss": 0.3708,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.8849305510520935,
+      "rewards/margins": 1.1714421510696411,
+      "rewards/rejected": -2.05637264251709,
+      "step": 1420
+    },
+    {
+      "epoch": 1.640256650565929,
+      "grad_norm": 44.444243917868796,
+      "learning_rate": 1.7283287489548316e-08,
+      "logits/chosen": -1.4492988586425781,
+      "logits/rejected": -1.4249682426452637,
+      "logps/chosen": -196.2264404296875,
+      "logps/rejected": -216.29348754882812,
+      "loss": 0.3663,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.5758548974990845,
+      "rewards/margins": 1.248561143875122,
+      "rewards/rejected": -1.824416160583496,
+      "step": 1422
+    },
+    {
+      "epoch": 1.6425636219450652,
+      "grad_norm": 52.679148376432316,
+      "learning_rate": 1.7067548500149453e-08,
+      "logits/chosen": -1.359799861907959,
+      "logits/rejected": -1.344727635383606,
+      "logps/chosen": -164.31396484375,
+      "logps/rejected": -226.0536651611328,
+      "loss": 0.378,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.9102058410644531,
+      "rewards/margins": 1.4322762489318848,
+      "rewards/rejected": -2.342482328414917,
+      "step": 1424
+    },
+    {
+      "epoch": 1.6448705933242016,
+      "grad_norm": 49.61927724673604,
+      "learning_rate": 1.6853038769745463e-08,
+      "logits/chosen": -1.2480251789093018,
+      "logits/rejected": -1.3352330923080444,
+      "logps/chosen": -154.8423614501953,
+      "logps/rejected": -193.94419860839844,
+      "loss": 0.4382,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.9381543397903442,
+      "rewards/margins": 1.1628456115722656,
+      "rewards/rejected": -2.1010000705718994,
+      "step": 1426
+    },
+    {
+      "epoch": 1.647177564703338,
+      "grad_norm": 49.640113889302896,
+      "learning_rate": 1.663976147788806e-08,
+      "logits/chosen": -1.3284053802490234,
+      "logits/rejected": -1.3385878801345825,
+      "logps/chosen": -165.2407989501953,
+      "logps/rejected": -197.4837188720703,
+      "loss": 0.3626,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.84311842918396,
+      "rewards/margins": 1.2521381378173828,
+      "rewards/rejected": -2.0952565670013428,
+      "step": 1428
+    },
+    {
+      "epoch": 1.6494845360824741,
+      "grad_norm": 43.114553829090994,
+      "learning_rate": 1.642771978586116e-08,
+      "logits/chosen": -1.2242742776870728,
+      "logits/rejected": -1.2630822658538818,
+      "logps/chosen": -154.83834838867188,
+      "logps/rejected": -206.02879333496094,
+      "loss": 0.427,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.9801341891288757,
+      "rewards/margins": 1.2844398021697998,
+      "rewards/rejected": -2.264573812484741,
+      "step": 1430
+    },
+    {
+      "epoch": 1.6517915074616105,
+      "grad_norm": 51.33726232803117,
+      "learning_rate": 1.6216916836634177e-08,
+      "logits/chosen": -1.284468650817871,
+      "logits/rejected": -1.2946577072143555,
+      "logps/chosen": -209.00216674804688,
+      "logps/rejected": -308.66400146484375,
+      "loss": 0.36,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -1.1411385536193848,
+      "rewards/margins": 1.973024606704712,
+      "rewards/rejected": -3.114163637161255,
+      "step": 1432
+    },
+    {
+      "epoch": 1.654098478840747,
+      "grad_norm": 48.222540985367566,
+      "learning_rate": 1.6007355754815378e-08,
+      "logits/chosen": -1.3908207416534424,
+      "logits/rejected": -1.3934330940246582,
+      "logps/chosen": -152.45028686523438,
+      "logps/rejected": -180.3572235107422,
+      "loss": 0.3947,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.8398849368095398,
+      "rewards/margins": 0.8340297341346741,
+      "rewards/rejected": -1.6739145517349243,
+      "step": 1434
+    },
+    {
+      "epoch": 1.656405450219883,
+      "grad_norm": 46.78220848929133,
+      "learning_rate": 1.5799039646605484e-08,
+      "logits/chosen": -1.4227409362792969,
+      "logits/rejected": -1.341314673423767,
+      "logps/chosen": -119.38903045654297,
+      "logps/rejected": -148.2276153564453,
+      "loss": 0.4058,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.9205418825149536,
+      "rewards/margins": 1.0745038986206055,
+      "rewards/rejected": -1.995045781135559,
+      "step": 1436
+    },
+    {
+      "epoch": 1.6587124215990197,
+      "grad_norm": 42.27815969127513,
+      "learning_rate": 1.5591971599751795e-08,
+      "logits/chosen": -1.243879795074463,
+      "logits/rejected": -1.291917324066162,
+      "logps/chosen": -138.65306091308594,
+      "logps/rejected": -196.24070739746094,
+      "loss": 0.4255,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.8021218776702881,
+      "rewards/margins": 1.5537731647491455,
+      "rewards/rejected": -2.3558952808380127,
+      "step": 1438
+    },
+    {
+      "epoch": 1.6610193929781558,
+      "grad_norm": 48.207824810254635,
+      "learning_rate": 1.5386154683502274e-08,
+      "logits/chosen": -1.4134782552719116,
+      "logits/rejected": -1.3608386516571045,
+      "logps/chosen": -188.5570068359375,
+      "logps/rejected": -204.60919189453125,
+      "loss": 0.4035,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.1449999809265137,
+      "rewards/margins": 1.1091419458389282,
+      "rewards/rejected": -2.2541420459747314,
+      "step": 1440
+    },
+    {
+      "epoch": 1.6633263643572922,
+      "grad_norm": 57.39443136319576,
+      "learning_rate": 1.5181591948560158e-08,
+      "logits/chosen": -1.3800638914108276,
+      "logits/rejected": -1.3380552530288696,
+      "logps/chosen": -193.9412841796875,
+      "logps/rejected": -215.79400634765625,
+      "loss": 0.3816,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.9195079803466797,
+      "rewards/margins": 1.2903274297714233,
+      "rewards/rejected": -2.2098352909088135,
+      "step": 1442
+    },
+    {
+      "epoch": 1.6656333357364286,
+      "grad_norm": 43.25151944767239,
+      "learning_rate": 1.49782864270386e-08,
+      "logits/chosen": -1.4888612031936646,
+      "logits/rejected": -1.4488850831985474,
+      "logps/chosen": -151.032470703125,
+      "logps/rejected": -182.21556091308594,
+      "loss": 0.3453,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.026658535003662,
+      "rewards/margins": 1.0582255125045776,
+      "rewards/rejected": -2.0848841667175293,
+      "step": 1444
+    },
+    {
+      "epoch": 1.6679403071155647,
+      "grad_norm": 38.80329184083557,
+      "learning_rate": 1.4776241132415911e-08,
+      "logits/chosen": -1.3972203731536865,
+      "logits/rejected": -1.3395717144012451,
+      "logps/chosen": -219.14697265625,
+      "logps/rejected": -254.46820068359375,
+      "loss": 0.3645,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.0151716470718384,
+      "rewards/margins": 1.6079694032669067,
+      "rewards/rejected": -2.623141050338745,
+      "step": 1446
+    },
+    {
+      "epoch": 1.6702472784947013,
+      "grad_norm": 54.87680843012438,
+      "learning_rate": 1.4575459059490769e-08,
+      "logits/chosen": -1.3980488777160645,
+      "logits/rejected": -1.5601296424865723,
+      "logps/chosen": -173.1259765625,
+      "logps/rejected": -261.9532470703125,
+      "loss": 0.4345,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.8360046744346619,
+      "rewards/margins": 1.6964924335479736,
+      "rewards/rejected": -2.5324971675872803,
+      "step": 1448
+    },
+    {
+      "epoch": 1.6725542498738375,
+      "grad_norm": 56.403772234535865,
+      "learning_rate": 1.4375943184337869e-08,
+      "logits/chosen": -1.2514413595199585,
+      "logits/rejected": -1.2857670783996582,
+      "logps/chosen": -148.14613342285156,
+      "logps/rejected": -192.71554565429688,
+      "loss": 0.3637,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.924572229385376,
+      "rewards/margins": 1.3504137992858887,
+      "rewards/rejected": -2.2749857902526855,
+      "step": 1450
+    },
+    {
+      "epoch": 1.6748612212529739,
+      "grad_norm": 41.663170151108154,
+      "learning_rate": 1.4177696464263722e-08,
+      "logits/chosen": -1.554652452468872,
+      "logits/rejected": -1.556633710861206,
+      "logps/chosen": -173.3590545654297,
+      "logps/rejected": -214.38238525390625,
+      "loss": 0.437,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.890671968460083,
+      "rewards/margins": 1.1289126873016357,
+      "rewards/rejected": -2.0195844173431396,
+      "step": 1452
+    },
+    {
+      "epoch": 1.6771681926321103,
+      "grad_norm": 55.4468403681626,
+      "learning_rate": 1.3980721837763032e-08,
+      "logits/chosen": -1.522512674331665,
+      "logits/rejected": -1.4707545042037964,
+      "logps/chosen": -187.02899169921875,
+      "logps/rejected": -202.90972900390625,
+      "loss": 0.385,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -1.1045527458190918,
+      "rewards/margins": 1.0547027587890625,
+      "rewards/rejected": -2.159255266189575,
+      "step": 1454
+    },
+    {
+      "epoch": 1.6794751640112464,
+      "grad_norm": 45.11818002402701,
+      "learning_rate": 1.378502222447494e-08,
+      "logits/chosen": -1.2670139074325562,
+      "logits/rejected": -1.2748316526412964,
+      "logps/chosen": -163.23745727539062,
+      "logps/rejected": -186.1403350830078,
+      "loss": 0.3824,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.9486604928970337,
+      "rewards/margins": 1.1920839548110962,
+      "rewards/rejected": -2.14074444770813,
+      "step": 1456
+    },
+    {
+      "epoch": 1.6817821353903828,
+      "grad_norm": 45.36839329689688,
+      "learning_rate": 1.3590600525139762e-08,
+      "logits/chosen": -1.427920937538147,
+      "logits/rejected": -1.4643090963363647,
+      "logps/chosen": -152.86471557617188,
+      "logps/rejected": -143.46755981445312,
+      "loss": 0.4027,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.7307279109954834,
+      "rewards/margins": 1.0662072896957397,
+      "rewards/rejected": -1.7969350814819336,
+      "step": 1458
+    },
+    {
+      "epoch": 1.6840891067695192,
+      "grad_norm": 42.1130276807721,
+      "learning_rate": 1.3397459621556128e-08,
+      "logits/chosen": -1.4458112716674805,
+      "logits/rejected": -1.405861496925354,
+      "logps/chosen": -204.7304229736328,
+      "logps/rejected": -236.4501953125,
+      "loss": 0.37,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.182440996170044,
+      "rewards/margins": 1.2389183044433594,
+      "rewards/rejected": -2.421359062194824,
+      "step": 1460
+    },
+    {
+      "epoch": 1.6863960781486553,
+      "grad_norm": 47.391757305539294,
+      "learning_rate": 1.320560237653816e-08,
+      "logits/chosen": -1.3273866176605225,
+      "logits/rejected": -1.343310832977295,
+      "logps/chosen": -167.19651794433594,
+      "logps/rejected": -222.67767333984375,
+      "loss": 0.4054,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.9558027982711792,
+      "rewards/margins": 1.4386895895004272,
+      "rewards/rejected": -2.3944923877716064,
+      "step": 1462
+    },
+    {
+      "epoch": 1.688703049527792,
+      "grad_norm": 45.31930327974149,
+      "learning_rate": 1.3015031633873075e-08,
+      "logits/chosen": -1.3923242092132568,
+      "logits/rejected": -1.3101178407669067,
+      "logps/chosen": -155.1905517578125,
+      "logps/rejected": -161.7040557861328,
+      "loss": 0.4541,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.7979952096939087,
+      "rewards/margins": 0.887161135673523,
+      "rewards/rejected": -1.6851563453674316,
+      "step": 1464
+    },
+    {
+      "epoch": 1.691010020906928,
+      "grad_norm": 47.965640105650365,
+      "learning_rate": 1.2825750218278963e-08,
+      "logits/chosen": -1.376510500907898,
+      "logits/rejected": -1.351030945777893,
+      "logps/chosen": -184.95018005371094,
+      "logps/rejected": -222.78271484375,
+      "loss": 0.3602,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.0790867805480957,
+      "rewards/margins": 1.4311017990112305,
+      "rewards/rejected": -2.510188579559326,
+      "step": 1466
+    },
+    {
+      "epoch": 1.6933169922860645,
+      "grad_norm": 44.34985796124818,
+      "learning_rate": 1.2637760935363052e-08,
+      "logits/chosen": -1.5339727401733398,
+      "logits/rejected": -1.4939508438110352,
+      "logps/chosen": -172.8440399169922,
+      "logps/rejected": -214.15769958496094,
+      "loss": 0.4033,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.8286362290382385,
+      "rewards/margins": 1.027283787727356,
+      "rewards/rejected": -1.8559203147888184,
+      "step": 1468
+    },
+    {
+      "epoch": 1.6956239636652009,
+      "grad_norm": 42.43166448841978,
+      "learning_rate": 1.2451066571579993e-08,
+      "logits/chosen": -1.4077023267745972,
+      "logits/rejected": -1.3327652215957642,
+      "logps/chosen": -180.84344482421875,
+      "logps/rejected": -198.8247528076172,
+      "loss": 0.3264,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.9496182203292847,
+      "rewards/margins": 1.4146476984024048,
+      "rewards/rejected": -2.3642659187316895,
+      "step": 1470
+    },
+    {
+      "epoch": 1.697930935044337,
+      "grad_norm": 49.74620204940183,
+      "learning_rate": 1.2265669894190667e-08,
+      "logits/chosen": -1.3190773725509644,
+      "logits/rejected": -1.2969920635223389,
+      "logps/chosen": -210.91648864746094,
+      "logps/rejected": -215.4746551513672,
+      "loss": 0.4142,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.1324176788330078,
+      "rewards/margins": 1.0822185277938843,
+      "rewards/rejected": -2.2146360874176025,
+      "step": 1472
+    },
+    {
+      "epoch": 1.7002379064234734,
+      "grad_norm": 47.636203771282304,
+      "learning_rate": 1.2081573651221034e-08,
+      "logits/chosen": -1.4100513458251953,
+      "logits/rejected": -1.3401373624801636,
+      "logps/chosen": -198.85769653320312,
+      "logps/rejected": -232.75079345703125,
+      "loss": 0.4262,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.6716212630271912,
+      "rewards/margins": 1.5022387504577637,
+      "rewards/rejected": -2.1738598346710205,
+      "step": 1474
+    },
+    {
+      "epoch": 1.7025448778026098,
+      "grad_norm": 41.23379055239197,
+      "learning_rate": 1.1898780571421552e-08,
+      "logits/chosen": -1.3071932792663574,
+      "logits/rejected": -1.3262195587158203,
+      "logps/chosen": -245.61962890625,
+      "logps/rejected": -291.36395263671875,
+      "loss": 0.366,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.0852869749069214,
+      "rewards/margins": 2.006357431411743,
+      "rewards/rejected": -3.091644287109375,
+      "step": 1476
+    },
+    {
+      "epoch": 1.704851849181746,
+      "grad_norm": 38.8308365926166,
+      "learning_rate": 1.171729336422661e-08,
+      "logits/chosen": -1.3179391622543335,
+      "logits/rejected": -1.2845818996429443,
+      "logps/chosen": -148.53089904785156,
+      "logps/rejected": -196.87857055664062,
+      "loss": 0.3507,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.8545979261398315,
+      "rewards/margins": 1.5212167501449585,
+      "rewards/rejected": -2.375814437866211,
+      "step": 1478
+    },
+    {
+      "epoch": 1.7071588205608825,
+      "grad_norm": 46.3266972725699,
+      "learning_rate": 1.153711471971448e-08,
+      "logits/chosen": -1.3267916440963745,
+      "logits/rejected": -1.3675000667572021,
+      "logps/chosen": -223.65921020507812,
+      "logps/rejected": -267.6008605957031,
+      "loss": 0.332,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.1026298999786377,
+      "rewards/margins": 1.4217543601989746,
+      "rewards/rejected": -2.5243842601776123,
+      "step": 1480
+    },
+    {
+      "epoch": 1.7094657919400187,
+      "grad_norm": 42.30797369115846,
+      "learning_rate": 1.135824730856726e-08,
+      "logits/chosen": -1.4186185598373413,
+      "logits/rejected": -1.37624990940094,
+      "logps/chosen": -180.34097290039062,
+      "logps/rejected": -212.8303985595703,
+      "loss": 0.3619,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7309121489524841,
+      "rewards/margins": 1.391485333442688,
+      "rewards/rejected": -2.1223974227905273,
+      "step": 1482
+    },
+    {
+      "epoch": 1.711772763319155,
+      "grad_norm": 42.86481474468262,
+      "learning_rate": 1.1180693782031514e-08,
+      "logits/chosen": -1.4671962261199951,
+      "logits/rejected": -1.362795352935791,
+      "logps/chosen": -227.28549194335938,
+      "logps/rejected": -223.4291229248047,
+      "loss": 0.3623,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.074944257736206,
+      "rewards/margins": 1.3030946254730225,
+      "rewards/rejected": -2.3780391216278076,
+      "step": 1484
+    },
+    {
+      "epoch": 1.7140797346982914,
+      "grad_norm": 50.32433653433989,
+      "learning_rate": 1.1004456771878834e-08,
+      "logits/chosen": -1.2398756742477417,
+      "logits/rejected": -1.259413242340088,
+      "logps/chosen": -166.67294311523438,
+      "logps/rejected": -197.03199768066406,
+      "loss": 0.3835,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.0385042428970337,
+      "rewards/margins": 1.2296409606933594,
+      "rewards/rejected": -2.2681450843811035,
+      "step": 1486
+    },
+    {
+      "epoch": 1.7163867060774276,
+      "grad_norm": 44.51587268033867,
+      "learning_rate": 1.0829538890366863e-08,
+      "logits/chosen": -1.339663028717041,
+      "logits/rejected": -1.4015851020812988,
+      "logps/chosen": -171.54469299316406,
+      "logps/rejected": -203.06884765625,
+      "loss": 0.3534,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.7753598093986511,
+      "rewards/margins": 1.3360155820846558,
+      "rewards/rejected": -2.111375331878662,
+      "step": 1488
+    },
+    {
+      "epoch": 1.7186936774565642,
+      "grad_norm": 49.445893229920515,
+      "learning_rate": 1.065594273020055e-08,
+      "logits/chosen": -1.3083471059799194,
+      "logits/rejected": -1.340012550354004,
+      "logps/chosen": -202.39198303222656,
+      "logps/rejected": -247.21881103515625,
+      "loss": 0.3148,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -0.9150687456130981,
+      "rewards/margins": 1.5993800163269043,
+      "rewards/rejected": -2.514448881149292,
+      "step": 1490
+    },
+    {
+      "epoch": 1.7210006488357004,
+      "grad_norm": 55.13220155509763,
+      "learning_rate": 1.0483670864493776e-08,
+      "logits/chosen": -1.4246532917022705,
+      "logits/rejected": -1.3996690511703491,
+      "logps/chosen": -177.84730529785156,
+      "logps/rejected": -263.4200744628906,
+      "loss": 0.3937,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.3569920063018799,
+      "rewards/margins": 1.5898300409317017,
+      "rewards/rejected": -2.946821928024292,
+      "step": 1492
+    },
+    {
+      "epoch": 1.7233076202148367,
+      "grad_norm": 52.87877048383229,
+      "learning_rate": 1.0312725846731175e-08,
+      "logits/chosen": -1.535531997680664,
+      "logits/rejected": -1.5023539066314697,
+      "logps/chosen": -204.4673614501953,
+      "logps/rejected": -205.1877899169922,
+      "loss": 0.4313,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.8635197877883911,
+      "rewards/margins": 1.0750128030776978,
+      "rewards/rejected": -1.9385325908660889,
+      "step": 1494
+    },
+    {
+      "epoch": 1.7256145915939731,
+      "grad_norm": 58.012698038087876,
+      "learning_rate": 1.014311021073031e-08,
+      "logits/chosen": -1.3397972583770752,
+      "logits/rejected": -1.3506940603256226,
+      "logps/chosen": -167.1254425048828,
+      "logps/rejected": -176.68478393554688,
+      "loss": 0.4236,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.0245790481567383,
+      "rewards/margins": 0.8268385529518127,
+      "rewards/rejected": -1.8514174222946167,
+      "step": 1496
+    },
+    {
+      "epoch": 1.7279215629731093,
+      "grad_norm": 45.63432516497851,
+      "learning_rate": 9.974826470604047e-09,
+      "logits/chosen": -1.4238135814666748,
+      "logits/rejected": -1.4215826988220215,
+      "logps/chosen": -200.67486572265625,
+      "logps/rejected": -243.21206665039062,
+      "loss": 0.312,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.8548165559768677,
+      "rewards/margins": 1.6108603477478027,
+      "rewards/rejected": -2.465676784515381,
+      "step": 1498
+    },
+    {
+      "epoch": 1.7302285343522457,
+      "grad_norm": 45.67289683342217,
+      "learning_rate": 9.807877120723395e-09,
+      "logits/chosen": -1.3849635124206543,
+      "logits/rejected": -1.4313040971755981,
+      "logps/chosen": -172.61903381347656,
+      "logps/rejected": -212.602783203125,
+      "loss": 0.3868,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.7782556414604187,
+      "rewards/margins": 1.354672908782959,
+      "rewards/rejected": -2.1329286098480225,
+      "step": 1500
+    },
+    {
+      "epoch": 1.7302285343522457,
+      "eval_logits/chosen": -1.342780351638794,
+      "eval_logits/rejected": -1.2655624151229858,
+      "eval_logps/chosen": -198.90330505371094,
+      "eval_logps/rejected": -171.5903778076172,
+      "eval_loss": 0.5269267559051514,
+      "eval_rewards/accuracies": 0.7200000286102295,
+      "eval_rewards/chosen": -1.3721123933792114,
+      "eval_rewards/margins": 0.7353845834732056,
+      "eval_rewards/rejected": -2.107496976852417,
+      "eval_runtime": 23.0274,
+      "eval_samples_per_second": 4.343,
+      "eval_steps_per_second": 1.086,
+      "step": 1500
     }
   ],
   "logging_steps": 2,