RyanYr commited on Aug 24

Commit

07112cd

•

1 Parent(s): 12c0121

Training in progress, step 1500, checkpoint

Browse files

Files changed (19) hide show

last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1500/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1500/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1500/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +2300 -2

last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6722a97b0b4e8ac164766b954c4f4bd20c3f22259dcc99abdd2a54bed1e54ebc
+size 24090788996

last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ddc6b7a9bb4fcdb46cdb1830b37ea67dc4cc7e6c343ef4865cc27ca390beafb
+size 24090788996

last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:478d375f061004cbf281130b047929a505f779d3bf30ae5917214ec805ad6ac7
+size 24090788996

last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9fe32d49d4b0104f2453c1bd44d33e45a7f8786d8351e2cc57ab1ef97aceace
+size 24090788996

last-checkpoint/global_step1500/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8c9c9a7d2fcfa2e8fa40312006739b2c850b9a5ecfacd34f5a60173282093
+size 150693

last-checkpoint/global_step1500/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:259ffd7944316a19d3cd4a130f207a063579c77fad5d447554aeff12156085d6
+size 150693

last-checkpoint/global_step1500/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d29c1fe957781c3a62402feef79dfb38cf56b8fddb352092f6ffd32c6211e320
+size 150693

last-checkpoint/global_step1500/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:921a755d22277c2d84c9363b6dc0c6e459c1e6fbaddb89bc814ee9c5db4f54fb
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1200~~


1	+ global_step1500

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:490b89e78ff904b995825330f5ce8e5fa6c2b37c660e95d7b400021114917123
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec16c0b98fcebf6052a9aa927090800759b4fb6700367ad2c29354ecbf45f9f7
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb7ffd46563ff9ab39f6aced4141ad3f324d906dff502b8a1abf7cad146a8847
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd85acac0b1cf3d6b603028d0abef6bbae49730ebe45add6807617156b350d1c
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f84c6354be1f2b2ad0cf9f00c6b4a71c832f6082e1980570655c9db0034d55c4
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:2df1f85a263fda844c3a5170fff9df97853e8127b0a5eddf0ad7744a2325916c
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:455aff8b0320fce7909efe3e2352281f10e0960882e59d328a0e7a06bfe38c09
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e480518cebd078a58ebf6e0cea1f57aa4919ad9372aba8cc8a04682ef0e504f
 size 1168138808

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8044e4c53158c210a17648ba8f2dc2d25a25bbfc55f686015542618eb652a33e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4f003069486a57c6ac033f30cf4c4213eb6b7d659bab68a5a50fdb8da7c4118
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cd85d7fa425e7888c973f1c2985ac15ca21b5e6171fe140a401c2bc75ca46ff
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a016ef89b4392d083b2c15a7cf06a39bc61a759f648cf6dc03f1c32b89a526aa
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7915667371a58f1598639e0d1c20a0c59c783c14580cd040a6631eb4ea2311e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b56fe0893036dc052d18d90feba4328b90ea71561942150b07406ac3d7a700e
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35dd78929ad7f0fbf37fdb1284e8edf0424350f6e6ce1cd5a3ee78979af3d3cb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0c203d12c2c308dab785ed672c9ca27fb6a2f72acd1e1552d1516c7b0006013
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb6fabf84a4db93ed80ee4a419e3ff880be7088e879fe26d3b47309e87cf9f04
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ace6290c890a8d1e173a6da04a3c0a74aa055e1dc2c0b019def7feb7e061c29
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3683985460765449,
   "eval_steps": 100,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9199,6 +9199,2304 @@
       "eval_samples_per_second": 4.941,
       "eval_steps_per_second": 1.235,
       "step": 1200
     }
   ],
   "logging_steps": 2,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.710498182595681,
   "eval_steps": 100,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.941,
       "eval_steps_per_second": 1.235,
       "step": 1200
+    },
+    {
+      "epoch": 1.3706792103200058,
+      "grad_norm": 64.03519542961854,
+      "learning_rate": 4.98902460615475e-08,
+      "logits/chosen": -1.3389551639556885,
+      "logits/rejected": -1.3822637796401978,
+      "logps/chosen": -175.14820861816406,
+      "logps/rejected": -222.5068359375,
+      "loss": 0.4712,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.35669347643852234,
+      "rewards/margins": 1.1921041011810303,
+      "rewards/rejected": -1.548797607421875,
+      "step": 1202
+    },
+    {
+      "epoch": 1.3729598745634666,
+      "grad_norm": 51.71910925101713,
+      "learning_rate": 4.956146819977166e-08,
+      "logits/chosen": -1.253232717514038,
+      "logits/rejected": -1.2863636016845703,
+      "logps/chosen": -176.71702575683594,
+      "logps/rejected": -210.63230895996094,
+      "loss": 0.4178,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.32385319471359253,
+      "rewards/margins": 1.246777057647705,
+      "rewards/rejected": -1.570630431175232,
+      "step": 1204
+    },
+    {
+      "epoch": 1.3752405388069275,
+      "grad_norm": 56.79692940311852,
+      "learning_rate": 4.923341996611603e-08,
+      "logits/chosen": -1.1557482481002808,
+      "logits/rejected": -1.180600881576538,
+      "logps/chosen": -150.3299102783203,
+      "logps/rejected": -167.61911010742188,
+      "loss": 0.4255,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.3654107451438904,
+      "rewards/margins": 0.7367621064186096,
+      "rewards/rejected": -1.1021727323532104,
+      "step": 1206
+    },
+    {
+      "epoch": 1.3775212030503885,
+      "grad_norm": 57.06474376403373,
+      "learning_rate": 4.890610610602437e-08,
+      "logits/chosen": -1.297890067100525,
+      "logits/rejected": -1.347840666770935,
+      "logps/chosen": -209.23716735839844,
+      "logps/rejected": -259.1905517578125,
+      "loss": 0.3961,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.45185887813568115,
+      "rewards/margins": 1.451210856437683,
+      "rewards/rejected": -1.9030694961547852,
+      "step": 1208
+    },
+    {
+      "epoch": 1.3798018672938492,
+      "grad_norm": 60.29263036985363,
+      "learning_rate": 4.8579531354317225e-08,
+      "logits/chosen": -1.397212266921997,
+      "logits/rejected": -1.3925597667694092,
+      "logps/chosen": -183.3704833984375,
+      "logps/rejected": -195.10496520996094,
+      "loss": 0.4579,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.7833220362663269,
+      "rewards/margins": 0.7912861108779907,
+      "rewards/rejected": -1.574608325958252,
+      "step": 1210
+    },
+    {
+      "epoch": 1.3820825315373102,
+      "grad_norm": 52.32294118146283,
+      "learning_rate": 4.825370043512339e-08,
+      "logits/chosen": -1.3067998886108398,
+      "logits/rejected": -1.3849916458129883,
+      "logps/chosen": -162.16232299804688,
+      "logps/rejected": -195.49609375,
+      "loss": 0.4108,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.33422791957855225,
+      "rewards/margins": 1.0588434934616089,
+      "rewards/rejected": -1.3930714130401611,
+      "step": 1212
+    },
+    {
+      "epoch": 1.3843631957807712,
+      "grad_norm": 59.66742993964118,
+      "learning_rate": 4.792861806181171e-08,
+      "logits/chosen": -1.30001962184906,
+      "logits/rejected": -1.386979341506958,
+      "logps/chosen": -170.89529418945312,
+      "logps/rejected": -197.6066131591797,
+      "loss": 0.4525,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.2925351560115814,
+      "rewards/margins": 0.9441651105880737,
+      "rewards/rejected": -1.2367002964019775,
+      "step": 1214
+    },
+    {
+      "epoch": 1.3866438600242321,
+      "grad_norm": 65.32724813467337,
+      "learning_rate": 4.760428893692273e-08,
+      "logits/chosen": -1.2875810861587524,
+      "logits/rejected": -1.3601633310317993,
+      "logps/chosen": -160.88156127929688,
+      "logps/rejected": -190.6903076171875,
+      "loss": 0.4288,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.6599161624908447,
+      "rewards/margins": 0.7817404270172119,
+      "rewards/rejected": -1.4416565895080566,
+      "step": 1216
+    },
+    {
+      "epoch": 1.388924524267693,
+      "grad_norm": 52.68799788674585,
+      "learning_rate": 4.728071775210069e-08,
+      "logits/chosen": -1.3100471496582031,
+      "logits/rejected": -1.295668125152588,
+      "logps/chosen": -157.36289978027344,
+      "logps/rejected": -179.96127319335938,
+      "loss": 0.4265,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.36468327045440674,
+      "rewards/margins": 0.9460710883140564,
+      "rewards/rejected": -1.3107542991638184,
+      "step": 1218
+    },
+    {
+      "epoch": 1.3912051885111538,
+      "grad_norm": 59.812629327754166,
+      "learning_rate": 4.695790918802576e-08,
+      "logits/chosen": -1.4171504974365234,
+      "logits/rejected": -1.3959426879882812,
+      "logps/chosen": -226.54220581054688,
+      "logps/rejected": -242.77142333984375,
+      "loss": 0.4516,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.6130508184432983,
+      "rewards/margins": 1.1557624340057373,
+      "rewards/rejected": -1.768813133239746,
+      "step": 1220
+    },
+    {
+      "epoch": 1.3934858527546148,
+      "grad_norm": 66.91529385196273,
+      "learning_rate": 4.663586791434628e-08,
+      "logits/chosen": -1.1362406015396118,
+      "logits/rejected": -1.2372556924819946,
+      "logps/chosen": -182.88442993164062,
+      "logps/rejected": -217.1130828857422,
+      "loss": 0.4164,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5246292352676392,
+      "rewards/margins": 1.0273668766021729,
+      "rewards/rejected": -1.551996111869812,
+      "step": 1222
+    },
+    {
+      "epoch": 1.3957665169980757,
+      "grad_norm": 57.29717940934624,
+      "learning_rate": 4.631459858961122e-08,
+      "logits/chosen": -1.219807744026184,
+      "logits/rejected": -1.2460401058197021,
+      "logps/chosen": -153.93907165527344,
+      "logps/rejected": -200.4837188720703,
+      "loss": 0.4358,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.2589726746082306,
+      "rewards/margins": 1.4164376258850098,
+      "rewards/rejected": -1.675410509109497,
+      "step": 1224
+    },
+    {
+      "epoch": 1.3980471812415365,
+      "grad_norm": 61.08923102786796,
+      "learning_rate": 4.5994105861202715e-08,
+      "logits/chosen": -1.3403871059417725,
+      "logits/rejected": -1.3382725715637207,
+      "logps/chosen": -147.61839294433594,
+      "logps/rejected": -150.13453674316406,
+      "loss": 0.4522,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.403720498085022,
+      "rewards/margins": 0.7644599080085754,
+      "rewards/rejected": -1.1681804656982422,
+      "step": 1226
+    },
+    {
+      "epoch": 1.4003278454849974,
+      "grad_norm": 55.589268418781224,
+      "learning_rate": 4.5674394365268965e-08,
+      "logits/chosen": -1.1604863405227661,
+      "logits/rejected": -1.2054895162582397,
+      "logps/chosen": -169.14215087890625,
+      "logps/rejected": -203.62513732910156,
+      "loss": 0.4333,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.32466423511505127,
+      "rewards/margins": 1.318765640258789,
+      "rewards/rejected": -1.6434298753738403,
+      "step": 1228
+    },
+    {
+      "epoch": 1.4026085097284584,
+      "grad_norm": 50.39174380587635,
+      "learning_rate": 4.535546872665707e-08,
+      "logits/chosen": -1.2403908967971802,
+      "logits/rejected": -1.3284348249435425,
+      "logps/chosen": -154.95285034179688,
+      "logps/rejected": -183.48558044433594,
+      "loss": 0.5428,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2970479428768158,
+      "rewards/margins": 0.813206672668457,
+      "rewards/rejected": -1.1102546453475952,
+      "step": 1230
+    },
+    {
+      "epoch": 1.4048891739719194,
+      "grad_norm": 64.62636544867223,
+      "learning_rate": 4.5037333558846145e-08,
+      "logits/chosen": -1.1855900287628174,
+      "logits/rejected": -1.1975244283676147,
+      "logps/chosen": -102.4107437133789,
+      "logps/rejected": -124.4788589477539,
+      "loss": 0.4184,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.20104435086250305,
+      "rewards/margins": 0.7573148608207703,
+      "rewards/rejected": -0.9583592414855957,
+      "step": 1232
+    },
+    {
+      "epoch": 1.4071698382153803,
+      "grad_norm": 65.48395677041327,
+      "learning_rate": 4.471999346388069e-08,
+      "logits/chosen": -1.2656984329223633,
+      "logits/rejected": -1.2520796060562134,
+      "logps/chosen": -145.40838623046875,
+      "logps/rejected": -172.25161743164062,
+      "loss": 0.4563,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.48840075731277466,
+      "rewards/margins": 0.857879102230072,
+      "rewards/rejected": -1.3462798595428467,
+      "step": 1234
+    },
+    {
+      "epoch": 1.409450502458841,
+      "grad_norm": 53.15387042970869,
+      "learning_rate": 4.4403453032303765e-08,
+      "logits/chosen": -1.393466591835022,
+      "logits/rejected": -1.4557361602783203,
+      "logps/chosen": -160.5977020263672,
+      "logps/rejected": -189.77520751953125,
+      "loss": 0.4181,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.379285603761673,
+      "rewards/margins": 1.075732946395874,
+      "rewards/rejected": -1.4550185203552246,
+      "step": 1236
+    },
+    {
+      "epoch": 1.411731166702302,
+      "grad_norm": 63.15445502776712,
+      "learning_rate": 4.4087716843090895e-08,
+      "logits/chosen": -1.3475301265716553,
+      "logits/rejected": -1.3905658721923828,
+      "logps/chosen": -166.34042358398438,
+      "logps/rejected": -213.61553955078125,
+      "loss": 0.461,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3821715712547302,
+      "rewards/margins": 0.9115235805511475,
+      "rewards/rejected": -1.2936952114105225,
+      "step": 1238
+    },
+    {
+      "epoch": 1.414011830945763,
+      "grad_norm": 52.37085158764497,
+      "learning_rate": 4.3772789463583627e-08,
+      "logits/chosen": -1.3224272727966309,
+      "logits/rejected": -1.3503855466842651,
+      "logps/chosen": -172.18899536132812,
+      "logps/rejected": -193.6123504638672,
+      "loss": 0.4386,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.44380372762680054,
+      "rewards/margins": 0.857738733291626,
+      "rewards/rejected": -1.3015424013137817,
+      "step": 1240
+    },
+    {
+      "epoch": 1.4162924951892237,
+      "grad_norm": 64.55355325183278,
+      "learning_rate": 4.345867544942353e-08,
+      "logits/chosen": -1.2631657123565674,
+      "logits/rejected": -1.3294970989227295,
+      "logps/chosen": -181.64718627929688,
+      "logps/rejected": -230.25701904296875,
+      "loss": 0.4121,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.5138639211654663,
+      "rewards/margins": 0.8278074264526367,
+      "rewards/rejected": -1.341671347618103,
+      "step": 1242
+    },
+    {
+      "epoch": 1.4185731594326847,
+      "grad_norm": 65.60045840124785,
+      "learning_rate": 4.314537934448628e-08,
+      "logits/chosen": -1.2260847091674805,
+      "logits/rejected": -1.2379428148269653,
+      "logps/chosen": -175.8683624267578,
+      "logps/rejected": -202.67051696777344,
+      "loss": 0.4525,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.4962596893310547,
+      "rewards/margins": 1.1486889123916626,
+      "rewards/rejected": -1.6449487209320068,
+      "step": 1244
+    },
+    {
+      "epoch": 1.4208538236761457,
+      "grad_norm": 77.13313632492196,
+      "learning_rate": 4.283290568081591e-08,
+      "logits/chosen": -1.1557011604309082,
+      "logits/rejected": -1.2198400497436523,
+      "logps/chosen": -171.91201782226562,
+      "logps/rejected": -200.71144104003906,
+      "loss": 0.4431,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.4828857481479645,
+      "rewards/margins": 0.8654166460037231,
+      "rewards/rejected": -1.3483023643493652,
+      "step": 1246
+    },
+    {
+      "epoch": 1.4231344879196066,
+      "grad_norm": 55.00661044224625,
+      "learning_rate": 4.2521258978559314e-08,
+      "logits/chosen": -1.258105993270874,
+      "logits/rejected": -1.282645583152771,
+      "logps/chosen": -180.73272705078125,
+      "logps/rejected": -241.80764770507812,
+      "loss": 0.4077,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5227749347686768,
+      "rewards/margins": 1.5435858964920044,
+      "rewards/rejected": -2.0663607120513916,
+      "step": 1248
+    },
+    {
+      "epoch": 1.4254151521630676,
+      "grad_norm": 53.935655347865456,
+      "learning_rate": 4.2210443745900804e-08,
+      "logits/chosen": -1.1817071437835693,
+      "logits/rejected": -1.247178077697754,
+      "logps/chosen": -151.1819610595703,
+      "logps/rejected": -170.9989776611328,
+      "loss": 0.4273,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.3710220456123352,
+      "rewards/margins": 0.9180817604064941,
+      "rewards/rejected": -1.2891038656234741,
+      "step": 1250
+    },
+    {
+      "epoch": 1.4276958164065285,
+      "grad_norm": 57.828569007499375,
+      "learning_rate": 4.190046447899689e-08,
+      "logits/chosen": -1.2078405618667603,
+      "logits/rejected": -1.2860413789749146,
+      "logps/chosen": -141.80389404296875,
+      "logps/rejected": -168.6719512939453,
+      "loss": 0.4219,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.4949069023132324,
+      "rewards/margins": 0.8605579137802124,
+      "rewards/rejected": -1.3554648160934448,
+      "step": 1252
+    },
+    {
+      "epoch": 1.4299764806499893,
+      "grad_norm": 49.820693081313166,
+      "learning_rate": 4.159132566191129e-08,
+      "logits/chosen": -1.3393913507461548,
+      "logits/rejected": -1.393333911895752,
+      "logps/chosen": -139.9639434814453,
+      "logps/rejected": -185.2383575439453,
+      "loss": 0.401,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.3605578541755676,
+      "rewards/margins": 1.1692156791687012,
+      "rewards/rejected": -1.5297735929489136,
+      "step": 1254
+    },
+    {
+      "epoch": 1.4322571448934502,
+      "grad_norm": 56.66007237622535,
+      "learning_rate": 4.1283031766550014e-08,
+      "logits/chosen": -1.159570336341858,
+      "logits/rejected": -1.2179524898529053,
+      "logps/chosen": -167.4163818359375,
+      "logps/rejected": -245.31614685058594,
+      "loss": 0.4344,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.5021023750305176,
+      "rewards/margins": 1.504926085472107,
+      "rewards/rejected": -2.007028341293335,
+      "step": 1256
+    },
+    {
+      "epoch": 1.4345378091369112,
+      "grad_norm": 70.62489205877687,
+      "learning_rate": 4.097558725259672e-08,
+      "logits/chosen": -1.33053457736969,
+      "logits/rejected": -1.388944149017334,
+      "logps/chosen": -178.24188232421875,
+      "logps/rejected": -234.7947998046875,
+      "loss": 0.3998,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.40949881076812744,
+      "rewards/margins": 1.050101399421692,
+      "rewards/rejected": -1.4596002101898193,
+      "step": 1258
+    },
+    {
+      "epoch": 1.436818473380372,
+      "grad_norm": 66.98990507182315,
+      "learning_rate": 4.0668996567448154e-08,
+      "logits/chosen": -1.414581060409546,
+      "logits/rejected": -1.4014796018600464,
+      "logps/chosen": -169.44393920898438,
+      "logps/rejected": -187.62033081054688,
+      "loss": 0.4344,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.3710756003856659,
+      "rewards/margins": 0.5481195449829102,
+      "rewards/rejected": -0.9191950559616089,
+      "step": 1260
+    },
+    {
+      "epoch": 1.439099137623833,
+      "grad_norm": 57.85916556533107,
+      "learning_rate": 4.0363264146149844e-08,
+      "logits/chosen": -1.191425085067749,
+      "logits/rejected": -1.2502682209014893,
+      "logps/chosen": -190.24957275390625,
+      "logps/rejected": -221.98013305664062,
+      "loss": 0.4816,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5489203333854675,
+      "rewards/margins": 1.0626386404037476,
+      "rewards/rejected": -1.6115591526031494,
+      "step": 1262
+    },
+    {
+      "epoch": 1.4413798018672939,
+      "grad_norm": 54.90589553967945,
+      "learning_rate": 4.005839441133198e-08,
+      "logits/chosen": -1.243033766746521,
+      "logits/rejected": -1.3693134784698486,
+      "logps/chosen": -153.51661682128906,
+      "logps/rejected": -217.17115783691406,
+      "loss": 0.4357,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.41171663999557495,
+      "rewards/margins": 1.114880084991455,
+      "rewards/rejected": -1.5265967845916748,
+      "step": 1264
+    },
+    {
+      "epoch": 1.4436604661107548,
+      "grad_norm": 62.949403049310924,
+      "learning_rate": 3.9754391773145326e-08,
+      "logits/chosen": -1.3396437168121338,
+      "logits/rejected": -1.3314851522445679,
+      "logps/chosen": -195.9013671875,
+      "logps/rejected": -226.99224853515625,
+      "loss": 0.4549,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.6362702250480652,
+      "rewards/margins": 0.9720792174339294,
+      "rewards/rejected": -1.6083494424819946,
+      "step": 1266
+    },
+    {
+      "epoch": 1.4459411303542158,
+      "grad_norm": 109.10943345175065,
+      "learning_rate": 3.945126062919756e-08,
+      "logits/chosen": -1.4142718315124512,
+      "logits/rejected": -1.3863128423690796,
+      "logps/chosen": -232.01536560058594,
+      "logps/rejected": -258.9195861816406,
+      "loss": 0.4683,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5452659130096436,
+      "rewards/margins": 1.1544592380523682,
+      "rewards/rejected": -1.6997252702713013,
+      "step": 1268
+    },
+    {
+      "epoch": 1.4482217945976765,
+      "grad_norm": 66.47161188134956,
+      "learning_rate": 3.914900536448959e-08,
+      "logits/chosen": -1.277639389038086,
+      "logits/rejected": -1.2443594932556152,
+      "logps/chosen": -167.44473266601562,
+      "logps/rejected": -201.05442810058594,
+      "loss": 0.468,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.40504151582717896,
+      "rewards/margins": 1.4868779182434082,
+      "rewards/rejected": -1.8919193744659424,
+      "step": 1270
+    },
+    {
+      "epoch": 1.4505024588411375,
+      "grad_norm": 65.21617644771925,
+      "learning_rate": 3.8847630351352045e-08,
+      "logits/chosen": -1.2669049501419067,
+      "logits/rejected": -1.2787154912948608,
+      "logps/chosen": -244.93118286132812,
+      "logps/rejected": -307.34344482421875,
+      "loss": 0.4429,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.9488785862922668,
+      "rewards/margins": 1.5935635566711426,
+      "rewards/rejected": -2.5424418449401855,
+      "step": 1272
+    },
+    {
+      "epoch": 1.4527831230845984,
+      "grad_norm": 67.80268214039134,
+      "learning_rate": 3.854713994938221e-08,
+      "logits/chosen": -1.3307723999023438,
+      "logits/rejected": -1.400517463684082,
+      "logps/chosen": -156.8104248046875,
+      "logps/rejected": -182.17807006835938,
+      "loss": 0.4631,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.2960550785064697,
+      "rewards/margins": 0.9029641151428223,
+      "rewards/rejected": -1.1990193128585815,
+      "step": 1274
+    },
+    {
+      "epoch": 1.4550637873280592,
+      "grad_norm": 66.08251651441701,
+      "learning_rate": 3.8247538505380816e-08,
+      "logits/chosen": -1.3477903604507446,
+      "logits/rejected": -1.4483450651168823,
+      "logps/chosen": -194.99876403808594,
+      "logps/rejected": -235.32986450195312,
+      "loss": 0.4232,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.44531339406967163,
+      "rewards/margins": 0.8939595222473145,
+      "rewards/rejected": -1.3392727375030518,
+      "step": 1276
+    },
+    {
+      "epoch": 1.4573444515715201,
+      "grad_norm": 64.19995573754183,
+      "learning_rate": 3.794883035328921e-08,
+      "logits/chosen": -1.2755396366119385,
+      "logits/rejected": -1.3425655364990234,
+      "logps/chosen": -186.4855499267578,
+      "logps/rejected": -233.87648010253906,
+      "loss": 0.4074,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.3420637249946594,
+      "rewards/margins": 1.2022613286972046,
+      "rewards/rejected": -1.5443251132965088,
+      "step": 1278
+    },
+    {
+      "epoch": 1.4596251158149811,
+      "grad_norm": 51.505850800471386,
+      "learning_rate": 3.765101981412665e-08,
+      "logits/chosen": -1.0226508378982544,
+      "logits/rejected": -1.1150188446044922,
+      "logps/chosen": -165.54244995117188,
+      "logps/rejected": -209.08641052246094,
+      "loss": 0.4498,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.6313174962997437,
+      "rewards/margins": 0.6761065721511841,
+      "rewards/rejected": -1.3074240684509277,
+      "step": 1280
+    },
+    {
+      "epoch": 1.461905780058442,
+      "grad_norm": 65.45552204323278,
+      "learning_rate": 3.735411119592782e-08,
+      "logits/chosen": -1.1841048002243042,
+      "logits/rejected": -1.1225578784942627,
+      "logps/chosen": -210.95909118652344,
+      "logps/rejected": -228.45896911621094,
+      "loss": 0.4092,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.6781859397888184,
+      "rewards/margins": 1.1642651557922363,
+      "rewards/rejected": -1.8424510955810547,
+      "step": 1282
+    },
+    {
+      "epoch": 1.464186444301903,
+      "grad_norm": 54.509138851706474,
+      "learning_rate": 3.705810879368047e-08,
+      "logits/chosen": -1.260365605354309,
+      "logits/rejected": -1.2909530401229858,
+      "logps/chosen": -191.3780517578125,
+      "logps/rejected": -205.57510375976562,
+      "loss": 0.4331,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.3257947564125061,
+      "rewards/margins": 1.1021668910980225,
+      "rewards/rejected": -1.4279615879058838,
+      "step": 1284
+    },
+    {
+      "epoch": 1.4664671085453638,
+      "grad_norm": 62.120618048817526,
+      "learning_rate": 3.6763016889263345e-08,
+      "logits/chosen": -1.233807921409607,
+      "logits/rejected": -1.1972962617874146,
+      "logps/chosen": -130.00839233398438,
+      "logps/rejected": -157.5312957763672,
+      "loss": 0.4483,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.3486970067024231,
+      "rewards/margins": 0.8312156796455383,
+      "rewards/rejected": -1.1799125671386719,
+      "step": 1286
+    },
+    {
+      "epoch": 1.4687477727888247,
+      "grad_norm": 62.47302706565703,
+      "learning_rate": 3.6468839751384206e-08,
+      "logits/chosen": -1.2912284135818481,
+      "logits/rejected": -1.286245584487915,
+      "logps/chosen": -225.38636779785156,
+      "logps/rejected": -253.08624267578125,
+      "loss": 0.4193,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.7340028285980225,
+      "rewards/margins": 1.2588945627212524,
+      "rewards/rejected": -1.9928972721099854,
+      "step": 1288
+    },
+    {
+      "epoch": 1.4710284370322857,
+      "grad_norm": 56.815010583661,
+      "learning_rate": 3.6175581635518015e-08,
+      "logits/chosen": -1.3371250629425049,
+      "logits/rejected": -1.3072669506072998,
+      "logps/chosen": -188.99107360839844,
+      "logps/rejected": -214.9119873046875,
+      "loss": 0.4364,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.46143385767936707,
+      "rewards/margins": 1.1111385822296143,
+      "rewards/rejected": -1.5725722312927246,
+      "step": 1290
+    },
+    {
+      "epoch": 1.4733091012757464,
+      "grad_norm": 74.02679784754338,
+      "learning_rate": 3.5883246783845543e-08,
+      "logits/chosen": -1.2495771646499634,
+      "logits/rejected": -1.2960941791534424,
+      "logps/chosen": -157.36351013183594,
+      "logps/rejected": -196.3470916748047,
+      "loss": 0.4401,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.23140710592269897,
+      "rewards/margins": 1.0461037158966064,
+      "rewards/rejected": -1.2775108814239502,
+      "step": 1292
+    },
+    {
+      "epoch": 1.4755897655192074,
+      "grad_norm": 61.44266871054178,
+      "learning_rate": 3.559183942519188e-08,
+      "logits/chosen": -1.3195384740829468,
+      "logits/rejected": -1.3464099168777466,
+      "logps/chosen": -170.23886108398438,
+      "logps/rejected": -182.47579956054688,
+      "loss": 0.4044,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.5699801445007324,
+      "rewards/margins": 0.663261890411377,
+      "rewards/rejected": -1.233242154121399,
+      "step": 1294
+    },
+    {
+      "epoch": 1.4778704297626684,
+      "grad_norm": 65.18540943608312,
+      "learning_rate": 3.530136377496525e-08,
+      "logits/chosen": -1.278255581855774,
+      "logits/rejected": -1.2963995933532715,
+      "logps/chosen": -214.0897216796875,
+      "logps/rejected": -238.54718017578125,
+      "loss": 0.4458,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.5689273476600647,
+      "rewards/margins": 1.0575151443481445,
+      "rewards/rejected": -1.6264426708221436,
+      "step": 1296
+    },
+    {
+      "epoch": 1.4801510940061293,
+      "grad_norm": 56.51869240720061,
+      "learning_rate": 3.50118240350961e-08,
+      "logits/chosen": -1.2410857677459717,
+      "logits/rejected": -1.3088514804840088,
+      "logps/chosen": -158.88926696777344,
+      "logps/rejected": -195.86138916015625,
+      "loss": 0.449,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.5141651630401611,
+      "rewards/margins": 0.7266778945922852,
+      "rewards/rejected": -1.2408430576324463,
+      "step": 1298
+    },
+    {
+      "epoch": 1.4824317582495903,
+      "grad_norm": 69.4034723256464,
+      "learning_rate": 3.472322439397635e-08,
+      "logits/chosen": -1.3286279439926147,
+      "logits/rejected": -1.384574294090271,
+      "logps/chosen": -219.34544372558594,
+      "logps/rejected": -237.2283172607422,
+      "loss": 0.4893,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.6901402473449707,
+      "rewards/margins": 0.6859029531478882,
+      "rewards/rejected": -1.3760432004928589,
+      "step": 1300
+    },
+    {
+      "epoch": 1.4824317582495903,
+      "eval_logits/chosen": -1.3521403074264526,
+      "eval_logits/rejected": -1.3340317010879517,
+      "eval_logps/chosen": -131.97569274902344,
+      "eval_logps/rejected": -138.84446716308594,
+      "eval_loss": 0.5475608110427856,
+      "eval_rewards/accuracies": 0.7200000286102295,
+      "eval_rewards/chosen": -0.20777291059494019,
+      "eval_rewards/margins": 0.47040116786956787,
+      "eval_rewards/rejected": -0.6781739592552185,
+      "eval_runtime": 21.6329,
+      "eval_samples_per_second": 4.623,
+      "eval_steps_per_second": 1.156,
+      "step": 1300
+    },
+    {
+      "epoch": 1.484712422493051,
+      "grad_norm": 66.5561433557891,
+      "learning_rate": 3.4435569026398645e-08,
+      "logits/chosen": -1.1897640228271484,
+      "logits/rejected": -1.3370938301086426,
+      "logps/chosen": -141.83460998535156,
+      "logps/rejected": -182.74176025390625,
+      "loss": 0.4463,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.18475398421287537,
+      "rewards/margins": 0.82102370262146,
+      "rewards/rejected": -1.0057775974273682,
+      "step": 1302
+    },
+    {
+      "epoch": 1.486993086736512,
+      "grad_norm": 48.88961410554484,
+      "learning_rate": 3.4148862093496145e-08,
+      "logits/chosen": -1.2648987770080566,
+      "logits/rejected": -1.274294376373291,
+      "logps/chosen": -161.31605529785156,
+      "logps/rejected": -165.04278564453125,
+      "loss": 0.3889,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.4667995870113373,
+      "rewards/margins": 0.7909737229347229,
+      "rewards/rejected": -1.2577731609344482,
+      "step": 1304
+    },
+    {
+      "epoch": 1.489273750979973,
+      "grad_norm": 67.73951681369277,
+      "learning_rate": 3.386310774268214e-08,
+      "logits/chosen": -1.2678455114364624,
+      "logits/rejected": -1.320731520652771,
+      "logps/chosen": -204.93576049804688,
+      "logps/rejected": -220.75344848632812,
+      "loss": 0.433,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5178290605545044,
+      "rewards/margins": 0.9241759777069092,
+      "rewards/rejected": -1.4420050382614136,
+      "step": 1306
+    },
+    {
+      "epoch": 1.491554415223434,
+      "grad_norm": 53.60885013196278,
+      "learning_rate": 3.3578310107590255e-08,
+      "logits/chosen": -1.2518330812454224,
+      "logits/rejected": -1.3134666681289673,
+      "logps/chosen": -128.73098754882812,
+      "logps/rejected": -141.5028839111328,
+      "loss": 0.4175,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.4798870086669922,
+      "rewards/margins": 0.7654281854629517,
+      "rewards/rejected": -1.2453151941299438,
+      "step": 1308
+    },
+    {
+      "epoch": 1.4938350794668946,
+      "grad_norm": 64.42291386610013,
+      "learning_rate": 3.329447330801455e-08,
+      "logits/chosen": -1.2452740669250488,
+      "logits/rejected": -1.2846417427062988,
+      "logps/chosen": -127.42951202392578,
+      "logps/rejected": -177.83033752441406,
+      "loss": 0.4905,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.4574730694293976,
+      "rewards/margins": 1.024438500404358,
+      "rewards/rejected": -1.481911540031433,
+      "step": 1310
+    },
+    {
+      "epoch": 1.4961157437103556,
+      "grad_norm": 60.99913378119905,
+      "learning_rate": 3.3011601449849914e-08,
+      "logits/chosen": -1.2262144088745117,
+      "logits/rejected": -1.200211763381958,
+      "logps/chosen": -175.07473754882812,
+      "logps/rejected": -194.3573455810547,
+      "loss": 0.419,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5272756814956665,
+      "rewards/margins": 1.1627264022827148,
+      "rewards/rejected": -1.6900020837783813,
+      "step": 1312
+    },
+    {
+      "epoch": 1.4983964079538166,
+      "grad_norm": 61.30357952779087,
+      "learning_rate": 3.272969862503271e-08,
+      "logits/chosen": -1.258878231048584,
+      "logits/rejected": -1.3279513120651245,
+      "logps/chosen": -169.57151794433594,
+      "logps/rejected": -205.15086364746094,
+      "loss": 0.4254,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.45883575081825256,
+      "rewards/margins": 1.1377463340759277,
+      "rewards/rejected": -1.5965821743011475,
+      "step": 1314
+    },
+    {
+      "epoch": 1.5006770721972775,
+      "grad_norm": 60.7970290747735,
+      "learning_rate": 3.2448768911481574e-08,
+      "logits/chosen": -1.3344089984893799,
+      "logits/rejected": -1.3924615383148193,
+      "logps/chosen": -242.09625244140625,
+      "logps/rejected": -284.8103942871094,
+      "loss": 0.3898,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.42801302671432495,
+      "rewards/margins": 1.6990736722946167,
+      "rewards/rejected": -2.127086639404297,
+      "step": 1316
+    },
+    {
+      "epoch": 1.5029577364407385,
+      "grad_norm": 58.23756711117375,
+      "learning_rate": 3.216881637303839e-08,
+      "logits/chosen": -1.2963494062423706,
+      "logits/rejected": -1.2964308261871338,
+      "logps/chosen": -194.5859375,
+      "logps/rejected": -207.51177978515625,
+      "loss": 0.4461,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.37401753664016724,
+      "rewards/margins": 0.9556913375854492,
+      "rewards/rejected": -1.3297089338302612,
+      "step": 1318
+    },
+    {
+      "epoch": 1.5052384006841992,
+      "grad_norm": 52.85976726825495,
+      "learning_rate": 3.188984505940955e-08,
+      "logits/chosen": -1.310511589050293,
+      "logits/rejected": -1.3698493242263794,
+      "logps/chosen": -155.9166717529297,
+      "logps/rejected": -185.9949951171875,
+      "loss": 0.4608,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.28941965103149414,
+      "rewards/margins": 0.9209386110305786,
+      "rewards/rejected": -1.2103582620620728,
+      "step": 1320
+    },
+    {
+      "epoch": 1.5075190649276602,
+      "grad_norm": 65.51821056925988,
+      "learning_rate": 3.161185900610737e-08,
+      "logits/chosen": -1.2264206409454346,
+      "logits/rejected": -1.2563592195510864,
+      "logps/chosen": -169.9464111328125,
+      "logps/rejected": -215.42799377441406,
+      "loss": 0.4746,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.45204079151153564,
+      "rewards/margins": 0.9063868522644043,
+      "rewards/rejected": -1.35842764377594,
+      "step": 1322
+    },
+    {
+      "epoch": 1.509799729171121,
+      "grad_norm": 65.41148602924677,
+      "learning_rate": 3.1334862234391624e-08,
+      "logits/chosen": -1.1124111413955688,
+      "logits/rejected": -1.2182986736297607,
+      "logps/chosen": -168.18359375,
+      "logps/rejected": -212.33782958984375,
+      "loss": 0.3879,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.4647515118122101,
+      "rewards/margins": 1.2126293182373047,
+      "rewards/rejected": -1.677380919456482,
+      "step": 1324
+    },
+    {
+      "epoch": 1.512080393414582,
+      "grad_norm": 56.95611387521237,
+      "learning_rate": 3.105885875121151e-08,
+      "logits/chosen": -1.2453256845474243,
+      "logits/rejected": -1.3663585186004639,
+      "logps/chosen": -183.23095703125,
+      "logps/rejected": -234.28765869140625,
+      "loss": 0.4144,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.22449856996536255,
+      "rewards/margins": 1.4339529275894165,
+      "rewards/rejected": -1.6584514379501343,
+      "step": 1326
+    },
+    {
+      "epoch": 1.5143610576580429,
+      "grad_norm": 75.28120333419699,
+      "learning_rate": 3.078385254914764e-08,
+      "logits/chosen": -1.246031403541565,
+      "logits/rejected": -1.3311541080474854,
+      "logps/chosen": -181.19082641601562,
+      "logps/rejected": -224.01809692382812,
+      "loss": 0.4438,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.5463556051254272,
+      "rewards/margins": 1.012133240699768,
+      "rewards/rejected": -1.5584888458251953,
+      "step": 1328
+    },
+    {
+      "epoch": 1.5166417219015038,
+      "grad_norm": 59.21659370389,
+      "learning_rate": 3.0509847606354214e-08,
+      "logits/chosen": -1.1559014320373535,
+      "logits/rejected": -1.175613522529602,
+      "logps/chosen": -175.91024780273438,
+      "logps/rejected": -201.29910278320312,
+      "loss": 0.4106,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.5821335315704346,
+      "rewards/margins": 1.0530939102172852,
+      "rewards/rejected": -1.6352273225784302,
+      "step": 1330
+    },
+    {
+      "epoch": 1.5189223861449648,
+      "grad_norm": 65.02090257303733,
+      "learning_rate": 3.0236847886501535e-08,
+      "logits/chosen": -1.3365192413330078,
+      "logits/rejected": -1.3719249963760376,
+      "logps/chosen": -195.5978546142578,
+      "logps/rejected": -219.9347686767578,
+      "loss": 0.3962,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.3096795678138733,
+      "rewards/margins": 1.1052062511444092,
+      "rewards/rejected": -1.4148855209350586,
+      "step": 1332
+    },
+    {
+      "epoch": 1.5212030503884257,
+      "grad_norm": 59.28308867818603,
+      "learning_rate": 2.9964857338718716e-08,
+      "logits/chosen": -1.357577919960022,
+      "logits/rejected": -1.2968313694000244,
+      "logps/chosen": -199.23211669921875,
+      "logps/rejected": -185.07896423339844,
+      "loss": 0.4879,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.36101239919662476,
+      "rewards/margins": 0.6830317974090576,
+      "rewards/rejected": -1.0440441370010376,
+      "step": 1334
+    },
+    {
+      "epoch": 1.5234837146318867,
+      "grad_norm": 55.43183849143864,
+      "learning_rate": 2.9693879897536432e-08,
+      "logits/chosen": -1.1980834007263184,
+      "logits/rejected": -1.229064702987671,
+      "logps/chosen": -199.63746643066406,
+      "logps/rejected": -221.99234008789062,
+      "loss": 0.4335,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5939749479293823,
+      "rewards/margins": 1.0861446857452393,
+      "rewards/rejected": -1.6801198720932007,
+      "step": 1336
+    },
+    {
+      "epoch": 1.5257643788753474,
+      "grad_norm": 46.58400293343511,
+      "learning_rate": 2.9423919482830118e-08,
+      "logits/chosen": -1.1741948127746582,
+      "logits/rejected": -1.2695064544677734,
+      "logps/chosen": -147.90426635742188,
+      "logps/rejected": -210.15591430664062,
+      "loss": 0.4373,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.16375023126602173,
+      "rewards/margins": 1.4425245523452759,
+      "rewards/rejected": -1.6062746047973633,
+      "step": 1338
+    },
+    {
+      "epoch": 1.5280450431188084,
+      "grad_norm": 60.486372599547316,
+      "learning_rate": 2.9154979999763197e-08,
+      "logits/chosen": -1.2853294610977173,
+      "logits/rejected": -1.3705867528915405,
+      "logps/chosen": -159.66326904296875,
+      "logps/rejected": -226.9650421142578,
+      "loss": 0.4299,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.5052796006202698,
+      "rewards/margins": 1.3695988655090332,
+      "rewards/rejected": -1.8748785257339478,
+      "step": 1340
+    },
+    {
+      "epoch": 1.5303257073622691,
+      "grad_norm": 66.91951190930519,
+      "learning_rate": 2.8887065338730633e-08,
+      "logits/chosen": -1.1936756372451782,
+      "logits/rejected": -1.2785755395889282,
+      "logps/chosen": -156.64866638183594,
+      "logps/rejected": -195.68453979492188,
+      "loss": 0.4813,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.30220431089401245,
+      "rewards/margins": 0.8970733880996704,
+      "rewards/rejected": -1.1992775201797485,
+      "step": 1342
+    },
+    {
+      "epoch": 1.53260637160573,
+      "grad_norm": 60.327377050918805,
+      "learning_rate": 2.86201793753026e-08,
+      "logits/chosen": -1.2364442348480225,
+      "logits/rejected": -1.2909033298492432,
+      "logps/chosen": -191.64169311523438,
+      "logps/rejected": -228.86416625976562,
+      "loss": 0.4307,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.5236424207687378,
+      "rewards/margins": 0.9988542795181274,
+      "rewards/rejected": -1.5224968194961548,
+      "step": 1344
+    },
+    {
+      "epoch": 1.534887035849191,
+      "grad_norm": 71.82683810198446,
+      "learning_rate": 2.835432597016848e-08,
+      "logits/chosen": -1.19918692111969,
+      "logits/rejected": -1.2287514209747314,
+      "logps/chosen": -203.8031768798828,
+      "logps/rejected": -217.00051879882812,
+      "loss": 0.4555,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.5840819478034973,
+      "rewards/margins": 1.0689098834991455,
+      "rewards/rejected": -1.6529918909072876,
+      "step": 1346
+    },
+    {
+      "epoch": 1.537167700092652,
+      "grad_norm": 51.67351577452576,
+      "learning_rate": 2.8089508969081e-08,
+      "logits/chosen": -1.1072896718978882,
+      "logits/rejected": -1.1964483261108398,
+      "logps/chosen": -167.41482543945312,
+      "logps/rejected": -227.43304443359375,
+      "loss": 0.3874,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.4981079697608948,
+      "rewards/margins": 1.5203238725662231,
+      "rewards/rejected": -2.0184319019317627,
+      "step": 1348
+    },
+    {
+      "epoch": 1.539448364336113,
+      "grad_norm": 54.16559868864558,
+      "learning_rate": 2.7825732202800544e-08,
+      "logits/chosen": -1.1472342014312744,
+      "logits/rejected": -1.2177824974060059,
+      "logps/chosen": -162.28453063964844,
+      "logps/rejected": -183.14820861816406,
+      "loss": 0.4325,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.6399708986282349,
+      "rewards/margins": 0.8657874464988708,
+      "rewards/rejected": -1.5057581663131714,
+      "step": 1350
+    },
+    {
+      "epoch": 1.541729028579574,
+      "grad_norm": 59.09514477278818,
+      "learning_rate": 2.756299948703982e-08,
+      "logits/chosen": -1.1995211839675903,
+      "logits/rejected": -1.2396866083145142,
+      "logps/chosen": -132.65550231933594,
+      "logps/rejected": -141.451416015625,
+      "loss": 0.4078,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.38874107599258423,
+      "rewards/margins": 0.7118159532546997,
+      "rewards/rejected": -1.1005568504333496,
+      "step": 1352
+    },
+    {
+      "epoch": 1.5440096928230347,
+      "grad_norm": 61.53811528707539,
+      "learning_rate": 2.7301314622408612e-08,
+      "logits/chosen": -1.2403637170791626,
+      "logits/rejected": -1.3120653629302979,
+      "logps/chosen": -156.661865234375,
+      "logps/rejected": -218.12490844726562,
+      "loss": 0.4467,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.468991219997406,
+      "rewards/margins": 1.6298167705535889,
+      "rewards/rejected": -2.0988078117370605,
+      "step": 1354
+    },
+    {
+      "epoch": 1.5462903570664956,
+      "grad_norm": 68.28115300743727,
+      "learning_rate": 2.704068139435881e-08,
+      "logits/chosen": -1.2020457983016968,
+      "logits/rejected": -1.2723631858825684,
+      "logps/chosen": -167.51483154296875,
+      "logps/rejected": -186.7481231689453,
+      "loss": 0.4608,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.5097277760505676,
+      "rewards/margins": 0.8848594427108765,
+      "rewards/rejected": -1.3945870399475098,
+      "step": 1356
+    },
+    {
+      "epoch": 1.5485710213099564,
+      "grad_norm": 65.06182702724148,
+      "learning_rate": 2.6781103573129703e-08,
+      "logits/chosen": -1.270340085029602,
+      "logits/rejected": -1.2233667373657227,
+      "logps/chosen": -141.70269775390625,
+      "logps/rejected": -159.1035919189453,
+      "loss": 0.4297,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.3412969708442688,
+      "rewards/margins": 0.8257958292961121,
+      "rewards/rejected": -1.1670928001403809,
+      "step": 1358
+    },
+    {
+      "epoch": 1.5508516855534173,
+      "grad_norm": 54.785688494455215,
+      "learning_rate": 2.652258491369329e-08,
+      "logits/chosen": -1.2447706460952759,
+      "logits/rejected": -1.2511292695999146,
+      "logps/chosen": -171.25672912597656,
+      "logps/rejected": -208.33084106445312,
+      "loss": 0.4368,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.3487054705619812,
+      "rewards/margins": 1.1124207973480225,
+      "rewards/rejected": -1.4611263275146484,
+      "step": 1360
+    },
+    {
+      "epoch": 1.5531323497968783,
+      "grad_norm": 61.41628077442576,
+      "learning_rate": 2.626512915570015e-08,
+      "logits/chosen": -1.328946590423584,
+      "logits/rejected": -1.3554866313934326,
+      "logps/chosen": -125.71770477294922,
+      "logps/rejected": -141.460693359375,
+      "loss": 0.4368,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.13910508155822754,
+      "rewards/margins": 0.7971990704536438,
+      "rewards/rejected": -0.9363042116165161,
+      "step": 1362
+    },
+    {
+      "epoch": 1.5554130140403393,
+      "grad_norm": 75.66249491591283,
+      "learning_rate": 2.6008740023425247e-08,
+      "logits/chosen": -1.188770055770874,
+      "logits/rejected": -1.2130908966064453,
+      "logps/chosen": -183.416748046875,
+      "logps/rejected": -207.94090270996094,
+      "loss": 0.4306,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.651962399482727,
+      "rewards/margins": 1.215145230293274,
+      "rewards/rejected": -1.867107629776001,
+      "step": 1364
+    },
+    {
+      "epoch": 1.5576936782838002,
+      "grad_norm": 55.08493508678333,
+      "learning_rate": 2.5753421225714055e-08,
+      "logits/chosen": -1.2770978212356567,
+      "logits/rejected": -1.3901137113571167,
+      "logps/chosen": -182.26524353027344,
+      "logps/rejected": -213.17454528808594,
+      "loss": 0.4494,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.602812647819519,
+      "rewards/margins": 1.0171971321105957,
+      "rewards/rejected": -1.6200097799301147,
+      "step": 1366
+    },
+    {
+      "epoch": 1.5599743425272612,
+      "grad_norm": 61.38622790534087,
+      "learning_rate": 2.549917645592893e-08,
+      "logits/chosen": -1.0256890058517456,
+      "logits/rejected": -1.0421488285064697,
+      "logps/chosen": -125.034423828125,
+      "logps/rejected": -140.7981414794922,
+      "loss": 0.4129,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5211226344108582,
+      "rewards/margins": 0.7981542348861694,
+      "rewards/rejected": -1.3192768096923828,
+      "step": 1368
+    },
+    {
+      "epoch": 1.562255006770722,
+      "grad_norm": 56.63177895037392,
+      "learning_rate": 2.524600939189566e-08,
+      "logits/chosen": -1.155221939086914,
+      "logits/rejected": -1.1944361925125122,
+      "logps/chosen": -161.79409790039062,
+      "logps/rejected": -194.83041381835938,
+      "loss": 0.4127,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.42054063081741333,
+      "rewards/margins": 1.119522213935852,
+      "rewards/rejected": -1.5400630235671997,
+      "step": 1370
+    },
+    {
+      "epoch": 1.564535671014183,
+      "grad_norm": 83.86033988088741,
+      "learning_rate": 2.4993923695850305e-08,
+      "logits/chosen": -1.293369174003601,
+      "logits/rejected": -1.3639140129089355,
+      "logps/chosen": -198.75289916992188,
+      "logps/rejected": -229.84117126464844,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.41869914531707764,
+      "rewards/margins": 0.7414001226425171,
+      "rewards/rejected": -1.1600991487503052,
+      "step": 1372
+    },
+    {
+      "epoch": 1.5668163352576436,
+      "grad_norm": 62.24749551918009,
+      "learning_rate": 2.4742923014386154e-08,
+      "logits/chosen": -1.3067548274993896,
+      "logits/rejected": -1.3476440906524658,
+      "logps/chosen": -224.86627197265625,
+      "logps/rejected": -235.1451416015625,
+      "loss": 0.4154,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.6012443900108337,
+      "rewards/margins": 0.9985144138336182,
+      "rewards/rejected": -1.5997586250305176,
+      "step": 1374
+    },
+    {
+      "epoch": 1.5690969995011046,
+      "grad_norm": 64.51543232805054,
+      "learning_rate": 2.4493010978401063e-08,
+      "logits/chosen": -1.0690737962722778,
+      "logits/rejected": -1.084768295288086,
+      "logps/chosen": -163.8816375732422,
+      "logps/rejected": -171.3943634033203,
+      "loss": 0.4249,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.611855685710907,
+      "rewards/margins": 0.8946461081504822,
+      "rewards/rejected": -1.5065017938613892,
+      "step": 1376
+    },
+    {
+      "epoch": 1.5713776637445656,
+      "grad_norm": 54.357068938946284,
+      "learning_rate": 2.4244191203044805e-08,
+      "logits/chosen": -1.4049066305160522,
+      "logits/rejected": -1.4406367540359497,
+      "logps/chosen": -193.67234802246094,
+      "logps/rejected": -223.92030334472656,
+      "loss": 0.3912,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.3962157368659973,
+      "rewards/margins": 1.082966685295105,
+      "rewards/rejected": -1.479182481765747,
+      "step": 1378
+    },
+    {
+      "epoch": 1.5736583279880265,
+      "grad_norm": 56.319793805013724,
+      "learning_rate": 2.399646728766691e-08,
+      "logits/chosen": -1.3638195991516113,
+      "logits/rejected": -1.3412432670593262,
+      "logps/chosen": -164.48809814453125,
+      "logps/rejected": -196.62823486328125,
+      "loss": 0.4493,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.2889966666698456,
+      "rewards/margins": 1.261388897895813,
+      "rewards/rejected": -1.5503859519958496,
+      "step": 1380
+    },
+    {
+      "epoch": 1.5759389922314875,
+      "grad_norm": 60.4303807612328,
+      "learning_rate": 2.3749842815764498e-08,
+      "logits/chosen": -1.1395071744918823,
+      "logits/rejected": -1.1399792432785034,
+      "logps/chosen": -139.91824340820312,
+      "logps/rejected": -184.93896484375,
+      "loss": 0.4426,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.37107953429222107,
+      "rewards/margins": 0.8352210521697998,
+      "rewards/rejected": -1.2063006162643433,
+      "step": 1382
+    },
+    {
+      "epoch": 1.5782196564749484,
+      "grad_norm": 55.142567366980046,
+      "learning_rate": 2.3504321354930568e-08,
+      "logits/chosen": -1.1650046110153198,
+      "logits/rejected": -1.2775689363479614,
+      "logps/chosen": -144.93995666503906,
+      "logps/rejected": -177.63087463378906,
+      "loss": 0.4272,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5145533084869385,
+      "rewards/margins": 0.9500089287757874,
+      "rewards/rejected": -1.4645624160766602,
+      "step": 1384
+    },
+    {
+      "epoch": 1.5805003207184094,
+      "grad_norm": 63.43007453665504,
+      "learning_rate": 2.3259906456802213e-08,
+      "logits/chosen": -1.216495394706726,
+      "logits/rejected": -1.2768280506134033,
+      "logps/chosen": -169.9758758544922,
+      "logps/rejected": -194.25665283203125,
+      "loss": 0.4427,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.43023961782455444,
+      "rewards/margins": 0.8201103210449219,
+      "rewards/rejected": -1.250349998474121,
+      "step": 1386
+    },
+    {
+      "epoch": 1.5827809849618701,
+      "grad_norm": 58.56739556116542,
+      "learning_rate": 2.301660165700936e-08,
+      "logits/chosen": -1.291746735572815,
+      "logits/rejected": -1.3648316860198975,
+      "logps/chosen": -166.92015075683594,
+      "logps/rejected": -194.9810028076172,
+      "loss": 0.4506,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.5265369415283203,
+      "rewards/margins": 0.8070346713066101,
+      "rewards/rejected": -1.3335715532302856,
+      "step": 1388
+    },
+    {
+      "epoch": 1.585061649205331,
+      "grad_norm": 54.69042761154998,
+      "learning_rate": 2.2774410475123608e-08,
+      "logits/chosen": -1.3127899169921875,
+      "logits/rejected": -1.2719758749008179,
+      "logps/chosen": -178.777587890625,
+      "logps/rejected": -247.97511291503906,
+      "loss": 0.3964,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.19407829642295837,
+      "rewards/margins": 1.4336225986480713,
+      "rewards/rejected": -1.6277010440826416,
+      "step": 1390
+    },
+    {
+      "epoch": 1.5873423134487918,
+      "grad_norm": 62.874447838260565,
+      "learning_rate": 2.2533336414607317e-08,
+      "logits/chosen": -1.2624969482421875,
+      "logits/rejected": -1.319579839706421,
+      "logps/chosen": -169.37161254882812,
+      "logps/rejected": -186.8485870361328,
+      "loss": 0.4139,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.39721712470054626,
+      "rewards/margins": 0.8743160367012024,
+      "rewards/rejected": -1.2715333700180054,
+      "step": 1392
+    },
+    {
+      "epoch": 1.5896229776922528,
+      "grad_norm": 56.69647177405222,
+      "learning_rate": 2.2293382962762853e-08,
+      "logits/chosen": -1.1312240362167358,
+      "logits/rejected": -1.1108318567276,
+      "logps/chosen": -149.8402557373047,
+      "logps/rejected": -147.10037231445312,
+      "loss": 0.4255,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.5710242986679077,
+      "rewards/margins": 0.5461159348487854,
+      "rewards/rejected": -1.117140293121338,
+      "step": 1394
+    },
+    {
+      "epoch": 1.5919036419357138,
+      "grad_norm": 71.94947354276687,
+      "learning_rate": 2.2054553590682268e-08,
+      "logits/chosen": -1.1476179361343384,
+      "logits/rejected": -1.2181971073150635,
+      "logps/chosen": -152.3661346435547,
+      "logps/rejected": -192.77369689941406,
+      "loss": 0.4157,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5518044233322144,
+      "rewards/margins": 1.2432973384857178,
+      "rewards/rejected": -1.7951017618179321,
+      "step": 1396
+    },
+    {
+      "epoch": 1.5941843061791747,
+      "grad_norm": 65.43519539314455,
+      "learning_rate": 2.1816851753197018e-08,
+      "logits/chosen": -1.2672624588012695,
+      "logits/rejected": -1.3876826763153076,
+      "logps/chosen": -198.90475463867188,
+      "logps/rejected": -248.56439208984375,
+      "loss": 0.479,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.7569680213928223,
+      "rewards/margins": 1.3200610876083374,
+      "rewards/rejected": -2.077029228210449,
+      "step": 1398
+    },
+    {
+      "epoch": 1.5964649704226357,
+      "grad_norm": 55.75209984482193,
+      "learning_rate": 2.1580280888827997e-08,
+      "logits/chosen": -1.3570483922958374,
+      "logits/rejected": -1.39362633228302,
+      "logps/chosen": -168.9151153564453,
+      "logps/rejected": -199.656982421875,
+      "loss": 0.4361,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.38282498717308044,
+      "rewards/margins": 1.1389210224151611,
+      "rewards/rejected": -1.521746039390564,
+      "step": 1400
+    },
+    {
+      "epoch": 1.5964649704226357,
+      "eval_logits/chosen": -1.349047064781189,
+      "eval_logits/rejected": -1.3316236734390259,
+      "eval_logps/chosen": -131.90457153320312,
+      "eval_logps/rejected": -138.97027587890625,
+      "eval_loss": 0.5412697792053223,
+      "eval_rewards/accuracies": 0.7200000286102295,
+      "eval_rewards/chosen": -0.2006600797176361,
+      "eval_rewards/margins": 0.49009186029434204,
+      "eval_rewards/rejected": -0.6907519698143005,
+      "eval_runtime": 20.6376,
+      "eval_samples_per_second": 4.846,
+      "eval_steps_per_second": 1.211,
+      "step": 1400
+    },
+    {
+      "epoch": 1.5987456346660966,
+      "grad_norm": 58.426952642835886,
+      "learning_rate": 2.1344844419735752e-08,
+      "logits/chosen": -1.3734134435653687,
+      "logits/rejected": -1.4403023719787598,
+      "logps/chosen": -138.4149627685547,
+      "logps/rejected": -162.69033813476562,
+      "loss": 0.4393,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2428184598684311,
+      "rewards/margins": 0.8137100338935852,
+      "rewards/rejected": -1.0565285682678223,
+      "step": 1402
+    },
+    {
+      "epoch": 1.6010262989095574,
+      "grad_norm": 57.12690162473469,
+      "learning_rate": 2.1110545751671073e-08,
+      "logits/chosen": -1.2013407945632935,
+      "logits/rejected": -1.3104689121246338,
+      "logps/chosen": -137.76437377929688,
+      "logps/rejected": -174.31373596191406,
+      "loss": 0.4367,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.14584028720855713,
+      "rewards/margins": 0.999373197555542,
+      "rewards/rejected": -1.1452134847640991,
+      "step": 1404
+    },
+    {
+      "epoch": 1.6033069631530183,
+      "grad_norm": 60.35122974906749,
+      "learning_rate": 2.0877388273925644e-08,
+      "logits/chosen": -1.227086067199707,
+      "logits/rejected": -1.1707607507705688,
+      "logps/chosen": -209.45407104492188,
+      "logps/rejected": -257.14776611328125,
+      "loss": 0.3969,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.581037163734436,
+      "rewards/margins": 1.283540964126587,
+      "rewards/rejected": -1.864578127861023,
+      "step": 1406
+    },
+    {
+      "epoch": 1.605587627396479,
+      "grad_norm": 52.46325406296021,
+      "learning_rate": 2.0645375359283045e-08,
+      "logits/chosen": -1.3980076313018799,
+      "logits/rejected": -1.4242044687271118,
+      "logps/chosen": -116.77565002441406,
+      "logps/rejected": -137.52145385742188,
+      "loss": 0.4733,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.23290672898292542,
+      "rewards/margins": 0.7732049226760864,
+      "rewards/rejected": -1.0061116218566895,
+      "step": 1408
+    },
+    {
+      "epoch": 1.60786829163994,
+      "grad_norm": 55.90140225780788,
+      "learning_rate": 2.0414510363970018e-08,
+      "logits/chosen": -1.1187829971313477,
+      "logits/rejected": -1.1768170595169067,
+      "logps/chosen": -150.73451232910156,
+      "logps/rejected": -189.43748474121094,
+      "loss": 0.3741,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.3249818682670593,
+      "rewards/margins": 0.9408416748046875,
+      "rewards/rejected": -1.2658236026763916,
+      "step": 1410
+    },
+    {
+      "epoch": 1.610148955883401,
+      "grad_norm": 58.50925426124599,
+      "learning_rate": 2.0184796627607725e-08,
+      "logits/chosen": -1.1422569751739502,
+      "logits/rejected": -1.1473525762557983,
+      "logps/chosen": -188.11888122558594,
+      "logps/rejected": -191.87713623046875,
+      "loss": 0.4537,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.35315239429473877,
+      "rewards/margins": 0.663144588470459,
+      "rewards/rejected": -1.0162967443466187,
+      "step": 1412
+    },
+    {
+      "epoch": 1.612429620126862,
+      "grad_norm": 64.2495432668556,
+      "learning_rate": 1.9956237473163718e-08,
+      "logits/chosen": -1.2085424661636353,
+      "logits/rejected": -1.306652545928955,
+      "logps/chosen": -97.00778198242188,
+      "logps/rejected": -127.79579162597656,
+      "loss": 0.4977,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.26015713810920715,
+      "rewards/margins": 0.6060620546340942,
+      "rewards/rejected": -0.866219162940979,
+      "step": 1414
+    },
+    {
+      "epoch": 1.614710284370323,
+      "grad_norm": 50.97231528427863,
+      "learning_rate": 1.9728836206903654e-08,
+      "logits/chosen": -1.4538676738739014,
+      "logits/rejected": -1.437317967414856,
+      "logps/chosen": -138.0614776611328,
+      "logps/rejected": -137.07269287109375,
+      "loss": 0.4251,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.09943617880344391,
+      "rewards/margins": 0.7697718143463135,
+      "rewards/rejected": -0.8692080974578857,
+      "step": 1416
+    },
+    {
+      "epoch": 1.616990948613784,
+      "grad_norm": 51.24642546995866,
+      "learning_rate": 1.9502596118343552e-08,
+      "logits/chosen": -1.0932207107543945,
+      "logits/rejected": -1.1693406105041504,
+      "logps/chosen": -126.78893280029297,
+      "logps/rejected": -140.98338317871094,
+      "loss": 0.4273,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.1916692703962326,
+      "rewards/margins": 0.7681133151054382,
+      "rewards/rejected": -0.959782600402832,
+      "step": 1418
+    },
+    {
+      "epoch": 1.6192716128572446,
+      "grad_norm": 61.40277169360943,
+      "learning_rate": 1.9277520480202203e-08,
+      "logits/chosen": -1.3312891721725464,
+      "logits/rejected": -1.2821072340011597,
+      "logps/chosen": -151.71487426757812,
+      "logps/rejected": -167.5812225341797,
+      "loss": 0.4401,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.4683433473110199,
+      "rewards/margins": 1.1215391159057617,
+      "rewards/rejected": -1.589882493019104,
+      "step": 1420
+    },
+    {
+      "epoch": 1.6215522771007056,
+      "grad_norm": 54.3969390887107,
+      "learning_rate": 1.9053612548353803e-08,
+      "logits/chosen": -1.3286281824111938,
+      "logits/rejected": -1.467494249343872,
+      "logps/chosen": -185.03489685058594,
+      "logps/rejected": -245.1704559326172,
+      "loss": 0.3985,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.6573659181594849,
+      "rewards/margins": 1.2262755632400513,
+      "rewards/rejected": -1.8836416006088257,
+      "step": 1422
+    },
+    {
+      "epoch": 1.6238329413441663,
+      "grad_norm": 54.259477393424476,
+      "learning_rate": 1.8830875561780902e-08,
+      "logits/chosen": -1.2293699979782104,
+      "logits/rejected": -1.3463877439498901,
+      "logps/chosen": -140.27874755859375,
+      "logps/rejected": -198.82611083984375,
+      "loss": 0.3951,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.30968916416168213,
+      "rewards/margins": 0.9538030624389648,
+      "rewards/rejected": -1.2634921073913574,
+      "step": 1424
+    },
+    {
+      "epoch": 1.6261136055876273,
+      "grad_norm": 61.69027813672776,
+      "learning_rate": 1.8609312742527493e-08,
+      "logits/chosen": -1.2697855234146118,
+      "logits/rejected": -1.2990537881851196,
+      "logps/chosen": -155.84657287597656,
+      "logps/rejected": -212.16445922851562,
+      "loss": 0.4447,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.38760051131248474,
+      "rewards/margins": 0.9349652528762817,
+      "rewards/rejected": -1.3225656747817993,
+      "step": 1426
+    },
+    {
+      "epoch": 1.6283942698310883,
+      "grad_norm": 54.55311985521747,
+      "learning_rate": 1.8388927295652446e-08,
+      "logits/chosen": -1.285940170288086,
+      "logits/rejected": -1.2539726495742798,
+      "logps/chosen": -165.970947265625,
+      "logps/rejected": -213.34823608398438,
+      "loss": 0.399,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.4254089295864105,
+      "rewards/margins": 1.3802815675735474,
+      "rewards/rejected": -1.8056904077529907,
+      "step": 1428
+    },
+    {
+      "epoch": 1.6306749340745492,
+      "grad_norm": 76.43067475489244,
+      "learning_rate": 1.81697224091831e-08,
+      "logits/chosen": -1.3153434991836548,
+      "logits/rejected": -1.3224899768829346,
+      "logps/chosen": -164.8282470703125,
+      "logps/rejected": -173.127685546875,
+      "loss": 0.4394,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.13270916044712067,
+      "rewards/margins": 0.787804901599884,
+      "rewards/rejected": -0.9205139875411987,
+      "step": 1430
+    },
+    {
+      "epoch": 1.6329555983180102,
+      "grad_norm": 63.28082306297566,
+      "learning_rate": 1.7951701254069208e-08,
+      "logits/chosen": -1.2579729557037354,
+      "logits/rejected": -1.3529393672943115,
+      "logps/chosen": -172.70582580566406,
+      "logps/rejected": -199.5102081298828,
+      "loss": 0.4179,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.26907747983932495,
+      "rewards/margins": 0.9893758296966553,
+      "rewards/rejected": -1.258453369140625,
+      "step": 1432
+    },
+    {
+      "epoch": 1.6352362625614711,
+      "grad_norm": 66.45448871459682,
+      "learning_rate": 1.773486698413701e-08,
+      "logits/chosen": -1.321483850479126,
+      "logits/rejected": -1.2988489866256714,
+      "logps/chosen": -278.5541076660156,
+      "logps/rejected": -317.18048095703125,
+      "loss": 0.4615,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.9866227507591248,
+      "rewards/margins": 1.5252459049224854,
+      "rewards/rejected": -2.511868715286255,
+      "step": 1434
+    },
+    {
+      "epoch": 1.6375169268049319,
+      "grad_norm": 61.23114152941888,
+      "learning_rate": 1.751922273604366e-08,
+      "logits/chosen": -1.2703336477279663,
+      "logits/rejected": -1.3587698936462402,
+      "logps/chosen": -119.15101623535156,
+      "logps/rejected": -158.48219299316406,
+      "loss": 0.4167,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.3894941508769989,
+      "rewards/margins": 0.8275178074836731,
+      "rewards/rejected": -1.2170119285583496,
+      "step": 1436
+    },
+    {
+      "epoch": 1.6397975910483928,
+      "grad_norm": 55.95939622635403,
+      "learning_rate": 1.7304771629231797e-08,
+      "logits/chosen": -1.3791868686676025,
+      "logits/rejected": -1.32236909866333,
+      "logps/chosen": -139.13572692871094,
+      "logps/rejected": -141.41555786132812,
+      "loss": 0.4648,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.30967453122138977,
+      "rewards/margins": 0.7233924269676208,
+      "rewards/rejected": -1.033066987991333,
+      "step": 1438
+    },
+    {
+      "epoch": 1.6420782552918538,
+      "grad_norm": 65.12174124488925,
+      "learning_rate": 1.709151676588446e-08,
+      "logits/chosen": -1.3115848302841187,
+      "logits/rejected": -1.3686813116073608,
+      "logps/chosen": -187.90061950683594,
+      "logps/rejected": -219.3175506591797,
+      "loss": 0.4063,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.2774468958377838,
+      "rewards/margins": 1.2934999465942383,
+      "rewards/rejected": -1.5709468126296997,
+      "step": 1440
+    },
+    {
+      "epoch": 1.6443589195353145,
+      "grad_norm": 63.019089490249065,
+      "learning_rate": 1.687946123088021e-08,
+      "logits/chosen": -1.148698091506958,
+      "logits/rejected": -1.2162479162216187,
+      "logps/chosen": -128.07449340820312,
+      "logps/rejected": -160.94265747070312,
+      "loss": 0.3965,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.44137704372406006,
+      "rewards/margins": 0.892095685005188,
+      "rewards/rejected": -1.3334728479385376,
+      "step": 1442
+    },
+    {
+      "epoch": 1.6466395837787755,
+      "grad_norm": 53.81256325707842,
+      "learning_rate": 1.6668608091748494e-08,
+      "logits/chosen": -1.3144904375076294,
+      "logits/rejected": -1.3196699619293213,
+      "logps/chosen": -147.97418212890625,
+      "logps/rejected": -184.45281982421875,
+      "loss": 0.4082,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.3717328608036041,
+      "rewards/margins": 1.0338945388793945,
+      "rewards/rejected": -1.4056274890899658,
+      "step": 1444
+    },
+    {
+      "epoch": 1.6489202480222365,
+      "grad_norm": 58.43605410338442,
+      "learning_rate": 1.6458960398625288e-08,
+      "logits/chosen": -1.3495270013809204,
+      "logits/rejected": -1.3430432081222534,
+      "logps/chosen": -221.313232421875,
+      "logps/rejected": -240.23922729492188,
+      "loss": 0.4216,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.4131534695625305,
+      "rewards/margins": 1.1750929355621338,
+      "rewards/rejected": -1.588246464729309,
+      "step": 1446
+    },
+    {
+      "epoch": 1.6512009122656974,
+      "grad_norm": 62.53542903290901,
+      "learning_rate": 1.6250521184208888e-08,
+      "logits/chosen": -1.2720297574996948,
+      "logits/rejected": -1.2884955406188965,
+      "logps/chosen": -170.361328125,
+      "logps/rejected": -195.9408721923828,
+      "loss": 0.4433,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.25558391213417053,
+      "rewards/margins": 0.8461555242538452,
+      "rewards/rejected": -1.1017394065856934,
+      "step": 1448
+    },
+    {
+      "epoch": 1.6534815765091584,
+      "grad_norm": 59.021319623999084,
+      "learning_rate": 1.60432934637162e-08,
+      "logits/chosen": -1.2962281703948975,
+      "logits/rejected": -1.3130199909210205,
+      "logps/chosen": -220.19346618652344,
+      "logps/rejected": -234.11521911621094,
+      "loss": 0.3885,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.5436195731163025,
+      "rewards/margins": 0.8701571226119995,
+      "rewards/rejected": -1.4137766361236572,
+      "step": 1450
+    },
+    {
+      "epoch": 1.6557622407526194,
+      "grad_norm": 65.21677604603016,
+      "learning_rate": 1.5837280234839012e-08,
+      "logits/chosen": -1.258408546447754,
+      "logits/rejected": -1.2448734045028687,
+      "logps/chosen": -189.3031005859375,
+      "logps/rejected": -186.64773559570312,
+      "loss": 0.4388,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.5159119367599487,
+      "rewards/margins": 0.5587047338485718,
+      "rewards/rejected": -1.0746166706085205,
+      "step": 1452
+    },
+    {
+      "epoch": 1.65804290499608,
+      "grad_norm": 56.877107879066756,
+      "learning_rate": 1.5632484477700635e-08,
+      "logits/chosen": -1.3145238161087036,
+      "logits/rejected": -1.3254127502441406,
+      "logps/chosen": -225.0052490234375,
+      "logps/rejected": -260.56292724609375,
+      "loss": 0.4098,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.6009418964385986,
+      "rewards/margins": 1.1089880466461182,
+      "rewards/rejected": -1.7099300622940063,
+      "step": 1454
+    },
+    {
+      "epoch": 1.660323569239541,
+      "grad_norm": 68.97770948668654,
+      "learning_rate": 1.542890915481282e-08,
+      "logits/chosen": -1.2907415628433228,
+      "logits/rejected": -1.2642382383346558,
+      "logps/chosen": -122.03399658203125,
+      "logps/rejected": -136.55223083496094,
+      "loss": 0.4316,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.2291896939277649,
+      "rewards/margins": 0.7178550362586975,
+      "rewards/rejected": -0.9470447897911072,
+      "step": 1456
+    },
+    {
+      "epoch": 1.6626042334830018,
+      "grad_norm": 68.21135169118118,
+      "learning_rate": 1.5226557211032908e-08,
+      "logits/chosen": -1.2149584293365479,
+      "logits/rejected": -1.2694858312606812,
+      "logps/chosen": -163.82122802734375,
+      "logps/rejected": -217.37213134765625,
+      "loss": 0.4581,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.4557928442955017,
+      "rewards/margins": 0.9242541193962097,
+      "rewards/rejected": -1.3800469636917114,
+      "step": 1458
+    },
+    {
+      "epoch": 1.6648848977264628,
+      "grad_norm": 58.468740016047576,
+      "learning_rate": 1.5025431573521207e-08,
+      "logits/chosen": -1.3966403007507324,
+      "logits/rejected": -1.395541787147522,
+      "logps/chosen": -136.16111755371094,
+      "logps/rejected": -158.5441436767578,
+      "loss": 0.4215,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.3195006549358368,
+      "rewards/margins": 0.7229774594306946,
+      "rewards/rejected": -1.042478084564209,
+      "step": 1460
+    },
+    {
+      "epoch": 1.6671655619699237,
+      "grad_norm": 56.594315997333034,
+      "learning_rate": 1.4825535151698653e-08,
+      "logits/chosen": -1.3145086765289307,
+      "logits/rejected": -1.3318628072738647,
+      "logps/chosen": -218.93898010253906,
+      "logps/rejected": -239.53721618652344,
+      "loss": 0.4041,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.4259910583496094,
+      "rewards/margins": 0.9239952564239502,
+      "rewards/rejected": -1.34998619556427,
+      "step": 1462
+    },
+    {
+      "epoch": 1.6694462262133847,
+      "grad_norm": 55.89445679724181,
+      "learning_rate": 1.4626870837204775e-08,
+      "logits/chosen": -1.379180908203125,
+      "logits/rejected": -1.4072362184524536,
+      "logps/chosen": -153.11817932128906,
+      "logps/rejected": -182.13790893554688,
+      "loss": 0.4185,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.38719913363456726,
+      "rewards/margins": 0.9092380404472351,
+      "rewards/rejected": -1.2964370250701904,
+      "step": 1464
+    },
+    {
+      "epoch": 1.6717268904568456,
+      "grad_norm": 64.47758334862267,
+      "learning_rate": 1.4429441503855722e-08,
+      "logits/chosen": -1.3387432098388672,
+      "logits/rejected": -1.436204433441162,
+      "logps/chosen": -214.61618041992188,
+      "logps/rejected": -248.8955078125,
+      "loss": 0.4463,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5446640849113464,
+      "rewards/margins": 1.1796414852142334,
+      "rewards/rejected": -1.7243056297302246,
+      "step": 1466
+    },
+    {
+      "epoch": 1.6740075547003066,
+      "grad_norm": 59.93784188124436,
+      "learning_rate": 1.4233250007602871e-08,
+      "logits/chosen": -1.1467586755752563,
+      "logits/rejected": -1.1875630617141724,
+      "logps/chosen": -198.951416015625,
+      "logps/rejected": -230.94252014160156,
+      "loss": 0.4599,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.7742232084274292,
+      "rewards/margins": 1.2332063913345337,
+      "rewards/rejected": -2.007429599761963,
+      "step": 1468
+    },
+    {
+      "epoch": 1.6762882189437673,
+      "grad_norm": 62.25982751081324,
+      "learning_rate": 1.4038299186491442e-08,
+      "logits/chosen": -1.1409118175506592,
+      "logits/rejected": -1.2762134075164795,
+      "logps/chosen": -144.74981689453125,
+      "logps/rejected": -227.7673797607422,
+      "loss": 0.4217,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.43610525131225586,
+      "rewards/margins": 1.684708833694458,
+      "rewards/rejected": -2.120814085006714,
+      "step": 1470
+    },
+    {
+      "epoch": 1.6785688831872283,
+      "grad_norm": 49.66084963571848,
+      "learning_rate": 1.3844591860619382e-08,
+      "logits/chosen": -1.3702046871185303,
+      "logits/rejected": -1.4003832340240479,
+      "logps/chosen": -164.3496856689453,
+      "logps/rejected": -176.85682678222656,
+      "loss": 0.4076,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.23472319543361664,
+      "rewards/margins": 0.8279229402542114,
+      "rewards/rejected": -1.0626461505889893,
+      "step": 1472
+    },
+    {
+      "epoch": 1.680849547430689,
+      "grad_norm": 52.98373196788465,
+      "learning_rate": 1.3652130832096653e-08,
+      "logits/chosen": -1.1784981489181519,
+      "logits/rejected": -1.2945374250411987,
+      "logps/chosen": -185.53562927246094,
+      "logps/rejected": -221.29660034179688,
+      "loss": 0.4167,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.5693493485450745,
+      "rewards/margins": 1.0049147605895996,
+      "rewards/rejected": -1.5742641687393188,
+      "step": 1474
+    },
+    {
+      "epoch": 1.68313021167415,
+      "grad_norm": 76.34629112032515,
+      "learning_rate": 1.3460918885004658e-08,
+      "logits/chosen": -1.2638037204742432,
+      "logits/rejected": -1.3342554569244385,
+      "logps/chosen": -177.4965362548828,
+      "logps/rejected": -229.96853637695312,
+      "loss": 0.4293,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.4774022698402405,
+      "rewards/margins": 1.2457822561264038,
+      "rewards/rejected": -1.723184585571289,
+      "step": 1476
+    },
+    {
+      "epoch": 1.685410875917611,
+      "grad_norm": 66.57532589289495,
+      "learning_rate": 1.3270958785355979e-08,
+      "logits/chosen": -1.2002267837524414,
+      "logits/rejected": -1.2736998796463013,
+      "logps/chosen": -172.23741149902344,
+      "logps/rejected": -227.90280151367188,
+      "loss": 0.4668,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5302340984344482,
+      "rewards/margins": 1.142404556274414,
+      "rewards/rejected": -1.6726385354995728,
+      "step": 1478
+    },
+    {
+      "epoch": 1.687691540161072,
+      "grad_norm": 69.95077709646252,
+      "learning_rate": 1.308225328105439e-08,
+      "logits/chosen": -1.376049518585205,
+      "logits/rejected": -1.4532899856567383,
+      "logps/chosen": -178.05099487304688,
+      "logps/rejected": -243.27200317382812,
+      "loss": 0.4221,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.3648741543292999,
+      "rewards/margins": 1.095149040222168,
+      "rewards/rejected": -1.460023045539856,
+      "step": 1480
+    },
+    {
+      "epoch": 1.6899722044045329,
+      "grad_norm": 64.49691609932415,
+      "learning_rate": 1.2894805101854989e-08,
+      "logits/chosen": -1.3072996139526367,
+      "logits/rejected": -1.2989863157272339,
+      "logps/chosen": -166.4363555908203,
+      "logps/rejected": -176.7548828125,
+      "loss": 0.4753,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.39158201217651367,
+      "rewards/margins": 0.8482180833816528,
+      "rewards/rejected": -1.239800214767456,
+      "step": 1482
+    },
+    {
+      "epoch": 1.6922528686479938,
+      "grad_norm": 59.42081736231207,
+      "learning_rate": 1.270861695932489e-08,
+      "logits/chosen": -1.3978495597839355,
+      "logits/rejected": -1.4046682119369507,
+      "logps/chosen": -214.11187744140625,
+      "logps/rejected": -258.4549865722656,
+      "loss": 0.4494,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.5993155241012573,
+      "rewards/margins": 0.9518192410469055,
+      "rewards/rejected": -1.5511348247528076,
+      "step": 1484
+    },
+    {
+      "epoch": 1.6945335328914546,
+      "grad_norm": 56.004460149491955,
+      "learning_rate": 1.2523691546803872e-08,
+      "logits/chosen": -1.1605501174926758,
+      "logits/rejected": -1.2564440965652466,
+      "logps/chosen": -139.624267578125,
+      "logps/rejected": -178.62393188476562,
+      "loss": 0.4557,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.27934566140174866,
+      "rewards/margins": 0.7967109680175781,
+      "rewards/rejected": -1.0760565996170044,
+      "step": 1486
+    },
+    {
+      "epoch": 1.6968141971349155,
+      "grad_norm": 53.58208037132539,
+      "learning_rate": 1.234003153936548e-08,
+      "logits/chosen": -1.1957886219024658,
+      "logits/rejected": -1.3672311305999756,
+      "logps/chosen": -163.6760711669922,
+      "logps/rejected": -232.0875244140625,
+      "loss": 0.4126,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.378174364566803,
+      "rewards/margins": 1.1063618659973145,
+      "rewards/rejected": -1.4845364093780518,
+      "step": 1488
+    },
+    {
+      "epoch": 1.6990948613783763,
+      "grad_norm": 75.62123712030618,
+      "learning_rate": 1.2157639593778268e-08,
+      "logits/chosen": -1.249180555343628,
+      "logits/rejected": -1.257821798324585,
+      "logps/chosen": -143.6417236328125,
+      "logps/rejected": -205.5145721435547,
+      "loss": 0.4895,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.3994945287704468,
+      "rewards/margins": 1.2723394632339478,
+      "rewards/rejected": -1.671833872795105,
+      "step": 1490
+    },
+    {
+      "epoch": 1.7013755256218372,
+      "grad_norm": 64.99974592800548,
+      "learning_rate": 1.1976518348467424e-08,
+      "logits/chosen": -1.2328625917434692,
+      "logits/rejected": -1.2472069263458252,
+      "logps/chosen": -199.8415069580078,
+      "logps/rejected": -222.4342803955078,
+      "loss": 0.4444,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.544438898563385,
+      "rewards/margins": 1.3196830749511719,
+      "rewards/rejected": -1.8641220331192017,
+      "step": 1492
+    },
+    {
+      "epoch": 1.7036561898652982,
+      "grad_norm": 66.84615124590252,
+      "learning_rate": 1.1796670423476574e-08,
+      "logits/chosen": -1.364052414894104,
+      "logits/rejected": -1.3560256958007812,
+      "logps/chosen": -133.53671264648438,
+      "logps/rejected": -152.27175903320312,
+      "loss": 0.4364,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3934406042098999,
+      "rewards/margins": 0.749383270740509,
+      "rewards/rejected": -1.1428238153457642,
+      "step": 1494
+    },
+    {
+      "epoch": 1.7059368541087592,
+      "grad_norm": 63.13360469846886,
+      "learning_rate": 1.1618098420429879e-08,
+      "logits/chosen": -1.2544901371002197,
+      "logits/rejected": -1.303771734237671,
+      "logps/chosen": -166.77374267578125,
+      "logps/rejected": -190.30552673339844,
+      "loss": 0.4538,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.4510793685913086,
+      "rewards/margins": 0.7863295674324036,
+      "rewards/rejected": -1.2374088764190674,
+      "step": 1496
+    },
+    {
+      "epoch": 1.7082175183522201,
+      "grad_norm": 50.3590196948944,
+      "learning_rate": 1.1440804922494441e-08,
+      "logits/chosen": -1.352832317352295,
+      "logits/rejected": -1.357743263244629,
+      "logps/chosen": -193.49298095703125,
+      "logps/rejected": -207.95184326171875,
+      "loss": 0.3787,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.36873170733451843,
+      "rewards/margins": 1.0819979906082153,
+      "rewards/rejected": -1.4507297277450562,
+      "step": 1498
+    },
+    {
+      "epoch": 1.710498182595681,
+      "grad_norm": 59.01395721554923,
+      "learning_rate": 1.1264792494342856e-08,
+      "logits/chosen": -1.2877607345581055,
+      "logits/rejected": -1.3114897012710571,
+      "logps/chosen": -158.8022003173828,
+      "logps/rejected": -197.77500915527344,
+      "loss": 0.4406,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.48249971866607666,
+      "rewards/margins": 0.8965498208999634,
+      "rewards/rejected": -1.37904953956604,
+      "step": 1500
+    },
+    {
+      "epoch": 1.710498182595681,
+      "eval_logits/chosen": -1.3420703411102295,
+      "eval_logits/rejected": -1.3242188692092896,
+      "eval_logps/chosen": -132.36380004882812,
+      "eval_logps/rejected": -138.97621154785156,
+      "eval_loss": 0.5477466583251953,
+      "eval_rewards/accuracies": 0.7200000286102295,
+      "eval_rewards/chosen": -0.24658337235450745,
+      "eval_rewards/margins": 0.44476309418678284,
+      "eval_rewards/rejected": -0.6913464069366455,
+      "eval_runtime": 21.5135,
+      "eval_samples_per_second": 4.648,
+      "eval_steps_per_second": 1.162,
+      "step": 1500
     }
   ],
   "logging_steps": 2,