RyanYr commited on Aug 24

Commit

733b998

•

1 Parent(s): 9d86992

Training in progress, step 600, checkpoint

Browse files

Files changed (19) hide show

last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +2300 -2

last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc8db81f9ddaa29cae59ac5881d092fda01db995e0f4da172a5db08a35bf3d56
+size 24090788996

last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfb7cf1637269ec43452f1226ff60ceca7e40a620762f2be21ea5790b95de817
+size 24090788996

last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19679cf0f319b67f5f4781a251d3d3b189ba741e42dd93fa0b69838c528b5804
+size 24090788996

last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b57822d3cbbb7035813723d94a43cdbe6ff635b9d800a7a1445860e28eaff6d
+size 24090788996

last-checkpoint/global_step600/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92080d92f7039ba9a28ee0207869fee3670869dc8f88ff1c586400224153afc1
+size 150693

last-checkpoint/global_step600/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2adaa5dad1fb21d06dd1448a46414244004297e4538dc79e31541160fb413a29
+size 150693

last-checkpoint/global_step600/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e100a2fb0ad2e0b16513edb6bb5e410375b4900628822bec6b2e89cd0a4b6eab
+size 150693

last-checkpoint/global_step600/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f100eb6452bbb9cf518d9995cea742dd60e64f07f51aceb70c76caef63912b63
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step300~~


1	+ global_step600

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2281cb21ad854a3db059aa689d7c74452cb2008fb15f3402ad06513a6ed68d7
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:48948a0d9104661249099a4014490ab23bd0ad9a31f6471dee9f9f094a3d63bf
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e49cd637191fe742ce29f784563dc89109beb1128aa3fee60b2a9e24ea94cbdd
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b24fa74f6060bb886c4ad908a9e1cbc5b1d32700a032f508c04604951a8181f
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30aa2ab618d4be5f0ba7e005ac657417f4e515f10a9b0fbb2e7b29fd1ca2b390
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f1fb4fda3abf0c7433b1013f78feb462c78a1d36b3a3336e8e2ed0f8c341706
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cc0b3808e3294cd9ec41a837580c875a4c99d9ec14356c982b552e0c92df4b8
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a42d0ba56615ac5b6ca669d046a3ac05a8adeee3b01ebef26cde18b002e96c8
 size 1168138808

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70cc56408014c410353d4dd58ae9b03f4be043f5f800324f66fd8e20e99b840e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef002048764051a71fb00f8f978e9ec32b780dc850bdb059af362cc56494234b
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49d1438e98cc9c53a6852464635ce62e9788e61eb3646b73e33813f487c4b6ae
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:37194a6d48612e1a46a2d5d317ead97c70d9fc4569b0118fcd5f84c3dc9daa5a
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4388add9cec90932f8ff0100d27a0574d98e1bad52ff89d44e31967d2b4fbfde
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:17c179483659a784aa1ace2427daff48c556a6bcc3c330e6f3274e4dc95e4b49
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a705d6dfaae4f2c1b4b2be6b25a6eb521ffae6fcba21cc1531e97b60037ed079
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b56857c9b117629f35af2c3d64f522d33a9d8aa94faa81ec6956380a895118c4
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0db895d97b25045a4a7490f3a2585ba8b172dd50ebe580778062498c071cac97
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d8f9b18fc83c21830420fd2e6d55afd183068e9c7f7ec7447233ce473235b6a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3474484256243214,
   "eval_steps": 100,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2305,6 +2305,2304 @@
       "eval_samples_per_second": 4.06,
       "eval_steps_per_second": 1.015,
       "step": 300
     }
   ],
   "logging_steps": 2,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6948968512486428,
   "eval_steps": 100,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.06,
       "eval_steps_per_second": 1.015,
       "step": 300
+    },
+    {
+      "epoch": 0.3497647484618169,
+      "grad_norm": 79.77982199610355,
+      "learning_rate": 1.9248010649538775e-07,
+      "logits/chosen": -1.3689723014831543,
+      "logits/rejected": -1.4326424598693848,
+      "logps/chosen": -186.77511596679688,
+      "logps/rejected": -194.57289123535156,
+      "loss": 0.677,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.07687507569789886,
+      "rewards/margins": 0.245405375957489,
+      "rewards/rejected": -0.16853031516075134,
+      "step": 302
+    },
+    {
+      "epoch": 0.3520810712993123,
+      "grad_norm": 72.83330769963189,
+      "learning_rate": 1.923324026065944e-07,
+      "logits/chosen": -1.2983791828155518,
+      "logits/rejected": -1.301888108253479,
+      "logps/chosen": -96.0470199584961,
+      "logps/rejected": -113.31134796142578,
+      "loss": 0.6028,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.10890144109725952,
+      "rewards/margins": 0.2682499885559082,
+      "rewards/rejected": -0.1593485325574875,
+      "step": 304
+    },
+    {
+      "epoch": 0.3543973941368078,
+      "grad_norm": 100.14984360245958,
+      "learning_rate": 1.9218332000994458e-07,
+      "logits/chosen": -1.4329365491867065,
+      "logits/rejected": -1.4993162155151367,
+      "logps/chosen": -186.0762176513672,
+      "logps/rejected": -214.90533447265625,
+      "loss": 0.6058,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.03735332563519478,
+      "rewards/margins": 0.3314560055732727,
+      "rewards/rejected": -0.2941026985645294,
+      "step": 306
+    },
+    {
+      "epoch": 0.3567137169743033,
+      "grad_norm": 72.19620109844895,
+      "learning_rate": 1.9203286093154026e-07,
+      "logits/chosen": -1.2941675186157227,
+      "logits/rejected": -1.259239673614502,
+      "logps/chosen": -109.15111541748047,
+      "logps/rejected": -109.48808288574219,
+      "loss": 0.6171,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.24576213955879211,
+      "rewards/margins": 0.18151941895484924,
+      "rewards/rejected": 0.06424272805452347,
+      "step": 308
+    },
+    {
+      "epoch": 0.35903003981179876,
+      "grad_norm": 106.11628012062671,
+      "learning_rate": 1.9188102761803715e-07,
+      "logits/chosen": -1.4155701398849487,
+      "logits/rejected": -1.469191312789917,
+      "logps/chosen": -192.42648315429688,
+      "logps/rejected": -190.7394561767578,
+      "loss": 0.6785,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.15398849546909332,
+      "rewards/margins": 0.36678701639175415,
+      "rewards/rejected": -0.5207754373550415,
+      "step": 310
+    },
+    {
+      "epoch": 0.36134636264929426,
+      "grad_norm": 70.19369769339828,
+      "learning_rate": 1.9172782233661094e-07,
+      "logits/chosen": -1.254553198814392,
+      "logits/rejected": -1.1699531078338623,
+      "logps/chosen": -127.07028198242188,
+      "logps/rejected": -145.60787963867188,
+      "loss": 0.6158,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.17219696938991547,
+      "rewards/margins": 0.5162093639373779,
+      "rewards/rejected": -0.34401237964630127,
+      "step": 312
+    },
+    {
+      "epoch": 0.3636626854867897,
+      "grad_norm": 90.77874249334138,
+      "learning_rate": 1.915732473749236e-07,
+      "logits/chosen": -1.2084178924560547,
+      "logits/rejected": -1.1874415874481201,
+      "logps/chosen": -166.15135192871094,
+      "logps/rejected": -176.3106231689453,
+      "loss": 0.629,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.1258632242679596,
+      "rewards/margins": 0.4471869468688965,
+      "rewards/rejected": -0.3213237524032593,
+      "step": 314
+    },
+    {
+      "epoch": 0.3659790083242852,
+      "grad_norm": 78.58822831789924,
+      "learning_rate": 1.914173050410892e-07,
+      "logits/chosen": -1.3010833263397217,
+      "logits/rejected": -1.3981972932815552,
+      "logps/chosen": -94.9105453491211,
+      "logps/rejected": -108.66416931152344,
+      "loss": 0.6266,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.15446007251739502,
+      "rewards/margins": 0.30908384919166565,
+      "rewards/rejected": -0.15462377667427063,
+      "step": 316
+    },
+    {
+      "epoch": 0.36829533116178065,
+      "grad_norm": 80.5668477187345,
+      "learning_rate": 1.9125999766363932e-07,
+      "logits/chosen": -1.4468637704849243,
+      "logits/rejected": -1.4837853908538818,
+      "logps/chosen": -121.05176544189453,
+      "logps/rejected": -132.3884735107422,
+      "loss": 0.6187,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.1501280963420868,
+      "rewards/margins": 0.14075569808483124,
+      "rewards/rejected": 0.009372413158416748,
+      "step": 318
+    },
+    {
+      "epoch": 0.37061165399927615,
+      "grad_norm": 90.09297915942425,
+      "learning_rate": 1.9110132759148843e-07,
+      "logits/chosen": -1.239458680152893,
+      "logits/rejected": -1.2513267993927002,
+      "logps/chosen": -119.19309997558594,
+      "logps/rejected": -135.55023193359375,
+      "loss": 0.6107,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.07714903354644775,
+      "rewards/margins": 0.40861696004867554,
+      "rewards/rejected": -0.4857659935951233,
+      "step": 320
+    },
+    {
+      "epoch": 0.37292797683677165,
+      "grad_norm": 130.3488780136265,
+      "learning_rate": 1.9094129719389885e-07,
+      "logits/chosen": -1.3481711149215698,
+      "logits/rejected": -1.328981637954712,
+      "logps/chosen": -192.10084533691406,
+      "logps/rejected": -214.688720703125,
+      "loss": 0.635,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.4045405685901642,
+      "rewards/margins": 0.6289528012275696,
+      "rewards/rejected": -1.0334933996200562,
+      "step": 322
+    },
+    {
+      "epoch": 0.3752442996742671,
+      "grad_norm": 86.21776365076336,
+      "learning_rate": 1.907799088604451e-07,
+      "logits/chosen": -1.1944794654846191,
+      "logits/rejected": -1.154435157775879,
+      "logps/chosen": -86.31254577636719,
+      "logps/rejected": -97.8081283569336,
+      "loss": 0.6424,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.0629437267780304,
+      "rewards/margins": 0.25958341360092163,
+      "rewards/rejected": -0.19663970172405243,
+      "step": 324
+    },
+    {
+      "epoch": 0.3775606225117626,
+      "grad_norm": 109.3152948358386,
+      "learning_rate": 1.9061716500097862e-07,
+      "logits/chosen": -1.3203986883163452,
+      "logits/rejected": -1.3523664474487305,
+      "logps/chosen": -152.81573486328125,
+      "logps/rejected": -161.0247039794922,
+      "loss": 0.6101,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.4936632812023163,
+      "rewards/margins": 0.04809580743312836,
+      "rewards/rejected": -0.5417591333389282,
+      "step": 326
+    },
+    {
+      "epoch": 0.37987694534925803,
+      "grad_norm": 91.94400981611243,
+      "learning_rate": 1.904530680455914e-07,
+      "logits/chosen": -1.3758294582366943,
+      "logits/rejected": -1.4080578088760376,
+      "logps/chosen": -146.73672485351562,
+      "logps/rejected": -145.2505645751953,
+      "loss": 0.6278,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.012471210211515427,
+      "rewards/margins": 0.4439522325992584,
+      "rewards/rejected": -0.4314810335636139,
+      "step": 328
+    },
+    {
+      "epoch": 0.38219326818675353,
+      "grad_norm": 105.04213501880093,
+      "learning_rate": 1.9028762044457992e-07,
+      "logits/chosen": -1.2461824417114258,
+      "logits/rejected": -1.288218379020691,
+      "logps/chosen": -126.72929382324219,
+      "logps/rejected": -151.31341552734375,
+      "loss": 0.6118,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.042198315262794495,
+      "rewards/margins": 0.5073456764221191,
+      "rewards/rejected": -0.46514737606048584,
+      "step": 330
+    },
+    {
+      "epoch": 0.38450959102424903,
+      "grad_norm": 131.99962498687907,
+      "learning_rate": 1.901208246684085e-07,
+      "logits/chosen": -1.345144271850586,
+      "logits/rejected": -1.3419792652130127,
+      "logps/chosen": -138.4906768798828,
+      "logps/rejected": -144.3926239013672,
+      "loss": 0.6483,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.3029904365539551,
+      "rewards/margins": 0.3120897114276886,
+      "rewards/rejected": -0.6150801181793213,
+      "step": 332
+    },
+    {
+      "epoch": 0.3868259138617445,
+      "grad_norm": 192.23629969436513,
+      "learning_rate": 1.8995268320767252e-07,
+      "logits/chosen": -1.3834903240203857,
+      "logits/rejected": -1.4057523012161255,
+      "logps/chosen": -138.5772705078125,
+      "logps/rejected": -148.1931915283203,
+      "loss": 0.7789,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.0129515016451478,
+      "rewards/margins": 0.49864012002944946,
+      "rewards/rejected": -0.4856886565685272,
+      "step": 334
+    },
+    {
+      "epoch": 0.38914223669924,
+      "grad_norm": 82.74631507246218,
+      "learning_rate": 1.897831985730609e-07,
+      "logits/chosen": -1.2497293949127197,
+      "logits/rejected": -1.2685260772705078,
+      "logps/chosen": -135.58956909179688,
+      "logps/rejected": -166.16636657714844,
+      "loss": 0.6435,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.062045883387327194,
+      "rewards/margins": 0.9767952561378479,
+      "rewards/rejected": -1.0388411283493042,
+      "step": 336
+    },
+    {
+      "epoch": 0.3914585595367354,
+      "grad_norm": 97.75310342784691,
+      "learning_rate": 1.896123732953191e-07,
+      "logits/chosen": -1.2475745677947998,
+      "logits/rejected": -1.2074342966079712,
+      "logps/chosen": -108.48465728759766,
+      "logps/rejected": -131.79908752441406,
+      "loss": 0.6321,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.32877668738365173,
+      "rewards/margins": 0.5046026110649109,
+      "rewards/rejected": -0.8333792686462402,
+      "step": 338
+    },
+    {
+      "epoch": 0.3937748823742309,
+      "grad_norm": 104.56753710703906,
+      "learning_rate": 1.8944020992521088e-07,
+      "logits/chosen": -1.331594467163086,
+      "logits/rejected": -1.4218388795852661,
+      "logps/chosen": -122.07364654541016,
+      "logps/rejected": -144.00531005859375,
+      "loss": 0.6138,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.15422941744327545,
+      "rewards/margins": 0.4605112373828888,
+      "rewards/rejected": -0.30628180503845215,
+      "step": 340
+    },
+    {
+      "epoch": 0.39609120521172636,
+      "grad_norm": 104.94507394937493,
+      "learning_rate": 1.8926671103348047e-07,
+      "logits/chosen": -1.3103477954864502,
+      "logits/rejected": -1.3303866386413574,
+      "logps/chosen": -118.01762390136719,
+      "logps/rejected": -128.77285766601562,
+      "loss": 0.698,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.1733967363834381,
+      "rewards/margins": 0.22825026512145996,
+      "rewards/rejected": -0.40164700150489807,
+      "step": 342
+    },
+    {
+      "epoch": 0.39840752804922186,
+      "grad_norm": 87.41594646239237,
+      "learning_rate": 1.8909187921081416e-07,
+      "logits/chosen": -1.2882866859436035,
+      "logits/rejected": -1.266202449798584,
+      "logps/chosen": -144.56747436523438,
+      "logps/rejected": -142.6608123779297,
+      "loss": 0.6561,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.08110320568084717,
+      "rewards/margins": 0.10048308968544006,
+      "rewards/rejected": -0.18158632516860962,
+      "step": 344
+    },
+    {
+      "epoch": 0.40072385088671736,
+      "grad_norm": 166.0088927921291,
+      "learning_rate": 1.8891571706780144e-07,
+      "logits/chosen": -1.3238105773925781,
+      "logits/rejected": -1.3814265727996826,
+      "logps/chosen": -135.59217834472656,
+      "logps/rejected": -158.6577911376953,
+      "loss": 0.6647,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2648026645183563,
+      "rewards/margins": 0.6691212058067322,
+      "rewards/rejected": -0.9339239001274109,
+      "step": 346
+    },
+    {
+      "epoch": 0.4030401737242128,
+      "grad_norm": 92.22069522105578,
+      "learning_rate": 1.8873822723489633e-07,
+      "logits/chosen": -1.3072634935379028,
+      "logits/rejected": -1.3363394737243652,
+      "logps/chosen": -179.68614196777344,
+      "logps/rejected": -213.12120056152344,
+      "loss": 0.6272,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.018616102635860443,
+      "rewards/margins": 0.4234482944011688,
+      "rewards/rejected": -0.44206440448760986,
+      "step": 348
+    },
+    {
+      "epoch": 0.4053564965617083,
+      "grad_norm": 70.97764990334171,
+      "learning_rate": 1.8855941236237774e-07,
+      "logits/chosen": -1.2639405727386475,
+      "logits/rejected": -1.2773693799972534,
+      "logps/chosen": -133.8863067626953,
+      "logps/rejected": -170.3965606689453,
+      "loss": 0.5784,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.36297571659088135,
+      "rewards/margins": 0.6825499534606934,
+      "rewards/rejected": -0.3195742070674896,
+      "step": 350
+    },
+    {
+      "epoch": 0.40767281939920375,
+      "grad_norm": 87.3271520781356,
+      "learning_rate": 1.883792751203102e-07,
+      "logits/chosen": -1.2711012363433838,
+      "logits/rejected": -1.2672007083892822,
+      "logps/chosen": -169.25314331054688,
+      "logps/rejected": -167.83010864257812,
+      "loss": 0.608,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.06947077065706253,
+      "rewards/margins": 0.39652663469314575,
+      "rewards/rejected": -0.4659973978996277,
+      "step": 352
+    },
+    {
+      "epoch": 0.40998914223669924,
+      "grad_norm": 82.42288813891042,
+      "learning_rate": 1.8819781819850382e-07,
+      "logits/chosen": -1.2538509368896484,
+      "logits/rejected": -1.2403154373168945,
+      "logps/chosen": -112.01508331298828,
+      "logps/rejected": -122.62294006347656,
+      "loss": 0.6,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.310922235250473,
+      "rewards/margins": 0.5129318237304688,
+      "rewards/rejected": -0.20200954377651215,
+      "step": 354
+    },
+    {
+      "epoch": 0.41230546507419474,
+      "grad_norm": 92.66996742577295,
+      "learning_rate": 1.880150443064742e-07,
+      "logits/chosen": -1.1228657960891724,
+      "logits/rejected": -1.1974968910217285,
+      "logps/chosen": -129.4398193359375,
+      "logps/rejected": -178.6856689453125,
+      "loss": 0.6907,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.1207706406712532,
+      "rewards/margins": 0.8560737371444702,
+      "rewards/rejected": -0.7353031039237976,
+      "step": 356
+    },
+    {
+      "epoch": 0.4146217879116902,
+      "grad_norm": 85.77942086621498,
+      "learning_rate": 1.8783095617340192e-07,
+      "logits/chosen": -1.3269970417022705,
+      "logits/rejected": -1.3102359771728516,
+      "logps/chosen": -138.91845703125,
+      "logps/rejected": -150.00466918945312,
+      "loss": 0.6704,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.25449270009994507,
+      "rewards/margins": 0.06581351906061172,
+      "rewards/rejected": -0.32030627131462097,
+      "step": 358
+    },
+    {
+      "epoch": 0.4169381107491857,
+      "grad_norm": 66.74779859823646,
+      "learning_rate": 1.876455565480918e-07,
+      "logits/chosen": -1.395142912864685,
+      "logits/rejected": -1.4558305740356445,
+      "logps/chosen": -138.25567626953125,
+      "logps/rejected": -142.72232055664062,
+      "loss": 0.608,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.22209802269935608,
+      "rewards/margins": 0.33867061138153076,
+      "rewards/rejected": -0.11657258868217468,
+      "step": 360
+    },
+    {
+      "epoch": 0.41925443358668113,
+      "grad_norm": 69.35743210486372,
+      "learning_rate": 1.8745884819893192e-07,
+      "logits/chosen": -1.3764009475708008,
+      "logits/rejected": -1.4009249210357666,
+      "logps/chosen": -125.95867919921875,
+      "logps/rejected": -147.38038635253906,
+      "loss": 0.5892,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.04307159036397934,
+      "rewards/margins": 0.25595974922180176,
+      "rewards/rejected": -0.21288815140724182,
+      "step": 362
+    },
+    {
+      "epoch": 0.42157075642417663,
+      "grad_norm": 91.06098837601228,
+      "learning_rate": 1.8727083391385219e-07,
+      "logits/chosen": -1.3126693964004517,
+      "logits/rejected": -1.359320044517517,
+      "logps/chosen": -122.15340423583984,
+      "logps/rejected": -152.7900390625,
+      "loss": 0.6084,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.16955101490020752,
+      "rewards/margins": 0.33028605580329895,
+      "rewards/rejected": -0.16073507070541382,
+      "step": 364
+    },
+    {
+      "epoch": 0.4238870792616721,
+      "grad_norm": 60.84745087172502,
+      "learning_rate": 1.8708151650028278e-07,
+      "logits/chosen": -1.3809125423431396,
+      "logits/rejected": -1.403237223625183,
+      "logps/chosen": -109.20733642578125,
+      "logps/rejected": -135.84494018554688,
+      "loss": 0.6428,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.13176926970481873,
+      "rewards/margins": 0.44196146726608276,
+      "rewards/rejected": -0.31019219756126404,
+      "step": 366
+    },
+    {
+      "epoch": 0.42620340209916757,
+      "grad_norm": 83.0289812455712,
+      "learning_rate": 1.8689089878511214e-07,
+      "logits/chosen": -1.2712593078613281,
+      "logits/rejected": -1.3146370649337769,
+      "logps/chosen": -104.22183990478516,
+      "logps/rejected": -117.42278289794922,
+      "loss": 0.6601,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.04589027911424637,
+      "rewards/margins": 0.24963931739330292,
+      "rewards/rejected": -0.2955296039581299,
+      "step": 368
+    },
+    {
+      "epoch": 0.42851972493666307,
+      "grad_norm": 80.18268668813586,
+      "learning_rate": 1.866989836146449e-07,
+      "logits/chosen": -1.367477536201477,
+      "logits/rejected": -1.4047478437423706,
+      "logps/chosen": -156.0530242919922,
+      "logps/rejected": -166.14857482910156,
+      "loss": 0.6033,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.03725311905145645,
+      "rewards/margins": 0.22227245569229126,
+      "rewards/rejected": -0.18501931428909302,
+      "step": 370
+    },
+    {
+      "epoch": 0.4308360477741585,
+      "grad_norm": 85.02940823274966,
+      "learning_rate": 1.8650577385455924e-07,
+      "logits/chosen": -1.3402721881866455,
+      "logits/rejected": -1.3483717441558838,
+      "logps/chosen": -129.09817504882812,
+      "logps/rejected": -133.04421997070312,
+      "loss": 0.578,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.19856195151805878,
+      "rewards/margins": 0.32389020919799805,
+      "rewards/rejected": -0.12532827258110046,
+      "step": 372
+    },
+    {
+      "epoch": 0.433152370611654,
+      "grad_norm": 84.18493319136046,
+      "learning_rate": 1.8631127238986416e-07,
+      "logits/chosen": -1.3070781230926514,
+      "logits/rejected": -1.3111450672149658,
+      "logps/chosen": -100.65834045410156,
+      "logps/rejected": -119.19929504394531,
+      "loss": 0.57,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.15119151771068573,
+      "rewards/margins": 0.44069719314575195,
+      "rewards/rejected": -0.28950563073158264,
+      "step": 374
+    },
+    {
+      "epoch": 0.43546869344914946,
+      "grad_norm": 78.13851817895889,
+      "learning_rate": 1.8611548212485647e-07,
+      "logits/chosen": -1.3796460628509521,
+      "logits/rejected": -1.4454896450042725,
+      "logps/chosen": -137.24407958984375,
+      "logps/rejected": -168.12208557128906,
+      "loss": 0.6024,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.2298029363155365,
+      "rewards/margins": 0.5796483159065247,
+      "rewards/rejected": -0.34984540939331055,
+      "step": 376
+    },
+    {
+      "epoch": 0.43778501628664496,
+      "grad_norm": 87.51427473434556,
+      "learning_rate": 1.8591840598307724e-07,
+      "logits/chosen": -1.3684715032577515,
+      "logits/rejected": -1.41554856300354,
+      "logps/chosen": -156.48861694335938,
+      "logps/rejected": -166.43325805664062,
+      "loss": 0.6099,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.05118772014975548,
+      "rewards/margins": 0.6047709584236145,
+      "rewards/rejected": -0.5535832047462463,
+      "step": 378
+    },
+    {
+      "epoch": 0.4401013391241404,
+      "grad_norm": 97.94077875373094,
+      "learning_rate": 1.8572004690726835e-07,
+      "logits/chosen": -1.4304860830307007,
+      "logits/rejected": -1.3829154968261719,
+      "logps/chosen": -137.7032928466797,
+      "logps/rejected": -159.42665100097656,
+      "loss": 0.6256,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.05912143737077713,
+      "rewards/margins": 0.9181233644485474,
+      "rewards/rejected": -0.8590019941329956,
+      "step": 380
+    },
+    {
+      "epoch": 0.4424176619616359,
+      "grad_norm": 117.47560157505089,
+      "learning_rate": 1.8552040785932843e-07,
+      "logits/chosen": -1.2082271575927734,
+      "logits/rejected": -1.32054603099823,
+      "logps/chosen": -129.3510284423828,
+      "logps/rejected": -139.3075714111328,
+      "loss": 0.6776,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.08690177649259567,
+      "rewards/margins": 0.17026250064373016,
+      "rewards/rejected": -0.08336074650287628,
+      "step": 382
+    },
+    {
+      "epoch": 0.4447339847991314,
+      "grad_norm": 83.36856549076099,
+      "learning_rate": 1.8531949182026864e-07,
+      "logits/chosen": -1.213942289352417,
+      "logits/rejected": -1.2501431703567505,
+      "logps/chosen": -87.4649658203125,
+      "logps/rejected": -105.31576538085938,
+      "loss": 0.6473,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.07069863379001617,
+      "rewards/margins": 0.28086185455322266,
+      "rewards/rejected": -0.3515605032444,
+      "step": 384
+    },
+    {
+      "epoch": 0.44705030763662684,
+      "grad_norm": 93.35125079656054,
+      "learning_rate": 1.851173017901682e-07,
+      "logits/chosen": -1.2774831056594849,
+      "logits/rejected": -1.3458952903747559,
+      "logps/chosen": -134.04624938964844,
+      "logps/rejected": -148.02565002441406,
+      "loss": 0.6516,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.0875653326511383,
+      "rewards/margins": 0.029335327446460724,
+      "rewards/rejected": -0.11690068244934082,
+      "step": 386
+    },
+    {
+      "epoch": 0.44936663047412234,
+      "grad_norm": 94.38591902404973,
+      "learning_rate": 1.8491384078812957e-07,
+      "logits/chosen": -1.3489183187484741,
+      "logits/rejected": -1.3692617416381836,
+      "logps/chosen": -158.86729431152344,
+      "logps/rejected": -175.22946166992188,
+      "loss": 0.6085,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.01937798410654068,
+      "rewards/margins": 0.4567859470844269,
+      "rewards/rejected": -0.4374079406261444,
+      "step": 388
+    },
+    {
+      "epoch": 0.4516829533116178,
+      "grad_norm": 82.79409553577226,
+      "learning_rate": 1.847091118522333e-07,
+      "logits/chosen": -1.2354220151901245,
+      "logits/rejected": -1.1955327987670898,
+      "logps/chosen": -100.98146057128906,
+      "logps/rejected": -106.97394561767578,
+      "loss": 0.6118,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.024054907262325287,
+      "rewards/margins": 0.4244306981563568,
+      "rewards/rejected": -0.40037575364112854,
+      "step": 390
+    },
+    {
+      "epoch": 0.4539992761491133,
+      "grad_norm": 68.23646218496863,
+      "learning_rate": 1.8450311803949288e-07,
+      "logits/chosen": -1.4198896884918213,
+      "logits/rejected": -1.339991807937622,
+      "logps/chosen": -96.33162689208984,
+      "logps/rejected": -106.24251556396484,
+      "loss": 0.626,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.14840683341026306,
+      "rewards/margins": 0.3869977295398712,
+      "rewards/rejected": -0.23859092593193054,
+      "step": 392
+    },
+    {
+      "epoch": 0.4563155989866088,
+      "grad_norm": 90.98509885957323,
+      "learning_rate": 1.842958624258088e-07,
+      "logits/chosen": -1.4057539701461792,
+      "logits/rejected": -1.4758132696151733,
+      "logps/chosen": -122.16340637207031,
+      "logps/rejected": -123.98712158203125,
+      "loss": 0.6429,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.053804248571395874,
+      "rewards/margins": 0.13191546499729156,
+      "rewards/rejected": -0.0781112089753151,
+      "step": 394
+    },
+    {
+      "epoch": 0.4586319218241042,
+      "grad_norm": 90.51866810043896,
+      "learning_rate": 1.8408734810592286e-07,
+      "logits/chosen": -1.3948010206222534,
+      "logits/rejected": -1.4117646217346191,
+      "logps/chosen": -170.54193115234375,
+      "logps/rejected": -179.2427978515625,
+      "loss": 0.5834,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.059171393513679504,
+      "rewards/margins": 0.42534855008125305,
+      "rewards/rejected": -0.36617720127105713,
+      "step": 396
+    },
+    {
+      "epoch": 0.4609482446615997,
+      "grad_norm": 93.16409936228983,
+      "learning_rate": 1.838775781933718e-07,
+      "logits/chosen": -1.2591919898986816,
+      "logits/rejected": -1.278662085533142,
+      "logps/chosen": -133.6868133544922,
+      "logps/rejected": -160.47731018066406,
+      "loss": 0.6789,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.12275616079568863,
+      "rewards/margins": 0.09390115737915039,
+      "rewards/rejected": -0.21665732562541962,
+      "step": 398
+    },
+    {
+      "epoch": 0.46326456749909517,
+      "grad_norm": 85.0019450300031,
+      "learning_rate": 1.8366655582044093e-07,
+      "logits/chosen": -1.295358419418335,
+      "logits/rejected": -1.3356658220291138,
+      "logps/chosen": -82.7631607055664,
+      "logps/rejected": -102.0246810913086,
+      "loss": 0.6151,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.2104763686656952,
+      "rewards/margins": 0.3289705812931061,
+      "rewards/rejected": -0.5394470691680908,
+      "step": 400
+    },
+    {
+      "epoch": 0.46326456749909517,
+      "eval_logits/chosen": -1.3069441318511963,
+      "eval_logits/rejected": -1.3023654222488403,
+      "eval_logps/chosen": -140.2086944580078,
+      "eval_logps/rejected": -139.57632446289062,
+      "eval_loss": 0.6798678040504456,
+      "eval_rewards/accuracies": 0.6000000238418579,
+      "eval_rewards/chosen": -0.4577521085739136,
+      "eval_rewards/margins": 0.10452325642108917,
+      "eval_rewards/rejected": -0.5622754096984863,
+      "eval_runtime": 26.7292,
+      "eval_samples_per_second": 3.741,
+      "eval_steps_per_second": 0.935,
+      "step": 400
+    },
+    {
+      "epoch": 0.46558089033659067,
+      "grad_norm": 107.62190686868198,
+      "learning_rate": 1.834542841381173e-07,
+      "logits/chosen": -1.4000458717346191,
+      "logits/rejected": -1.4169011116027832,
+      "logps/chosen": -187.33409118652344,
+      "logps/rejected": -207.20140075683594,
+      "loss": 0.5555,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.11752481758594513,
+      "rewards/margins": 0.4881589412689209,
+      "rewards/rejected": -0.6056837439537048,
+      "step": 402
+    },
+    {
+      "epoch": 0.4678972131740861,
+      "grad_norm": 81.84841168291128,
+      "learning_rate": 1.8324076631604262e-07,
+      "logits/chosen": -1.2451642751693726,
+      "logits/rejected": -1.2964147329330444,
+      "logps/chosen": -136.41270446777344,
+      "logps/rejected": -156.53018188476562,
+      "loss": 0.6282,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.1907982975244522,
+      "rewards/margins": 0.6749911308288574,
+      "rewards/rejected": -0.8657894134521484,
+      "step": 404
+    },
+    {
+      "epoch": 0.4702135360115816,
+      "grad_norm": 70.51232634632699,
+      "learning_rate": 1.8302600554246598e-07,
+      "logits/chosen": -1.2217371463775635,
+      "logits/rejected": -1.2302532196044922,
+      "logps/chosen": -109.1505355834961,
+      "logps/rejected": -124.399169921875,
+      "loss": 0.5908,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.011890493333339691,
+      "rewards/margins": 0.41306906938552856,
+      "rewards/rejected": -0.42495957016944885,
+      "step": 406
+    },
+    {
+      "epoch": 0.4725298588490771,
+      "grad_norm": 157.73563743497198,
+      "learning_rate": 1.8281000502419624e-07,
+      "logits/chosen": -1.316713809967041,
+      "logits/rejected": -1.3389533758163452,
+      "logps/chosen": -123.63529968261719,
+      "logps/rejected": -128.41409301757812,
+      "loss": 0.6549,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.4301506578922272,
+      "rewards/margins": 0.16745811700820923,
+      "rewards/rejected": -0.597608745098114,
+      "step": 408
+    },
+    {
+      "epoch": 0.47484618168657255,
+      "grad_norm": 107.85099770446011,
+      "learning_rate": 1.8259276798655412e-07,
+      "logits/chosen": -1.3569673299789429,
+      "logits/rejected": -1.3319692611694336,
+      "logps/chosen": -149.51708984375,
+      "logps/rejected": -185.8908233642578,
+      "loss": 0.6863,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.11509159207344055,
+      "rewards/margins": 0.3641398549079895,
+      "rewards/rejected": -0.47923144698143005,
+      "step": 410
+    },
+    {
+      "epoch": 0.47716250452406805,
+      "grad_norm": 109.31239844961944,
+      "learning_rate": 1.8237429767332405e-07,
+      "logits/chosen": -1.3673866987228394,
+      "logits/rejected": -1.4460492134094238,
+      "logps/chosen": -144.90838623046875,
+      "logps/rejected": -157.9684295654297,
+      "loss": 0.6105,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.08836071193218231,
+      "rewards/margins": 0.6367740631103516,
+      "rewards/rejected": -0.7251348495483398,
+      "step": 412
+    },
+    {
+      "epoch": 0.4794788273615635,
+      "grad_norm": 79.38161196529609,
+      "learning_rate": 1.8215459734670573e-07,
+      "logits/chosen": -1.341538667678833,
+      "logits/rejected": -1.371129035949707,
+      "logps/chosen": -135.0418243408203,
+      "logps/rejected": -181.38201904296875,
+      "loss": 0.6121,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.04946846514940262,
+      "rewards/margins": 0.8221450448036194,
+      "rewards/rejected": -0.7726765871047974,
+      "step": 414
+    },
+    {
+      "epoch": 0.481795150199059,
+      "grad_norm": 98.8037188643182,
+      "learning_rate": 1.8193367028726547e-07,
+      "logits/chosen": -1.1779212951660156,
+      "logits/rejected": -1.2224653959274292,
+      "logps/chosen": -91.48204040527344,
+      "logps/rejected": -109.18719482421875,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.05973606929183006,
+      "rewards/margins": 0.11246003955602646,
+      "rewards/rejected": -0.0527239665389061,
+      "step": 416
+    },
+    {
+      "epoch": 0.4841114730365545,
+      "grad_norm": 75.72657378652657,
+      "learning_rate": 1.8171151979388712e-07,
+      "logits/chosen": -1.2831331491470337,
+      "logits/rejected": -1.3463534116744995,
+      "logps/chosen": -155.19076538085938,
+      "logps/rejected": -191.88758850097656,
+      "loss": 0.612,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.32773423194885254,
+      "rewards/margins": 0.40678921341896057,
+      "rewards/rejected": -0.7345234751701355,
+      "step": 418
+    },
+    {
+      "epoch": 0.48642779587404994,
+      "grad_norm": 88.72825200499656,
+      "learning_rate": 1.8148814918372285e-07,
+      "logits/chosen": -1.2322022914886475,
+      "logits/rejected": -1.2740528583526611,
+      "logps/chosen": -125.58689880371094,
+      "logps/rejected": -145.04537963867188,
+      "loss": 0.6336,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.02973347157239914,
+      "rewards/margins": 0.28559258580207825,
+      "rewards/rejected": -0.3153260350227356,
+      "step": 420
+    },
+    {
+      "epoch": 0.48874411871154544,
+      "grad_norm": 84.14984078776182,
+      "learning_rate": 1.8126356179214365e-07,
+      "logits/chosen": -1.3616023063659668,
+      "logits/rejected": -1.3728755712509155,
+      "logps/chosen": -113.55232238769531,
+      "logps/rejected": -120.91179656982422,
+      "loss": 0.6093,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.14902538061141968,
+      "rewards/margins": 0.14539653062820435,
+      "rewards/rejected": -0.294421911239624,
+      "step": 422
+    },
+    {
+      "epoch": 0.4910604415490409,
+      "grad_norm": 102.58844455062285,
+      "learning_rate": 1.8103776097268942e-07,
+      "logits/chosen": -1.3973523378372192,
+      "logits/rejected": -1.4224525690078735,
+      "logps/chosen": -146.35865783691406,
+      "logps/rejected": -155.32872009277344,
+      "loss": 0.5969,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.18615968525409698,
+      "rewards/margins": 0.1702008694410324,
+      "rewards/rejected": -0.3563604950904846,
+      "step": 424
+    },
+    {
+      "epoch": 0.4933767643865364,
+      "grad_norm": 97.6281549014596,
+      "learning_rate": 1.8081075009701908e-07,
+      "logits/chosen": -1.3393031358718872,
+      "logits/rejected": -1.3568938970565796,
+      "logps/chosen": -156.75132751464844,
+      "logps/rejected": -183.3557891845703,
+      "loss": 0.5524,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.006147988140583038,
+      "rewards/margins": 0.6164807677268982,
+      "rewards/rejected": -0.6103328466415405,
+      "step": 426
+    },
+    {
+      "epoch": 0.4956930872240318,
+      "grad_norm": 79.28532180545582,
+      "learning_rate": 1.8058253255486004e-07,
+      "logits/chosen": -1.479441523551941,
+      "logits/rejected": -1.455161213874817,
+      "logps/chosen": -149.18377685546875,
+      "logps/rejected": -175.40121459960938,
+      "loss": 0.6324,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.16930466890335083,
+      "rewards/margins": 0.3928312659263611,
+      "rewards/rejected": -0.5621359348297119,
+      "step": 428
+    },
+    {
+      "epoch": 0.4980094100615273,
+      "grad_norm": 75.50103825872334,
+      "learning_rate": 1.8035311175395766e-07,
+      "logits/chosen": -1.279894232749939,
+      "logits/rejected": -1.366225004196167,
+      "logps/chosen": -149.7015838623047,
+      "logps/rejected": -169.37600708007812,
+      "loss": 0.634,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.10414651781320572,
+      "rewards/margins": 0.31277552247047424,
+      "rewards/rejected": -0.20862898230552673,
+      "step": 430
+    },
+    {
+      "epoch": 0.5003257328990228,
+      "grad_norm": 110.71149959510932,
+      "learning_rate": 1.8012249112002445e-07,
+      "logits/chosen": -1.3446143865585327,
+      "logits/rejected": -1.346205234527588,
+      "logps/chosen": -135.6072998046875,
+      "logps/rejected": -148.6031951904297,
+      "loss": 0.6534,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.04478984698653221,
+      "rewards/margins": 0.20214848220348358,
+      "rewards/rejected": -0.2469383329153061,
+      "step": 432
+    },
+    {
+      "epoch": 0.5026420557365183,
+      "grad_norm": 99.01624284418935,
+      "learning_rate": 1.7989067409668867e-07,
+      "logits/chosen": -1.3353965282440186,
+      "logits/rejected": -1.3816275596618652,
+      "logps/chosen": -83.31758117675781,
+      "logps/rejected": -101.72441101074219,
+      "loss": 0.65,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.16134825348854065,
+      "rewards/margins": 0.24150311946868896,
+      "rewards/rejected": -0.0801548883318901,
+      "step": 434
+    },
+    {
+      "epoch": 0.5049583785740137,
+      "grad_norm": 85.01833595262721,
+      "learning_rate": 1.7965766414544326e-07,
+      "logits/chosen": -1.3208928108215332,
+      "logits/rejected": -1.4323692321777344,
+      "logps/chosen": -170.11387634277344,
+      "logps/rejected": -190.21917724609375,
+      "loss": 0.5937,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.06436862796545029,
+      "rewards/margins": 0.4921523928642273,
+      "rewards/rejected": -0.5565209984779358,
+      "step": 436
+    },
+    {
+      "epoch": 0.5072747014115092,
+      "grad_norm": 78.22902080084621,
+      "learning_rate": 1.794234647455938e-07,
+      "logits/chosen": -1.5033388137817383,
+      "logits/rejected": -1.4195587635040283,
+      "logps/chosen": -167.2239227294922,
+      "logps/rejected": -187.388427734375,
+      "loss": 0.5993,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.00830845721065998,
+      "rewards/margins": 0.36755993962287903,
+      "rewards/rejected": -0.37586843967437744,
+      "step": 438
+    },
+    {
+      "epoch": 0.5095910242490047,
+      "grad_norm": 93.03449604866357,
+      "learning_rate": 1.7918807939420688e-07,
+      "logits/chosen": -1.2785309553146362,
+      "logits/rejected": -1.3855379819869995,
+      "logps/chosen": -106.93773651123047,
+      "logps/rejected": -136.5991668701172,
+      "loss": 0.5876,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.07631123065948486,
+      "rewards/margins": 0.45985180139541626,
+      "rewards/rejected": -0.3835405707359314,
+      "step": 440
+    },
+    {
+      "epoch": 0.5119073470865002,
+      "grad_norm": 98.9210182597883,
+      "learning_rate": 1.7895151160605755e-07,
+      "logits/chosen": -1.4166314601898193,
+      "logits/rejected": -1.3835158348083496,
+      "logps/chosen": -187.5051727294922,
+      "logps/rejected": -196.1830596923828,
+      "loss": 0.5841,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.13197794556617737,
+      "rewards/margins": 0.36578553915023804,
+      "rewards/rejected": -0.49776342511177063,
+      "step": 442
+    },
+    {
+      "epoch": 0.5142236699239957,
+      "grad_norm": 83.90736102267026,
+      "learning_rate": 1.7871376491357716e-07,
+      "logits/chosen": -1.3803664445877075,
+      "logits/rejected": -1.3876008987426758,
+      "logps/chosen": -147.97230529785156,
+      "logps/rejected": -158.1250762939453,
+      "loss": 0.6266,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.05537159740924835,
+      "rewards/margins": 0.3145188093185425,
+      "rewards/rejected": -0.2591472268104553,
+      "step": 444
+    },
+    {
+      "epoch": 0.5165399927614911,
+      "grad_norm": 83.18792426148275,
+      "learning_rate": 1.7847484286680036e-07,
+      "logits/chosen": -1.2037944793701172,
+      "logits/rejected": -1.3015272617340088,
+      "logps/chosen": -116.46647644042969,
+      "logps/rejected": -133.59059143066406,
+      "loss": 0.6422,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.2899719476699829,
+      "rewards/margins": 0.47784021496772766,
+      "rewards/rejected": -0.767812192440033,
+      "step": 446
+    },
+    {
+      "epoch": 0.5188563155989866,
+      "grad_norm": 86.96480601224319,
+      "learning_rate": 1.782347490333123e-07,
+      "logits/chosen": -1.3997318744659424,
+      "logits/rejected": -1.3888890743255615,
+      "logps/chosen": -168.47235107421875,
+      "logps/rejected": -173.81881713867188,
+      "loss": 0.5883,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.2631508708000183,
+      "rewards/margins": 0.40129777789115906,
+      "rewards/rejected": -0.13814686238765717,
+      "step": 448
+    },
+    {
+      "epoch": 0.5211726384364821,
+      "grad_norm": 68.31450376756777,
+      "learning_rate": 1.7799348699819518e-07,
+      "logits/chosen": -1.3524158000946045,
+      "logits/rejected": -1.3299603462219238,
+      "logps/chosen": -121.39910888671875,
+      "logps/rejected": -131.10423278808594,
+      "loss": 0.5874,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.28284794092178345,
+      "rewards/margins": 0.3859240412712097,
+      "rewards/rejected": -0.10307610780000687,
+      "step": 450
+    },
+    {
+      "epoch": 0.5234889612739776,
+      "grad_norm": 111.76852046416136,
+      "learning_rate": 1.7775106036397474e-07,
+      "logits/chosen": -1.2830047607421875,
+      "logits/rejected": -1.3414244651794434,
+      "logps/chosen": -130.662353515625,
+      "logps/rejected": -179.69061279296875,
+      "loss": 0.5992,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.22120808064937592,
+      "rewards/margins": 1.2555629014968872,
+      "rewards/rejected": -1.0343549251556396,
+      "step": 452
+    },
+    {
+      "epoch": 0.525805284111473,
+      "grad_norm": 67.76003255019495,
+      "learning_rate": 1.775074727505667e-07,
+      "logits/chosen": -1.1533057689666748,
+      "logits/rejected": -1.294029951095581,
+      "logps/chosen": -149.02322387695312,
+      "logps/rejected": -172.8708953857422,
+      "loss": 0.5608,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.04835113137960434,
+      "rewards/margins": 0.28162479400634766,
+      "rewards/rejected": -0.3299759328365326,
+      "step": 454
+    },
+    {
+      "epoch": 0.5281216069489685,
+      "grad_norm": 85.70884472679678,
+      "learning_rate": 1.7726272779522228e-07,
+      "logits/chosen": -1.2949302196502686,
+      "logits/rejected": -1.387807846069336,
+      "logps/chosen": -159.39170837402344,
+      "logps/rejected": -189.28244018554688,
+      "loss": 0.6753,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.12795251607894897,
+      "rewards/margins": 0.3282526135444641,
+      "rewards/rejected": -0.20030008256435394,
+      "step": 456
+    },
+    {
+      "epoch": 0.530437929786464,
+      "grad_norm": 69.96049512457706,
+      "learning_rate": 1.7701682915247437e-07,
+      "logits/chosen": -1.1357134580612183,
+      "logits/rejected": -1.2111129760742188,
+      "logps/chosen": -168.00326538085938,
+      "logps/rejected": -185.22506713867188,
+      "loss": 0.6102,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.46182161569595337,
+      "rewards/margins": 0.4477265477180481,
+      "rewards/rejected": -0.9095481634140015,
+      "step": 458
+    },
+    {
+      "epoch": 0.5327542526239595,
+      "grad_norm": 101.3186304412605,
+      "learning_rate": 1.7676978049408259e-07,
+      "logits/chosen": -1.3433293104171753,
+      "logits/rejected": -1.3274402618408203,
+      "logps/chosen": -129.25802612304688,
+      "logps/rejected": -149.58999633789062,
+      "loss": 0.6877,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.09710556268692017,
+      "rewards/margins": 0.5576457977294922,
+      "rewards/rejected": -0.6547513604164124,
+      "step": 460
+    },
+    {
+      "epoch": 0.535070575461455,
+      "grad_norm": 101.53493027467981,
+      "learning_rate": 1.7652158550897863e-07,
+      "logits/chosen": -1.2119991779327393,
+      "logits/rejected": -1.254407525062561,
+      "logps/chosen": -124.32587432861328,
+      "logps/rejected": -141.7906036376953,
+      "loss": 0.6527,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.07976742088794708,
+      "rewards/margins": 0.11116158217191696,
+      "rewards/rejected": -0.19092898070812225,
+      "step": 462
+    },
+    {
+      "epoch": 0.5373868982989504,
+      "grad_norm": 72.67582060276438,
+      "learning_rate": 1.7627224790321116e-07,
+      "logits/chosen": -1.3650070428848267,
+      "logits/rejected": -1.3934192657470703,
+      "logps/chosen": -111.0053939819336,
+      "logps/rejected": -128.06703186035156,
+      "loss": 0.6384,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.09877490997314453,
+      "rewards/margins": 0.22652901709079742,
+      "rewards/rejected": -0.1277541220188141,
+      "step": 464
+    },
+    {
+      "epoch": 0.5397032211364459,
+      "grad_norm": 104.80291110492522,
+      "learning_rate": 1.7602177139989042e-07,
+      "logits/chosen": -1.2948188781738281,
+      "logits/rejected": -1.3249576091766357,
+      "logps/chosen": -113.75486755371094,
+      "logps/rejected": -135.57427978515625,
+      "loss": 0.6462,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.04134136065840721,
+      "rewards/margins": 0.30063849687576294,
+      "rewards/rejected": -0.25929710268974304,
+      "step": 466
+    },
+    {
+      "epoch": 0.5420195439739414,
+      "grad_norm": 78.82420405990091,
+      "learning_rate": 1.7577015973913274e-07,
+      "logits/chosen": -1.2992827892303467,
+      "logits/rejected": -1.3570318222045898,
+      "logps/chosen": -131.05203247070312,
+      "logps/rejected": -151.40420532226562,
+      "loss": 0.6198,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.12259967625141144,
+      "rewards/margins": 0.3709834814071655,
+      "rewards/rejected": -0.2483838051557541,
+      "step": 468
+    },
+    {
+      "epoch": 0.5443358668114369,
+      "grad_norm": 72.33642230267687,
+      "learning_rate": 1.755174166780045e-07,
+      "logits/chosen": -1.1955764293670654,
+      "logits/rejected": -1.304951786994934,
+      "logps/chosen": -132.34945678710938,
+      "logps/rejected": -160.3063201904297,
+      "loss": 0.5581,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.14929035305976868,
+      "rewards/margins": 0.9690365791320801,
+      "rewards/rejected": -0.8197463154792786,
+      "step": 470
+    },
+    {
+      "epoch": 0.5466521896489324,
+      "grad_norm": 95.99345130843376,
+      "learning_rate": 1.7526354599046632e-07,
+      "logits/chosen": -1.3738641738891602,
+      "logits/rejected": -1.4558396339416504,
+      "logps/chosen": -124.96098327636719,
+      "logps/rejected": -148.17123413085938,
+      "loss": 0.6421,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.09812385588884354,
+      "rewards/margins": 0.24952289462089539,
+      "rewards/rejected": -0.15139903128147125,
+      "step": 472
+    },
+    {
+      "epoch": 0.5489685124864278,
+      "grad_norm": 80.16504208727451,
+      "learning_rate": 1.7500855146731648e-07,
+      "logits/chosen": -1.2267169952392578,
+      "logits/rejected": -1.2515380382537842,
+      "logps/chosen": -148.4540557861328,
+      "logps/rejected": -180.935791015625,
+      "loss": 0.6187,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.06260286271572113,
+      "rewards/margins": 1.7078866958618164,
+      "rewards/rejected": -1.7704894542694092,
+      "step": 474
+    },
+    {
+      "epoch": 0.5512848353239233,
+      "grad_norm": 113.11770155446688,
+      "learning_rate": 1.747524369161343e-07,
+      "logits/chosen": -1.3779189586639404,
+      "logits/rejected": -1.3472117185592651,
+      "logps/chosen": -137.42312622070312,
+      "logps/rejected": -141.66329956054688,
+      "loss": 0.6569,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.24386143684387207,
+      "rewards/margins": 0.2617953419685364,
+      "rewards/rejected": -0.5056568384170532,
+      "step": 476
+    },
+    {
+      "epoch": 0.5536011581614187,
+      "grad_norm": 119.83970905986772,
+      "learning_rate": 1.744952061612234e-07,
+      "logits/chosen": -1.4478602409362793,
+      "logits/rejected": -1.470253348350525,
+      "logps/chosen": -162.07476806640625,
+      "logps/rejected": -187.415283203125,
+      "loss": 0.6087,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.03821418434381485,
+      "rewards/margins": 0.7775447368621826,
+      "rewards/rejected": -0.739330530166626,
+      "step": 478
+    },
+    {
+      "epoch": 0.5559174809989142,
+      "grad_norm": 82.18148965783794,
+      "learning_rate": 1.7423686304355468e-07,
+      "logits/chosen": -1.4132378101348877,
+      "logits/rejected": -1.4143118858337402,
+      "logps/chosen": -135.87957763671875,
+      "logps/rejected": -154.1642608642578,
+      "loss": 0.604,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.36500078439712524,
+      "rewards/margins": 0.42764222621917725,
+      "rewards/rejected": -0.7926430106163025,
+      "step": 480
+    },
+    {
+      "epoch": 0.5582338038364097,
+      "grad_norm": 80.80323897214724,
+      "learning_rate": 1.7397741142070867e-07,
+      "logits/chosen": -1.3779712915420532,
+      "logits/rejected": -1.3945672512054443,
+      "logps/chosen": -172.9818115234375,
+      "logps/rejected": -181.16062927246094,
+      "loss": 0.5964,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.04211435094475746,
+      "rewards/margins": 0.4079417586326599,
+      "rewards/rejected": -0.36582741141319275,
+      "step": 482
+    },
+    {
+      "epoch": 0.5605501266739051,
+      "grad_norm": 76.61028661180849,
+      "learning_rate": 1.737168551668182e-07,
+      "logits/chosen": -1.190808653831482,
+      "logits/rejected": -1.271024465560913,
+      "logps/chosen": -131.51797485351562,
+      "logps/rejected": -167.06590270996094,
+      "loss": 0.5975,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.07135076820850372,
+      "rewards/margins": 0.8735796213150024,
+      "rewards/rejected": -0.9449302554130554,
+      "step": 484
+    },
+    {
+      "epoch": 0.5628664495114006,
+      "grad_norm": 80.91548302041826,
+      "learning_rate": 1.7345519817251053e-07,
+      "logits/chosen": -1.3176366090774536,
+      "logits/rejected": -1.331200122833252,
+      "logps/chosen": -145.1810760498047,
+      "logps/rejected": -171.1893768310547,
+      "loss": 0.6177,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.01799055188894272,
+      "rewards/margins": 0.4896019399166107,
+      "rewards/rejected": -0.507592499256134,
+      "step": 486
+    },
+    {
+      "epoch": 0.5651827723488961,
+      "grad_norm": 89.40658710689003,
+      "learning_rate": 1.7319244434484895e-07,
+      "logits/chosen": -1.2093366384506226,
+      "logits/rejected": -1.1616159677505493,
+      "logps/chosen": -140.53761291503906,
+      "logps/rejected": -141.9064483642578,
+      "loss": 0.6064,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.2011549472808838,
+      "rewards/margins": 0.3880937099456787,
+      "rewards/rejected": -0.5892486572265625,
+      "step": 488
+    },
+    {
+      "epoch": 0.5674990951863916,
+      "grad_norm": 76.26303147749239,
+      "learning_rate": 1.7292859760727492e-07,
+      "logits/chosen": -1.2799924612045288,
+      "logits/rejected": -1.296557903289795,
+      "logps/chosen": -117.47547912597656,
+      "logps/rejected": -129.87294006347656,
+      "loss": 0.6132,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.10736295580863953,
+      "rewards/margins": 0.3569309115409851,
+      "rewards/rejected": -0.464293897151947,
+      "step": 490
+    },
+    {
+      "epoch": 0.5698154180238871,
+      "grad_norm": 95.13972864679343,
+      "learning_rate": 1.7266366189954905e-07,
+      "logits/chosen": -1.348731517791748,
+      "logits/rejected": -1.3340685367584229,
+      "logps/chosen": -150.54696655273438,
+      "logps/rejected": -185.81204223632812,
+      "loss": 0.6421,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.1124522015452385,
+      "rewards/margins": 0.7442688941955566,
+      "rewards/rejected": -0.856721043586731,
+      "step": 492
+    },
+    {
+      "epoch": 0.5721317408613825,
+      "grad_norm": 106.06131234014966,
+      "learning_rate": 1.7239764117769258e-07,
+      "logits/chosen": -1.3093186616897583,
+      "logits/rejected": -1.3834538459777832,
+      "logps/chosen": -193.04637145996094,
+      "logps/rejected": -233.44293212890625,
+      "loss": 0.6109,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.16808415949344635,
+      "rewards/margins": 1.2206228971481323,
+      "rewards/rejected": -1.388707160949707,
+      "step": 494
+    },
+    {
+      "epoch": 0.574448063698878,
+      "grad_norm": 96.07655487217647,
+      "learning_rate": 1.7213053941392816e-07,
+      "logits/chosen": -1.330100417137146,
+      "logits/rejected": -1.354781150817871,
+      "logps/chosen": -157.2327880859375,
+      "logps/rejected": -173.35081481933594,
+      "loss": 0.572,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.055093757808208466,
+      "rewards/margins": 0.6396900415420532,
+      "rewards/rejected": -0.5845962166786194,
+      "step": 496
+    },
+    {
+      "epoch": 0.5767643865363735,
+      "grad_norm": 90.87905253835972,
+      "learning_rate": 1.7186236059662046e-07,
+      "logits/chosen": -1.4015512466430664,
+      "logits/rejected": -1.4518334865570068,
+      "logps/chosen": -132.65196228027344,
+      "logps/rejected": -143.88650512695312,
+      "loss": 0.6587,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.07620470970869064,
+      "rewards/margins": 0.09850985556840897,
+      "rewards/rejected": -0.1747145652770996,
+      "step": 498
+    },
+    {
+      "epoch": 0.579080709373869,
+      "grad_norm": 58.33509354958709,
+      "learning_rate": 1.7159310873021693e-07,
+      "logits/chosen": -1.464751124382019,
+      "logits/rejected": -1.4334102869033813,
+      "logps/chosen": -111.387939453125,
+      "logps/rejected": -117.49159240722656,
+      "loss": 0.5577,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.29490286111831665,
+      "rewards/margins": 0.8083434700965881,
+      "rewards/rejected": -0.5134405493736267,
+      "step": 500
+    },
+    {
+      "epoch": 0.579080709373869,
+      "eval_logits/chosen": -1.3100072145462036,
+      "eval_logits/rejected": -1.304487943649292,
+      "eval_logps/chosen": -139.44586181640625,
+      "eval_logps/rejected": -139.48992919921875,
+      "eval_loss": 0.654407262802124,
+      "eval_rewards/accuracies": 0.6000000238418579,
+      "eval_rewards/chosen": -0.38146913051605225,
+      "eval_rewards/margins": 0.17216716706752777,
+      "eval_rewards/rejected": -0.5536363124847412,
+      "eval_runtime": 24.0833,
+      "eval_samples_per_second": 4.152,
+      "eval_steps_per_second": 1.038,
+      "step": 500
+    },
+    {
+      "epoch": 0.5813970322113644,
+      "grad_norm": 85.71410602529986,
+      "learning_rate": 1.7132278783518754e-07,
+      "logits/chosen": -1.2767977714538574,
+      "logits/rejected": -1.3142091035842896,
+      "logps/chosen": -132.83477783203125,
+      "logps/rejected": -152.29600524902344,
+      "loss": 0.6423,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -0.3583824038505554,
+      "rewards/margins": 0.2208695262670517,
+      "rewards/rejected": -0.5792520046234131,
+      "step": 502
+    },
+    {
+      "epoch": 0.5837133550488599,
+      "grad_norm": 74.14800888172827,
+      "learning_rate": 1.7105140194796522e-07,
+      "logits/chosen": -1.3712527751922607,
+      "logits/rejected": -1.425230860710144,
+      "logps/chosen": -175.75039672851562,
+      "logps/rejected": -202.72731018066406,
+      "loss": 0.5921,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.03632951155304909,
+      "rewards/margins": 0.9486851692199707,
+      "rewards/rejected": -0.9850146174430847,
+      "step": 504
+    },
+    {
+      "epoch": 0.5860296778863554,
+      "grad_norm": 71.00059592227518,
+      "learning_rate": 1.707789551208852e-07,
+      "logits/chosen": -1.2654979228973389,
+      "logits/rejected": -1.3367087841033936,
+      "logps/chosen": -107.92752075195312,
+      "logps/rejected": -137.77261352539062,
+      "loss": 0.5964,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.22204995155334473,
+      "rewards/margins": 0.47908443212509155,
+      "rewards/rejected": -0.2570344805717468,
+      "step": 506
+    },
+    {
+      "epoch": 0.5883460007238509,
+      "grad_norm": 80.94401296109848,
+      "learning_rate": 1.705054514221248e-07,
+      "logits/chosen": -1.359083652496338,
+      "logits/rejected": -1.262428879737854,
+      "logps/chosen": -128.09751892089844,
+      "logps/rejected": -112.98042297363281,
+      "loss": 0.5995,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.007966872304677963,
+      "rewards/margins": 0.3093283772468567,
+      "rewards/rejected": -0.31729522347450256,
+      "step": 508
+    },
+    {
+      "epoch": 0.5906623235613464,
+      "grad_norm": 117.75539638738908,
+      "learning_rate": 1.7023089493564246e-07,
+      "logits/chosen": -1.3026072978973389,
+      "logits/rejected": -1.3078409433364868,
+      "logps/chosen": -157.6989288330078,
+      "logps/rejected": -171.07347106933594,
+      "loss": 0.6652,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.17687593400478363,
+      "rewards/margins": 0.22165895998477936,
+      "rewards/rejected": -0.398534893989563,
+      "step": 510
+    },
+    {
+      "epoch": 0.5929786463988418,
+      "grad_norm": 86.54731628654646,
+      "learning_rate": 1.6995528976111692e-07,
+      "logits/chosen": -1.3644428253173828,
+      "logits/rejected": -1.359837532043457,
+      "logps/chosen": -118.70327758789062,
+      "logps/rejected": -129.3509979248047,
+      "loss": 0.6307,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.16805267333984375,
+      "rewards/margins": 0.45584040880203247,
+      "rewards/rejected": -0.2877877354621887,
+      "step": 512
+    },
+    {
+      "epoch": 0.5952949692363373,
+      "grad_norm": 87.28044950941617,
+      "learning_rate": 1.6967864001388587e-07,
+      "logits/chosen": -1.383012294769287,
+      "logits/rejected": -1.372816562652588,
+      "logps/chosen": -112.56473541259766,
+      "logps/rejected": -113.43563842773438,
+      "loss": 0.5892,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.07795768231153488,
+      "rewards/margins": 0.3844006359577179,
+      "rewards/rejected": -0.30644291639328003,
+      "step": 514
+    },
+    {
+      "epoch": 0.5976112920738328,
+      "grad_norm": 93.89694914049578,
+      "learning_rate": 1.6940094982488465e-07,
+      "logits/chosen": -1.3544152975082397,
+      "logits/rejected": -1.4398796558380127,
+      "logps/chosen": -174.69073486328125,
+      "logps/rejected": -213.37953186035156,
+      "loss": 0.6402,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.2562227249145508,
+      "rewards/margins": 0.7131789922714233,
+      "rewards/rejected": -0.45695626735687256,
+      "step": 516
+    },
+    {
+      "epoch": 0.5999276149113283,
+      "grad_norm": 93.38206179293249,
+      "learning_rate": 1.6912222334058434e-07,
+      "logits/chosen": -1.3199559450149536,
+      "logits/rejected": -1.3303453922271729,
+      "logps/chosen": -113.59899139404297,
+      "logps/rejected": -145.6167449951172,
+      "loss": 0.5803,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.020612459629774094,
+      "rewards/margins": 0.46917960047721863,
+      "rewards/rejected": -0.4485671818256378,
+      "step": 518
+    },
+    {
+      "epoch": 0.6022439377488238,
+      "grad_norm": 105.46320125024906,
+      "learning_rate": 1.6884246472293017e-07,
+      "logits/chosen": -1.2990922927856445,
+      "logits/rejected": -1.32880437374115,
+      "logps/chosen": -156.3465576171875,
+      "logps/rejected": -181.81884765625,
+      "loss": 0.5906,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.04846584051847458,
+      "rewards/margins": 0.4274147152900696,
+      "rewards/rejected": -0.3789488971233368,
+      "step": 520
+    },
+    {
+      "epoch": 0.6045602605863192,
+      "grad_norm": 75.97476536999818,
+      "learning_rate": 1.68561678149279e-07,
+      "logits/chosen": -1.324131727218628,
+      "logits/rejected": -1.3583768606185913,
+      "logps/chosen": -158.01376342773438,
+      "logps/rejected": -170.33180236816406,
+      "loss": 0.62,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.15412873029708862,
+      "rewards/margins": 0.3743273615837097,
+      "rewards/rejected": -0.5284560322761536,
+      "step": 522
+    },
+    {
+      "epoch": 0.6068765834238147,
+      "grad_norm": 104.26484808062503,
+      "learning_rate": 1.6827986781233728e-07,
+      "logits/chosen": -1.244482159614563,
+      "logits/rejected": -1.3129115104675293,
+      "logps/chosen": -168.09619140625,
+      "logps/rejected": -183.01235961914062,
+      "loss": 0.6265,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.21132177114486694,
+      "rewards/margins": 0.3104555606842041,
+      "rewards/rejected": -0.521777331829071,
+      "step": 524
+    },
+    {
+      "epoch": 0.6091929062613102,
+      "grad_norm": 114.78689524134293,
+      "learning_rate": 1.6799703792009824e-07,
+      "logits/chosen": -1.5139933824539185,
+      "logits/rejected": -1.4369456768035889,
+      "logps/chosen": -179.37973022460938,
+      "logps/rejected": -178.68380737304688,
+      "loss": 0.6447,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.1471785008907318,
+      "rewards/margins": 0.5135056376457214,
+      "rewards/rejected": -0.366327166557312,
+      "step": 526
+    },
+    {
+      "epoch": 0.6115092290988057,
+      "grad_norm": 71.37258403318782,
+      "learning_rate": 1.6771319269577914e-07,
+      "logits/chosen": -1.246570348739624,
+      "logits/rejected": -1.2840875387191772,
+      "logps/chosen": -128.31802368164062,
+      "logps/rejected": -164.46771240234375,
+      "loss": 0.5578,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.00241958349943161,
+      "rewards/margins": 0.5187560319900513,
+      "rewards/rejected": -0.5211755633354187,
+      "step": 528
+    },
+    {
+      "epoch": 0.6138255519363012,
+      "grad_norm": 69.57805371439099,
+      "learning_rate": 1.6742833637775812e-07,
+      "logits/chosen": -1.323167085647583,
+      "logits/rejected": -1.3477709293365479,
+      "logps/chosen": -146.45350646972656,
+      "logps/rejected": -181.66311645507812,
+      "loss": 0.5717,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.19867736101150513,
+      "rewards/margins": 0.9410180449485779,
+      "rewards/rejected": -1.1396952867507935,
+      "step": 530
+    },
+    {
+      "epoch": 0.6161418747737966,
+      "grad_norm": 171.030005968529,
+      "learning_rate": 1.6714247321951105e-07,
+      "logits/chosen": -1.380966067314148,
+      "logits/rejected": -1.4481279850006104,
+      "logps/chosen": -164.24951171875,
+      "logps/rejected": -182.36082458496094,
+      "loss": 0.6188,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.18503104150295258,
+      "rewards/margins": 0.3646969497203827,
+      "rewards/rejected": -0.5497279167175293,
+      "step": 532
+    },
+    {
+      "epoch": 0.6184581976112921,
+      "grad_norm": 92.73704263508813,
+      "learning_rate": 1.668556074895479e-07,
+      "logits/chosen": -1.3130195140838623,
+      "logits/rejected": -1.3079559803009033,
+      "logps/chosen": -163.1666717529297,
+      "logps/rejected": -171.744873046875,
+      "loss": 0.6301,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.020428307354450226,
+      "rewards/margins": 0.3073387145996094,
+      "rewards/rejected": -0.327767014503479,
+      "step": 534
+    },
+    {
+      "epoch": 0.6207745204487876,
+      "grad_norm": 80.77491644213549,
+      "learning_rate": 1.6656774347134907e-07,
+      "logits/chosen": -1.3122167587280273,
+      "logits/rejected": -1.3465042114257812,
+      "logps/chosen": -122.46326446533203,
+      "logps/rejected": -140.5079803466797,
+      "loss": 0.651,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.09150812029838562,
+      "rewards/margins": 0.42649781703948975,
+      "rewards/rejected": -0.518005907535553,
+      "step": 536
+    },
+    {
+      "epoch": 0.6230908432862831,
+      "grad_norm": 84.46218412236821,
+      "learning_rate": 1.6627888546330136e-07,
+      "logits/chosen": -1.4094092845916748,
+      "logits/rejected": -1.4629356861114502,
+      "logps/chosen": -185.64651489257812,
+      "logps/rejected": -204.06578063964844,
+      "loss": 0.5885,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.06263245642185211,
+      "rewards/margins": 0.5876613855361938,
+      "rewards/rejected": -0.6502938270568848,
+      "step": 538
+    },
+    {
+      "epoch": 0.6254071661237784,
+      "grad_norm": 81.10930034348203,
+      "learning_rate": 1.659890377786339e-07,
+      "logits/chosen": -1.3104676008224487,
+      "logits/rejected": -1.2645026445388794,
+      "logps/chosen": -160.73683166503906,
+      "logps/rejected": -208.7481689453125,
+      "loss": 0.5968,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.17388193309307098,
+      "rewards/margins": 1.4726815223693848,
+      "rewards/rejected": -1.6465635299682617,
+      "step": 540
+    },
+    {
+      "epoch": 0.627723488961274,
+      "grad_norm": 70.09647822541486,
+      "learning_rate": 1.656982047453536e-07,
+      "logits/chosen": -1.3550140857696533,
+      "logits/rejected": -1.3001039028167725,
+      "logps/chosen": -152.96685791015625,
+      "logps/rejected": -185.17835998535156,
+      "loss": 0.5726,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.005441240966320038,
+      "rewards/margins": 0.716077983379364,
+      "rewards/rejected": -0.7215193510055542,
+      "step": 542
+    },
+    {
+      "epoch": 0.6300398117987694,
+      "grad_norm": 114.90916867192477,
+      "learning_rate": 1.6540639070618066e-07,
+      "logits/chosen": -1.3001914024353027,
+      "logits/rejected": -1.3512235879898071,
+      "logps/chosen": -162.81076049804688,
+      "logps/rejected": -186.64080810546875,
+      "loss": 0.5977,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.11464500427246094,
+      "rewards/margins": 0.6204842329025269,
+      "rewards/rejected": -0.735129177570343,
+      "step": 544
+    },
+    {
+      "epoch": 0.6323561346362649,
+      "grad_norm": 114.79194762522887,
+      "learning_rate": 1.6511360001848367e-07,
+      "logits/chosen": -1.1840189695358276,
+      "logits/rejected": -1.2202097177505493,
+      "logps/chosen": -133.49606323242188,
+      "logps/rejected": -157.7266387939453,
+      "loss": 0.6263,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 0.1880410611629486,
+      "rewards/margins": 0.6589545607566833,
+      "rewards/rejected": -0.47091349959373474,
+      "step": 546
+    },
+    {
+      "epoch": 0.6346724574737604,
+      "grad_norm": 93.62652784226147,
+      "learning_rate": 1.6481983705421448e-07,
+      "logits/chosen": -1.306709885597229,
+      "logits/rejected": -1.378722071647644,
+      "logps/chosen": -105.61914825439453,
+      "logps/rejected": -134.32098388671875,
+      "loss": 0.6102,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.14075130224227905,
+      "rewards/margins": 0.543403685092926,
+      "rewards/rejected": -0.4026523530483246,
+      "step": 548
+    },
+    {
+      "epoch": 0.6369887803112558,
+      "grad_norm": 73.81068535979944,
+      "learning_rate": 1.6452510619984298e-07,
+      "logits/chosen": -1.2993462085723877,
+      "logits/rejected": -1.3260908126831055,
+      "logps/chosen": -113.44615936279297,
+      "logps/rejected": -114.76972961425781,
+      "loss": 0.6459,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.17589446902275085,
+      "rewards/margins": 0.14515961706638336,
+      "rewards/rejected": -0.3210541009902954,
+      "step": 550
+    },
+    {
+      "epoch": 0.6393051031487513,
+      "grad_norm": 67.36004183948565,
+      "learning_rate": 1.642294118562917e-07,
+      "logits/chosen": -1.365562915802002,
+      "logits/rejected": -1.3586573600769043,
+      "logps/chosen": -124.21674346923828,
+      "logps/rejected": -129.41188049316406,
+      "loss": 0.6016,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.026413168758153915,
+      "rewards/margins": 0.1695682406425476,
+      "rewards/rejected": -0.19598142802715302,
+      "step": 552
+    },
+    {
+      "epoch": 0.6416214259862468,
+      "grad_norm": 109.88457230810822,
+      "learning_rate": 1.6393275843886988e-07,
+      "logits/chosen": -1.2051353454589844,
+      "logits/rejected": -1.1777970790863037,
+      "logps/chosen": -169.16192626953125,
+      "logps/rejected": -165.87405395507812,
+      "loss": 0.7026,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.2536877989768982,
+      "rewards/margins": -0.15165254473686218,
+      "rewards/rejected": -0.10203523933887482,
+      "step": 554
+    },
+    {
+      "epoch": 0.6439377488237423,
+      "grad_norm": 75.11287220032575,
+      "learning_rate": 1.636351503772077e-07,
+      "logits/chosen": -1.4200119972229004,
+      "logits/rejected": -1.4631352424621582,
+      "logps/chosen": -198.4412841796875,
+      "logps/rejected": -217.67779541015625,
+      "loss": 0.5673,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.11143307387828827,
+      "rewards/margins": 0.5114270448684692,
+      "rewards/rejected": -0.39999401569366455,
+      "step": 556
+    },
+    {
+      "epoch": 0.6462540716612378,
+      "grad_norm": 76.6884503172935,
+      "learning_rate": 1.6333659211519013e-07,
+      "logits/chosen": -1.250978708267212,
+      "logits/rejected": -1.3204269409179688,
+      "logps/chosen": -122.6414794921875,
+      "logps/rejected": -148.8828887939453,
+      "loss": 0.577,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": 0.0017823921516537666,
+      "rewards/margins": 0.8125737905502319,
+      "rewards/rejected": -0.8107913732528687,
+      "step": 558
+    },
+    {
+      "epoch": 0.6485703944987332,
+      "grad_norm": 97.61750654608176,
+      "learning_rate": 1.630370881108905e-07,
+      "logits/chosen": -1.4659614562988281,
+      "logits/rejected": -1.410871148109436,
+      "logps/chosen": -158.7913055419922,
+      "logps/rejected": -179.6865692138672,
+      "loss": 0.6643,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.09925530850887299,
+      "rewards/margins": 0.4364185631275177,
+      "rewards/rejected": -0.33716320991516113,
+      "step": 560
+    },
+    {
+      "epoch": 0.6508867173362287,
+      "grad_norm": 81.27814399323799,
+      "learning_rate": 1.627366428365039e-07,
+      "logits/chosen": -1.3590463399887085,
+      "logits/rejected": -1.402485966682434,
+      "logps/chosen": -154.32345581054688,
+      "logps/rejected": -171.76239013671875,
+      "loss": 0.6142,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.35029542446136475,
+      "rewards/margins": 0.5618267059326172,
+      "rewards/rejected": -0.9121222496032715,
+      "step": 562
+    },
+    {
+      "epoch": 0.6532030401737242,
+      "grad_norm": 94.5819842213993,
+      "learning_rate": 1.6243526077828058e-07,
+      "logits/chosen": -1.368080973625183,
+      "logits/rejected": -1.3609378337860107,
+      "logps/chosen": -144.53123474121094,
+      "logps/rejected": -149.87338256835938,
+      "loss": 0.6336,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 0.22654207050800323,
+      "rewards/margins": 0.999248206615448,
+      "rewards/rejected": -0.7727060914039612,
+      "step": 564
+    },
+    {
+      "epoch": 0.6555193630112197,
+      "grad_norm": 77.01269214216319,
+      "learning_rate": 1.6213294643645882e-07,
+      "logits/chosen": -1.2939796447753906,
+      "logits/rejected": -1.3303455114364624,
+      "logps/chosen": -136.7617645263672,
+      "logps/rejected": -174.4918670654297,
+      "loss": 0.5761,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.4167702794075012,
+      "rewards/margins": 0.5882107615470886,
+      "rewards/rejected": -1.0049810409545898,
+      "step": 566
+    },
+    {
+      "epoch": 0.6578356858487152,
+      "grad_norm": 93.03042212849894,
+      "learning_rate": 1.618297043251977e-07,
+      "logits/chosen": -1.346666932106018,
+      "logits/rejected": -1.4271106719970703,
+      "logps/chosen": -123.94332885742188,
+      "logps/rejected": -144.5997772216797,
+      "loss": 0.5749,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.06060848757624626,
+      "rewards/margins": 0.27999287843704224,
+      "rewards/rejected": -0.3406013548374176,
+      "step": 568
+    },
+    {
+      "epoch": 0.6601520086862106,
+      "grad_norm": 78.42710600355083,
+      "learning_rate": 1.6152553897250987e-07,
+      "logits/chosen": -1.1860871315002441,
+      "logits/rejected": -1.2453413009643555,
+      "logps/chosen": -119.57302856445312,
+      "logps/rejected": -140.7362518310547,
+      "loss": 0.5865,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.14186443388462067,
+      "rewards/margins": 0.509893000125885,
+      "rewards/rejected": -0.6517573595046997,
+      "step": 570
+    },
+    {
+      "epoch": 0.6624683315237061,
+      "grad_norm": 79.87983043947283,
+      "learning_rate": 1.6122045492019374e-07,
+      "logits/chosen": -1.2810924053192139,
+      "logits/rejected": -1.3013286590576172,
+      "logps/chosen": -124.72441101074219,
+      "logps/rejected": -155.4320831298828,
+      "loss": 0.6214,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.17904864251613617,
+      "rewards/margins": 0.5865851640701294,
+      "rewards/rejected": -0.7656337022781372,
+      "step": 572
+    },
+    {
+      "epoch": 0.6647846543612016,
+      "grad_norm": 83.06538656604619,
+      "learning_rate": 1.6091445672376577e-07,
+      "logits/chosen": -1.2900563478469849,
+      "logits/rejected": -1.3495041131973267,
+      "logps/chosen": -132.9668426513672,
+      "logps/rejected": -158.88734436035156,
+      "loss": 0.72,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.11348069459199905,
+      "rewards/margins": 0.5080840587615967,
+      "rewards/rejected": -0.3946034610271454,
+      "step": 574
+    },
+    {
+      "epoch": 0.6671009771986971,
+      "grad_norm": 81.11691381402433,
+      "learning_rate": 1.6060754895239242e-07,
+      "logits/chosen": -1.3639813661575317,
+      "logits/rejected": -1.3099185228347778,
+      "logps/chosen": -129.63088989257812,
+      "logps/rejected": -138.73565673828125,
+      "loss": 0.5229,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.1598489135503769,
+      "rewards/margins": 0.4970959722995758,
+      "rewards/rejected": -0.6569448709487915,
+      "step": 576
+    },
+    {
+      "epoch": 0.6694173000361926,
+      "grad_norm": 97.23417815050283,
+      "learning_rate": 1.6029973618882188e-07,
+      "logits/chosen": -1.4283655881881714,
+      "logits/rejected": -1.4487836360931396,
+      "logps/chosen": -133.85809326171875,
+      "logps/rejected": -156.39669799804688,
+      "loss": 0.5988,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.003942415118217468,
+      "rewards/margins": 0.2732374668121338,
+      "rewards/rejected": -0.26929500699043274,
+      "step": 578
+    },
+    {
+      "epoch": 0.671733622873688,
+      "grad_norm": 66.172594585089,
+      "learning_rate": 1.599910230293158e-07,
+      "logits/chosen": -1.2562668323516846,
+      "logits/rejected": -1.3157635927200317,
+      "logps/chosen": -166.57229614257812,
+      "logps/rejected": -168.74867248535156,
+      "loss": 0.5781,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.08036249130964279,
+      "rewards/margins": 0.8519478440284729,
+      "rewards/rejected": -0.7715852856636047,
+      "step": 580
+    },
+    {
+      "epoch": 0.6740499457111835,
+      "grad_norm": 74.76192509954373,
+      "learning_rate": 1.596814140835805e-07,
+      "logits/chosen": -1.256306767463684,
+      "logits/rejected": -1.3627066612243652,
+      "logps/chosen": -163.5234375,
+      "logps/rejected": -197.15310668945312,
+      "loss": 0.5397,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.26100030541419983,
+      "rewards/margins": 0.756481409072876,
+      "rewards/rejected": -0.495481014251709,
+      "step": 582
+    },
+    {
+      "epoch": 0.676366268548679,
+      "grad_norm": 70.48378313519777,
+      "learning_rate": 1.5937091397469813e-07,
+      "logits/chosen": -1.395608901977539,
+      "logits/rejected": -1.4762039184570312,
+      "logps/chosen": -147.21681213378906,
+      "logps/rejected": -167.70651245117188,
+      "loss": 0.6367,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.1700185090303421,
+      "rewards/margins": 0.24376149475574493,
+      "rewards/rejected": -0.07374300062656403,
+      "step": 584
+    },
+    {
+      "epoch": 0.6786825913861745,
+      "grad_norm": 71.83056408251632,
+      "learning_rate": 1.5905952733905773e-07,
+      "logits/chosen": -1.3281779289245605,
+      "logits/rejected": -1.37840735912323,
+      "logps/chosen": -150.58189392089844,
+      "logps/rejected": -174.99461364746094,
+      "loss": 0.6312,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.022576339542865753,
+      "rewards/margins": 0.32831788063049316,
+      "rewards/rejected": -0.3057415187358856,
+      "step": 586
+    },
+    {
+      "epoch": 0.6809989142236699,
+      "grad_norm": 83.87757428866225,
+      "learning_rate": 1.5874725882628598e-07,
+      "logits/chosen": -1.2740365266799927,
+      "logits/rejected": -1.3645150661468506,
+      "logps/chosen": -119.89724731445312,
+      "logps/rejected": -143.9542694091797,
+      "loss": 0.6469,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.08816975355148315,
+      "rewards/margins": 0.3666497468948364,
+      "rewards/rejected": -0.4548195004463196,
+      "step": 588
+    },
+    {
+      "epoch": 0.6833152370611654,
+      "grad_norm": 95.15763805819658,
+      "learning_rate": 1.5843411309917773e-07,
+      "logits/chosen": -1.1707677841186523,
+      "logits/rejected": -1.2354707717895508,
+      "logps/chosen": -137.05491638183594,
+      "logps/rejected": -164.23329162597656,
+      "loss": 0.6325,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.04570431262254715,
+      "rewards/margins": 0.837788999080658,
+      "rewards/rejected": -0.8834933638572693,
+      "step": 590
+    },
+    {
+      "epoch": 0.6856315598986609,
+      "grad_norm": 89.31999210372004,
+      "learning_rate": 1.5812009483362641e-07,
+      "logits/chosen": -1.3425350189208984,
+      "logits/rejected": -1.3389382362365723,
+      "logps/chosen": -114.12051391601562,
+      "logps/rejected": -130.07469177246094,
+      "loss": 0.6058,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.10132614523172379,
+      "rewards/margins": 0.26681679487228394,
+      "rewards/rejected": -0.16549064218997955,
+      "step": 592
+    },
+    {
+      "epoch": 0.6879478827361564,
+      "grad_norm": 86.55981599933118,
+      "learning_rate": 1.5780520871855416e-07,
+      "logits/chosen": -1.4263215065002441,
+      "logits/rejected": -1.4661970138549805,
+      "logps/chosen": -146.5399932861328,
+      "logps/rejected": -162.22738647460938,
+      "loss": 0.6227,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.1263137012720108,
+      "rewards/margins": 0.7135946750640869,
+      "rewards/rejected": -0.5872809886932373,
+      "step": 594
+    },
+    {
+      "epoch": 0.6902642055736519,
+      "grad_norm": 77.11466861321054,
+      "learning_rate": 1.5748945945584194e-07,
+      "logits/chosen": -1.1571879386901855,
+      "logits/rejected": -1.2603471279144287,
+      "logps/chosen": -138.8977813720703,
+      "logps/rejected": -177.0740509033203,
+      "loss": 0.6776,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.02539961040019989,
+      "rewards/margins": 0.39455336332321167,
+      "rewards/rejected": -0.41995295882225037,
+      "step": 596
+    },
+    {
+      "epoch": 0.6925805284111473,
+      "grad_norm": 81.2459965814331,
+      "learning_rate": 1.5717285176025912e-07,
+      "logits/chosen": -1.2991225719451904,
+      "logits/rejected": -1.38021981716156,
+      "logps/chosen": -151.61753845214844,
+      "logps/rejected": -176.51548767089844,
+      "loss": 0.5917,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.20256918668746948,
+      "rewards/margins": 0.4604591131210327,
+      "rewards/rejected": -0.25788992643356323,
+      "step": 598
+    },
+    {
+      "epoch": 0.6948968512486428,
+      "grad_norm": 70.92510708156665,
+      "learning_rate": 1.568553903593933e-07,
+      "logits/chosen": -1.444725513458252,
+      "logits/rejected": -1.3993281126022339,
+      "logps/chosen": -111.9288330078125,
+      "logps/rejected": -113.10049438476562,
+      "loss": 0.6366,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.008920304477214813,
+      "rewards/margins": 0.010683823376893997,
+      "rewards/rejected": -0.019604135304689407,
+      "step": 600
+    },
+    {
+      "epoch": 0.6948968512486428,
+      "eval_logits/chosen": -1.3430299758911133,
+      "eval_logits/rejected": -1.3360421657562256,
+      "eval_logps/chosen": -137.48741149902344,
+      "eval_logps/rejected": -138.31024169921875,
+      "eval_loss": 0.6260569095611572,
+      "eval_rewards/accuracies": 0.6399999856948853,
+      "eval_rewards/chosen": -0.185623899102211,
+      "eval_rewards/margins": 0.25004515051841736,
+      "eval_rewards/rejected": -0.43566906452178955,
+      "eval_runtime": 24.9391,
+      "eval_samples_per_second": 4.01,
+      "eval_steps_per_second": 1.002,
+      "step": 600
     }
   ],
   "logging_steps": 2,