zephyr-7b-dpop-ours-qlora-5e-6-epoch3 / trainer_state.json

Model save

a92020c verified 4 months ago

87.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 100,
	"global_step": 1065,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"dpo_losses": 0.6931471824645996,
	"epoch": 0.0,
	"grad_norm": 1.6032202352154772,
	"learning_rate": 4.672897196261682e-08,
	"logits/chosen": -3.0016818046569824,
	"logits/rejected": -2.8469698429107666,
	"logps/chosen": -650.2908325195312,
	"logps/rejected": -359.48583984375,
	"loss": 0.6931,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/margins_max": 0.0,
	"rewards/margins_min": 0.0,
	"rewards/margins_std": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"dpo_losses": 0.6927387714385986,
	"epoch": 0.03,
	"grad_norm": 14.052093588804325,
	"learning_rate": 4.6728971962616824e-07,
	"logits/chosen": -2.9367923736572266,
	"logits/rejected": -2.819260835647583,
	"logps/chosen": -254.90475463867188,
	"logps/rejected": -170.36068725585938,
	"loss": 0.6989,
	"positive_losses": 0.033258650451898575,
	"rewards/accuracies": 0.5555555820465088,
	"rewards/chosen": 0.0008218331495299935,
	"rewards/margins": 0.0008189052459783852,
	"rewards/margins_max": 0.0018548837397247553,
	"rewards/margins_min": -0.00021707323321606964,
	"rewards/margins_std": 0.0014650949742645025,
	"rewards/rejected": 2.927754849224584e-06,
	"step": 10
	},
	{
	"dpo_losses": 0.6923267245292664,
	"epoch": 0.06,
	"grad_norm": 1.844492423373157,
	"learning_rate": 9.345794392523365e-07,
	"logits/chosen": -2.7079358100891113,
	"logits/rejected": -2.7515180110931396,
	"logps/chosen": -306.1308898925781,
	"logps/rejected": -241.56021118164062,
	"loss": 0.6932,
	"positive_losses": 0.012112426571547985,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.006594317965209484,
	"rewards/margins": 0.0016433143755421042,
	"rewards/margins_max": 0.002823440358042717,
	"rewards/margins_min": 0.00046318816021084785,
	"rewards/margins_std": 0.001668950542807579,
	"rewards/rejected": 0.004951003938913345,
	"step": 20
	},
	{
	"dpo_losses": 0.6899991631507874,
	"epoch": 0.08,
	"grad_norm": 2.1897418931727595,
	"learning_rate": 1.4018691588785047e-06,
	"logits/chosen": -2.904411792755127,
	"logits/rejected": -2.816619396209717,
	"logps/chosen": -358.5197448730469,
	"logps/rejected": -251.15103149414062,
	"loss": 0.6896,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.02147643454372883,
	"rewards/margins": 0.006321606691926718,
	"rewards/margins_max": 0.01196110900491476,
	"rewards/margins_min": 0.000682103622239083,
	"rewards/margins_std": 0.007975460961461067,
	"rewards/rejected": 0.015154826454818249,
	"step": 30
	},
	{
	"dpo_losses": 0.6862105131149292,
	"epoch": 0.11,
	"grad_norm": 1.7300257406359418,
	"learning_rate": 1.869158878504673e-06,
	"logits/chosen": -2.8441336154937744,
	"logits/rejected": -2.7715249061584473,
	"logps/chosen": -327.30523681640625,
	"logps/rejected": -313.1446228027344,
	"loss": 0.6864,
	"positive_losses": 0.02085266076028347,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": 0.03371895104646683,
	"rewards/margins": 0.013976506888866425,
	"rewards/margins_max": 0.017818700522184372,
	"rewards/margins_min": 0.010134311392903328,
	"rewards/margins_std": 0.0054336837492883205,
	"rewards/rejected": 0.019742444157600403,
	"step": 40
	},
	{
	"dpo_losses": 0.6820067167282104,
	"epoch": 0.14,
	"grad_norm": 9.347589322785899,
	"learning_rate": 2.3364485981308413e-06,
	"logits/chosen": -2.795854091644287,
	"logits/rejected": -2.720963954925537,
	"logps/chosen": -217.7622833251953,
	"logps/rejected": -171.39205932617188,
	"loss": 0.6779,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.0513346791267395,
	"rewards/margins": 0.022588390856981277,
	"rewards/margins_max": 0.03625725582242012,
	"rewards/margins_min": 0.008919527754187584,
	"rewards/margins_std": 0.019330691546201706,
	"rewards/rejected": 0.028746291995048523,
	"step": 50
	},
	{
	"dpo_losses": 0.6643597483634949,
	"epoch": 0.17,
	"grad_norm": 2.37274745731943,
	"learning_rate": 2.8037383177570094e-06,
	"logits/chosen": -2.7788054943084717,
	"logits/rejected": -2.710609197616577,
	"logps/chosen": -256.30633544921875,
	"logps/rejected": -233.06576538085938,
	"loss": 0.6666,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.08375100791454315,
	"rewards/margins": 0.05946110561490059,
	"rewards/margins_max": 0.08825884014368057,
	"rewards/margins_min": 0.030663389712572098,
	"rewards/margins_std": 0.040726132690906525,
	"rewards/rejected": 0.024289902299642563,
	"step": 60
	},
	{
	"dpo_losses": 0.6566643714904785,
	"epoch": 0.2,
	"grad_norm": 1.6634540430479345,
	"learning_rate": 3.2710280373831774e-06,
	"logits/chosen": -2.635437488555908,
	"logits/rejected": -2.678208351135254,
	"logps/chosen": -283.38287353515625,
	"logps/rejected": -209.6460418701172,
	"loss": 0.6558,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": 0.11453696340322495,
	"rewards/margins": 0.07607836276292801,
	"rewards/margins_max": 0.13534289598464966,
	"rewards/margins_min": 0.01681383326649666,
	"rewards/margins_std": 0.08381269872188568,
	"rewards/rejected": 0.03845860809087753,
	"step": 70
	},
	{
	"dpo_losses": 0.6309095025062561,
	"epoch": 0.23,
	"grad_norm": 1.7989959804157094,
	"learning_rate": 3.738317757009346e-06,
	"logits/chosen": -2.9159035682678223,
	"logits/rejected": -2.8235018253326416,
	"logps/chosen": -335.8651123046875,
	"logps/rejected": -286.46331787109375,
	"loss": 0.6397,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.13743606209754944,
	"rewards/margins": 0.1305120289325714,
	"rewards/margins_max": 0.18503351509571075,
	"rewards/margins_min": 0.07599054276943207,
	"rewards/margins_std": 0.07710503041744232,
	"rewards/rejected": 0.0069240378215909,
	"step": 80
	},
	{
	"dpo_losses": 0.6185696721076965,
	"epoch": 0.25,
	"grad_norm": 9.307634759665634,
	"learning_rate": 4.205607476635514e-06,
	"logits/chosen": -2.6819961071014404,
	"logits/rejected": -2.7166359424591064,
	"logps/chosen": -211.7088623046875,
	"logps/rejected": -203.97885131835938,
	"loss": 0.6145,
	"positive_losses": 0.035182952880859375,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.15242353081703186,
	"rewards/margins": 0.16033907234668732,
	"rewards/margins_max": 0.24873778223991394,
	"rewards/margins_min": 0.07194037735462189,
	"rewards/margins_std": 0.12501463294029236,
	"rewards/rejected": -0.007915569469332695,
	"step": 90
	},
	{
	"dpo_losses": 0.6138414144515991,
	"epoch": 0.28,
	"grad_norm": 2.169680467803253,
	"learning_rate": 4.6728971962616825e-06,
	"logits/chosen": -2.783569812774658,
	"logits/rejected": -2.812309741973877,
	"logps/chosen": -288.1591796875,
	"logps/rejected": -341.5180969238281,
	"loss": 0.6275,
	"positive_losses": 0.8350906372070312,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.1585826575756073,
	"rewards/margins": 0.1714317500591278,
	"rewards/margins_max": 0.2515793442726135,
	"rewards/margins_min": 0.09128417074680328,
	"rewards/margins_std": 0.11334581673145294,
	"rewards/rejected": -0.012849109247326851,
	"step": 100
	},
	{
	"epoch": 0.28,
	"eval_dpo_losses": 0.6742300391197205,
	"eval_logits/chosen": -2.7527217864990234,
	"eval_logits/rejected": -2.71140456199646,
	"eval_logps/chosen": -276.58984375,
	"eval_logps/rejected": -254.9810333251953,
	"eval_loss": 0.8539575338363647,
	"eval_positive_losses": 1.6940749883651733,
	"eval_rewards/accuracies": 0.60317462682724,
	"eval_rewards/chosen": 0.08631354570388794,
	"eval_rewards/margins": 0.04429732263088226,
	"eval_rewards/margins_max": 0.21467885375022888,
	"eval_rewards/margins_min": -0.10308819264173508,
	"eval_rewards/margins_std": 0.14203837513923645,
	"eval_rewards/rejected": 0.042016226798295975,
	"eval_runtime": 285.3929,
	"eval_samples_per_second": 7.008,
	"eval_steps_per_second": 0.221,
	"step": 100
	},
	{
	"dpo_losses": 0.5535503029823303,
	"epoch": 0.31,
	"grad_norm": 2.2536984881767905,
	"learning_rate": 4.999879018839288e-06,
	"logits/chosen": -2.7111623287200928,
	"logits/rejected": -2.6175503730773926,
	"logps/chosen": -252.84732055664062,
	"logps/rejected": -252.4491729736328,
	"loss": 0.5736,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.2623223662376404,
	"rewards/margins": 0.32247892022132874,
	"rewards/margins_max": 0.4974708557128906,
	"rewards/margins_min": 0.14748699963092804,
	"rewards/margins_std": 0.24747595191001892,
	"rewards/rejected": -0.060156505554914474,
	"step": 110
	},
	{
	"dpo_losses": 0.5708788633346558,
	"epoch": 0.34,
	"grad_norm": 1.8718792057149318,
	"learning_rate": 4.99772856836941e-06,
	"logits/chosen": -2.873108148574829,
	"logits/rejected": -2.8189544677734375,
	"logps/chosen": -373.77386474609375,
	"logps/rejected": -337.38922119140625,
	"loss": 0.5727,
	"positive_losses": 0.22691193222999573,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.21501663327217102,
	"rewards/margins": 0.27264389395713806,
	"rewards/margins_max": 0.36815184354782104,
	"rewards/margins_min": 0.17713597416877747,
	"rewards/margins_std": 0.13506858050823212,
	"rewards/rejected": -0.057627253234386444,
	"step": 120
	},
	{
	"dpo_losses": 0.5159657001495361,
	"epoch": 0.37,
	"grad_norm": 1.9587224479056975,
	"learning_rate": 4.992892309373227e-06,
	"logits/chosen": -2.7587242126464844,
	"logits/rejected": -2.689577341079712,
	"logps/chosen": -311.52978515625,
	"logps/rejected": -274.8511047363281,
	"loss": 0.5718,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.24945905804634094,
	"rewards/margins": 0.41450828313827515,
	"rewards/margins_max": 0.5637356638908386,
	"rewards/margins_min": 0.26528093218803406,
	"rewards/margins_std": 0.21103934943675995,
	"rewards/rejected": -0.1650492250919342,
	"step": 130
	},
	{
	"dpo_losses": 0.5120642185211182,
	"epoch": 0.39,
	"grad_norm": 35.2981995380076,
	"learning_rate": 4.985375442281969e-06,
	"logits/chosen": -2.725268602371216,
	"logits/rejected": -2.7174267768859863,
	"logps/chosen": -270.7826843261719,
	"logps/rejected": -248.8843536376953,
	"loss": 0.5953,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.25090181827545166,
	"rewards/margins": 0.42299699783325195,
	"rewards/margins_max": 0.5964112877845764,
	"rewards/margins_min": 0.24958273768424988,
	"rewards/margins_std": 0.2452448159456253,
	"rewards/rejected": -0.1720951795578003,
	"step": 140
	},
	{
	"dpo_losses": 0.4928362965583801,
	"epoch": 0.42,
	"grad_norm": 11.90624935921094,
	"learning_rate": 4.9751860499858175e-06,
	"logits/chosen": -2.72652530670166,
	"logits/rejected": -2.7453625202178955,
	"logps/chosen": -301.97021484375,
	"logps/rejected": -276.3653259277344,
	"loss": 0.5758,
	"positive_losses": 0.42821502685546875,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.19235308468341827,
	"rewards/margins": 0.47807592153549194,
	"rewards/margins_max": 0.6831300854682922,
	"rewards/margins_min": 0.2730218172073364,
	"rewards/margins_std": 0.2899903357028961,
	"rewards/rejected": -0.2857228219509125,
	"step": 150
	},
	{
	"dpo_losses": 0.4960567355155945,
	"epoch": 0.45,
	"grad_norm": 15.847210447883002,
	"learning_rate": 4.962335089142376e-06,
	"logits/chosen": -2.81313157081604,
	"logits/rejected": -2.735961675643921,
	"logps/chosen": -244.3223419189453,
	"logps/rejected": -264.59417724609375,
	"loss": 0.559,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.25210094451904297,
	"rewards/margins": 0.46666574478149414,
	"rewards/margins_max": 0.6729411482810974,
	"rewards/margins_min": 0.26039019227027893,
	"rewards/margins_std": 0.2917175889015198,
	"rewards/rejected": -0.21456477046012878,
	"step": 160
	},
	{
	"dpo_losses": 0.4443618357181549,
	"epoch": 0.48,
	"grad_norm": 2.921537165567133,
	"learning_rate": 4.946836378394967e-06,
	"logits/chosen": -2.8487417697906494,
	"logits/rejected": -2.7233359813690186,
	"logps/chosen": -293.14263916015625,
	"logps/rejected": -265.21044921875,
	"loss": 0.4792,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.32291096448898315,
	"rewards/margins": 0.6394142508506775,
	"rewards/margins_max": 0.8530386686325073,
	"rewards/margins_min": 0.42578983306884766,
	"rewards/margins_std": 0.30211058259010315,
	"rewards/rejected": -0.3165033161640167,
	"step": 170
	},
	{
	"dpo_losses": 0.4956347942352295,
	"epoch": 0.51,
	"grad_norm": 23.196576832752985,
	"learning_rate": 4.928706583513441e-06,
	"logits/chosen": -2.7180655002593994,
	"logits/rejected": -2.674361228942871,
	"logps/chosen": -249.37704467773438,
	"logps/rejected": -410.07391357421875,
	"loss": 0.5836,
	"positive_losses": 1.074639916419983,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.17418113350868225,
	"rewards/margins": 0.47780531644821167,
	"rewards/margins_max": 0.6538316011428833,
	"rewards/margins_min": 0.3017791211605072,
	"rewards/margins_std": 0.24893875420093536,
	"rewards/rejected": -0.3036242425441742,
	"step": 180
	},
	{
	"dpo_losses": 0.4040610194206238,
	"epoch": 0.54,
	"grad_norm": 2.662026262000448,
	"learning_rate": 4.907965199473471e-06,
	"logits/chosen": -2.6723411083221436,
	"logits/rejected": -2.5524985790252686,
	"logps/chosen": -320.6319274902344,
	"logps/rejected": -257.9935302734375,
	"loss": 0.5582,
	"positive_losses": 1.0019195079803467,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.3839383125305176,
	"rewards/margins": 0.7386760711669922,
	"rewards/margins_max": 0.9635330438613892,
	"rewards/margins_min": 0.51381915807724,
	"rewards/margins_std": 0.31799572706222534,
	"rewards/rejected": -0.3547378182411194,
	"step": 190
	},
	{
	"dpo_losses": 0.4472725987434387,
	"epoch": 0.56,
	"grad_norm": 23.173407948282012,
	"learning_rate": 4.884634529493591e-06,
	"logits/chosen": -2.8709282875061035,
	"logits/rejected": -2.7968573570251465,
	"logps/chosen": -255.41879272460938,
	"logps/rejected": -237.76406860351562,
	"loss": 0.599,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.2910212576389313,
	"rewards/margins": 0.6229863166809082,
	"rewards/margins_max": 0.8043031692504883,
	"rewards/margins_min": 0.4416695535182953,
	"rewards/margins_std": 0.25642070174217224,
	"rewards/rejected": -0.3319651484489441,
	"step": 200
	},
	{
	"epoch": 0.56,
	"eval_dpo_losses": 0.6560041308403015,
	"eval_logits/chosen": -2.7841696739196777,
	"eval_logits/rejected": -2.738633632659912,
	"eval_logps/chosen": -291.0660095214844,
	"eval_logps/rejected": -275.99658203125,
	"eval_loss": 1.9206839799880981,
	"eval_positive_losses": 12.58076000213623,
	"eval_rewards/accuracies": 0.6388888955116272,
	"eval_rewards/chosen": -0.05844784155488014,
	"eval_rewards/margins": 0.10969138890504837,
	"eval_rewards/margins_max": 0.4903210401535034,
	"eval_rewards/margins_min": -0.25554272532463074,
	"eval_rewards/margins_std": 0.33160677552223206,
	"eval_rewards/rejected": -0.1681392341852188,
	"eval_runtime": 284.4185,
	"eval_samples_per_second": 7.032,
	"eval_steps_per_second": 0.222,
	"step": 200
	},
	{
	"dpo_losses": 0.45512253046035767,
	"epoch": 0.59,
	"grad_norm": 7.436654691984327,
	"learning_rate": 4.858739661052539e-06,
	"logits/chosen": -2.5205092430114746,
	"logits/rejected": -2.5804672241210938,
	"logps/chosen": -240.2886962890625,
	"logps/rejected": -298.3849182128906,
	"loss": 0.5267,
	"positive_losses": 0.4501487612724304,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.38874852657318115,
	"rewards/margins": 0.6847165822982788,
	"rewards/margins_max": 1.0578687191009521,
	"rewards/margins_min": 0.31156447529792786,
	"rewards/margins_std": 0.5277167558670044,
	"rewards/rejected": -0.29596805572509766,
	"step": 210
	},
	{
	"dpo_losses": 0.4267025589942932,
	"epoch": 0.62,
	"grad_norm": 12.252545150739026,
	"learning_rate": 4.830308438912687e-06,
	"logits/chosen": -2.901047945022583,
	"logits/rejected": -2.776557207107544,
	"logps/chosen": -341.5310363769531,
	"logps/rejected": -316.5777282714844,
	"loss": 0.5828,
	"positive_losses": 1.5781867504119873,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.28965142369270325,
	"rewards/margins": 0.6728664040565491,
	"rewards/margins_max": 0.8954153060913086,
	"rewards/margins_min": 0.4503174424171448,
	"rewards/margins_std": 0.3147316873073578,
	"rewards/rejected": -0.38321495056152344,
	"step": 220
	},
	{
	"dpo_losses": 0.42703738808631897,
	"epoch": 0.65,
	"grad_norm": 2.1766995421765545,
	"learning_rate": 4.799371435178544e-06,
	"logits/chosen": -2.821802854537964,
	"logits/rejected": -2.777765989303589,
	"logps/chosen": -321.39501953125,
	"logps/rejected": -376.64483642578125,
	"loss": 0.5028,
	"positive_losses": 1.304276466369629,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.30395936965942383,
	"rewards/margins": 0.7244865298271179,
	"rewards/margins_max": 1.1590335369110107,
	"rewards/margins_min": 0.2899397909641266,
	"rewards/margins_std": 0.6145419478416443,
	"rewards/rejected": -0.42052727937698364,
	"step": 230
	},
	{
	"dpo_losses": 0.4363502860069275,
	"epoch": 0.68,
	"grad_norm": 13.650828107929078,
	"learning_rate": 4.765961916422575e-06,
	"logits/chosen": -2.7546634674072266,
	"logits/rejected": -2.707695722579956,
	"logps/chosen": -219.1737518310547,
	"logps/rejected": -330.49444580078125,
	"loss": 0.5883,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.29220908880233765,
	"rewards/margins": 0.6587773561477661,
	"rewards/margins_max": 0.8973654508590698,
	"rewards/margins_min": 0.42018923163414,
	"rewards/margins_std": 0.33741456270217896,
	"rewards/rejected": -0.36656829714775085,
	"step": 240
	},
	{
	"dpo_losses": 0.40715283155441284,
	"epoch": 0.7,
	"grad_norm": 5.403626615804181,
	"learning_rate": 4.730115807913627e-06,
	"logits/chosen": -2.786029577255249,
	"logits/rejected": -2.656646490097046,
	"logps/chosen": -316.26605224609375,
	"logps/rejected": -292.4571838378906,
	"loss": 0.4798,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.36320579051971436,
	"rewards/margins": 0.7509908676147461,
	"rewards/margins_max": 0.927462100982666,
	"rewards/margins_min": 0.5745195150375366,
	"rewards/margins_std": 0.24956803023815155,
	"rewards/rejected": -0.3877849876880646,
	"step": 250
	},
	{
	"dpo_losses": 0.45335307717323303,
	"epoch": 0.73,
	"grad_norm": 29.921037643309493,
	"learning_rate": 4.691871654986485e-06,
	"logits/chosen": -2.8433797359466553,
	"logits/rejected": -2.7910611629486084,
	"logps/chosen": -240.71328735351562,
	"logps/rejected": -260.13897705078125,
	"loss": 0.5549,
	"positive_losses": 1.8418042659759521,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.2628856301307678,
	"rewards/margins": 0.6381598711013794,
	"rewards/margins_max": 0.8531384468078613,
	"rewards/margins_min": 0.42318135499954224,
	"rewards/margins_std": 0.3040255904197693,
	"rewards/rejected": -0.37527427077293396,
	"step": 260
	},
	{
	"dpo_losses": 0.45805755257606506,
	"epoch": 0.76,
	"grad_norm": 3.6869955202700884,
	"learning_rate": 4.651270581594054e-06,
	"logits/chosen": -2.8275113105773926,
	"logits/rejected": -2.726349353790283,
	"logps/chosen": -264.3140869140625,
	"logps/rejected": -256.37506103515625,
	"loss": 0.5553,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.38106483221054077,
	"rewards/margins": 0.6026363372802734,
	"rewards/margins_max": 0.8345470428466797,
	"rewards/margins_min": 0.37072569131851196,
	"rewards/margins_std": 0.3279712498188019,
	"rewards/rejected": -0.22157149016857147,
	"step": 270
	},
	{
	"dpo_losses": 0.46088677644729614,
	"epoch": 0.79,
	"grad_norm": 11.384071170544201,
	"learning_rate": 4.6083562460867545e-06,
	"logits/chosen": -2.7374978065490723,
	"logits/rejected": -2.705930233001709,
	"logps/chosen": -292.6180114746094,
	"logps/rejected": -295.0760803222656,
	"loss": 0.6126,
	"positive_losses": 1.0429108142852783,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.2991539239883423,
	"rewards/margins": 0.611792802810669,
	"rewards/margins_max": 0.8936999440193176,
	"rewards/margins_min": 0.32988566160202026,
	"rewards/margins_std": 0.39867693185806274,
	"rewards/rejected": -0.3126388192176819,
	"step": 280
	},
	{
	"dpo_losses": 0.5089690685272217,
	"epoch": 0.82,
	"grad_norm": 2.7173946115224865,
	"learning_rate": 4.563174794266684e-06,
	"logits/chosen": -2.875331163406372,
	"logits/rejected": -2.819256544113159,
	"logps/chosen": -263.9188232421875,
	"logps/rejected": -286.82647705078125,
	"loss": 0.593,
	"positive_losses": 1.377386450767517,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.2715073823928833,
	"rewards/margins": 0.4865007996559143,
	"rewards/margins_max": 0.7703573703765869,
	"rewards/margins_min": 0.20264430344104767,
	"rewards/margins_std": 0.40143370628356934,
	"rewards/rejected": -0.2149934470653534,
	"step": 290
	},
	{
	"dpo_losses": 0.44498148560523987,
	"epoch": 0.85,
	"grad_norm": 8.551683262439843,
	"learning_rate": 4.5157748097670125e-06,
	"logits/chosen": -2.9059486389160156,
	"logits/rejected": -2.793186902999878,
	"logps/chosen": -319.2405090332031,
	"logps/rejected": -338.54998779296875,
	"loss": 0.4901,
	"positive_losses": 0.0022247314918786287,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.35988515615463257,
	"rewards/margins": 0.6180437803268433,
	"rewards/margins_max": 0.8190226554870605,
	"rewards/margins_min": 0.41706475615501404,
	"rewards/margins_std": 0.2842271625995636,
	"rewards/rejected": -0.2581585943698883,
	"step": 300
	},
	{
	"epoch": 0.85,
	"eval_dpo_losses": 0.6506758332252502,
	"eval_logits/chosen": -2.7854835987091064,
	"eval_logits/rejected": -2.7329776287078857,
	"eval_logps/chosen": -303.7291564941406,
	"eval_logps/rejected": -289.5481872558594,
	"eval_loss": 2.8066518306732178,
	"eval_positive_losses": 22.214069366455078,
	"eval_rewards/accuracies": 0.6388888955116272,
	"eval_rewards/chosen": -0.18507955968379974,
	"eval_rewards/margins": 0.11857547610998154,
	"eval_rewards/margins_max": 0.47240880131721497,
	"eval_rewards/margins_min": -0.25752344727516174,
	"eval_rewards/margins_std": 0.32571399211883545,
	"eval_rewards/rejected": -0.3036550283432007,
	"eval_runtime": 284.7873,
	"eval_samples_per_second": 7.023,
	"eval_steps_per_second": 0.221,
	"step": 300
	},
	{
	"dpo_losses": 0.43647676706314087,
	"epoch": 0.87,
	"grad_norm": 2.6162448381062275,
	"learning_rate": 4.466207261809989e-06,
	"logits/chosen": -2.9903199672698975,
	"logits/rejected": -2.7902731895446777,
	"logps/chosen": -293.12274169921875,
	"logps/rejected": -296.422119140625,
	"loss": 0.6852,
	"positive_losses": 0.944580078125,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.31041496992111206,
	"rewards/margins": 0.6650521755218506,
	"rewards/margins_max": 0.992100715637207,
	"rewards/margins_min": 0.338003545999527,
	"rewards/margins_std": 0.4625166058540344,
	"rewards/rejected": -0.35463717579841614,
	"step": 310
	},
	{
	"dpo_losses": 0.4618608057498932,
	"epoch": 0.9,
	"grad_norm": 10.483471531606499,
	"learning_rate": 4.414525450399713e-06,
	"logits/chosen": -2.8283543586730957,
	"logits/rejected": -2.7349746227264404,
	"logps/chosen": -286.9427185058594,
	"logps/rejected": -262.766845703125,
	"loss": 0.527,
	"positive_losses": 0.8719180822372437,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.32706111669540405,
	"rewards/margins": 0.5900775790214539,
	"rewards/margins_max": 0.8372209668159485,
	"rewards/margins_min": 0.34293434023857117,
	"rewards/margins_std": 0.34951338171958923,
	"rewards/rejected": -0.2630165219306946,
	"step": 320
	},
	{
	"dpo_losses": 0.40510478615760803,
	"epoch": 0.93,
	"grad_norm": 20.600609246290738,
	"learning_rate": 4.360784949008615e-06,
	"logits/chosen": -2.9669108390808105,
	"logits/rejected": -2.8032517433166504,
	"logps/chosen": -316.91192626953125,
	"logps/rejected": -283.3198547363281,
	"loss": 0.515,
	"positive_losses": 0.5270363092422485,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.45585203170776367,
	"rewards/margins": 0.8136453628540039,
	"rewards/margins_max": 1.1761964559555054,
	"rewards/margins_min": 0.45109423995018005,
	"rewards/margins_std": 0.512724757194519,
	"rewards/rejected": -0.35779333114624023,
	"step": 330
	},
	{
	"dpo_losses": 0.47730112075805664,
	"epoch": 0.96,
	"grad_norm": 2.164730368336074,
	"learning_rate": 4.30504354481929e-06,
	"logits/chosen": -2.79738450050354,
	"logits/rejected": -2.7073657512664795,
	"logps/chosen": -230.3443145751953,
	"logps/rejected": -234.2275390625,
	"loss": 0.496,
	"positive_losses": 2.5491890907287598,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.2501987814903259,
	"rewards/margins": 0.5649263858795166,
	"rewards/margins_max": 0.820625901222229,
	"rewards/margins_min": 0.3092268109321594,
	"rewards/margins_std": 0.36161375045776367,
	"rewards/rejected": -0.3147276043891907,
	"step": 340
	},
	{
	"dpo_losses": 0.3645946681499481,
	"epoch": 0.99,
	"grad_norm": 19.210785792660445,
	"learning_rate": 4.247361176585904e-06,
	"logits/chosen": -2.791806697845459,
	"logits/rejected": -2.676161289215088,
	"logps/chosen": -352.7079162597656,
	"logps/rejected": -353.04425048828125,
	"loss": 0.584,
	"positive_losses": 1.5420730113983154,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3225085139274597,
	"rewards/margins": 0.8690497279167175,
	"rewards/margins_max": 1.1524405479431152,
	"rewards/margins_min": 0.5856587886810303,
	"rewards/margins_std": 0.4007752537727356,
	"rewards/rejected": -0.546541154384613,
	"step": 350
	},
	{
	"dpo_losses": 0.44031819701194763,
	"epoch": 1.01,
	"grad_norm": 3.4688322040336876,
	"learning_rate": 4.187799870182038e-06,
	"logits/chosen": -2.756261110305786,
	"logits/rejected": -2.6450822353363037,
	"logps/chosen": -273.16424560546875,
	"logps/rejected": -231.5010986328125,
	"loss": 0.4573,
	"positive_losses": 0.19403228163719177,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.35820913314819336,
	"rewards/margins": 0.6459983587265015,
	"rewards/margins_max": 0.8495124578475952,
	"rewards/margins_min": 0.4424843192100525,
	"rewards/margins_std": 0.28781232237815857,
	"rewards/rejected": -0.2877892851829529,
	"step": 360
	},
	{
	"dpo_losses": 0.3558691143989563,
	"epoch": 1.04,
	"grad_norm": 71.7335292506231,
	"learning_rate": 4.1264236719042365e-06,
	"logits/chosen": -2.6822152137756348,
	"logits/rejected": -2.662559986114502,
	"logps/chosen": -320.59442138671875,
	"logps/rejected": -317.09295654296875,
	"loss": 0.4251,
	"positive_losses": 0.42721253633499146,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.45041507482528687,
	"rewards/margins": 0.9831393957138062,
	"rewards/margins_max": 1.3708398342132568,
	"rewards/margins_min": 0.5954390168190002,
	"rewards/margins_std": 0.5482910871505737,
	"rewards/rejected": -0.5327242612838745,
	"step": 370
	},
	{
	"dpo_losses": 0.3393256664276123,
	"epoch": 1.07,
	"grad_norm": 4.337233890868313,
	"learning_rate": 4.063298579603001e-06,
	"logits/chosen": -2.7261626720428467,
	"logits/rejected": -2.5453438758850098,
	"logps/chosen": -265.1933288574219,
	"logps/rejected": -244.08682250976562,
	"loss": 0.3984,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4042983055114746,
	"rewards/margins": 0.999946117401123,
	"rewards/margins_max": 1.2659950256347656,
	"rewards/margins_min": 0.7338972091674805,
	"rewards/margins_std": 0.3762499690055847,
	"rewards/rejected": -0.5956477522850037,
	"step": 380
	},
	{
	"dpo_losses": 0.25663647055625916,
	"epoch": 1.1,
	"grad_norm": 35.28065142871338,
	"learning_rate": 3.998492471715272e-06,
	"logits/chosen": -2.7409512996673584,
	"logits/rejected": -2.752206325531006,
	"logps/chosen": -314.38153076171875,
	"logps/rejected": -423.4803161621094,
	"loss": 0.5701,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4437999129295349,
	"rewards/margins": 1.3619416952133179,
	"rewards/margins_max": 1.7605613470077515,
	"rewards/margins_min": 0.9633218050003052,
	"rewards/margins_std": 0.5637335181236267,
	"rewards/rejected": -0.9181416630744934,
	"step": 390
	},
	{
	"dpo_losses": 0.3513553738594055,
	"epoch": 1.13,
	"grad_norm": 4.052912034886079,
	"learning_rate": 3.932075034274723e-06,
	"logits/chosen": -2.73002552986145,
	"logits/rejected": -2.6879513263702393,
	"logps/chosen": -205.73922729492188,
	"logps/rejected": -290.40057373046875,
	"loss": 0.4414,
	"positive_losses": 0.4541704058647156,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3537348806858063,
	"rewards/margins": 0.9853051900863647,
	"rewards/margins_max": 1.2278480529785156,
	"rewards/margins_min": 0.7427625060081482,
	"rewards/margins_std": 0.34300726652145386,
	"rewards/rejected": -0.6315703988075256,
	"step": 400
	},
	{
	"epoch": 1.13,
	"eval_dpo_losses": 0.6385828852653503,
	"eval_logits/chosen": -2.71909236907959,
	"eval_logits/rejected": -2.670318365097046,
	"eval_logps/chosen": -299.07989501953125,
	"eval_logps/rejected": -291.5615539550781,
	"eval_loss": 2.6622352600097656,
	"eval_positive_losses": 20.927839279174805,
	"eval_rewards/accuracies": 0.6746031641960144,
	"eval_rewards/chosen": -0.13858698308467865,
	"eval_rewards/margins": 0.18520160019397736,
	"eval_rewards/margins_max": 0.6970763802528381,
	"eval_rewards/margins_min": -0.37488874793052673,
	"eval_rewards/margins_std": 0.4832788407802582,
	"eval_rewards/rejected": -0.323788583278656,
	"eval_runtime": 283.8974,
	"eval_samples_per_second": 7.045,
	"eval_steps_per_second": 0.222,
	"step": 400
	},
	{
	"dpo_losses": 0.38113099336624146,
	"epoch": 1.15,
	"grad_norm": 1.9724463020625589,
	"learning_rate": 3.864117685978339e-06,
	"logits/chosen": -2.816284656524658,
	"logits/rejected": -2.7134735584259033,
	"logps/chosen": -242.77761840820312,
	"logps/rejected": -272.8990173339844,
	"loss": 0.4468,
	"positive_losses": 4.795651912689209,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.2276880443096161,
	"rewards/margins": 0.8958386182785034,
	"rewards/margins_max": 1.3816872835159302,
	"rewards/margins_min": 0.40999001264572144,
	"rewards/margins_std": 0.6870937943458557,
	"rewards/rejected": -0.6681506037712097,
	"step": 410
	},
	{
	"dpo_losses": 0.33210596442222595,
	"epoch": 1.18,
	"grad_norm": 3.4285412656501766,
	"learning_rate": 3.794693501389861e-06,
	"logits/chosen": -2.8275389671325684,
	"logits/rejected": -2.7307045459747314,
	"logps/chosen": -293.709716796875,
	"logps/rejected": -331.89312744140625,
	"loss": 0.4087,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4260416030883789,
	"rewards/margins": 1.108737587928772,
	"rewards/margins_max": 1.603941559791565,
	"rewards/margins_min": 0.613533616065979,
	"rewards/margins_std": 0.7003240585327148,
	"rewards/rejected": -0.6826959848403931,
	"step": 420
	},
	{
	"dpo_losses": 0.34472885727882385,
	"epoch": 1.21,
	"grad_norm": 2.846847523997402,
	"learning_rate": 3.7238771323626822e-06,
	"logits/chosen": -2.7846486568450928,
	"logits/rejected": -2.6524085998535156,
	"logps/chosen": -342.40692138671875,
	"logps/rejected": -332.17010498046875,
	"loss": 0.5622,
	"positive_losses": 4.125036239624023,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.3678087592124939,
	"rewards/margins": 1.078407883644104,
	"rewards/margins_max": 1.4884113073349,
	"rewards/margins_min": 0.6684045195579529,
	"rewards/margins_std": 0.5798323154449463,
	"rewards/rejected": -0.7105990648269653,
	"step": 430
	},
	{
	"dpo_losses": 0.32919952273368835,
	"epoch": 1.24,
	"grad_norm": 109.42335538231772,
	"learning_rate": 3.651744727766676e-06,
	"logits/chosen": -2.7272467613220215,
	"logits/rejected": -2.66713285446167,
	"logps/chosen": -210.4514617919922,
	"logps/rejected": -259.1316833496094,
	"loss": 0.4028,
	"positive_losses": 0.3457130491733551,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.36259937286376953,
	"rewards/margins": 1.016867995262146,
	"rewards/margins_max": 1.3856614828109741,
	"rewards/margins_min": 0.6480745077133179,
	"rewards/margins_std": 0.5215528607368469,
	"rewards/rejected": -0.6542686223983765,
	"step": 440
	},
	{
	"dpo_losses": 0.31118613481521606,
	"epoch": 1.27,
	"grad_norm": 38.9440234553471,
	"learning_rate": 3.57837385160529e-06,
	"logits/chosen": -2.659485340118408,
	"logits/rejected": -2.6188011169433594,
	"logps/chosen": -273.7745361328125,
	"logps/rejected": -349.734619140625,
	"loss": 0.4823,
	"positive_losses": 2.6830811500549316,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.3455764055252075,
	"rewards/margins": 1.166411280632019,
	"rewards/margins_max": 1.5491106510162354,
	"rewards/margins_min": 0.7837120890617371,
	"rewards/margins_std": 0.5412184596061707,
	"rewards/rejected": -0.8208349347114563,
	"step": 450
	},
	{
	"dpo_losses": 0.24196143448352814,
	"epoch": 1.3,
	"grad_norm": 2.8256101438878116,
	"learning_rate": 3.503843399610941e-06,
	"logits/chosen": -2.6595611572265625,
	"logits/rejected": -2.6660475730895996,
	"logps/chosen": -322.4607849121094,
	"logps/rejected": -492.70068359375,
	"loss": 0.4169,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.5088067650794983,
	"rewards/margins": 1.4272974729537964,
	"rewards/margins_max": 1.8303813934326172,
	"rewards/margins_min": 1.0242136716842651,
	"rewards/margins_std": 0.5700467824935913,
	"rewards/rejected": -0.9184908866882324,
	"step": 460
	},
	{
	"dpo_losses": 0.32115817070007324,
	"epoch": 1.32,
	"grad_norm": 5.028579287398997,
	"learning_rate": 3.4282335144083985e-06,
	"logits/chosen": -2.567282199859619,
	"logits/rejected": -2.616426706314087,
	"logps/chosen": -219.5450439453125,
	"logps/rejected": -303.61566162109375,
	"loss": 0.537,
	"positive_losses": 2.556870937347412,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.25023719668388367,
	"rewards/margins": 1.0798122882843018,
	"rewards/margins_max": 1.3413639068603516,
	"rewards/margins_min": 0.8182605504989624,
	"rewards/margins_std": 0.36988988518714905,
	"rewards/rejected": -0.8295750617980957,
	"step": 470
	},
	{
	"dpo_losses": 0.2937307357788086,
	"epoch": 1.35,
	"grad_norm": 70.59458692509646,
	"learning_rate": 3.351625499337395e-06,
	"logits/chosen": -2.821207284927368,
	"logits/rejected": -2.655557155609131,
	"logps/chosen": -336.3492126464844,
	"logps/rejected": -360.6393127441406,
	"loss": 0.4803,
	"positive_losses": 4.53096866607666,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.37952059507369995,
	"rewards/margins": 1.2218748331069946,
	"rewards/margins_max": 1.5149763822555542,
	"rewards/margins_min": 0.9287732243537903,
	"rewards/margins_std": 0.4145084023475647,
	"rewards/rejected": -0.8423541784286499,
	"step": 480
	},
	{
	"dpo_losses": 0.38940221071243286,
	"epoch": 1.38,
	"grad_norm": 2.687569639501308,
	"learning_rate": 3.2741017310271056e-06,
	"logits/chosen": -2.6762735843658447,
	"logits/rejected": -2.549715280532837,
	"logps/chosen": -201.81640625,
	"logps/rejected": -277.5948791503906,
	"loss": 0.4423,
	"positive_losses": 0.7856195569038391,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.2850914001464844,
	"rewards/margins": 0.8952637910842896,
	"rewards/margins_max": 1.2249016761779785,
	"rewards/margins_min": 0.5656259655952454,
	"rewards/margins_std": 0.46617835760116577,
	"rewards/rejected": -0.6101723909378052,
	"step": 490
	},
	{
	"dpo_losses": 0.3359260559082031,
	"epoch": 1.41,
	"grad_norm": 8.068773298281624,
	"learning_rate": 3.195745570816532e-06,
	"logits/chosen": -2.582794189453125,
	"logits/rejected": -2.5295655727386475,
	"logps/chosen": -293.511962890625,
	"logps/rejected": -310.9229736328125,
	"loss": 0.4651,
	"positive_losses": 1.6097240447998047,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.3676465153694153,
	"rewards/margins": 1.0873607397079468,
	"rewards/margins_max": 1.359550952911377,
	"rewards/margins_min": 0.8151704668998718,
	"rewards/margins_std": 0.38493508100509644,
	"rewards/rejected": -0.7197142243385315,
	"step": 500
	},
	{
	"epoch": 1.41,
	"eval_dpo_losses": 0.6384106874465942,
	"eval_logits/chosen": -2.7216532230377197,
	"eval_logits/rejected": -2.6714365482330322,
	"eval_logps/chosen": -298.51165771484375,
	"eval_logps/rejected": -292.0330505371094,
	"eval_loss": 2.6646323204040527,
	"eval_positive_losses": 20.608970642089844,
	"eval_rewards/accuracies": 0.6626983880996704,
	"eval_rewards/chosen": -0.13290439546108246,
	"eval_rewards/margins": 0.1955995112657547,
	"eval_rewards/margins_max": 0.7628427743911743,
	"eval_rewards/margins_min": -0.3882632255554199,
	"eval_rewards/margins_std": 0.5195400714874268,
	"eval_rewards/rejected": -0.32850393652915955,
	"eval_runtime": 285.1068,
	"eval_samples_per_second": 7.015,
	"eval_steps_per_second": 0.221,
	"step": 500
	},
	{
	"dpo_losses": 0.33750054240226746,
	"epoch": 1.44,
	"grad_norm": 5.205737491948956,
	"learning_rate": 3.116641275116018e-06,
	"logits/chosen": -2.409104108810425,
	"logits/rejected": -2.434281349182129,
	"logps/chosen": -200.69908142089844,
	"logps/rejected": -388.02001953125,
	"loss": 0.398,
	"positive_losses": 1.0130329132080078,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.26239317655563354,
	"rewards/margins": 1.0276142358779907,
	"rewards/margins_max": 1.2639634609222412,
	"rewards/margins_min": 0.7912648916244507,
	"rewards/margins_std": 0.3342483639717102,
	"rewards/rejected": -0.7652209997177124,
	"step": 510
	},
	{
	"dpo_losses": 0.2813549041748047,
	"epoch": 1.46,
	"grad_norm": 81.57789306373847,
	"learning_rate": 3.0368739048062956e-06,
	"logits/chosen": -2.748539447784424,
	"logits/rejected": -2.641331672668457,
	"logps/chosen": -305.63671875,
	"logps/rejected": -331.99383544921875,
	"loss": 0.5374,
	"positive_losses": 10.878652572631836,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.30826514959335327,
	"rewards/margins": 1.2961227893829346,
	"rewards/margins_max": 1.768711805343628,
	"rewards/margins_min": 0.823533833026886,
	"rewards/margins_std": 0.6683418154716492,
	"rewards/rejected": -0.9878576397895813,
	"step": 520
	},
	{
	"dpo_losses": 0.2712605893611908,
	"epoch": 1.49,
	"grad_norm": 75.79271498324394,
	"learning_rate": 2.956529233772492e-06,
	"logits/chosen": -2.689558744430542,
	"logits/rejected": -2.6852006912231445,
	"logps/chosen": -292.9363098144531,
	"logps/rejected": -357.29400634765625,
	"loss": 0.3968,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.4060862958431244,
	"rewards/margins": 1.2946475744247437,
	"rewards/margins_max": 1.633283019065857,
	"rewards/margins_min": 0.9560121297836304,
	"rewards/margins_std": 0.47890281677246094,
	"rewards/rejected": -0.8885613679885864,
	"step": 530
	},
	{
	"dpo_losses": 0.27980148792266846,
	"epoch": 1.52,
	"grad_norm": 56.497845904041995,
	"learning_rate": 2.8756936566714317e-06,
	"logits/chosen": -2.7521424293518066,
	"logits/rejected": -2.6638569831848145,
	"logps/chosen": -310.28753662109375,
	"logps/rejected": -327.8934020996094,
	"loss": 0.5646,
	"positive_losses": 1.8035399913787842,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4047401547431946,
	"rewards/margins": 1.3088172674179077,
	"rewards/margins_max": 1.7437057495117188,
	"rewards/margins_min": 0.8739286661148071,
	"rewards/margins_std": 0.6150254011154175,
	"rewards/rejected": -0.9040770530700684,
	"step": 540
	},
	{
	"dpo_losses": 0.30083730816841125,
	"epoch": 1.55,
	"grad_norm": 4.003119682647961,
	"learning_rate": 2.794454096031429e-06,
	"logits/chosen": -2.722224235534668,
	"logits/rejected": -2.6790289878845215,
	"logps/chosen": -281.0094299316406,
	"logps/rejected": -354.3661804199219,
	"loss": 0.387,
	"positive_losses": 0.4849150776863098,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3756260275840759,
	"rewards/margins": 1.2488583326339722,
	"rewards/margins_max": 1.8290369510650635,
	"rewards/margins_min": 0.668679416179657,
	"rewards/margins_std": 0.820496678352356,
	"rewards/rejected": -0.8732322454452515,
	"step": 550
	},
	{
	"dpo_losses": 0.2974298894405365,
	"epoch": 1.58,
	"grad_norm": 4.054485926091979,
	"learning_rate": 2.71289790878446e-06,
	"logits/chosen": -2.6345105171203613,
	"logits/rejected": -2.6252238750457764,
	"logps/chosen": -266.069580078125,
	"logps/rejected": -428.830322265625,
	"loss": 0.4149,
	"positive_losses": 0.9539718627929688,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.36717483401298523,
	"rewards/margins": 1.2800363302230835,
	"rewards/margins_max": 1.847495675086975,
	"rewards/margins_min": 0.7125769257545471,
	"rewards/margins_std": 0.8025087118148804,
	"rewards/rejected": -0.9128614664077759,
	"step": 560
	},
	{
	"dpo_losses": 0.2434779852628708,
	"epoch": 1.61,
	"grad_norm": 13.695790466916172,
	"learning_rate": 2.6311127923312156e-06,
	"logits/chosen": -2.7691166400909424,
	"logits/rejected": -2.570652723312378,
	"logps/chosen": -357.65362548828125,
	"logps/rejected": -422.05902099609375,
	"loss": 0.3595,
	"positive_losses": 1.6939789056777954,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.35474830865859985,
	"rewards/margins": 1.4161592721939087,
	"rewards/margins_max": 1.7364327907562256,
	"rewards/margins_min": 1.0958856344223022,
	"rewards/margins_std": 0.4529353678226471,
	"rewards/rejected": -1.061410903930664,
	"step": 570
	},
	{
	"dpo_losses": 0.26757892966270447,
	"epoch": 1.63,
	"grad_norm": 45.10124515413211,
	"learning_rate": 2.549186690240057e-06,
	"logits/chosen": -2.7345547676086426,
	"logits/rejected": -2.6686453819274902,
	"logps/chosen": -254.34683227539062,
	"logps/rejected": -315.84857177734375,
	"loss": 0.5253,
	"positive_losses": 0.2569518983364105,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.43774762749671936,
	"rewards/margins": 1.3818461894989014,
	"rewards/margins_max": 1.815768837928772,
	"rewards/margins_min": 0.9479236602783203,
	"rewards/margins_std": 0.6136592626571655,
	"rewards/rejected": -0.9440986514091492,
	"step": 580
	},
	{
	"dpo_losses": 0.28964871168136597,
	"epoch": 1.66,
	"grad_norm": 7.214863048583421,
	"learning_rate": 2.4672076976812548e-06,
	"logits/chosen": -2.6155965328216553,
	"logits/rejected": -2.465445041656494,
	"logps/chosen": -330.9356994628906,
	"logps/rejected": -382.1274719238281,
	"loss": 0.4009,
	"positive_losses": 0.20948180556297302,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.42689600586891174,
	"rewards/margins": 1.3260236978530884,
	"rewards/margins_max": 1.9126968383789062,
	"rewards/margins_min": 0.7393506169319153,
	"rewards/margins_std": 0.8296809196472168,
	"rewards/rejected": -0.8991276025772095,
	"step": 590
	},
	{
	"dpo_losses": 0.3019997179508209,
	"epoch": 1.69,
	"grad_norm": 2.5656935168095365,
	"learning_rate": 2.3852639666982218e-06,
	"logits/chosen": -2.696664571762085,
	"logits/rejected": -2.6669843196868896,
	"logps/chosen": -210.6801300048828,
	"logps/rejected": -339.8411560058594,
	"loss": 0.5269,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4121875762939453,
	"rewards/margins": 1.2055537700653076,
	"rewards/margins_max": 1.5584628582000732,
	"rewards/margins_min": 0.8526442646980286,
	"rewards/margins_std": 0.49908918142318726,
	"rewards/rejected": -0.793366014957428,
	"step": 600
	},
	{
	"epoch": 1.69,
	"eval_dpo_losses": 0.6337167024612427,
	"eval_logits/chosen": -2.653167724609375,
	"eval_logits/rejected": -2.6025989055633545,
	"eval_logps/chosen": -326.8940734863281,
	"eval_logps/rejected": -323.9284362792969,
	"eval_loss": 5.016211986541748,
	"eval_positive_losses": 46.1312141418457,
	"eval_rewards/accuracies": 0.6626983880996704,
	"eval_rewards/chosen": -0.4167284667491913,
	"eval_rewards/margins": 0.2307295948266983,
	"eval_rewards/margins_max": 0.8626330494880676,
	"eval_rewards/margins_min": -0.4616139829158783,
	"eval_rewards/margins_std": 0.5963027477264404,
	"eval_rewards/rejected": -0.647458016872406,
	"eval_runtime": 284.3544,
	"eval_samples_per_second": 7.033,
	"eval_steps_per_second": 0.222,
	"step": 600
	},
	{
	"dpo_losses": 0.3822602331638336,
	"epoch": 1.72,
	"grad_norm": 4.499258828055022,
	"learning_rate": 2.303443611417584e-06,
	"logits/chosen": -2.5053551197052,
	"logits/rejected": -2.452122449874878,
	"logps/chosen": -285.8536682128906,
	"logps/rejected": -345.1878662109375,
	"loss": 0.5838,
	"positive_losses": 7.787275791168213,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.20293152332305908,
	"rewards/margins": 0.9711725115776062,
	"rewards/margins_max": 1.5771162509918213,
	"rewards/margins_min": 0.36522871255874634,
	"rewards/margins_std": 0.8569338917732239,
	"rewards/rejected": -0.7682409286499023,
	"step": 610
	},
	{
	"dpo_losses": 0.2892194390296936,
	"epoch": 1.75,
	"grad_norm": 5.081357332154091,
	"learning_rate": 2.2218346133000264e-06,
	"logits/chosen": -2.5583109855651855,
	"logits/rejected": -2.4557156562805176,
	"logps/chosen": -241.0048370361328,
	"logps/rejected": -288.3791809082031,
	"loss": 0.4921,
	"positive_losses": 4.499431610107422,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3376957178115845,
	"rewards/margins": 1.2491505146026611,
	"rewards/margins_max": 1.6783252954483032,
	"rewards/margins_min": 0.8199755549430847,
	"rewards/margins_std": 0.606944739818573,
	"rewards/rejected": -0.9114546775817871,
	"step": 620
	},
	{
	"dpo_losses": 0.28637608885765076,
	"epoch": 1.77,
	"grad_norm": 31.375745057762174,
	"learning_rate": 2.140524726533792e-06,
	"logits/chosen": -2.611680030822754,
	"logits/rejected": -2.492157459259033,
	"logps/chosen": -342.9209899902344,
	"logps/rejected": -305.1431884765625,
	"loss": 0.381,
	"positive_losses": 1.477830171585083,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.5035167336463928,
	"rewards/margins": 1.3139656782150269,
	"rewards/margins_max": 1.746787428855896,
	"rewards/margins_min": 0.8811438679695129,
	"rewards/margins_std": 0.6121026277542114,
	"rewards/rejected": -0.8104490041732788,
	"step": 630
	},
	{
	"dpo_losses": 0.27914196252822876,
	"epoch": 1.8,
	"grad_norm": 56.714432514737815,
	"learning_rate": 2.059601383672566e-06,
	"logits/chosen": -2.6837282180786133,
	"logits/rejected": -2.669649600982666,
	"logps/chosen": -205.0702362060547,
	"logps/rejected": -292.3086853027344,
	"loss": 0.6023,
	"positive_losses": 3.721278429031372,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.2986445426940918,
	"rewards/margins": 1.2236577272415161,
	"rewards/margins_max": 1.4498487710952759,
	"rewards/margins_min": 0.9974665641784668,
	"rewards/margins_std": 0.31988245248794556,
	"rewards/rejected": -0.9250132441520691,
	"step": 640
	},
	{
	"dpo_losses": 0.3276744782924652,
	"epoch": 1.83,
	"grad_norm": 108.41037124625116,
	"learning_rate": 1.9791516016192214e-06,
	"logits/chosen": -2.7006583213806152,
	"logits/rejected": -2.657177686691284,
	"logps/chosen": -219.15249633789062,
	"logps/rejected": -298.5721130371094,
	"loss": 0.3902,
	"positive_losses": 0.02580871619284153,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.2983975410461426,
	"rewards/margins": 1.0909839868545532,
	"rewards/margins_max": 1.5546290874481201,
	"rewards/margins_min": 0.6273389458656311,
	"rewards/margins_std": 0.6556931138038635,
	"rewards/rejected": -0.7925864458084106,
	"step": 650
	},
	{
	"dpo_losses": 0.37573254108428955,
	"epoch": 1.86,
	"grad_norm": 4.49512981087327,
	"learning_rate": 1.8992618880565039e-06,
	"logits/chosen": -2.4442310333251953,
	"logits/rejected": -2.430908679962158,
	"logps/chosen": -247.6465301513672,
	"logps/rejected": -270.6328125,
	"loss": 0.673,
	"positive_losses": 9.613517761230469,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": 0.23618540167808533,
	"rewards/margins": 1.0627477169036865,
	"rewards/margins_max": 1.7770532369613647,
	"rewards/margins_min": 0.3484421372413635,
	"rewards/margins_std": 1.0101807117462158,
	"rewards/rejected": -0.8265622854232788,
	"step": 660
	},
	{
	"dpo_losses": 0.2606434226036072,
	"epoch": 1.89,
	"grad_norm": 16.900887081181846,
	"learning_rate": 1.8200181484252888e-06,
	"logits/chosen": -2.728989601135254,
	"logits/rejected": -2.65732741355896,
	"logps/chosen": -339.34649658203125,
	"logps/rejected": -414.9603576660156,
	"loss": 0.3802,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.46093645691871643,
	"rewards/margins": 1.4545660018920898,
	"rewards/margins_max": 1.9622220993041992,
	"rewards/margins_min": 0.9469099044799805,
	"rewards/margins_std": 0.7179341316223145,
	"rewards/rejected": -0.9936296343803406,
	"step": 670
	},
	{
	"dpo_losses": 0.22198085486888885,
	"epoch": 1.92,
	"grad_norm": 41.51526627620706,
	"learning_rate": 1.7415055935504234e-06,
	"logits/chosen": -2.705850601196289,
	"logits/rejected": -2.6019129753112793,
	"logps/chosen": -284.8177795410156,
	"logps/rejected": -411.76708984375,
	"loss": 0.4159,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.37507936358451843,
	"rewards/margins": 1.5223026275634766,
	"rewards/margins_max": 1.767469048500061,
	"rewards/margins_min": 1.2771363258361816,
	"rewards/margins_std": 0.34671759605407715,
	"rewards/rejected": -1.1472233533859253,
	"step": 680
	},
	{
	"dpo_losses": 0.3486565351486206,
	"epoch": 1.94,
	"grad_norm": 138.4896910648948,
	"learning_rate": 1.6638086480134954e-06,
	"logits/chosen": -2.577733039855957,
	"logits/rejected": -2.557359218597412,
	"logps/chosen": -144.18289184570312,
	"logps/rejected": -205.9375762939453,
	"loss": 0.4276,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3236793875694275,
	"rewards/margins": 1.0879504680633545,
	"rewards/margins_max": 1.6922643184661865,
	"rewards/margins_min": 0.4836367070674896,
	"rewards/margins_std": 0.85462886095047,
	"rewards/rejected": -0.7642711400985718,
	"step": 690
	},
	{
	"dpo_losses": 0.24665436148643494,
	"epoch": 1.97,
	"grad_norm": 22.11936611709013,
	"learning_rate": 1.5870108593710473e-06,
	"logits/chosen": -2.422232151031494,
	"logits/rejected": -2.351428508758545,
	"logps/chosen": -301.96270751953125,
	"logps/rejected": -312.5522766113281,
	"loss": 0.3513,
	"positive_losses": 0.03521118313074112,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.5125211477279663,
	"rewards/margins": 1.4875143766403198,
	"rewards/margins_max": 1.8352491855621338,
	"rewards/margins_min": 1.139779806137085,
	"rewards/margins_std": 0.4917708933353424,
	"rewards/rejected": -0.9749932289123535,
	"step": 700
	},
	{
	"epoch": 1.97,
	"eval_dpo_losses": 0.6398608684539795,
	"eval_logits/chosen": -2.631686210632324,
	"eval_logits/rejected": -2.5807785987854004,
	"eval_logps/chosen": -326.29583740234375,
	"eval_logps/rejected": -325.2173156738281,
	"eval_loss": 4.895449161529541,
	"eval_positive_losses": 45.593257904052734,
	"eval_rewards/accuracies": 0.6626983880996704,
	"eval_rewards/chosen": -0.41074639558792114,
	"eval_rewards/margins": 0.24960003793239594,
	"eval_rewards/margins_max": 0.9743701815605164,
	"eval_rewards/margins_min": -0.5254129767417908,
	"eval_rewards/margins_std": 0.6826153993606567,
	"eval_rewards/rejected": -0.6603464484214783,
	"eval_runtime": 284.0532,
	"eval_samples_per_second": 7.041,
	"eval_steps_per_second": 0.222,
	"step": 700
	},
	{
	"dpo_losses": 0.32716676592826843,
	"epoch": 2.0,
	"grad_norm": 24.97077759875969,
	"learning_rate": 1.511194808315853e-06,
	"logits/chosen": -2.5247268676757812,
	"logits/rejected": -2.486575126647949,
	"logps/chosen": -229.55859375,
	"logps/rejected": -268.9668273925781,
	"loss": 0.4163,
	"positive_losses": 0.5168693661689758,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.28237053751945496,
	"rewards/margins": 1.146689772605896,
	"rewards/margins_max": 1.594560146331787,
	"rewards/margins_min": 0.6988194584846497,
	"rewards/margins_std": 0.6333842873573303,
	"rewards/rejected": -0.8643192052841187,
	"step": 710
	},
	{
	"dpo_losses": 0.21982404589653015,
	"epoch": 2.03,
	"grad_norm": 1.38353688722549,
	"learning_rate": 1.4364420198778662e-06,
	"logits/chosen": -2.7155685424804688,
	"logits/rejected": -2.609267234802246,
	"logps/chosen": -343.7250061035156,
	"logps/rejected": -450.3816833496094,
	"loss": 0.3634,
	"positive_losses": 4.519556999206543,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.456549733877182,
	"rewards/margins": 1.6569738388061523,
	"rewards/margins_max": 2.1707637310028076,
	"rewards/margins_min": 1.143183946609497,
	"rewards/margins_std": 0.7266086935997009,
	"rewards/rejected": -1.200424075126648,
	"step": 720
	},
	{
	"dpo_losses": 0.25513142347335815,
	"epoch": 2.06,
	"grad_norm": 3.318839287140489,
	"learning_rate": 1.3628328757603243e-06,
	"logits/chosen": -2.6959056854248047,
	"logits/rejected": -2.5843894481658936,
	"logps/chosen": -267.92010498046875,
	"logps/rejected": -357.7880554199219,
	"loss": 0.2684,
	"positive_losses": 0.038549043238162994,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.31957200169563293,
	"rewards/margins": 1.4021821022033691,
	"rewards/margins_max": 1.6910970211029053,
	"rewards/margins_min": 1.113266944885254,
	"rewards/margins_std": 0.4085877537727356,
	"rewards/rejected": -1.082610011100769,
	"step": 730
	},
	{
	"dpo_losses": 0.30432650446891785,
	"epoch": 2.08,
	"grad_norm": 36.95329512381558,
	"learning_rate": 1.2904465279052725e-06,
	"logits/chosen": -2.634579658508301,
	"logits/rejected": -2.56650710105896,
	"logps/chosen": -284.7083740234375,
	"logps/rejected": -317.93389892578125,
	"loss": 0.4788,
	"positive_losses": 3.9446158409118652,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.22743673622608185,
	"rewards/margins": 1.2028728723526,
	"rewards/margins_max": 1.6675021648406982,
	"rewards/margins_min": 0.7382434606552124,
	"rewards/margins_std": 0.6570851802825928,
	"rewards/rejected": -0.9754360914230347,
	"step": 740
	},
	{
	"dpo_losses": 0.2779385447502136,
	"epoch": 2.11,
	"grad_norm": 5.125527517570657,
	"learning_rate": 1.219360813381446e-06,
	"logits/chosen": -2.462111234664917,
	"logits/rejected": -2.498530387878418,
	"logps/chosen": -159.8828887939453,
	"logps/rejected": -236.5124053955078,
	"loss": 0.2882,
	"positive_losses": 0.18086472153663635,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3097127676010132,
	"rewards/margins": 1.3083655834197998,
	"rewards/margins_max": 1.592053771018982,
	"rewards/margins_min": 1.0246771574020386,
	"rewards/margins_std": 0.4011960029602051,
	"rewards/rejected": -0.9986528158187866,
	"step": 750
	},
	{
	"dpo_losses": 0.22775745391845703,
	"epoch": 2.14,
	"grad_norm": 18.30294185818396,
	"learning_rate": 1.1496521706860392e-06,
	"logits/chosen": -2.651033401489258,
	"logits/rejected": -2.537503242492676,
	"logps/chosen": -291.1076354980469,
	"logps/rejected": -382.2750244140625,
	"loss": 0.3201,
	"positive_losses": 2.4156768321990967,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.36460763216018677,
	"rewards/margins": 1.5596258640289307,
	"rewards/margins_max": 1.959398627281189,
	"rewards/margins_min": 1.1598527431488037,
	"rewards/margins_std": 0.5653643012046814,
	"rewards/rejected": -1.1950181722640991,
	"step": 760
	},
	{
	"dpo_losses": 0.21675769984722137,
	"epoch": 2.17,
	"grad_norm": 21.74451175593295,
	"learning_rate": 1.0813955575503588e-06,
	"logits/chosen": -2.604640483856201,
	"logits/rejected": -2.5890743732452393,
	"logps/chosen": -301.3707580566406,
	"logps/rejected": -381.50506591796875,
	"loss": 0.3818,
	"positive_losses": 0.353890985250473,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4118216633796692,
	"rewards/margins": 1.6504104137420654,
	"rewards/margins_max": 2.0086562633514404,
	"rewards/margins_min": 1.2921648025512695,
	"rewards/margins_std": 0.5066360235214233,
	"rewards/rejected": -1.2385889291763306,
	"step": 770
	},
	{
	"dpo_losses": 0.24907536804676056,
	"epoch": 2.2,
	"grad_norm": 5.9813942121541706,
	"learning_rate": 1.0146643703377488e-06,
	"logits/chosen": -2.734790325164795,
	"logits/rejected": -2.537445306777954,
	"logps/chosen": -292.0768127441406,
	"logps/rejected": -332.3907775878906,
	"loss": 0.4576,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.5042055249214172,
	"rewards/margins": 1.5501843690872192,
	"rewards/margins_max": 2.1402950286865234,
	"rewards/margins_min": 0.9600737690925598,
	"rewards/margins_std": 0.8345423936843872,
	"rewards/rejected": -1.0459789037704468,
	"step": 780
	},
	{
	"dpo_losses": 0.20471492409706116,
	"epoch": 2.23,
	"grad_norm": 2.116074836272933,
	"learning_rate": 9.495303651204496e-07,
	"logits/chosen": -2.611013889312744,
	"logits/rejected": -2.5461339950561523,
	"logps/chosen": -319.31951904296875,
	"logps/rejected": -404.64886474609375,
	"loss": 0.4666,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.3257637321949005,
	"rewards/margins": 1.60427725315094,
	"rewards/margins_max": 1.9402239322662354,
	"rewards/margins_min": 1.2683299779891968,
	"rewards/margins_std": 0.4751007556915283,
	"rewards/rejected": -1.2785133123397827,
	"step": 790
	},
	{
	"dpo_losses": 0.2155081331729889,
	"epoch": 2.25,
	"grad_norm": 12.840834237921664,
	"learning_rate": 8.860635805202616e-07,
	"logits/chosen": -2.615548610687256,
	"logits/rejected": -2.5271685123443604,
	"logps/chosen": -304.5693054199219,
	"logps/rejected": -362.62225341796875,
	"loss": 0.2795,
	"positive_losses": 0.01874256134033203,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4078141152858734,
	"rewards/margins": 1.58090341091156,
	"rewards/margins_max": 1.9335031509399414,
	"rewards/margins_min": 1.2283036708831787,
	"rewards/margins_std": 0.49865132570266724,
	"rewards/rejected": -1.1730893850326538,
	"step": 800
	},
	{
	"epoch": 2.25,
	"eval_dpo_losses": 0.6266348958015442,
	"eval_logits/chosen": -2.604722738265991,
	"eval_logits/rejected": -2.554541826248169,
	"eval_logps/chosen": -324.4103088378906,
	"eval_logps/rejected": -327.570556640625,
	"eval_loss": 4.769333839416504,
	"eval_positive_losses": 43.908966064453125,
	"eval_rewards/accuracies": 0.682539701461792,
	"eval_rewards/chosen": -0.3918909430503845,
	"eval_rewards/margins": 0.29198840260505676,
	"eval_rewards/margins_max": 1.0657094717025757,
	"eval_rewards/margins_min": -0.5265500545501709,
	"eval_rewards/margins_std": 0.7165747284889221,
	"eval_rewards/rejected": -0.6838793158531189,
	"eval_runtime": 284.6208,
	"eval_samples_per_second": 7.027,
	"eval_steps_per_second": 0.221,
	"step": 800
	},
	{
	"dpo_losses": 0.25243309140205383,
	"epoch": 2.28,
	"grad_norm": 71.28169182787225,
	"learning_rate": 8.24332262395994e-07,
	"logits/chosen": -2.6843011379241943,
	"logits/rejected": -2.6510274410247803,
	"logps/chosen": -252.87222290039062,
	"logps/rejected": -349.50506591796875,
	"loss": 0.3457,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3779425024986267,
	"rewards/margins": 1.4469493627548218,
	"rewards/margins_max": 2.0055932998657227,
	"rewards/margins_min": 0.8883053660392761,
	"rewards/margins_std": 0.7900420427322388,
	"rewards/rejected": -1.0690069198608398,
	"step": 810
	},
	{
	"dpo_losses": 0.25832101702690125,
	"epoch": 2.31,
	"grad_norm": 245.8246008336025,
	"learning_rate": 7.644027904586587e-07,
	"logits/chosen": -2.637300968170166,
	"logits/rejected": -2.5708765983581543,
	"logps/chosen": -227.47787475585938,
	"logps/rejected": -322.4635925292969,
	"loss": 0.5117,
	"positive_losses": 4.7760443687438965,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.2738664150238037,
	"rewards/margins": 1.4220813512802124,
	"rewards/margins_max": 1.896773338317871,
	"rewards/margins_min": 0.9473894238471985,
	"rewards/margins_std": 0.6713159084320068,
	"rewards/rejected": -1.1482150554656982,
	"step": 820
	},
	{
	"dpo_losses": 0.16726334393024445,
	"epoch": 2.34,
	"grad_norm": 1.7593306703555782,
	"learning_rate": 7.06339606893347e-07,
	"logits/chosen": -2.6265785694122314,
	"logits/rejected": -2.5026650428771973,
	"logps/chosen": -399.26031494140625,
	"logps/rejected": -387.8680419921875,
	"loss": 0.2112,
	"positive_losses": 0.06428833305835724,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.5203009247779846,
	"rewards/margins": 1.8566944599151611,
	"rewards/margins_max": 2.1375911235809326,
	"rewards/margins_min": 1.5757976770401,
	"rewards/margins_std": 0.3972480893135071,
	"rewards/rejected": -1.3363934755325317,
	"step": 830
	},
	{
	"dpo_losses": 0.2129584103822708,
	"epoch": 2.37,
	"grad_norm": 28.81303382097675,
	"learning_rate": 6.502051470645149e-07,
	"logits/chosen": -2.721235513687134,
	"logits/rejected": -2.5673904418945312,
	"logps/chosen": -341.94073486328125,
	"logps/rejected": -413.451171875,
	"loss": 0.3816,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.34823325276374817,
	"rewards/margins": 1.6308362483978271,
	"rewards/margins_max": 1.947928786277771,
	"rewards/margins_min": 1.313744068145752,
	"rewards/margins_std": 0.4484362006187439,
	"rewards/rejected": -1.282603144645691,
	"step": 840
	},
	{
	"dpo_losses": 0.204869344830513,
	"epoch": 2.39,
	"grad_norm": 1.8754374311724713,
	"learning_rate": 5.960597723792194e-07,
	"logits/chosen": -2.610276937484741,
	"logits/rejected": -2.4925060272216797,
	"logps/chosen": -280.25665283203125,
	"logps/rejected": -387.3306579589844,
	"loss": 0.429,
	"positive_losses": 4.123325824737549,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3918009400367737,
	"rewards/margins": 1.684704065322876,
	"rewards/margins_max": 2.1113224029541016,
	"rewards/margins_min": 1.2580856084823608,
	"rewards/margins_std": 0.6033294796943665,
	"rewards/rejected": -1.2929030656814575,
	"step": 850
	},
	{
	"dpo_losses": 0.18849320709705353,
	"epoch": 2.42,
	"grad_norm": 2.415129688011,
	"learning_rate": 5.43961705380465e-07,
	"logits/chosen": -2.5959548950195312,
	"logits/rejected": -2.5745034217834473,
	"logps/chosen": -274.2839660644531,
	"logps/rejected": -413.91650390625,
	"loss": 0.3573,
	"positive_losses": 0.0,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.4205331802368164,
	"rewards/margins": 1.8768619298934937,
	"rewards/margins_max": 2.31927490234375,
	"rewards/margins_min": 1.4344491958618164,
	"rewards/margins_std": 0.6256662011146545,
	"rewards/rejected": -1.4563289880752563,
	"step": 860
	},
	{
	"dpo_losses": 0.24235720932483673,
	"epoch": 2.45,
	"grad_norm": 2.200547137281921,
	"learning_rate": 4.939669671404871e-07,
	"logits/chosen": -2.5770421028137207,
	"logits/rejected": -2.521031618118286,
	"logps/chosen": -251.25564575195312,
	"logps/rejected": -441.2269592285156,
	"loss": 0.4093,
	"positive_losses": 5.246364116668701,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.2414274662733078,
	"rewards/margins": 1.4953609704971313,
	"rewards/margins_max": 1.9941730499267578,
	"rewards/margins_min": 0.9965487718582153,
	"rewards/margins_std": 0.7054268717765808,
	"rewards/rejected": -1.2539334297180176,
	"step": 870
	},
	{
	"dpo_losses": 0.2292724847793579,
	"epoch": 2.48,
	"grad_norm": 33.76430360961392,
	"learning_rate": 4.461293170212644e-07,
	"logits/chosen": -2.6965794563293457,
	"logits/rejected": -2.543576717376709,
	"logps/chosen": -292.703125,
	"logps/rejected": -368.0157775878906,
	"loss": 0.3654,
	"positive_losses": 5.510960578918457,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.29951637983322144,
	"rewards/margins": 1.5260313749313354,
	"rewards/margins_max": 1.979828119277954,
	"rewards/margins_min": 1.0722346305847168,
	"rewards/margins_std": 0.6417653560638428,
	"rewards/rejected": -1.2265150547027588,
	"step": 880
	},
	{
	"dpo_losses": 0.15858207643032074,
	"epoch": 2.51,
	"grad_norm": 5.727775081054632,
	"learning_rate": 4.005001948670606e-07,
	"logits/chosen": -2.694242238998413,
	"logits/rejected": -2.595343828201294,
	"logps/chosen": -382.9683532714844,
	"logps/rejected": -468.80157470703125,
	"loss": 0.463,
	"positive_losses": 0.11419792473316193,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.5407828092575073,
	"rewards/margins": 1.968488097190857,
	"rewards/margins_max": 2.390479564666748,
	"rewards/margins_min": 1.546496868133545,
	"rewards/margins_std": 0.5967859029769897,
	"rewards/rejected": -1.4277052879333496,
	"step": 890
	},
	{
	"dpo_losses": 0.18081924319267273,
	"epoch": 2.54,
	"grad_norm": 6.1887239729076455,
	"learning_rate": 3.571286656911377e-07,
	"logits/chosen": -2.6035306453704834,
	"logits/rejected": -2.4794845581054688,
	"logps/chosen": -310.08013916015625,
	"logps/rejected": -408.18426513671875,
	"loss": 0.3544,
	"positive_losses": 2.6008810997009277,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4102245271205902,
	"rewards/margins": 1.8388206958770752,
	"rewards/margins_max": 2.2580726146698,
	"rewards/margins_min": 1.4195688962936401,
	"rewards/margins_std": 0.5929116606712341,
	"rewards/rejected": -1.4285962581634521,
	"step": 900
	},
	{
	"epoch": 2.54,
	"eval_dpo_losses": 0.6314364075660706,
	"eval_logits/chosen": -2.586303472518921,
	"eval_logits/rejected": -2.535871744155884,
	"eval_logps/chosen": -332.5704345703125,
	"eval_logps/rejected": -335.68133544921875,
	"eval_loss": 5.36396598815918,
	"eval_positive_losses": 51.33633804321289,
	"eval_rewards/accuracies": 0.670634925365448,
	"eval_rewards/chosen": -0.47349241375923157,
	"eval_rewards/margins": 0.29149433970451355,
	"eval_rewards/margins_max": 1.078196406364441,
	"eval_rewards/margins_min": -0.5344981551170349,
	"eval_rewards/margins_std": 0.72893226146698,
	"eval_rewards/rejected": -0.7649868130683899,
	"eval_runtime": 284.4452,
	"eval_samples_per_second": 7.031,
	"eval_steps_per_second": 0.221,
	"step": 900
	},
	{
	"dpo_losses": 0.20350190997123718,
	"epoch": 2.56,
	"grad_norm": 1.9747106750644823,
	"learning_rate": 3.1606136691612555e-07,
	"logits/chosen": -2.7836008071899414,
	"logits/rejected": -2.5904271602630615,
	"logps/chosen": -345.66265869140625,
	"logps/rejected": -354.3844299316406,
	"loss": 0.2637,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.5323250889778137,
	"rewards/margins": 1.6922286748886108,
	"rewards/margins_max": 2.0907249450683594,
	"rewards/margins_min": 1.2937328815460205,
	"rewards/margins_std": 0.5635584592819214,
	"rewards/rejected": -1.159903883934021,
	"step": 910
	},
	{
	"dpo_losses": 0.22471606731414795,
	"epoch": 2.59,
	"grad_norm": 11.212944207381554,
	"learning_rate": 2.773424582247844e-07,
	"logits/chosen": -2.5793869495391846,
	"logits/rejected": -2.4063210487365723,
	"logps/chosen": -291.543701171875,
	"logps/rejected": -320.06353759765625,
	"loss": 0.6166,
	"positive_losses": 8.062161445617676,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.38504648208618164,
	"rewards/margins": 1.6606292724609375,
	"rewards/margins_max": 2.1240899562835693,
	"rewards/margins_min": 1.1971690654754639,
	"rewards/margins_std": 0.655431866645813,
	"rewards/rejected": -1.275583028793335,
	"step": 920
	},
	{
	"dpo_losses": 0.20711331069469452,
	"epoch": 2.62,
	"grad_norm": 190.13690585667476,
	"learning_rate": 2.410135740750821e-07,
	"logits/chosen": -2.6692299842834473,
	"logits/rejected": -2.5721378326416016,
	"logps/chosen": -300.9726257324219,
	"logps/rejected": -399.5599365234375,
	"loss": 0.4929,
	"positive_losses": 3.012037754058838,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.3912240266799927,
	"rewards/margins": 1.6907918453216553,
	"rewards/margins_max": 2.0557963848114014,
	"rewards/margins_min": 1.3257873058319092,
	"rewards/margins_std": 0.5161946415901184,
	"rewards/rejected": -1.2995678186416626,
	"step": 930
	},
	{
	"dpo_losses": 0.3051915466785431,
	"epoch": 2.65,
	"grad_norm": 189.05899790144875,
	"learning_rate": 2.0711377893064182e-07,
	"logits/chosen": -2.639585256576538,
	"logits/rejected": -2.488219738006592,
	"logps/chosen": -312.65863037109375,
	"logps/rejected": -305.5802917480469,
	"loss": 0.4531,
	"positive_losses": 3.7967441082000732,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.2920045554637909,
	"rewards/margins": 1.2456369400024414,
	"rewards/margins_max": 1.7247259616851807,
	"rewards/margins_min": 0.7665479183197021,
	"rewards/margins_std": 0.6775342226028442,
	"rewards/rejected": -0.9536323547363281,
	"step": 940
	},
	{
	"dpo_losses": 0.2704788148403168,
	"epoch": 2.68,
	"grad_norm": 15.556722893889498,
	"learning_rate": 1.756795252547111e-07,
	"logits/chosen": -2.588268518447876,
	"logits/rejected": -2.501624584197998,
	"logps/chosen": -225.04928588867188,
	"logps/rejected": -314.3163757324219,
	"loss": 0.4599,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3465590476989746,
	"rewards/margins": 1.4794371128082275,
	"rewards/margins_max": 1.9303573369979858,
	"rewards/margins_min": 1.0285165309906006,
	"rewards/margins_std": 0.6376978158950806,
	"rewards/rejected": -1.1328779458999634,
	"step": 950
	},
	{
	"dpo_losses": 0.23120097815990448,
	"epoch": 2.7,
	"grad_norm": 3.6975387738343986,
	"learning_rate": 1.4674461431281013e-07,
	"logits/chosen": -2.7935328483581543,
	"logits/rejected": -2.7169508934020996,
	"logps/chosen": -246.69778442382812,
	"logps/rejected": -358.2559509277344,
	"loss": 0.3766,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3893265724182129,
	"rewards/margins": 1.5332249402999878,
	"rewards/margins_max": 2.008496046066284,
	"rewards/margins_min": 1.0579537153244019,
	"rewards/margins_std": 0.6721349954605103,
	"rewards/rejected": -1.143898367881775,
	"step": 960
	},
	{
	"dpo_losses": 0.18317696452140808,
	"epoch": 2.73,
	"grad_norm": 25.967042428441264,
	"learning_rate": 1.2034015982622243e-07,
	"logits/chosen": -2.68410587310791,
	"logits/rejected": -2.5668373107910156,
	"logps/chosen": -320.6241760253906,
	"logps/rejected": -454.39849853515625,
	"loss": 0.3194,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4021673798561096,
	"rewards/margins": 1.9114774465560913,
	"rewards/margins_max": 2.451068878173828,
	"rewards/margins_min": 1.3718855381011963,
	"rewards/margins_std": 0.763097882270813,
	"rewards/rejected": -1.5093098878860474,
	"step": 970
	},
	{
	"dpo_losses": 0.2419268637895584,
	"epoch": 2.76,
	"grad_norm": 19.29396011638503,
	"learning_rate": 9.649455451539419e-08,
	"logits/chosen": -2.555974006652832,
	"logits/rejected": -2.4670310020446777,
	"logps/chosen": -218.39334106445312,
	"logps/rejected": -300.92254638671875,
	"loss": 0.4254,
	"positive_losses": 4.289657115936279,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.25288599729537964,
	"rewards/margins": 1.518112301826477,
	"rewards/margins_max": 1.9375699758529663,
	"rewards/margins_min": 1.098654866218567,
	"rewards/margins_std": 0.5932024717330933,
	"rewards/rejected": -1.2652263641357422,
	"step": 980
	},
	{
	"dpo_losses": 0.20426790416240692,
	"epoch": 2.79,
	"grad_norm": 145.7358684722982,
	"learning_rate": 7.523343956923196e-08,
	"logits/chosen": -2.7547340393066406,
	"logits/rejected": -2.6413354873657227,
	"logps/chosen": -303.62115478515625,
	"logps/rejected": -412.58782958984375,
	"loss": 0.406,
	"positive_losses": 1.1116502285003662,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4799574315547943,
	"rewards/margins": 1.7528730630874634,
	"rewards/margins_max": 2.2721505165100098,
	"rewards/margins_min": 1.2335954904556274,
	"rewards/margins_std": 0.734369158744812,
	"rewards/rejected": -1.2729156017303467,
	"step": 990
	},
	{
	"dpo_losses": 0.2937398850917816,
	"epoch": 2.82,
	"grad_norm": 147.9672419405728,
	"learning_rate": 5.657967707312195e-08,
	"logits/chosen": -2.519782543182373,
	"logits/rejected": -2.54045033454895,
	"logps/chosen": -236.8069610595703,
	"logps/rejected": -393.01373291015625,
	"loss": 0.545,
	"positive_losses": 6.547940254211426,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.24184127151966095,
	"rewards/margins": 1.3283250331878662,
	"rewards/margins_max": 1.8528366088867188,
	"rewards/margins_min": 0.8038133382797241,
	"rewards/margins_std": 0.7417714595794678,
	"rewards/rejected": -1.0864837169647217,
	"step": 1000
	},
	{
	"epoch": 2.82,
	"eval_dpo_losses": 0.6312186121940613,
	"eval_logits/chosen": -2.5872504711151123,
	"eval_logits/rejected": -2.5366668701171875,
	"eval_logps/chosen": -330.9984436035156,
	"eval_logps/rejected": -333.99945068359375,
	"eval_loss": 5.222360134124756,
	"eval_positive_losses": 49.98057556152344,
	"eval_rewards/accuracies": 0.6626983880996704,
	"eval_rewards/chosen": -0.4577721953392029,
	"eval_rewards/margins": 0.29039543867111206,
	"eval_rewards/margins_max": 1.0717767477035522,
	"eval_rewards/margins_min": -0.533184289932251,
	"eval_rewards/margins_std": 0.724482536315918,
	"eval_rewards/rejected": -0.7481676340103149,
	"eval_runtime": 284.8086,
	"eval_samples_per_second": 7.022,
	"eval_steps_per_second": 0.221,
	"step": 1000
	},
	{
	"dpo_losses": 0.2392820119857788,
	"epoch": 2.85,
	"grad_norm": 87.50201169562474,
	"learning_rate": 4.055332542531959e-08,
	"logits/chosen": -2.7165019512176514,
	"logits/rejected": -2.6357262134552,
	"logps/chosen": -229.1401824951172,
	"logps/rejected": -371.04571533203125,
	"loss": 0.5645,
	"positive_losses": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.34021449089050293,
	"rewards/margins": 1.4760607481002808,
	"rewards/margins_max": 1.7028331756591797,
	"rewards/margins_min": 1.2492884397506714,
	"rewards/margins_std": 0.3207046389579773,
	"rewards/rejected": -1.1358463764190674,
	"step": 1010
	},
	{
	"dpo_losses": 0.2636774182319641,
	"epoch": 2.87,
	"grad_norm": 9.243316710391014,
	"learning_rate": 2.7171617768147472e-08,
	"logits/chosen": -2.5805556774139404,
	"logits/rejected": -2.4946963787078857,
	"logps/chosen": -200.70706176757812,
	"logps/rejected": -348.9754638671875,
	"loss": 0.4736,
	"positive_losses": 4.167427062988281,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.226848766207695,
	"rewards/margins": 1.4039170742034912,
	"rewards/margins_max": 1.8958208560943604,
	"rewards/margins_min": 0.9120131731033325,
	"rewards/margins_std": 0.6956570148468018,
	"rewards/rejected": -1.1770681142807007,
	"step": 1020
	},
	{
	"dpo_losses": 0.26111191511154175,
	"epoch": 2.9,
	"grad_norm": 3.7450554356463743,
	"learning_rate": 1.6448943457189616e-08,
	"logits/chosen": -2.5760231018066406,
	"logits/rejected": -2.58748197555542,
	"logps/chosen": -268.255126953125,
	"logps/rejected": -387.044921875,
	"loss": 0.2968,
	"positive_losses": 1.4128901958465576,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.34100010991096497,
	"rewards/margins": 1.478846788406372,
	"rewards/margins_max": 2.0194473266601562,
	"rewards/margins_min": 0.9382462501525879,
	"rewards/margins_std": 0.7645247578620911,
	"rewards/rejected": -1.1378467082977295,
	"step": 1030
	},
	{
	"dpo_losses": 0.24359698593616486,
	"epoch": 2.93,
	"grad_norm": 187.10263101103095,
	"learning_rate": 8.39683258841123e-09,
	"logits/chosen": -2.5231451988220215,
	"logits/rejected": -2.408517360687256,
	"logps/chosen": -264.57916259765625,
	"logps/rejected": -332.7992248535156,
	"loss": 0.3754,
	"positive_losses": 0.07207755744457245,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.4693472981452942,
	"rewards/margins": 1.5425517559051514,
	"rewards/margins_max": 1.9166587591171265,
	"rewards/margins_min": 1.1684446334838867,
	"rewards/margins_std": 0.52906733751297,
	"rewards/rejected": -1.0732043981552124,
	"step": 1040
	},
	{
	"dpo_losses": 0.20071451365947723,
	"epoch": 2.96,
	"grad_norm": 3.6062297906425043,
	"learning_rate": 3.0239435998430376e-09,
	"logits/chosen": -2.645131826400757,
	"logits/rejected": -2.5101490020751953,
	"logps/chosen": -282.20855712890625,
	"logps/rejected": -383.17950439453125,
	"loss": 0.3373,
	"positive_losses": 1.7565370798110962,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.41964656114578247,
	"rewards/margins": 1.6733496189117432,
	"rewards/margins_max": 2.073215961456299,
	"rewards/margins_min": 1.2734830379486084,
	"rewards/margins_std": 0.5654967427253723,
	"rewards/rejected": -1.253702998161316,
	"step": 1050
	},
	{
	"dpo_losses": 0.22902190685272217,
	"epoch": 2.99,
	"grad_norm": 3.308213249224383,
	"learning_rate": 3.3605396115826695e-10,
	"logits/chosen": -2.394101142883301,
	"logits/rejected": -2.4773335456848145,
	"logps/chosen": -165.21871948242188,
	"logps/rejected": -327.92352294921875,
	"loss": 0.3158,
	"positive_losses": 1.1246204376220703,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.30173832178115845,
	"rewards/margins": 1.4864323139190674,
	"rewards/margins_max": 1.822080373764038,
	"rewards/margins_min": 1.150783896446228,
	"rewards/margins_std": 0.4746781885623932,
	"rewards/rejected": -1.1846938133239746,
	"step": 1060
	},
	{
	"epoch": 3.0,
	"step": 1065,
	"total_flos": 0.0,
	"train_loss": 0.48024289137880566,
	"train_runtime": 8933.1726,
	"train_samples_per_second": 1.907,
	"train_steps_per_second": 0.119
	}
	],
	"logging_steps": 10,
	"max_steps": 1065,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}