zephyr-7b-dpo-full / trainer_state.json

Model save

6708ab2 verified 6 months ago

27.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 478,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 8.432772549922241,
	"learning_rate": 1.0416666666666666e-08,
	"logits/chosen": -2.5992650985717773,
	"logits/rejected": -2.567516326904297,
	"logps/chosen": -272.1844482421875,
	"logps/rejected": -362.26898193359375,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.02,
	"grad_norm": 9.993362324491976,
	"learning_rate": 1.0416666666666667e-07,
	"logits/chosen": -2.4130637645721436,
	"logits/rejected": -2.3763909339904785,
	"logps/chosen": -268.1092834472656,
	"logps/rejected": -252.8538360595703,
	"loss": 0.6932,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": 0.00011327523679938167,
	"rewards/margins": 0.00018297109636478126,
	"rewards/rejected": -6.969591049710289e-05,
	"step": 10
	},
	{
	"epoch": 0.04,
	"grad_norm": 8.212783868686264,
	"learning_rate": 2.0833333333333333e-07,
	"logits/chosen": -2.472649097442627,
	"logits/rejected": -2.4103596210479736,
	"logps/chosen": -283.3070068359375,
	"logps/rejected": -297.09979248046875,
	"loss": 0.6928,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": 0.001224780222401023,
	"rewards/margins": 0.0005858406075276434,
	"rewards/rejected": 0.0006389396148733795,
	"step": 20
	},
	{
	"epoch": 0.06,
	"grad_norm": 7.684799704050697,
	"learning_rate": 3.1249999999999997e-07,
	"logits/chosen": -2.508185386657715,
	"logits/rejected": -2.415645122528076,
	"logps/chosen": -301.5997619628906,
	"logps/rejected": -265.80426025390625,
	"loss": 0.6906,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.0062199728563427925,
	"rewards/margins": 0.0035330094397068024,
	"rewards/rejected": 0.002686963649466634,
	"step": 30
	},
	{
	"epoch": 0.08,
	"grad_norm": 7.49113948544429,
	"learning_rate": 4.1666666666666667e-07,
	"logits/chosen": -2.404700756072998,
	"logits/rejected": -2.350811243057251,
	"logps/chosen": -268.32647705078125,
	"logps/rejected": -247.6831817626953,
	"loss": 0.6849,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.0182647742331028,
	"rewards/margins": 0.020485591143369675,
	"rewards/rejected": -0.0022208169102668762,
	"step": 40
	},
	{
	"epoch": 0.1,
	"grad_norm": 7.812080735900241,
	"learning_rate": 4.999733114418725e-07,
	"logits/chosen": -2.3245081901550293,
	"logits/rejected": -2.2887587547302246,
	"logps/chosen": -280.1948547363281,
	"logps/rejected": -293.09405517578125,
	"loss": 0.6753,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": 0.022629689425230026,
	"rewards/margins": 0.031411103904247284,
	"rewards/rejected": -0.00878141075372696,
	"step": 50
	},
	{
	"epoch": 0.13,
	"grad_norm": 8.653367610484782,
	"learning_rate": 4.990398100856366e-07,
	"logits/chosen": -2.3789138793945312,
	"logits/rejected": -2.3128437995910645,
	"logps/chosen": -271.4405822753906,
	"logps/rejected": -303.5579528808594,
	"loss": 0.6602,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": 0.029351558536291122,
	"rewards/margins": 0.06681646406650543,
	"rewards/rejected": -0.03746490180492401,
	"step": 60
	},
	{
	"epoch": 0.15,
	"grad_norm": 9.793859330498844,
	"learning_rate": 4.967775735898179e-07,
	"logits/chosen": -2.1905629634857178,
	"logits/rejected": -2.1994009017944336,
	"logps/chosen": -267.55340576171875,
	"logps/rejected": -273.4862976074219,
	"loss": 0.6361,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.0027915718965232372,
	"rewards/margins": 0.1346043348312378,
	"rewards/rejected": -0.13739590346813202,
	"step": 70
	},
	{
	"epoch": 0.17,
	"grad_norm": 13.837088401780129,
	"learning_rate": 4.931986719649298e-07,
	"logits/chosen": -2.3278985023498535,
	"logits/rejected": -2.243424892425537,
	"logps/chosen": -337.2379455566406,
	"logps/rejected": -292.844970703125,
	"loss": 0.6223,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.09643656760454178,
	"rewards/margins": 0.17360267043113708,
	"rewards/rejected": -0.27003923058509827,
	"step": 80
	},
	{
	"epoch": 0.19,
	"grad_norm": 17.06156274259609,
	"learning_rate": 4.883222001996351e-07,
	"logits/chosen": -2.1236023902893066,
	"logits/rejected": -2.0597236156463623,
	"logps/chosen": -276.4493103027344,
	"logps/rejected": -299.7818908691406,
	"loss": 0.5987,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.15940961241722107,
	"rewards/margins": 0.3067048490047455,
	"rewards/rejected": -0.46611452102661133,
	"step": 90
	},
	{
	"epoch": 0.21,
	"grad_norm": 15.017538794455808,
	"learning_rate": 4.821741763807186e-07,
	"logits/chosen": -2.0527923107147217,
	"logits/rejected": -1.9835008382797241,
	"logps/chosen": -294.0035400390625,
	"logps/rejected": -321.8211669921875,
	"loss": 0.5965,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.27848348021507263,
	"rewards/margins": 0.3403889834880829,
	"rewards/rejected": -0.6188725233078003,
	"step": 100
	},
	{
	"epoch": 0.21,
	"eval_logits/chosen": -2.1194002628326416,
	"eval_logits/rejected": -2.0640361309051514,
	"eval_logps/chosen": -308.44342041015625,
	"eval_logps/rejected": -344.93780517578125,
	"eval_loss": 0.6008175015449524,
	"eval_rewards/accuracies": 0.71484375,
	"eval_rewards/chosen": -0.43487486243247986,
	"eval_rewards/margins": 0.3607807159423828,
	"eval_rewards/rejected": -0.7956556081771851,
	"eval_runtime": 39.9329,
	"eval_samples_per_second": 50.084,
	"eval_steps_per_second": 0.801,
	"step": 100
	},
	{
	"epoch": 0.23,
	"grad_norm": 13.512613063149377,
	"learning_rate": 4.747874028753375e-07,
	"logits/chosen": -2.1186444759368896,
	"logits/rejected": -1.960219383239746,
	"logps/chosen": -346.79327392578125,
	"logps/rejected": -330.68634033203125,
	"loss": 0.6016,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.373442143201828,
	"rewards/margins": 0.33256274461746216,
	"rewards/rejected": -0.7060048580169678,
	"step": 110
	},
	{
	"epoch": 0.25,
	"grad_norm": 16.771221195438027,
	"learning_rate": 4.662012913161997e-07,
	"logits/chosen": -1.878488302230835,
	"logits/rejected": -1.82696533203125,
	"logps/chosen": -322.34173583984375,
	"logps/rejected": -339.63104248046875,
	"loss": 0.5803,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.3693729043006897,
	"rewards/margins": 0.3852415680885315,
	"rewards/rejected": -0.754614531993866,
	"step": 120
	},
	{
	"epoch": 0.27,
	"grad_norm": 14.00034800920836,
	"learning_rate": 4.5646165232345103e-07,
	"logits/chosen": -1.8512026071548462,
	"logits/rejected": -1.7661195993423462,
	"logps/chosen": -322.70599365234375,
	"logps/rejected": -353.8482360839844,
	"loss": 0.5644,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.3978124260902405,
	"rewards/margins": 0.42583903670310974,
	"rewards/rejected": -0.8236514925956726,
	"step": 130
	},
	{
	"epoch": 0.29,
	"grad_norm": 15.3625036150752,
	"learning_rate": 4.456204510851956e-07,
	"logits/chosen": -1.7981727123260498,
	"logits/rejected": -1.7398284673690796,
	"logps/chosen": -359.68994140625,
	"logps/rejected": -386.440185546875,
	"loss": 0.5654,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.40198105573654175,
	"rewards/margins": 0.43909168243408203,
	"rewards/rejected": -0.841072678565979,
	"step": 140
	},
	{
	"epoch": 0.31,
	"grad_norm": 20.80601584306436,
	"learning_rate": 4.337355301007335e-07,
	"logits/chosen": -1.7028295993804932,
	"logits/rejected": -1.5830708742141724,
	"logps/chosen": -345.12286376953125,
	"logps/rejected": -376.55859375,
	"loss": 0.5775,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.5939025282859802,
	"rewards/margins": 0.37951546907424927,
	"rewards/rejected": -0.9734179377555847,
	"step": 150
	},
	{
	"epoch": 0.33,
	"grad_norm": 18.137407218927724,
	"learning_rate": 4.2087030056579986e-07,
	"logits/chosen": -1.6537895202636719,
	"logits/rejected": -1.4418971538543701,
	"logps/chosen": -318.0480651855469,
	"logps/rejected": -349.61431884765625,
	"loss": 0.5693,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.43722066283226013,
	"rewards/margins": 0.5587003827095032,
	"rewards/rejected": -0.9959210157394409,
	"step": 160
	},
	{
	"epoch": 0.36,
	"grad_norm": 16.981581647441832,
	"learning_rate": 4.070934040463998e-07,
	"logits/chosen": -1.5120352506637573,
	"logits/rejected": -1.4046074151992798,
	"logps/chosen": -306.04840087890625,
	"logps/rejected": -330.2176208496094,
	"loss": 0.5659,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.538715124130249,
	"rewards/margins": 0.42584919929504395,
	"rewards/rejected": -0.9645644426345825,
	"step": 170
	},
	{
	"epoch": 0.38,
	"grad_norm": 14.617848943306955,
	"learning_rate": 3.9247834624635404e-07,
	"logits/chosen": -1.3031604290008545,
	"logits/rejected": -1.1622366905212402,
	"logps/chosen": -317.8174743652344,
	"logps/rejected": -331.2264404296875,
	"loss": 0.5424,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.6144936084747314,
	"rewards/margins": 0.4146398603916168,
	"rewards/rejected": -1.0291334390640259,
	"step": 180
	},
	{
	"epoch": 0.4,
	"grad_norm": 18.83954708764831,
	"learning_rate": 3.7710310482256523e-07,
	"logits/chosen": -1.3724639415740967,
	"logits/rejected": -1.2839093208312988,
	"logps/chosen": -320.2606506347656,
	"logps/rejected": -353.50677490234375,
	"loss": 0.5567,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.47087445855140686,
	"rewards/margins": 0.4510224461555481,
	"rewards/rejected": -0.9218968152999878,
	"step": 190
	},
	{
	"epoch": 0.42,
	"grad_norm": 27.897186532435434,
	"learning_rate": 3.610497133404795e-07,
	"logits/chosen": -1.14837646484375,
	"logits/rejected": -1.072177767753601,
	"logps/chosen": -318.0636291503906,
	"logps/rejected": -362.46044921875,
	"loss": 0.5688,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.5620325207710266,
	"rewards/margins": 0.5343230962753296,
	"rewards/rejected": -1.096355676651001,
	"step": 200
	},
	{
	"epoch": 0.42,
	"eval_logits/chosen": -1.2653636932373047,
	"eval_logits/rejected": -1.1455148458480835,
	"eval_logps/chosen": -328.60369873046875,
	"eval_logps/rejected": -382.0739440917969,
	"eval_loss": 0.558937132358551,
	"eval_rewards/accuracies": 0.73828125,
	"eval_rewards/chosen": -0.6364771723747253,
	"eval_rewards/margins": 0.5305400490760803,
	"eval_rewards/rejected": -1.1670172214508057,
	"eval_runtime": 39.8802,
	"eval_samples_per_second": 50.15,
	"eval_steps_per_second": 0.802,
	"step": 200
	},
	{
	"epoch": 0.44,
	"grad_norm": 15.625329725139888,
	"learning_rate": 3.4440382358952115e-07,
	"logits/chosen": -1.0910618305206299,
	"logits/rejected": -0.9091793298721313,
	"logps/chosen": -360.6944885253906,
	"logps/rejected": -366.00146484375,
	"loss": 0.5724,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.6661044359207153,
	"rewards/margins": 0.46460071206092834,
	"rewards/rejected": -1.1307051181793213,
	"step": 210
	},
	{
	"epoch": 0.46,
	"grad_norm": 19.24668760178638,
	"learning_rate": 3.272542485937368e-07,
	"logits/chosen": -0.9850679636001587,
	"logits/rejected": -0.7914190292358398,
	"logps/chosen": -309.50775146484375,
	"logps/rejected": -338.098876953125,
	"loss": 0.5582,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.44118037819862366,
	"rewards/margins": 0.524976372718811,
	"rewards/rejected": -0.9661566019058228,
	"step": 220
	},
	{
	"epoch": 0.48,
	"grad_norm": 19.97223623454459,
	"learning_rate": 3.096924887558854e-07,
	"logits/chosen": -0.4917120039463043,
	"logits/rejected": -0.298466295003891,
	"logps/chosen": -313.9906005859375,
	"logps/rejected": -375.44989013671875,
	"loss": 0.5541,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.6258713603019714,
	"rewards/margins": 0.6441494226455688,
	"rewards/rejected": -1.2700207233428955,
	"step": 230
	},
	{
	"epoch": 0.5,
	"grad_norm": 21.91087703960587,
	"learning_rate": 2.9181224366319943e-07,
	"logits/chosen": 0.09583790600299835,
	"logits/rejected": 0.32567495107650757,
	"logps/chosen": -339.2015380859375,
	"logps/rejected": -384.8148498535156,
	"loss": 0.521,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.7344726324081421,
	"rewards/margins": 0.6358748078346252,
	"rewards/rejected": -1.370347499847412,
	"step": 240
	},
	{
	"epoch": 0.52,
	"grad_norm": 19.954418058737403,
	"learning_rate": 2.7370891215954565e-07,
	"logits/chosen": 0.5116527676582336,
	"logits/rejected": 0.8739731907844543,
	"logps/chosen": -363.95684814453125,
	"logps/rejected": -394.17877197265625,
	"loss": 0.5327,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.6146451830863953,
	"rewards/margins": 0.7260497808456421,
	"rewards/rejected": -1.3406950235366821,
	"step": 250
	},
	{
	"epoch": 0.54,
	"grad_norm": 29.50918535565258,
	"learning_rate": 2.55479083351317e-07,
	"logits/chosen": 0.7538167834281921,
	"logits/rejected": 1.1193482875823975,
	"logps/chosen": -365.6874694824219,
	"logps/rejected": -389.31396484375,
	"loss": 0.5412,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.6788283586502075,
	"rewards/margins": 0.6221181154251099,
	"rewards/rejected": -1.3009464740753174,
	"step": 260
	},
	{
	"epoch": 0.56,
	"grad_norm": 24.53746609446516,
	"learning_rate": 2.3722002126275822e-07,
	"logits/chosen": 1.132846474647522,
	"logits/rejected": 1.5623472929000854,
	"logps/chosen": -345.86700439453125,
	"logps/rejected": -378.31719970703125,
	"loss": 0.5414,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.6558988690376282,
	"rewards/margins": 0.5384365320205688,
	"rewards/rejected": -1.1943353414535522,
	"step": 270
	},
	{
	"epoch": 0.59,
	"grad_norm": 27.660029561250692,
	"learning_rate": 2.19029145890313e-07,
	"logits/chosen": 1.715608835220337,
	"logits/rejected": 2.1731343269348145,
	"logps/chosen": -352.11346435546875,
	"logps/rejected": -406.60772705078125,
	"loss": 0.5375,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.8623917698860168,
	"rewards/margins": 0.7531214952468872,
	"rewards/rejected": -1.6155132055282593,
	"step": 280
	},
	{
	"epoch": 0.61,
	"grad_norm": 25.659061335686694,
	"learning_rate": 2.0100351342479216e-07,
	"logits/chosen": 1.6510066986083984,
	"logits/rejected": 1.7990186214447021,
	"logps/chosen": -337.61016845703125,
	"logps/rejected": -396.5470886230469,
	"loss": 0.5336,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.8643373250961304,
	"rewards/margins": 0.6685428023338318,
	"rewards/rejected": -1.5328800678253174,
	"step": 290
	},
	{
	"epoch": 0.63,
	"grad_norm": 22.694419610449454,
	"learning_rate": 1.8323929841460178e-07,
	"logits/chosen": 1.5950249433517456,
	"logits/rejected": 2.302058696746826,
	"logps/chosen": -376.0797424316406,
	"logps/rejected": -401.6100769042969,
	"loss": 0.5121,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.7354680299758911,
	"rewards/margins": 0.6922025680541992,
	"rewards/rejected": -1.4276707172393799,
	"step": 300
	},
	{
	"epoch": 0.63,
	"eval_logits/chosen": 1.7225008010864258,
	"eval_logits/rejected": 2.1388766765594482,
	"eval_logps/chosen": -334.2620849609375,
	"eval_logps/rejected": -418.3771667480469,
	"eval_loss": 0.5288156270980835,
	"eval_rewards/accuracies": 0.76171875,
	"eval_rewards/chosen": -0.6930612325668335,
	"eval_rewards/margins": 0.8369885683059692,
	"eval_rewards/rejected": -1.5300499200820923,
	"eval_runtime": 39.9288,
	"eval_samples_per_second": 50.089,
	"eval_steps_per_second": 0.801,
	"step": 300
	},
	{
	"epoch": 0.65,
	"grad_norm": 24.37280438119094,
	"learning_rate": 1.6583128063291573e-07,
	"logits/chosen": 2.1118528842926025,
	"logits/rejected": 2.5268707275390625,
	"logps/chosen": -376.37969970703125,
	"logps/rejected": -417.34869384765625,
	"loss": 0.507,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.778560996055603,
	"rewards/margins": 0.7997097969055176,
	"rewards/rejected": -1.5782709121704102,
	"step": 310
	},
	{
	"epoch": 0.67,
	"grad_norm": 26.080136074985454,
	"learning_rate": 1.488723393865766e-07,
	"logits/chosen": 2.5625953674316406,
	"logits/rejected": 3.1481173038482666,
	"logps/chosen": -383.0509338378906,
	"logps/rejected": -411.533935546875,
	"loss": 0.5013,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.8686873316764832,
	"rewards/margins": 0.7724698781967163,
	"rewards/rejected": -1.6411571502685547,
	"step": 320
	},
	{
	"epoch": 0.69,
	"grad_norm": 27.228237079063305,
	"learning_rate": 1.3245295796480788e-07,
	"logits/chosen": 2.7803778648376465,
	"logits/rejected": 3.247398853302002,
	"logps/chosen": -351.1916809082031,
	"logps/rejected": -420.370849609375,
	"loss": 0.5142,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.8757610321044922,
	"rewards/margins": 0.7058261632919312,
	"rewards/rejected": -1.5815874338150024,
	"step": 330
	},
	{
	"epoch": 0.71,
	"grad_norm": 28.892127434127993,
	"learning_rate": 1.1666074087171627e-07,
	"logits/chosen": 2.754971504211426,
	"logits/rejected": 3.230527400970459,
	"logps/chosen": -377.8298645019531,
	"logps/rejected": -465.24761962890625,
	"loss": 0.5138,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -0.8463465571403503,
	"rewards/margins": 0.987470269203186,
	"rewards/rejected": -1.8338168859481812,
	"step": 340
	},
	{
	"epoch": 0.73,
	"grad_norm": 26.281931375691812,
	"learning_rate": 1.0157994641835734e-07,
	"logits/chosen": 2.723754405975342,
	"logits/rejected": 3.361722230911255,
	"logps/chosen": -351.22900390625,
	"logps/rejected": -415.8351135253906,
	"loss": 0.4828,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.8969828486442566,
	"rewards/margins": 0.857469916343689,
	"rewards/rejected": -1.7544529438018799,
	"step": 350
	},
	{
	"epoch": 0.75,
	"grad_norm": 24.286834238524502,
	"learning_rate": 8.729103716819111e-08,
	"logits/chosen": 2.8787496089935303,
	"logits/rejected": 3.6532554626464844,
	"logps/chosen": -402.9510192871094,
	"logps/rejected": -443.6593322753906,
	"loss": 0.5325,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -0.9707611203193665,
	"rewards/margins": 0.8318966627120972,
	"rewards/rejected": -1.8026577234268188,
	"step": 360
	},
	{
	"epoch": 0.77,
	"grad_norm": 23.72120672745611,
	"learning_rate": 7.387025063449081e-08,
	"logits/chosen": 3.308849811553955,
	"logits/rejected": 3.967015504837036,
	"logps/chosen": -388.5707702636719,
	"logps/rejected": -417.2923889160156,
	"loss": 0.5145,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -1.0928517580032349,
	"rewards/margins": 0.6804816722869873,
	"rewards/rejected": -1.7733335494995117,
	"step": 370
	},
	{
	"epoch": 0.79,
	"grad_norm": 24.194836344161388,
	"learning_rate": 6.138919252022435e-08,
	"logits/chosen": 3.4659945964813232,
	"logits/rejected": 3.6677188873291016,
	"logps/chosen": -360.42303466796875,
	"logps/rejected": -468.11322021484375,
	"loss": 0.5064,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.1740145683288574,
	"rewards/margins": 0.8953350186347961,
	"rewards/rejected": -2.069349765777588,
	"step": 380
	},
	{
	"epoch": 0.82,
	"grad_norm": 33.960328274537595,
	"learning_rate": 4.991445467064689e-08,
	"logits/chosen": 3.0402557849884033,
	"logits/rejected": 3.3952622413635254,
	"logps/chosen": -395.9051208496094,
	"logps/rejected": -456.98162841796875,
	"loss": 0.5003,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.9203785061836243,
	"rewards/margins": 0.77605140209198,
	"rewards/rejected": -1.6964296102523804,
	"step": 390
	},
	{
	"epoch": 0.84,
	"grad_norm": 24.96336693295718,
	"learning_rate": 3.9507259776993954e-08,
	"logits/chosen": 3.402864456176758,
	"logits/rejected": 3.9089291095733643,
	"logps/chosen": -373.3275146484375,
	"logps/rejected": -453.81109619140625,
	"loss": 0.5208,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.0015218257904053,
	"rewards/margins": 0.86052405834198,
	"rewards/rejected": -1.8620456457138062,
	"step": 400
	},
	{
	"epoch": 0.84,
	"eval_logits/chosen": 2.9372177124023438,
	"eval_logits/rejected": 3.4323720932006836,
	"eval_logps/chosen": -352.0043029785156,
	"eval_logps/rejected": -445.87408447265625,
	"eval_loss": 0.5152841210365295,
	"eval_rewards/accuracies": 0.7578125,
	"eval_rewards/chosen": -0.8704833984375,
	"eval_rewards/margins": 0.9345353841781616,
	"eval_rewards/rejected": -1.8050185441970825,
	"eval_runtime": 39.8891,
	"eval_samples_per_second": 50.139,
	"eval_steps_per_second": 0.802,
	"step": 400
	},
	{
	"epoch": 0.86,
	"grad_norm": 26.45544298088616,
	"learning_rate": 3.022313472693447e-08,
	"logits/chosen": 3.266558885574341,
	"logits/rejected": 4.045865535736084,
	"logps/chosen": -393.68505859375,
	"logps/rejected": -454.821044921875,
	"loss": 0.5226,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -0.9244238138198853,
	"rewards/margins": 0.9223299026489258,
	"rewards/rejected": -1.8467538356781006,
	"step": 410
	},
	{
	"epoch": 0.88,
	"grad_norm": 24.753221828065943,
	"learning_rate": 2.2111614344599684e-08,
	"logits/chosen": 3.017789363861084,
	"logits/rejected": 3.619795322418213,
	"logps/chosen": -396.9893798828125,
	"logps/rejected": -455.4769592285156,
	"loss": 0.5062,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.9954174160957336,
	"rewards/margins": 0.8088730573654175,
	"rewards/rejected": -1.804290533065796,
	"step": 420
	},
	{
	"epoch": 0.9,
	"grad_norm": 28.64072501651785,
	"learning_rate": 1.521597710086439e-08,
	"logits/chosen": 3.4113173484802246,
	"logits/rejected": 3.839292526245117,
	"logps/chosen": -386.08624267578125,
	"logps/rejected": -451.10894775390625,
	"loss": 0.4865,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -1.0454809665679932,
	"rewards/margins": 0.8698482513427734,
	"rewards/rejected": -1.9153292179107666,
	"step": 430
	},
	{
	"epoch": 0.92,
	"grad_norm": 28.408098716357102,
	"learning_rate": 9.57301420397924e-09,
	"logits/chosen": 2.9448680877685547,
	"logits/rejected": 3.614654541015625,
	"logps/chosen": -380.95782470703125,
	"logps/rejected": -454.02191162109375,
	"loss": 0.5045,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.9367244839668274,
	"rewards/margins": 0.8637276887893677,
	"rewards/rejected": -1.8004519939422607,
	"step": 440
	},
	{
	"epoch": 0.94,
	"grad_norm": 27.41806430030018,
	"learning_rate": 5.212833302556258e-09,
	"logits/chosen": 3.149013042449951,
	"logits/rejected": 3.4816536903381348,
	"logps/chosen": -401.301513671875,
	"logps/rejected": -495.34002685546875,
	"loss": 0.5059,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -1.096161127090454,
	"rewards/margins": 0.7614067792892456,
	"rewards/rejected": -1.8575680255889893,
	"step": 450
	},
	{
	"epoch": 0.96,
	"grad_norm": 30.97252598966743,
	"learning_rate": 2.158697848236607e-09,
	"logits/chosen": 3.359788417816162,
	"logits/rejected": 3.880640745162964,
	"logps/chosen": -376.32879638671875,
	"logps/rejected": -425.67010498046875,
	"loss": 0.5099,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.0073617696762085,
	"rewards/margins": 0.8302923440933228,
	"rewards/rejected": -1.8376541137695312,
	"step": 460
	},
	{
	"epoch": 0.98,
	"grad_norm": 23.032101494576157,
	"learning_rate": 4.269029751107489e-10,
	"logits/chosen": 3.195591688156128,
	"logits/rejected": 3.7321903705596924,
	"logps/chosen": -378.28631591796875,
	"logps/rejected": -458.43096923828125,
	"loss": 0.4995,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.0239256620407104,
	"rewards/margins": 0.7799959778785706,
	"rewards/rejected": -1.8039219379425049,
	"step": 470
	},
	{
	"epoch": 1.0,
	"step": 478,
	"total_flos": 0.0,
	"train_loss": 0.5581105443723032,
	"train_runtime": 5172.5891,
	"train_samples_per_second": 11.819,
	"train_steps_per_second": 0.092
	}
	],
	"logging_steps": 10,
	"max_steps": 478,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}