zephyr-7b-dpo-full / trainer_state.json

Model save

54e9029 verified 3 months ago

28.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9990186457311089,
	"eval_steps": 100,
	"global_step": 509,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 9.803921568627451e-09,
	"logits/chosen": -2.7483465671539307,
	"logits/rejected": -2.739339828491211,
	"logps/chosen": -287.5325927734375,
	"logps/rejected": -235.635986328125,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.02,
	"learning_rate": 9.80392156862745e-08,
	"logits/chosen": -2.709578037261963,
	"logits/rejected": -2.7113540172576904,
	"logps/chosen": -260.56292724609375,
	"logps/rejected": -256.438232421875,
	"loss": 0.6932,
	"rewards/accuracies": 0.4194444417953491,
	"rewards/chosen": 0.00014394157915376127,
	"rewards/margins": 1.0432106591906631e-06,
	"rewards/rejected": 0.00014289839600678533,
	"step": 10
	},
	{
	"epoch": 0.04,
	"learning_rate": 1.96078431372549e-07,
	"logits/chosen": -2.728665828704834,
	"logits/rejected": -2.7061820030212402,
	"logps/chosen": -280.0662536621094,
	"logps/rejected": -254.76626586914062,
	"loss": 0.6926,
	"rewards/accuracies": 0.5724999904632568,
	"rewards/chosen": -4.974007424607407e-06,
	"rewards/margins": 0.0005589541979134083,
	"rewards/rejected": -0.0005639282753691077,
	"step": 20
	},
	{
	"epoch": 0.06,
	"learning_rate": 2.941176470588235e-07,
	"logits/chosen": -2.7290821075439453,
	"logits/rejected": -2.742999315261841,
	"logps/chosen": -279.2391357421875,
	"logps/rejected": -253.37265014648438,
	"loss": 0.6895,
	"rewards/accuracies": 0.6349999904632568,
	"rewards/chosen": 0.0049138437025249004,
	"rewards/margins": 0.007674422115087509,
	"rewards/rejected": -0.002760578179731965,
	"step": 30
	},
	{
	"epoch": 0.08,
	"learning_rate": 3.92156862745098e-07,
	"logits/chosen": -2.7134017944335938,
	"logits/rejected": -2.698641777038574,
	"logps/chosen": -274.20147705078125,
	"logps/rejected": -255.8253936767578,
	"loss": 0.6782,
	"rewards/accuracies": 0.6924999952316284,
	"rewards/chosen": 0.0260241087526083,
	"rewards/margins": 0.026919733732938766,
	"rewards/rejected": -0.0008956241654232144,
	"step": 40
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.901960784313725e-07,
	"logits/chosen": -2.6435346603393555,
	"logits/rejected": -2.6110424995422363,
	"logps/chosen": -302.06768798828125,
	"logps/rejected": -261.10919189453125,
	"loss": 0.6612,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": 0.023571131750941277,
	"rewards/margins": 0.07649616152048111,
	"rewards/rejected": -0.05292503535747528,
	"step": 50
	},
	{
	"epoch": 0.12,
	"learning_rate": 4.995237599803335e-07,
	"logits/chosen": -2.6205055713653564,
	"logits/rejected": -2.5843255519866943,
	"logps/chosen": -300.914306640625,
	"logps/rejected": -286.0216064453125,
	"loss": 0.6451,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.05583832785487175,
	"rewards/margins": 0.11994686722755432,
	"rewards/rejected": -0.17578519880771637,
	"step": 60
	},
	{
	"epoch": 0.14,
	"learning_rate": 4.978798275112142e-07,
	"logits/chosen": -2.607668161392212,
	"logits/rejected": -2.568187952041626,
	"logps/chosen": -308.4685974121094,
	"logps/rejected": -305.6259460449219,
	"loss": 0.6212,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.1777888685464859,
	"rewards/margins": 0.19118839502334595,
	"rewards/rejected": -0.3689771890640259,
	"step": 70
	},
	{
	"epoch": 0.16,
	"learning_rate": 4.950700530747689e-07,
	"logits/chosen": -2.6067116260528564,
	"logits/rejected": -2.5767879486083984,
	"logps/chosen": -300.19488525390625,
	"logps/rejected": -295.8065185546875,
	"loss": 0.6196,
	"rewards/accuracies": 0.6850000023841858,
	"rewards/chosen": -0.13195012509822845,
	"rewards/margins": 0.25833892822265625,
	"rewards/rejected": -0.3902890384197235,
	"step": 80
	},
	{
	"epoch": 0.18,
	"learning_rate": 4.911076517558622e-07,
	"logits/chosen": -2.5809831619262695,
	"logits/rejected": -2.555103302001953,
	"logps/chosen": -325.28692626953125,
	"logps/rejected": -330.8323974609375,
	"loss": 0.5844,
	"rewards/accuracies": 0.7300000190734863,
	"rewards/chosen": -0.21861158311367035,
	"rewards/margins": 0.3220059275627136,
	"rewards/rejected": -0.5406175851821899,
	"step": 90
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.860112597371772e-07,
	"logits/chosen": -2.5413742065429688,
	"logits/rejected": -2.5363407135009766,
	"logps/chosen": -295.8542175292969,
	"logps/rejected": -310.6338195800781,
	"loss": 0.5764,
	"rewards/accuracies": 0.6675000190734863,
	"rewards/chosen": -0.26630619168281555,
	"rewards/margins": 0.3358945846557617,
	"rewards/rejected": -0.6022006869316101,
	"step": 100
	},
	{
	"epoch": 0.2,
	"eval_logits/chosen": -2.4791219234466553,
	"eval_logits/rejected": -2.4360005855560303,
	"eval_logps/chosen": -313.6502990722656,
	"eval_logps/rejected": -340.86053466796875,
	"eval_loss": 0.5828901529312134,
	"eval_rewards/accuracies": 0.6931137442588806,
	"eval_rewards/chosen": -0.3592246174812317,
	"eval_rewards/margins": 0.40203189849853516,
	"eval_rewards/rejected": -0.7612565159797668,
	"eval_runtime": 494.2516,
	"eval_samples_per_second": 4.047,
	"eval_steps_per_second": 0.338,
	"step": 100
	},
	{
	"epoch": 0.22,
	"learning_rate": 4.798048466485017e-07,
	"logits/chosen": -2.0916123390197754,
	"logits/rejected": -2.1291110515594482,
	"logps/chosen": -337.0193786621094,
	"logps/rejected": -372.4815368652344,
	"loss": 0.5665,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.6119796633720398,
	"rewards/margins": 0.5584384799003601,
	"rewards/rejected": -1.1704181432724,
	"step": 110
	},
	{
	"epoch": 0.24,
	"learning_rate": 4.725176028314541e-07,
	"logits/chosen": -1.8370585441589355,
	"logits/rejected": -1.7712280750274658,
	"logps/chosen": -370.1864318847656,
	"logps/rejected": -398.8289794921875,
	"loss": 0.56,
	"rewards/accuracies": 0.7350000143051147,
	"rewards/chosen": -0.8116917610168457,
	"rewards/margins": 0.6380540728569031,
	"rewards/rejected": -1.449745774269104,
	"step": 120
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.641838020498713e-07,
	"logits/chosen": -1.7485500574111938,
	"logits/rejected": -1.5671393871307373,
	"logps/chosen": -380.29913330078125,
	"logps/rejected": -424.1035461425781,
	"loss": 0.5461,
	"rewards/accuracies": 0.7200000286102295,
	"rewards/chosen": -0.8717474937438965,
	"rewards/margins": 0.6444628834724426,
	"rewards/rejected": -1.5162103176116943,
	"step": 130
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.5484264029156733e-07,
	"logits/chosen": -1.9667887687683105,
	"logits/rejected": -1.6983026266098022,
	"logps/chosen": -322.9972839355469,
	"logps/rejected": -379.5963134765625,
	"loss": 0.5416,
	"rewards/accuracies": 0.7149999737739563,
	"rewards/chosen": -0.6348860263824463,
	"rewards/margins": 0.6040786504745483,
	"rewards/rejected": -1.2389646768569946,
	"step": 140
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.445380514196192e-07,
	"logits/chosen": -1.2058897018432617,
	"logits/rejected": -0.9969528317451477,
	"logps/chosen": -379.3441467285156,
	"logps/rejected": -449.9009704589844,
	"loss": 0.5485,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.9173200726509094,
	"rewards/margins": 0.7758927941322327,
	"rewards/rejected": -1.6932127475738525,
	"step": 150
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.33318500540218e-07,
	"logits/chosen": -1.7521625757217407,
	"logits/rejected": -1.4877443313598633,
	"logps/chosen": -356.1580810546875,
	"logps/rejected": -389.0058288574219,
	"loss": 0.5183,
	"rewards/accuracies": 0.7850000262260437,
	"rewards/chosen": -0.6841800212860107,
	"rewards/margins": 0.7851129174232483,
	"rewards/rejected": -1.4692928791046143,
	"step": 160
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.2123675605892985e-07,
	"logits/chosen": -1.6861900091171265,
	"logits/rejected": -1.4684306383132935,
	"logps/chosen": -379.7774658203125,
	"logps/rejected": -437.3900451660156,
	"loss": 0.5146,
	"rewards/accuracies": 0.7300000190734863,
	"rewards/chosen": -0.8159699440002441,
	"rewards/margins": 0.7220683097839355,
	"rewards/rejected": -1.5380383729934692,
	"step": 170
	},
	{
	"epoch": 0.35,
	"learning_rate": 4.0834964149744333e-07,
	"logits/chosen": -1.3343206644058228,
	"logits/rejected": -1.0179518461227417,
	"logps/chosen": -358.3331298828125,
	"logps/rejected": -399.9204406738281,
	"loss": 0.5536,
	"rewards/accuracies": 0.7074999809265137,
	"rewards/chosen": -0.8257815837860107,
	"rewards/margins": 0.7000215649604797,
	"rewards/rejected": -1.5258032083511353,
	"step": 180
	},
	{
	"epoch": 0.37,
	"learning_rate": 3.947177682380738e-07,
	"logits/chosen": -1.2010215520858765,
	"logits/rejected": -0.8926857709884644,
	"logps/chosen": -375.1010437011719,
	"logps/rejected": -433.2417297363281,
	"loss": 0.5309,
	"rewards/accuracies": 0.7425000071525574,
	"rewards/chosen": -0.7876387238502502,
	"rewards/margins": 0.7681831121444702,
	"rewards/rejected": -1.5558221340179443,
	"step": 190
	},
	{
	"epoch": 0.39,
	"learning_rate": 3.804052504529933e-07,
	"logits/chosen": -1.1186742782592773,
	"logits/rejected": -0.7032889723777771,
	"logps/chosen": -351.2778625488281,
	"logps/rejected": -416.71820068359375,
	"loss": 0.5169,
	"rewards/accuracies": 0.7475000023841858,
	"rewards/chosen": -0.7259469032287598,
	"rewards/margins": 0.874809741973877,
	"rewards/rejected": -1.6007568836212158,
	"step": 200
	},
	{
	"epoch": 0.39,
	"eval_logits/chosen": -1.201006293296814,
	"eval_logits/rejected": -0.8443379402160645,
	"eval_logps/chosen": -366.2012023925781,
	"eval_logps/rejected": -426.77203369140625,
	"eval_loss": 0.531209409236908,
	"eval_rewards/accuracies": 0.7065868377685547,
	"eval_rewards/chosen": -0.8847335577011108,
	"eval_rewards/margins": 0.7356376647949219,
	"eval_rewards/rejected": -1.6203712224960327,
	"eval_runtime": 494.1792,
	"eval_samples_per_second": 4.047,
	"eval_steps_per_second": 0.338,
	"step": 200
	},
	{
	"epoch": 0.41,
	"learning_rate": 3.654794035589483e-07,
	"logits/chosen": -0.9955520629882812,
	"logits/rejected": -0.5436328649520874,
	"logps/chosen": -402.7477722167969,
	"logps/rejected": -444.9473876953125,
	"loss": 0.5126,
	"rewards/accuracies": 0.7225000262260437,
	"rewards/chosen": -1.0243951082229614,
	"rewards/margins": 0.7689486742019653,
	"rewards/rejected": -1.7933436632156372,
	"step": 210
	},
	{
	"epoch": 0.43,
	"learning_rate": 3.5001042761570826e-07,
	"logits/chosen": -0.7878814935684204,
	"logits/rejected": -0.33438754081726074,
	"logps/chosen": -379.41448974609375,
	"logps/rejected": -452.28009033203125,
	"loss": 0.5159,
	"rewards/accuracies": 0.7475000023841858,
	"rewards/chosen": -1.0701900720596313,
	"rewards/margins": 0.8491780161857605,
	"rewards/rejected": -1.919368028640747,
	"step": 220
	},
	{
	"epoch": 0.45,
	"learning_rate": 3.34071077157304e-07,
	"logits/chosen": -0.6851831078529358,
	"logits/rejected": -0.29147180914878845,
	"logps/chosen": -360.47869873046875,
	"logps/rejected": -406.3958740234375,
	"loss": 0.5399,
	"rewards/accuracies": 0.7149999737739563,
	"rewards/chosen": -0.9100778698921204,
	"rewards/margins": 0.7056692242622375,
	"rewards/rejected": -1.6157469749450684,
	"step": 230
	},
	{
	"epoch": 0.47,
	"learning_rate": 3.1773631900892204e-07,
	"logits/chosen": -0.6293848752975464,
	"logits/rejected": -0.2972988784313202,
	"logps/chosen": -364.2557067871094,
	"logps/rejected": -426.8414306640625,
	"loss": 0.5184,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.945137083530426,
	"rewards/margins": 0.7834777235984802,
	"rewards/rejected": -1.7286149263381958,
	"step": 240
	},
	{
	"epoch": 0.49,
	"learning_rate": 3.0108297969883103e-07,
	"logits/chosen": -0.6830095052719116,
	"logits/rejected": -0.20727473497390747,
	"logps/chosen": -377.15960693359375,
	"logps/rejected": -440.8514709472656,
	"loss": 0.5199,
	"rewards/accuracies": 0.7475000023841858,
	"rewards/chosen": -0.9253360033035278,
	"rewards/margins": 0.7137148380279541,
	"rewards/rejected": -1.6390507221221924,
	"step": 250
	},
	{
	"epoch": 0.51,
	"learning_rate": 2.8418938412365013e-07,
	"logits/chosen": -0.595008909702301,
	"logits/rejected": -0.22117982804775238,
	"logps/chosen": -378.3102722167969,
	"logps/rejected": -421.2056884765625,
	"loss": 0.5259,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.0280470848083496,
	"rewards/margins": 0.6548060774803162,
	"rewards/rejected": -1.682853102684021,
	"step": 260
	},
	{
	"epoch": 0.53,
	"learning_rate": 2.671349871664101e-07,
	"logits/chosen": -0.4738517105579376,
	"logits/rejected": -0.06301561743021011,
	"logps/chosen": -391.0889892578125,
	"logps/rejected": -433.60174560546875,
	"loss": 0.4996,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.925932765007019,
	"rewards/margins": 0.8979344367980957,
	"rewards/rejected": -1.8238672018051147,
	"step": 270
	},
	{
	"epoch": 0.55,
	"learning_rate": 2.5e-07,
	"logits/chosen": -0.29330724477767944,
	"logits/rejected": 0.11182761192321777,
	"logps/chosen": -400.1533203125,
	"logps/rejected": -453.4571228027344,
	"loss": 0.5108,
	"rewards/accuracies": 0.7174999713897705,
	"rewards/chosen": -1.1598564386367798,
	"rewards/margins": 0.7635893821716309,
	"rewards/rejected": -1.9234455823898315,
	"step": 280
	},
	{
	"epoch": 0.57,
	"learning_rate": 2.3286501283358982e-07,
	"logits/chosen": -0.049084682017564774,
	"logits/rejected": 0.32071781158447266,
	"logps/chosen": -421.474853515625,
	"logps/rejected": -480.5507507324219,
	"loss": 0.5107,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.2823936939239502,
	"rewards/margins": 0.920534610748291,
	"rewards/rejected": -2.202928304672241,
	"step": 290
	},
	{
	"epoch": 0.59,
	"learning_rate": 2.1581061587634987e-07,
	"logits/chosen": -0.3210409879684448,
	"logits/rejected": 0.13426151871681213,
	"logps/chosen": -392.66351318359375,
	"logps/rejected": -457.4385681152344,
	"loss": 0.5133,
	"rewards/accuracies": 0.7825000286102295,
	"rewards/chosen": -1.2225959300994873,
	"rewards/margins": 0.9219253659248352,
	"rewards/rejected": -2.1445212364196777,
	"step": 300
	},
	{
	"epoch": 0.59,
	"eval_logits/chosen": -0.38526856899261475,
	"eval_logits/rejected": 0.0459565594792366,
	"eval_logps/chosen": -396.590576171875,
	"eval_logps/rejected": -460.7764892578125,
	"eval_loss": 0.5159304141998291,
	"eval_rewards/accuracies": 0.7245509028434753,
	"eval_rewards/chosen": -1.1886271238327026,
	"eval_rewards/margins": 0.7717891931533813,
	"eval_rewards/rejected": -1.9604166746139526,
	"eval_runtime": 494.4328,
	"eval_samples_per_second": 4.045,
	"eval_steps_per_second": 0.338,
	"step": 300
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.9891702030116897e-07,
	"logits/chosen": -0.6406633257865906,
	"logits/rejected": 0.15507885813713074,
	"logps/chosen": -384.56219482421875,
	"logps/rejected": -443.3284912109375,
	"loss": 0.5192,
	"rewards/accuracies": 0.7599999904632568,
	"rewards/chosen": -1.066334843635559,
	"rewards/margins": 0.8297566175460815,
	"rewards/rejected": -1.8960914611816406,
	"step": 310
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.8226368099107792e-07,
	"logits/chosen": -0.6926136016845703,
	"logits/rejected": -0.09604160487651825,
	"logps/chosen": -414.7826232910156,
	"logps/rejected": -454.5480041503906,
	"loss": 0.5065,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.0457278490066528,
	"rewards/margins": 0.7350744605064392,
	"rewards/rejected": -1.7808022499084473,
	"step": 320
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.6592892284269594e-07,
	"logits/chosen": -0.5141594409942627,
	"logits/rejected": 0.11050853878259659,
	"logps/chosen": -402.63348388671875,
	"logps/rejected": -431.8319091796875,
	"loss": 0.5093,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.0640606880187988,
	"rewards/margins": 0.7925867438316345,
	"rewards/rejected": -1.8566473722457886,
	"step": 330
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.4998957238429172e-07,
	"logits/chosen": -0.08297364413738251,
	"logits/rejected": 0.21859808266162872,
	"logps/chosen": -390.8412170410156,
	"logps/rejected": -461.3310546875,
	"loss": 0.505,
	"rewards/accuracies": 0.7275000214576721,
	"rewards/chosen": -1.190333604812622,
	"rewards/margins": 0.8922053575515747,
	"rewards/rejected": -2.0825393199920654,
	"step": 340
	},
	{
	"epoch": 0.69,
	"learning_rate": 1.345205964410517e-07,
	"logits/chosen": -0.539190948009491,
	"logits/rejected": -0.053236301988363266,
	"logps/chosen": -392.14385986328125,
	"logps/rejected": -447.09844970703125,
	"loss": 0.5125,
	"rewards/accuracies": 0.7774999737739563,
	"rewards/chosen": -0.9940242767333984,
	"rewards/margins": 0.9291434288024902,
	"rewards/rejected": -1.9231675863265991,
	"step": 350
	},
	{
	"epoch": 0.71,
	"learning_rate": 1.1959474954700665e-07,
	"logits/chosen": -0.6150873303413391,
	"logits/rejected": -0.08470536023378372,
	"logps/chosen": -377.5425109863281,
	"logps/rejected": -434.1069030761719,
	"loss": 0.5266,
	"rewards/accuracies": 0.7599999904632568,
	"rewards/chosen": -1.0171641111373901,
	"rewards/margins": 0.7864332795143127,
	"rewards/rejected": -1.803597092628479,
	"step": 360
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.0528223176192615e-07,
	"logits/chosen": -0.464309424161911,
	"logits/rejected": 0.11655576527118683,
	"logps/chosen": -397.9951477050781,
	"logps/rejected": -446.141845703125,
	"loss": 0.4885,
	"rewards/accuracies": 0.7350000143051147,
	"rewards/chosen": -1.1220192909240723,
	"rewards/margins": 0.7690063714981079,
	"rewards/rejected": -1.8910256624221802,
	"step": 370
	},
	{
	"epoch": 0.75,
	"learning_rate": 9.16503585025567e-08,
	"logits/chosen": -0.3131292462348938,
	"logits/rejected": 0.1059599220752716,
	"logps/chosen": -398.6189880371094,
	"logps/rejected": -455.5489807128906,
	"loss": 0.4785,
	"rewards/accuracies": 0.7774999737739563,
	"rewards/chosen": -1.180424451828003,
	"rewards/margins": 0.9602058529853821,
	"rewards/rejected": -2.1406302452087402,
	"step": 380
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.876324394107017e-08,
	"logits/chosen": -0.06371825933456421,
	"logits/rejected": 0.4222162663936615,
	"logps/chosen": -408.15203857421875,
	"logps/rejected": -469.3525085449219,
	"loss": 0.4945,
	"rewards/accuracies": 0.7774999737739563,
	"rewards/chosen": -1.2744272947311401,
	"rewards/margins": 0.8693990111351013,
	"rewards/rejected": -2.1438262462615967,
	"step": 390
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.668149945978201e-08,
	"logits/chosen": -0.4337286353111267,
	"logits/rejected": 0.11450805515050888,
	"logps/chosen": -406.1577453613281,
	"logps/rejected": -468.1871337890625,
	"loss": 0.4968,
	"rewards/accuracies": 0.7574999928474426,
	"rewards/chosen": -1.204884648323059,
	"rewards/margins": 0.9240193367004395,
	"rewards/rejected": -2.128904104232788,
	"step": 400
	},
	{
	"epoch": 0.79,
	"eval_logits/chosen": -0.2552393972873688,
	"eval_logits/rejected": 0.20138485729694366,
	"eval_logps/chosen": -402.1766357421875,
	"eval_logps/rejected": -475.3639221191406,
	"eval_loss": 0.5057728290557861,
	"eval_rewards/accuracies": 0.7140718698501587,
	"eval_rewards/chosen": -1.2444883584976196,
	"eval_rewards/margins": 0.8618020415306091,
	"eval_rewards/rejected": -2.106290578842163,
	"eval_runtime": 493.9837,
	"eval_samples_per_second": 4.049,
	"eval_steps_per_second": 0.338,
	"step": 400
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.546194858038072e-08,
	"logits/chosen": -0.3444100618362427,
	"logits/rejected": 0.08428356051445007,
	"logps/chosen": -419.0089111328125,
	"logps/rejected": -482.5577392578125,
	"loss": 0.488,
	"rewards/accuracies": 0.7325000166893005,
	"rewards/chosen": -1.1570134162902832,
	"rewards/margins": 0.9088660478591919,
	"rewards/rejected": -2.0658795833587646,
	"step": 410
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.5157359708432626e-08,
	"logits/chosen": -0.3363034129142761,
	"logits/rejected": 0.1421819031238556,
	"logps/chosen": -417.26116943359375,
	"logps/rejected": -475.9188537597656,
	"loss": 0.5012,
	"rewards/accuracies": 0.7549999952316284,
	"rewards/chosen": -1.1876376867294312,
	"rewards/margins": 0.9119570255279541,
	"rewards/rejected": -2.0995945930480957,
	"step": 420
	},
	{
	"epoch": 0.84,
	"learning_rate": 3.581619795012874e-08,
	"logits/chosen": -0.4450594186782837,
	"logits/rejected": 0.03785795345902443,
	"logps/chosen": -404.95281982421875,
	"logps/rejected": -467.25531005859375,
	"loss": 0.4861,
	"rewards/accuracies": 0.7724999785423279,
	"rewards/chosen": -1.1584584712982178,
	"rewards/margins": 0.9622448086738586,
	"rewards/rejected": -2.1207032203674316,
	"step": 430
	},
	{
	"epoch": 0.86,
	"learning_rate": 2.748239716854589e-08,
	"logits/chosen": -0.31011733412742615,
	"logits/rejected": 0.310569167137146,
	"logps/chosen": -389.67132568359375,
	"logps/rejected": -470.01104736328125,
	"loss": 0.5105,
	"rewards/accuracies": 0.7350000143051147,
	"rewards/chosen": -1.1304560899734497,
	"rewards/margins": 0.8861461877822876,
	"rewards/rejected": -2.016602039337158,
	"step": 440
	},
	{
	"epoch": 0.88,
	"learning_rate": 2.0195153351498323e-08,
	"logits/chosen": -0.3003827631473541,
	"logits/rejected": 0.046957388520240784,
	"logps/chosen": -412.5171203613281,
	"logps/rejected": -481.26898193359375,
	"loss": 0.5128,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.1812173128128052,
	"rewards/margins": 0.8305546641349792,
	"rewards/rejected": -2.0117719173431396,
	"step": 450
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.3988740262822846e-08,
	"logits/chosen": -0.47582343220710754,
	"logits/rejected": -0.11152289062738419,
	"logps/chosen": -410.2917175292969,
	"logps/rejected": -457.774658203125,
	"loss": 0.5044,
	"rewards/accuracies": 0.7649999856948853,
	"rewards/chosen": -1.1460288763046265,
	"rewards/margins": 0.8546761870384216,
	"rewards/rejected": -2.0007050037384033,
	"step": 460
	},
	{
	"epoch": 0.92,
	"learning_rate": 8.892348244137788e-09,
	"logits/chosen": -0.5770422220230103,
	"logits/rejected": -0.025662722066044807,
	"logps/chosen": -372.98187255859375,
	"logps/rejected": -467.86199951171875,
	"loss": 0.4973,
	"rewards/accuracies": 0.7200000286102295,
	"rewards/chosen": -1.0886142253875732,
	"rewards/margins": 0.8808639049530029,
	"rewards/rejected": -1.9694780111312866,
	"step": 470
	},
	{
	"epoch": 0.94,
	"learning_rate": 4.929946925231076e-09,
	"logits/chosen": -0.5876446962356567,
	"logits/rejected": -0.16365936398506165,
	"logps/chosen": -400.3377685546875,
	"logps/rejected": -455.9208068847656,
	"loss": 0.5072,
	"rewards/accuracies": 0.7024999856948853,
	"rewards/chosen": -1.1451067924499512,
	"rewards/margins": 0.7030719518661499,
	"rewards/rejected": -1.848178744316101,
	"step": 480
	},
	{
	"epoch": 0.96,
	"learning_rate": 2.1201724887858484e-09,
	"logits/chosen": -0.4430970847606659,
	"logits/rejected": 0.12594802677631378,
	"logps/chosen": -409.6846008300781,
	"logps/rejected": -458.5526428222656,
	"loss": 0.4887,
	"rewards/accuracies": 0.7574999928474426,
	"rewards/chosen": -1.0775573253631592,
	"rewards/margins": 0.9305427074432373,
	"rewards/rejected": -2.0081000328063965,
	"step": 490
	},
	{
	"epoch": 0.98,
	"learning_rate": 4.762400196664518e-10,
	"logits/chosen": -0.41937455534935,
	"logits/rejected": -0.08660510927438736,
	"logps/chosen": -385.8563232421875,
	"logps/rejected": -454.9473571777344,
	"loss": 0.4833,
	"rewards/accuracies": 0.7699999809265137,
	"rewards/chosen": -1.093034267425537,
	"rewards/margins": 0.9196186661720276,
	"rewards/rejected": -2.012652635574341,
	"step": 500
	},
	{
	"epoch": 0.98,
	"eval_logits/chosen": -0.4496035575866699,
	"eval_logits/rejected": 0.04359949380159378,
	"eval_logps/chosen": -395.9374084472656,
	"eval_logps/rejected": -470.5448303222656,
	"eval_loss": 0.5045374631881714,
	"eval_rewards/accuracies": 0.726047933101654,
	"eval_rewards/chosen": -1.182096004486084,
	"eval_rewards/margins": 0.876003086566925,
	"eval_rewards/rejected": -2.0580990314483643,
	"eval_runtime": 494.2334,
	"eval_samples_per_second": 4.047,
	"eval_steps_per_second": 0.338,
	"step": 500
	},
	{
	"epoch": 1.0,
	"step": 509,
	"total_flos": 0.0,
	"train_loss": 0.5401819272219315,
	"train_runtime": 34352.758,
	"train_samples_per_second": 1.78,
	"train_steps_per_second": 0.015
	}
	],
	"logging_steps": 10,
	"max_steps": 509,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000,
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}