nash_dpo_iter_3 / trainer_state.json

Model save

7915532 verified 6 months ago

9.39 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9992429977289932,
	"eval_steps": 100,
	"global_step": 165,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 2.9411764705882356e-07,
	"logits/chosen": -2.62508487701416,
	"logits/rejected": -2.638840436935425,
	"logps/chosen": -313.21063232421875,
	"logps/rejected": -286.36663818359375,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.06,
	"learning_rate": 2.9411764705882355e-06,
	"logits/chosen": -2.7004079818725586,
	"logits/rejected": -2.6217572689056396,
	"logps/chosen": -292.9493408203125,
	"logps/rejected": -278.7856140136719,
	"loss": 0.6926,
	"rewards/accuracies": 0.5069444179534912,
	"rewards/chosen": 0.0015960136661306024,
	"rewards/margins": 0.0010866459924727678,
	"rewards/rejected": 0.0005093678482808173,
	"step": 10
	},
	{
	"epoch": 0.12,
	"learning_rate": 4.994932636402032e-06,
	"logits/chosen": -2.690582752227783,
	"logits/rejected": -2.671006917953491,
	"logps/chosen": -273.6416931152344,
	"logps/rejected": -290.06622314453125,
	"loss": 0.6854,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": 0.04393266513943672,
	"rewards/margins": 0.014766323380172253,
	"rewards/rejected": 0.029166344553232193,
	"step": 20
	},
	{
	"epoch": 0.18,
	"learning_rate": 4.905416503522124e-06,
	"logits/chosen": -2.6617255210876465,
	"logits/rejected": -2.585472345352173,
	"logps/chosen": -288.24456787109375,
	"logps/rejected": -275.30908203125,
	"loss": 0.6639,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": 0.08098463714122772,
	"rewards/margins": 0.06556984782218933,
	"rewards/rejected": 0.015414801426231861,
	"step": 30
	},
	{
	"epoch": 0.24,
	"learning_rate": 4.707922373336524e-06,
	"logits/chosen": -2.5689034461975098,
	"logits/rejected": -2.5172557830810547,
	"logps/chosen": -297.8088684082031,
	"logps/rejected": -299.01019287109375,
	"loss": 0.6496,
	"rewards/accuracies": 0.659375011920929,
	"rewards/chosen": -0.03176301717758179,
	"rewards/margins": 0.09769946336746216,
	"rewards/rejected": -0.12946248054504395,
	"step": 40
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.411315662967732e-06,
	"logits/chosen": -2.543713331222534,
	"logits/rejected": -2.471020221710205,
	"logps/chosen": -278.70068359375,
	"logps/rejected": -281.05767822265625,
	"loss": 0.645,
	"rewards/accuracies": 0.640625,
	"rewards/chosen": 0.058358293026685715,
	"rewards/margins": 0.13286305963993073,
	"rewards/rejected": -0.07450475543737411,
	"step": 50
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.028910905897229e-06,
	"logits/chosen": -2.5148937702178955,
	"logits/rejected": -2.403398036956787,
	"logps/chosen": -313.97503662109375,
	"logps/rejected": -300.5794677734375,
	"loss": 0.6317,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.1467473804950714,
	"rewards/margins": 0.1627379208803177,
	"rewards/rejected": -0.3094852566719055,
	"step": 60
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.577874068920446e-06,
	"logits/chosen": -2.4615416526794434,
	"logits/rejected": -2.3834948539733887,
	"logps/chosen": -288.96875,
	"logps/rejected": -298.4138488769531,
	"loss": 0.6272,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.0141445966437459,
	"rewards/margins": 0.17550477385520935,
	"rewards/rejected": -0.16136017441749573,
	"step": 70
	},
	{
	"epoch": 0.48,
	"learning_rate": 3.0784519801008546e-06,
	"logits/chosen": -2.386679172515869,
	"logits/rejected": -2.308007001876831,
	"logps/chosen": -303.1172180175781,
	"logps/rejected": -317.23577880859375,
	"loss": 0.6276,
	"rewards/accuracies": 0.6656249761581421,
	"rewards/chosen": -0.03143765777349472,
	"rewards/margins": 0.20620755851268768,
	"rewards/rejected": -0.237645223736763,
	"step": 80
	},
	{
	"epoch": 0.55,
	"learning_rate": 2.553063458334059e-06,
	"logits/chosen": -2.4485552310943604,
	"logits/rejected": -2.3585047721862793,
	"logps/chosen": -294.64202880859375,
	"logps/rejected": -314.85906982421875,
	"loss": 0.6264,
	"rewards/accuracies": 0.6656249761581421,
	"rewards/chosen": -0.18389078974723816,
	"rewards/margins": 0.19124503433704376,
	"rewards/rejected": -0.3751358091831207,
	"step": 90
	},
	{
	"epoch": 0.61,
	"learning_rate": 2.025292943281429e-06,
	"logits/chosen": -2.4612982273101807,
	"logits/rejected": -2.3962552547454834,
	"logps/chosen": -300.9443359375,
	"logps/rejected": -299.62554931640625,
	"loss": 0.6237,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.03618014603853226,
	"rewards/margins": 0.2104295939207077,
	"rewards/rejected": -0.24660976231098175,
	"step": 100
	},
	{
	"epoch": 0.61,
	"eval_logits/chosen": -2.440356492996216,
	"eval_logits/rejected": -2.3331212997436523,
	"eval_logps/chosen": -314.80450439453125,
	"eval_logps/rejected": -316.8028259277344,
	"eval_loss": 0.6047022938728333,
	"eval_rewards/accuracies": 0.6980000138282776,
	"eval_rewards/chosen": -0.14116904139518738,
	"eval_rewards/margins": 0.23404958844184875,
	"eval_rewards/rejected": -0.37521862983703613,
	"eval_runtime": 384.1798,
	"eval_samples_per_second": 5.206,
	"eval_steps_per_second": 0.651,
	"step": 100
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.5188318011445907e-06,
	"logits/chosen": -2.4451894760131836,
	"logits/rejected": -2.3738484382629395,
	"logps/chosen": -297.38006591796875,
	"logps/rejected": -310.2391662597656,
	"loss": 0.6156,
	"rewards/accuracies": 0.659375011920929,
	"rewards/chosen": -0.10568475723266602,
	"rewards/margins": 0.23291108012199402,
	"rewards/rejected": -0.33859583735466003,
	"step": 110
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.0564148305586296e-06,
	"logits/chosen": -2.5074470043182373,
	"logits/rejected": -2.3541178703308105,
	"logps/chosen": -313.4942932128906,
	"logps/rejected": -304.71240234375,
	"loss": 0.6023,
	"rewards/accuracies": 0.671875,
	"rewards/chosen": -0.05554385855793953,
	"rewards/margins": 0.2575618028640747,
	"rewards/rejected": -0.31310564279556274,
	"step": 120
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.587997083462197e-07,
	"logits/chosen": -2.472149133682251,
	"logits/rejected": -2.410820960998535,
	"logps/chosen": -306.9402770996094,
	"logps/rejected": -340.479736328125,
	"loss": 0.6055,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.10773856937885284,
	"rewards/margins": 0.24569562077522278,
	"rewards/rejected": -0.35343414545059204,
	"step": 130
	},
	{
	"epoch": 0.85,
	"learning_rate": 3.438351873250492e-07,
	"logits/chosen": -2.4470582008361816,
	"logits/rejected": -2.354292392730713,
	"logps/chosen": -300.5553283691406,
	"logps/rejected": -334.2596435546875,
	"loss": 0.6132,
	"rewards/accuracies": 0.684374988079071,
	"rewards/chosen": -0.13135434687137604,
	"rewards/margins": 0.2554669976234436,
	"rewards/rejected": -0.38682132959365845,
	"step": 140
	},
	{
	"epoch": 0.91,
	"learning_rate": 1.2565987432367032e-07,
	"logits/chosen": -2.466301679611206,
	"logits/rejected": -2.3889572620391846,
	"logps/chosen": -304.37078857421875,
	"logps/rejected": -318.76507568359375,
	"loss": 0.6197,
	"rewards/accuracies": 0.671875,
	"rewards/chosen": -0.13493719696998596,
	"rewards/margins": 0.24466891586780548,
	"rewards/rejected": -0.379606157541275,
	"step": 150
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.4067554877743861e-08,
	"logits/chosen": -2.437718152999878,
	"logits/rejected": -2.32914662361145,
	"logps/chosen": -297.7317810058594,
	"logps/rejected": -310.4150085449219,
	"loss": 0.5989,
	"rewards/accuracies": 0.690625011920929,
	"rewards/chosen": -0.10253523290157318,
	"rewards/margins": 0.2659505009651184,
	"rewards/rejected": -0.3684857487678528,
	"step": 160
	},
	{
	"epoch": 1.0,
	"step": 165,
	"total_flos": 0.0,
	"train_loss": 0.6320372126319191,
	"train_runtime": 7509.7506,
	"train_samples_per_second": 2.814,
	"train_steps_per_second": 0.022
	}
	],
	"logging_steps": 10,
	"max_steps": 165,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}