nash_dpo_merge_iter_4 / trainer_state.json

Model save

aff606b verified 6 months ago

10.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9984,
	"eval_steps": 100,
	"global_step": 195,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 2.5000000000000004e-07,
	"logits/chosen": -2.3828954696655273,
	"logits/rejected": -2.2103500366210938,
	"logps/chosen": -351.30865478515625,
	"logps/rejected": -310.087646484375,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.05,
	"learning_rate": 2.5e-06,
	"logits/chosen": -2.15350341796875,
	"logits/rejected": -2.057192087173462,
	"logps/chosen": -291.661865234375,
	"logps/rejected": -299.000244140625,
	"loss": 0.6901,
	"rewards/accuracies": 0.5208333134651184,
	"rewards/chosen": -0.00531815318390727,
	"rewards/margins": 0.006059659644961357,
	"rewards/rejected": -0.01137781422585249,
	"step": 10
	},
	{
	"epoch": 0.1,
	"learning_rate": 5e-06,
	"logits/chosen": -1.7294094562530518,
	"logits/rejected": -1.6358362436294556,
	"logps/chosen": -349.6874084472656,
	"logps/rejected": -371.9268798828125,
	"loss": 0.6485,
	"rewards/accuracies": 0.609375,
	"rewards/chosen": -0.4694043695926666,
	"rewards/margins": 0.10101622343063354,
	"rewards/rejected": -0.5704206228256226,
	"step": 20
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.959823971496575e-06,
	"logits/chosen": -1.3581154346466064,
	"logits/rejected": -1.2683781385421753,
	"logps/chosen": -328.9931945800781,
	"logps/rejected": -367.46417236328125,
	"loss": 0.6227,
	"rewards/accuracies": 0.653124988079071,
	"rewards/chosen": -0.3038724958896637,
	"rewards/margins": 0.21112871170043945,
	"rewards/rejected": -0.5150011777877808,
	"step": 30
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.8405871765993435e-06,
	"logits/chosen": -1.0669946670532227,
	"logits/rejected": -0.6835187673568726,
	"logps/chosen": -354.5089416503906,
	"logps/rejected": -383.76422119140625,
	"loss": 0.5903,
	"rewards/accuracies": 0.6656249761581421,
	"rewards/chosen": -0.4168413579463959,
	"rewards/margins": 0.37733370065689087,
	"rewards/rejected": -0.7941750884056091,
	"step": 40
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.646121984004666e-06,
	"logits/chosen": -0.7538890838623047,
	"logits/rejected": -0.34662288427352905,
	"logps/chosen": -361.6393737792969,
	"logps/rejected": -380.0272521972656,
	"loss": 0.59,
	"rewards/accuracies": 0.703125,
	"rewards/chosen": -0.479973167181015,
	"rewards/margins": 0.41160327196121216,
	"rewards/rejected": -0.8915762901306152,
	"step": 50
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.382678665009028e-06,
	"logits/chosen": -0.7476059198379517,
	"logits/rejected": -0.4476490020751953,
	"logps/chosen": -321.3587951660156,
	"logps/rejected": -371.570556640625,
	"loss": 0.5849,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.3474940359592438,
	"rewards/margins": 0.410334974527359,
	"rewards/rejected": -0.7578290104866028,
	"step": 60
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.058724504646834e-06,
	"logits/chosen": -0.5304551124572754,
	"logits/rejected": 0.0068548740819096565,
	"logps/chosen": -372.43316650390625,
	"logps/rejected": -403.68011474609375,
	"loss": 0.5931,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.6598731875419617,
	"rewards/margins": 0.44455790519714355,
	"rewards/rejected": -1.10443115234375,
	"step": 70
	},
	{
	"epoch": 0.41,
	"learning_rate": 3.684671656182497e-06,
	"logits/chosen": -0.7597763538360596,
	"logits/rejected": -0.30586355924606323,
	"logps/chosen": -384.52679443359375,
	"logps/rejected": -407.8342590332031,
	"loss": 0.5901,
	"rewards/accuracies": 0.6781250238418579,
	"rewards/chosen": -0.5050551891326904,
	"rewards/margins": 0.4280626177787781,
	"rewards/rejected": -0.9331178665161133,
	"step": 80
	},
	{
	"epoch": 0.46,
	"learning_rate": 3.272542485937369e-06,
	"logits/chosen": -0.6929324865341187,
	"logits/rejected": -0.2577061057090759,
	"logps/chosen": -342.2850036621094,
	"logps/rejected": -383.3541259765625,
	"loss": 0.5777,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.5730774998664856,
	"rewards/margins": 0.38491758704185486,
	"rewards/rejected": -0.9579952359199524,
	"step": 90
	},
	{
	"epoch": 0.51,
	"learning_rate": 2.835583164544139e-06,
	"logits/chosen": -0.8866588473320007,
	"logits/rejected": -0.39027491211891174,
	"logps/chosen": -326.8385925292969,
	"logps/rejected": -374.0113525390625,
	"loss": 0.5616,
	"rewards/accuracies": 0.6968749761581421,
	"rewards/chosen": -0.4010140001773834,
	"rewards/margins": 0.5182436108589172,
	"rewards/rejected": -0.9192575216293335,
	"step": 100
	},
	{
	"epoch": 0.51,
	"eval_logits/chosen": -0.6312460899353027,
	"eval_logits/rejected": -0.05466047301888466,
	"eval_logps/chosen": -351.8179016113281,
	"eval_logps/rejected": -391.2296447753906,
	"eval_loss": 0.5503215789794922,
	"eval_rewards/accuracies": 0.7139999866485596,
	"eval_rewards/chosen": -0.6370265483856201,
	"eval_rewards/margins": 0.559273362159729,
	"eval_rewards/rejected": -1.1962999105453491,
	"eval_runtime": 396.9424,
	"eval_samples_per_second": 5.039,
	"eval_steps_per_second": 0.63,
	"step": 100
	},
	{
	"epoch": 0.56,
	"learning_rate": 2.3878379241237136e-06,
	"logits/chosen": -0.5016804933547974,
	"logits/rejected": -0.17540986835956573,
	"logps/chosen": -381.13250732421875,
	"logps/rejected": -445.72344970703125,
	"loss": 0.568,
	"rewards/accuracies": 0.6968749761581421,
	"rewards/chosen": -0.8623906970024109,
	"rewards/margins": 0.4544965624809265,
	"rewards/rejected": -1.3168871402740479,
	"step": 110
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.9436976651092143e-06,
	"logits/chosen": -0.5300595164299011,
	"logits/rejected": -0.16820363700389862,
	"logps/chosen": -343.6223449707031,
	"logps/rejected": -390.7423400878906,
	"loss": 0.5643,
	"rewards/accuracies": 0.671875,
	"rewards/chosen": -0.5444029569625854,
	"rewards/margins": 0.469682514667511,
	"rewards/rejected": -1.0140855312347412,
	"step": 120
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.5174374208651913e-06,
	"logits/chosen": -0.7855179309844971,
	"logits/rejected": -0.3058822751045227,
	"logps/chosen": -345.6529235839844,
	"logps/rejected": -394.87310791015625,
	"loss": 0.5708,
	"rewards/accuracies": 0.7093750238418579,
	"rewards/chosen": -0.4353795647621155,
	"rewards/margins": 0.5461079478263855,
	"rewards/rejected": -0.9814874529838562,
	"step": 130
	},
	{
	"epoch": 0.72,
	"learning_rate": 1.122757546369744e-06,
	"logits/chosen": -0.5981294512748718,
	"logits/rejected": 0.1230069175362587,
	"logps/chosen": -365.549560546875,
	"logps/rejected": -422.6253356933594,
	"loss": 0.553,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.6209978461265564,
	"rewards/margins": 0.6843111515045166,
	"rewards/rejected": -1.3053090572357178,
	"step": 140
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.723433775328385e-07,
	"logits/chosen": -0.31050771474838257,
	"logits/rejected": 0.17936445772647858,
	"logps/chosen": -382.371826171875,
	"logps/rejected": -423.1304626464844,
	"loss": 0.567,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.7858445048332214,
	"rewards/margins": 0.49087247252464294,
	"rewards/rejected": -1.276716947555542,
	"step": 150
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.774575140626317e-07,
	"logits/chosen": -0.3516121506690979,
	"logits/rejected": 0.05455173924565315,
	"logps/chosen": -383.17694091796875,
	"logps/rejected": -414.36322021484375,
	"loss": 0.5914,
	"rewards/accuracies": 0.690625011920929,
	"rewards/chosen": -0.7312983870506287,
	"rewards/margins": 0.4293293058872223,
	"rewards/rejected": -1.160627841949463,
	"step": 160
	},
	{
	"epoch": 0.87,
	"learning_rate": 2.4757783024395244e-07,
	"logits/chosen": -0.3427812159061432,
	"logits/rejected": 0.1810428947210312,
	"logps/chosen": -328.9323425292969,
	"logps/rejected": -408.287353515625,
	"loss": 0.5436,
	"rewards/accuracies": 0.765625,
	"rewards/chosen": -0.5952991247177124,
	"rewards/margins": 0.7224096059799194,
	"rewards/rejected": -1.3177087306976318,
	"step": 170
	},
	{
	"epoch": 0.92,
	"learning_rate": 9.00928482603669e-08,
	"logits/chosen": -0.4558378756046295,
	"logits/rejected": 0.023540988564491272,
	"logps/chosen": -353.60015869140625,
	"logps/rejected": -400.02459716796875,
	"loss": 0.5798,
	"rewards/accuracies": 0.703125,
	"rewards/chosen": -0.6851487159729004,
	"rewards/margins": 0.5590900778770447,
	"rewards/rejected": -1.2442388534545898,
	"step": 180
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.006426501190233e-08,
	"logits/chosen": -0.32187455892562866,
	"logits/rejected": 0.002347037196159363,
	"logps/chosen": -363.7867126464844,
	"logps/rejected": -415.94952392578125,
	"loss": 0.5752,
	"rewards/accuracies": 0.684374988079071,
	"rewards/chosen": -0.6913945078849792,
	"rewards/margins": 0.4907089173793793,
	"rewards/rejected": -1.1821033954620361,
	"step": 190
	},
	{
	"epoch": 1.0,
	"step": 195,
	"total_flos": 0.0,
	"train_loss": 0.5863106256876236,
	"train_runtime": 9239.1596,
	"train_samples_per_second": 2.706,
	"train_steps_per_second": 0.021
	}
	],
	"logging_steps": 10,
	"max_steps": 195,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}