Model save

cde4a6a verified 5 months ago

6.33 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 106,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"grad_norm": 32.01167376803002,
	"learning_rate": 9.09090909090909e-09,
	"logits/chosen": -3.1918134689331055,
	"logits/rejected": -2.114994764328003,
	"logps/chosen": -43.23323059082031,
	"logps/rejected": -487.12335205078125,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.09,
	"grad_norm": 26.482209257499743,
	"learning_rate": 9.09090909090909e-08,
	"logits/chosen": -2.4537441730499268,
	"logits/rejected": -2.188873291015625,
	"logps/chosen": -104.89955139160156,
	"logps/rejected": -340.5350341796875,
	"loss": 0.6929,
	"rewards/accuracies": 0.5069444179534912,
	"rewards/chosen": -0.00020233324903529137,
	"rewards/margins": 0.0006850131321698427,
	"rewards/rejected": -0.0008873462211340666,
	"step": 10
	},
	{
	"epoch": 0.19,
	"grad_norm": 27.340373748893274,
	"learning_rate": 9.780178907671787e-08,
	"logits/chosen": -2.5941455364227295,
	"logits/rejected": -2.2474465370178223,
	"logps/chosen": -112.54396057128906,
	"logps/rejected": -382.1304626464844,
	"loss": 0.6893,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": 0.001845196820795536,
	"rewards/margins": 0.008222021162509918,
	"rewards/rejected": -0.006376823876053095,
	"step": 20
	},
	{
	"epoch": 0.28,
	"grad_norm": 29.186381338310213,
	"learning_rate": 9.045084971874737e-08,
	"logits/chosen": -2.686591625213623,
	"logits/rejected": -2.179025173187256,
	"logps/chosen": -103.99493408203125,
	"logps/rejected": -395.27813720703125,
	"loss": 0.6802,
	"rewards/accuracies": 0.956250011920929,
	"rewards/chosen": 0.005808202549815178,
	"rewards/margins": 0.02655060589313507,
	"rewards/rejected": -0.020742401480674744,
	"step": 30
	},
	{
	"epoch": 0.38,
	"grad_norm": 25.724411216221245,
	"learning_rate": 7.871643313414717e-08,
	"logits/chosen": -2.667210578918457,
	"logits/rejected": -2.4061439037323,
	"logps/chosen": -100.63652038574219,
	"logps/rejected": -365.4666748046875,
	"loss": 0.6685,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": 0.008249158971011639,
	"rewards/margins": 0.0507800467312336,
	"rewards/rejected": -0.042530883103609085,
	"step": 40
	},
	{
	"epoch": 0.47,
	"grad_norm": 27.99539110543597,
	"learning_rate": 6.387014543809223e-08,
	"logits/chosen": -2.500103235244751,
	"logits/rejected": -2.2492752075195312,
	"logps/chosen": -121.36189270019531,
	"logps/rejected": -427.84686279296875,
	"loss": 0.6553,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 0.013524128124117851,
	"rewards/margins": 0.08421863615512848,
	"rewards/rejected": -0.07069449126720428,
	"step": 50
	},
	{
	"epoch": 0.57,
	"grad_norm": 29.277621202155327,
	"learning_rate": 4.7520812266338875e-08,
	"logits/chosen": -2.5562338829040527,
	"logits/rejected": -2.3804821968078613,
	"logps/chosen": -104.37593078613281,
	"logps/rejected": -411.9266662597656,
	"loss": 0.6401,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": 0.014270206913352013,
	"rewards/margins": 0.11923271417617798,
	"rewards/rejected": -0.10496251285076141,
	"step": 60
	},
	{
	"epoch": 0.66,
	"grad_norm": 28.168581664040957,
	"learning_rate": 3.1440137554088955e-08,
	"logits/chosen": -2.517213821411133,
	"logits/rejected": -2.3926634788513184,
	"logps/chosen": -96.15052795410156,
	"logps/rejected": -427.611083984375,
	"loss": 0.6226,
	"rewards/accuracies": 0.981249988079071,
	"rewards/chosen": 0.019482703879475594,
	"rewards/margins": 0.1615636646747589,
	"rewards/rejected": -0.14208097755908966,
	"step": 70
	},
	{
	"epoch": 0.75,
	"grad_norm": 27.520854136320587,
	"learning_rate": 1.7370711923791564e-08,
	"logits/chosen": -2.592007875442505,
	"logits/rejected": -2.249636173248291,
	"logps/chosen": -104.5450668334961,
	"logps/rejected": -369.75421142578125,
	"loss": 0.6127,
	"rewards/accuracies": 0.9624999761581421,
	"rewards/chosen": 0.017579929903149605,
	"rewards/margins": 0.14949214458465576,
	"rewards/rejected": -0.1319122165441513,
	"step": 80
	},
	{
	"epoch": 0.85,
	"grad_norm": 27.070318418613407,
	"learning_rate": 6.837175952121305e-09,
	"logits/chosen": -2.4734714031219482,
	"logits/rejected": -2.3791213035583496,
	"logps/chosen": -112.87300109863281,
	"logps/rejected": -397.2712707519531,
	"loss": 0.6142,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.019381331279873848,
	"rewards/margins": 0.17430000007152557,
	"rewards/rejected": -0.15491867065429688,
	"step": 90
	},
	{
	"epoch": 0.94,
	"grad_norm": 25.619627780442052,
	"learning_rate": 9.81001706259532e-10,
	"logits/chosen": -2.4850308895111084,
	"logits/rejected": -2.2666268348693848,
	"logps/chosen": -106.1055908203125,
	"logps/rejected": -518.9412841796875,
	"loss": 0.6061,
	"rewards/accuracies": 0.956250011920929,
	"rewards/chosen": 0.015003817155957222,
	"rewards/margins": 0.22597499191761017,
	"rewards/rejected": -0.2109711617231369,
	"step": 100
	},
	{
	"epoch": 1.0,
	"step": 106,
	"total_flos": 0.0,
	"train_loss": 0.6464094665815245,
	"train_runtime": 1236.0981,
	"train_samples_per_second": 5.464,
	"train_steps_per_second": 0.086
	}
	],
	"logging_steps": 10,
	"max_steps": 106,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}