toxic-mbert / trainer_state.json

model

a6423a2 7 months ago

14 kB

	{
	"best_metric": 0.49082762002944946,
	"best_model_checkpoint": "models/toxic-bert-mbert/checkpoint-380",
	"epoch": 0.41170097508125675,
	"eval_steps": 10,
	"global_step": 380,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 1.968e-05,
	"loss": 1.4487,
	"step": 10
	},
	{
	"epoch": 0.01,
	"eval_f1": 0.48475671310316976,
	"eval_loss": 1.1357542276382446,
	"eval_runtime": 20.5083,
	"eval_samples_per_second": 270.037,
	"eval_steps_per_second": 11.264,
	"step": 10
	},
	{
	"epoch": 0.02,
	"learning_rate": 1.9280000000000002e-05,
	"loss": 1.1897,
	"step": 20
	},
	{
	"epoch": 0.02,
	"eval_f1": 0.48475671310316976,
	"eval_loss": 1.0628113746643066,
	"eval_runtime": 20.8063,
	"eval_samples_per_second": 266.169,
	"eval_steps_per_second": 11.102,
	"step": 20
	},
	{
	"epoch": 0.03,
	"learning_rate": 1.8880000000000002e-05,
	"loss": 1.0351,
	"step": 30
	},
	{
	"epoch": 0.03,
	"eval_f1": 0.48475671310316976,
	"eval_loss": 1.0026295185089111,
	"eval_runtime": 21.4302,
	"eval_samples_per_second": 258.42,
	"eval_steps_per_second": 10.779,
	"step": 30
	},
	{
	"epoch": 0.04,
	"learning_rate": 1.8480000000000003e-05,
	"loss": 0.9274,
	"step": 40
	},
	{
	"epoch": 0.04,
	"eval_f1": 0.602134407148032,
	"eval_loss": 0.8651727437973022,
	"eval_runtime": 21.7252,
	"eval_samples_per_second": 254.911,
	"eval_steps_per_second": 10.633,
	"step": 40
	},
	{
	"epoch": 0.05,
	"learning_rate": 1.8080000000000003e-05,
	"loss": 0.8717,
	"step": 50
	},
	{
	"epoch": 0.05,
	"eval_f1": 0.5878712152620588,
	"eval_loss": 0.8609752058982849,
	"eval_runtime": 21.4208,
	"eval_samples_per_second": 258.534,
	"eval_steps_per_second": 10.784,
	"step": 50
	},
	{
	"epoch": 0.07,
	"learning_rate": 1.768e-05,
	"loss": 0.8187,
	"step": 60
	},
	{
	"epoch": 0.07,
	"eval_f1": 0.6764570688570977,
	"eval_loss": 0.7394715547561646,
	"eval_runtime": 21.8392,
	"eval_samples_per_second": 253.58,
	"eval_steps_per_second": 10.577,
	"step": 60
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.732e-05,
	"loss": 0.8706,
	"step": 70
	},
	{
	"epoch": 0.08,
	"eval_f1": 0.6850705705176812,
	"eval_loss": 0.7013543844223022,
	"eval_runtime": 21.7795,
	"eval_samples_per_second": 254.276,
	"eval_steps_per_second": 10.606,
	"step": 70
	},
	{
	"epoch": 0.09,
	"learning_rate": 1.692e-05,
	"loss": 0.7463,
	"step": 80
	},
	{
	"epoch": 0.09,
	"eval_f1": 0.7283246330984933,
	"eval_loss": 0.665144681930542,
	"eval_runtime": 21.4734,
	"eval_samples_per_second": 257.901,
	"eval_steps_per_second": 10.758,
	"step": 80
	},
	{
	"epoch": 0.1,
	"learning_rate": 1.652e-05,
	"loss": 0.7677,
	"step": 90
	},
	{
	"epoch": 0.1,
	"eval_f1": 0.6548131465387051,
	"eval_loss": 0.718267560005188,
	"eval_runtime": 21.871,
	"eval_samples_per_second": 253.212,
	"eval_steps_per_second": 10.562,
	"step": 90
	},
	{
	"epoch": 0.11,
	"learning_rate": 1.612e-05,
	"loss": 0.6402,
	"step": 100
	},
	{
	"epoch": 0.11,
	"eval_f1": 0.7153883418869857,
	"eval_loss": 0.6134028434753418,
	"eval_runtime": 21.3946,
	"eval_samples_per_second": 258.85,
	"eval_steps_per_second": 10.797,
	"step": 100
	},
	{
	"epoch": 0.12,
	"learning_rate": 1.5720000000000002e-05,
	"loss": 0.6408,
	"step": 110
	},
	{
	"epoch": 0.12,
	"eval_f1": 0.7200057070545418,
	"eval_loss": 0.6316511034965515,
	"eval_runtime": 21.4218,
	"eval_samples_per_second": 258.521,
	"eval_steps_per_second": 10.783,
	"step": 110
	},
	{
	"epoch": 0.13,
	"learning_rate": 1.5320000000000002e-05,
	"loss": 0.6293,
	"step": 120
	},
	{
	"epoch": 0.13,
	"eval_f1": 0.7252309612107771,
	"eval_loss": 0.6177955865859985,
	"eval_runtime": 22.0787,
	"eval_samples_per_second": 250.831,
	"eval_steps_per_second": 10.463,
	"step": 120
	},
	{
	"epoch": 0.14,
	"learning_rate": 1.4920000000000001e-05,
	"loss": 0.5921,
	"step": 130
	},
	{
	"epoch": 0.14,
	"eval_f1": 0.718310903510847,
	"eval_loss": 0.6382821798324585,
	"eval_runtime": 21.4528,
	"eval_samples_per_second": 258.148,
	"eval_steps_per_second": 10.768,
	"step": 130
	},
	{
	"epoch": 0.15,
	"learning_rate": 1.4520000000000002e-05,
	"loss": 0.6829,
	"step": 140
	},
	{
	"epoch": 0.15,
	"eval_f1": 0.7104650126557948,
	"eval_loss": 0.6063101291656494,
	"eval_runtime": 21.6996,
	"eval_samples_per_second": 255.212,
	"eval_steps_per_second": 10.645,
	"step": 140
	},
	{
	"epoch": 0.16,
	"learning_rate": 1.412e-05,
	"loss": 0.6528,
	"step": 150
	},
	{
	"epoch": 0.16,
	"eval_f1": 0.7266460816131931,
	"eval_loss": 0.5720272064208984,
	"eval_runtime": 21.3758,
	"eval_samples_per_second": 259.078,
	"eval_steps_per_second": 10.807,
	"step": 150
	},
	{
	"epoch": 0.17,
	"learning_rate": 1.3720000000000002e-05,
	"loss": 0.5472,
	"step": 160
	},
	{
	"epoch": 0.17,
	"eval_f1": 0.7174077954335052,
	"eval_loss": 0.6016837358474731,
	"eval_runtime": 21.9003,
	"eval_samples_per_second": 252.873,
	"eval_steps_per_second": 10.548,
	"step": 160
	},
	{
	"epoch": 0.18,
	"learning_rate": 1.3320000000000001e-05,
	"loss": 0.6625,
	"step": 170
	},
	{
	"epoch": 0.18,
	"eval_f1": 0.7238055756700145,
	"eval_loss": 0.5748048424720764,
	"eval_runtime": 21.4241,
	"eval_samples_per_second": 258.494,
	"eval_steps_per_second": 10.782,
	"step": 170
	},
	{
	"epoch": 0.2,
	"learning_rate": 1.2920000000000002e-05,
	"loss": 0.551,
	"step": 180
	},
	{
	"epoch": 0.2,
	"eval_f1": 0.7216203790293768,
	"eval_loss": 0.5944197177886963,
	"eval_runtime": 21.7253,
	"eval_samples_per_second": 254.91,
	"eval_steps_per_second": 10.633,
	"step": 180
	},
	{
	"epoch": 0.21,
	"learning_rate": 1.252e-05,
	"loss": 0.5633,
	"step": 190
	},
	{
	"epoch": 0.21,
	"eval_f1": 0.7591239466384562,
	"eval_loss": 0.5621122717857361,
	"eval_runtime": 21.1932,
	"eval_samples_per_second": 261.31,
	"eval_steps_per_second": 10.9,
	"step": 190
	},
	{
	"epoch": 0.22,
	"learning_rate": 1.2120000000000001e-05,
	"loss": 0.5372,
	"step": 200
	},
	{
	"epoch": 0.22,
	"eval_f1": 0.75760072154562,
	"eval_loss": 0.5480858087539673,
	"eval_runtime": 21.2836,
	"eval_samples_per_second": 260.201,
	"eval_steps_per_second": 10.853,
	"step": 200
	},
	{
	"epoch": 0.23,
	"learning_rate": 1.172e-05,
	"loss": 0.6353,
	"step": 210
	},
	{
	"epoch": 0.23,
	"eval_f1": 0.7511938652247329,
	"eval_loss": 0.5706632137298584,
	"eval_runtime": 21.8422,
	"eval_samples_per_second": 253.545,
	"eval_steps_per_second": 10.576,
	"step": 210
	},
	{
	"epoch": 0.24,
	"learning_rate": 1.132e-05,
	"loss": 0.6332,
	"step": 220
	},
	{
	"epoch": 0.24,
	"eval_f1": 0.7614490903091703,
	"eval_loss": 0.5543012022972107,
	"eval_runtime": 21.5696,
	"eval_samples_per_second": 256.75,
	"eval_steps_per_second": 10.71,
	"step": 220
	},
	{
	"epoch": 0.25,
	"learning_rate": 1.0920000000000002e-05,
	"loss": 0.5311,
	"step": 230
	},
	{
	"epoch": 0.25,
	"eval_f1": 0.7432260016931946,
	"eval_loss": 0.5397886633872986,
	"eval_runtime": 21.3122,
	"eval_samples_per_second": 259.851,
	"eval_steps_per_second": 10.839,
	"step": 230
	},
	{
	"epoch": 0.26,
	"learning_rate": 1.0520000000000001e-05,
	"loss": 0.5791,
	"step": 240
	},
	{
	"epoch": 0.26,
	"eval_f1": 0.7434033096243912,
	"eval_loss": 0.5391152501106262,
	"eval_runtime": 21.3796,
	"eval_samples_per_second": 259.032,
	"eval_steps_per_second": 10.805,
	"step": 240
	},
	{
	"epoch": 0.27,
	"learning_rate": 1.0120000000000001e-05,
	"loss": 0.5831,
	"step": 250
	},
	{
	"epoch": 0.27,
	"eval_f1": 0.763099957359349,
	"eval_loss": 0.5244932174682617,
	"eval_runtime": 21.3101,
	"eval_samples_per_second": 259.877,
	"eval_steps_per_second": 10.84,
	"step": 250
	},
	{
	"epoch": 0.28,
	"learning_rate": 9.72e-06,
	"loss": 0.5453,
	"step": 260
	},
	{
	"epoch": 0.28,
	"eval_f1": 0.7585661401268046,
	"eval_loss": 0.5211306214332581,
	"eval_runtime": 21.2639,
	"eval_samples_per_second": 260.442,
	"eval_steps_per_second": 10.863,
	"step": 260
	},
	{
	"epoch": 0.29,
	"learning_rate": 9.32e-06,
	"loss": 0.5087,
	"step": 270
	},
	{
	"epoch": 0.29,
	"eval_f1": 0.7549183270549422,
	"eval_loss": 0.5206575989723206,
	"eval_runtime": 21.5568,
	"eval_samples_per_second": 256.902,
	"eval_steps_per_second": 10.716,
	"step": 270
	},
	{
	"epoch": 0.3,
	"learning_rate": 8.920000000000001e-06,
	"loss": 0.539,
	"step": 280
	},
	{
	"epoch": 0.3,
	"eval_f1": 0.7483575758659107,
	"eval_loss": 0.5601561665534973,
	"eval_runtime": 21.7276,
	"eval_samples_per_second": 254.883,
	"eval_steps_per_second": 10.632,
	"step": 280
	},
	{
	"epoch": 0.31,
	"learning_rate": 8.52e-06,
	"loss": 0.502,
	"step": 290
	},
	{
	"epoch": 0.31,
	"eval_f1": 0.7497368207624416,
	"eval_loss": 0.5269237160682678,
	"eval_runtime": 21.3645,
	"eval_samples_per_second": 259.215,
	"eval_steps_per_second": 10.812,
	"step": 290
	},
	{
	"epoch": 0.33,
	"learning_rate": 8.120000000000002e-06,
	"loss": 0.5656,
	"step": 300
	},
	{
	"epoch": 0.33,
	"eval_f1": 0.7490172830029811,
	"eval_loss": 0.5704778432846069,
	"eval_runtime": 21.3309,
	"eval_samples_per_second": 259.623,
	"eval_steps_per_second": 10.829,
	"step": 300
	},
	{
	"epoch": 0.34,
	"learning_rate": 7.72e-06,
	"loss": 0.6157,
	"step": 310
	},
	{
	"epoch": 0.34,
	"eval_f1": 0.7610313116302819,
	"eval_loss": 0.5527724027633667,
	"eval_runtime": 21.5886,
	"eval_samples_per_second": 256.524,
	"eval_steps_per_second": 10.7,
	"step": 310
	},
	{
	"epoch": 0.35,
	"learning_rate": 7.32e-06,
	"loss": 0.5262,
	"step": 320
	},
	{
	"epoch": 0.35,
	"eval_f1": 0.7693956225207979,
	"eval_loss": 0.5064041614532471,
	"eval_runtime": 21.4519,
	"eval_samples_per_second": 258.159,
	"eval_steps_per_second": 10.768,
	"step": 320
	},
	{
	"epoch": 0.36,
	"learning_rate": 6.92e-06,
	"loss": 0.5032,
	"step": 330
	},
	{
	"epoch": 0.36,
	"eval_f1": 0.757594480871035,
	"eval_loss": 0.5091240406036377,
	"eval_runtime": 21.5576,
	"eval_samples_per_second": 256.894,
	"eval_steps_per_second": 10.716,
	"step": 330
	},
	{
	"epoch": 0.37,
	"learning_rate": 6.520000000000001e-06,
	"loss": 0.4859,
	"step": 340
	},
	{
	"epoch": 0.37,
	"eval_f1": 0.751697533021681,
	"eval_loss": 0.5241729021072388,
	"eval_runtime": 21.6466,
	"eval_samples_per_second": 255.837,
	"eval_steps_per_second": 10.671,
	"step": 340
	},
	{
	"epoch": 0.38,
	"learning_rate": 6.120000000000001e-06,
	"loss": 0.6227,
	"step": 350
	},
	{
	"epoch": 0.38,
	"eval_f1": 0.7821857624888272,
	"eval_loss": 0.4922301769256592,
	"eval_runtime": 21.5823,
	"eval_samples_per_second": 256.599,
	"eval_steps_per_second": 10.703,
	"step": 350
	},
	{
	"epoch": 0.39,
	"learning_rate": 5.72e-06,
	"loss": 0.4927,
	"step": 360
	},
	{
	"epoch": 0.39,
	"eval_f1": 0.778530969617547,
	"eval_loss": 0.4920683801174164,
	"eval_runtime": 21.173,
	"eval_samples_per_second": 261.559,
	"eval_steps_per_second": 10.91,
	"step": 360
	},
	{
	"epoch": 0.4,
	"learning_rate": 5.320000000000001e-06,
	"loss": 0.596,
	"step": 370
	},
	{
	"epoch": 0.4,
	"eval_f1": 0.7737080595193158,
	"eval_loss": 0.509250283241272,
	"eval_runtime": 21.9207,
	"eval_samples_per_second": 252.638,
	"eval_steps_per_second": 10.538,
	"step": 370
	},
	{
	"epoch": 0.41,
	"learning_rate": 4.92e-06,
	"loss": 0.5932,
	"step": 380
	},
	{
	"epoch": 0.41,
	"eval_f1": 0.7900070254555186,
	"eval_loss": 0.49082762002944946,
	"eval_runtime": 21.7381,
	"eval_samples_per_second": 254.76,
	"eval_steps_per_second": 10.627,
	"step": 380
	}
	],
	"logging_steps": 10,
	"max_steps": 500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 10,
	"total_flos": 547397542755648.0,
	"train_batch_size": 24,
	"trial_name": null,
	"trial_params": null
	}