whisper-medium-nyagen-combined-model / trainer_state.json

End of training

34428f4 verified 25 days ago

14.2 kB

	{
	"best_metric": 0.25605687499046326,
	"best_model_checkpoint": "/scratch/skscla001/speech/results/whisper-medium-nyagen-combined-model/checkpoint-1000",
	"epoch": 4.255659121171771,
	"eval_steps": 200,
	"global_step": 1600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.06657789613848203,
	"grad_norm": 56.093265533447266,
	"learning_rate": 4.2000000000000006e-07,
	"loss": 5.267,
	"step": 25
	},
	{
	"epoch": 0.13315579227696406,
	"grad_norm": 34.71885681152344,
	"learning_rate": 9.200000000000001e-07,
	"loss": 4.1657,
	"step": 50
	},
	{
	"epoch": 0.19973368841544606,
	"grad_norm": 31.17400360107422,
	"learning_rate": 1.42e-06,
	"loss": 3.1786,
	"step": 75
	},
	{
	"epoch": 0.2663115845539281,
	"grad_norm": 30.04043960571289,
	"learning_rate": 1.9200000000000003e-06,
	"loss": 2.1171,
	"step": 100
	},
	{
	"epoch": 0.33288948069241014,
	"grad_norm": 21.41140365600586,
	"learning_rate": 2.42e-06,
	"loss": 1.7518,
	"step": 125
	},
	{
	"epoch": 0.3994673768308921,
	"grad_norm": 20.285459518432617,
	"learning_rate": 2.92e-06,
	"loss": 1.3976,
	"step": 150
	},
	{
	"epoch": 0.46604527296937415,
	"grad_norm": 19.031597137451172,
	"learning_rate": 3.4200000000000007e-06,
	"loss": 1.2585,
	"step": 175
	},
	{
	"epoch": 0.5326231691078562,
	"grad_norm": 22.678789138793945,
	"learning_rate": 3.920000000000001e-06,
	"loss": 1.1602,
	"step": 200
	},
	{
	"epoch": 0.5326231691078562,
	"eval_loss": 0.5182062983512878,
	"eval_runtime": 169.8362,
	"eval_samples_per_second": 2.096,
	"eval_steps_per_second": 0.524,
	"eval_wer": 0.3746898263027295,
	"step": 200
	},
	{
	"epoch": 0.5992010652463382,
	"grad_norm": 19.633346557617188,
	"learning_rate": 4.42e-06,
	"loss": 0.976,
	"step": 225
	},
	{
	"epoch": 0.6657789613848203,
	"grad_norm": 22.2548828125,
	"learning_rate": 4.92e-06,
	"loss": 0.9464,
	"step": 250
	},
	{
	"epoch": 0.7323568575233023,
	"grad_norm": 19.41946029663086,
	"learning_rate": 5.420000000000001e-06,
	"loss": 0.8527,
	"step": 275
	},
	{
	"epoch": 0.7989347536617842,
	"grad_norm": 20.135112762451172,
	"learning_rate": 5.92e-06,
	"loss": 0.8483,
	"step": 300
	},
	{
	"epoch": 0.8655126498002663,
	"grad_norm": 17.5079345703125,
	"learning_rate": 6.42e-06,
	"loss": 0.9001,
	"step": 325
	},
	{
	"epoch": 0.9320905459387483,
	"grad_norm": 21.997474670410156,
	"learning_rate": 6.92e-06,
	"loss": 0.761,
	"step": 350
	},
	{
	"epoch": 0.9986684420772304,
	"grad_norm": 20.054590225219727,
	"learning_rate": 7.420000000000001e-06,
	"loss": 0.7337,
	"step": 375
	},
	{
	"epoch": 1.0639147802929427,
	"grad_norm": 16.24369239807129,
	"learning_rate": 7.92e-06,
	"loss": 0.5456,
	"step": 400
	},
	{
	"epoch": 1.0639147802929427,
	"eval_loss": 0.3444797098636627,
	"eval_runtime": 166.2672,
	"eval_samples_per_second": 2.141,
	"eval_steps_per_second": 0.535,
	"eval_wer": 0.25516956162117455,
	"step": 400
	},
	{
	"epoch": 1.1304926764314247,
	"grad_norm": 17.575782775878906,
	"learning_rate": 8.42e-06,
	"loss": 0.4736,
	"step": 425
	},
	{
	"epoch": 1.1970705725699067,
	"grad_norm": 12.86981201171875,
	"learning_rate": 8.920000000000001e-06,
	"loss": 0.535,
	"step": 450
	},
	{
	"epoch": 1.2636484687083889,
	"grad_norm": 15.951074600219727,
	"learning_rate": 9.42e-06,
	"loss": 0.5233,
	"step": 475
	},
	{
	"epoch": 1.3302263648468708,
	"grad_norm": 18.161441802978516,
	"learning_rate": 9.920000000000002e-06,
	"loss": 0.5483,
	"step": 500
	},
	{
	"epoch": 1.3968042609853528,
	"grad_norm": 13.9922513961792,
	"learning_rate": 9.953333333333333e-06,
	"loss": 0.5045,
	"step": 525
	},
	{
	"epoch": 1.463382157123835,
	"grad_norm": 19.316190719604492,
	"learning_rate": 9.89777777777778e-06,
	"loss": 0.4916,
	"step": 550
	},
	{
	"epoch": 1.5299600532623168,
	"grad_norm": 14.279507637023926,
	"learning_rate": 9.842222222222223e-06,
	"loss": 0.5007,
	"step": 575
	},
	{
	"epoch": 1.596537949400799,
	"grad_norm": 15.150153160095215,
	"learning_rate": 9.786666666666667e-06,
	"loss": 0.5516,
	"step": 600
	},
	{
	"epoch": 1.596537949400799,
	"eval_loss": 0.29034528136253357,
	"eval_runtime": 169.9132,
	"eval_samples_per_second": 2.095,
	"eval_steps_per_second": 0.524,
	"eval_wer": 0.2413151364764268,
	"step": 600
	},
	{
	"epoch": 1.663115845539281,
	"grad_norm": 11.70125675201416,
	"learning_rate": 9.731111111111113e-06,
	"loss": 0.4788,
	"step": 625
	},
	{
	"epoch": 1.729693741677763,
	"grad_norm": 12.724228858947754,
	"learning_rate": 9.675555555555555e-06,
	"loss": 0.4391,
	"step": 650
	},
	{
	"epoch": 1.796271637816245,
	"grad_norm": 13.262675285339355,
	"learning_rate": 9.620000000000001e-06,
	"loss": 0.5023,
	"step": 675
	},
	{
	"epoch": 1.862849533954727,
	"grad_norm": 15.492055892944336,
	"learning_rate": 9.564444444444445e-06,
	"loss": 0.493,
	"step": 700
	},
	{
	"epoch": 1.929427430093209,
	"grad_norm": 13.981544494628906,
	"learning_rate": 9.508888888888889e-06,
	"loss": 0.4262,
	"step": 725
	},
	{
	"epoch": 1.996005326231691,
	"grad_norm": 10.144460678100586,
	"learning_rate": 9.453333333333335e-06,
	"loss": 0.4629,
	"step": 750
	},
	{
	"epoch": 2.0612516644474033,
	"grad_norm": 13.497632026672363,
	"learning_rate": 9.397777777777779e-06,
	"loss": 0.2155,
	"step": 775
	},
	{
	"epoch": 2.1278295605858855,
	"grad_norm": 7.0717878341674805,
	"learning_rate": 9.342222222222223e-06,
	"loss": 0.224,
	"step": 800
	},
	{
	"epoch": 2.1278295605858855,
	"eval_loss": 0.2817358374595642,
	"eval_runtime": 174.0748,
	"eval_samples_per_second": 2.045,
	"eval_steps_per_second": 0.511,
	"eval_wer": 0.23842018196856907,
	"step": 800
	},
	{
	"epoch": 2.1944074567243677,
	"grad_norm": 6.820193767547607,
	"learning_rate": 9.286666666666667e-06,
	"loss": 0.241,
	"step": 825
	},
	{
	"epoch": 2.2609853528628494,
	"grad_norm": 8.093194007873535,
	"learning_rate": 9.231111111111111e-06,
	"loss": 0.2301,
	"step": 850
	},
	{
	"epoch": 2.3275632490013316,
	"grad_norm": 6.863702774047852,
	"learning_rate": 9.175555555555557e-06,
	"loss": 0.2417,
	"step": 875
	},
	{
	"epoch": 2.3941411451398134,
	"grad_norm": 8.645722389221191,
	"learning_rate": 9.12e-06,
	"loss": 0.2456,
	"step": 900
	},
	{
	"epoch": 2.4607190412782955,
	"grad_norm": 6.348605632781982,
	"learning_rate": 9.064444444444447e-06,
	"loss": 0.2535,
	"step": 925
	},
	{
	"epoch": 2.5272969374167777,
	"grad_norm": 12.011576652526855,
	"learning_rate": 9.008888888888889e-06,
	"loss": 0.241,
	"step": 950
	},
	{
	"epoch": 2.5938748335552595,
	"grad_norm": 8.227922439575195,
	"learning_rate": 8.953333333333335e-06,
	"loss": 0.1779,
	"step": 975
	},
	{
	"epoch": 2.6604527296937417,
	"grad_norm": 10.178849220275879,
	"learning_rate": 8.897777777777779e-06,
	"loss": 0.2413,
	"step": 1000
	},
	{
	"epoch": 2.6604527296937417,
	"eval_loss": 0.25605687499046326,
	"eval_runtime": 166.4206,
	"eval_samples_per_second": 2.139,
	"eval_steps_per_second": 0.535,
	"eval_wer": 0.19520264681555005,
	"step": 1000
	},
	{
	"epoch": 2.7270306258322234,
	"grad_norm": 8.071171760559082,
	"learning_rate": 8.842222222222223e-06,
	"loss": 0.1885,
	"step": 1025
	},
	{
	"epoch": 2.7936085219707056,
	"grad_norm": 10.7284574508667,
	"learning_rate": 8.786666666666668e-06,
	"loss": 0.2392,
	"step": 1050
	},
	{
	"epoch": 2.860186418109188,
	"grad_norm": 6.85145902633667,
	"learning_rate": 8.73111111111111e-06,
	"loss": 0.2225,
	"step": 1075
	},
	{
	"epoch": 2.92676431424767,
	"grad_norm": 11.033931732177734,
	"learning_rate": 8.675555555555556e-06,
	"loss": 0.2241,
	"step": 1100
	},
	{
	"epoch": 2.993342210386152,
	"grad_norm": 7.744363307952881,
	"learning_rate": 8.62e-06,
	"loss": 0.1949,
	"step": 1125
	},
	{
	"epoch": 3.0585885486018642,
	"grad_norm": 7.1467084884643555,
	"learning_rate": 8.564444444444445e-06,
	"loss": 0.1003,
	"step": 1150
	},
	{
	"epoch": 3.125166444740346,
	"grad_norm": 4.110116004943848,
	"learning_rate": 8.50888888888889e-06,
	"loss": 0.0878,
	"step": 1175
	},
	{
	"epoch": 3.191744340878828,
	"grad_norm": 4.550497531890869,
	"learning_rate": 8.453333333333334e-06,
	"loss": 0.1036,
	"step": 1200
	},
	{
	"epoch": 3.191744340878828,
	"eval_loss": 0.2583100497722626,
	"eval_runtime": 166.1164,
	"eval_samples_per_second": 2.143,
	"eval_steps_per_second": 0.536,
	"eval_wer": 0.19044665012406947,
	"step": 1200
	},
	{
	"epoch": 3.2583222370173104,
	"grad_norm": 5.678071975708008,
	"learning_rate": 8.397777777777778e-06,
	"loss": 0.0985,
	"step": 1225
	},
	{
	"epoch": 3.324900133155792,
	"grad_norm": 6.956425189971924,
	"learning_rate": 8.342222222222222e-06,
	"loss": 0.0963,
	"step": 1250
	},
	{
	"epoch": 3.3914780292942743,
	"grad_norm": 5.823480606079102,
	"learning_rate": 8.286666666666668e-06,
	"loss": 0.1072,
	"step": 1275
	},
	{
	"epoch": 3.458055925432756,
	"grad_norm": 3.2603001594543457,
	"learning_rate": 8.231111111111112e-06,
	"loss": 0.0844,
	"step": 1300
	},
	{
	"epoch": 3.5246338215712383,
	"grad_norm": 3.718132257461548,
	"learning_rate": 8.175555555555556e-06,
	"loss": 0.1595,
	"step": 1325
	},
	{
	"epoch": 3.5912117177097205,
	"grad_norm": 7.773962497711182,
	"learning_rate": 8.120000000000002e-06,
	"loss": 0.1304,
	"step": 1350
	},
	{
	"epoch": 3.6577896138482027,
	"grad_norm": 8.074212074279785,
	"learning_rate": 8.064444444444444e-06,
	"loss": 0.0951,
	"step": 1375
	},
	{
	"epoch": 3.7243675099866844,
	"grad_norm": 3.417116165161133,
	"learning_rate": 8.00888888888889e-06,
	"loss": 0.1135,
	"step": 1400
	},
	{
	"epoch": 3.7243675099866844,
	"eval_loss": 0.2636599540710449,
	"eval_runtime": 173.0821,
	"eval_samples_per_second": 2.057,
	"eval_steps_per_second": 0.514,
	"eval_wer": 0.2119520264681555,
	"step": 1400
	},
	{
	"epoch": 3.790945406125166,
	"grad_norm": 3.8932766914367676,
	"learning_rate": 7.953333333333334e-06,
	"loss": 0.1156,
	"step": 1425
	},
	{
	"epoch": 3.8575233022636484,
	"grad_norm": 5.214465618133545,
	"learning_rate": 7.897777777777778e-06,
	"loss": 0.1334,
	"step": 1450
	},
	{
	"epoch": 3.9241011984021306,
	"grad_norm": 4.3109331130981445,
	"learning_rate": 7.842222222222224e-06,
	"loss": 0.1106,
	"step": 1475
	},
	{
	"epoch": 3.9906790945406128,
	"grad_norm": 5.095810413360596,
	"learning_rate": 7.786666666666666e-06,
	"loss": 0.1038,
	"step": 1500
	},
	{
	"epoch": 4.055925432756325,
	"grad_norm": 3.1624755859375,
	"learning_rate": 7.731111111111112e-06,
	"loss": 0.0806,
	"step": 1525
	},
	{
	"epoch": 4.1225033288948065,
	"grad_norm": 6.265628814697266,
	"learning_rate": 7.675555555555556e-06,
	"loss": 0.0626,
	"step": 1550
	},
	{
	"epoch": 4.189081225033289,
	"grad_norm": 3.3597617149353027,
	"learning_rate": 7.620000000000001e-06,
	"loss": 0.0594,
	"step": 1575
	},
	{
	"epoch": 4.255659121171771,
	"grad_norm": 6.631519794464111,
	"learning_rate": 7.564444444444446e-06,
	"loss": 0.057,
	"step": 1600
	},
	{
	"epoch": 4.255659121171771,
	"eval_loss": 0.273118257522583,
	"eval_runtime": 172.5497,
	"eval_samples_per_second": 2.063,
	"eval_steps_per_second": 0.516,
	"eval_wer": 0.20967741935483872,
	"step": 1600
	},
	{
	"epoch": 4.255659121171771,
	"step": 1600,
	"total_flos": 1.303516587884544e+19,
	"train_loss": 0.610494866669178,
	"train_runtime": 3998.2703,
	"train_samples_per_second": 10.004,
	"train_steps_per_second": 1.251
	}
	],
	"logging_steps": 25,
	"max_steps": 5000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 14,
	"save_steps": 200,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 3
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.303516587884544e+19,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}