Training in progress, step 28000

62fefbe over 1 year ago

9.34 kB

	{
	"best_metric": 1.6879340410232544,
	"best_model_checkpoint": "/home3/s5431786/nlp-final-project/results/google-flan-t5-small-e-snli-generation-explanation_use_prompt_label-selected-b64/checkpoint-28000",
	"epoch": 3.2618825722273996,
	"global_step": 28000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.23,
	"learning_rate": 0.0004659832246039143,
	"loss": 1.6051,
	"step": 2000
	},
	{
	"epoch": 0.23,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9312730214807033,
	"eval_bleu": 0.39782836950988876,
	"eval_f1": null,
	"eval_loss": 1.7780297994613647,
	"eval_rouge1": 0.5911787258201253,
	"eval_rouge2": 0.38303308637957223,
	"eval_rougeL": 0.5377264257708202,
	"eval_rougeLsum": 0.5395006217014338,
	"eval_runtime": 168.0702,
	"eval_samples_per_second": 58.559,
	"eval_steps_per_second": 0.916,
	"step": 2000
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0009319664492078286,
	"loss": 1.4342,
	"step": 4000
	},
	{
	"epoch": 0.47,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.933153417701039,
	"eval_bleu": 0.4002469468404885,
	"eval_f1": null,
	"eval_loss": 1.7909314632415771,
	"eval_rouge1": 0.5975097321291585,
	"eval_rouge2": 0.3847152683676083,
	"eval_rougeL": 0.5420448625219438,
	"eval_rougeLsum": 0.5439086899907004,
	"eval_runtime": 163.5422,
	"eval_samples_per_second": 60.18,
	"eval_steps_per_second": 0.942,
	"step": 4000
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.0009790552803256977,
	"loss": 1.3804,
	"step": 6000
	},
	{
	"epoch": 0.7,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9348857560079773,
	"eval_bleu": 0.41900709929386093,
	"eval_f1": null,
	"eval_loss": 1.7246909141540527,
	"eval_rouge1": 0.616316027086431,
	"eval_rouge2": 0.4107303410412238,
	"eval_rougeL": 0.5610382702035865,
	"eval_rougeLsum": 0.5630504299315114,
	"eval_runtime": 164.6404,
	"eval_samples_per_second": 59.779,
	"eval_steps_per_second": 0.935,
	"step": 6000
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.0009545298474518076,
	"loss": 1.3396,
	"step": 8000
	},
	{
	"epoch": 0.93,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9358202236390555,
	"eval_bleu": 0.41886081162261424,
	"eval_f1": null,
	"eval_loss": 1.7622839212417603,
	"eval_rouge1": 0.6176280342703749,
	"eval_rouge2": 0.4078573926320103,
	"eval_rougeL": 0.5616472881864998,
	"eval_rougeLsum": 0.563450597865839,
	"eval_runtime": 154.9703,
	"eval_samples_per_second": 63.509,
	"eval_steps_per_second": 0.994,
	"step": 8000
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.0009300044145779173,
	"loss": 1.2871,
	"step": 10000
	},
	{
	"epoch": 1.16,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9358213962977603,
	"eval_bleu": 0.4193950275310417,
	"eval_f1": null,
	"eval_loss": 1.7429882287979126,
	"eval_rouge1": 0.6213453720058478,
	"eval_rouge2": 0.4161815104047649,
	"eval_rougeL": 0.5663236030411948,
	"eval_rougeLsum": 0.5683627905966635,
	"eval_runtime": 166.3727,
	"eval_samples_per_second": 59.156,
	"eval_steps_per_second": 0.926,
	"step": 10000
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0009054789817040271,
	"loss": 1.2598,
	"step": 12000
	},
	{
	"epoch": 1.4,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9357474451383859,
	"eval_bleu": 0.4237575236205067,
	"eval_f1": null,
	"eval_loss": 1.7180376052856445,
	"eval_rouge1": 0.6178787224462856,
	"eval_rouge2": 0.41096129012621224,
	"eval_rougeL": 0.5625046403576894,
	"eval_rougeLsum": 0.5643579355959574,
	"eval_runtime": 161.2048,
	"eval_samples_per_second": 61.053,
	"eval_steps_per_second": 0.955,
	"step": 12000
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.0008809535488301369,
	"loss": 1.2527,
	"step": 14000
	},
	{
	"epoch": 1.63,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9347525270301088,
	"eval_bleu": 0.4103575347376984,
	"eval_f1": null,
	"eval_loss": 1.7438157796859741,
	"eval_rouge1": 0.6163196253092696,
	"eval_rouge2": 0.40951276436422024,
	"eval_rougeL": 0.561512744919562,
	"eval_rougeLsum": 0.5636171995683823,
	"eval_runtime": 163.0281,
	"eval_samples_per_second": 60.37,
	"eval_steps_per_second": 0.945,
	"step": 14000
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.0008564281159562467,
	"loss": 1.2367,
	"step": 16000
	},
	{
	"epoch": 1.86,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9367065161642227,
	"eval_bleu": 0.4269002075734853,
	"eval_f1": null,
	"eval_loss": 1.692925214767456,
	"eval_rouge1": 0.6232036846315818,
	"eval_rouge2": 0.4180000668098338,
	"eval_rougeL": 0.5680648753273818,
	"eval_rougeLsum": 0.570113733783007,
	"eval_runtime": 165.5988,
	"eval_samples_per_second": 59.433,
	"eval_steps_per_second": 0.93,
	"step": 16000
	},
	{
	"epoch": 2.1,
	"learning_rate": 0.0008319026830823564,
	"loss": 1.2084,
	"step": 18000
	},
	{
	"epoch": 2.1,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9346273795566624,
	"eval_bleu": 0.4082124628614291,
	"eval_f1": null,
	"eval_loss": 1.7380170822143555,
	"eval_rouge1": 0.6207188358704087,
	"eval_rouge2": 0.4177034932099197,
	"eval_rougeL": 0.5656127494093233,
	"eval_rougeLsum": 0.5677652123372579,
	"eval_runtime": 171.9389,
	"eval_samples_per_second": 57.241,
	"eval_steps_per_second": 0.896,
	"step": 18000
	},
	{
	"epoch": 2.33,
	"learning_rate": 0.0008073772502084662,
	"loss": 1.1764,
	"step": 20000
	},
	{
	"epoch": 2.33,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9354710851566406,
	"eval_bleu": 0.40988266787912037,
	"eval_f1": null,
	"eval_loss": 1.693483591079712,
	"eval_rouge1": 0.6180761782666475,
	"eval_rouge2": 0.41114120287967504,
	"eval_rougeL": 0.5614112736943433,
	"eval_rougeLsum": 0.5634652483896412,
	"eval_runtime": 166.4526,
	"eval_samples_per_second": 59.128,
	"eval_steps_per_second": 0.925,
	"step": 20000
	},
	{
	"epoch": 2.56,
	"learning_rate": 0.000782851817334576,
	"loss": 1.1755,
	"step": 22000
	},
	{
	"epoch": 2.56,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9346324508266705,
	"eval_bleu": 0.40634655287582505,
	"eval_f1": null,
	"eval_loss": 1.7524782419204712,
	"eval_rouge1": 0.6135893786369074,
	"eval_rouge2": 0.40424644238900054,
	"eval_rougeL": 0.5569845265395319,
	"eval_rougeLsum": 0.5589737599230747,
	"eval_runtime": 160.1533,
	"eval_samples_per_second": 61.454,
	"eval_steps_per_second": 0.962,
	"step": 22000
	},
	{
	"epoch": 2.8,
	"learning_rate": 0.0007583263844606856,
	"loss": 1.177,
	"step": 24000
	},
	{
	"epoch": 2.8,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9357648674997463,
	"eval_bleu": 0.4166788473251748,
	"eval_f1": null,
	"eval_loss": 1.6996724605560303,
	"eval_rouge1": 0.6259385124974665,
	"eval_rouge2": 0.4221804267801674,
	"eval_rougeL": 0.5702138311702792,
	"eval_rougeLsum": 0.5724783022726267,
	"eval_runtime": 168.0704,
	"eval_samples_per_second": 58.559,
	"eval_steps_per_second": 0.916,
	"step": 24000
	},
	{
	"epoch": 3.03,
	"learning_rate": 0.0007338009515867955,
	"loss": 1.1627,
	"step": 26000
	},
	{
	"epoch": 3.03,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9365227118034573,
	"eval_bleu": 0.42188586391601435,
	"eval_f1": null,
	"eval_loss": 1.7493563890457153,
	"eval_rouge1": 0.6268137047490179,
	"eval_rouge2": 0.42133389000894483,
	"eval_rougeL": 0.5704007507856375,
	"eval_rougeLsum": 0.5723283103728103,
	"eval_runtime": 165.0375,
	"eval_samples_per_second": 59.635,
	"eval_steps_per_second": 0.933,
	"step": 26000
	},
	{
	"epoch": 3.26,
	"learning_rate": 0.0007092755187129053,
	"loss": 1.1213,
	"step": 28000
	},
	{
	"epoch": 3.26,
	"eval_accuracy": null,
	"eval_bertscore_f1": 0.9357226263202562,
	"eval_bleu": 0.4211338041409779,
	"eval_f1": null,
	"eval_loss": 1.6879340410232544,
	"eval_rouge1": 0.6241785396960564,
	"eval_rouge2": 0.4172784618159209,
	"eval_rougeL": 0.5676477480665587,
	"eval_rougeLsum": 0.5698542368429731,
	"eval_runtime": 161.3196,
	"eval_samples_per_second": 61.009,
	"eval_steps_per_second": 0.955,
	"step": 28000
	}
	],
	"max_steps": 85840,
	"num_train_epochs": 10,
	"total_flos": 4.230446910422016e+16,
	"trial_name": null,
	"trial_params": null
	}