|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 3.066666666666667, |
|
"eval_steps": 2, |
|
"global_step": 23, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 3.9902522563934326, |
|
"learning_rate": 1e-05, |
|
"loss": 3.1186, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"eval_loss": 3.2423932552337646, |
|
"eval_runtime": 1.2697, |
|
"eval_samples_per_second": 5.513, |
|
"eval_steps_per_second": 0.788, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 1.956419587135315, |
|
"learning_rate": 2e-05, |
|
"loss": 2.7205, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"eval_loss": 3.2410244941711426, |
|
"eval_runtime": 0.7729, |
|
"eval_samples_per_second": 9.057, |
|
"eval_steps_per_second": 1.294, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 2.8411946296691895, |
|
"learning_rate": 3e-05, |
|
"loss": 3.3243, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 2.700608968734741, |
|
"learning_rate": 4e-05, |
|
"loss": 3.0208, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"eval_loss": 3.221039295196533, |
|
"eval_runtime": 0.7718, |
|
"eval_samples_per_second": 9.07, |
|
"eval_steps_per_second": 1.296, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 2.6714189052581787, |
|
"learning_rate": 5e-05, |
|
"loss": 3.1712, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 2.4651601314544678, |
|
"learning_rate": 6e-05, |
|
"loss": 3.0124, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"eval_loss": 3.148014545440674, |
|
"eval_runtime": 0.7749, |
|
"eval_samples_per_second": 9.033, |
|
"eval_steps_per_second": 1.29, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 2.5564746856689453, |
|
"learning_rate": 7e-05, |
|
"loss": 2.8285, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 4.563579559326172, |
|
"learning_rate": 8e-05, |
|
"loss": 4.971, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"eval_loss": 2.948533773422241, |
|
"eval_runtime": 0.7741, |
|
"eval_samples_per_second": 9.042, |
|
"eval_steps_per_second": 1.292, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 2.2848174571990967, |
|
"learning_rate": 9e-05, |
|
"loss": 2.3897, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 2.549710512161255, |
|
"learning_rate": 0.0001, |
|
"loss": 2.2839, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"eval_loss": 2.652517080307007, |
|
"eval_runtime": 0.775, |
|
"eval_samples_per_second": 9.033, |
|
"eval_steps_per_second": 1.29, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 2.489722967147827, |
|
"learning_rate": 9.85470908713026e-05, |
|
"loss": 2.3386, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 2.8757503032684326, |
|
"learning_rate": 9.42728012826605e-05, |
|
"loss": 2.8977, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"eval_loss": 2.484462022781372, |
|
"eval_runtime": 0.7748, |
|
"eval_samples_per_second": 9.035, |
|
"eval_steps_per_second": 1.291, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 3.176732301712036, |
|
"learning_rate": 8.742553740855506e-05, |
|
"loss": 2.5185, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 2.6962947845458984, |
|
"learning_rate": 7.840323733655778e-05, |
|
"loss": 2.191, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"eval_loss": 2.3859164714813232, |
|
"eval_runtime": 0.7751, |
|
"eval_samples_per_second": 9.031, |
|
"eval_steps_per_second": 1.29, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 5.198688983917236, |
|
"learning_rate": 6.773024435212678e-05, |
|
"loss": 3.705, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"grad_norm": 2.419804096221924, |
|
"learning_rate": 5.602683401276615e-05, |
|
"loss": 2.0216, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"eval_loss": 2.297755002975464, |
|
"eval_runtime": 0.7761, |
|
"eval_samples_per_second": 9.02, |
|
"eval_steps_per_second": 1.289, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 2.2666666666666666, |
|
"grad_norm": 3.1209776401519775, |
|
"learning_rate": 4.397316598723385e-05, |
|
"loss": 1.9696, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"grad_norm": 2.1371848583221436, |
|
"learning_rate": 3.226975564787322e-05, |
|
"loss": 1.8771, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"eval_loss": 2.2590200901031494, |
|
"eval_runtime": 0.7733, |
|
"eval_samples_per_second": 9.052, |
|
"eval_steps_per_second": 1.293, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 2.533333333333333, |
|
"grad_norm": 3.206876754760742, |
|
"learning_rate": 2.1596762663442218e-05, |
|
"loss": 2.1814, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 3.7504143714904785, |
|
"learning_rate": 1.257446259144494e-05, |
|
"loss": 2.1504, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"eval_loss": 2.232135057449341, |
|
"eval_runtime": 0.7747, |
|
"eval_samples_per_second": 9.036, |
|
"eval_steps_per_second": 1.291, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"grad_norm": 3.0680432319641113, |
|
"learning_rate": 5.727198717339511e-06, |
|
"loss": 2.0356, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 2.9333333333333336, |
|
"grad_norm": 2.331746816635132, |
|
"learning_rate": 1.4529091286973995e-06, |
|
"loss": 1.7334, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 2.9333333333333336, |
|
"eval_loss": 2.22377610206604, |
|
"eval_runtime": 0.7735, |
|
"eval_samples_per_second": 9.049, |
|
"eval_steps_per_second": 1.293, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 3.066666666666667, |
|
"grad_norm": 4.347665309906006, |
|
"learning_rate": 0.0, |
|
"loss": 2.7201, |
|
"step": 23 |
|
} |
|
], |
|
"logging_steps": 1, |
|
"max_steps": 23, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 4, |
|
"save_steps": 25, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1.692430365622272e+16, |
|
"train_batch_size": 8, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|