|
{
|
|
"best_metric": 0.8337175846099854,
|
|
"best_model_checkpoint": "vit-base-kidney-stone-Michel_Daudon_-w256_1k_v1-_SUR\\checkpoint-100",
|
|
"epoch": 15.0,
|
|
"eval_steps": 100,
|
|
"global_step": 2250,
|
|
"is_hyper_param_search": false,
|
|
"is_local_process_zero": true,
|
|
"is_world_process_zero": true,
|
|
"log_history": [
|
|
{
|
|
"epoch": 0.03333333333333333,
|
|
"grad_norm": 1.5674093961715698,
|
|
"learning_rate": 0.00019955555555555558,
|
|
"loss": 1.6756,
|
|
"step": 5
|
|
},
|
|
{
|
|
"epoch": 0.06666666666666667,
|
|
"grad_norm": 1.8440837860107422,
|
|
"learning_rate": 0.00019911111111111111,
|
|
"loss": 1.3465,
|
|
"step": 10
|
|
},
|
|
{
|
|
"epoch": 0.1,
|
|
"grad_norm": 1.6772500276565552,
|
|
"learning_rate": 0.00019866666666666668,
|
|
"loss": 0.9798,
|
|
"step": 15
|
|
},
|
|
{
|
|
"epoch": 0.13333333333333333,
|
|
"grad_norm": 2.06050968170166,
|
|
"learning_rate": 0.00019822222222222225,
|
|
"loss": 0.7106,
|
|
"step": 20
|
|
},
|
|
{
|
|
"epoch": 0.16666666666666666,
|
|
"grad_norm": 2.0225460529327393,
|
|
"learning_rate": 0.00019777777777777778,
|
|
"loss": 0.5473,
|
|
"step": 25
|
|
},
|
|
{
|
|
"epoch": 0.2,
|
|
"grad_norm": 2.0418334007263184,
|
|
"learning_rate": 0.00019733333333333335,
|
|
"loss": 0.3789,
|
|
"step": 30
|
|
},
|
|
{
|
|
"epoch": 0.23333333333333334,
|
|
"grad_norm": 2.225229263305664,
|
|
"learning_rate": 0.0001968888888888889,
|
|
"loss": 0.3303,
|
|
"step": 35
|
|
},
|
|
{
|
|
"epoch": 0.26666666666666666,
|
|
"grad_norm": 1.113311767578125,
|
|
"learning_rate": 0.00019644444444444445,
|
|
"loss": 0.3209,
|
|
"step": 40
|
|
},
|
|
{
|
|
"epoch": 0.3,
|
|
"grad_norm": 2.4809906482696533,
|
|
"learning_rate": 0.000196,
|
|
"loss": 0.2159,
|
|
"step": 45
|
|
},
|
|
{
|
|
"epoch": 0.3333333333333333,
|
|
"grad_norm": 1.253735899925232,
|
|
"learning_rate": 0.00019555555555555556,
|
|
"loss": 0.257,
|
|
"step": 50
|
|
},
|
|
{
|
|
"epoch": 0.36666666666666664,
|
|
"grad_norm": 2.7438926696777344,
|
|
"learning_rate": 0.0001951111111111111,
|
|
"loss": 0.1601,
|
|
"step": 55
|
|
},
|
|
{
|
|
"epoch": 0.4,
|
|
"grad_norm": 5.574209213256836,
|
|
"learning_rate": 0.0001946666666666667,
|
|
"loss": 0.2386,
|
|
"step": 60
|
|
},
|
|
{
|
|
"epoch": 0.43333333333333335,
|
|
"grad_norm": 2.388439416885376,
|
|
"learning_rate": 0.00019422222222222223,
|
|
"loss": 0.1754,
|
|
"step": 65
|
|
},
|
|
{
|
|
"epoch": 0.4666666666666667,
|
|
"grad_norm": 3.4882454872131348,
|
|
"learning_rate": 0.0001937777777777778,
|
|
"loss": 0.4204,
|
|
"step": 70
|
|
},
|
|
{
|
|
"epoch": 0.5,
|
|
"grad_norm": 1.2829915285110474,
|
|
"learning_rate": 0.00019333333333333333,
|
|
"loss": 0.1754,
|
|
"step": 75
|
|
},
|
|
{
|
|
"epoch": 0.5333333333333333,
|
|
"grad_norm": 0.9272905588150024,
|
|
"learning_rate": 0.0001928888888888889,
|
|
"loss": 0.1304,
|
|
"step": 80
|
|
},
|
|
{
|
|
"epoch": 0.5666666666666667,
|
|
"grad_norm": 3.608957290649414,
|
|
"learning_rate": 0.00019244444444444444,
|
|
"loss": 0.1579,
|
|
"step": 85
|
|
},
|
|
{
|
|
"epoch": 0.6,
|
|
"grad_norm": 1.9866260290145874,
|
|
"learning_rate": 0.000192,
|
|
"loss": 0.1144,
|
|
"step": 90
|
|
},
|
|
{
|
|
"epoch": 0.6333333333333333,
|
|
"grad_norm": 1.3257598876953125,
|
|
"learning_rate": 0.00019155555555555554,
|
|
"loss": 0.2291,
|
|
"step": 95
|
|
},
|
|
{
|
|
"epoch": 0.6666666666666666,
|
|
"grad_norm": 3.8133373260498047,
|
|
"learning_rate": 0.00019111111111111114,
|
|
"loss": 0.1701,
|
|
"step": 100
|
|
},
|
|
{
|
|
"epoch": 0.6666666666666666,
|
|
"eval_accuracy": 0.7579721995094031,
|
|
"eval_f1": 0.7484690650364032,
|
|
"eval_loss": 0.8337175846099854,
|
|
"eval_precision": 0.7873382616180895,
|
|
"eval_recall": 0.7579721995094031,
|
|
"eval_runtime": 8.0802,
|
|
"eval_samples_per_second": 151.358,
|
|
"eval_steps_per_second": 18.935,
|
|
"step": 100
|
|
},
|
|
{
|
|
"epoch": 0.7,
|
|
"grad_norm": 1.350781798362732,
|
|
"learning_rate": 0.00019066666666666668,
|
|
"loss": 0.1092,
|
|
"step": 105
|
|
},
|
|
{
|
|
"epoch": 0.7333333333333333,
|
|
"grad_norm": 1.5120309591293335,
|
|
"learning_rate": 0.00019022222222222224,
|
|
"loss": 0.1941,
|
|
"step": 110
|
|
},
|
|
{
|
|
"epoch": 0.7666666666666667,
|
|
"grad_norm": 0.28930172324180603,
|
|
"learning_rate": 0.00018977777777777778,
|
|
"loss": 0.0788,
|
|
"step": 115
|
|
},
|
|
{
|
|
"epoch": 0.8,
|
|
"grad_norm": 3.108707904815674,
|
|
"learning_rate": 0.00018933333333333335,
|
|
"loss": 0.0822,
|
|
"step": 120
|
|
},
|
|
{
|
|
"epoch": 0.8333333333333334,
|
|
"grad_norm": 5.236642360687256,
|
|
"learning_rate": 0.00018888888888888888,
|
|
"loss": 0.1732,
|
|
"step": 125
|
|
},
|
|
{
|
|
"epoch": 0.8666666666666667,
|
|
"grad_norm": 4.865977764129639,
|
|
"learning_rate": 0.00018844444444444445,
|
|
"loss": 0.1448,
|
|
"step": 130
|
|
},
|
|
{
|
|
"epoch": 0.9,
|
|
"grad_norm": 7.0556840896606445,
|
|
"learning_rate": 0.000188,
|
|
"loss": 0.1402,
|
|
"step": 135
|
|
},
|
|
{
|
|
"epoch": 0.9333333333333333,
|
|
"grad_norm": 1.9132550954818726,
|
|
"learning_rate": 0.00018755555555555558,
|
|
"loss": 0.1446,
|
|
"step": 140
|
|
},
|
|
{
|
|
"epoch": 0.9666666666666667,
|
|
"grad_norm": 1.8586559295654297,
|
|
"learning_rate": 0.00018711111111111112,
|
|
"loss": 0.0818,
|
|
"step": 145
|
|
},
|
|
{
|
|
"epoch": 1.0,
|
|
"grad_norm": 0.19685111939907074,
|
|
"learning_rate": 0.0001866666666666667,
|
|
"loss": 0.1063,
|
|
"step": 150
|
|
},
|
|
{
|
|
"epoch": 1.0333333333333334,
|
|
"grad_norm": 0.10792700946331024,
|
|
"learning_rate": 0.00018622222222222223,
|
|
"loss": 0.0586,
|
|
"step": 155
|
|
},
|
|
{
|
|
"epoch": 1.0666666666666667,
|
|
"grad_norm": 0.09745492786169052,
|
|
"learning_rate": 0.0001857777777777778,
|
|
"loss": 0.0365,
|
|
"step": 160
|
|
},
|
|
{
|
|
"epoch": 1.1,
|
|
"grad_norm": 1.2755838632583618,
|
|
"learning_rate": 0.00018533333333333333,
|
|
"loss": 0.0636,
|
|
"step": 165
|
|
},
|
|
{
|
|
"epoch": 1.1333333333333333,
|
|
"grad_norm": 0.43598783016204834,
|
|
"learning_rate": 0.0001848888888888889,
|
|
"loss": 0.1358,
|
|
"step": 170
|
|
},
|
|
{
|
|
"epoch": 1.1666666666666667,
|
|
"grad_norm": 0.10472838580608368,
|
|
"learning_rate": 0.00018444444444444446,
|
|
"loss": 0.1086,
|
|
"step": 175
|
|
},
|
|
{
|
|
"epoch": 1.2,
|
|
"grad_norm": 0.0844336524605751,
|
|
"learning_rate": 0.00018400000000000003,
|
|
"loss": 0.0454,
|
|
"step": 180
|
|
},
|
|
{
|
|
"epoch": 1.2333333333333334,
|
|
"grad_norm": 1.2850956916809082,
|
|
"learning_rate": 0.00018355555555555557,
|
|
"loss": 0.1033,
|
|
"step": 185
|
|
},
|
|
{
|
|
"epoch": 1.2666666666666666,
|
|
"grad_norm": 0.7794726490974426,
|
|
"learning_rate": 0.00018311111111111113,
|
|
"loss": 0.0626,
|
|
"step": 190
|
|
},
|
|
{
|
|
"epoch": 1.3,
|
|
"grad_norm": 4.5628790855407715,
|
|
"learning_rate": 0.00018266666666666667,
|
|
"loss": 0.0451,
|
|
"step": 195
|
|
},
|
|
{
|
|
"epoch": 1.3333333333333333,
|
|
"grad_norm": 0.9755500555038452,
|
|
"learning_rate": 0.00018222222222222224,
|
|
"loss": 0.1078,
|
|
"step": 200
|
|
},
|
|
{
|
|
"epoch": 1.3333333333333333,
|
|
"eval_accuracy": 0.7391659852820932,
|
|
"eval_f1": 0.7327737798817064,
|
|
"eval_loss": 0.9743950963020325,
|
|
"eval_precision": 0.7682938022161846,
|
|
"eval_recall": 0.7391659852820932,
|
|
"eval_runtime": 8.0467,
|
|
"eval_samples_per_second": 151.988,
|
|
"eval_steps_per_second": 19.014,
|
|
"step": 200
|
|
},
|
|
{
|
|
"epoch": 1.3666666666666667,
|
|
"grad_norm": 1.0276744365692139,
|
|
"learning_rate": 0.00018177777777777778,
|
|
"loss": 0.0509,
|
|
"step": 205
|
|
},
|
|
{
|
|
"epoch": 1.4,
|
|
"grad_norm": 2.940969944000244,
|
|
"learning_rate": 0.00018133333333333334,
|
|
"loss": 0.0745,
|
|
"step": 210
|
|
},
|
|
{
|
|
"epoch": 1.4333333333333333,
|
|
"grad_norm": 0.10804764926433563,
|
|
"learning_rate": 0.0001808888888888889,
|
|
"loss": 0.0824,
|
|
"step": 215
|
|
},
|
|
{
|
|
"epoch": 1.4666666666666668,
|
|
"grad_norm": 0.47080010175704956,
|
|
"learning_rate": 0.00018044444444444447,
|
|
"loss": 0.0349,
|
|
"step": 220
|
|
},
|
|
{
|
|
"epoch": 1.5,
|
|
"grad_norm": 2.900927782058716,
|
|
"learning_rate": 0.00018,
|
|
"loss": 0.0244,
|
|
"step": 225
|
|
},
|
|
{
|
|
"epoch": 1.5333333333333332,
|
|
"grad_norm": 0.5523751378059387,
|
|
"learning_rate": 0.00017955555555555558,
|
|
"loss": 0.0247,
|
|
"step": 230
|
|
},
|
|
{
|
|
"epoch": 1.5666666666666667,
|
|
"grad_norm": 0.40423282980918884,
|
|
"learning_rate": 0.00017911111111111112,
|
|
"loss": 0.0392,
|
|
"step": 235
|
|
},
|
|
{
|
|
"epoch": 1.6,
|
|
"grad_norm": 0.05468877777457237,
|
|
"learning_rate": 0.00017866666666666668,
|
|
"loss": 0.0619,
|
|
"step": 240
|
|
},
|
|
{
|
|
"epoch": 1.6333333333333333,
|
|
"grad_norm": 0.06349865347146988,
|
|
"learning_rate": 0.00017822222222222222,
|
|
"loss": 0.064,
|
|
"step": 245
|
|
},
|
|
{
|
|
"epoch": 1.6666666666666665,
|
|
"grad_norm": 1.2960361242294312,
|
|
"learning_rate": 0.00017777777777777779,
|
|
"loss": 0.0292,
|
|
"step": 250
|
|
},
|
|
{
|
|
"epoch": 1.7,
|
|
"grad_norm": 3.7957241535186768,
|
|
"learning_rate": 0.00017733333333333335,
|
|
"loss": 0.1579,
|
|
"step": 255
|
|
},
|
|
{
|
|
"epoch": 1.7333333333333334,
|
|
"grad_norm": 0.053883522748947144,
|
|
"learning_rate": 0.0001768888888888889,
|
|
"loss": 0.0654,
|
|
"step": 260
|
|
},
|
|
{
|
|
"epoch": 1.7666666666666666,
|
|
"grad_norm": 3.3925063610076904,
|
|
"learning_rate": 0.00017644444444444446,
|
|
"loss": 0.105,
|
|
"step": 265
|
|
},
|
|
{
|
|
"epoch": 1.8,
|
|
"grad_norm": 0.1367824226617813,
|
|
"learning_rate": 0.00017600000000000002,
|
|
"loss": 0.1125,
|
|
"step": 270
|
|
},
|
|
{
|
|
"epoch": 1.8333333333333335,
|
|
"grad_norm": 0.051782961934804916,
|
|
"learning_rate": 0.00017555555555555556,
|
|
"loss": 0.0224,
|
|
"step": 275
|
|
},
|
|
{
|
|
"epoch": 1.8666666666666667,
|
|
"grad_norm": 0.18705271184444427,
|
|
"learning_rate": 0.00017511111111111113,
|
|
"loss": 0.0155,
|
|
"step": 280
|
|
},
|
|
{
|
|
"epoch": 1.9,
|
|
"grad_norm": 0.05866298824548721,
|
|
"learning_rate": 0.00017466666666666667,
|
|
"loss": 0.0468,
|
|
"step": 285
|
|
},
|
|
{
|
|
"epoch": 1.9333333333333333,
|
|
"grad_norm": 4.291833400726318,
|
|
"learning_rate": 0.00017422222222222223,
|
|
"loss": 0.0799,
|
|
"step": 290
|
|
},
|
|
{
|
|
"epoch": 1.9666666666666668,
|
|
"grad_norm": 0.04705623909831047,
|
|
"learning_rate": 0.0001737777777777778,
|
|
"loss": 0.0528,
|
|
"step": 295
|
|
},
|
|
{
|
|
"epoch": 2.0,
|
|
"grad_norm": 0.5031841993331909,
|
|
"learning_rate": 0.00017333333333333334,
|
|
"loss": 0.0149,
|
|
"step": 300
|
|
},
|
|
{
|
|
"epoch": 2.0,
|
|
"eval_accuracy": 0.7489779231398201,
|
|
"eval_f1": 0.7488214657804507,
|
|
"eval_loss": 1.1815036535263062,
|
|
"eval_precision": 0.8428956227713992,
|
|
"eval_recall": 0.7489779231398201,
|
|
"eval_runtime": 8.0745,
|
|
"eval_samples_per_second": 151.465,
|
|
"eval_steps_per_second": 18.949,
|
|
"step": 300
|
|
},
|
|
{
|
|
"epoch": 2.033333333333333,
|
|
"grad_norm": 0.11621838808059692,
|
|
"learning_rate": 0.0001728888888888889,
|
|
"loss": 0.0205,
|
|
"step": 305
|
|
},
|
|
{
|
|
"epoch": 2.066666666666667,
|
|
"grad_norm": 0.038852758705616,
|
|
"learning_rate": 0.00017244444444444444,
|
|
"loss": 0.0151,
|
|
"step": 310
|
|
},
|
|
{
|
|
"epoch": 2.1,
|
|
"grad_norm": 1.4587140083312988,
|
|
"learning_rate": 0.000172,
|
|
"loss": 0.018,
|
|
"step": 315
|
|
},
|
|
{
|
|
"epoch": 2.1333333333333333,
|
|
"grad_norm": 0.05141638591885567,
|
|
"learning_rate": 0.00017155555555555555,
|
|
"loss": 0.0299,
|
|
"step": 320
|
|
},
|
|
{
|
|
"epoch": 2.1666666666666665,
|
|
"grad_norm": 2.871277332305908,
|
|
"learning_rate": 0.0001711111111111111,
|
|
"loss": 0.0588,
|
|
"step": 325
|
|
},
|
|
{
|
|
"epoch": 2.2,
|
|
"grad_norm": 0.4195954203605652,
|
|
"learning_rate": 0.00017066666666666668,
|
|
"loss": 0.0193,
|
|
"step": 330
|
|
},
|
|
{
|
|
"epoch": 2.2333333333333334,
|
|
"grad_norm": 1.008933424949646,
|
|
"learning_rate": 0.00017022222222222224,
|
|
"loss": 0.1751,
|
|
"step": 335
|
|
},
|
|
{
|
|
"epoch": 2.2666666666666666,
|
|
"grad_norm": 0.24728117883205414,
|
|
"learning_rate": 0.00016977777777777778,
|
|
"loss": 0.0126,
|
|
"step": 340
|
|
},
|
|
{
|
|
"epoch": 2.3,
|
|
"grad_norm": 0.036686159670352936,
|
|
"learning_rate": 0.00016933333333333335,
|
|
"loss": 0.0178,
|
|
"step": 345
|
|
},
|
|
{
|
|
"epoch": 2.3333333333333335,
|
|
"grad_norm": 2.1365346908569336,
|
|
"learning_rate": 0.00016888888888888889,
|
|
"loss": 0.0178,
|
|
"step": 350
|
|
},
|
|
{
|
|
"epoch": 2.3666666666666667,
|
|
"grad_norm": 3.688971996307373,
|
|
"learning_rate": 0.00016844444444444445,
|
|
"loss": 0.0147,
|
|
"step": 355
|
|
},
|
|
{
|
|
"epoch": 2.4,
|
|
"grad_norm": 4.168365001678467,
|
|
"learning_rate": 0.000168,
|
|
"loss": 0.1274,
|
|
"step": 360
|
|
},
|
|
{
|
|
"epoch": 2.4333333333333336,
|
|
"grad_norm": 0.2860366106033325,
|
|
"learning_rate": 0.00016755555555555556,
|
|
"loss": 0.0573,
|
|
"step": 365
|
|
},
|
|
{
|
|
"epoch": 2.466666666666667,
|
|
"grad_norm": 0.5546060800552368,
|
|
"learning_rate": 0.00016711111111111112,
|
|
"loss": 0.0259,
|
|
"step": 370
|
|
},
|
|
{
|
|
"epoch": 2.5,
|
|
"grad_norm": 0.09405239671468735,
|
|
"learning_rate": 0.0001666666666666667,
|
|
"loss": 0.0085,
|
|
"step": 375
|
|
},
|
|
{
|
|
"epoch": 2.533333333333333,
|
|
"grad_norm": 0.2355845421552658,
|
|
"learning_rate": 0.00016622222222222223,
|
|
"loss": 0.0374,
|
|
"step": 380
|
|
},
|
|
{
|
|
"epoch": 2.5666666666666664,
|
|
"grad_norm": 0.029768219217658043,
|
|
"learning_rate": 0.0001657777777777778,
|
|
"loss": 0.0347,
|
|
"step": 385
|
|
},
|
|
{
|
|
"epoch": 2.6,
|
|
"grad_norm": 0.0620238296687603,
|
|
"learning_rate": 0.00016533333333333333,
|
|
"loss": 0.0181,
|
|
"step": 390
|
|
},
|
|
{
|
|
"epoch": 2.6333333333333333,
|
|
"grad_norm": 4.594007968902588,
|
|
"learning_rate": 0.0001648888888888889,
|
|
"loss": 0.0558,
|
|
"step": 395
|
|
},
|
|
{
|
|
"epoch": 2.6666666666666665,
|
|
"grad_norm": 2.793721914291382,
|
|
"learning_rate": 0.00016444444444444444,
|
|
"loss": 0.0518,
|
|
"step": 400
|
|
},
|
|
{
|
|
"epoch": 2.6666666666666665,
|
|
"eval_accuracy": 0.7522485690923958,
|
|
"eval_f1": 0.7474224112513258,
|
|
"eval_loss": 1.3244333267211914,
|
|
"eval_precision": 0.8024396269410755,
|
|
"eval_recall": 0.7522485690923958,
|
|
"eval_runtime": 7.9693,
|
|
"eval_samples_per_second": 153.463,
|
|
"eval_steps_per_second": 19.199,
|
|
"step": 400
|
|
},
|
|
{
|
|
"epoch": 2.7,
|
|
"grad_norm": 0.03986465558409691,
|
|
"learning_rate": 0.000164,
|
|
"loss": 0.1398,
|
|
"step": 405
|
|
},
|
|
{
|
|
"epoch": 2.7333333333333334,
|
|
"grad_norm": 0.15728485584259033,
|
|
"learning_rate": 0.00016355555555555557,
|
|
"loss": 0.0751,
|
|
"step": 410
|
|
},
|
|
{
|
|
"epoch": 2.7666666666666666,
|
|
"grad_norm": 0.39404401183128357,
|
|
"learning_rate": 0.00016311111111111113,
|
|
"loss": 0.0354,
|
|
"step": 415
|
|
},
|
|
{
|
|
"epoch": 2.8,
|
|
"grad_norm": 2.576037883758545,
|
|
"learning_rate": 0.00016266666666666667,
|
|
"loss": 0.0249,
|
|
"step": 420
|
|
},
|
|
{
|
|
"epoch": 2.8333333333333335,
|
|
"grad_norm": 0.07118038833141327,
|
|
"learning_rate": 0.00016222222222222224,
|
|
"loss": 0.0391,
|
|
"step": 425
|
|
},
|
|
{
|
|
"epoch": 2.8666666666666667,
|
|
"grad_norm": 0.024970607832074165,
|
|
"learning_rate": 0.00016177777777777778,
|
|
"loss": 0.0095,
|
|
"step": 430
|
|
},
|
|
{
|
|
"epoch": 2.9,
|
|
"grad_norm": 0.024694884195923805,
|
|
"learning_rate": 0.00016133333333333334,
|
|
"loss": 0.0066,
|
|
"step": 435
|
|
},
|
|
{
|
|
"epoch": 2.9333333333333336,
|
|
"grad_norm": 0.15425623953342438,
|
|
"learning_rate": 0.00016088888888888888,
|
|
"loss": 0.009,
|
|
"step": 440
|
|
},
|
|
{
|
|
"epoch": 2.966666666666667,
|
|
"grad_norm": 0.029563244432210922,
|
|
"learning_rate": 0.00016044444444444445,
|
|
"loss": 0.0566,
|
|
"step": 445
|
|
},
|
|
{
|
|
"epoch": 3.0,
|
|
"grad_norm": 0.23131504654884338,
|
|
"learning_rate": 0.00016,
|
|
"loss": 0.0542,
|
|
"step": 450
|
|
},
|
|
{
|
|
"epoch": 3.033333333333333,
|
|
"grad_norm": 2.400156021118164,
|
|
"learning_rate": 0.00015955555555555558,
|
|
"loss": 0.0798,
|
|
"step": 455
|
|
},
|
|
{
|
|
"epoch": 3.066666666666667,
|
|
"grad_norm": 4.822887420654297,
|
|
"learning_rate": 0.00015911111111111112,
|
|
"loss": 0.0218,
|
|
"step": 460
|
|
},
|
|
{
|
|
"epoch": 3.1,
|
|
"grad_norm": 3.4183952808380127,
|
|
"learning_rate": 0.00015866666666666668,
|
|
"loss": 0.0612,
|
|
"step": 465
|
|
},
|
|
{
|
|
"epoch": 3.1333333333333333,
|
|
"grad_norm": 0.3389229476451874,
|
|
"learning_rate": 0.00015822222222222222,
|
|
"loss": 0.0347,
|
|
"step": 470
|
|
},
|
|
{
|
|
"epoch": 3.1666666666666665,
|
|
"grad_norm": 0.023966236039996147,
|
|
"learning_rate": 0.0001577777777777778,
|
|
"loss": 0.0561,
|
|
"step": 475
|
|
},
|
|
{
|
|
"epoch": 3.2,
|
|
"grad_norm": 0.9375776648521423,
|
|
"learning_rate": 0.00015733333333333333,
|
|
"loss": 0.0423,
|
|
"step": 480
|
|
},
|
|
{
|
|
"epoch": 3.2333333333333334,
|
|
"grad_norm": 0.020762186497449875,
|
|
"learning_rate": 0.00015688888888888892,
|
|
"loss": 0.011,
|
|
"step": 485
|
|
},
|
|
{
|
|
"epoch": 3.2666666666666666,
|
|
"grad_norm": 0.5088415145874023,
|
|
"learning_rate": 0.00015644444444444446,
|
|
"loss": 0.0511,
|
|
"step": 490
|
|
},
|
|
{
|
|
"epoch": 3.3,
|
|
"grad_norm": 0.020860901102423668,
|
|
"learning_rate": 0.00015600000000000002,
|
|
"loss": 0.0473,
|
|
"step": 495
|
|
},
|
|
{
|
|
"epoch": 3.3333333333333335,
|
|
"grad_norm": 1.232237458229065,
|
|
"learning_rate": 0.00015555555555555556,
|
|
"loss": 0.008,
|
|
"step": 500
|
|
},
|
|
{
|
|
"epoch": 3.3333333333333335,
|
|
"eval_accuracy": 0.7726901062959934,
|
|
"eval_f1": 0.7752719475957702,
|
|
"eval_loss": 1.0330288410186768,
|
|
"eval_precision": 0.8048699274313992,
|
|
"eval_recall": 0.7726901062959934,
|
|
"eval_runtime": 8.0981,
|
|
"eval_samples_per_second": 151.023,
|
|
"eval_steps_per_second": 18.893,
|
|
"step": 500
|
|
},
|
|
{
|
|
"epoch": 3.3666666666666667,
|
|
"grad_norm": 1.1250537633895874,
|
|
"learning_rate": 0.00015511111111111113,
|
|
"loss": 0.0479,
|
|
"step": 505
|
|
},
|
|
{
|
|
"epoch": 3.4,
|
|
"grad_norm": 0.024086305871605873,
|
|
"learning_rate": 0.00015466666666666667,
|
|
"loss": 0.0168,
|
|
"step": 510
|
|
},
|
|
{
|
|
"epoch": 3.4333333333333336,
|
|
"grad_norm": 5.265656471252441,
|
|
"learning_rate": 0.00015422222222222223,
|
|
"loss": 0.0562,
|
|
"step": 515
|
|
},
|
|
{
|
|
"epoch": 3.466666666666667,
|
|
"grad_norm": 0.05131758749485016,
|
|
"learning_rate": 0.00015377777777777777,
|
|
"loss": 0.039,
|
|
"step": 520
|
|
},
|
|
{
|
|
"epoch": 3.5,
|
|
"grad_norm": 2.568662405014038,
|
|
"learning_rate": 0.00015333333333333334,
|
|
"loss": 0.0412,
|
|
"step": 525
|
|
},
|
|
{
|
|
"epoch": 3.533333333333333,
|
|
"grad_norm": 0.03762734308838844,
|
|
"learning_rate": 0.0001528888888888889,
|
|
"loss": 0.0444,
|
|
"step": 530
|
|
},
|
|
{
|
|
"epoch": 3.5666666666666664,
|
|
"grad_norm": 0.039238594472408295,
|
|
"learning_rate": 0.00015244444444444447,
|
|
"loss": 0.0225,
|
|
"step": 535
|
|
},
|
|
{
|
|
"epoch": 3.6,
|
|
"grad_norm": 0.4258608818054199,
|
|
"learning_rate": 0.000152,
|
|
"loss": 0.0874,
|
|
"step": 540
|
|
},
|
|
{
|
|
"epoch": 3.6333333333333333,
|
|
"grad_norm": 0.0195025485008955,
|
|
"learning_rate": 0.00015155555555555557,
|
|
"loss": 0.0224,
|
|
"step": 545
|
|
},
|
|
{
|
|
"epoch": 3.6666666666666665,
|
|
"grad_norm": 0.060789331793785095,
|
|
"learning_rate": 0.0001511111111111111,
|
|
"loss": 0.0064,
|
|
"step": 550
|
|
},
|
|
{
|
|
"epoch": 3.7,
|
|
"grad_norm": 0.019403919577598572,
|
|
"learning_rate": 0.00015066666666666668,
|
|
"loss": 0.036,
|
|
"step": 555
|
|
},
|
|
{
|
|
"epoch": 3.7333333333333334,
|
|
"grad_norm": 0.04229651391506195,
|
|
"learning_rate": 0.00015022222222222222,
|
|
"loss": 0.0206,
|
|
"step": 560
|
|
},
|
|
{
|
|
"epoch": 3.7666666666666666,
|
|
"grad_norm": 0.02448747307062149,
|
|
"learning_rate": 0.00014977777777777778,
|
|
"loss": 0.009,
|
|
"step": 565
|
|
},
|
|
{
|
|
"epoch": 3.8,
|
|
"grad_norm": 6.0167436599731445,
|
|
"learning_rate": 0.00014933333333333335,
|
|
"loss": 0.0685,
|
|
"step": 570
|
|
},
|
|
{
|
|
"epoch": 3.8333333333333335,
|
|
"grad_norm": 1.0557128190994263,
|
|
"learning_rate": 0.0001488888888888889,
|
|
"loss": 0.0085,
|
|
"step": 575
|
|
},
|
|
{
|
|
"epoch": 3.8666666666666667,
|
|
"grad_norm": 0.0732789933681488,
|
|
"learning_rate": 0.00014844444444444445,
|
|
"loss": 0.0081,
|
|
"step": 580
|
|
},
|
|
{
|
|
"epoch": 3.9,
|
|
"grad_norm": 0.02428213693201542,
|
|
"learning_rate": 0.000148,
|
|
"loss": 0.0476,
|
|
"step": 585
|
|
},
|
|
{
|
|
"epoch": 3.9333333333333336,
|
|
"grad_norm": 1.8671773672103882,
|
|
"learning_rate": 0.00014755555555555556,
|
|
"loss": 0.0377,
|
|
"step": 590
|
|
},
|
|
{
|
|
"epoch": 3.966666666666667,
|
|
"grad_norm": 0.01660696417093277,
|
|
"learning_rate": 0.00014711111111111112,
|
|
"loss": 0.0172,
|
|
"step": 595
|
|
},
|
|
{
|
|
"epoch": 4.0,
|
|
"grad_norm": 0.02806895226240158,
|
|
"learning_rate": 0.00014666666666666666,
|
|
"loss": 0.0058,
|
|
"step": 600
|
|
},
|
|
{
|
|
"epoch": 4.0,
|
|
"eval_accuracy": 0.7489779231398201,
|
|
"eval_f1": 0.7509576190512416,
|
|
"eval_loss": 1.2144834995269775,
|
|
"eval_precision": 0.7860989170728748,
|
|
"eval_recall": 0.7489779231398201,
|
|
"eval_runtime": 8.0722,
|
|
"eval_samples_per_second": 151.507,
|
|
"eval_steps_per_second": 18.954,
|
|
"step": 600
|
|
},
|
|
{
|
|
"epoch": 4.033333333333333,
|
|
"grad_norm": 0.026063833385705948,
|
|
"learning_rate": 0.00014622222222222223,
|
|
"loss": 0.0365,
|
|
"step": 605
|
|
},
|
|
{
|
|
"epoch": 4.066666666666666,
|
|
"grad_norm": 0.04259548708796501,
|
|
"learning_rate": 0.0001457777777777778,
|
|
"loss": 0.0485,
|
|
"step": 610
|
|
},
|
|
{
|
|
"epoch": 4.1,
|
|
"grad_norm": 0.031701039522886276,
|
|
"learning_rate": 0.00014533333333333333,
|
|
"loss": 0.0042,
|
|
"step": 615
|
|
},
|
|
{
|
|
"epoch": 4.133333333333334,
|
|
"grad_norm": 0.01588643342256546,
|
|
"learning_rate": 0.0001448888888888889,
|
|
"loss": 0.0486,
|
|
"step": 620
|
|
},
|
|
{
|
|
"epoch": 4.166666666666667,
|
|
"grad_norm": 0.05424388125538826,
|
|
"learning_rate": 0.00014444444444444444,
|
|
"loss": 0.0048,
|
|
"step": 625
|
|
},
|
|
{
|
|
"epoch": 4.2,
|
|
"grad_norm": 0.015488694421947002,
|
|
"learning_rate": 0.000144,
|
|
"loss": 0.0053,
|
|
"step": 630
|
|
},
|
|
{
|
|
"epoch": 4.233333333333333,
|
|
"grad_norm": 0.024877695366740227,
|
|
"learning_rate": 0.00014355555555555554,
|
|
"loss": 0.0052,
|
|
"step": 635
|
|
},
|
|
{
|
|
"epoch": 4.266666666666667,
|
|
"grad_norm": 5.684453010559082,
|
|
"learning_rate": 0.0001431111111111111,
|
|
"loss": 0.0516,
|
|
"step": 640
|
|
},
|
|
{
|
|
"epoch": 4.3,
|
|
"grad_norm": 0.04603782668709755,
|
|
"learning_rate": 0.00014266666666666667,
|
|
"loss": 0.0062,
|
|
"step": 645
|
|
},
|
|
{
|
|
"epoch": 4.333333333333333,
|
|
"grad_norm": 0.10939802974462509,
|
|
"learning_rate": 0.00014222222222222224,
|
|
"loss": 0.0061,
|
|
"step": 650
|
|
},
|
|
{
|
|
"epoch": 4.366666666666666,
|
|
"grad_norm": 0.012628131546080112,
|
|
"learning_rate": 0.00014177777777777778,
|
|
"loss": 0.0206,
|
|
"step": 655
|
|
},
|
|
{
|
|
"epoch": 4.4,
|
|
"grad_norm": 0.012693123891949654,
|
|
"learning_rate": 0.00014133333333333334,
|
|
"loss": 0.0039,
|
|
"step": 660
|
|
},
|
|
{
|
|
"epoch": 4.433333333333334,
|
|
"grad_norm": 0.012241496704518795,
|
|
"learning_rate": 0.00014088888888888888,
|
|
"loss": 0.0058,
|
|
"step": 665
|
|
},
|
|
{
|
|
"epoch": 4.466666666666667,
|
|
"grad_norm": 0.01215155329555273,
|
|
"learning_rate": 0.00014044444444444445,
|
|
"loss": 0.0042,
|
|
"step": 670
|
|
},
|
|
{
|
|
"epoch": 4.5,
|
|
"grad_norm": 0.013017192482948303,
|
|
"learning_rate": 0.00014,
|
|
"loss": 0.0037,
|
|
"step": 675
|
|
},
|
|
{
|
|
"epoch": 4.533333333333333,
|
|
"grad_norm": 0.02005757763981819,
|
|
"learning_rate": 0.00013955555555555558,
|
|
"loss": 0.0034,
|
|
"step": 680
|
|
},
|
|
{
|
|
"epoch": 4.566666666666666,
|
|
"grad_norm": 0.025016993284225464,
|
|
"learning_rate": 0.00013911111111111112,
|
|
"loss": 0.0048,
|
|
"step": 685
|
|
},
|
|
{
|
|
"epoch": 4.6,
|
|
"grad_norm": 0.10066857933998108,
|
|
"learning_rate": 0.00013866666666666669,
|
|
"loss": 0.0258,
|
|
"step": 690
|
|
},
|
|
{
|
|
"epoch": 4.633333333333333,
|
|
"grad_norm": 0.012521032243967056,
|
|
"learning_rate": 0.00013822222222222222,
|
|
"loss": 0.0113,
|
|
"step": 695
|
|
},
|
|
{
|
|
"epoch": 4.666666666666667,
|
|
"grad_norm": 0.011302398517727852,
|
|
"learning_rate": 0.0001377777777777778,
|
|
"loss": 0.0031,
|
|
"step": 700
|
|
},
|
|
{
|
|
"epoch": 4.666666666666667,
|
|
"eval_accuracy": 0.8013082583810303,
|
|
"eval_f1": 0.7994388428360608,
|
|
"eval_loss": 0.956646203994751,
|
|
"eval_precision": 0.799862795721146,
|
|
"eval_recall": 0.8013082583810303,
|
|
"eval_runtime": 8.0426,
|
|
"eval_samples_per_second": 152.066,
|
|
"eval_steps_per_second": 19.024,
|
|
"step": 700
|
|
},
|
|
{
|
|
"epoch": 4.7,
|
|
"grad_norm": 0.01438917312771082,
|
|
"learning_rate": 0.00013733333333333333,
|
|
"loss": 0.0039,
|
|
"step": 705
|
|
},
|
|
{
|
|
"epoch": 4.733333333333333,
|
|
"grad_norm": 0.01124793104827404,
|
|
"learning_rate": 0.0001368888888888889,
|
|
"loss": 0.0029,
|
|
"step": 710
|
|
},
|
|
{
|
|
"epoch": 4.766666666666667,
|
|
"grad_norm": 0.011751276440918446,
|
|
"learning_rate": 0.00013644444444444443,
|
|
"loss": 0.0029,
|
|
"step": 715
|
|
},
|
|
{
|
|
"epoch": 4.8,
|
|
"grad_norm": 0.010470777750015259,
|
|
"learning_rate": 0.00013600000000000003,
|
|
"loss": 0.0029,
|
|
"step": 720
|
|
},
|
|
{
|
|
"epoch": 4.833333333333333,
|
|
"grad_norm": 0.010036508552730083,
|
|
"learning_rate": 0.00013555555555555556,
|
|
"loss": 0.009,
|
|
"step": 725
|
|
},
|
|
{
|
|
"epoch": 4.866666666666667,
|
|
"grad_norm": 0.010177946649491787,
|
|
"learning_rate": 0.00013511111111111113,
|
|
"loss": 0.0034,
|
|
"step": 730
|
|
},
|
|
{
|
|
"epoch": 4.9,
|
|
"grad_norm": 6.227453708648682,
|
|
"learning_rate": 0.00013466666666666667,
|
|
"loss": 0.0245,
|
|
"step": 735
|
|
},
|
|
{
|
|
"epoch": 4.933333333333334,
|
|
"grad_norm": 0.19191434979438782,
|
|
"learning_rate": 0.00013422222222222224,
|
|
"loss": 0.0029,
|
|
"step": 740
|
|
},
|
|
{
|
|
"epoch": 4.966666666666667,
|
|
"grad_norm": 0.010127095505595207,
|
|
"learning_rate": 0.00013377777777777777,
|
|
"loss": 0.0028,
|
|
"step": 745
|
|
},
|
|
{
|
|
"epoch": 5.0,
|
|
"grad_norm": 0.010241836309432983,
|
|
"learning_rate": 0.00013333333333333334,
|
|
"loss": 0.0106,
|
|
"step": 750
|
|
},
|
|
{
|
|
"epoch": 5.033333333333333,
|
|
"grad_norm": 1.5645203590393066,
|
|
"learning_rate": 0.00013288888888888888,
|
|
"loss": 0.047,
|
|
"step": 755
|
|
},
|
|
{
|
|
"epoch": 5.066666666666666,
|
|
"grad_norm": 0.025078877806663513,
|
|
"learning_rate": 0.00013244444444444447,
|
|
"loss": 0.0331,
|
|
"step": 760
|
|
},
|
|
{
|
|
"epoch": 5.1,
|
|
"grad_norm": 0.010001703165471554,
|
|
"learning_rate": 0.000132,
|
|
"loss": 0.0028,
|
|
"step": 765
|
|
},
|
|
{
|
|
"epoch": 5.133333333333334,
|
|
"grad_norm": 0.010092056356370449,
|
|
"learning_rate": 0.00013155555555555558,
|
|
"loss": 0.0133,
|
|
"step": 770
|
|
},
|
|
{
|
|
"epoch": 5.166666666666667,
|
|
"grad_norm": 0.03289041668176651,
|
|
"learning_rate": 0.00013111111111111111,
|
|
"loss": 0.0104,
|
|
"step": 775
|
|
},
|
|
{
|
|
"epoch": 5.2,
|
|
"grad_norm": 0.0093392264097929,
|
|
"learning_rate": 0.00013066666666666668,
|
|
"loss": 0.0039,
|
|
"step": 780
|
|
},
|
|
{
|
|
"epoch": 5.233333333333333,
|
|
"grad_norm": 0.015082157216966152,
|
|
"learning_rate": 0.00013022222222222222,
|
|
"loss": 0.0041,
|
|
"step": 785
|
|
},
|
|
{
|
|
"epoch": 5.266666666666667,
|
|
"grad_norm": 0.00981505773961544,
|
|
"learning_rate": 0.00012977777777777779,
|
|
"loss": 0.0025,
|
|
"step": 790
|
|
},
|
|
{
|
|
"epoch": 5.3,
|
|
"grad_norm": 0.00892223697155714,
|
|
"learning_rate": 0.00012933333333333332,
|
|
"loss": 0.0052,
|
|
"step": 795
|
|
},
|
|
{
|
|
"epoch": 5.333333333333333,
|
|
"grad_norm": 0.01661490648984909,
|
|
"learning_rate": 0.00012888888888888892,
|
|
"loss": 0.0026,
|
|
"step": 800
|
|
},
|
|
{
|
|
"epoch": 5.333333333333333,
|
|
"eval_accuracy": 0.76778413736713,
|
|
"eval_f1": 0.7709681283019687,
|
|
"eval_loss": 1.3827018737792969,
|
|
"eval_precision": 0.8111550347305341,
|
|
"eval_recall": 0.76778413736713,
|
|
"eval_runtime": 7.9848,
|
|
"eval_samples_per_second": 153.167,
|
|
"eval_steps_per_second": 19.161,
|
|
"step": 800
|
|
},
|
|
{
|
|
"epoch": 5.366666666666666,
|
|
"grad_norm": 0.011080477386713028,
|
|
"learning_rate": 0.00012844444444444446,
|
|
"loss": 0.0051,
|
|
"step": 805
|
|
},
|
|
{
|
|
"epoch": 5.4,
|
|
"grad_norm": 0.00923879723995924,
|
|
"learning_rate": 0.00012800000000000002,
|
|
"loss": 0.0025,
|
|
"step": 810
|
|
},
|
|
{
|
|
"epoch": 5.433333333333334,
|
|
"grad_norm": 0.00953712034970522,
|
|
"learning_rate": 0.00012755555555555556,
|
|
"loss": 0.0025,
|
|
"step": 815
|
|
},
|
|
{
|
|
"epoch": 5.466666666666667,
|
|
"grad_norm": 0.008921535685658455,
|
|
"learning_rate": 0.00012711111111111113,
|
|
"loss": 0.0024,
|
|
"step": 820
|
|
},
|
|
{
|
|
"epoch": 5.5,
|
|
"grad_norm": 0.010565133765339851,
|
|
"learning_rate": 0.00012666666666666666,
|
|
"loss": 0.0232,
|
|
"step": 825
|
|
},
|
|
{
|
|
"epoch": 5.533333333333333,
|
|
"grad_norm": 0.008153503760695457,
|
|
"learning_rate": 0.00012622222222222223,
|
|
"loss": 0.0023,
|
|
"step": 830
|
|
},
|
|
{
|
|
"epoch": 5.566666666666666,
|
|
"grad_norm": 0.007844832725822926,
|
|
"learning_rate": 0.0001257777777777778,
|
|
"loss": 0.0026,
|
|
"step": 835
|
|
},
|
|
{
|
|
"epoch": 5.6,
|
|
"grad_norm": 0.00895876158028841,
|
|
"learning_rate": 0.00012533333333333334,
|
|
"loss": 0.0025,
|
|
"step": 840
|
|
},
|
|
{
|
|
"epoch": 5.633333333333333,
|
|
"grad_norm": 0.00897937547415495,
|
|
"learning_rate": 0.0001248888888888889,
|
|
"loss": 0.0021,
|
|
"step": 845
|
|
},
|
|
{
|
|
"epoch": 5.666666666666667,
|
|
"grad_norm": 0.007404510397464037,
|
|
"learning_rate": 0.00012444444444444444,
|
|
"loss": 0.0021,
|
|
"step": 850
|
|
},
|
|
{
|
|
"epoch": 5.7,
|
|
"grad_norm": 0.00898423045873642,
|
|
"learning_rate": 0.000124,
|
|
"loss": 0.002,
|
|
"step": 855
|
|
},
|
|
{
|
|
"epoch": 5.733333333333333,
|
|
"grad_norm": 0.01020713523030281,
|
|
"learning_rate": 0.00012355555555555557,
|
|
"loss": 0.002,
|
|
"step": 860
|
|
},
|
|
{
|
|
"epoch": 5.766666666666667,
|
|
"grad_norm": 0.00782752688974142,
|
|
"learning_rate": 0.0001231111111111111,
|
|
"loss": 0.0069,
|
|
"step": 865
|
|
},
|
|
{
|
|
"epoch": 5.8,
|
|
"grad_norm": 0.6458702683448792,
|
|
"learning_rate": 0.00012266666666666668,
|
|
"loss": 0.0039,
|
|
"step": 870
|
|
},
|
|
{
|
|
"epoch": 5.833333333333333,
|
|
"grad_norm": 0.011273964308202267,
|
|
"learning_rate": 0.00012222222222222224,
|
|
"loss": 0.002,
|
|
"step": 875
|
|
},
|
|
{
|
|
"epoch": 5.866666666666667,
|
|
"grad_norm": 0.007404809817671776,
|
|
"learning_rate": 0.0001217777777777778,
|
|
"loss": 0.002,
|
|
"step": 880
|
|
},
|
|
{
|
|
"epoch": 5.9,
|
|
"grad_norm": 0.007092670071870089,
|
|
"learning_rate": 0.00012133333333333335,
|
|
"loss": 0.0019,
|
|
"step": 885
|
|
},
|
|
{
|
|
"epoch": 5.933333333333334,
|
|
"grad_norm": 0.007730898912996054,
|
|
"learning_rate": 0.0001208888888888889,
|
|
"loss": 0.0075,
|
|
"step": 890
|
|
},
|
|
{
|
|
"epoch": 5.966666666666667,
|
|
"grad_norm": 2.4387011528015137,
|
|
"learning_rate": 0.00012044444444444445,
|
|
"loss": 0.0327,
|
|
"step": 895
|
|
},
|
|
{
|
|
"epoch": 6.0,
|
|
"grad_norm": 0.020047802478075027,
|
|
"learning_rate": 0.00012,
|
|
"loss": 0.0141,
|
|
"step": 900
|
|
},
|
|
{
|
|
"epoch": 6.0,
|
|
"eval_accuracy": 0.8078495502861816,
|
|
"eval_f1": 0.8029122603578402,
|
|
"eval_loss": 1.0396168231964111,
|
|
"eval_precision": 0.8238231475677222,
|
|
"eval_recall": 0.8078495502861816,
|
|
"eval_runtime": 8.1267,
|
|
"eval_samples_per_second": 150.492,
|
|
"eval_steps_per_second": 18.827,
|
|
"step": 900
|
|
},
|
|
{
|
|
"epoch": 6.033333333333333,
|
|
"grad_norm": 0.044601596891880035,
|
|
"learning_rate": 0.00011955555555555556,
|
|
"loss": 0.0021,
|
|
"step": 905
|
|
},
|
|
{
|
|
"epoch": 6.066666666666666,
|
|
"grad_norm": 0.11103753745555878,
|
|
"learning_rate": 0.00011911111111111111,
|
|
"loss": 0.0031,
|
|
"step": 910
|
|
},
|
|
{
|
|
"epoch": 6.1,
|
|
"grad_norm": 0.006595016457140446,
|
|
"learning_rate": 0.00011866666666666669,
|
|
"loss": 0.0021,
|
|
"step": 915
|
|
},
|
|
{
|
|
"epoch": 6.133333333333334,
|
|
"grad_norm": 0.007103534881025553,
|
|
"learning_rate": 0.00011822222222222224,
|
|
"loss": 0.0034,
|
|
"step": 920
|
|
},
|
|
{
|
|
"epoch": 6.166666666666667,
|
|
"grad_norm": 0.006740794517099857,
|
|
"learning_rate": 0.00011777777777777779,
|
|
"loss": 0.0019,
|
|
"step": 925
|
|
},
|
|
{
|
|
"epoch": 6.2,
|
|
"grad_norm": 0.009131698869168758,
|
|
"learning_rate": 0.00011733333333333334,
|
|
"loss": 0.0183,
|
|
"step": 930
|
|
},
|
|
{
|
|
"epoch": 6.233333333333333,
|
|
"grad_norm": 0.00669867591932416,
|
|
"learning_rate": 0.0001168888888888889,
|
|
"loss": 0.0018,
|
|
"step": 935
|
|
},
|
|
{
|
|
"epoch": 6.266666666666667,
|
|
"grad_norm": 0.006656870245933533,
|
|
"learning_rate": 0.00011644444444444445,
|
|
"loss": 0.0018,
|
|
"step": 940
|
|
},
|
|
{
|
|
"epoch": 6.3,
|
|
"grad_norm": 0.006519132759422064,
|
|
"learning_rate": 0.000116,
|
|
"loss": 0.0019,
|
|
"step": 945
|
|
},
|
|
{
|
|
"epoch": 6.333333333333333,
|
|
"grad_norm": 0.00664896797388792,
|
|
"learning_rate": 0.00011555555555555555,
|
|
"loss": 0.0084,
|
|
"step": 950
|
|
},
|
|
{
|
|
"epoch": 6.366666666666666,
|
|
"grad_norm": 0.006655840668827295,
|
|
"learning_rate": 0.00011511111111111112,
|
|
"loss": 0.0017,
|
|
"step": 955
|
|
},
|
|
{
|
|
"epoch": 6.4,
|
|
"grad_norm": 0.013779766857624054,
|
|
"learning_rate": 0.00011466666666666667,
|
|
"loss": 0.0071,
|
|
"step": 960
|
|
},
|
|
{
|
|
"epoch": 6.433333333333334,
|
|
"grad_norm": 6.435985088348389,
|
|
"learning_rate": 0.00011422222222222224,
|
|
"loss": 0.0232,
|
|
"step": 965
|
|
},
|
|
{
|
|
"epoch": 6.466666666666667,
|
|
"grad_norm": 0.006892562843859196,
|
|
"learning_rate": 0.00011377777777777779,
|
|
"loss": 0.0198,
|
|
"step": 970
|
|
},
|
|
{
|
|
"epoch": 6.5,
|
|
"grad_norm": 0.007991628721356392,
|
|
"learning_rate": 0.00011333333333333334,
|
|
"loss": 0.0031,
|
|
"step": 975
|
|
},
|
|
{
|
|
"epoch": 6.533333333333333,
|
|
"grad_norm": 0.006757908966392279,
|
|
"learning_rate": 0.0001128888888888889,
|
|
"loss": 0.0025,
|
|
"step": 980
|
|
},
|
|
{
|
|
"epoch": 6.566666666666666,
|
|
"grad_norm": 0.5364681482315063,
|
|
"learning_rate": 0.00011244444444444445,
|
|
"loss": 0.0029,
|
|
"step": 985
|
|
},
|
|
{
|
|
"epoch": 6.6,
|
|
"grad_norm": 0.0062891654670238495,
|
|
"learning_rate": 0.00011200000000000001,
|
|
"loss": 0.0068,
|
|
"step": 990
|
|
},
|
|
{
|
|
"epoch": 6.633333333333333,
|
|
"grad_norm": 0.014950372278690338,
|
|
"learning_rate": 0.00011155555555555556,
|
|
"loss": 0.0017,
|
|
"step": 995
|
|
},
|
|
{
|
|
"epoch": 6.666666666666667,
|
|
"grad_norm": 0.0984548032283783,
|
|
"learning_rate": 0.00011111111111111112,
|
|
"loss": 0.0194,
|
|
"step": 1000
|
|
},
|
|
{
|
|
"epoch": 6.666666666666667,
|
|
"eval_accuracy": 0.7514309076042518,
|
|
"eval_f1": 0.7525491112380756,
|
|
"eval_loss": 1.3622280359268188,
|
|
"eval_precision": 0.7611738952551184,
|
|
"eval_recall": 0.7514309076042518,
|
|
"eval_runtime": 8.0185,
|
|
"eval_samples_per_second": 152.522,
|
|
"eval_steps_per_second": 19.081,
|
|
"step": 1000
|
|
},
|
|
{
|
|
"epoch": 6.7,
|
|
"grad_norm": 0.007204628083854914,
|
|
"learning_rate": 0.00011066666666666667,
|
|
"loss": 0.0029,
|
|
"step": 1005
|
|
},
|
|
{
|
|
"epoch": 6.733333333333333,
|
|
"grad_norm": 0.006356542464345694,
|
|
"learning_rate": 0.00011022222222222222,
|
|
"loss": 0.0037,
|
|
"step": 1010
|
|
},
|
|
{
|
|
"epoch": 6.766666666666667,
|
|
"grad_norm": 0.006429588422179222,
|
|
"learning_rate": 0.00010977777777777777,
|
|
"loss": 0.0016,
|
|
"step": 1015
|
|
},
|
|
{
|
|
"epoch": 6.8,
|
|
"grad_norm": 0.23401646316051483,
|
|
"learning_rate": 0.00010933333333333333,
|
|
"loss": 0.002,
|
|
"step": 1020
|
|
},
|
|
{
|
|
"epoch": 6.833333333333333,
|
|
"grad_norm": 0.005860309116542339,
|
|
"learning_rate": 0.00010888888888888889,
|
|
"loss": 0.0496,
|
|
"step": 1025
|
|
},
|
|
{
|
|
"epoch": 6.866666666666667,
|
|
"grad_norm": 0.006665271241217852,
|
|
"learning_rate": 0.00010844444444444446,
|
|
"loss": 0.0016,
|
|
"step": 1030
|
|
},
|
|
{
|
|
"epoch": 6.9,
|
|
"grad_norm": 0.005819357465952635,
|
|
"learning_rate": 0.00010800000000000001,
|
|
"loss": 0.0196,
|
|
"step": 1035
|
|
},
|
|
{
|
|
"epoch": 6.933333333333334,
|
|
"grad_norm": 0.007729520555585623,
|
|
"learning_rate": 0.00010755555555555556,
|
|
"loss": 0.0346,
|
|
"step": 1040
|
|
},
|
|
{
|
|
"epoch": 6.966666666666667,
|
|
"grad_norm": 0.006207073573023081,
|
|
"learning_rate": 0.00010711111111111111,
|
|
"loss": 0.0015,
|
|
"step": 1045
|
|
},
|
|
{
|
|
"epoch": 7.0,
|
|
"grad_norm": 0.006861706264317036,
|
|
"learning_rate": 0.00010666666666666667,
|
|
"loss": 0.0016,
|
|
"step": 1050
|
|
},
|
|
{
|
|
"epoch": 7.033333333333333,
|
|
"grad_norm": 0.006125804502516985,
|
|
"learning_rate": 0.00010622222222222222,
|
|
"loss": 0.0016,
|
|
"step": 1055
|
|
},
|
|
{
|
|
"epoch": 7.066666666666666,
|
|
"grad_norm": 0.008473156951367855,
|
|
"learning_rate": 0.00010577777777777777,
|
|
"loss": 0.002,
|
|
"step": 1060
|
|
},
|
|
{
|
|
"epoch": 7.1,
|
|
"grad_norm": 0.005272307433187962,
|
|
"learning_rate": 0.00010533333333333332,
|
|
"loss": 0.0016,
|
|
"step": 1065
|
|
},
|
|
{
|
|
"epoch": 7.133333333333334,
|
|
"grad_norm": 1.0731658935546875,
|
|
"learning_rate": 0.0001048888888888889,
|
|
"loss": 0.0024,
|
|
"step": 1070
|
|
},
|
|
{
|
|
"epoch": 7.166666666666667,
|
|
"grad_norm": 0.005377425812184811,
|
|
"learning_rate": 0.00010444444444444445,
|
|
"loss": 0.0015,
|
|
"step": 1075
|
|
},
|
|
{
|
|
"epoch": 7.2,
|
|
"grad_norm": 0.005502632353454828,
|
|
"learning_rate": 0.00010400000000000001,
|
|
"loss": 0.0041,
|
|
"step": 1080
|
|
},
|
|
{
|
|
"epoch": 7.233333333333333,
|
|
"grad_norm": 0.0054145329631865025,
|
|
"learning_rate": 0.00010355555555555556,
|
|
"loss": 0.0014,
|
|
"step": 1085
|
|
},
|
|
{
|
|
"epoch": 7.266666666666667,
|
|
"grad_norm": 0.05418660491704941,
|
|
"learning_rate": 0.00010311111111111111,
|
|
"loss": 0.0015,
|
|
"step": 1090
|
|
},
|
|
{
|
|
"epoch": 7.3,
|
|
"grad_norm": 0.005776108242571354,
|
|
"learning_rate": 0.00010266666666666666,
|
|
"loss": 0.0014,
|
|
"step": 1095
|
|
},
|
|
{
|
|
"epoch": 7.333333333333333,
|
|
"grad_norm": 0.0375223234295845,
|
|
"learning_rate": 0.00010222222222222222,
|
|
"loss": 0.0015,
|
|
"step": 1100
|
|
},
|
|
{
|
|
"epoch": 7.333333333333333,
|
|
"eval_accuracy": 0.7784137367130008,
|
|
"eval_f1": 0.7783693433345219,
|
|
"eval_loss": 1.1867464780807495,
|
|
"eval_precision": 0.8292618155513876,
|
|
"eval_recall": 0.7784137367130008,
|
|
"eval_runtime": 8.1042,
|
|
"eval_samples_per_second": 150.91,
|
|
"eval_steps_per_second": 18.879,
|
|
"step": 1100
|
|
},
|
|
{
|
|
"epoch": 7.366666666666666,
|
|
"grad_norm": 0.09583403170108795,
|
|
"learning_rate": 0.00010177777777777777,
|
|
"loss": 0.0016,
|
|
"step": 1105
|
|
},
|
|
{
|
|
"epoch": 7.4,
|
|
"grad_norm": 0.005366990342736244,
|
|
"learning_rate": 0.00010133333333333335,
|
|
"loss": 0.0014,
|
|
"step": 1110
|
|
},
|
|
{
|
|
"epoch": 7.433333333333334,
|
|
"grad_norm": 0.005239698104560375,
|
|
"learning_rate": 0.0001008888888888889,
|
|
"loss": 0.0014,
|
|
"step": 1115
|
|
},
|
|
{
|
|
"epoch": 7.466666666666667,
|
|
"grad_norm": 0.004805159289389849,
|
|
"learning_rate": 0.00010044444444444445,
|
|
"loss": 0.0014,
|
|
"step": 1120
|
|
},
|
|
{
|
|
"epoch": 7.5,
|
|
"grad_norm": 0.006180048920214176,
|
|
"learning_rate": 0.0001,
|
|
"loss": 0.0014,
|
|
"step": 1125
|
|
},
|
|
{
|
|
"epoch": 7.533333333333333,
|
|
"grad_norm": 0.005758994724601507,
|
|
"learning_rate": 9.955555555555556e-05,
|
|
"loss": 0.0017,
|
|
"step": 1130
|
|
},
|
|
{
|
|
"epoch": 7.566666666666666,
|
|
"grad_norm": 0.004863688722252846,
|
|
"learning_rate": 9.911111111111112e-05,
|
|
"loss": 0.0013,
|
|
"step": 1135
|
|
},
|
|
{
|
|
"epoch": 7.6,
|
|
"grad_norm": 0.004885531961917877,
|
|
"learning_rate": 9.866666666666668e-05,
|
|
"loss": 0.0013,
|
|
"step": 1140
|
|
},
|
|
{
|
|
"epoch": 7.633333333333333,
|
|
"grad_norm": 0.005132632330060005,
|
|
"learning_rate": 9.822222222222223e-05,
|
|
"loss": 0.0014,
|
|
"step": 1145
|
|
},
|
|
{
|
|
"epoch": 7.666666666666667,
|
|
"grad_norm": 0.004661540500819683,
|
|
"learning_rate": 9.777777777777778e-05,
|
|
"loss": 0.0013,
|
|
"step": 1150
|
|
},
|
|
{
|
|
"epoch": 7.7,
|
|
"grad_norm": 0.004775734152644873,
|
|
"learning_rate": 9.733333333333335e-05,
|
|
"loss": 0.0015,
|
|
"step": 1155
|
|
},
|
|
{
|
|
"epoch": 7.733333333333333,
|
|
"grad_norm": 0.0045134336687624454,
|
|
"learning_rate": 9.68888888888889e-05,
|
|
"loss": 0.0013,
|
|
"step": 1160
|
|
},
|
|
{
|
|
"epoch": 7.766666666666667,
|
|
"grad_norm": 0.004917461890727282,
|
|
"learning_rate": 9.644444444444445e-05,
|
|
"loss": 0.0013,
|
|
"step": 1165
|
|
},
|
|
{
|
|
"epoch": 7.8,
|
|
"grad_norm": 0.006064909044653177,
|
|
"learning_rate": 9.6e-05,
|
|
"loss": 0.0013,
|
|
"step": 1170
|
|
},
|
|
{
|
|
"epoch": 7.833333333333333,
|
|
"grad_norm": 0.0048589748330414295,
|
|
"learning_rate": 9.555555555555557e-05,
|
|
"loss": 0.0027,
|
|
"step": 1175
|
|
},
|
|
{
|
|
"epoch": 7.866666666666667,
|
|
"grad_norm": 0.004705474246293306,
|
|
"learning_rate": 9.511111111111112e-05,
|
|
"loss": 0.0013,
|
|
"step": 1180
|
|
},
|
|
{
|
|
"epoch": 7.9,
|
|
"grad_norm": 0.004902615677565336,
|
|
"learning_rate": 9.466666666666667e-05,
|
|
"loss": 0.0012,
|
|
"step": 1185
|
|
},
|
|
{
|
|
"epoch": 7.933333333333334,
|
|
"grad_norm": 0.00468891067430377,
|
|
"learning_rate": 9.422222222222223e-05,
|
|
"loss": 0.0014,
|
|
"step": 1190
|
|
},
|
|
{
|
|
"epoch": 7.966666666666667,
|
|
"grad_norm": 0.00488701369613409,
|
|
"learning_rate": 9.377777777777779e-05,
|
|
"loss": 0.0012,
|
|
"step": 1195
|
|
},
|
|
{
|
|
"epoch": 8.0,
|
|
"grad_norm": 0.004579660948365927,
|
|
"learning_rate": 9.333333333333334e-05,
|
|
"loss": 0.0012,
|
|
"step": 1200
|
|
},
|
|
{
|
|
"epoch": 8.0,
|
|
"eval_accuracy": 0.7269010629599346,
|
|
"eval_f1": 0.7367478205176902,
|
|
"eval_loss": 1.5670582056045532,
|
|
"eval_precision": 0.7813366721662559,
|
|
"eval_recall": 0.7269010629599346,
|
|
"eval_runtime": 8.01,
|
|
"eval_samples_per_second": 152.683,
|
|
"eval_steps_per_second": 19.101,
|
|
"step": 1200
|
|
},
|
|
{
|
|
"epoch": 8.033333333333333,
|
|
"grad_norm": 0.0042763142846524715,
|
|
"learning_rate": 9.28888888888889e-05,
|
|
"loss": 0.0013,
|
|
"step": 1205
|
|
},
|
|
{
|
|
"epoch": 8.066666666666666,
|
|
"grad_norm": 0.004299456253647804,
|
|
"learning_rate": 9.244444444444445e-05,
|
|
"loss": 0.0054,
|
|
"step": 1210
|
|
},
|
|
{
|
|
"epoch": 8.1,
|
|
"grad_norm": 0.004658188205212355,
|
|
"learning_rate": 9.200000000000001e-05,
|
|
"loss": 0.0012,
|
|
"step": 1215
|
|
},
|
|
{
|
|
"epoch": 8.133333333333333,
|
|
"grad_norm": 0.004327103029936552,
|
|
"learning_rate": 9.155555555555557e-05,
|
|
"loss": 0.0012,
|
|
"step": 1220
|
|
},
|
|
{
|
|
"epoch": 8.166666666666666,
|
|
"grad_norm": 0.004521074239164591,
|
|
"learning_rate": 9.111111111111112e-05,
|
|
"loss": 0.0012,
|
|
"step": 1225
|
|
},
|
|
{
|
|
"epoch": 8.2,
|
|
"grad_norm": 0.004240807611495256,
|
|
"learning_rate": 9.066666666666667e-05,
|
|
"loss": 0.0012,
|
|
"step": 1230
|
|
},
|
|
{
|
|
"epoch": 8.233333333333333,
|
|
"grad_norm": 0.004335283301770687,
|
|
"learning_rate": 9.022222222222224e-05,
|
|
"loss": 0.0012,
|
|
"step": 1235
|
|
},
|
|
{
|
|
"epoch": 8.266666666666667,
|
|
"grad_norm": 0.004541521891951561,
|
|
"learning_rate": 8.977777777777779e-05,
|
|
"loss": 0.0012,
|
|
"step": 1240
|
|
},
|
|
{
|
|
"epoch": 8.3,
|
|
"grad_norm": 0.0042695775628089905,
|
|
"learning_rate": 8.933333333333334e-05,
|
|
"loss": 0.0011,
|
|
"step": 1245
|
|
},
|
|
{
|
|
"epoch": 8.333333333333334,
|
|
"grad_norm": 0.0041613201610744,
|
|
"learning_rate": 8.888888888888889e-05,
|
|
"loss": 0.0011,
|
|
"step": 1250
|
|
},
|
|
{
|
|
"epoch": 8.366666666666667,
|
|
"grad_norm": 0.0048063755966722965,
|
|
"learning_rate": 8.844444444444445e-05,
|
|
"loss": 0.0011,
|
|
"step": 1255
|
|
},
|
|
{
|
|
"epoch": 8.4,
|
|
"grad_norm": 0.05283346399664879,
|
|
"learning_rate": 8.800000000000001e-05,
|
|
"loss": 0.0012,
|
|
"step": 1260
|
|
},
|
|
{
|
|
"epoch": 8.433333333333334,
|
|
"grad_norm": 0.8775482773780823,
|
|
"learning_rate": 8.755555555555556e-05,
|
|
"loss": 0.0019,
|
|
"step": 1265
|
|
},
|
|
{
|
|
"epoch": 8.466666666666667,
|
|
"grad_norm": 0.004236359149217606,
|
|
"learning_rate": 8.711111111111112e-05,
|
|
"loss": 0.0011,
|
|
"step": 1270
|
|
},
|
|
{
|
|
"epoch": 8.5,
|
|
"grad_norm": 0.0041133686900138855,
|
|
"learning_rate": 8.666666666666667e-05,
|
|
"loss": 0.0011,
|
|
"step": 1275
|
|
},
|
|
{
|
|
"epoch": 8.533333333333333,
|
|
"grad_norm": 0.1046091690659523,
|
|
"learning_rate": 8.622222222222222e-05,
|
|
"loss": 0.0012,
|
|
"step": 1280
|
|
},
|
|
{
|
|
"epoch": 8.566666666666666,
|
|
"grad_norm": 0.004326115362346172,
|
|
"learning_rate": 8.577777777777777e-05,
|
|
"loss": 0.0011,
|
|
"step": 1285
|
|
},
|
|
{
|
|
"epoch": 8.6,
|
|
"grad_norm": 0.005007960367947817,
|
|
"learning_rate": 8.533333333333334e-05,
|
|
"loss": 0.0011,
|
|
"step": 1290
|
|
},
|
|
{
|
|
"epoch": 8.633333333333333,
|
|
"grad_norm": 0.004106387961655855,
|
|
"learning_rate": 8.488888888888889e-05,
|
|
"loss": 0.0011,
|
|
"step": 1295
|
|
},
|
|
{
|
|
"epoch": 8.666666666666666,
|
|
"grad_norm": 0.00404181145131588,
|
|
"learning_rate": 8.444444444444444e-05,
|
|
"loss": 0.0011,
|
|
"step": 1300
|
|
},
|
|
{
|
|
"epoch": 8.666666666666666,
|
|
"eval_accuracy": 0.7628781684382666,
|
|
"eval_f1": 0.7682371241139815,
|
|
"eval_loss": 1.2409813404083252,
|
|
"eval_precision": 0.7778891571289543,
|
|
"eval_recall": 0.7628781684382666,
|
|
"eval_runtime": 8.065,
|
|
"eval_samples_per_second": 151.642,
|
|
"eval_steps_per_second": 18.971,
|
|
"step": 1300
|
|
},
|
|
{
|
|
"epoch": 8.7,
|
|
"grad_norm": 0.026343800127506256,
|
|
"learning_rate": 8.4e-05,
|
|
"loss": 0.0011,
|
|
"step": 1305
|
|
},
|
|
{
|
|
"epoch": 8.733333333333333,
|
|
"grad_norm": 0.011525265872478485,
|
|
"learning_rate": 8.355555555555556e-05,
|
|
"loss": 0.0011,
|
|
"step": 1310
|
|
},
|
|
{
|
|
"epoch": 8.766666666666667,
|
|
"grad_norm": 0.015214606188237667,
|
|
"learning_rate": 8.311111111111111e-05,
|
|
"loss": 0.0011,
|
|
"step": 1315
|
|
},
|
|
{
|
|
"epoch": 8.8,
|
|
"grad_norm": 0.0041792914271354675,
|
|
"learning_rate": 8.266666666666667e-05,
|
|
"loss": 0.001,
|
|
"step": 1320
|
|
},
|
|
{
|
|
"epoch": 8.833333333333334,
|
|
"grad_norm": 0.006452229805290699,
|
|
"learning_rate": 8.222222222222222e-05,
|
|
"loss": 0.0011,
|
|
"step": 1325
|
|
},
|
|
{
|
|
"epoch": 8.866666666666667,
|
|
"grad_norm": 0.004086350556463003,
|
|
"learning_rate": 8.177777777777778e-05,
|
|
"loss": 0.001,
|
|
"step": 1330
|
|
},
|
|
{
|
|
"epoch": 8.9,
|
|
"grad_norm": 0.004385175183415413,
|
|
"learning_rate": 8.133333333333334e-05,
|
|
"loss": 0.0027,
|
|
"step": 1335
|
|
},
|
|
{
|
|
"epoch": 8.933333333333334,
|
|
"grad_norm": 0.0043513039126992226,
|
|
"learning_rate": 8.088888888888889e-05,
|
|
"loss": 0.001,
|
|
"step": 1340
|
|
},
|
|
{
|
|
"epoch": 8.966666666666667,
|
|
"grad_norm": 0.491512268781662,
|
|
"learning_rate": 8.044444444444444e-05,
|
|
"loss": 0.0017,
|
|
"step": 1345
|
|
},
|
|
{
|
|
"epoch": 9.0,
|
|
"grad_norm": 0.0038416411262005568,
|
|
"learning_rate": 8e-05,
|
|
"loss": 0.0011,
|
|
"step": 1350
|
|
},
|
|
{
|
|
"epoch": 9.033333333333333,
|
|
"grad_norm": 0.004175112582743168,
|
|
"learning_rate": 7.955555555555556e-05,
|
|
"loss": 0.001,
|
|
"step": 1355
|
|
},
|
|
{
|
|
"epoch": 9.066666666666666,
|
|
"grad_norm": 0.004233026877045631,
|
|
"learning_rate": 7.911111111111111e-05,
|
|
"loss": 0.0011,
|
|
"step": 1360
|
|
},
|
|
{
|
|
"epoch": 9.1,
|
|
"grad_norm": 0.0038614242803305387,
|
|
"learning_rate": 7.866666666666666e-05,
|
|
"loss": 0.001,
|
|
"step": 1365
|
|
},
|
|
{
|
|
"epoch": 9.133333333333333,
|
|
"grad_norm": 0.004082817118614912,
|
|
"learning_rate": 7.822222222222223e-05,
|
|
"loss": 0.001,
|
|
"step": 1370
|
|
},
|
|
{
|
|
"epoch": 9.166666666666666,
|
|
"grad_norm": 0.00361822871491313,
|
|
"learning_rate": 7.777777777777778e-05,
|
|
"loss": 0.001,
|
|
"step": 1375
|
|
},
|
|
{
|
|
"epoch": 9.2,
|
|
"grad_norm": 0.0038386257365345955,
|
|
"learning_rate": 7.733333333333333e-05,
|
|
"loss": 0.001,
|
|
"step": 1380
|
|
},
|
|
{
|
|
"epoch": 9.233333333333333,
|
|
"grad_norm": 0.003783920081332326,
|
|
"learning_rate": 7.688888888888889e-05,
|
|
"loss": 0.001,
|
|
"step": 1385
|
|
},
|
|
{
|
|
"epoch": 9.266666666666667,
|
|
"grad_norm": 0.003610414918512106,
|
|
"learning_rate": 7.644444444444445e-05,
|
|
"loss": 0.001,
|
|
"step": 1390
|
|
},
|
|
{
|
|
"epoch": 9.3,
|
|
"grad_norm": 0.003966945223510265,
|
|
"learning_rate": 7.6e-05,
|
|
"loss": 0.001,
|
|
"step": 1395
|
|
},
|
|
{
|
|
"epoch": 9.333333333333334,
|
|
"grad_norm": 0.003580609569326043,
|
|
"learning_rate": 7.555555555555556e-05,
|
|
"loss": 0.001,
|
|
"step": 1400
|
|
},
|
|
{
|
|
"epoch": 9.333333333333334,
|
|
"eval_accuracy": 0.7898609975470156,
|
|
"eval_f1": 0.7849034588736967,
|
|
"eval_loss": 1.2369370460510254,
|
|
"eval_precision": 0.8155249070556868,
|
|
"eval_recall": 0.7898609975470156,
|
|
"eval_runtime": 8.0432,
|
|
"eval_samples_per_second": 152.055,
|
|
"eval_steps_per_second": 19.022,
|
|
"step": 1400
|
|
},
|
|
{
|
|
"epoch": 9.366666666666667,
|
|
"grad_norm": 0.0036626129876822233,
|
|
"learning_rate": 7.511111111111111e-05,
|
|
"loss": 0.001,
|
|
"step": 1405
|
|
},
|
|
{
|
|
"epoch": 9.4,
|
|
"grad_norm": 0.003753950819373131,
|
|
"learning_rate": 7.466666666666667e-05,
|
|
"loss": 0.001,
|
|
"step": 1410
|
|
},
|
|
{
|
|
"epoch": 9.433333333333334,
|
|
"grad_norm": 0.003805603366345167,
|
|
"learning_rate": 7.422222222222223e-05,
|
|
"loss": 0.0009,
|
|
"step": 1415
|
|
},
|
|
{
|
|
"epoch": 9.466666666666667,
|
|
"grad_norm": 0.003797221230342984,
|
|
"learning_rate": 7.377777777777778e-05,
|
|
"loss": 0.001,
|
|
"step": 1420
|
|
},
|
|
{
|
|
"epoch": 9.5,
|
|
"grad_norm": 0.0033937578555196524,
|
|
"learning_rate": 7.333333333333333e-05,
|
|
"loss": 0.0009,
|
|
"step": 1425
|
|
},
|
|
{
|
|
"epoch": 9.533333333333333,
|
|
"grad_norm": 0.003759965067729354,
|
|
"learning_rate": 7.28888888888889e-05,
|
|
"loss": 0.0009,
|
|
"step": 1430
|
|
},
|
|
{
|
|
"epoch": 9.566666666666666,
|
|
"grad_norm": 0.0037313266657292843,
|
|
"learning_rate": 7.244444444444445e-05,
|
|
"loss": 0.0009,
|
|
"step": 1435
|
|
},
|
|
{
|
|
"epoch": 9.6,
|
|
"grad_norm": 0.0037657360080629587,
|
|
"learning_rate": 7.2e-05,
|
|
"loss": 0.0009,
|
|
"step": 1440
|
|
},
|
|
{
|
|
"epoch": 9.633333333333333,
|
|
"grad_norm": 0.003540108446031809,
|
|
"learning_rate": 7.155555555555555e-05,
|
|
"loss": 0.0009,
|
|
"step": 1445
|
|
},
|
|
{
|
|
"epoch": 9.666666666666666,
|
|
"grad_norm": 0.0036078442353755236,
|
|
"learning_rate": 7.111111111111112e-05,
|
|
"loss": 0.0009,
|
|
"step": 1450
|
|
},
|
|
{
|
|
"epoch": 9.7,
|
|
"grad_norm": 0.003468211041763425,
|
|
"learning_rate": 7.066666666666667e-05,
|
|
"loss": 0.0009,
|
|
"step": 1455
|
|
},
|
|
{
|
|
"epoch": 9.733333333333333,
|
|
"grad_norm": 0.003734141355380416,
|
|
"learning_rate": 7.022222222222222e-05,
|
|
"loss": 0.0009,
|
|
"step": 1460
|
|
},
|
|
{
|
|
"epoch": 9.766666666666667,
|
|
"grad_norm": 0.003420499386265874,
|
|
"learning_rate": 6.977777777777779e-05,
|
|
"loss": 0.0009,
|
|
"step": 1465
|
|
},
|
|
{
|
|
"epoch": 9.8,
|
|
"grad_norm": 0.004091064445674419,
|
|
"learning_rate": 6.933333333333334e-05,
|
|
"loss": 0.0009,
|
|
"step": 1470
|
|
},
|
|
{
|
|
"epoch": 9.833333333333334,
|
|
"grad_norm": 0.00345119321718812,
|
|
"learning_rate": 6.88888888888889e-05,
|
|
"loss": 0.0009,
|
|
"step": 1475
|
|
},
|
|
{
|
|
"epoch": 9.866666666666667,
|
|
"grad_norm": 0.003816870739683509,
|
|
"learning_rate": 6.844444444444445e-05,
|
|
"loss": 0.0009,
|
|
"step": 1480
|
|
},
|
|
{
|
|
"epoch": 9.9,
|
|
"grad_norm": 0.0036080998834222555,
|
|
"learning_rate": 6.800000000000001e-05,
|
|
"loss": 0.0009,
|
|
"step": 1485
|
|
},
|
|
{
|
|
"epoch": 9.933333333333334,
|
|
"grad_norm": 0.0033732319716364145,
|
|
"learning_rate": 6.755555555555557e-05,
|
|
"loss": 0.0009,
|
|
"step": 1490
|
|
},
|
|
{
|
|
"epoch": 9.966666666666667,
|
|
"grad_norm": 0.003405619878321886,
|
|
"learning_rate": 6.711111111111112e-05,
|
|
"loss": 0.0009,
|
|
"step": 1495
|
|
},
|
|
{
|
|
"epoch": 10.0,
|
|
"grad_norm": 0.0033526448532938957,
|
|
"learning_rate": 6.666666666666667e-05,
|
|
"loss": 0.0009,
|
|
"step": 1500
|
|
},
|
|
{
|
|
"epoch": 10.0,
|
|
"eval_accuracy": 0.7914963205233033,
|
|
"eval_f1": 0.7877828640902661,
|
|
"eval_loss": 1.2282191514968872,
|
|
"eval_precision": 0.8187478318189477,
|
|
"eval_recall": 0.7914963205233033,
|
|
"eval_runtime": 8.1196,
|
|
"eval_samples_per_second": 150.622,
|
|
"eval_steps_per_second": 18.843,
|
|
"step": 1500
|
|
},
|
|
{
|
|
"epoch": 10.033333333333333,
|
|
"grad_norm": 0.0033086612820625305,
|
|
"learning_rate": 6.622222222222224e-05,
|
|
"loss": 0.0009,
|
|
"step": 1505
|
|
},
|
|
{
|
|
"epoch": 10.066666666666666,
|
|
"grad_norm": 0.0032022518571466208,
|
|
"learning_rate": 6.577777777777779e-05,
|
|
"loss": 0.0009,
|
|
"step": 1510
|
|
},
|
|
{
|
|
"epoch": 10.1,
|
|
"grad_norm": 0.0032464470714330673,
|
|
"learning_rate": 6.533333333333334e-05,
|
|
"loss": 0.0008,
|
|
"step": 1515
|
|
},
|
|
{
|
|
"epoch": 10.133333333333333,
|
|
"grad_norm": 0.003238873090595007,
|
|
"learning_rate": 6.488888888888889e-05,
|
|
"loss": 0.0009,
|
|
"step": 1520
|
|
},
|
|
{
|
|
"epoch": 10.166666666666666,
|
|
"grad_norm": 0.0037290318869054317,
|
|
"learning_rate": 6.444444444444446e-05,
|
|
"loss": 0.0009,
|
|
"step": 1525
|
|
},
|
|
{
|
|
"epoch": 10.2,
|
|
"grad_norm": 0.0032812750432640314,
|
|
"learning_rate": 6.400000000000001e-05,
|
|
"loss": 0.0009,
|
|
"step": 1530
|
|
},
|
|
{
|
|
"epoch": 10.233333333333333,
|
|
"grad_norm": 0.003963660914450884,
|
|
"learning_rate": 6.355555555555556e-05,
|
|
"loss": 0.0009,
|
|
"step": 1535
|
|
},
|
|
{
|
|
"epoch": 10.266666666666667,
|
|
"grad_norm": 0.0032153972424566746,
|
|
"learning_rate": 6.311111111111112e-05,
|
|
"loss": 0.0008,
|
|
"step": 1540
|
|
},
|
|
{
|
|
"epoch": 10.3,
|
|
"grad_norm": 0.003603477030992508,
|
|
"learning_rate": 6.266666666666667e-05,
|
|
"loss": 0.0008,
|
|
"step": 1545
|
|
},
|
|
{
|
|
"epoch": 10.333333333333334,
|
|
"grad_norm": 0.003291453467682004,
|
|
"learning_rate": 6.222222222222222e-05,
|
|
"loss": 0.0008,
|
|
"step": 1550
|
|
},
|
|
{
|
|
"epoch": 10.366666666666667,
|
|
"grad_norm": 0.003101620590314269,
|
|
"learning_rate": 6.177777777777779e-05,
|
|
"loss": 0.0008,
|
|
"step": 1555
|
|
},
|
|
{
|
|
"epoch": 10.4,
|
|
"grad_norm": 0.0031005737837404013,
|
|
"learning_rate": 6.133333333333334e-05,
|
|
"loss": 0.0008,
|
|
"step": 1560
|
|
},
|
|
{
|
|
"epoch": 10.433333333333334,
|
|
"grad_norm": 0.003210110357031226,
|
|
"learning_rate": 6.08888888888889e-05,
|
|
"loss": 0.0008,
|
|
"step": 1565
|
|
},
|
|
{
|
|
"epoch": 10.466666666666667,
|
|
"grad_norm": 0.0030739775393158197,
|
|
"learning_rate": 6.044444444444445e-05,
|
|
"loss": 0.0008,
|
|
"step": 1570
|
|
},
|
|
{
|
|
"epoch": 10.5,
|
|
"grad_norm": 0.003034367226064205,
|
|
"learning_rate": 6e-05,
|
|
"loss": 0.0008,
|
|
"step": 1575
|
|
},
|
|
{
|
|
"epoch": 10.533333333333333,
|
|
"grad_norm": 0.0030148308724164963,
|
|
"learning_rate": 5.9555555555555554e-05,
|
|
"loss": 0.0008,
|
|
"step": 1580
|
|
},
|
|
{
|
|
"epoch": 10.566666666666666,
|
|
"grad_norm": 0.0031081903725862503,
|
|
"learning_rate": 5.911111111111112e-05,
|
|
"loss": 0.0008,
|
|
"step": 1585
|
|
},
|
|
{
|
|
"epoch": 10.6,
|
|
"grad_norm": 0.0029817845206707716,
|
|
"learning_rate": 5.866666666666667e-05,
|
|
"loss": 0.0008,
|
|
"step": 1590
|
|
},
|
|
{
|
|
"epoch": 10.633333333333333,
|
|
"grad_norm": 0.0031830472871661186,
|
|
"learning_rate": 5.8222222222222224e-05,
|
|
"loss": 0.0008,
|
|
"step": 1595
|
|
},
|
|
{
|
|
"epoch": 10.666666666666666,
|
|
"grad_norm": 0.003154613310471177,
|
|
"learning_rate": 5.7777777777777776e-05,
|
|
"loss": 0.0008,
|
|
"step": 1600
|
|
},
|
|
{
|
|
"epoch": 10.666666666666666,
|
|
"eval_accuracy": 0.794766966475879,
|
|
"eval_f1": 0.7916659266311591,
|
|
"eval_loss": 1.2242687940597534,
|
|
"eval_precision": 0.8223080517891794,
|
|
"eval_recall": 0.794766966475879,
|
|
"eval_runtime": 8.147,
|
|
"eval_samples_per_second": 150.116,
|
|
"eval_steps_per_second": 18.78,
|
|
"step": 1600
|
|
},
|
|
{
|
|
"epoch": 10.7,
|
|
"grad_norm": 0.0031590769067406654,
|
|
"learning_rate": 5.7333333333333336e-05,
|
|
"loss": 0.0008,
|
|
"step": 1605
|
|
},
|
|
{
|
|
"epoch": 10.733333333333333,
|
|
"grad_norm": 0.0031241977121680975,
|
|
"learning_rate": 5.6888888888888895e-05,
|
|
"loss": 0.0008,
|
|
"step": 1610
|
|
},
|
|
{
|
|
"epoch": 10.766666666666667,
|
|
"grad_norm": 0.0031253425404429436,
|
|
"learning_rate": 5.644444444444445e-05,
|
|
"loss": 0.0008,
|
|
"step": 1615
|
|
},
|
|
{
|
|
"epoch": 10.8,
|
|
"grad_norm": 0.0032088214065879583,
|
|
"learning_rate": 5.6000000000000006e-05,
|
|
"loss": 0.0008,
|
|
"step": 1620
|
|
},
|
|
{
|
|
"epoch": 10.833333333333334,
|
|
"grad_norm": 0.0032701180316507816,
|
|
"learning_rate": 5.555555555555556e-05,
|
|
"loss": 0.0008,
|
|
"step": 1625
|
|
},
|
|
{
|
|
"epoch": 10.866666666666667,
|
|
"grad_norm": 0.00307852472178638,
|
|
"learning_rate": 5.511111111111111e-05,
|
|
"loss": 0.0008,
|
|
"step": 1630
|
|
},
|
|
{
|
|
"epoch": 10.9,
|
|
"grad_norm": 0.002997946459800005,
|
|
"learning_rate": 5.466666666666666e-05,
|
|
"loss": 0.0008,
|
|
"step": 1635
|
|
},
|
|
{
|
|
"epoch": 10.933333333333334,
|
|
"grad_norm": 0.0029654994141310453,
|
|
"learning_rate": 5.422222222222223e-05,
|
|
"loss": 0.0008,
|
|
"step": 1640
|
|
},
|
|
{
|
|
"epoch": 10.966666666666667,
|
|
"grad_norm": 0.0029793628491461277,
|
|
"learning_rate": 5.377777777777778e-05,
|
|
"loss": 0.0008,
|
|
"step": 1645
|
|
},
|
|
{
|
|
"epoch": 11.0,
|
|
"grad_norm": 0.0033480923157185316,
|
|
"learning_rate": 5.333333333333333e-05,
|
|
"loss": 0.0008,
|
|
"step": 1650
|
|
},
|
|
{
|
|
"epoch": 11.033333333333333,
|
|
"grad_norm": 0.003126076888293028,
|
|
"learning_rate": 5.2888888888888885e-05,
|
|
"loss": 0.0008,
|
|
"step": 1655
|
|
},
|
|
{
|
|
"epoch": 11.066666666666666,
|
|
"grad_norm": 0.0030226942617446184,
|
|
"learning_rate": 5.244444444444445e-05,
|
|
"loss": 0.0008,
|
|
"step": 1660
|
|
},
|
|
{
|
|
"epoch": 11.1,
|
|
"grad_norm": 0.002972518792375922,
|
|
"learning_rate": 5.2000000000000004e-05,
|
|
"loss": 0.0008,
|
|
"step": 1665
|
|
},
|
|
{
|
|
"epoch": 11.133333333333333,
|
|
"grad_norm": 0.0028504738584160805,
|
|
"learning_rate": 5.1555555555555556e-05,
|
|
"loss": 0.0008,
|
|
"step": 1670
|
|
},
|
|
{
|
|
"epoch": 11.166666666666666,
|
|
"grad_norm": 0.00289005390368402,
|
|
"learning_rate": 5.111111111111111e-05,
|
|
"loss": 0.0008,
|
|
"step": 1675
|
|
},
|
|
{
|
|
"epoch": 11.2,
|
|
"grad_norm": 0.0028543269727379084,
|
|
"learning_rate": 5.0666666666666674e-05,
|
|
"loss": 0.0008,
|
|
"step": 1680
|
|
},
|
|
{
|
|
"epoch": 11.233333333333333,
|
|
"grad_norm": 0.0028375377878546715,
|
|
"learning_rate": 5.0222222222222226e-05,
|
|
"loss": 0.0008,
|
|
"step": 1685
|
|
},
|
|
{
|
|
"epoch": 11.266666666666667,
|
|
"grad_norm": 0.0029240099247545004,
|
|
"learning_rate": 4.977777777777778e-05,
|
|
"loss": 0.0008,
|
|
"step": 1690
|
|
},
|
|
{
|
|
"epoch": 11.3,
|
|
"grad_norm": 0.003065437078475952,
|
|
"learning_rate": 4.933333333333334e-05,
|
|
"loss": 0.0008,
|
|
"step": 1695
|
|
},
|
|
{
|
|
"epoch": 11.333333333333334,
|
|
"grad_norm": 0.0028110018465667963,
|
|
"learning_rate": 4.888888888888889e-05,
|
|
"loss": 0.0008,
|
|
"step": 1700
|
|
},
|
|
{
|
|
"epoch": 11.333333333333334,
|
|
"eval_accuracy": 0.7988552739165985,
|
|
"eval_f1": 0.7957015159257519,
|
|
"eval_loss": 1.2258144617080688,
|
|
"eval_precision": 0.8256453589306856,
|
|
"eval_recall": 0.7988552739165985,
|
|
"eval_runtime": 8.0439,
|
|
"eval_samples_per_second": 152.041,
|
|
"eval_steps_per_second": 19.021,
|
|
"step": 1700
|
|
},
|
|
{
|
|
"epoch": 11.366666666666667,
|
|
"grad_norm": 0.0029805891681462526,
|
|
"learning_rate": 4.844444444444445e-05,
|
|
"loss": 0.0007,
|
|
"step": 1705
|
|
},
|
|
{
|
|
"epoch": 11.4,
|
|
"grad_norm": 0.002901173895224929,
|
|
"learning_rate": 4.8e-05,
|
|
"loss": 0.0007,
|
|
"step": 1710
|
|
},
|
|
{
|
|
"epoch": 11.433333333333334,
|
|
"grad_norm": 0.002831946359947324,
|
|
"learning_rate": 4.755555555555556e-05,
|
|
"loss": 0.0007,
|
|
"step": 1715
|
|
},
|
|
{
|
|
"epoch": 11.466666666666667,
|
|
"grad_norm": 0.0029062286484986544,
|
|
"learning_rate": 4.711111111111111e-05,
|
|
"loss": 0.0007,
|
|
"step": 1720
|
|
},
|
|
{
|
|
"epoch": 11.5,
|
|
"grad_norm": 0.002882064785808325,
|
|
"learning_rate": 4.666666666666667e-05,
|
|
"loss": 0.0007,
|
|
"step": 1725
|
|
},
|
|
{
|
|
"epoch": 11.533333333333333,
|
|
"grad_norm": 0.0029377054888755083,
|
|
"learning_rate": 4.6222222222222224e-05,
|
|
"loss": 0.0007,
|
|
"step": 1730
|
|
},
|
|
{
|
|
"epoch": 11.566666666666666,
|
|
"grad_norm": 0.002857837127521634,
|
|
"learning_rate": 4.577777777777778e-05,
|
|
"loss": 0.0007,
|
|
"step": 1735
|
|
},
|
|
{
|
|
"epoch": 11.6,
|
|
"grad_norm": 0.002953388961032033,
|
|
"learning_rate": 4.5333333333333335e-05,
|
|
"loss": 0.0007,
|
|
"step": 1740
|
|
},
|
|
{
|
|
"epoch": 11.633333333333333,
|
|
"grad_norm": 0.002817234257236123,
|
|
"learning_rate": 4.4888888888888894e-05,
|
|
"loss": 0.0007,
|
|
"step": 1745
|
|
},
|
|
{
|
|
"epoch": 11.666666666666666,
|
|
"grad_norm": 0.002869735239073634,
|
|
"learning_rate": 4.4444444444444447e-05,
|
|
"loss": 0.0007,
|
|
"step": 1750
|
|
},
|
|
{
|
|
"epoch": 11.7,
|
|
"grad_norm": 0.0029353348072618246,
|
|
"learning_rate": 4.4000000000000006e-05,
|
|
"loss": 0.0007,
|
|
"step": 1755
|
|
},
|
|
{
|
|
"epoch": 11.733333333333333,
|
|
"grad_norm": 0.002766051795333624,
|
|
"learning_rate": 4.355555555555556e-05,
|
|
"loss": 0.0007,
|
|
"step": 1760
|
|
},
|
|
{
|
|
"epoch": 11.766666666666667,
|
|
"grad_norm": 0.0028016867581754923,
|
|
"learning_rate": 4.311111111111111e-05,
|
|
"loss": 0.0007,
|
|
"step": 1765
|
|
},
|
|
{
|
|
"epoch": 11.8,
|
|
"grad_norm": 0.0029576830565929413,
|
|
"learning_rate": 4.266666666666667e-05,
|
|
"loss": 0.0007,
|
|
"step": 1770
|
|
},
|
|
{
|
|
"epoch": 11.833333333333334,
|
|
"grad_norm": 0.002890068804845214,
|
|
"learning_rate": 4.222222222222222e-05,
|
|
"loss": 0.0007,
|
|
"step": 1775
|
|
},
|
|
{
|
|
"epoch": 11.866666666666667,
|
|
"grad_norm": 0.002776023931801319,
|
|
"learning_rate": 4.177777777777778e-05,
|
|
"loss": 0.0007,
|
|
"step": 1780
|
|
},
|
|
{
|
|
"epoch": 11.9,
|
|
"grad_norm": 0.0029850220307707787,
|
|
"learning_rate": 4.133333333333333e-05,
|
|
"loss": 0.0007,
|
|
"step": 1785
|
|
},
|
|
{
|
|
"epoch": 11.933333333333334,
|
|
"grad_norm": 0.002962775295600295,
|
|
"learning_rate": 4.088888888888889e-05,
|
|
"loss": 0.0007,
|
|
"step": 1790
|
|
},
|
|
{
|
|
"epoch": 11.966666666666667,
|
|
"grad_norm": 0.0026905240956693888,
|
|
"learning_rate": 4.0444444444444444e-05,
|
|
"loss": 0.0007,
|
|
"step": 1795
|
|
},
|
|
{
|
|
"epoch": 12.0,
|
|
"grad_norm": 0.002749086357653141,
|
|
"learning_rate": 4e-05,
|
|
"loss": 0.0007,
|
|
"step": 1800
|
|
},
|
|
{
|
|
"epoch": 12.0,
|
|
"eval_accuracy": 0.7996729354047425,
|
|
"eval_f1": 0.796489219550036,
|
|
"eval_loss": 1.2285834550857544,
|
|
"eval_precision": 0.8261772583543897,
|
|
"eval_recall": 0.7996729354047425,
|
|
"eval_runtime": 8.7037,
|
|
"eval_samples_per_second": 140.515,
|
|
"eval_steps_per_second": 17.579,
|
|
"step": 1800
|
|
},
|
|
{
|
|
"epoch": 12.033333333333333,
|
|
"grad_norm": 0.0028795318212360144,
|
|
"learning_rate": 3.9555555555555556e-05,
|
|
"loss": 0.0007,
|
|
"step": 1805
|
|
},
|
|
{
|
|
"epoch": 12.066666666666666,
|
|
"grad_norm": 0.002828411292284727,
|
|
"learning_rate": 3.9111111111111115e-05,
|
|
"loss": 0.0007,
|
|
"step": 1810
|
|
},
|
|
{
|
|
"epoch": 12.1,
|
|
"grad_norm": 0.002731879474595189,
|
|
"learning_rate": 3.866666666666667e-05,
|
|
"loss": 0.0007,
|
|
"step": 1815
|
|
},
|
|
{
|
|
"epoch": 12.133333333333333,
|
|
"grad_norm": 0.0028275155927985907,
|
|
"learning_rate": 3.8222222222222226e-05,
|
|
"loss": 0.0007,
|
|
"step": 1820
|
|
},
|
|
{
|
|
"epoch": 12.166666666666666,
|
|
"grad_norm": 0.0026852732989937067,
|
|
"learning_rate": 3.777777777777778e-05,
|
|
"loss": 0.0007,
|
|
"step": 1825
|
|
},
|
|
{
|
|
"epoch": 12.2,
|
|
"grad_norm": 0.002712358720600605,
|
|
"learning_rate": 3.733333333333334e-05,
|
|
"loss": 0.0007,
|
|
"step": 1830
|
|
},
|
|
{
|
|
"epoch": 12.233333333333333,
|
|
"grad_norm": 0.0026300970930606127,
|
|
"learning_rate": 3.688888888888889e-05,
|
|
"loss": 0.0007,
|
|
"step": 1835
|
|
},
|
|
{
|
|
"epoch": 12.266666666666667,
|
|
"grad_norm": 0.00264561315998435,
|
|
"learning_rate": 3.644444444444445e-05,
|
|
"loss": 0.0007,
|
|
"step": 1840
|
|
},
|
|
{
|
|
"epoch": 12.3,
|
|
"grad_norm": 0.002570495707914233,
|
|
"learning_rate": 3.6e-05,
|
|
"loss": 0.0007,
|
|
"step": 1845
|
|
},
|
|
{
|
|
"epoch": 12.333333333333334,
|
|
"grad_norm": 0.002950433874502778,
|
|
"learning_rate": 3.555555555555556e-05,
|
|
"loss": 0.0007,
|
|
"step": 1850
|
|
},
|
|
{
|
|
"epoch": 12.366666666666667,
|
|
"grad_norm": 0.00284417811781168,
|
|
"learning_rate": 3.511111111111111e-05,
|
|
"loss": 0.0007,
|
|
"step": 1855
|
|
},
|
|
{
|
|
"epoch": 12.4,
|
|
"grad_norm": 0.0026491789612919092,
|
|
"learning_rate": 3.466666666666667e-05,
|
|
"loss": 0.0007,
|
|
"step": 1860
|
|
},
|
|
{
|
|
"epoch": 12.433333333333334,
|
|
"grad_norm": 0.0028301659040153027,
|
|
"learning_rate": 3.4222222222222224e-05,
|
|
"loss": 0.0007,
|
|
"step": 1865
|
|
},
|
|
{
|
|
"epoch": 12.466666666666667,
|
|
"grad_norm": 0.0027288682758808136,
|
|
"learning_rate": 3.377777777777778e-05,
|
|
"loss": 0.0007,
|
|
"step": 1870
|
|
},
|
|
{
|
|
"epoch": 12.5,
|
|
"grad_norm": 0.002681179204955697,
|
|
"learning_rate": 3.3333333333333335e-05,
|
|
"loss": 0.0007,
|
|
"step": 1875
|
|
},
|
|
{
|
|
"epoch": 12.533333333333333,
|
|
"grad_norm": 0.002533556893467903,
|
|
"learning_rate": 3.2888888888888894e-05,
|
|
"loss": 0.0007,
|
|
"step": 1880
|
|
},
|
|
{
|
|
"epoch": 12.566666666666666,
|
|
"grad_norm": 0.0026150469202548265,
|
|
"learning_rate": 3.2444444444444446e-05,
|
|
"loss": 0.0007,
|
|
"step": 1885
|
|
},
|
|
{
|
|
"epoch": 12.6,
|
|
"grad_norm": 0.002726713428273797,
|
|
"learning_rate": 3.2000000000000005e-05,
|
|
"loss": 0.0007,
|
|
"step": 1890
|
|
},
|
|
{
|
|
"epoch": 12.633333333333333,
|
|
"grad_norm": 0.003498935839161277,
|
|
"learning_rate": 3.155555555555556e-05,
|
|
"loss": 0.0007,
|
|
"step": 1895
|
|
},
|
|
{
|
|
"epoch": 12.666666666666666,
|
|
"grad_norm": 0.002702336525544524,
|
|
"learning_rate": 3.111111111111111e-05,
|
|
"loss": 0.0007,
|
|
"step": 1900
|
|
},
|
|
{
|
|
"epoch": 12.666666666666666,
|
|
"eval_accuracy": 0.7988552739165985,
|
|
"eval_f1": 0.7957080790407723,
|
|
"eval_loss": 1.2296099662780762,
|
|
"eval_precision": 0.8245371187199191,
|
|
"eval_recall": 0.7988552739165985,
|
|
"eval_runtime": 8.004,
|
|
"eval_samples_per_second": 152.798,
|
|
"eval_steps_per_second": 19.115,
|
|
"step": 1900
|
|
},
|
|
{
|
|
"epoch": 12.7,
|
|
"grad_norm": 0.0028191946912556887,
|
|
"learning_rate": 3.066666666666667e-05,
|
|
"loss": 0.0007,
|
|
"step": 1905
|
|
},
|
|
{
|
|
"epoch": 12.733333333333333,
|
|
"grad_norm": 0.003014732152223587,
|
|
"learning_rate": 3.0222222222222225e-05,
|
|
"loss": 0.0007,
|
|
"step": 1910
|
|
},
|
|
{
|
|
"epoch": 12.766666666666667,
|
|
"grad_norm": 0.0028683769050985575,
|
|
"learning_rate": 2.9777777777777777e-05,
|
|
"loss": 0.0007,
|
|
"step": 1915
|
|
},
|
|
{
|
|
"epoch": 12.8,
|
|
"grad_norm": 0.002571342047303915,
|
|
"learning_rate": 2.9333333333333336e-05,
|
|
"loss": 0.0007,
|
|
"step": 1920
|
|
},
|
|
{
|
|
"epoch": 12.833333333333334,
|
|
"grad_norm": 0.0028497236780822277,
|
|
"learning_rate": 2.8888888888888888e-05,
|
|
"loss": 0.0007,
|
|
"step": 1925
|
|
},
|
|
{
|
|
"epoch": 12.866666666666667,
|
|
"grad_norm": 0.002548054326325655,
|
|
"learning_rate": 2.8444444444444447e-05,
|
|
"loss": 0.0007,
|
|
"step": 1930
|
|
},
|
|
{
|
|
"epoch": 12.9,
|
|
"grad_norm": 0.0025346125476062298,
|
|
"learning_rate": 2.8000000000000003e-05,
|
|
"loss": 0.0007,
|
|
"step": 1935
|
|
},
|
|
{
|
|
"epoch": 12.933333333333334,
|
|
"grad_norm": 0.0027801941614598036,
|
|
"learning_rate": 2.7555555555555555e-05,
|
|
"loss": 0.0007,
|
|
"step": 1940
|
|
},
|
|
{
|
|
"epoch": 12.966666666666667,
|
|
"grad_norm": 0.0026282649487257004,
|
|
"learning_rate": 2.7111111111111114e-05,
|
|
"loss": 0.0007,
|
|
"step": 1945
|
|
},
|
|
{
|
|
"epoch": 13.0,
|
|
"grad_norm": 0.002526419935747981,
|
|
"learning_rate": 2.6666666666666667e-05,
|
|
"loss": 0.0007,
|
|
"step": 1950
|
|
},
|
|
{
|
|
"epoch": 13.033333333333333,
|
|
"grad_norm": 0.0026902237441390753,
|
|
"learning_rate": 2.6222222222222226e-05,
|
|
"loss": 0.0007,
|
|
"step": 1955
|
|
},
|
|
{
|
|
"epoch": 13.066666666666666,
|
|
"grad_norm": 0.002720859134569764,
|
|
"learning_rate": 2.5777777777777778e-05,
|
|
"loss": 0.0007,
|
|
"step": 1960
|
|
},
|
|
{
|
|
"epoch": 13.1,
|
|
"grad_norm": 0.0025419306475669146,
|
|
"learning_rate": 2.5333333333333337e-05,
|
|
"loss": 0.0007,
|
|
"step": 1965
|
|
},
|
|
{
|
|
"epoch": 13.133333333333333,
|
|
"grad_norm": 0.002520427107810974,
|
|
"learning_rate": 2.488888888888889e-05,
|
|
"loss": 0.0007,
|
|
"step": 1970
|
|
},
|
|
{
|
|
"epoch": 13.166666666666666,
|
|
"grad_norm": 0.002502685645595193,
|
|
"learning_rate": 2.4444444444444445e-05,
|
|
"loss": 0.0007,
|
|
"step": 1975
|
|
},
|
|
{
|
|
"epoch": 13.2,
|
|
"grad_norm": 0.0024361128453165293,
|
|
"learning_rate": 2.4e-05,
|
|
"loss": 0.0007,
|
|
"step": 1980
|
|
},
|
|
{
|
|
"epoch": 13.233333333333333,
|
|
"grad_norm": 0.002513553248718381,
|
|
"learning_rate": 2.3555555555555556e-05,
|
|
"loss": 0.0006,
|
|
"step": 1985
|
|
},
|
|
{
|
|
"epoch": 13.266666666666667,
|
|
"grad_norm": 0.0028074332512915134,
|
|
"learning_rate": 2.3111111111111112e-05,
|
|
"loss": 0.0007,
|
|
"step": 1990
|
|
},
|
|
{
|
|
"epoch": 13.3,
|
|
"grad_norm": 0.002762263175100088,
|
|
"learning_rate": 2.2666666666666668e-05,
|
|
"loss": 0.0006,
|
|
"step": 1995
|
|
},
|
|
{
|
|
"epoch": 13.333333333333334,
|
|
"grad_norm": 0.0025168033316731453,
|
|
"learning_rate": 2.2222222222222223e-05,
|
|
"loss": 0.0007,
|
|
"step": 2000
|
|
},
|
|
{
|
|
"epoch": 13.333333333333334,
|
|
"eval_accuracy": 0.7988552739165985,
|
|
"eval_f1": 0.7957080790407723,
|
|
"eval_loss": 1.2314203977584839,
|
|
"eval_precision": 0.8245371187199191,
|
|
"eval_recall": 0.7988552739165985,
|
|
"eval_runtime": 7.9105,
|
|
"eval_samples_per_second": 154.605,
|
|
"eval_steps_per_second": 19.341,
|
|
"step": 2000
|
|
},
|
|
{
|
|
"epoch": 13.366666666666667,
|
|
"grad_norm": 0.002618913073092699,
|
|
"learning_rate": 2.177777777777778e-05,
|
|
"loss": 0.0007,
|
|
"step": 2005
|
|
},
|
|
{
|
|
"epoch": 13.4,
|
|
"grad_norm": 0.002478353912010789,
|
|
"learning_rate": 2.1333333333333335e-05,
|
|
"loss": 0.0007,
|
|
"step": 2010
|
|
},
|
|
{
|
|
"epoch": 13.433333333333334,
|
|
"grad_norm": 0.002534120110794902,
|
|
"learning_rate": 2.088888888888889e-05,
|
|
"loss": 0.0007,
|
|
"step": 2015
|
|
},
|
|
{
|
|
"epoch": 13.466666666666667,
|
|
"grad_norm": 0.002606335561722517,
|
|
"learning_rate": 2.0444444444444446e-05,
|
|
"loss": 0.0006,
|
|
"step": 2020
|
|
},
|
|
{
|
|
"epoch": 13.5,
|
|
"grad_norm": 0.0024990017991513014,
|
|
"learning_rate": 2e-05,
|
|
"loss": 0.0006,
|
|
"step": 2025
|
|
},
|
|
{
|
|
"epoch": 13.533333333333333,
|
|
"grad_norm": 0.0026097064837813377,
|
|
"learning_rate": 1.9555555555555557e-05,
|
|
"loss": 0.0006,
|
|
"step": 2030
|
|
},
|
|
{
|
|
"epoch": 13.566666666666666,
|
|
"grad_norm": 0.002500999253243208,
|
|
"learning_rate": 1.9111111111111113e-05,
|
|
"loss": 0.0006,
|
|
"step": 2035
|
|
},
|
|
{
|
|
"epoch": 13.6,
|
|
"grad_norm": 0.002585774753242731,
|
|
"learning_rate": 1.866666666666667e-05,
|
|
"loss": 0.0007,
|
|
"step": 2040
|
|
},
|
|
{
|
|
"epoch": 13.633333333333333,
|
|
"grad_norm": 0.0024484049063175917,
|
|
"learning_rate": 1.8222222222222224e-05,
|
|
"loss": 0.0006,
|
|
"step": 2045
|
|
},
|
|
{
|
|
"epoch": 13.666666666666666,
|
|
"grad_norm": 0.0025868117809295654,
|
|
"learning_rate": 1.777777777777778e-05,
|
|
"loss": 0.0007,
|
|
"step": 2050
|
|
},
|
|
{
|
|
"epoch": 13.7,
|
|
"grad_norm": 0.0024771729949861765,
|
|
"learning_rate": 1.7333333333333336e-05,
|
|
"loss": 0.0006,
|
|
"step": 2055
|
|
},
|
|
{
|
|
"epoch": 13.733333333333333,
|
|
"grad_norm": 0.002451234729960561,
|
|
"learning_rate": 1.688888888888889e-05,
|
|
"loss": 0.0006,
|
|
"step": 2060
|
|
},
|
|
{
|
|
"epoch": 13.766666666666667,
|
|
"grad_norm": 0.0026549098547548056,
|
|
"learning_rate": 1.6444444444444447e-05,
|
|
"loss": 0.0006,
|
|
"step": 2065
|
|
},
|
|
{
|
|
"epoch": 13.8,
|
|
"grad_norm": 0.0024664609227329493,
|
|
"learning_rate": 1.6000000000000003e-05,
|
|
"loss": 0.0006,
|
|
"step": 2070
|
|
},
|
|
{
|
|
"epoch": 13.833333333333334,
|
|
"grad_norm": 0.002711019478738308,
|
|
"learning_rate": 1.5555555555555555e-05,
|
|
"loss": 0.0006,
|
|
"step": 2075
|
|
},
|
|
{
|
|
"epoch": 13.866666666666667,
|
|
"grad_norm": 0.002473460743203759,
|
|
"learning_rate": 1.5111111111111112e-05,
|
|
"loss": 0.0006,
|
|
"step": 2080
|
|
},
|
|
{
|
|
"epoch": 13.9,
|
|
"grad_norm": 0.0024303121026605368,
|
|
"learning_rate": 1.4666666666666668e-05,
|
|
"loss": 0.0006,
|
|
"step": 2085
|
|
},
|
|
{
|
|
"epoch": 13.933333333333334,
|
|
"grad_norm": 0.0024212184362113476,
|
|
"learning_rate": 1.4222222222222224e-05,
|
|
"loss": 0.0006,
|
|
"step": 2090
|
|
},
|
|
{
|
|
"epoch": 13.966666666666667,
|
|
"grad_norm": 0.002623022999614477,
|
|
"learning_rate": 1.3777777777777778e-05,
|
|
"loss": 0.0006,
|
|
"step": 2095
|
|
},
|
|
{
|
|
"epoch": 14.0,
|
|
"grad_norm": 0.002679532626643777,
|
|
"learning_rate": 1.3333333333333333e-05,
|
|
"loss": 0.0006,
|
|
"step": 2100
|
|
},
|
|
{
|
|
"epoch": 14.0,
|
|
"eval_accuracy": 0.7996729354047425,
|
|
"eval_f1": 0.7967362158604618,
|
|
"eval_loss": 1.2324846982955933,
|
|
"eval_precision": 0.8251847885309963,
|
|
"eval_recall": 0.7996729354047425,
|
|
"eval_runtime": 8.0477,
|
|
"eval_samples_per_second": 151.969,
|
|
"eval_steps_per_second": 19.012,
|
|
"step": 2100
|
|
},
|
|
{
|
|
"epoch": 14.033333333333333,
|
|
"grad_norm": 0.0024371440522372723,
|
|
"learning_rate": 1.2888888888888889e-05,
|
|
"loss": 0.0006,
|
|
"step": 2105
|
|
},
|
|
{
|
|
"epoch": 14.066666666666666,
|
|
"grad_norm": 0.002423727186396718,
|
|
"learning_rate": 1.2444444444444445e-05,
|
|
"loss": 0.0006,
|
|
"step": 2110
|
|
},
|
|
{
|
|
"epoch": 14.1,
|
|
"grad_norm": 0.002588922856375575,
|
|
"learning_rate": 1.2e-05,
|
|
"loss": 0.0006,
|
|
"step": 2115
|
|
},
|
|
{
|
|
"epoch": 14.133333333333333,
|
|
"grad_norm": 0.002436741953715682,
|
|
"learning_rate": 1.1555555555555556e-05,
|
|
"loss": 0.0006,
|
|
"step": 2120
|
|
},
|
|
{
|
|
"epoch": 14.166666666666666,
|
|
"grad_norm": 0.002469085855409503,
|
|
"learning_rate": 1.1111111111111112e-05,
|
|
"loss": 0.0006,
|
|
"step": 2125
|
|
},
|
|
{
|
|
"epoch": 14.2,
|
|
"grad_norm": 0.002384344581514597,
|
|
"learning_rate": 1.0666666666666667e-05,
|
|
"loss": 0.0006,
|
|
"step": 2130
|
|
},
|
|
{
|
|
"epoch": 14.233333333333333,
|
|
"grad_norm": 0.002415234223008156,
|
|
"learning_rate": 1.0222222222222223e-05,
|
|
"loss": 0.0006,
|
|
"step": 2135
|
|
},
|
|
{
|
|
"epoch": 14.266666666666667,
|
|
"grad_norm": 0.002417626092210412,
|
|
"learning_rate": 9.777777777777779e-06,
|
|
"loss": 0.0006,
|
|
"step": 2140
|
|
},
|
|
{
|
|
"epoch": 14.3,
|
|
"grad_norm": 0.002522891154512763,
|
|
"learning_rate": 9.333333333333334e-06,
|
|
"loss": 0.0006,
|
|
"step": 2145
|
|
},
|
|
{
|
|
"epoch": 14.333333333333334,
|
|
"grad_norm": 0.002744530327618122,
|
|
"learning_rate": 8.88888888888889e-06,
|
|
"loss": 0.0006,
|
|
"step": 2150
|
|
},
|
|
{
|
|
"epoch": 14.366666666666667,
|
|
"grad_norm": 0.002598762745037675,
|
|
"learning_rate": 8.444444444444446e-06,
|
|
"loss": 0.0006,
|
|
"step": 2155
|
|
},
|
|
{
|
|
"epoch": 14.4,
|
|
"grad_norm": 0.002431964036077261,
|
|
"learning_rate": 8.000000000000001e-06,
|
|
"loss": 0.0006,
|
|
"step": 2160
|
|
},
|
|
{
|
|
"epoch": 14.433333333333334,
|
|
"grad_norm": 0.0027814635541290045,
|
|
"learning_rate": 7.555555555555556e-06,
|
|
"loss": 0.0006,
|
|
"step": 2165
|
|
},
|
|
{
|
|
"epoch": 14.466666666666667,
|
|
"grad_norm": 0.002471009735018015,
|
|
"learning_rate": 7.111111111111112e-06,
|
|
"loss": 0.0006,
|
|
"step": 2170
|
|
},
|
|
{
|
|
"epoch": 14.5,
|
|
"grad_norm": 0.0026065015699714422,
|
|
"learning_rate": 6.666666666666667e-06,
|
|
"loss": 0.0006,
|
|
"step": 2175
|
|
},
|
|
{
|
|
"epoch": 14.533333333333333,
|
|
"grad_norm": 0.0024549956433475018,
|
|
"learning_rate": 6.222222222222222e-06,
|
|
"loss": 0.0006,
|
|
"step": 2180
|
|
},
|
|
{
|
|
"epoch": 14.566666666666666,
|
|
"grad_norm": 0.0027057253755629063,
|
|
"learning_rate": 5.777777777777778e-06,
|
|
"loss": 0.0006,
|
|
"step": 2185
|
|
},
|
|
{
|
|
"epoch": 14.6,
|
|
"grad_norm": 0.0025212769396603107,
|
|
"learning_rate": 5.333333333333334e-06,
|
|
"loss": 0.0006,
|
|
"step": 2190
|
|
},
|
|
{
|
|
"epoch": 14.633333333333333,
|
|
"grad_norm": 0.0027136888820677996,
|
|
"learning_rate": 4.888888888888889e-06,
|
|
"loss": 0.0006,
|
|
"step": 2195
|
|
},
|
|
{
|
|
"epoch": 14.666666666666666,
|
|
"grad_norm": 0.0024464773014187813,
|
|
"learning_rate": 4.444444444444445e-06,
|
|
"loss": 0.0006,
|
|
"step": 2200
|
|
},
|
|
{
|
|
"epoch": 14.666666666666666,
|
|
"eval_accuracy": 0.8004905968928864,
|
|
"eval_f1": 0.7977597772865802,
|
|
"eval_loss": 1.232972264289856,
|
|
"eval_precision": 0.8258279078050726,
|
|
"eval_recall": 0.8004905968928864,
|
|
"eval_runtime": 8.031,
|
|
"eval_samples_per_second": 152.285,
|
|
"eval_steps_per_second": 19.051,
|
|
"step": 2200
|
|
},
|
|
{
|
|
"epoch": 14.7,
|
|
"grad_norm": 0.0025911489501595497,
|
|
"learning_rate": 4.000000000000001e-06,
|
|
"loss": 0.0006,
|
|
"step": 2205
|
|
},
|
|
{
|
|
"epoch": 14.733333333333333,
|
|
"grad_norm": 0.002517148619517684,
|
|
"learning_rate": 3.555555555555556e-06,
|
|
"loss": 0.0006,
|
|
"step": 2210
|
|
},
|
|
{
|
|
"epoch": 14.766666666666667,
|
|
"grad_norm": 0.002410931745544076,
|
|
"learning_rate": 3.111111111111111e-06,
|
|
"loss": 0.0006,
|
|
"step": 2215
|
|
},
|
|
{
|
|
"epoch": 14.8,
|
|
"grad_norm": 0.0023546318989247084,
|
|
"learning_rate": 2.666666666666667e-06,
|
|
"loss": 0.0006,
|
|
"step": 2220
|
|
},
|
|
{
|
|
"epoch": 14.833333333333334,
|
|
"grad_norm": 0.0026745693758130074,
|
|
"learning_rate": 2.2222222222222225e-06,
|
|
"loss": 0.0006,
|
|
"step": 2225
|
|
},
|
|
{
|
|
"epoch": 14.866666666666667,
|
|
"grad_norm": 0.002488673897460103,
|
|
"learning_rate": 1.777777777777778e-06,
|
|
"loss": 0.0006,
|
|
"step": 2230
|
|
},
|
|
{
|
|
"epoch": 14.9,
|
|
"grad_norm": 0.0024525970220565796,
|
|
"learning_rate": 1.3333333333333334e-06,
|
|
"loss": 0.0006,
|
|
"step": 2235
|
|
},
|
|
{
|
|
"epoch": 14.933333333333334,
|
|
"grad_norm": 0.002526229014620185,
|
|
"learning_rate": 8.88888888888889e-07,
|
|
"loss": 0.0006,
|
|
"step": 2240
|
|
},
|
|
{
|
|
"epoch": 14.966666666666667,
|
|
"grad_norm": 0.0023685770574957132,
|
|
"learning_rate": 4.444444444444445e-07,
|
|
"loss": 0.0006,
|
|
"step": 2245
|
|
},
|
|
{
|
|
"epoch": 15.0,
|
|
"grad_norm": 0.0023268917575478554,
|
|
"learning_rate": 0.0,
|
|
"loss": 0.0006,
|
|
"step": 2250
|
|
},
|
|
{
|
|
"epoch": 15.0,
|
|
"step": 2250,
|
|
"total_flos": 5.57962327867392e+18,
|
|
"train_loss": 0.034067531943321225,
|
|
"train_runtime": 796.8785,
|
|
"train_samples_per_second": 90.353,
|
|
"train_steps_per_second": 2.824
|
|
}
|
|
],
|
|
"logging_steps": 5,
|
|
"max_steps": 2250,
|
|
"num_input_tokens_seen": 0,
|
|
"num_train_epochs": 15,
|
|
"save_steps": 100,
|
|
"stateful_callbacks": {
|
|
"TrainerControl": {
|
|
"args": {
|
|
"should_epoch_stop": false,
|
|
"should_evaluate": false,
|
|
"should_log": false,
|
|
"should_save": true,
|
|
"should_training_stop": true
|
|
},
|
|
"attributes": {}
|
|
}
|
|
},
|
|
"total_flos": 5.57962327867392e+18,
|
|
"train_batch_size": 32,
|
|
"trial_name": null,
|
|
"trial_params": null
|
|
}
|
|
|