{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "global_step": 100000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.01, "learning_rate": 2.9999999999999997e-05, "loss": 1.3008, "step": 500 }, { "epoch": 0.01, "learning_rate": 5.9999999999999995e-05, "loss": 0.632, "step": 1000 }, { "epoch": 0.01, "learning_rate": 8.999999999999999e-05, "loss": 0.568, "step": 1500 }, { "epoch": 0.02, "learning_rate": 0.00011999999999999999, "loss": 0.4923, "step": 2000 }, { "epoch": 0.03, "learning_rate": 0.00015, "loss": 0.444, "step": 2500 }, { "epoch": 0.03, "learning_rate": 0.00017999999999999998, "loss": 0.4349, "step": 3000 }, { "epoch": 0.04, "learning_rate": 0.00020999999999999998, "loss": 0.431, "step": 3500 }, { "epoch": 0.04, "learning_rate": 0.00023999999999999998, "loss": 0.4373, "step": 4000 }, { "epoch": 0.04, "learning_rate": 0.00027, "loss": 0.4326, "step": 4500 }, { "epoch": 0.05, "learning_rate": 0.0003, "loss": 0.4285, "step": 5000 }, { "epoch": 0.06, "learning_rate": 0.00033, "loss": 0.4293, "step": 5500 }, { "epoch": 0.06, "learning_rate": 0.00035999999999999997, "loss": 0.4299, "step": 6000 }, { "epoch": 0.07, "learning_rate": 0.00039, "loss": 0.4273, "step": 6500 }, { "epoch": 0.07, "learning_rate": 0.00041999999999999996, "loss": 0.427, "step": 7000 }, { "epoch": 0.07, "learning_rate": 0.00045, "loss": 0.4243, "step": 7500 }, { "epoch": 0.08, "learning_rate": 0.00047999999999999996, "loss": 0.4261, "step": 8000 }, { "epoch": 0.09, "learning_rate": 0.0005099999999999999, "loss": 0.4256, "step": 8500 }, { "epoch": 0.09, "learning_rate": 0.00054, "loss": 0.4256, "step": 9000 }, { "epoch": 0.1, "learning_rate": 0.00057, "loss": 0.4229, "step": 9500 }, { "epoch": 0.1, "learning_rate": 0.0006, "loss": 0.4216, "step": 10000 }, { "epoch": 0.1, "learning_rate": 0.0005966666666666667, "loss": 0.4225, "step": 10500 }, { "epoch": 0.11, "learning_rate": 0.0005933333333333333, "loss": 0.42, "step": 11000 }, { "epoch": 0.12, "learning_rate": 0.0005899999999999999, "loss": 0.4192, "step": 11500 }, { "epoch": 0.12, "learning_rate": 0.0005866666666666665, "loss": 0.4186, "step": 12000 }, { "epoch": 0.12, "learning_rate": 0.0005833333333333333, "loss": 0.4179, "step": 12500 }, { "epoch": 0.13, "learning_rate": 0.00058, "loss": 0.4173, "step": 13000 }, { "epoch": 0.14, "learning_rate": 0.0005766666666666666, "loss": 0.417, "step": 13500 }, { "epoch": 0.14, "learning_rate": 0.0005733333333333334, "loss": 0.4166, "step": 14000 }, { "epoch": 0.14, "learning_rate": 0.00057, "loss": 0.4168, "step": 14500 }, { "epoch": 0.15, "learning_rate": 0.0005666666666666666, "loss": 0.4167, "step": 15000 }, { "epoch": 0.15, "learning_rate": 0.0005633333333333333, "loss": 0.4169, "step": 15500 }, { "epoch": 0.16, "learning_rate": 0.00056, "loss": 0.4163, "step": 16000 }, { "epoch": 0.17, "learning_rate": 0.0005566666666666667, "loss": 0.4163, "step": 16500 }, { "epoch": 0.17, "learning_rate": 0.0005533333333333333, "loss": 0.4161, "step": 17000 }, { "epoch": 0.17, "learning_rate": 0.0005499999999999999, "loss": 0.416, "step": 17500 }, { "epoch": 0.18, "learning_rate": 0.0005466666666666667, "loss": 0.4159, "step": 18000 }, { "epoch": 0.18, "learning_rate": 0.0005433399999999999, "loss": 0.4159, "step": 18500 }, { "epoch": 0.19, "learning_rate": 0.0005400066666666666, "loss": 0.4159, "step": 19000 }, { "epoch": 0.2, "learning_rate": 0.0005366733333333333, "loss": 0.4157, "step": 19500 }, { "epoch": 0.2, "learning_rate": 0.00053334, "loss": 0.4159, "step": 20000 }, { "epoch": 0.2, "learning_rate": 0.0005300133333333333, "loss": 0.4158, "step": 20500 }, { "epoch": 0.21, "learning_rate": 0.00052668, "loss": 0.4158, "step": 21000 }, { "epoch": 0.21, "learning_rate": 0.0005233466666666667, "loss": 0.4158, "step": 21500 }, { "epoch": 0.22, "learning_rate": 0.0005200133333333332, "loss": 0.4158, "step": 22000 }, { "epoch": 0.23, "learning_rate": 0.0005166866666666667, "loss": 0.4156, "step": 22500 }, { "epoch": 0.23, "learning_rate": 0.0005133533333333333, "loss": 0.4155, "step": 23000 }, { "epoch": 0.23, "learning_rate": 0.0005100199999999999, "loss": 0.4156, "step": 23500 }, { "epoch": 0.24, "learning_rate": 0.0005066866666666666, "loss": 0.4157, "step": 24000 }, { "epoch": 0.24, "learning_rate": 0.0005033599999999999, "loss": 0.4157, "step": 24500 }, { "epoch": 0.25, "learning_rate": 0.0005000266666666666, "loss": 0.4157, "step": 25000 }, { "epoch": 0.26, "learning_rate": 0.0004966933333333332, "loss": 0.4156, "step": 25500 }, { "epoch": 0.26, "learning_rate": 0.00049336, "loss": 0.4154, "step": 26000 }, { "epoch": 0.27, "learning_rate": 0.0004900333333333333, "loss": 0.4156, "step": 26500 }, { "epoch": 0.27, "learning_rate": 0.00048669999999999996, "loss": 0.4156, "step": 27000 }, { "epoch": 0.28, "learning_rate": 0.0004833666666666666, "loss": 0.4156, "step": 27500 }, { "epoch": 0.28, "learning_rate": 0.00048003333333333326, "loss": 0.4156, "step": 28000 }, { "epoch": 0.28, "learning_rate": 0.0004767066666666666, "loss": 0.4156, "step": 28500 }, { "epoch": 0.29, "learning_rate": 0.0004733733333333333, "loss": 0.4155, "step": 29000 }, { "epoch": 0.29, "learning_rate": 0.00047003999999999997, "loss": 0.4155, "step": 29500 }, { "epoch": 0.3, "learning_rate": 0.00046670666666666664, "loss": 0.4155, "step": 30000 }, { "epoch": 0.3, "learning_rate": 0.00046337999999999994, "loss": 0.4155, "step": 30500 }, { "epoch": 0.31, "learning_rate": 0.0004600466666666666, "loss": 0.4155, "step": 31000 }, { "epoch": 0.32, "learning_rate": 0.0004567133333333333, "loss": 0.4153, "step": 31500 }, { "epoch": 0.32, "learning_rate": 0.00045337999999999997, "loss": 0.4154, "step": 32000 }, { "epoch": 0.33, "learning_rate": 0.00045005333333333333, "loss": 0.4155, "step": 32500 }, { "epoch": 0.33, "learning_rate": 0.00044672, "loss": 0.4155, "step": 33000 }, { "epoch": 0.34, "learning_rate": 0.00044338666666666663, "loss": 0.4154, "step": 33500 }, { "epoch": 0.34, "learning_rate": 0.0004400533333333333, "loss": 0.4153, "step": 34000 }, { "epoch": 0.34, "learning_rate": 0.0004367266666666666, "loss": 0.4154, "step": 34500 }, { "epoch": 0.35, "learning_rate": 0.0004333933333333333, "loss": 0.4154, "step": 35000 }, { "epoch": 0.35, "learning_rate": 0.00043005999999999996, "loss": 0.4154, "step": 35500 }, { "epoch": 0.36, "learning_rate": 0.00042672666666666663, "loss": 0.4154, "step": 36000 }, { "epoch": 0.36, "learning_rate": 0.00042339999999999994, "loss": 0.4154, "step": 36500 }, { "epoch": 0.37, "learning_rate": 0.0004200666666666666, "loss": 0.4154, "step": 37000 }, { "epoch": 0.38, "learning_rate": 0.00041673333333333334, "loss": 0.4155, "step": 37500 }, { "epoch": 0.38, "learning_rate": 0.0004133999999999999, "loss": 0.4154, "step": 38000 }, { "epoch": 0.39, "learning_rate": 0.0004100733333333333, "loss": 0.4153, "step": 38500 }, { "epoch": 0.39, "learning_rate": 0.00040673999999999994, "loss": 0.4155, "step": 39000 }, { "epoch": 0.4, "learning_rate": 0.0004034066666666666, "loss": 0.4154, "step": 39500 }, { "epoch": 0.4, "learning_rate": 0.0004000733333333333, "loss": 0.4153, "step": 40000 }, { "epoch": 0.41, "learning_rate": 0.0003967466666666666, "loss": 0.4155, "step": 40500 }, { "epoch": 0.41, "learning_rate": 0.0003934133333333333, "loss": 0.4155, "step": 41000 }, { "epoch": 0.41, "learning_rate": 0.00039007999999999995, "loss": 0.4154, "step": 41500 }, { "epoch": 0.42, "learning_rate": 0.00038674666666666663, "loss": 0.4153, "step": 42000 }, { "epoch": 0.42, "learning_rate": 0.00038342, "loss": 0.4155, "step": 42500 }, { "epoch": 0.43, "learning_rate": 0.00038008666666666666, "loss": 0.4154, "step": 43000 }, { "epoch": 0.43, "learning_rate": 0.00037675333333333334, "loss": 0.4155, "step": 43500 }, { "epoch": 0.44, "learning_rate": 0.00037341999999999996, "loss": 0.4155, "step": 44000 }, { "epoch": 0.45, "learning_rate": 0.0003700933333333333, "loss": 0.4153, "step": 44500 }, { "epoch": 0.45, "learning_rate": 0.00036675999999999994, "loss": 0.4154, "step": 45000 }, { "epoch": 0.46, "learning_rate": 0.0003634266666666666, "loss": 0.4154, "step": 45500 }, { "epoch": 0.46, "learning_rate": 0.0003600933333333333, "loss": 0.4155, "step": 46000 }, { "epoch": 0.47, "learning_rate": 0.00035676666666666665, "loss": 0.4153, "step": 46500 }, { "epoch": 0.47, "learning_rate": 0.0003534333333333333, "loss": 0.4154, "step": 47000 }, { "epoch": 0.47, "learning_rate": 0.0003501, "loss": 0.4154, "step": 47500 }, { "epoch": 0.48, "learning_rate": 0.0003467666666666667, "loss": 0.4153, "step": 48000 }, { "epoch": 0.48, "learning_rate": 0.00034344, "loss": 0.4155, "step": 48500 }, { "epoch": 0.49, "learning_rate": 0.00034010666666666665, "loss": 0.4154, "step": 49000 }, { "epoch": 0.49, "learning_rate": 0.0003367733333333333, "loss": 0.4154, "step": 49500 }, { "epoch": 0.5, "learning_rate": 0.00033343999999999995, "loss": 0.4155, "step": 50000 }, { "epoch": 0.51, "learning_rate": 0.00033011333333333325, "loss": 0.4154, "step": 50500 }, { "epoch": 0.51, "learning_rate": 0.00032677999999999993, "loss": 0.4154, "step": 51000 }, { "epoch": 0.52, "learning_rate": 0.0003234466666666666, "loss": 0.4153, "step": 51500 }, { "epoch": 0.52, "learning_rate": 0.00032011333333333334, "loss": 0.4155, "step": 52000 }, { "epoch": 0.53, "learning_rate": 0.00031678666666666664, "loss": 0.4154, "step": 52500 }, { "epoch": 0.53, "learning_rate": 0.0003134533333333333, "loss": 0.4154, "step": 53000 }, { "epoch": 0.54, "learning_rate": 0.00031012, "loss": 0.4153, "step": 53500 }, { "epoch": 0.54, "learning_rate": 0.00030678666666666667, "loss": 0.4154, "step": 54000 }, { "epoch": 0.55, "learning_rate": 0.00030345999999999997, "loss": 0.4154, "step": 54500 }, { "epoch": 0.55, "learning_rate": 0.00030012666666666665, "loss": 0.4154, "step": 55000 }, { "epoch": 0.56, "learning_rate": 0.0002967933333333333, "loss": 0.4154, "step": 55500 }, { "epoch": 0.56, "learning_rate": 0.00029345999999999994, "loss": 0.4154, "step": 56000 }, { "epoch": 0.56, "learning_rate": 0.00029014, "loss": 0.4154, "step": 56500 }, { "epoch": 0.57, "learning_rate": 0.00028680666666666666, "loss": 0.4153, "step": 57000 }, { "epoch": 0.57, "learning_rate": 0.00028347333333333334, "loss": 0.4154, "step": 57500 }, { "epoch": 0.58, "learning_rate": 0.00028013999999999996, "loss": 0.4154, "step": 58000 }, { "epoch": 0.58, "learning_rate": 0.00027680666666666663, "loss": 0.4155, "step": 58500 }, { "epoch": 0.59, "learning_rate": 0.0002734733333333333, "loss": 0.4153, "step": 59000 }, { "epoch": 0.59, "learning_rate": 0.00027014, "loss": 0.4154, "step": 59500 }, { "epoch": 0.6, "learning_rate": 0.00026680666666666666, "loss": 0.4154, "step": 60000 }, { "epoch": 0.6, "learning_rate": 0.00026347999999999996, "loss": 0.4153, "step": 60500 }, { "epoch": 0.61, "learning_rate": 0.00026014666666666664, "loss": 0.4154, "step": 61000 }, { "epoch": 0.61, "learning_rate": 0.0002568133333333333, "loss": 0.4154, "step": 61500 }, { "epoch": 0.62, "learning_rate": 0.00025348, "loss": 0.4153, "step": 62000 }, { "epoch": 0.62, "learning_rate": 0.00025015333333333335, "loss": 0.4154, "step": 62500 }, { "epoch": 0.63, "learning_rate": 0.00024681999999999997, "loss": 0.4154, "step": 63000 }, { "epoch": 0.64, "learning_rate": 0.00024348666666666665, "loss": 0.4152, "step": 63500 }, { "epoch": 0.64, "learning_rate": 0.0002401533333333333, "loss": 0.4153, "step": 64000 }, { "epoch": 0.65, "learning_rate": 0.00023682666666666665, "loss": 0.4153, "step": 64500 }, { "epoch": 0.65, "learning_rate": 0.0002334933333333333, "loss": 0.4154, "step": 65000 }, { "epoch": 0.66, "learning_rate": 0.00023015999999999998, "loss": 0.4152, "step": 65500 }, { "epoch": 0.66, "learning_rate": 0.00022682666666666665, "loss": 0.4153, "step": 66000 }, { "epoch": 0.67, "learning_rate": 0.00022349999999999998, "loss": 0.4153, "step": 66500 }, { "epoch": 0.67, "learning_rate": 0.00022016666666666666, "loss": 0.4153, "step": 67000 }, { "epoch": 0.68, "learning_rate": 0.0002168333333333333, "loss": 0.4153, "step": 67500 }, { "epoch": 0.68, "learning_rate": 0.00021350666666666667, "loss": 0.4153, "step": 68000 }, { "epoch": 0.69, "learning_rate": 0.00021017333333333332, "loss": 0.4155, "step": 68500 }, { "epoch": 0.69, "learning_rate": 0.00020684, "loss": 0.4153, "step": 69000 }, { "epoch": 0.69, "learning_rate": 0.00020350666666666667, "loss": 0.4152, "step": 69500 }, { "epoch": 0.7, "learning_rate": 0.00020017333333333332, "loss": 0.4153, "step": 70000 }, { "epoch": 0.7, "learning_rate": 0.00019684, "loss": 0.4154, "step": 70500 }, { "epoch": 0.71, "learning_rate": 0.00019350666666666667, "loss": 0.4154, "step": 71000 }, { "epoch": 0.71, "learning_rate": 0.00019018, "loss": 0.4153, "step": 71500 }, { "epoch": 0.72, "learning_rate": 0.00018684666666666667, "loss": 0.4154, "step": 72000 }, { "epoch": 0.72, "learning_rate": 0.00018351333333333332, "loss": 0.4154, "step": 72500 }, { "epoch": 0.73, "learning_rate": 0.00018018, "loss": 0.4153, "step": 73000 }, { "epoch": 0.73, "learning_rate": 0.00017684666666666665, "loss": 0.4154, "step": 73500 }, { "epoch": 0.74, "learning_rate": 0.00017352, "loss": 0.4154, "step": 74000 }, { "epoch": 0.74, "learning_rate": 0.00017018666666666663, "loss": 0.4154, "step": 74500 }, { "epoch": 0.75, "learning_rate": 0.0001668533333333333, "loss": 0.4154, "step": 75000 }, { "epoch": 0.76, "learning_rate": 0.00016352, "loss": 0.4154, "step": 75500 }, { "epoch": 0.76, "learning_rate": 0.00016018666666666663, "loss": 0.4153, "step": 76000 }, { "epoch": 0.77, "learning_rate": 0.00015685333333333333, "loss": 0.4154, "step": 76500 }, { "epoch": 0.77, "learning_rate": 0.00015352666666666663, "loss": 0.4153, "step": 77000 }, { "epoch": 0.78, "learning_rate": 0.0001501933333333333, "loss": 0.4154, "step": 77500 }, { "epoch": 0.78, "learning_rate": 0.00014685999999999999, "loss": 0.4152, "step": 78000 }, { "epoch": 0.79, "learning_rate": 0.00014352666666666666, "loss": 0.4153, "step": 78500 }, { "epoch": 0.79, "learning_rate": 0.0001402, "loss": 0.4154, "step": 79000 }, { "epoch": 0.8, "learning_rate": 0.00013686666666666664, "loss": 0.4153, "step": 79500 }, { "epoch": 0.8, "learning_rate": 0.00013353333333333332, "loss": 0.4153, "step": 80000 }, { "epoch": 0.81, "learning_rate": 0.0001302, "loss": 0.4154, "step": 80500 }, { "epoch": 0.81, "learning_rate": 0.00012686666666666664, "loss": 0.4155, "step": 81000 }, { "epoch": 0.81, "learning_rate": 0.00012353333333333332, "loss": 0.4154, "step": 81500 }, { "epoch": 0.82, "learning_rate": 0.00012020666666666665, "loss": 0.4154, "step": 82000 }, { "epoch": 0.82, "learning_rate": 0.00011687333333333332, "loss": 0.4152, "step": 82500 }, { "epoch": 0.83, "learning_rate": 0.00011353999999999999, "loss": 0.4153, "step": 83000 }, { "epoch": 0.83, "learning_rate": 0.00011020666666666665, "loss": 0.4153, "step": 83500 }, { "epoch": 0.84, "learning_rate": 0.00010687333333333331, "loss": 0.4152, "step": 84000 }, { "epoch": 0.84, "learning_rate": 0.00010354666666666666, "loss": 0.4154, "step": 84500 }, { "epoch": 0.85, "learning_rate": 0.00010021333333333332, "loss": 0.4154, "step": 85000 }, { "epoch": 0.85, "learning_rate": 9.688e-05, "loss": 0.4154, "step": 85500 }, { "epoch": 0.86, "learning_rate": 9.354666666666666e-05, "loss": 0.4152, "step": 86000 }, { "epoch": 0.86, "learning_rate": 9.021333333333332e-05, "loss": 0.4153, "step": 86500 }, { "epoch": 0.87, "learning_rate": 8.688666666666666e-05, "loss": 0.4154, "step": 87000 }, { "epoch": 0.88, "learning_rate": 8.355333333333333e-05, "loss": 0.4152, "step": 87500 }, { "epoch": 0.88, "learning_rate": 8.022e-05, "loss": 0.4153, "step": 88000 }, { "epoch": 0.89, "learning_rate": 7.688666666666666e-05, "loss": 0.4154, "step": 88500 }, { "epoch": 0.89, "learning_rate": 7.355333333333333e-05, "loss": 0.4154, "step": 89000 }, { "epoch": 0.9, "learning_rate": 7.022666666666667e-05, "loss": 0.4153, "step": 89500 }, { "epoch": 0.9, "learning_rate": 6.689333333333333e-05, "loss": 0.4154, "step": 90000 }, { "epoch": 0.91, "learning_rate": 6.356e-05, "loss": 0.4153, "step": 90500 }, { "epoch": 0.91, "learning_rate": 6.022666666666666e-05, "loss": 0.4153, "step": 91000 }, { "epoch": 0.92, "learning_rate": 5.689333333333333e-05, "loss": 0.4152, "step": 91500 }, { "epoch": 0.92, "learning_rate": 5.356666666666666e-05, "loss": 0.4153, "step": 92000 }, { "epoch": 0.93, "learning_rate": 5.023333333333333e-05, "loss": 0.4154, "step": 92500 }, { "epoch": 0.93, "learning_rate": 4.6899999999999995e-05, "loss": 0.4152, "step": 93000 }, { "epoch": 0.94, "learning_rate": 4.3566666666666664e-05, "loss": 0.4151, "step": 93500 }, { "epoch": 0.94, "learning_rate": 4.0233333333333326e-05, "loss": 0.4153, "step": 94000 }, { "epoch": 0.94, "learning_rate": 3.6899999999999996e-05, "loss": 0.4153, "step": 94500 }, { "epoch": 0.95, "learning_rate": 3.357333333333333e-05, "loss": 0.4153, "step": 95000 }, { "epoch": 0.95, "learning_rate": 3.024e-05, "loss": 0.4152, "step": 95500 }, { "epoch": 0.96, "learning_rate": 2.6906666666666664e-05, "loss": 0.4153, "step": 96000 }, { "epoch": 0.96, "learning_rate": 2.357333333333333e-05, "loss": 0.4153, "step": 96500 }, { "epoch": 0.97, "learning_rate": 2.0246666666666664e-05, "loss": 0.4153, "step": 97000 }, { "epoch": 0.97, "learning_rate": 1.6913333333333333e-05, "loss": 0.4153, "step": 97500 }, { "epoch": 0.98, "learning_rate": 1.3579999999999997e-05, "loss": 0.4153, "step": 98000 }, { "epoch": 0.98, "learning_rate": 1.0246666666666666e-05, "loss": 0.4153, "step": 98500 }, { "epoch": 0.99, "learning_rate": 6.913333333333333e-06, "loss": 0.4153, "step": 99000 }, { "epoch": 0.99, "learning_rate": 3.58e-06, "loss": 0.4152, "step": 99500 }, { "epoch": 1.0, "learning_rate": 2.533333333333333e-07, "loss": 0.4153, "step": 100000 } ], "max_steps": 100000, "num_train_epochs": 1, "total_flos": 4.274433427739443e+19, "trial_name": null, "trial_params": null }