add instrucode llama-2 models

Files changed (12) hide show

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/adapter_model.bin +1 -1
with_input/decomp_code_with_intermediates/llama-2-13b/best_model/optimizer.pt +1 -1
with_input/decomp_code_with_intermediates/llama-2-13b/best_model/rng_state.pth +1 -1
with_input/decomp_code_with_intermediates/llama-2-13b/best_model/scheduler.pt +1 -1
with_input/decomp_code_with_intermediates/llama-2-13b/best_model/trainer_state.json +389 -5
with_input/decomp_code_with_intermediates/llama-2-7b/best_model/adapter_config.json +21 -0
with_input/decomp_code_with_intermediates/llama-2-7b/best_model/adapter_model.bin +3 -0
with_input/decomp_code_with_intermediates/llama-2-7b/best_model/optimizer.pt +3 -0
with_input/decomp_code_with_intermediates/llama-2-7b/best_model/rng_state.pth +3 -0
with_input/decomp_code_with_intermediates/llama-2-7b/best_model/scheduler.pt +3 -0
with_input/decomp_code_with_intermediates/llama-2-7b/best_model/trainer_state.json +2963 -0
with_input/decomp_code_with_intermediates/llama-2-7b/best_model/training_args.bin +3 -0

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4671c2d6162e00bd0679f6a17788fe6ca996a105b9eec0605c113d55d51046e
 size 104973389

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1be8f8694836a75efc5677c7fbf5a2347f9119984a1fb487d97f560d2e4ba3c
 size 104973389

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0b33193e2eaa387f1f2594dcd74e6f6c7f8d0bb6ccad541fdc73f56d8806f54
 size 209984517

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ba202a5dd9f6e829efcc949f64a6920d1eb8cae18a5770a3a04f6beab758de6
 size 209984517

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7a3940c13988eef2d142987af977c8946a726c9931362bfe39e6700c5381106
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:32a7e257ee0a424339e28f278d725f4ca822b8498210079485ba1bab78524a38
 size 14575

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a28d59beefca59c5677feb27231298b8d4e00afdda714d30a1a974e09b38f41
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b2d3080c8e2e4ab287873ffeaf2b06cd1df976c27dba320c4b0ac6a28dd37d5
 size 627

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.2936367690563202,
-  "best_model_checkpoint": "checkpoints/instrucode/with_input/decomp_code_with_intermediates/llama-2-13b/checkpoint-4000",
-  "epoch": 2.572347266881029,
   "eval_steps": 200,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2567,13 +2567,397 @@
       "eval_samples_per_second": 2.461,
       "eval_steps_per_second": 0.308,
       "step": 4000
     }
   ],
   "logging_steps": 10,
   "max_steps": 7775,
   "num_train_epochs": 5,
   "save_steps": 200,
-  "total_flos": 7.045037400998707e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.29191577434539795,
+  "best_model_checkpoint": "checkpoints/instrucode/with_input/decomp_code_with_intermediates/llama-2-13b/checkpoint-4600",
+  "epoch": 2.958199356913183,
   "eval_steps": 200,
+  "global_step": 4600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.461,
       "eval_steps_per_second": 0.308,
       "step": 4000
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.00014724429967426708,
+      "loss": 0.266,
+      "step": 4010
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00014685342019543973,
+      "loss": 0.2664,
+      "step": 4020
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00014646254071661236,
+      "loss": 0.2735,
+      "step": 4030
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.000146071661237785,
+      "loss": 0.2636,
+      "step": 4040
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.00014568078175895765,
+      "loss": 0.2698,
+      "step": 4050
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00014528990228013027,
+      "loss": 0.2805,
+      "step": 4060
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.00014489902280130293,
+      "loss": 0.2821,
+      "step": 4070
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.00014450814332247556,
+      "loss": 0.2724,
+      "step": 4080
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.00014411726384364819,
+      "loss": 0.2673,
+      "step": 4090
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00014372638436482084,
+      "loss": 0.2737,
+      "step": 4100
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00014333550488599347,
+      "loss": 0.2808,
+      "step": 4110
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.00014294462540716612,
+      "loss": 0.2605,
+      "step": 4120
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.00014255374592833875,
+      "loss": 0.2592,
+      "step": 4130
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.00014216286644951138,
+      "loss": 0.2703,
+      "step": 4140
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00014177198697068404,
+      "loss": 0.269,
+      "step": 4150
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00014138110749185666,
+      "loss": 0.2741,
+      "step": 4160
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.0001409902280130293,
+      "loss": 0.2778,
+      "step": 4170
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00014059934853420195,
+      "loss": 0.2691,
+      "step": 4180
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00014020846905537458,
+      "loss": 0.2734,
+      "step": 4190
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.00013981758957654723,
+      "loss": 0.2631,
+      "step": 4200
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.29299652576446533,
+      "eval_runtime": 812.6678,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 0.308,
+      "step": 4200
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.00013942671009771986,
+      "loss": 0.2685,
+      "step": 4210
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0001390358306188925,
+      "loss": 0.2822,
+      "step": 4220
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.00013864495114006514,
+      "loss": 0.268,
+      "step": 4230
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00013825407166123777,
+      "loss": 0.2691,
+      "step": 4240
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00013786319218241043,
+      "loss": 0.2872,
+      "step": 4250
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.00013747231270358305,
+      "loss": 0.2747,
+      "step": 4260
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.00013708143322475568,
+      "loss": 0.2593,
+      "step": 4270
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.00013669055374592834,
+      "loss": 0.2702,
+      "step": 4280
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.00013629967426710097,
+      "loss": 0.2705,
+      "step": 4290
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0001359087947882736,
+      "loss": 0.2846,
+      "step": 4300
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.00013551791530944622,
+      "loss": 0.2708,
+      "step": 4310
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00013512703583061888,
+      "loss": 0.2765,
+      "step": 4320
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00013473615635179153,
+      "loss": 0.2763,
+      "step": 4330
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.00013434527687296416,
+      "loss": 0.2695,
+      "step": 4340
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0001339543973941368,
+      "loss": 0.2776,
+      "step": 4350
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00013356351791530944,
+      "loss": 0.2685,
+      "step": 4360
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.00013317263843648207,
+      "loss": 0.2632,
+      "step": 4370
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.00013278175895765473,
+      "loss": 0.2725,
+      "step": 4380
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.00013239087947882735,
+      "loss": 0.2761,
+      "step": 4390
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.00013199999999999998,
+      "loss": 0.2725,
+      "step": 4400
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.29228949546813965,
+      "eval_runtime": 813.002,
+      "eval_samples_per_second": 2.46,
+      "eval_steps_per_second": 0.308,
+      "step": 4400
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00013160912052117264,
+      "loss": 0.2816,
+      "step": 4410
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00013121824104234527,
+      "loss": 0.2777,
+      "step": 4420
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0001308273615635179,
+      "loss": 0.2579,
+      "step": 4430
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.00013043648208469052,
+      "loss": 0.274,
+      "step": 4440
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.00013004560260586318,
+      "loss": 0.2737,
+      "step": 4450
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.00012965472312703583,
+      "loss": 0.269,
+      "step": 4460
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.00012926384364820846,
+      "loss": 0.2683,
+      "step": 4470
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.0001288729641693811,
+      "loss": 0.2697,
+      "step": 4480
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.00012848208469055372,
+      "loss": 0.2724,
+      "step": 4490
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.00012809120521172637,
+      "loss": 0.2692,
+      "step": 4500
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.00012770032573289903,
+      "loss": 0.2734,
+      "step": 4510
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.00012730944625407166,
+      "loss": 0.256,
+      "step": 4520
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.00012691856677524428,
+      "loss": 0.2695,
+      "step": 4530
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00012652768729641694,
+      "loss": 0.2743,
+      "step": 4540
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.00012613680781758957,
+      "loss": 0.2709,
+      "step": 4550
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.0001257459283387622,
+      "loss": 0.2662,
+      "step": 4560
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00012535504885993482,
+      "loss": 0.2664,
+      "step": 4570
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.00012496416938110748,
+      "loss": 0.2567,
+      "step": 4580
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.00012457328990228013,
+      "loss": 0.2645,
+      "step": 4590
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00012418241042345276,
+      "loss": 0.2708,
+      "step": 4600
+    },
+    {
+      "epoch": 2.96,
+      "eval_loss": 0.29191577434539795,
+      "eval_runtime": 812.9344,
+      "eval_samples_per_second": 2.46,
+      "eval_steps_per_second": 0.308,
+      "step": 4600
     }
   ],
   "logging_steps": 10,
   "max_steps": 7775,
   "num_train_epochs": 5,
   "save_steps": 200,
+  "total_flos": 8.106140807566295e+18,
   "trial_name": null,
   "trial_params": null
 }

with_input/decomp_code_with_intermediates/llama-2-7b/best_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "enable_lora": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "merge_weights": false,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "target_modules": [
+    "q_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

with_input/decomp_code_with_intermediates/llama-2-7b/best_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e0405d88cb30e39ecc34606d067e7d4c47d582098529effa8deac41622b18ca
+size 67201357

with_input/decomp_code_with_intermediates/llama-2-7b/best_model/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2d224ff38e2edcdd9e6ed1a6ca7ccd31de023b72f29912527934c65d33c783b
+size 134433093

with_input/decomp_code_with_intermediates/llama-2-7b/best_model/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d048c6aad44c269b2e352d34467f9c6e448b72d27c99c5b0723b3dc385b552ac
+size 14575

with_input/decomp_code_with_intermediates/llama-2-7b/best_model/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ef4538bb4c4ccd639f82a857dcd9692f818d5cfe746cb7b8a3f0a2708086ade
+size 627

with_input/decomp_code_with_intermediates/llama-2-7b/best_model/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2963 @@

+{
+  "best_metric": 0.3047821521759033,
+  "best_model_checkpoint": "checkpoints/instrucode/with_input/decomp_code_with_intermediates/llama-2-7b/checkpoint-4600",
+  "epoch": 2.958199356913183,
+  "eval_steps": 200,
+  "global_step": 4600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 1.0271,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 0.9546,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 0.8146,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 0.575,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00015,
+      "loss": 0.4684,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 0.4319,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00020999999999999998,
+      "loss": 0.4216,
+      "step": 70
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 0.4052,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00027,
+      "loss": 0.3835,
+      "step": 90
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0003,
+      "loss": 0.3884,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00029960912052117263,
+      "loss": 0.3753,
+      "step": 110
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002992182410423453,
+      "loss": 0.3825,
+      "step": 120
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002988273615635179,
+      "loss": 0.3745,
+      "step": 130
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00029843648208469054,
+      "loss": 0.3676,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00029804560260586314,
+      "loss": 0.3813,
+      "step": 150
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002976547231270358,
+      "loss": 0.3692,
+      "step": 160
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00029726384364820845,
+      "loss": 0.3661,
+      "step": 170
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00029687296416938105,
+      "loss": 0.3591,
+      "step": 180
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002964820846905537,
+      "loss": 0.3638,
+      "step": 190
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00029609120521172636,
+      "loss": 0.3624,
+      "step": 200
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.35484859347343445,
+      "eval_runtime": 622.7911,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 0.401,
+      "step": 200
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00029573941368078174,
+      "loss": 0.3593,
+      "step": 210
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0002953485342019544,
+      "loss": 0.3482,
+      "step": 220
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00029495765472312705,
+      "loss": 0.3452,
+      "step": 230
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00029456677524429965,
+      "loss": 0.3469,
+      "step": 240
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002941758957654723,
+      "loss": 0.3535,
+      "step": 250
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002937850162866449,
+      "loss": 0.3562,
+      "step": 260
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00029339413680781756,
+      "loss": 0.3434,
+      "step": 270
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002930032573289902,
+      "loss": 0.3482,
+      "step": 280
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002926123778501628,
+      "loss": 0.3601,
+      "step": 290
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00029222149837133547,
+      "loss": 0.3501,
+      "step": 300
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002918306188925081,
+      "loss": 0.3532,
+      "step": 310
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002914397394136808,
+      "loss": 0.352,
+      "step": 320
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002910488599348534,
+      "loss": 0.3417,
+      "step": 330
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00029065798045602604,
+      "loss": 0.3354,
+      "step": 340
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00029026710097719864,
+      "loss": 0.3534,
+      "step": 350
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002898762214983713,
+      "loss": 0.3395,
+      "step": 360
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00028948534201954395,
+      "loss": 0.3537,
+      "step": 370
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002890944625407166,
+      "loss": 0.3423,
+      "step": 380
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002887035830618892,
+      "loss": 0.3323,
+      "step": 390
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00028831270358306186,
+      "loss": 0.3461,
+      "step": 400
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.3401348292827606,
+      "eval_runtime": 622.7746,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 0.401,
+      "step": 400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002879218241042345,
+      "loss": 0.3458,
+      "step": 410
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002875309446254071,
+      "loss": 0.3286,
+      "step": 420
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002871400651465798,
+      "loss": 0.3352,
+      "step": 430
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00028674918566775243,
+      "loss": 0.3406,
+      "step": 440
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00028635830618892503,
+      "loss": 0.3382,
+      "step": 450
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002859674267100977,
+      "loss": 0.3501,
+      "step": 460
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00028557654723127034,
+      "loss": 0.3494,
+      "step": 470
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000285185667752443,
+      "loss": 0.3364,
+      "step": 480
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00028483387622149837,
+      "loss": 0.3453,
+      "step": 490
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00028444299674267097,
+      "loss": 0.3407,
+      "step": 500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002840521172638436,
+      "loss": 0.3369,
+      "step": 510
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002836612377850163,
+      "loss": 0.3297,
+      "step": 520
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002832703583061889,
+      "loss": 0.3347,
+      "step": 530
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00028287947882736154,
+      "loss": 0.3424,
+      "step": 540
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00028248859934853414,
+      "loss": 0.3341,
+      "step": 550
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002820977198697068,
+      "loss": 0.3383,
+      "step": 560
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00028170684039087945,
+      "loss": 0.3328,
+      "step": 570
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002813159609120521,
+      "loss": 0.3388,
+      "step": 580
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00028092508143322476,
+      "loss": 0.325,
+      "step": 590
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00028053420195439736,
+      "loss": 0.3366,
+      "step": 600
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.3323810398578644,
+      "eval_runtime": 618.7233,
+      "eval_samples_per_second": 3.232,
+      "eval_steps_per_second": 0.404,
+      "step": 600
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00028014332247557,
+      "loss": 0.3235,
+      "step": 610
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00027975244299674267,
+      "loss": 0.3252,
+      "step": 620
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00027936156351791527,
+      "loss": 0.3336,
+      "step": 630
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002789706840390879,
+      "loss": 0.3467,
+      "step": 640
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002785798045602606,
+      "loss": 0.3443,
+      "step": 650
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002781889250814332,
+      "loss": 0.3341,
+      "step": 660
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00027783713355048856,
+      "loss": 0.3489,
+      "step": 670
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002774462540716612,
+      "loss": 0.3488,
+      "step": 680
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00027705537459283387,
+      "loss": 0.3274,
+      "step": 690
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002766644951140065,
+      "loss": 0.3366,
+      "step": 700
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002762736156351791,
+      "loss": 0.3237,
+      "step": 710
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002758827361563518,
+      "loss": 0.3276,
+      "step": 720
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002754918566775244,
+      "loss": 0.3411,
+      "step": 730
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00027510097719869703,
+      "loss": 0.3207,
+      "step": 740
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002747100977198697,
+      "loss": 0.3261,
+      "step": 750
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00027431921824104234,
+      "loss": 0.3291,
+      "step": 760
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00027392833876221495,
+      "loss": 0.3323,
+      "step": 770
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002735374592833876,
+      "loss": 0.3461,
+      "step": 780
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00027314657980456026,
+      "loss": 0.3284,
+      "step": 790
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002727557003257329,
+      "loss": 0.329,
+      "step": 800
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.32687681913375854,
+      "eval_runtime": 617.3312,
+      "eval_samples_per_second": 3.24,
+      "eval_steps_per_second": 0.405,
+      "step": 800
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002723648208469055,
+      "loss": 0.3361,
+      "step": 810
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00027197394136807817,
+      "loss": 0.3192,
+      "step": 820
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00027158306188925077,
+      "loss": 0.3237,
+      "step": 830
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002711921824104234,
+      "loss": 0.3351,
+      "step": 840
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002708013029315961,
+      "loss": 0.3411,
+      "step": 850
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00027041042345276873,
+      "loss": 0.3353,
+      "step": 860
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00027001954397394134,
+      "loss": 0.3343,
+      "step": 870
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.000269628664495114,
+      "loss": 0.323,
+      "step": 880
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00026923778501628665,
+      "loss": 0.3312,
+      "step": 890
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00026884690553745925,
+      "loss": 0.3212,
+      "step": 900
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002684560260586319,
+      "loss": 0.3253,
+      "step": 910
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002680651465798045,
+      "loss": 0.3245,
+      "step": 920
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00026767426710097716,
+      "loss": 0.3329,
+      "step": 930
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002672833876221498,
+      "loss": 0.3207,
+      "step": 940
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00026689250814332247,
+      "loss": 0.3327,
+      "step": 950
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002665016286644951,
+      "loss": 0.3132,
+      "step": 960
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002661107491856677,
+      "loss": 0.306,
+      "step": 970
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0002657198697068404,
+      "loss": 0.3169,
+      "step": 980
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.000265328990228013,
+      "loss": 0.3217,
+      "step": 990
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00026493811074918564,
+      "loss": 0.3409,
+      "step": 1000
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.3231165111064911,
+      "eval_runtime": 607.1505,
+      "eval_samples_per_second": 3.294,
+      "eval_steps_per_second": 0.412,
+      "step": 1000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002645472312703583,
+      "loss": 0.322,
+      "step": 1010
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0002641563517915309,
+      "loss": 0.3225,
+      "step": 1020
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00026376547231270355,
+      "loss": 0.3292,
+      "step": 1030
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002633745928338762,
+      "loss": 0.3245,
+      "step": 1040
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00026298371335504886,
+      "loss": 0.3423,
+      "step": 1050
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00026259283387622146,
+      "loss": 0.3206,
+      "step": 1060
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0002622019543973941,
+      "loss": 0.3352,
+      "step": 1070
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00026181107491856677,
+      "loss": 0.3293,
+      "step": 1080
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00026142019543973937,
+      "loss": 0.3337,
+      "step": 1090
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.000261029315960912,
+      "loss": 0.3341,
+      "step": 1100
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0002606384364820847,
+      "loss": 0.3269,
+      "step": 1110
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0002602475570032573,
+      "loss": 0.3296,
+      "step": 1120
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00025985667752442994,
+      "loss": 0.3218,
+      "step": 1130
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0002594657980456026,
+      "loss": 0.319,
+      "step": 1140
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00025907491856677525,
+      "loss": 0.3268,
+      "step": 1150
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00025868403908794785,
+      "loss": 0.3158,
+      "step": 1160
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0002582931596091205,
+      "loss": 0.3288,
+      "step": 1170
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002579022801302931,
+      "loss": 0.3114,
+      "step": 1180
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00025751140065146576,
+      "loss": 0.3274,
+      "step": 1190
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0002571205211726384,
+      "loss": 0.3227,
+      "step": 1200
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.320186048746109,
+      "eval_runtime": 613.0278,
+      "eval_samples_per_second": 3.262,
+      "eval_steps_per_second": 0.408,
+      "step": 1200
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00025672964169381107,
+      "loss": 0.3321,
+      "step": 1210
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002563387622149837,
+      "loss": 0.33,
+      "step": 1220
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00025594788273615633,
+      "loss": 0.3287,
+      "step": 1230
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.000255557003257329,
+      "loss": 0.337,
+      "step": 1240
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0002551661237785016,
+      "loss": 0.3281,
+      "step": 1250
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00025477524429967424,
+      "loss": 0.3275,
+      "step": 1260
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002543843648208469,
+      "loss": 0.323,
+      "step": 1270
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002539934853420195,
+      "loss": 0.3238,
+      "step": 1280
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00025360260586319215,
+      "loss": 0.3159,
+      "step": 1290
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002532117263843648,
+      "loss": 0.3235,
+      "step": 1300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00025282084690553746,
+      "loss": 0.3215,
+      "step": 1310
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00025242996742671006,
+      "loss": 0.3193,
+      "step": 1320
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002520390879478827,
+      "loss": 0.3145,
+      "step": 1330
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002516482084690553,
+      "loss": 0.3415,
+      "step": 1340
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.000251257328990228,
+      "loss": 0.3307,
+      "step": 1350
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00025086644951140063,
+      "loss": 0.3262,
+      "step": 1360
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002504755700325733,
+      "loss": 0.3197,
+      "step": 1370
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0002500846905537459,
+      "loss": 0.3242,
+      "step": 1380
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00024969381107491854,
+      "loss": 0.3225,
+      "step": 1390
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002493029315960912,
+      "loss": 0.3296,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.31777673959732056,
+      "eval_runtime": 620.9719,
+      "eval_samples_per_second": 3.221,
+      "eval_steps_per_second": 0.403,
+      "step": 1400
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00024891205211726385,
+      "loss": 0.3242,
+      "step": 1410
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00024852117263843645,
+      "loss": 0.3164,
+      "step": 1420
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0002481302931596091,
+      "loss": 0.3055,
+      "step": 1430
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002477394136807817,
+      "loss": 0.3191,
+      "step": 1440
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00024734853420195436,
+      "loss": 0.3219,
+      "step": 1450
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000246957654723127,
+      "loss": 0.3225,
+      "step": 1460
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0002465667752442997,
+      "loss": 0.3121,
+      "step": 1470
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0002461758957654723,
+      "loss": 0.325,
+      "step": 1480
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00024578501628664493,
+      "loss": 0.3203,
+      "step": 1490
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002453941368078176,
+      "loss": 0.3211,
+      "step": 1500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002450032573289902,
+      "loss": 0.3212,
+      "step": 1510
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00024461237785016284,
+      "loss": 0.3213,
+      "step": 1520
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0002442214983713355,
+      "loss": 0.3263,
+      "step": 1530
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002438306188925081,
+      "loss": 0.3187,
+      "step": 1540
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00024343973941368075,
+      "loss": 0.3129,
+      "step": 1550
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0002430488599348534,
+      "loss": 0.3109,
+      "step": 1560
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00024265798045602604,
+      "loss": 0.3093,
+      "step": 1570
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0002422671009771987,
+      "loss": 0.3044,
+      "step": 1580
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0002418762214983713,
+      "loss": 0.3137,
+      "step": 1590
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00024148534201954395,
+      "loss": 0.3057,
+      "step": 1600
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.3158407509326935,
+      "eval_runtime": 618.9877,
+      "eval_samples_per_second": 3.231,
+      "eval_steps_per_second": 0.404,
+      "step": 1600
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0002410944625407166,
+      "loss": 0.3057,
+      "step": 1610
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00024070358306188923,
+      "loss": 0.3123,
+      "step": 1620
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0002403127035830619,
+      "loss": 0.3042,
+      "step": 1630
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0002399218241042345,
+      "loss": 0.3028,
+      "step": 1640
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00023953094462540714,
+      "loss": 0.2986,
+      "step": 1650
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00023914006514657977,
+      "loss": 0.2956,
+      "step": 1660
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00023874918566775243,
+      "loss": 0.3183,
+      "step": 1670
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00023835830618892508,
+      "loss": 0.3081,
+      "step": 1680
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00023796742671009768,
+      "loss": 0.3147,
+      "step": 1690
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00023757654723127034,
+      "loss": 0.2932,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00023718566775244297,
+      "loss": 0.3019,
+      "step": 1710
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00023679478827361562,
+      "loss": 0.3149,
+      "step": 1720
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00023640390879478828,
+      "loss": 0.314,
+      "step": 1730
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00023601302931596088,
+      "loss": 0.3025,
+      "step": 1740
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00023562214983713353,
+      "loss": 0.3045,
+      "step": 1750
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00023523127035830616,
+      "loss": 0.3036,
+      "step": 1760
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00023484039087947882,
+      "loss": 0.3088,
+      "step": 1770
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00023444951140065144,
+      "loss": 0.3156,
+      "step": 1780
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00023405863192182407,
+      "loss": 0.3019,
+      "step": 1790
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0002336677524429967,
+      "loss": 0.3145,
+      "step": 1800
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.3144530653953552,
+      "eval_runtime": 627.6292,
+      "eval_samples_per_second": 3.187,
+      "eval_steps_per_second": 0.398,
+      "step": 1800
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00023327687296416936,
+      "loss": 0.3062,
+      "step": 1810
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.000232885993485342,
+      "loss": 0.3147,
+      "step": 1820
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00023249511400651464,
+      "loss": 0.314,
+      "step": 1830
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00023210423452768727,
+      "loss": 0.3025,
+      "step": 1840
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0002317133550488599,
+      "loss": 0.3099,
+      "step": 1850
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00023132247557003255,
+      "loss": 0.2983,
+      "step": 1860
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0002309315960912052,
+      "loss": 0.3092,
+      "step": 1870
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00023054071661237783,
+      "loss": 0.3157,
+      "step": 1880
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00023014983713355046,
+      "loss": 0.3083,
+      "step": 1890
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0002297589576547231,
+      "loss": 0.3099,
+      "step": 1900
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00022936807817589575,
+      "loss": 0.3033,
+      "step": 1910
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00022897719869706837,
+      "loss": 0.3116,
+      "step": 1920
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00022858631921824103,
+      "loss": 0.3063,
+      "step": 1930
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00022819543973941368,
+      "loss": 0.2945,
+      "step": 1940
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00022780456026058629,
+      "loss": 0.3154,
+      "step": 1950
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00022741368078175894,
+      "loss": 0.3065,
+      "step": 1960
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00022702280130293157,
+      "loss": 0.3054,
+      "step": 1970
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00022663192182410422,
+      "loss": 0.3148,
+      "step": 1980
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00022624104234527688,
+      "loss": 0.3009,
+      "step": 1990
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00022585016286644948,
+      "loss": 0.3194,
+      "step": 2000
+    },
+    {
+      "epoch": 1.29,
+      "eval_loss": 0.3134351372718811,
+      "eval_runtime": 638.1689,
+      "eval_samples_per_second": 3.134,
+      "eval_steps_per_second": 0.392,
+      "step": 2000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00022545928338762214,
+      "loss": 0.307,
+      "step": 2010
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00022506840390879476,
+      "loss": 0.2982,
+      "step": 2020
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00022467752442996742,
+      "loss": 0.3063,
+      "step": 2030
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00022428664495114005,
+      "loss": 0.3007,
+      "step": 2040
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00022389576547231268,
+      "loss": 0.3071,
+      "step": 2050
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0002235048859934853,
+      "loss": 0.3134,
+      "step": 2060
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00022311400651465796,
+      "loss": 0.297,
+      "step": 2070
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00022272312703583061,
+      "loss": 0.3114,
+      "step": 2080
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00022233224755700324,
+      "loss": 0.301,
+      "step": 2090
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00022194136807817587,
+      "loss": 0.3189,
+      "step": 2100
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0002215504885993485,
+      "loss": 0.3021,
+      "step": 2110
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00022115960912052115,
+      "loss": 0.2987,
+      "step": 2120
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0002207687296416938,
+      "loss": 0.305,
+      "step": 2130
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00022037785016286644,
+      "loss": 0.321,
+      "step": 2140
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00021998697068403907,
+      "loss": 0.2944,
+      "step": 2150
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0002195960912052117,
+      "loss": 0.3051,
+      "step": 2160
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00021920521172638435,
+      "loss": 0.2972,
+      "step": 2170
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00021881433224755698,
+      "loss": 0.3037,
+      "step": 2180
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00021842345276872963,
+      "loss": 0.3093,
+      "step": 2190
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00021803257328990223,
+      "loss": 0.3161,
+      "step": 2200
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.31146764755249023,
+      "eval_runtime": 612.5254,
+      "eval_samples_per_second": 3.265,
+      "eval_steps_per_second": 0.408,
+      "step": 2200
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0002176416938110749,
+      "loss": 0.2985,
+      "step": 2210
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00021725081433224754,
+      "loss": 0.3099,
+      "step": 2220
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00021685993485342017,
+      "loss": 0.3027,
+      "step": 2230
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00021646905537459283,
+      "loss": 0.304,
+      "step": 2240
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00021607817589576543,
+      "loss": 0.3134,
+      "step": 2250
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00021568729641693808,
+      "loss": 0.319,
+      "step": 2260
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00021529641693811074,
+      "loss": 0.3048,
+      "step": 2270
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00021490553745928337,
+      "loss": 0.3008,
+      "step": 2280
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00021451465798045602,
+      "loss": 0.3187,
+      "step": 2290
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00021412377850162865,
+      "loss": 0.3055,
+      "step": 2300
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00021373289902280128,
+      "loss": 0.3072,
+      "step": 2310
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0002133420195439739,
+      "loss": 0.3031,
+      "step": 2320
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00021295114006514656,
+      "loss": 0.3098,
+      "step": 2330
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00021256026058631922,
+      "loss": 0.3073,
+      "step": 2340
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00021216938110749185,
+      "loss": 0.3049,
+      "step": 2350
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00021177850162866447,
+      "loss": 0.3114,
+      "step": 2360
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0002113876221498371,
+      "loss": 0.3074,
+      "step": 2370
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00021099674267100976,
+      "loss": 0.3187,
+      "step": 2380
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0002106058631921824,
+      "loss": 0.3034,
+      "step": 2390
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00021021498371335504,
+      "loss": 0.3007,
+      "step": 2400
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.3109865188598633,
+      "eval_runtime": 608.1214,
+      "eval_samples_per_second": 3.289,
+      "eval_steps_per_second": 0.411,
+      "step": 2400
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00020982410423452767,
+      "loss": 0.289,
+      "step": 2410
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0002094332247557003,
+      "loss": 0.297,
+      "step": 2420
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00020904234527687295,
+      "loss": 0.3101,
+      "step": 2430
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00020865146579804558,
+      "loss": 0.2995,
+      "step": 2440
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00020826058631921824,
+      "loss": 0.3033,
+      "step": 2450
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00020786970684039084,
+      "loss": 0.3059,
+      "step": 2460
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0002074788273615635,
+      "loss": 0.3056,
+      "step": 2470
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00020708794788273615,
+      "loss": 0.3003,
+      "step": 2480
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00020669706840390877,
+      "loss": 0.2931,
+      "step": 2490
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00020630618892508143,
+      "loss": 0.3042,
+      "step": 2500
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00020591530944625403,
+      "loss": 0.3049,
+      "step": 2510
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00020552442996742669,
+      "loss": 0.3006,
+      "step": 2520
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00020513355048859934,
+      "loss": 0.3085,
+      "step": 2530
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00020474267100977197,
+      "loss": 0.3142,
+      "step": 2540
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00020435179153094462,
+      "loss": 0.2969,
+      "step": 2550
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00020396091205211723,
+      "loss": 0.2993,
+      "step": 2560
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00020357003257328988,
+      "loss": 0.3145,
+      "step": 2570
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0002031791530944625,
+      "loss": 0.3038,
+      "step": 2580
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00020278827361563516,
+      "loss": 0.3103,
+      "step": 2590
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00020239739413680782,
+      "loss": 0.3104,
+      "step": 2600
+    },
+    {
+      "epoch": 1.67,
+      "eval_loss": 0.3095039129257202,
+      "eval_runtime": 619.0261,
+      "eval_samples_per_second": 3.231,
+      "eval_steps_per_second": 0.404,
+      "step": 2600
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00020200651465798042,
+      "loss": 0.2998,
+      "step": 2610
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00020161563517915308,
+      "loss": 0.3099,
+      "step": 2620
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0002012247557003257,
+      "loss": 0.295,
+      "step": 2630
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00020083387622149836,
+      "loss": 0.3149,
+      "step": 2640
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00020044299674267101,
+      "loss": 0.2916,
+      "step": 2650
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00020005211726384362,
+      "loss": 0.3077,
+      "step": 2660
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00019966123778501627,
+      "loss": 0.3039,
+      "step": 2670
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001992703583061889,
+      "loss": 0.2973,
+      "step": 2680
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00019887947882736155,
+      "loss": 0.3065,
+      "step": 2690
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00019848859934853418,
+      "loss": 0.302,
+      "step": 2700
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00019809771986970684,
+      "loss": 0.3038,
+      "step": 2710
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00019770684039087944,
+      "loss": 0.3141,
+      "step": 2720
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0001973159609120521,
+      "loss": 0.3057,
+      "step": 2730
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00019692508143322475,
+      "loss": 0.3071,
+      "step": 2740
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00019653420195439738,
+      "loss": 0.3104,
+      "step": 2750
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00019614332247557003,
+      "loss": 0.2963,
+      "step": 2760
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00019575244299674263,
+      "loss": 0.3005,
+      "step": 2770
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0001953615635179153,
+      "loss": 0.2999,
+      "step": 2780
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00019497068403908794,
+      "loss": 0.3054,
+      "step": 2790
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00019457980456026057,
+      "loss": 0.3005,
+      "step": 2800
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 0.308525413274765,
+      "eval_runtime": 624.5619,
+      "eval_samples_per_second": 3.202,
+      "eval_steps_per_second": 0.4,
+      "step": 2800
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00019418892508143323,
+      "loss": 0.3012,
+      "step": 2810
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00019379804560260583,
+      "loss": 0.3038,
+      "step": 2820
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00019340716612377848,
+      "loss": 0.2939,
+      "step": 2830
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0001930162866449511,
+      "loss": 0.2947,
+      "step": 2840
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00019262540716612377,
+      "loss": 0.3038,
+      "step": 2850
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00019223452768729642,
+      "loss": 0.3043,
+      "step": 2860
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00019184364820846902,
+      "loss": 0.3122,
+      "step": 2870
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00019145276872964168,
+      "loss": 0.2974,
+      "step": 2880
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0001910618892508143,
+      "loss": 0.2962,
+      "step": 2890
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00019067100977198696,
+      "loss": 0.2995,
+      "step": 2900
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00019028013029315962,
+      "loss": 0.3048,
+      "step": 2910
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00018988925081433222,
+      "loss": 0.2995,
+      "step": 2920
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00018949837133550487,
+      "loss": 0.3016,
+      "step": 2930
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0001891074918566775,
+      "loss": 0.289,
+      "step": 2940
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00018871661237785016,
+      "loss": 0.3013,
+      "step": 2950
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00018832573289902279,
+      "loss": 0.2949,
+      "step": 2960
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0001879348534201954,
+      "loss": 0.3114,
+      "step": 2970
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00018754397394136804,
+      "loss": 0.3051,
+      "step": 2980
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0001871530944625407,
+      "loss": 0.2993,
+      "step": 2990
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00018676221498371335,
+      "loss": 0.3048,
+      "step": 3000
+    },
+    {
+      "epoch": 1.93,
+      "eval_loss": 0.30739831924438477,
+      "eval_runtime": 634.2258,
+      "eval_samples_per_second": 3.153,
+      "eval_steps_per_second": 0.394,
+      "step": 3000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00018637133550488598,
+      "loss": 0.2921,
+      "step": 3010
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0001859804560260586,
+      "loss": 0.2976,
+      "step": 3020
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00018558957654723124,
+      "loss": 0.3066,
+      "step": 3030
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0001851986970684039,
+      "loss": 0.2971,
+      "step": 3040
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00018480781758957655,
+      "loss": 0.3051,
+      "step": 3050
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00018441693811074918,
+      "loss": 0.2982,
+      "step": 3060
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00018402605863192183,
+      "loss": 0.2979,
+      "step": 3070
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00018363517915309443,
+      "loss": 0.3063,
+      "step": 3080
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0001832442996742671,
+      "loss": 0.3027,
+      "step": 3090
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00018285342019543971,
+      "loss": 0.3117,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00018246254071661237,
+      "loss": 0.322,
+      "step": 3110
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.00018207166123778503,
+      "loss": 0.3016,
+      "step": 3120
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.00018168078175895763,
+      "loss": 0.2895,
+      "step": 3130
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00018128990228013028,
+      "loss": 0.2866,
+      "step": 3140
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0001808990228013029,
+      "loss": 0.2965,
+      "step": 3150
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.00018050814332247556,
+      "loss": 0.2852,
+      "step": 3160
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.00018011726384364822,
+      "loss": 0.2843,
+      "step": 3170
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.00017972638436482082,
+      "loss": 0.2762,
+      "step": 3180
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.00017933550488599348,
+      "loss": 0.2911,
+      "step": 3190
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0001789446254071661,
+      "loss": 0.2918,
+      "step": 3200
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.3086208999156952,
+      "eval_runtime": 609.127,
+      "eval_samples_per_second": 3.283,
+      "eval_steps_per_second": 0.41,
+      "step": 3200
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00017855374592833876,
+      "loss": 0.2897,
+      "step": 3210
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0001781628664495114,
+      "loss": 0.2673,
+      "step": 3220
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.00017777198697068402,
+      "loss": 0.2912,
+      "step": 3230
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.00017738110749185664,
+      "loss": 0.2951,
+      "step": 3240
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0001769902280130293,
+      "loss": 0.2823,
+      "step": 3250
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.00017659934853420195,
+      "loss": 0.2888,
+      "step": 3260
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.00017620846905537458,
+      "loss": 0.289,
+      "step": 3270
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0001758175895765472,
+      "loss": 0.281,
+      "step": 3280
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.00017542671009771984,
+      "loss": 0.2901,
+      "step": 3290
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0001750358306188925,
+      "loss": 0.2858,
+      "step": 3300
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.00017464495114006515,
+      "loss": 0.2945,
+      "step": 3310
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00017425407166123778,
+      "loss": 0.2858,
+      "step": 3320
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0001738631921824104,
+      "loss": 0.2894,
+      "step": 3330
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.00017347231270358303,
+      "loss": 0.294,
+      "step": 3340
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0001730814332247557,
+      "loss": 0.2867,
+      "step": 3350
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.00017269055374592832,
+      "loss": 0.2789,
+      "step": 3360
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.00017229967426710097,
+      "loss": 0.2896,
+      "step": 3370
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.00017190879478827357,
+      "loss": 0.2824,
+      "step": 3380
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.00017151791530944623,
+      "loss": 0.2815,
+      "step": 3390
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.00017112703583061888,
+      "loss": 0.2894,
+      "step": 3400
+    },
+    {
+      "epoch": 2.19,
+      "eval_loss": 0.3088096082210541,
+      "eval_runtime": 609.5049,
+      "eval_samples_per_second": 3.281,
+      "eval_steps_per_second": 0.41,
+      "step": 3400
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0001707361563517915,
+      "loss": 0.2812,
+      "step": 3410
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.00017034527687296417,
+      "loss": 0.2806,
+      "step": 3420
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.00016995439739413677,
+      "loss": 0.2797,
+      "step": 3430
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.00016956351791530942,
+      "loss": 0.282,
+      "step": 3440
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.00016917263843648208,
+      "loss": 0.2969,
+      "step": 3450
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0001687817589576547,
+      "loss": 0.2759,
+      "step": 3460
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00016839087947882736,
+      "loss": 0.2969,
+      "step": 3470
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.000168,
+      "loss": 0.2982,
+      "step": 3480
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.00016760912052117262,
+      "loss": 0.2932,
+      "step": 3490
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.00016721824104234525,
+      "loss": 0.2807,
+      "step": 3500
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0001668273615635179,
+      "loss": 0.2866,
+      "step": 3510
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.00016643648208469056,
+      "loss": 0.2855,
+      "step": 3520
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.00016604560260586319,
+      "loss": 0.2839,
+      "step": 3530
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.00016565472312703581,
+      "loss": 0.2819,
+      "step": 3540
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.00016526384364820844,
+      "loss": 0.2771,
+      "step": 3550
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0001648729641693811,
+      "loss": 0.2833,
+      "step": 3560
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.00016448208469055375,
+      "loss": 0.2842,
+      "step": 3570
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.00016409120521172638,
+      "loss": 0.2916,
+      "step": 3580
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.000163700325732899,
+      "loss": 0.2942,
+      "step": 3590
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.00016330944625407164,
+      "loss": 0.2856,
+      "step": 3600
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 0.3076852560043335,
+      "eval_runtime": 610.2962,
+      "eval_samples_per_second": 3.277,
+      "eval_steps_per_second": 0.41,
+      "step": 3600
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0001629185667752443,
+      "loss": 0.2952,
+      "step": 3610
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.00016252768729641692,
+      "loss": 0.2816,
+      "step": 3620
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.00016213680781758958,
+      "loss": 0.2958,
+      "step": 3630
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.00016174592833876218,
+      "loss": 0.2893,
+      "step": 3640
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.00016135504885993483,
+      "loss": 0.2934,
+      "step": 3650
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0001609641693811075,
+      "loss": 0.2885,
+      "step": 3660
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.00016057328990228012,
+      "loss": 0.2789,
+      "step": 3670
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.00016018241042345277,
+      "loss": 0.2929,
+      "step": 3680
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.00015979153094462537,
+      "loss": 0.2839,
+      "step": 3690
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00015940065146579803,
+      "loss": 0.2901,
+      "step": 3700
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00015900977198697068,
+      "loss": 0.291,
+      "step": 3710
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0001586188925081433,
+      "loss": 0.2944,
+      "step": 3720
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.00015822801302931597,
+      "loss": 0.2922,
+      "step": 3730
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00015783713355048857,
+      "loss": 0.2836,
+      "step": 3740
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00015744625407166122,
+      "loss": 0.2897,
+      "step": 3750
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00015705537459283385,
+      "loss": 0.2896,
+      "step": 3760
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0001566644951140065,
+      "loss": 0.2858,
+      "step": 3770
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.00015627361563517916,
+      "loss": 0.2922,
+      "step": 3780
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00015588273615635176,
+      "loss": 0.2838,
+      "step": 3790
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00015549185667752442,
+      "loss": 0.2812,
+      "step": 3800
+    },
+    {
+      "epoch": 2.44,
+      "eval_loss": 0.30719852447509766,
+      "eval_runtime": 610.1393,
+      "eval_samples_per_second": 3.278,
+      "eval_steps_per_second": 0.41,
+      "step": 3800
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.00015510097719869704,
+      "loss": 0.2878,
+      "step": 3810
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0001547100977198697,
+      "loss": 0.2857,
+      "step": 3820
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.00015431921824104236,
+      "loss": 0.2892,
+      "step": 3830
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.00015392833876221498,
+      "loss": 0.2982,
+      "step": 3840
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0001535374592833876,
+      "loss": 0.2944,
+      "step": 3850
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.00015314657980456024,
+      "loss": 0.2853,
+      "step": 3860
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.0001527557003257329,
+      "loss": 0.2739,
+      "step": 3870
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.00015236482084690552,
+      "loss": 0.2928,
+      "step": 3880
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.00015197394136807818,
+      "loss": 0.2797,
+      "step": 3890
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00015158306188925078,
+      "loss": 0.2787,
+      "step": 3900
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00015119218241042343,
+      "loss": 0.2877,
+      "step": 3910
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.0001508013029315961,
+      "loss": 0.2879,
+      "step": 3920
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00015041042345276872,
+      "loss": 0.2836,
+      "step": 3930
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00015001954397394137,
+      "loss": 0.283,
+      "step": 3940
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.000149628664495114,
+      "loss": 0.2966,
+      "step": 3950
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.00014923778501628663,
+      "loss": 0.2896,
+      "step": 3960
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.00014884690553745928,
+      "loss": 0.2852,
+      "step": 3970
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0001484560260586319,
+      "loss": 0.2818,
+      "step": 3980
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00014806514657980454,
+      "loss": 0.2874,
+      "step": 3990
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0001476742671009772,
+      "loss": 0.2811,
+      "step": 4000
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.3067513406276703,
+      "eval_runtime": 607.4662,
+      "eval_samples_per_second": 3.292,
+      "eval_steps_per_second": 0.412,
+      "step": 4000
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.00014728338762214982,
+      "loss": 0.2942,
+      "step": 4010
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00014689250814332245,
+      "loss": 0.2932,
+      "step": 4020
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0001465016286644951,
+      "loss": 0.2794,
+      "step": 4030
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.00014611074918566774,
+      "loss": 0.2891,
+      "step": 4040
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.0001457198697068404,
+      "loss": 0.2772,
+      "step": 4050
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00014532899022801302,
+      "loss": 0.2996,
+      "step": 4060
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.00014493811074918565,
+      "loss": 0.2849,
+      "step": 4070
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0001445472312703583,
+      "loss": 0.2769,
+      "step": 4080
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.00014415635179153093,
+      "loss": 0.2926,
+      "step": 4090
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00014376547231270356,
+      "loss": 0.2892,
+      "step": 4100
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00014337459283387621,
+      "loss": 0.2776,
+      "step": 4110
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.00014298371335504884,
+      "loss": 0.2938,
+      "step": 4120
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0001425928338762215,
+      "loss": 0.2866,
+      "step": 4130
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.00014220195439739413,
+      "loss": 0.2863,
+      "step": 4140
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00014181107491856675,
+      "loss": 0.2883,
+      "step": 4150
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.0001414201954397394,
+      "loss": 0.2875,
+      "step": 4160
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00014102931596091204,
+      "loss": 0.2879,
+      "step": 4170
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0001406384364820847,
+      "loss": 0.2956,
+      "step": 4180
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00014024755700325732,
+      "loss": 0.286,
+      "step": 4190
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.00013985667752442995,
+      "loss": 0.2856,
+      "step": 4200
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.3060224652290344,
+      "eval_runtime": 607.0774,
+      "eval_samples_per_second": 3.294,
+      "eval_steps_per_second": 0.412,
+      "step": 4200
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0001394657980456026,
+      "loss": 0.2849,
+      "step": 4210
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.00013907491856677523,
+      "loss": 0.2956,
+      "step": 4220
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.00013868403908794786,
+      "loss": 0.2815,
+      "step": 4230
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.0001382931596091205,
+      "loss": 0.2909,
+      "step": 4240
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00013790228013029314,
+      "loss": 0.2781,
+      "step": 4250
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0001375114006514658,
+      "loss": 0.2818,
+      "step": 4260
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.00013712052117263843,
+      "loss": 0.2777,
+      "step": 4270
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.00013672964169381106,
+      "loss": 0.2858,
+      "step": 4280
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.00013633876221498368,
+      "loss": 0.2786,
+      "step": 4290
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.00013594788273615634,
+      "loss": 0.2876,
+      "step": 4300
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.000135557003257329,
+      "loss": 0.2877,
+      "step": 4310
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00013516612377850162,
+      "loss": 0.2906,
+      "step": 4320
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00013477524429967425,
+      "loss": 0.2836,
+      "step": 4330
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0001343843648208469,
+      "loss": 0.2777,
+      "step": 4340
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00013399348534201953,
+      "loss": 0.2878,
+      "step": 4350
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00013360260586319216,
+      "loss": 0.2831,
+      "step": 4360
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0001332117263843648,
+      "loss": 0.2877,
+      "step": 4370
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.00013282084690553744,
+      "loss": 0.2818,
+      "step": 4380
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0001324299674267101,
+      "loss": 0.2796,
+      "step": 4390
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.00013203908794788273,
+      "loss": 0.2887,
+      "step": 4400
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.30531054735183716,
+      "eval_runtime": 612.1078,
+      "eval_samples_per_second": 3.267,
+      "eval_steps_per_second": 0.408,
+      "step": 4400
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00013164820846905536,
+      "loss": 0.2897,
+      "step": 4410
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00013125732899022798,
+      "loss": 0.2839,
+      "step": 4420
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.00013086644951140064,
+      "loss": 0.2922,
+      "step": 4430
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0001304755700325733,
+      "loss": 0.2794,
+      "step": 4440
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.00013008469055374592,
+      "loss": 0.2863,
+      "step": 4450
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.00012969381107491855,
+      "loss": 0.286,
+      "step": 4460
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.00012930293159609118,
+      "loss": 0.2956,
+      "step": 4470
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00012891205211726383,
+      "loss": 0.2838,
+      "step": 4480
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.00012852117263843646,
+      "loss": 0.2791,
+      "step": 4490
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0001281302931596091,
+      "loss": 0.2778,
+      "step": 4500
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.00012773941368078175,
+      "loss": 0.2813,
+      "step": 4510
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0001273485342019544,
+      "loss": 0.2824,
+      "step": 4520
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.00012695765472312703,
+      "loss": 0.2735,
+      "step": 4530
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00012656677524429966,
+      "loss": 0.2796,
+      "step": 4540
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.00012617589576547229,
+      "loss": 0.2813,
+      "step": 4550
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.00012578501628664494,
+      "loss": 0.2847,
+      "step": 4560
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.0001253941368078176,
+      "loss": 0.2927,
+      "step": 4570
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.00012500325732899022,
+      "loss": 0.2903,
+      "step": 4580
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.00012461237785016285,
+      "loss": 0.2872,
+      "step": 4590
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00012422149837133548,
+      "loss": 0.2761,
+      "step": 4600
+    },
+    {
+      "epoch": 2.96,
+      "eval_loss": 0.3047821521759033,
+      "eval_runtime": 608.7677,
+      "eval_samples_per_second": 3.285,
+      "eval_steps_per_second": 0.411,
+      "step": 4600
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 7775,
+  "num_train_epochs": 5,
+  "save_steps": 200,
+  "total_flos": 4.1682312131139994e+18,
+  "trial_name": null,
+  "trial_params": null
+}

with_input/decomp_code_with_intermediates/llama-2-7b/best_model/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab07d50472e198dde14f28aa7ad4f294a27b19676460e69c8353014486305e3f
+size 4091