add llama 2 13B alpaqca

Files changed (7) hide show

text_models/llama-2-13b/best_model/adapter_config.json +21 -0
text_models/llama-2-13b/best_model/adapter_model.bin +3 -0
text_models/llama-2-13b/best_model/optimizer.pt +3 -0
text_models/llama-2-13b/best_model/rng_state.pth +3 -0
text_models/llama-2-13b/best_model/scheduler.pt +3 -0
text_models/llama-2-13b/best_model/trainer_state.json +1811 -0
text_models/llama-2-13b/best_model/training_args.bin +3 -0

text_models/llama-2-13b/best_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "base_model_name_or_path": "NousResearch/Llama-2-13b-hf",
+  "bias": "none",
+  "enable_lora": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "merge_weights": false,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "target_modules": [
+    "q_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

text_models/llama-2-13b/best_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26c639990d44f621124ab332166a312f55a74a31ce968fed0bf4025fbdd67943
+size 104973389

text_models/llama-2-13b/best_model/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52e93f15ed6de6254762463e2f47f8968bbdde6663699e64593d7a3696a30bb0
+size 209984517

text_models/llama-2-13b/best_model/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:450d35f81387194759fe85acf4c25f8b61d4b757565f8d66b4dde749027a68e4
+size 14575

text_models/llama-2-13b/best_model/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cc6dae27a4febc82f7e8b57b82cc10c001bd89b4cd9a206eb08faa6b21c39f6
+size 627

text_models/llama-2-13b/best_model/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1811 @@

+{
+  "best_metric": 1.0179498195648193,
+  "best_model_checkpoint": "checkpoints/instrucode/text_models/llama-2-13b/checkpoint-2800",
+  "epoch": 0.8959283257339413,
+  "eval_steps": 200,
+  "global_step": 2800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.6999999999999996e-05,
+      "loss": 1.8454,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 1.8044,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8.4e-05,
+      "loss": 1.507,
+      "step": 30
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00011399999999999999,
+      "loss": 1.1827,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014399999999999998,
+      "loss": 1.0971,
+      "step": 50
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00017399999999999997,
+      "loss": 1.0697,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.000204,
+      "loss": 1.0575,
+      "step": 70
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000234,
+      "loss": 1.05,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000261,
+      "loss": 1.0358,
+      "step": 90
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00029099999999999997,
+      "loss": 1.0837,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00029986473429951686,
+      "loss": 1.0567,
+      "step": 110
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.000299671497584541,
+      "loss": 1.0588,
+      "step": 120
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002994782608695652,
+      "loss": 1.0403,
+      "step": 130
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00029928502415458934,
+      "loss": 1.085,
+      "step": 140
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002990917874396135,
+      "loss": 1.0444,
+      "step": 150
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00029889855072463763,
+      "loss": 1.0612,
+      "step": 160
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002987053140096618,
+      "loss": 1.0615,
+      "step": 170
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00029851207729468597,
+      "loss": 1.0609,
+      "step": 180
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002983188405797101,
+      "loss": 1.0435,
+      "step": 190
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00029812560386473425,
+      "loss": 1.0539,
+      "step": 200
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 1.0482171773910522,
+      "eval_runtime": 155.5549,
+      "eval_samples_per_second": 12.857,
+      "eval_steps_per_second": 1.607,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00029793236714975845,
+      "loss": 1.0065,
+      "step": 210
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002977391304347826,
+      "loss": 1.0197,
+      "step": 220
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00029754589371980674,
+      "loss": 1.0223,
+      "step": 230
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002973526570048309,
+      "loss": 1.0403,
+      "step": 240
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000297159420289855,
+      "loss": 1.012,
+      "step": 250
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002969661835748792,
+      "loss": 1.0601,
+      "step": 260
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00029677294685990336,
+      "loss": 0.9868,
+      "step": 270
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002965797101449275,
+      "loss": 1.0102,
+      "step": 280
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00029638647342995165,
+      "loss": 1.0128,
+      "step": 290
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00029619323671497584,
+      "loss": 1.0341,
+      "step": 300
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.000296,
+      "loss": 1.0528,
+      "step": 310
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00029580676328502413,
+      "loss": 1.0241,
+      "step": 320
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00029561352657004827,
+      "loss": 1.0447,
+      "step": 330
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0002954202898550724,
+      "loss": 1.0127,
+      "step": 340
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0002952270531400966,
+      "loss": 1.0284,
+      "step": 350
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00029503381642512075,
+      "loss": 1.0415,
+      "step": 360
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002948405797101449,
+      "loss": 1.057,
+      "step": 370
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00029464734299516904,
+      "loss": 1.0175,
+      "step": 380
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00029445410628019323,
+      "loss": 1.0623,
+      "step": 390
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0002942608695652174,
+      "loss": 1.0163,
+      "step": 400
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 1.037875771522522,
+      "eval_runtime": 155.5921,
+      "eval_samples_per_second": 12.854,
+      "eval_steps_per_second": 1.607,
+      "step": 400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0002940676328502415,
+      "loss": 1.0738,
+      "step": 410
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00029387439613526566,
+      "loss": 1.0522,
+      "step": 420
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0002936811594202898,
+      "loss": 1.0204,
+      "step": 430
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.000293487922705314,
+      "loss": 1.05,
+      "step": 440
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00029329468599033814,
+      "loss": 1.0065,
+      "step": 450
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002931014492753623,
+      "loss": 1.0789,
+      "step": 460
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00029290821256038643,
+      "loss": 1.0547,
+      "step": 470
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002927149758454106,
+      "loss": 1.0315,
+      "step": 480
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00029252173913043477,
+      "loss": 1.0516,
+      "step": 490
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002923285024154589,
+      "loss": 1.0288,
+      "step": 500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00029213526570048305,
+      "loss": 1.0698,
+      "step": 510
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00029194202898550725,
+      "loss": 1.0411,
+      "step": 520
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002917487922705314,
+      "loss": 0.98,
+      "step": 530
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00029155555555555553,
+      "loss": 1.0629,
+      "step": 540
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002913623188405797,
+      "loss": 0.9911,
+      "step": 550
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002911690821256038,
+      "loss": 1.0405,
+      "step": 560
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.000290975845410628,
+      "loss": 1.0156,
+      "step": 570
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00029078260869565216,
+      "loss": 1.0208,
+      "step": 580
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002905893719806763,
+      "loss": 1.0496,
+      "step": 590
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00029039613526570044,
+      "loss": 1.064,
+      "step": 600
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.035084843635559,
+      "eval_runtime": 155.5047,
+      "eval_samples_per_second": 12.861,
+      "eval_steps_per_second": 1.608,
+      "step": 600
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00029020289855072464,
+      "loss": 1.0018,
+      "step": 610
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002900096618357488,
+      "loss": 1.0337,
+      "step": 620
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002898164251207729,
+      "loss": 1.0067,
+      "step": 630
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00028962318840579707,
+      "loss": 1.0422,
+      "step": 640
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002894299516908212,
+      "loss": 0.9804,
+      "step": 650
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002892367149758454,
+      "loss": 1.0381,
+      "step": 660
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00028904347826086955,
+      "loss": 1.0252,
+      "step": 670
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002888502415458937,
+      "loss": 1.0213,
+      "step": 680
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00028865700483091784,
+      "loss": 1.0747,
+      "step": 690
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00028846376811594203,
+      "loss": 1.0647,
+      "step": 700
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002882705314009662,
+      "loss": 1.0133,
+      "step": 710
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002880772946859903,
+      "loss": 1.0453,
+      "step": 720
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00028788405797101446,
+      "loss": 1.0131,
+      "step": 730
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002876908212560386,
+      "loss": 1.0185,
+      "step": 740
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002874975845410628,
+      "loss": 0.9947,
+      "step": 750
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00028730434782608694,
+      "loss": 1.0273,
+      "step": 760
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002871111111111111,
+      "loss": 1.0582,
+      "step": 770
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00028691787439613523,
+      "loss": 0.9851,
+      "step": 780
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002867246376811594,
+      "loss": 1.0683,
+      "step": 790
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00028653140096618357,
+      "loss": 1.0849,
+      "step": 800
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.0320836305618286,
+      "eval_runtime": 155.6154,
+      "eval_samples_per_second": 12.852,
+      "eval_steps_per_second": 1.607,
+      "step": 800
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002863381642512077,
+      "loss": 1.029,
+      "step": 810
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00028614492753623185,
+      "loss": 0.9788,
+      "step": 820
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00028595169082125605,
+      "loss": 0.9943,
+      "step": 830
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002857584541062802,
+      "loss": 1.0384,
+      "step": 840
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00028556521739130433,
+      "loss": 1.0553,
+      "step": 850
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002853719806763285,
+      "loss": 1.044,
+      "step": 860
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002851787439613526,
+      "loss": 1.0023,
+      "step": 870
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002849855072463768,
+      "loss": 1.0155,
+      "step": 880
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00028479227053140096,
+      "loss": 1.0201,
+      "step": 890
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0002845990338164251,
+      "loss": 1.0142,
+      "step": 900
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00028440579710144924,
+      "loss": 1.0334,
+      "step": 910
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00028421256038647344,
+      "loss": 0.9959,
+      "step": 920
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002840193236714976,
+      "loss": 1.0047,
+      "step": 930
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002838260869565217,
+      "loss": 1.0466,
+      "step": 940
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00028363285024154587,
+      "loss": 1.0273,
+      "step": 950
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00028343961352657,
+      "loss": 1.0104,
+      "step": 960
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0002832463768115942,
+      "loss": 1.0162,
+      "step": 970
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00028305314009661835,
+      "loss": 1.0219,
+      "step": 980
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002828599033816425,
+      "loss": 1.0621,
+      "step": 990
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00028266666666666663,
+      "loss": 1.0275,
+      "step": 1000
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.0296404361724854,
+      "eval_runtime": 155.549,
+      "eval_samples_per_second": 12.858,
+      "eval_steps_per_second": 1.607,
+      "step": 1000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00028247342995169083,
+      "loss": 1.0425,
+      "step": 1010
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.000282280193236715,
+      "loss": 1.0261,
+      "step": 1020
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002820869565217391,
+      "loss": 1.0279,
+      "step": 1030
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00028189371980676326,
+      "loss": 0.997,
+      "step": 1040
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002817004830917874,
+      "loss": 1.0383,
+      "step": 1050
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002815072463768116,
+      "loss": 0.9996,
+      "step": 1060
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00028131400966183574,
+      "loss": 1.0255,
+      "step": 1070
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002811207729468599,
+      "loss": 1.0687,
+      "step": 1080
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000280927536231884,
+      "loss": 1.0425,
+      "step": 1090
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002807342995169082,
+      "loss": 1.0009,
+      "step": 1100
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00028054106280193237,
+      "loss": 1.0413,
+      "step": 1110
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002803478260869565,
+      "loss": 1.018,
+      "step": 1120
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00028015458937198065,
+      "loss": 0.9868,
+      "step": 1130
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00027996135265700485,
+      "loss": 1.042,
+      "step": 1140
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.000279768115942029,
+      "loss": 1.059,
+      "step": 1150
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00027957487922705313,
+      "loss": 1.0019,
+      "step": 1160
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002793816425120773,
+      "loss": 1.0572,
+      "step": 1170
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0002791884057971014,
+      "loss": 1.0218,
+      "step": 1180
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0002789951690821256,
+      "loss": 1.0039,
+      "step": 1190
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00027880193236714976,
+      "loss": 1.0319,
+      "step": 1200
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.0265305042266846,
+      "eval_runtime": 155.6743,
+      "eval_samples_per_second": 12.847,
+      "eval_steps_per_second": 1.606,
+      "step": 1200
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002786086956521739,
+      "loss": 1.0032,
+      "step": 1210
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00027841545893719804,
+      "loss": 1.0386,
+      "step": 1220
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00027822222222222224,
+      "loss": 1.0307,
+      "step": 1230
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0002780289855072464,
+      "loss": 1.0164,
+      "step": 1240
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0002778357487922705,
+      "loss": 1.0167,
+      "step": 1250
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00027764251207729467,
+      "loss": 1.0656,
+      "step": 1260
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002774492753623188,
+      "loss": 1.0917,
+      "step": 1270
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.000277256038647343,
+      "loss": 1.0291,
+      "step": 1280
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00027706280193236715,
+      "loss": 1.0077,
+      "step": 1290
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002768695652173913,
+      "loss": 1.0466,
+      "step": 1300
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00027667632850241543,
+      "loss": 0.9951,
+      "step": 1310
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00027648309178743963,
+      "loss": 1.0229,
+      "step": 1320
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00027628985507246377,
+      "loss": 1.0179,
+      "step": 1330
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002760966183574879,
+      "loss": 1.0246,
+      "step": 1340
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00027590338164251206,
+      "loss": 1.0035,
+      "step": 1350
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002757101449275362,
+      "loss": 1.0491,
+      "step": 1360
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002755169082125604,
+      "loss": 1.0414,
+      "step": 1370
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00027532367149758454,
+      "loss": 1.0505,
+      "step": 1380
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002751304347826087,
+      "loss": 1.0518,
+      "step": 1390
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002749371980676328,
+      "loss": 0.9515,
+      "step": 1400
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 1.0252455472946167,
+      "eval_runtime": 155.152,
+      "eval_samples_per_second": 12.891,
+      "eval_steps_per_second": 1.611,
+      "step": 1400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027474396135265697,
+      "loss": 0.9879,
+      "step": 1410
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027455072463768116,
+      "loss": 1.0464,
+      "step": 1420
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002743574879227053,
+      "loss": 1.0252,
+      "step": 1430
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027416425120772945,
+      "loss": 1.0347,
+      "step": 1440
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002739710144927536,
+      "loss": 0.9957,
+      "step": 1450
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002737777777777778,
+      "loss": 0.9806,
+      "step": 1460
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00027358454106280193,
+      "loss": 1.0245,
+      "step": 1470
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002733913043478261,
+      "loss": 1.0056,
+      "step": 1480
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002731980676328502,
+      "loss": 1.0,
+      "step": 1490
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00027300483091787436,
+      "loss": 0.9525,
+      "step": 1500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00027281159420289856,
+      "loss": 0.9732,
+      "step": 1510
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002726183574879227,
+      "loss": 1.0144,
+      "step": 1520
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00027242512077294684,
+      "loss": 1.0393,
+      "step": 1530
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.000272231884057971,
+      "loss": 1.0473,
+      "step": 1540
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002720386473429951,
+      "loss": 1.0474,
+      "step": 1550
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002718454106280193,
+      "loss": 1.0187,
+      "step": 1560
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00027165217391304347,
+      "loss": 1.0152,
+      "step": 1570
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002714589371980676,
+      "loss": 1.0292,
+      "step": 1580
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00027126570048309175,
+      "loss": 1.0128,
+      "step": 1590
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00027107246376811595,
+      "loss": 1.0336,
+      "step": 1600
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 1.0240451097488403,
+      "eval_runtime": 154.8505,
+      "eval_samples_per_second": 12.916,
+      "eval_steps_per_second": 1.614,
+      "step": 1600
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002708792270531401,
+      "loss": 0.9981,
+      "step": 1610
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00027068599033816423,
+      "loss": 1.0425,
+      "step": 1620
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002704927536231884,
+      "loss": 0.9953,
+      "step": 1630
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002702995169082125,
+      "loss": 1.0266,
+      "step": 1640
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002701062801932367,
+      "loss": 0.9791,
+      "step": 1650
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00026991304347826086,
+      "loss": 0.9972,
+      "step": 1660
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.000269719806763285,
+      "loss": 1.0455,
+      "step": 1670
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00026952657004830914,
+      "loss": 1.0315,
+      "step": 1680
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00026933333333333334,
+      "loss": 1.0055,
+      "step": 1690
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002691400966183575,
+      "loss": 1.0167,
+      "step": 1700
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002689468599033816,
+      "loss": 1.0144,
+      "step": 1710
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00026875362318840577,
+      "loss": 0.9962,
+      "step": 1720
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002685603864734299,
+      "loss": 1.0314,
+      "step": 1730
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002683671497584541,
+      "loss": 0.9594,
+      "step": 1740
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00026817391304347825,
+      "loss": 0.9602,
+      "step": 1750
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002679806763285024,
+      "loss": 0.9885,
+      "step": 1760
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00026778743961352653,
+      "loss": 1.0228,
+      "step": 1770
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002675942028985507,
+      "loss": 1.0312,
+      "step": 1780
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00026740096618357487,
+      "loss": 1.0597,
+      "step": 1790
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.000267207729468599,
+      "loss": 1.0179,
+      "step": 1800
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 1.0231000185012817,
+      "eval_runtime": 154.7726,
+      "eval_samples_per_second": 12.922,
+      "eval_steps_per_second": 1.615,
+      "step": 1800
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00026701449275362316,
+      "loss": 0.9948,
+      "step": 1810
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002668212560386473,
+      "loss": 1.0203,
+      "step": 1820
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002666280193236715,
+      "loss": 1.0641,
+      "step": 1830
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00026643478260869564,
+      "loss": 1.0058,
+      "step": 1840
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002662415458937198,
+      "loss": 1.0136,
+      "step": 1850
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002660483091787439,
+      "loss": 1.0401,
+      "step": 1860
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00026585507246376807,
+      "loss": 1.0441,
+      "step": 1870
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00026566183574879226,
+      "loss": 1.026,
+      "step": 1880
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002654685990338164,
+      "loss": 0.9868,
+      "step": 1890
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00026527536231884055,
+      "loss": 1.0035,
+      "step": 1900
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002650821256038647,
+      "loss": 1.0447,
+      "step": 1910
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002648888888888889,
+      "loss": 0.9744,
+      "step": 1920
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00026469565217391303,
+      "loss": 0.9643,
+      "step": 1930
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002645024154589372,
+      "loss": 1.0032,
+      "step": 1940
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002643091787439613,
+      "loss": 1.0302,
+      "step": 1950
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00026411594202898546,
+      "loss": 1.015,
+      "step": 1960
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00026392270531400966,
+      "loss": 1.0102,
+      "step": 1970
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0002637294685990338,
+      "loss": 1.0508,
+      "step": 1980
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00026353623188405794,
+      "loss": 0.9881,
+      "step": 1990
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0002633429951690821,
+      "loss": 1.0574,
+      "step": 2000
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 1.0227478742599487,
+      "eval_runtime": 154.4442,
+      "eval_samples_per_second": 12.95,
+      "eval_steps_per_second": 1.619,
+      "step": 2000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0002631497584541062,
+      "loss": 1.0135,
+      "step": 2010
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002629565217391304,
+      "loss": 1.0523,
+      "step": 2020
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00026276328502415457,
+      "loss": 1.0318,
+      "step": 2030
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002625700483091787,
+      "loss": 1.0035,
+      "step": 2040
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00026237681159420285,
+      "loss": 1.0198,
+      "step": 2050
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00026218357487922705,
+      "loss": 1.0441,
+      "step": 2060
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0002619903381642512,
+      "loss": 1.0143,
+      "step": 2070
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00026179710144927533,
+      "loss": 1.0097,
+      "step": 2080
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002616038647342995,
+      "loss": 0.9959,
+      "step": 2090
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002614106280193236,
+      "loss": 1.0193,
+      "step": 2100
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0002612173913043478,
+      "loss": 1.0288,
+      "step": 2110
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00026102415458937196,
+      "loss": 0.9519,
+      "step": 2120
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0002608309178743961,
+      "loss": 1.0112,
+      "step": 2130
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00026063768115942024,
+      "loss": 1.0429,
+      "step": 2140
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0002604444444444444,
+      "loss": 0.9686,
+      "step": 2150
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0002602512077294686,
+      "loss": 1.0055,
+      "step": 2160
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0002600579710144927,
+      "loss": 0.9741,
+      "step": 2170
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00025986473429951687,
+      "loss": 1.0377,
+      "step": 2180
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.000259671497584541,
+      "loss": 1.0687,
+      "step": 2190
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002594782608695652,
+      "loss": 1.0381,
+      "step": 2200
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 1.020608901977539,
+      "eval_runtime": 154.4089,
+      "eval_samples_per_second": 12.953,
+      "eval_steps_per_second": 1.619,
+      "step": 2200
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00025928502415458935,
+      "loss": 1.0184,
+      "step": 2210
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0002590917874396135,
+      "loss": 1.009,
+      "step": 2220
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00025889855072463763,
+      "loss": 0.9985,
+      "step": 2230
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0002587053140096618,
+      "loss": 1.0315,
+      "step": 2240
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00025851207729468597,
+      "loss": 1.037,
+      "step": 2250
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0002583188405797101,
+      "loss": 1.0592,
+      "step": 2260
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00025812560386473426,
+      "loss": 0.9978,
+      "step": 2270
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0002579323671497584,
+      "loss": 1.0645,
+      "step": 2280
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0002577391304347826,
+      "loss": 0.9953,
+      "step": 2290
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00025754589371980674,
+      "loss": 1.0127,
+      "step": 2300
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0002573526570048309,
+      "loss": 1.0203,
+      "step": 2310
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.000257159420289855,
+      "loss": 1.0161,
+      "step": 2320
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00025696618357487917,
+      "loss": 0.9968,
+      "step": 2330
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00025677294685990336,
+      "loss": 1.0435,
+      "step": 2340
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0002565797101449275,
+      "loss": 1.0001,
+      "step": 2350
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00025638647342995165,
+      "loss": 1.0143,
+      "step": 2360
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002561932367149758,
+      "loss": 0.988,
+      "step": 2370
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.000256,
+      "loss": 1.0125,
+      "step": 2380
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00025580676328502413,
+      "loss": 1.0384,
+      "step": 2390
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0002556135265700483,
+      "loss": 1.07,
+      "step": 2400
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.0209141969680786,
+      "eval_runtime": 154.3327,
+      "eval_samples_per_second": 12.959,
+      "eval_steps_per_second": 1.62,
+      "step": 2400
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0002554202898550724,
+      "loss": 1.0005,
+      "step": 2410
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00025522705314009656,
+      "loss": 1.0415,
+      "step": 2420
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00025503381642512076,
+      "loss": 1.0284,
+      "step": 2430
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002548405797101449,
+      "loss": 1.0551,
+      "step": 2440
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00025464734299516904,
+      "loss": 1.0003,
+      "step": 2450
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002544541062801932,
+      "loss": 1.0168,
+      "step": 2460
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002542608695652174,
+      "loss": 0.9755,
+      "step": 2470
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002540676328502415,
+      "loss": 1.036,
+      "step": 2480
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00025387439613526566,
+      "loss": 1.042,
+      "step": 2490
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0002536811594202898,
+      "loss": 1.0172,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00025348792270531395,
+      "loss": 0.9807,
+      "step": 2510
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00025329468599033815,
+      "loss": 0.9866,
+      "step": 2520
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0002531014492753623,
+      "loss": 1.0194,
+      "step": 2530
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00025290821256038643,
+      "loss": 1.0491,
+      "step": 2540
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002527149758454106,
+      "loss": 0.9762,
+      "step": 2550
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00025252173913043477,
+      "loss": 1.0185,
+      "step": 2560
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002523285024154589,
+      "loss": 1.0102,
+      "step": 2570
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00025213526570048306,
+      "loss": 1.0538,
+      "step": 2580
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0002519420289855072,
+      "loss": 1.0014,
+      "step": 2590
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00025174879227053134,
+      "loss": 1.0062,
+      "step": 2600
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 1.0198272466659546,
+      "eval_runtime": 154.3595,
+      "eval_samples_per_second": 12.957,
+      "eval_steps_per_second": 1.62,
+      "step": 2600
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00025155555555555554,
+      "loss": 1.0389,
+      "step": 2610
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002513623188405797,
+      "loss": 0.9965,
+      "step": 2620
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002511690821256038,
+      "loss": 1.0292,
+      "step": 2630
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00025097584541062797,
+      "loss": 1.0444,
+      "step": 2640
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00025078260869565216,
+      "loss": 1.0396,
+      "step": 2650
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0002505893719806763,
+      "loss": 1.0269,
+      "step": 2660
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00025039613526570045,
+      "loss": 1.0417,
+      "step": 2670
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002502028985507246,
+      "loss": 0.9936,
+      "step": 2680
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002500096618357488,
+      "loss": 1.0638,
+      "step": 2690
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00024981642512077293,
+      "loss": 0.9991,
+      "step": 2700
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00024962318840579707,
+      "loss": 1.0298,
+      "step": 2710
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0002494299516908212,
+      "loss": 1.044,
+      "step": 2720
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00024923671497584536,
+      "loss": 0.9888,
+      "step": 2730
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00024904347826086955,
+      "loss": 1.0518,
+      "step": 2740
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002488502415458937,
+      "loss": 1.0247,
+      "step": 2750
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00024865700483091784,
+      "loss": 1.0104,
+      "step": 2760
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.000248463768115942,
+      "loss": 1.0126,
+      "step": 2770
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0002482705314009662,
+      "loss": 0.9907,
+      "step": 2780
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0002480772946859903,
+      "loss": 1.0412,
+      "step": 2790
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00024788405797101446,
+      "loss": 1.0184,
+      "step": 2800
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.0179498195648193,
+      "eval_runtime": 154.3621,
+      "eval_samples_per_second": 12.957,
+      "eval_steps_per_second": 1.62,
+      "step": 2800
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 15625,
+  "num_train_epochs": 5,
+  "save_steps": 200,
+  "total_flos": 6.003451634879693e+17,
+  "trial_name": null,
+  "trial_params": null
+}

text_models/llama-2-13b/best_model/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0af6ccc2cc2b4b87d4eabacd85f7c979febeda4cf2af7b0536f20d1c70964a56
+size 4027