hajeong67 commited on Dec 7, 2024

Commit

6b16211

verified ·

1 Parent(s): 90877ee

Upload folder using huggingface_hub

Browse files

Files changed (24) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
checkpoint-1050/adapter_config.json +2 -2
checkpoint-1050/adapter_model.safetensors +1 -1
checkpoint-1050/optimizer.pt +1 -1
checkpoint-1050/rng_state.pth +1 -1
checkpoint-1050/scheduler.pt +1 -1
checkpoint-1050/trainer_state.json +327 -327
checkpoint-1050/training_args.bin +1 -1
checkpoint-350/adapter_config.json +2 -2
checkpoint-350/adapter_model.safetensors +1 -1
checkpoint-350/optimizer.pt +1 -1
checkpoint-350/rng_state.pth +1 -1
checkpoint-350/scheduler.pt +1 -1
checkpoint-350/trainer_state.json +110 -110
checkpoint-350/training_args.bin +1 -1
checkpoint-700/adapter_config.json +2 -2
checkpoint-700/adapter_model.safetensors +1 -1
checkpoint-700/optimizer.pt +1 -1
checkpoint-700/rng_state.pth +1 -1
checkpoint-700/scheduler.pt +1 -1
checkpoint-700/trainer_state.json +219 -219
checkpoint-700/training_args.bin +1 -1
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,8 +20,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d94d9430a83a39f82048c46f2d8c46075d242e146a63e2d859932cb8d08913a9
 size 3416264

 version https://git-lfs.github.com/spec/v1
+oid sha256:0346bf3d1823e89b4797054ab8629cb0ecb7942156d4832bce2f4d073b71f201
 size 3416264

checkpoint-1050/adapter_config.json CHANGED Viewed

@@ -20,8 +20,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-1050/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d94d9430a83a39f82048c46f2d8c46075d242e146a63e2d859932cb8d08913a9
 size 3416264

 version https://git-lfs.github.com/spec/v1
+oid sha256:0346bf3d1823e89b4797054ab8629cb0ecb7942156d4832bce2f4d073b71f201
 size 3416264

checkpoint-1050/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37f8b9babe4bcfbcab994fc22e50ede05b7d24f5911a4988b32409b98159d1bb
 size 6869818

 version https://git-lfs.github.com/spec/v1
+oid sha256:65c69ad74e25d4540bbfeb36ef99adc29f6a5f11187f375b6dcf335632f9bf77
 size 6869818

checkpoint-1050/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45173af0ed6f30125c38af1acfce62d5161a517d2a1ddc5c148791675731ae3e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7358d9c30f2639fd60afd346acbf92ecea749dafe0ff584e147ba759751f266
 size 14244

checkpoint-1050/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d5dd934cf554c131f164b64d8667367520239153e8e36f14d7c5f59c2d40a7c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dd067d46d8bf3a73453265c0d5998bca08a0fa082902b0c1a537936aedcddc6
 size 1064

checkpoint-1050/trainer_state.json CHANGED Viewed

@@ -10,761 +10,761 @@
   "log_history": [
     {
       "epoch": 0.02857142857142857,
-      "grad_norm": 9.284814834594727,
-      "learning_rate": 9.904761904761905e-05,
-      "loss": 2.0184,
       "step": 10
     },
     {
       "epoch": 0.05714285714285714,
-      "grad_norm": 12.879095077514648,
-      "learning_rate": 9.80952380952381e-05,
-      "loss": 1.7222,
       "step": 20
     },
     {
       "epoch": 0.08571428571428572,
-      "grad_norm": 17.29737663269043,
-      "learning_rate": 9.714285714285715e-05,
-      "loss": 1.7591,
       "step": 30
     },
     {
       "epoch": 0.11428571428571428,
-      "grad_norm": 5.025689125061035,
-      "learning_rate": 9.61904761904762e-05,
-      "loss": 1.7304,
       "step": 40
     },
     {
       "epoch": 0.14285714285714285,
-      "grad_norm": 10.627418518066406,
-      "learning_rate": 9.523809523809524e-05,
-      "loss": 1.8282,
       "step": 50
     },
     {
       "epoch": 0.17142857142857143,
-      "grad_norm": 5.618676662445068,
-      "learning_rate": 9.428571428571429e-05,
-      "loss": 1.6407,
       "step": 60
     },
     {
       "epoch": 0.2,
-      "grad_norm": 13.271527290344238,
-      "learning_rate": 9.333333333333334e-05,
-      "loss": 1.7611,
       "step": 70
     },
     {
       "epoch": 0.22857142857142856,
-      "grad_norm": 7.040605545043945,
-      "learning_rate": 9.238095238095239e-05,
-      "loss": 1.8149,
       "step": 80
     },
     {
       "epoch": 0.2571428571428571,
-      "grad_norm": 9.282252311706543,
-      "learning_rate": 9.142857142857143e-05,
-      "loss": 1.656,
       "step": 90
     },
     {
       "epoch": 0.2857142857142857,
-      "grad_norm": 7.04727029800415,
-      "learning_rate": 9.047619047619048e-05,
-      "loss": 1.6419,
       "step": 100
     },
     {
       "epoch": 0.3142857142857143,
-      "grad_norm": 5.5171122550964355,
-      "learning_rate": 8.952380952380953e-05,
-      "loss": 1.682,
       "step": 110
     },
     {
       "epoch": 0.34285714285714286,
-      "grad_norm": 9.009190559387207,
-      "learning_rate": 8.857142857142857e-05,
-      "loss": 1.4019,
       "step": 120
     },
     {
       "epoch": 0.37142857142857144,
-      "grad_norm": 11.160100936889648,
-      "learning_rate": 8.761904761904762e-05,
-      "loss": 1.5941,
       "step": 130
     },
     {
       "epoch": 0.4,
-      "grad_norm": 6.663743019104004,
-      "learning_rate": 8.666666666666667e-05,
-      "loss": 1.4869,
       "step": 140
     },
     {
       "epoch": 0.42857142857142855,
-      "grad_norm": 7.955056667327881,
-      "learning_rate": 8.571428571428571e-05,
-      "loss": 1.6137,
       "step": 150
     },
     {
       "epoch": 0.45714285714285713,
-      "grad_norm": 7.169972896575928,
-      "learning_rate": 8.476190476190477e-05,
-      "loss": 1.7435,
       "step": 160
     },
     {
       "epoch": 0.4857142857142857,
-      "grad_norm": 4.778314113616943,
-      "learning_rate": 8.380952380952382e-05,
-      "loss": 1.3997,
       "step": 170
     },
     {
       "epoch": 0.5142857142857142,
-      "grad_norm": 8.540094375610352,
-      "learning_rate": 8.285714285714287e-05,
-      "loss": 1.5345,
       "step": 180
     },
     {
       "epoch": 0.5428571428571428,
-      "grad_norm": 8.377891540527344,
-      "learning_rate": 8.19047619047619e-05,
-      "loss": 1.4992,
       "step": 190
     },
     {
       "epoch": 0.5714285714285714,
-      "grad_norm": 6.053997039794922,
-      "learning_rate": 8.095238095238096e-05,
-      "loss": 1.4046,
       "step": 200
     },
     {
       "epoch": 0.6,
-      "grad_norm": 11.835803985595703,
-      "learning_rate": 8e-05,
-      "loss": 1.3463,
       "step": 210
     },
     {
       "epoch": 0.6285714285714286,
-      "grad_norm": 7.073652744293213,
-      "learning_rate": 7.904761904761905e-05,
-      "loss": 1.3764,
       "step": 220
     },
     {
       "epoch": 0.6571428571428571,
-      "grad_norm": 10.55458927154541,
-      "learning_rate": 7.80952380952381e-05,
-      "loss": 1.5288,
       "step": 230
     },
     {
       "epoch": 0.6857142857142857,
-      "grad_norm": 6.555107593536377,
-      "learning_rate": 7.714285714285715e-05,
-      "loss": 1.3578,
       "step": 240
     },
     {
       "epoch": 0.7142857142857143,
-      "grad_norm": 5.762172222137451,
-      "learning_rate": 7.619047619047618e-05,
-      "loss": 1.4635,
       "step": 250
     },
     {
       "epoch": 0.7428571428571429,
-      "grad_norm": 5.80485200881958,
-      "learning_rate": 7.523809523809524e-05,
-      "loss": 1.3706,
       "step": 260
     },
     {
       "epoch": 0.7714285714285715,
-      "grad_norm": 9.550569534301758,
-      "learning_rate": 7.428571428571429e-05,
-      "loss": 1.4227,
       "step": 270
     },
     {
       "epoch": 0.8,
-      "grad_norm": 6.621246814727783,
-      "learning_rate": 7.333333333333333e-05,
-      "loss": 1.3751,
       "step": 280
     },
     {
       "epoch": 0.8285714285714286,
-      "grad_norm": 7.168375492095947,
-      "learning_rate": 7.238095238095238e-05,
-      "loss": 1.3472,
       "step": 290
     },
     {
       "epoch": 0.8571428571428571,
-      "grad_norm": 11.96556568145752,
-      "learning_rate": 7.142857142857143e-05,
-      "loss": 1.33,
       "step": 300
     },
     {
       "epoch": 0.8857142857142857,
-      "grad_norm": 10.02365779876709,
-      "learning_rate": 7.047619047619048e-05,
-      "loss": 1.3553,
       "step": 310
     },
     {
       "epoch": 0.9142857142857143,
-      "grad_norm": 9.006269454956055,
-      "learning_rate": 6.952380952380952e-05,
-      "loss": 1.5504,
       "step": 320
     },
     {
       "epoch": 0.9428571428571428,
-      "grad_norm": 7.228586673736572,
-      "learning_rate": 6.857142857142858e-05,
-      "loss": 1.3597,
       "step": 330
     },
     {
       "epoch": 0.9714285714285714,
-      "grad_norm": 18.761024475097656,
-      "learning_rate": 6.761904761904763e-05,
-      "loss": 1.332,
       "step": 340
     },
     {
       "epoch": 1.0,
-      "grad_norm": 9.89370346069336,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 1.4027,
       "step": 350
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.2965246438980103,
-      "eval_runtime": 16.113,
-      "eval_samples_per_second": 12.412,
-      "eval_steps_per_second": 1.552,
       "step": 350
     },
     {
       "epoch": 1.0285714285714285,
-      "grad_norm": 14.148599624633789,
-      "learning_rate": 6.571428571428571e-05,
-      "loss": 1.322,
       "step": 360
     },
     {
       "epoch": 1.0571428571428572,
-      "grad_norm": 6.457850456237793,
-      "learning_rate": 6.476190476190477e-05,
-      "loss": 1.4209,
       "step": 370
     },
     {
       "epoch": 1.0857142857142856,
-      "grad_norm": 7.997476100921631,
-      "learning_rate": 6.38095238095238e-05,
-      "loss": 1.3045,
       "step": 380
     },
     {
       "epoch": 1.1142857142857143,
-      "grad_norm": 11.429621696472168,
-      "learning_rate": 6.285714285714286e-05,
-      "loss": 1.3239,
       "step": 390
     },
     {
       "epoch": 1.1428571428571428,
-      "grad_norm": 8.54537582397461,
-      "learning_rate": 6.19047619047619e-05,
-      "loss": 1.3079,
       "step": 400
     },
     {
       "epoch": 1.1714285714285715,
-      "grad_norm": 9.194470405578613,
-      "learning_rate": 6.0952380952380964e-05,
-      "loss": 1.3014,
       "step": 410
     },
     {
       "epoch": 1.2,
-      "grad_norm": 6.942721366882324,
-      "learning_rate": 6e-05,
-      "loss": 1.3108,
       "step": 420
     },
     {
       "epoch": 1.2285714285714286,
-      "grad_norm": 17.95640754699707,
-      "learning_rate": 5.904761904761905e-05,
-      "loss": 1.2473,
       "step": 430
     },
     {
       "epoch": 1.2571428571428571,
-      "grad_norm": 6.065295696258545,
-      "learning_rate": 5.8095238095238104e-05,
-      "loss": 1.1563,
       "step": 440
     },
     {
       "epoch": 1.2857142857142856,
-      "grad_norm": 18.216981887817383,
-      "learning_rate": 5.714285714285714e-05,
-      "loss": 1.5198,
       "step": 450
     },
     {
       "epoch": 1.3142857142857143,
-      "grad_norm": 7.645397186279297,
-      "learning_rate": 5.619047619047619e-05,
-      "loss": 1.294,
       "step": 460
     },
     {
       "epoch": 1.342857142857143,
-      "grad_norm": 8.216632843017578,
-      "learning_rate": 5.5238095238095244e-05,
-      "loss": 1.3319,
       "step": 470
     },
     {
       "epoch": 1.3714285714285714,
-      "grad_norm": 11.892958641052246,
-      "learning_rate": 5.428571428571428e-05,
-      "loss": 1.349,
       "step": 480
     },
     {
       "epoch": 1.4,
-      "grad_norm": 7.598433494567871,
-      "learning_rate": 5.333333333333333e-05,
-      "loss": 1.2459,
       "step": 490
     },
     {
       "epoch": 1.4285714285714286,
-      "grad_norm": 7.4001898765563965,
-      "learning_rate": 5.2380952380952384e-05,
-      "loss": 1.2531,
       "step": 500
     },
     {
       "epoch": 1.457142857142857,
-      "grad_norm": 9.964533805847168,
-      "learning_rate": 5.142857142857143e-05,
-      "loss": 1.2326,
       "step": 510
     },
     {
       "epoch": 1.4857142857142858,
-      "grad_norm": 10.863306045532227,
-      "learning_rate": 5.047619047619048e-05,
-      "loss": 1.1964,
       "step": 520
     },
     {
       "epoch": 1.5142857142857142,
-      "grad_norm": 7.798760414123535,
-      "learning_rate": 4.9523809523809525e-05,
-      "loss": 1.2377,
       "step": 530
     },
     {
       "epoch": 1.5428571428571427,
-      "grad_norm": 5.575809001922607,
-      "learning_rate": 4.8571428571428576e-05,
-      "loss": 1.2545,
       "step": 540
     },
     {
       "epoch": 1.5714285714285714,
-      "grad_norm": 7.334414958953857,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 1.2441,
       "step": 550
     },
     {
       "epoch": 1.6,
-      "grad_norm": 7.7508745193481445,
-      "learning_rate": 4.666666666666667e-05,
-      "loss": 1.3679,
       "step": 560
     },
     {
       "epoch": 1.6285714285714286,
-      "grad_norm": 8.727417945861816,
-      "learning_rate": 4.5714285714285716e-05,
-      "loss": 1.366,
       "step": 570
     },
     {
       "epoch": 1.657142857142857,
-      "grad_norm": 11.305671691894531,
-      "learning_rate": 4.476190476190477e-05,
-      "loss": 1.2059,
       "step": 580
     },
     {
       "epoch": 1.6857142857142857,
-      "grad_norm": 12.226043701171875,
-      "learning_rate": 4.380952380952381e-05,
-      "loss": 1.3986,
       "step": 590
     },
     {
       "epoch": 1.7142857142857144,
-      "grad_norm": 9.918877601623535,
-      "learning_rate": 4.2857142857142856e-05,
-      "loss": 1.2768,
       "step": 600
     },
     {
       "epoch": 1.7428571428571429,
-      "grad_norm": 7.957796096801758,
-      "learning_rate": 4.190476190476191e-05,
-      "loss": 1.2662,
       "step": 610
     },
     {
       "epoch": 1.7714285714285714,
-      "grad_norm": 10.324079513549805,
-      "learning_rate": 4.095238095238095e-05,
-      "loss": 1.2392,
       "step": 620
     },
     {
       "epoch": 1.8,
-      "grad_norm": 8.535161972045898,
-      "learning_rate": 4e-05,
-      "loss": 1.2802,
       "step": 630
     },
     {
       "epoch": 1.8285714285714287,
-      "grad_norm": 6.386439800262451,
-      "learning_rate": 3.904761904761905e-05,
-      "loss": 1.2973,
       "step": 640
     },
     {
       "epoch": 1.8571428571428572,
-      "grad_norm": 16.93861961364746,
-      "learning_rate": 3.809523809523809e-05,
-      "loss": 1.1805,
       "step": 650
     },
     {
       "epoch": 1.8857142857142857,
-      "grad_norm": 17.099620819091797,
-      "learning_rate": 3.7142857142857143e-05,
-      "loss": 1.2095,
       "step": 660
     },
     {
       "epoch": 1.9142857142857141,
-      "grad_norm": 9.49264144897461,
-      "learning_rate": 3.619047619047619e-05,
-      "loss": 1.2924,
       "step": 670
     },
     {
       "epoch": 1.9428571428571428,
-      "grad_norm": 5.8994364738464355,
-      "learning_rate": 3.523809523809524e-05,
-      "loss": 1.2577,
       "step": 680
     },
     {
       "epoch": 1.9714285714285715,
-      "grad_norm": 7.082160472869873,
-      "learning_rate": 3.428571428571429e-05,
-      "loss": 1.2792,
       "step": 690
     },
     {
       "epoch": 2.0,
-      "grad_norm": 9.511951446533203,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 1.2854,
       "step": 700
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.2146018743515015,
-      "eval_runtime": 16.0983,
-      "eval_samples_per_second": 12.424,
-      "eval_steps_per_second": 1.553,
       "step": 700
     },
     {
       "epoch": 2.0285714285714285,
-      "grad_norm": 6.5345964431762695,
-      "learning_rate": 3.2380952380952386e-05,
-      "loss": 1.1684,
       "step": 710
     },
     {
       "epoch": 2.057142857142857,
-      "grad_norm": 9.766515731811523,
-      "learning_rate": 3.142857142857143e-05,
-      "loss": 1.1704,
       "step": 720
     },
     {
       "epoch": 2.085714285714286,
-      "grad_norm": 9.135540008544922,
-      "learning_rate": 3.0476190476190482e-05,
-      "loss": 1.1694,
       "step": 730
     },
     {
       "epoch": 2.1142857142857143,
-      "grad_norm": 9.21896743774414,
-      "learning_rate": 2.9523809523809526e-05,
-      "loss": 1.1738,
       "step": 740
     },
     {
       "epoch": 2.142857142857143,
-      "grad_norm": 9.866166114807129,
-      "learning_rate": 2.857142857142857e-05,
-      "loss": 1.3546,
       "step": 750
     },
     {
       "epoch": 2.1714285714285713,
-      "grad_norm": 10.150802612304688,
-      "learning_rate": 2.7619047619047622e-05,
-      "loss": 1.2242,
       "step": 760
     },
     {
       "epoch": 2.2,
-      "grad_norm": 6.537503719329834,
-      "learning_rate": 2.6666666666666667e-05,
-      "loss": 1.2067,
       "step": 770
     },
     {
       "epoch": 2.2285714285714286,
-      "grad_norm": 9.176528930664062,
-      "learning_rate": 2.5714285714285714e-05,
-      "loss": 1.3008,
       "step": 780
     },
     {
       "epoch": 2.257142857142857,
-      "grad_norm": 16.931442260742188,
-      "learning_rate": 2.4761904761904762e-05,
-      "loss": 1.1371,
       "step": 790
     },
     {
       "epoch": 2.2857142857142856,
-      "grad_norm": 14.350312232971191,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 1.1948,
       "step": 800
     },
     {
       "epoch": 2.314285714285714,
-      "grad_norm": 8.385422706604004,
-      "learning_rate": 2.2857142857142858e-05,
-      "loss": 1.1904,
       "step": 810
     },
     {
       "epoch": 2.342857142857143,
-      "grad_norm": 8.879819869995117,
-      "learning_rate": 2.1904761904761906e-05,
-      "loss": 1.1808,
       "step": 820
     },
     {
       "epoch": 2.3714285714285714,
-      "grad_norm": 11.392715454101562,
-      "learning_rate": 2.0952380952380954e-05,
-      "loss": 1.2958,
       "step": 830
     },
     {
       "epoch": 2.4,
-      "grad_norm": 12.15937614440918,
-      "learning_rate": 2e-05,
-      "loss": 1.1463,
       "step": 840
     },
     {
       "epoch": 2.4285714285714284,
-      "grad_norm": 16.796415328979492,
-      "learning_rate": 1.9047619047619046e-05,
-      "loss": 1.1485,
       "step": 850
     },
     {
       "epoch": 2.4571428571428573,
-      "grad_norm": 11.125741958618164,
-      "learning_rate": 1.8095238095238094e-05,
-      "loss": 1.2561,
       "step": 860
     },
     {
       "epoch": 2.4857142857142858,
-      "grad_norm": 5.766628265380859,
-      "learning_rate": 1.7142857142857145e-05,
-      "loss": 1.265,
       "step": 870
     },
     {
       "epoch": 2.5142857142857142,
-      "grad_norm": 7.663820266723633,
-      "learning_rate": 1.6190476190476193e-05,
-      "loss": 1.2337,
       "step": 880
     },
     {
       "epoch": 2.5428571428571427,
-      "grad_norm": 8.046570777893066,
-      "learning_rate": 1.5238095238095241e-05,
-      "loss": 1.3382,
       "step": 890
     },
     {
       "epoch": 2.571428571428571,
-      "grad_norm": 8.289289474487305,
-      "learning_rate": 1.4285714285714285e-05,
-      "loss": 1.0253,
       "step": 900
     },
     {
       "epoch": 2.6,
-      "grad_norm": 6.765757083892822,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 1.1975,
       "step": 910
     },
     {
       "epoch": 2.6285714285714286,
-      "grad_norm": 5.381499290466309,
-      "learning_rate": 1.2380952380952381e-05,
-      "loss": 1.2505,
       "step": 920
     },
     {
       "epoch": 2.657142857142857,
-      "grad_norm": 9.704530715942383,
-      "learning_rate": 1.1428571428571429e-05,
-      "loss": 1.143,
       "step": 930
     },
     {
       "epoch": 2.685714285714286,
-      "grad_norm": 9.753270149230957,
-      "learning_rate": 1.0476190476190477e-05,
-      "loss": 1.2898,
       "step": 940
     },
     {
       "epoch": 2.7142857142857144,
-      "grad_norm": 8.451569557189941,
-      "learning_rate": 9.523809523809523e-06,
-      "loss": 1.1701,
       "step": 950
     },
     {
       "epoch": 2.742857142857143,
-      "grad_norm": 15.7116060256958,
-      "learning_rate": 8.571428571428573e-06,
-      "loss": 1.1194,
       "step": 960
     },
     {
       "epoch": 2.7714285714285714,
-      "grad_norm": 10.655159950256348,
-      "learning_rate": 7.6190476190476205e-06,
-      "loss": 1.252,
       "step": 970
     },
     {
       "epoch": 2.8,
-      "grad_norm": 7.193419456481934,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 1.2624,
       "step": 980
     },
     {
       "epoch": 2.8285714285714287,
-      "grad_norm": 5.822306156158447,
-      "learning_rate": 5.7142857142857145e-06,
-      "loss": 1.2784,
       "step": 990
     },
     {
       "epoch": 2.857142857142857,
-      "grad_norm": 7.571345806121826,
-      "learning_rate": 4.7619047619047615e-06,
-      "loss": 1.2404,
       "step": 1000
     },
     {
       "epoch": 2.8857142857142857,
-      "grad_norm": 8.050336837768555,
-      "learning_rate": 3.8095238095238102e-06,
-      "loss": 1.2279,
       "step": 1010
     },
     {
       "epoch": 2.914285714285714,
-      "grad_norm": 5.833733558654785,
-      "learning_rate": 2.8571428571428573e-06,
-      "loss": 1.1379,
       "step": 1020
     },
     {
       "epoch": 2.942857142857143,
-      "grad_norm": 6.999922275543213,
-      "learning_rate": 1.9047619047619051e-06,
-      "loss": 1.0732,
       "step": 1030
     },
     {
       "epoch": 2.9714285714285715,
-      "grad_norm": 7.655697822570801,
-      "learning_rate": 9.523809523809526e-07,
-      "loss": 1.1059,
       "step": 1040
     },
     {
       "epoch": 3.0,
-      "grad_norm": 7.054152488708496,
       "learning_rate": 0.0,
-      "loss": 1.2239,
       "step": 1050
     },
     {
       "epoch": 3.0,
-      "eval_loss": 1.1520273685455322,
-      "eval_runtime": 16.1113,
-      "eval_samples_per_second": 12.414,
-      "eval_steps_per_second": 1.552,
       "step": 1050
     }
   ],
@@ -785,7 +785,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6337314611527680.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.02857142857142857,
+      "grad_norm": 5.210493087768555,
+      "learning_rate": 0.0004952380952380952,
+      "loss": 4.4131,
       "step": 10
     },
     {
       "epoch": 0.05714285714285714,
+      "grad_norm": 3.571948528289795,
+      "learning_rate": 0.0004904761904761905,
+      "loss": 2.5476,
       "step": 20
     },
     {
       "epoch": 0.08571428571428572,
+      "grad_norm": 2.640848398208618,
+      "learning_rate": 0.0004857142857142857,
+      "loss": 2.2491,
       "step": 30
     },
     {
       "epoch": 0.11428571428571428,
+      "grad_norm": 2.6611335277557373,
+      "learning_rate": 0.00048095238095238095,
+      "loss": 2.0477,
       "step": 40
     },
     {
       "epoch": 0.14285714285714285,
+      "grad_norm": 2.608750581741333,
+      "learning_rate": 0.0004761904761904762,
+      "loss": 2.028,
       "step": 50
     },
     {
       "epoch": 0.17142857142857143,
+      "grad_norm": 5.034807205200195,
+      "learning_rate": 0.0004714285714285714,
+      "loss": 1.7871,
       "step": 60
     },
     {
       "epoch": 0.2,
+      "grad_norm": 3.5893642902374268,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 1.7879,
       "step": 70
     },
     {
       "epoch": 0.22857142857142856,
+      "grad_norm": 5.368953227996826,
+      "learning_rate": 0.00046190476190476195,
+      "loss": 1.8194,
       "step": 80
     },
     {
       "epoch": 0.2571428571428571,
+      "grad_norm": 3.7377731800079346,
+      "learning_rate": 0.00045714285714285713,
+      "loss": 1.6159,
       "step": 90
     },
     {
       "epoch": 0.2857142857142857,
+      "grad_norm": 7.883308410644531,
+      "learning_rate": 0.00045238095238095237,
+      "loss": 1.6244,
       "step": 100
     },
     {
       "epoch": 0.3142857142857143,
+      "grad_norm": 4.968689918518066,
+      "learning_rate": 0.00044761904761904766,
+      "loss": 1.6614,
       "step": 110
     },
     {
       "epoch": 0.34285714285714286,
+      "grad_norm": 2.592766046524048,
+      "learning_rate": 0.00044285714285714284,
+      "loss": 1.349,
       "step": 120
     },
     {
       "epoch": 0.37142857142857144,
+      "grad_norm": 2.783951997756958,
+      "learning_rate": 0.0004380952380952381,
+      "loss": 1.5065,
       "step": 130
     },
     {
       "epoch": 0.4,
+      "grad_norm": 5.2810378074646,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 1.3934,
       "step": 140
     },
     {
       "epoch": 0.42857142857142855,
+      "grad_norm": 4.448086261749268,
+      "learning_rate": 0.00042857142857142855,
+      "loss": 1.5198,
       "step": 150
     },
     {
       "epoch": 0.45714285714285713,
+      "grad_norm": 3.211707353591919,
+      "learning_rate": 0.0004238095238095238,
+      "loss": 1.6207,
       "step": 160
     },
     {
       "epoch": 0.4857142857142857,
+      "grad_norm": 3.586463212966919,
+      "learning_rate": 0.0004190476190476191,
+      "loss": 1.2687,
       "step": 170
     },
     {
       "epoch": 0.5142857142857142,
+      "grad_norm": 2.6598610877990723,
+      "learning_rate": 0.0004142857142857143,
+      "loss": 1.3957,
       "step": 180
     },
     {
       "epoch": 0.5428571428571428,
+      "grad_norm": 3.480663776397705,
+      "learning_rate": 0.00040952380952380955,
+      "loss": 1.3543,
       "step": 190
     },
     {
       "epoch": 0.5714285714285714,
+      "grad_norm": 3.168818712234497,
+      "learning_rate": 0.0004047619047619048,
+      "loss": 1.2619,
       "step": 200
     },
     {
       "epoch": 0.6,
+      "grad_norm": 2.7529921531677246,
+      "learning_rate": 0.0004,
+      "loss": 1.1871,
       "step": 210
     },
     {
       "epoch": 0.6285714285714286,
+      "grad_norm": 6.538937568664551,
+      "learning_rate": 0.00039523809523809526,
+      "loss": 1.268,
       "step": 220
     },
     {
       "epoch": 0.6571428571428571,
+      "grad_norm": 3.3910727500915527,
+      "learning_rate": 0.0003904761904761905,
+      "loss": 1.4192,
       "step": 230
     },
     {
       "epoch": 0.6857142857142857,
+      "grad_norm": 2.31817889213562,
+      "learning_rate": 0.0003857142857142857,
+      "loss": 1.2339,
       "step": 240
     },
     {
       "epoch": 0.7142857142857143,
+      "grad_norm": 2.8181235790252686,
+      "learning_rate": 0.00038095238095238096,
+      "loss": 1.3153,
       "step": 250
     },
     {
       "epoch": 0.7428571428571429,
+      "grad_norm": 2.5716922283172607,
+      "learning_rate": 0.0003761904761904762,
+      "loss": 1.2066,
       "step": 260
     },
     {
       "epoch": 0.7714285714285715,
+      "grad_norm": 5.403870105743408,
+      "learning_rate": 0.00037142857142857143,
+      "loss": 1.2784,
       "step": 270
     },
     {
       "epoch": 0.8,
+      "grad_norm": 3.347729206085205,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 1.2273,
       "step": 280
     },
     {
       "epoch": 0.8285714285714286,
+      "grad_norm": 2.7995996475219727,
+      "learning_rate": 0.0003619047619047619,
+      "loss": 1.159,
       "step": 290
     },
     {
       "epoch": 0.8571428571428571,
+      "grad_norm": 3.817213535308838,
+      "learning_rate": 0.00035714285714285714,
+      "loss": 1.1146,
       "step": 300
     },
     {
       "epoch": 0.8857142857142857,
+      "grad_norm": 3.3239715099334717,
+      "learning_rate": 0.00035238095238095243,
+      "loss": 1.1513,
       "step": 310
     },
     {
       "epoch": 0.9142857142857143,
+      "grad_norm": 3.042973518371582,
+      "learning_rate": 0.0003476190476190476,
+      "loss": 1.3906,
       "step": 320
     },
     {
       "epoch": 0.9428571428571428,
+      "grad_norm": 2.8079681396484375,
+      "learning_rate": 0.00034285714285714285,
+      "loss": 1.1547,
       "step": 330
     },
     {
       "epoch": 0.9714285714285714,
+      "grad_norm": 6.39453649520874,
+      "learning_rate": 0.00033809523809523814,
+      "loss": 1.0989,
       "step": 340
     },
     {
       "epoch": 1.0,
+      "grad_norm": 5.739945411682129,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 1.1563,
       "step": 350
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.064656376838684,
+      "eval_runtime": 16.5324,
+      "eval_samples_per_second": 12.097,
+      "eval_steps_per_second": 1.512,
       "step": 350
     },
     {
       "epoch": 1.0285714285714285,
+      "grad_norm": 5.899299144744873,
+      "learning_rate": 0.00032857142857142856,
+      "loss": 1.0649,
       "step": 360
     },
     {
       "epoch": 1.0571428571428572,
+      "grad_norm": 3.3639721870422363,
+      "learning_rate": 0.00032380952380952385,
+      "loss": 1.1595,
       "step": 370
     },
     {
       "epoch": 1.0857142857142856,
+      "grad_norm": 2.811561346054077,
+      "learning_rate": 0.00031904761904761903,
+      "loss": 1.0871,
       "step": 380
     },
     {
       "epoch": 1.1142857142857143,
+      "grad_norm": 2.6730055809020996,
+      "learning_rate": 0.00031428571428571427,
+      "loss": 1.0294,
       "step": 390
     },
     {
       "epoch": 1.1428571428571428,
+      "grad_norm": 5.02337646484375,
+      "learning_rate": 0.00030952380952380956,
+      "loss": 1.0844,
       "step": 400
     },
     {
       "epoch": 1.1714285714285715,
+      "grad_norm": 4.188799858093262,
+      "learning_rate": 0.0003047619047619048,
+      "loss": 1.0464,
       "step": 410
     },
     {
       "epoch": 1.2,
+      "grad_norm": 5.055841445922852,
+      "learning_rate": 0.0003,
+      "loss": 1.1078,
       "step": 420
     },
     {
       "epoch": 1.2285714285714286,
+      "grad_norm": 8.09494400024414,
+      "learning_rate": 0.00029523809523809526,
+      "loss": 1.0539,
       "step": 430
     },
     {
       "epoch": 1.2571428571428571,
+      "grad_norm": 3.012653112411499,
+      "learning_rate": 0.0002904761904761905,
+      "loss": 0.927,
       "step": 440
     },
     {
       "epoch": 1.2857142857142856,
+      "grad_norm": 8.38936710357666,
+      "learning_rate": 0.0002857142857142857,
+      "loss": 1.2209,
       "step": 450
     },
     {
       "epoch": 1.3142857142857143,
+      "grad_norm": 4.191105365753174,
+      "learning_rate": 0.00028095238095238097,
+      "loss": 1.0086,
       "step": 460
     },
     {
       "epoch": 1.342857142857143,
+      "grad_norm": 2.9886045455932617,
+      "learning_rate": 0.0002761904761904762,
+      "loss": 1.0788,
       "step": 470
     },
     {
       "epoch": 1.3714285714285714,
+      "grad_norm": 3.5892975330352783,
+      "learning_rate": 0.0002714285714285714,
+      "loss": 1.0877,
       "step": 480
     },
     {
       "epoch": 1.4,
+      "grad_norm": 4.504238128662109,
+      "learning_rate": 0.0002666666666666667,
+      "loss": 1.0066,
       "step": 490
     },
     {
       "epoch": 1.4285714285714286,
+      "grad_norm": 3.601853132247925,
+      "learning_rate": 0.0002619047619047619,
+      "loss": 0.9915,
       "step": 500
     },
     {
       "epoch": 1.457142857142857,
+      "grad_norm": 4.008484840393066,
+      "learning_rate": 0.0002571428571428571,
+      "loss": 0.9651,
       "step": 510
     },
     {
       "epoch": 1.4857142857142858,
+      "grad_norm": 5.5403900146484375,
+      "learning_rate": 0.0002523809523809524,
+      "loss": 0.9018,
       "step": 520
     },
     {
       "epoch": 1.5142857142857142,
+      "grad_norm": 3.526982069015503,
+      "learning_rate": 0.0002476190476190476,
+      "loss": 0.9588,
       "step": 530
     },
     {
       "epoch": 1.5428571428571427,
+      "grad_norm": 3.666804075241089,
+      "learning_rate": 0.00024285714285714286,
+      "loss": 1.0092,
       "step": 540
     },
     {
       "epoch": 1.5714285714285714,
+      "grad_norm": 3.4340310096740723,
+      "learning_rate": 0.0002380952380952381,
+      "loss": 0.9342,
       "step": 550
     },
     {
       "epoch": 1.6,
+      "grad_norm": 5.815408229827881,
+      "learning_rate": 0.00023333333333333333,
+      "loss": 1.0666,
       "step": 560
     },
     {
       "epoch": 1.6285714285714286,
+      "grad_norm": 2.7780840396881104,
+      "learning_rate": 0.00022857142857142857,
+      "loss": 1.1026,
       "step": 570
     },
     {
       "epoch": 1.657142857142857,
+      "grad_norm": 3.8484044075012207,
+      "learning_rate": 0.00022380952380952383,
+      "loss": 0.937,
       "step": 580
     },
     {
       "epoch": 1.6857142857142857,
+      "grad_norm": 3.819007635116577,
+      "learning_rate": 0.00021904761904761904,
+      "loss": 1.1247,
       "step": 590
     },
     {
       "epoch": 1.7142857142857144,
+      "grad_norm": 3.8324477672576904,
+      "learning_rate": 0.00021428571428571427,
+      "loss": 0.9961,
       "step": 600
     },
     {
       "epoch": 1.7428571428571429,
+      "grad_norm": 3.2769389152526855,
+      "learning_rate": 0.00020952380952380954,
+      "loss": 0.9987,
       "step": 610
     },
     {
       "epoch": 1.7714285714285714,
+      "grad_norm": 5.3248443603515625,
+      "learning_rate": 0.00020476190476190477,
+      "loss": 0.9219,
       "step": 620
     },
     {
       "epoch": 1.8,
+      "grad_norm": 2.6656081676483154,
+      "learning_rate": 0.0002,
+      "loss": 1.0293,
       "step": 630
     },
     {
       "epoch": 1.8285714285714287,
+      "grad_norm": 2.6429567337036133,
+      "learning_rate": 0.00019523809523809525,
+      "loss": 1.0106,
       "step": 640
     },
     {
       "epoch": 1.8571428571428572,
+      "grad_norm": 4.4341864585876465,
+      "learning_rate": 0.00019047619047619048,
+      "loss": 0.8426,
       "step": 650
     },
     {
       "epoch": 1.8857142857142857,
+      "grad_norm": 4.535873889923096,
+      "learning_rate": 0.00018571428571428572,
+      "loss": 0.9335,
       "step": 660
     },
     {
       "epoch": 1.9142857142857141,
+      "grad_norm": 4.100979328155518,
+      "learning_rate": 0.00018095238095238095,
+      "loss": 0.9936,
       "step": 670
     },
     {
       "epoch": 1.9428571428571428,
+      "grad_norm": 4.034025192260742,
+      "learning_rate": 0.00017619047619047622,
+      "loss": 0.9305,
       "step": 680
     },
     {
       "epoch": 1.9714285714285715,
+      "grad_norm": 3.618300676345825,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 0.975,
       "step": 690
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.0254437923431396,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 0.997,
       "step": 700
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.893572211265564,
+      "eval_runtime": 16.613,
+      "eval_samples_per_second": 12.039,
+      "eval_steps_per_second": 1.505,
       "step": 700
     },
     {
       "epoch": 2.0285714285714285,
+      "grad_norm": 2.8559610843658447,
+      "learning_rate": 0.00016190476190476192,
+      "loss": 0.8578,
       "step": 710
     },
     {
       "epoch": 2.057142857142857,
+      "grad_norm": 2.623955488204956,
+      "learning_rate": 0.00015714285714285713,
+      "loss": 0.8208,
       "step": 720
     },
     {
       "epoch": 2.085714285714286,
+      "grad_norm": 4.081460475921631,
+      "learning_rate": 0.0001523809523809524,
+      "loss": 0.8064,
       "step": 730
     },
     {
       "epoch": 2.1142857142857143,
+      "grad_norm": 4.917724609375,
+      "learning_rate": 0.00014761904761904763,
+      "loss": 0.8172,
       "step": 740
     },
     {
       "epoch": 2.142857142857143,
+      "grad_norm": 5.27565336227417,
+      "learning_rate": 0.00014285714285714284,
+      "loss": 1.0486,
       "step": 750
     },
     {
       "epoch": 2.1714285714285713,
+      "grad_norm": 4.373621463775635,
+      "learning_rate": 0.0001380952380952381,
+      "loss": 0.8948,
       "step": 760
     },
     {
       "epoch": 2.2,
+      "grad_norm": 3.5879688262939453,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.8612,
       "step": 770
     },
     {
       "epoch": 2.2285714285714286,
+      "grad_norm": 3.1236374378204346,
+      "learning_rate": 0.00012857142857142855,
+      "loss": 0.906,
       "step": 780
     },
     {
       "epoch": 2.257142857142857,
+      "grad_norm": 3.8395140171051025,
+      "learning_rate": 0.0001238095238095238,
+      "loss": 0.7673,
       "step": 790
     },
     {
       "epoch": 2.2857142857142856,
+      "grad_norm": 3.8085057735443115,
+      "learning_rate": 0.00011904761904761905,
+      "loss": 0.8075,
       "step": 800
     },
     {
       "epoch": 2.314285714285714,
+      "grad_norm": 3.388486385345459,
+      "learning_rate": 0.00011428571428571428,
+      "loss": 0.8651,
       "step": 810
     },
     {
       "epoch": 2.342857142857143,
+      "grad_norm": 3.3502166271209717,
+      "learning_rate": 0.00010952380952380952,
+      "loss": 0.8036,
       "step": 820
     },
     {
       "epoch": 2.3714285714285714,
+      "grad_norm": 3.833613634109497,
+      "learning_rate": 0.00010476190476190477,
+      "loss": 0.9703,
       "step": 830
     },
     {
       "epoch": 2.4,
+      "grad_norm": 3.7099878787994385,
+      "learning_rate": 0.0001,
+      "loss": 0.8167,
       "step": 840
     },
     {
       "epoch": 2.4285714285714284,
+      "grad_norm": 6.892563343048096,
+      "learning_rate": 9.523809523809524e-05,
+      "loss": 0.7719,
       "step": 850
     },
     {
       "epoch": 2.4571428571428573,
+      "grad_norm": 4.409047603607178,
+      "learning_rate": 9.047619047619048e-05,
+      "loss": 0.9031,
       "step": 860
     },
     {
       "epoch": 2.4857142857142858,
+      "grad_norm": 1.9474296569824219,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 0.9334,
       "step": 870
     },
     {
       "epoch": 2.5142857142857142,
+      "grad_norm": 2.9493942260742188,
+      "learning_rate": 8.095238095238096e-05,
+      "loss": 0.8624,
       "step": 880
     },
     {
       "epoch": 2.5428571428571427,
+      "grad_norm": 4.493179798126221,
+      "learning_rate": 7.61904761904762e-05,
+      "loss": 0.9769,
       "step": 890
     },
     {
       "epoch": 2.571428571428571,
+      "grad_norm": 5.590090751647949,
+      "learning_rate": 7.142857142857142e-05,
+      "loss": 0.6596,
       "step": 900
     },
     {
       "epoch": 2.6,
+      "grad_norm": 2.4073421955108643,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.8155,
       "step": 910
     },
     {
       "epoch": 2.6285714285714286,
+      "grad_norm": 3.83565092086792,
+      "learning_rate": 6.19047619047619e-05,
+      "loss": 0.8871,
       "step": 920
     },
     {
       "epoch": 2.657142857142857,
+      "grad_norm": 5.591251850128174,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.7536,
       "step": 930
     },
     {
       "epoch": 2.685714285714286,
+      "grad_norm": 4.405236721038818,
+      "learning_rate": 5.2380952380952384e-05,
+      "loss": 0.9314,
       "step": 940
     },
     {
       "epoch": 2.7142857142857144,
+      "grad_norm": 4.951947212219238,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.796,
       "step": 950
     },
     {
       "epoch": 2.742857142857143,
+      "grad_norm": 5.001076698303223,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.7446,
       "step": 960
     },
     {
       "epoch": 2.7714285714285714,
+      "grad_norm": 5.915081024169922,
+      "learning_rate": 3.80952380952381e-05,
+      "loss": 0.9323,
       "step": 970
     },
     {
       "epoch": 2.8,
+      "grad_norm": 2.5451648235321045,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.9232,
       "step": 980
     },
     {
       "epoch": 2.8285714285714287,
+      "grad_norm": 3.71482515335083,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.8619,
       "step": 990
     },
     {
       "epoch": 2.857142857142857,
+      "grad_norm": 3.601994037628174,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.8866,
       "step": 1000
     },
     {
       "epoch": 2.8857142857142857,
+      "grad_norm": 4.266910552978516,
+      "learning_rate": 1.904761904761905e-05,
+      "loss": 0.7992,
       "step": 1010
     },
     {
       "epoch": 2.914285714285714,
+      "grad_norm": 2.968625783920288,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.7861,
       "step": 1020
     },
     {
       "epoch": 2.942857142857143,
+      "grad_norm": 3.180135488510132,
+      "learning_rate": 9.523809523809525e-06,
+      "loss": 0.6923,
       "step": 1030
     },
     {
       "epoch": 2.9714285714285715,
+      "grad_norm": 3.609273910522461,
+      "learning_rate": 4.761904761904762e-06,
+      "loss": 0.6872,
       "step": 1040
     },
     {
       "epoch": 3.0,
+      "grad_norm": 4.716108798980713,
       "learning_rate": 0.0,
+      "loss": 0.8321,
       "step": 1050
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.7921221852302551,
+      "eval_runtime": 16.5336,
+      "eval_samples_per_second": 12.097,
+      "eval_steps_per_second": 1.512,
       "step": 1050
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 6283456413696000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-1050/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e1dfa9107963f8185e69ba39492321da63b95b2c62e54736ef9c90df528570
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:1982b07d8277b0bc7aaf4f34307bfaa24bd97b8994cd2c48e972769e68324f20
 size 5240

checkpoint-350/adapter_config.json CHANGED Viewed

@@ -20,8 +20,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-350/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7134e8571a6eb9a671f924ca5254574877103a854e2fb418241240873e61c8d1
 size 3416264

 version https://git-lfs.github.com/spec/v1
+oid sha256:7425737072ba8acbe6d2f9c94c69f458d16d0a7f53fa0676b6840781f5a4b2fc
 size 3416264

checkpoint-350/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dab7d1739bea84cef24eed0f552f33b6c7fa803e7c2988607daf9049e70ec9c
 size 6869818

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5ce96627e6b7708b4c7f689eccadb34c4192d05616b766eab604b48141e5e66
 size 6869818

checkpoint-350/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd178daa6f4d440d8189bbd31bca1f40c0bb1df60aa27e585e4e6653d855a91b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a60eb44815728d1c05bb3472d8ee196dc9c4a01b9978bca3eb64637848fdb4c7
 size 14244

checkpoint-350/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33aefed7c277ae39c1954cde2ddf39a160d3f27df9bf151a72089b407fe3071e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:def6878723ae6de031424f87c5cc1de1a9c00f84dc97979090ddbd977a6d40b3
 size 1064

checkpoint-350/trainer_state.json CHANGED Viewed

@@ -10,255 +10,255 @@
   "log_history": [
     {
       "epoch": 0.02857142857142857,
-      "grad_norm": 9.284814834594727,
-      "learning_rate": 9.904761904761905e-05,
-      "loss": 2.0184,
       "step": 10
     },
     {
       "epoch": 0.05714285714285714,
-      "grad_norm": 12.879095077514648,
-      "learning_rate": 9.80952380952381e-05,
-      "loss": 1.7222,
       "step": 20
     },
     {
       "epoch": 0.08571428571428572,
-      "grad_norm": 17.29737663269043,
-      "learning_rate": 9.714285714285715e-05,
-      "loss": 1.7591,
       "step": 30
     },
     {
       "epoch": 0.11428571428571428,
-      "grad_norm": 5.025689125061035,
-      "learning_rate": 9.61904761904762e-05,
-      "loss": 1.7304,
       "step": 40
     },
     {
       "epoch": 0.14285714285714285,
-      "grad_norm": 10.627418518066406,
-      "learning_rate": 9.523809523809524e-05,
-      "loss": 1.8282,
       "step": 50
     },
     {
       "epoch": 0.17142857142857143,
-      "grad_norm": 5.618676662445068,
-      "learning_rate": 9.428571428571429e-05,
-      "loss": 1.6407,
       "step": 60
     },
     {
       "epoch": 0.2,
-      "grad_norm": 13.271527290344238,
-      "learning_rate": 9.333333333333334e-05,
-      "loss": 1.7611,
       "step": 70
     },
     {
       "epoch": 0.22857142857142856,
-      "grad_norm": 7.040605545043945,
-      "learning_rate": 9.238095238095239e-05,
-      "loss": 1.8149,
       "step": 80
     },
     {
       "epoch": 0.2571428571428571,
-      "grad_norm": 9.282252311706543,
-      "learning_rate": 9.142857142857143e-05,
-      "loss": 1.656,
       "step": 90
     },
     {
       "epoch": 0.2857142857142857,
-      "grad_norm": 7.04727029800415,
-      "learning_rate": 9.047619047619048e-05,
-      "loss": 1.6419,
       "step": 100
     },
     {
       "epoch": 0.3142857142857143,
-      "grad_norm": 5.5171122550964355,
-      "learning_rate": 8.952380952380953e-05,
-      "loss": 1.682,
       "step": 110
     },
     {
       "epoch": 0.34285714285714286,
-      "grad_norm": 9.009190559387207,
-      "learning_rate": 8.857142857142857e-05,
-      "loss": 1.4019,
       "step": 120
     },
     {
       "epoch": 0.37142857142857144,
-      "grad_norm": 11.160100936889648,
-      "learning_rate": 8.761904761904762e-05,
-      "loss": 1.5941,
       "step": 130
     },
     {
       "epoch": 0.4,
-      "grad_norm": 6.663743019104004,
-      "learning_rate": 8.666666666666667e-05,
-      "loss": 1.4869,
       "step": 140
     },
     {
       "epoch": 0.42857142857142855,
-      "grad_norm": 7.955056667327881,
-      "learning_rate": 8.571428571428571e-05,
-      "loss": 1.6137,
       "step": 150
     },
     {
       "epoch": 0.45714285714285713,
-      "grad_norm": 7.169972896575928,
-      "learning_rate": 8.476190476190477e-05,
-      "loss": 1.7435,
       "step": 160
     },
     {
       "epoch": 0.4857142857142857,
-      "grad_norm": 4.778314113616943,
-      "learning_rate": 8.380952380952382e-05,
-      "loss": 1.3997,
       "step": 170
     },
     {
       "epoch": 0.5142857142857142,
-      "grad_norm": 8.540094375610352,
-      "learning_rate": 8.285714285714287e-05,
-      "loss": 1.5345,
       "step": 180
     },
     {
       "epoch": 0.5428571428571428,
-      "grad_norm": 8.377891540527344,
-      "learning_rate": 8.19047619047619e-05,
-      "loss": 1.4992,
       "step": 190
     },
     {
       "epoch": 0.5714285714285714,
-      "grad_norm": 6.053997039794922,
-      "learning_rate": 8.095238095238096e-05,
-      "loss": 1.4046,
       "step": 200
     },
     {
       "epoch": 0.6,
-      "grad_norm": 11.835803985595703,
-      "learning_rate": 8e-05,
-      "loss": 1.3463,
       "step": 210
     },
     {
       "epoch": 0.6285714285714286,
-      "grad_norm": 7.073652744293213,
-      "learning_rate": 7.904761904761905e-05,
-      "loss": 1.3764,
       "step": 220
     },
     {
       "epoch": 0.6571428571428571,
-      "grad_norm": 10.55458927154541,
-      "learning_rate": 7.80952380952381e-05,
-      "loss": 1.5288,
       "step": 230
     },
     {
       "epoch": 0.6857142857142857,
-      "grad_norm": 6.555107593536377,
-      "learning_rate": 7.714285714285715e-05,
-      "loss": 1.3578,
       "step": 240
     },
     {
       "epoch": 0.7142857142857143,
-      "grad_norm": 5.762172222137451,
-      "learning_rate": 7.619047619047618e-05,
-      "loss": 1.4635,
       "step": 250
     },
     {
       "epoch": 0.7428571428571429,
-      "grad_norm": 5.80485200881958,
-      "learning_rate": 7.523809523809524e-05,
-      "loss": 1.3706,
       "step": 260
     },
     {
       "epoch": 0.7714285714285715,
-      "grad_norm": 9.550569534301758,
-      "learning_rate": 7.428571428571429e-05,
-      "loss": 1.4227,
       "step": 270
     },
     {
       "epoch": 0.8,
-      "grad_norm": 6.621246814727783,
-      "learning_rate": 7.333333333333333e-05,
-      "loss": 1.3751,
       "step": 280
     },
     {
       "epoch": 0.8285714285714286,
-      "grad_norm": 7.168375492095947,
-      "learning_rate": 7.238095238095238e-05,
-      "loss": 1.3472,
       "step": 290
     },
     {
       "epoch": 0.8571428571428571,
-      "grad_norm": 11.96556568145752,
-      "learning_rate": 7.142857142857143e-05,
-      "loss": 1.33,
       "step": 300
     },
     {
       "epoch": 0.8857142857142857,
-      "grad_norm": 10.02365779876709,
-      "learning_rate": 7.047619047619048e-05,
-      "loss": 1.3553,
       "step": 310
     },
     {
       "epoch": 0.9142857142857143,
-      "grad_norm": 9.006269454956055,
-      "learning_rate": 6.952380952380952e-05,
-      "loss": 1.5504,
       "step": 320
     },
     {
       "epoch": 0.9428571428571428,
-      "grad_norm": 7.228586673736572,
-      "learning_rate": 6.857142857142858e-05,
-      "loss": 1.3597,
       "step": 330
     },
     {
       "epoch": 0.9714285714285714,
-      "grad_norm": 18.761024475097656,
-      "learning_rate": 6.761904761904763e-05,
-      "loss": 1.332,
       "step": 340
     },
     {
       "epoch": 1.0,
-      "grad_norm": 9.89370346069336,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 1.4027,
       "step": 350
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.2965246438980103,
-      "eval_runtime": 16.113,
-      "eval_samples_per_second": 12.412,
-      "eval_steps_per_second": 1.552,
       "step": 350
     }
   ],
@@ -279,7 +279,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2148343669063680.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.02857142857142857,
+      "grad_norm": 5.210493087768555,
+      "learning_rate": 0.0004952380952380952,
+      "loss": 4.4131,
       "step": 10
     },
     {
       "epoch": 0.05714285714285714,
+      "grad_norm": 3.571948528289795,
+      "learning_rate": 0.0004904761904761905,
+      "loss": 2.5476,
       "step": 20
     },
     {
       "epoch": 0.08571428571428572,
+      "grad_norm": 2.640848398208618,
+      "learning_rate": 0.0004857142857142857,
+      "loss": 2.2491,
       "step": 30
     },
     {
       "epoch": 0.11428571428571428,
+      "grad_norm": 2.6611335277557373,
+      "learning_rate": 0.00048095238095238095,
+      "loss": 2.0477,
       "step": 40
     },
     {
       "epoch": 0.14285714285714285,
+      "grad_norm": 2.608750581741333,
+      "learning_rate": 0.0004761904761904762,
+      "loss": 2.028,
       "step": 50
     },
     {
       "epoch": 0.17142857142857143,
+      "grad_norm": 5.034807205200195,
+      "learning_rate": 0.0004714285714285714,
+      "loss": 1.7871,
       "step": 60
     },
     {
       "epoch": 0.2,
+      "grad_norm": 3.5893642902374268,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 1.7879,
       "step": 70
     },
     {
       "epoch": 0.22857142857142856,
+      "grad_norm": 5.368953227996826,
+      "learning_rate": 0.00046190476190476195,
+      "loss": 1.8194,
       "step": 80
     },
     {
       "epoch": 0.2571428571428571,
+      "grad_norm": 3.7377731800079346,
+      "learning_rate": 0.00045714285714285713,
+      "loss": 1.6159,
       "step": 90
     },
     {
       "epoch": 0.2857142857142857,
+      "grad_norm": 7.883308410644531,
+      "learning_rate": 0.00045238095238095237,
+      "loss": 1.6244,
       "step": 100
     },
     {
       "epoch": 0.3142857142857143,
+      "grad_norm": 4.968689918518066,
+      "learning_rate": 0.00044761904761904766,
+      "loss": 1.6614,
       "step": 110
     },
     {
       "epoch": 0.34285714285714286,
+      "grad_norm": 2.592766046524048,
+      "learning_rate": 0.00044285714285714284,
+      "loss": 1.349,
       "step": 120
     },
     {
       "epoch": 0.37142857142857144,
+      "grad_norm": 2.783951997756958,
+      "learning_rate": 0.0004380952380952381,
+      "loss": 1.5065,
       "step": 130
     },
     {
       "epoch": 0.4,
+      "grad_norm": 5.2810378074646,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 1.3934,
       "step": 140
     },
     {
       "epoch": 0.42857142857142855,
+      "grad_norm": 4.448086261749268,
+      "learning_rate": 0.00042857142857142855,
+      "loss": 1.5198,
       "step": 150
     },
     {
       "epoch": 0.45714285714285713,
+      "grad_norm": 3.211707353591919,
+      "learning_rate": 0.0004238095238095238,
+      "loss": 1.6207,
       "step": 160
     },
     {
       "epoch": 0.4857142857142857,
+      "grad_norm": 3.586463212966919,
+      "learning_rate": 0.0004190476190476191,
+      "loss": 1.2687,
       "step": 170
     },
     {
       "epoch": 0.5142857142857142,
+      "grad_norm": 2.6598610877990723,
+      "learning_rate": 0.0004142857142857143,
+      "loss": 1.3957,
       "step": 180
     },
     {
       "epoch": 0.5428571428571428,
+      "grad_norm": 3.480663776397705,
+      "learning_rate": 0.00040952380952380955,
+      "loss": 1.3543,
       "step": 190
     },
     {
       "epoch": 0.5714285714285714,
+      "grad_norm": 3.168818712234497,
+      "learning_rate": 0.0004047619047619048,
+      "loss": 1.2619,
       "step": 200
     },
     {
       "epoch": 0.6,
+      "grad_norm": 2.7529921531677246,
+      "learning_rate": 0.0004,
+      "loss": 1.1871,
       "step": 210
     },
     {
       "epoch": 0.6285714285714286,
+      "grad_norm": 6.538937568664551,
+      "learning_rate": 0.00039523809523809526,
+      "loss": 1.268,
       "step": 220
     },
     {
       "epoch": 0.6571428571428571,
+      "grad_norm": 3.3910727500915527,
+      "learning_rate": 0.0003904761904761905,
+      "loss": 1.4192,
       "step": 230
     },
     {
       "epoch": 0.6857142857142857,
+      "grad_norm": 2.31817889213562,
+      "learning_rate": 0.0003857142857142857,
+      "loss": 1.2339,
       "step": 240
     },
     {
       "epoch": 0.7142857142857143,
+      "grad_norm": 2.8181235790252686,
+      "learning_rate": 0.00038095238095238096,
+      "loss": 1.3153,
       "step": 250
     },
     {
       "epoch": 0.7428571428571429,
+      "grad_norm": 2.5716922283172607,
+      "learning_rate": 0.0003761904761904762,
+      "loss": 1.2066,
       "step": 260
     },
     {
       "epoch": 0.7714285714285715,
+      "grad_norm": 5.403870105743408,
+      "learning_rate": 0.00037142857142857143,
+      "loss": 1.2784,
       "step": 270
     },
     {
       "epoch": 0.8,
+      "grad_norm": 3.347729206085205,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 1.2273,
       "step": 280
     },
     {
       "epoch": 0.8285714285714286,
+      "grad_norm": 2.7995996475219727,
+      "learning_rate": 0.0003619047619047619,
+      "loss": 1.159,
       "step": 290
     },
     {
       "epoch": 0.8571428571428571,
+      "grad_norm": 3.817213535308838,
+      "learning_rate": 0.00035714285714285714,
+      "loss": 1.1146,
       "step": 300
     },
     {
       "epoch": 0.8857142857142857,
+      "grad_norm": 3.3239715099334717,
+      "learning_rate": 0.00035238095238095243,
+      "loss": 1.1513,
       "step": 310
     },
     {
       "epoch": 0.9142857142857143,
+      "grad_norm": 3.042973518371582,
+      "learning_rate": 0.0003476190476190476,
+      "loss": 1.3906,
       "step": 320
     },
     {
       "epoch": 0.9428571428571428,
+      "grad_norm": 2.8079681396484375,
+      "learning_rate": 0.00034285714285714285,
+      "loss": 1.1547,
       "step": 330
     },
     {
       "epoch": 0.9714285714285714,
+      "grad_norm": 6.39453649520874,
+      "learning_rate": 0.00033809523809523814,
+      "loss": 1.0989,
       "step": 340
     },
     {
       "epoch": 1.0,
+      "grad_norm": 5.739945411682129,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 1.1563,
       "step": 350
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.064656376838684,
+      "eval_runtime": 16.5324,
+      "eval_samples_per_second": 12.097,
+      "eval_steps_per_second": 1.512,
       "step": 350
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 2094485471232000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-350/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e1dfa9107963f8185e69ba39492321da63b95b2c62e54736ef9c90df528570
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:1982b07d8277b0bc7aaf4f34307bfaa24bd97b8994cd2c48e972769e68324f20
 size 5240

checkpoint-700/adapter_config.json CHANGED Viewed

@@ -20,8 +20,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-700/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dbe85e2dd4f1f5fc2eb17da5a265bddf136411ea27e85a75c0f7eea7ce2f2e0
 size 3416264

 version https://git-lfs.github.com/spec/v1
+oid sha256:272d892f181091df9c53c56b733b46487117c9ff3f709e43844e4925d4302ea6
 size 3416264

checkpoint-700/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b37faece466f9bb9c07d1d8555f770f47ea66562a46a581b8b8f4f8c5da2e6b
 size 6869818

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fdad2f22ddadb3c8130f49e48198958bf03d74f744708327044990e56b3d21a
 size 6869818

checkpoint-700/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2bd29ae77322656ada7c1bb2d3d83cc8190b748cdd472f783b591d1bfc8cb7c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b50e1d829b6f58094a5a1390d8e3ee0aa39e25fa2ec141d6471b70ffb58c1ac3
 size 14244

checkpoint-700/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7f2210d0183813c5f239e54b2c5c45a2e710e979039235ab9d6882e70c940d8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:28b00ddbc3d3a3abe006434542557db9d921f0260b12618e776b614466247588
 size 1064

checkpoint-700/trainer_state.json CHANGED Viewed

@@ -10,508 +10,508 @@
   "log_history": [
     {
       "epoch": 0.02857142857142857,
-      "grad_norm": 9.284814834594727,
-      "learning_rate": 9.904761904761905e-05,
-      "loss": 2.0184,
       "step": 10
     },
     {
       "epoch": 0.05714285714285714,
-      "grad_norm": 12.879095077514648,
-      "learning_rate": 9.80952380952381e-05,
-      "loss": 1.7222,
       "step": 20
     },
     {
       "epoch": 0.08571428571428572,
-      "grad_norm": 17.29737663269043,
-      "learning_rate": 9.714285714285715e-05,
-      "loss": 1.7591,
       "step": 30
     },
     {
       "epoch": 0.11428571428571428,
-      "grad_norm": 5.025689125061035,
-      "learning_rate": 9.61904761904762e-05,
-      "loss": 1.7304,
       "step": 40
     },
     {
       "epoch": 0.14285714285714285,
-      "grad_norm": 10.627418518066406,
-      "learning_rate": 9.523809523809524e-05,
-      "loss": 1.8282,
       "step": 50
     },
     {
       "epoch": 0.17142857142857143,
-      "grad_norm": 5.618676662445068,
-      "learning_rate": 9.428571428571429e-05,
-      "loss": 1.6407,
       "step": 60
     },
     {
       "epoch": 0.2,
-      "grad_norm": 13.271527290344238,
-      "learning_rate": 9.333333333333334e-05,
-      "loss": 1.7611,
       "step": 70
     },
     {
       "epoch": 0.22857142857142856,
-      "grad_norm": 7.040605545043945,
-      "learning_rate": 9.238095238095239e-05,
-      "loss": 1.8149,
       "step": 80
     },
     {
       "epoch": 0.2571428571428571,
-      "grad_norm": 9.282252311706543,
-      "learning_rate": 9.142857142857143e-05,
-      "loss": 1.656,
       "step": 90
     },
     {
       "epoch": 0.2857142857142857,
-      "grad_norm": 7.04727029800415,
-      "learning_rate": 9.047619047619048e-05,
-      "loss": 1.6419,
       "step": 100
     },
     {
       "epoch": 0.3142857142857143,
-      "grad_norm": 5.5171122550964355,
-      "learning_rate": 8.952380952380953e-05,
-      "loss": 1.682,
       "step": 110
     },
     {
       "epoch": 0.34285714285714286,
-      "grad_norm": 9.009190559387207,
-      "learning_rate": 8.857142857142857e-05,
-      "loss": 1.4019,
       "step": 120
     },
     {
       "epoch": 0.37142857142857144,
-      "grad_norm": 11.160100936889648,
-      "learning_rate": 8.761904761904762e-05,
-      "loss": 1.5941,
       "step": 130
     },
     {
       "epoch": 0.4,
-      "grad_norm": 6.663743019104004,
-      "learning_rate": 8.666666666666667e-05,
-      "loss": 1.4869,
       "step": 140
     },
     {
       "epoch": 0.42857142857142855,
-      "grad_norm": 7.955056667327881,
-      "learning_rate": 8.571428571428571e-05,
-      "loss": 1.6137,
       "step": 150
     },
     {
       "epoch": 0.45714285714285713,
-      "grad_norm": 7.169972896575928,
-      "learning_rate": 8.476190476190477e-05,
-      "loss": 1.7435,
       "step": 160
     },
     {
       "epoch": 0.4857142857142857,
-      "grad_norm": 4.778314113616943,
-      "learning_rate": 8.380952380952382e-05,
-      "loss": 1.3997,
       "step": 170
     },
     {
       "epoch": 0.5142857142857142,
-      "grad_norm": 8.540094375610352,
-      "learning_rate": 8.285714285714287e-05,
-      "loss": 1.5345,
       "step": 180
     },
     {
       "epoch": 0.5428571428571428,
-      "grad_norm": 8.377891540527344,
-      "learning_rate": 8.19047619047619e-05,
-      "loss": 1.4992,
       "step": 190
     },
     {
       "epoch": 0.5714285714285714,
-      "grad_norm": 6.053997039794922,
-      "learning_rate": 8.095238095238096e-05,
-      "loss": 1.4046,
       "step": 200
     },
     {
       "epoch": 0.6,
-      "grad_norm": 11.835803985595703,
-      "learning_rate": 8e-05,
-      "loss": 1.3463,
       "step": 210
     },
     {
       "epoch": 0.6285714285714286,
-      "grad_norm": 7.073652744293213,
-      "learning_rate": 7.904761904761905e-05,
-      "loss": 1.3764,
       "step": 220
     },
     {
       "epoch": 0.6571428571428571,
-      "grad_norm": 10.55458927154541,
-      "learning_rate": 7.80952380952381e-05,
-      "loss": 1.5288,
       "step": 230
     },
     {
       "epoch": 0.6857142857142857,
-      "grad_norm": 6.555107593536377,
-      "learning_rate": 7.714285714285715e-05,
-      "loss": 1.3578,
       "step": 240
     },
     {
       "epoch": 0.7142857142857143,
-      "grad_norm": 5.762172222137451,
-      "learning_rate": 7.619047619047618e-05,
-      "loss": 1.4635,
       "step": 250
     },
     {
       "epoch": 0.7428571428571429,
-      "grad_norm": 5.80485200881958,
-      "learning_rate": 7.523809523809524e-05,
-      "loss": 1.3706,
       "step": 260
     },
     {
       "epoch": 0.7714285714285715,
-      "grad_norm": 9.550569534301758,
-      "learning_rate": 7.428571428571429e-05,
-      "loss": 1.4227,
       "step": 270
     },
     {
       "epoch": 0.8,
-      "grad_norm": 6.621246814727783,
-      "learning_rate": 7.333333333333333e-05,
-      "loss": 1.3751,
       "step": 280
     },
     {
       "epoch": 0.8285714285714286,
-      "grad_norm": 7.168375492095947,
-      "learning_rate": 7.238095238095238e-05,
-      "loss": 1.3472,
       "step": 290
     },
     {
       "epoch": 0.8571428571428571,
-      "grad_norm": 11.96556568145752,
-      "learning_rate": 7.142857142857143e-05,
-      "loss": 1.33,
       "step": 300
     },
     {
       "epoch": 0.8857142857142857,
-      "grad_norm": 10.02365779876709,
-      "learning_rate": 7.047619047619048e-05,
-      "loss": 1.3553,
       "step": 310
     },
     {
       "epoch": 0.9142857142857143,
-      "grad_norm": 9.006269454956055,
-      "learning_rate": 6.952380952380952e-05,
-      "loss": 1.5504,
       "step": 320
     },
     {
       "epoch": 0.9428571428571428,
-      "grad_norm": 7.228586673736572,
-      "learning_rate": 6.857142857142858e-05,
-      "loss": 1.3597,
       "step": 330
     },
     {
       "epoch": 0.9714285714285714,
-      "grad_norm": 18.761024475097656,
-      "learning_rate": 6.761904761904763e-05,
-      "loss": 1.332,
       "step": 340
     },
     {
       "epoch": 1.0,
-      "grad_norm": 9.89370346069336,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 1.4027,
       "step": 350
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.2965246438980103,
-      "eval_runtime": 16.113,
-      "eval_samples_per_second": 12.412,
-      "eval_steps_per_second": 1.552,
       "step": 350
     },
     {
       "epoch": 1.0285714285714285,
-      "grad_norm": 14.148599624633789,
-      "learning_rate": 6.571428571428571e-05,
-      "loss": 1.322,
       "step": 360
     },
     {
       "epoch": 1.0571428571428572,
-      "grad_norm": 6.457850456237793,
-      "learning_rate": 6.476190476190477e-05,
-      "loss": 1.4209,
       "step": 370
     },
     {
       "epoch": 1.0857142857142856,
-      "grad_norm": 7.997476100921631,
-      "learning_rate": 6.38095238095238e-05,
-      "loss": 1.3045,
       "step": 380
     },
     {
       "epoch": 1.1142857142857143,
-      "grad_norm": 11.429621696472168,
-      "learning_rate": 6.285714285714286e-05,
-      "loss": 1.3239,
       "step": 390
     },
     {
       "epoch": 1.1428571428571428,
-      "grad_norm": 8.54537582397461,
-      "learning_rate": 6.19047619047619e-05,
-      "loss": 1.3079,
       "step": 400
     },
     {
       "epoch": 1.1714285714285715,
-      "grad_norm": 9.194470405578613,
-      "learning_rate": 6.0952380952380964e-05,
-      "loss": 1.3014,
       "step": 410
     },
     {
       "epoch": 1.2,
-      "grad_norm": 6.942721366882324,
-      "learning_rate": 6e-05,
-      "loss": 1.3108,
       "step": 420
     },
     {
       "epoch": 1.2285714285714286,
-      "grad_norm": 17.95640754699707,
-      "learning_rate": 5.904761904761905e-05,
-      "loss": 1.2473,
       "step": 430
     },
     {
       "epoch": 1.2571428571428571,
-      "grad_norm": 6.065295696258545,
-      "learning_rate": 5.8095238095238104e-05,
-      "loss": 1.1563,
       "step": 440
     },
     {
       "epoch": 1.2857142857142856,
-      "grad_norm": 18.216981887817383,
-      "learning_rate": 5.714285714285714e-05,
-      "loss": 1.5198,
       "step": 450
     },
     {
       "epoch": 1.3142857142857143,
-      "grad_norm": 7.645397186279297,
-      "learning_rate": 5.619047619047619e-05,
-      "loss": 1.294,
       "step": 460
     },
     {
       "epoch": 1.342857142857143,
-      "grad_norm": 8.216632843017578,
-      "learning_rate": 5.5238095238095244e-05,
-      "loss": 1.3319,
       "step": 470
     },
     {
       "epoch": 1.3714285714285714,
-      "grad_norm": 11.892958641052246,
-      "learning_rate": 5.428571428571428e-05,
-      "loss": 1.349,
       "step": 480
     },
     {
       "epoch": 1.4,
-      "grad_norm": 7.598433494567871,
-      "learning_rate": 5.333333333333333e-05,
-      "loss": 1.2459,
       "step": 490
     },
     {
       "epoch": 1.4285714285714286,
-      "grad_norm": 7.4001898765563965,
-      "learning_rate": 5.2380952380952384e-05,
-      "loss": 1.2531,
       "step": 500
     },
     {
       "epoch": 1.457142857142857,
-      "grad_norm": 9.964533805847168,
-      "learning_rate": 5.142857142857143e-05,
-      "loss": 1.2326,
       "step": 510
     },
     {
       "epoch": 1.4857142857142858,
-      "grad_norm": 10.863306045532227,
-      "learning_rate": 5.047619047619048e-05,
-      "loss": 1.1964,
       "step": 520
     },
     {
       "epoch": 1.5142857142857142,
-      "grad_norm": 7.798760414123535,
-      "learning_rate": 4.9523809523809525e-05,
-      "loss": 1.2377,
       "step": 530
     },
     {
       "epoch": 1.5428571428571427,
-      "grad_norm": 5.575809001922607,
-      "learning_rate": 4.8571428571428576e-05,
-      "loss": 1.2545,
       "step": 540
     },
     {
       "epoch": 1.5714285714285714,
-      "grad_norm": 7.334414958953857,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 1.2441,
       "step": 550
     },
     {
       "epoch": 1.6,
-      "grad_norm": 7.7508745193481445,
-      "learning_rate": 4.666666666666667e-05,
-      "loss": 1.3679,
       "step": 560
     },
     {
       "epoch": 1.6285714285714286,
-      "grad_norm": 8.727417945861816,
-      "learning_rate": 4.5714285714285716e-05,
-      "loss": 1.366,
       "step": 570
     },
     {
       "epoch": 1.657142857142857,
-      "grad_norm": 11.305671691894531,
-      "learning_rate": 4.476190476190477e-05,
-      "loss": 1.2059,
       "step": 580
     },
     {
       "epoch": 1.6857142857142857,
-      "grad_norm": 12.226043701171875,
-      "learning_rate": 4.380952380952381e-05,
-      "loss": 1.3986,
       "step": 590
     },
     {
       "epoch": 1.7142857142857144,
-      "grad_norm": 9.918877601623535,
-      "learning_rate": 4.2857142857142856e-05,
-      "loss": 1.2768,
       "step": 600
     },
     {
       "epoch": 1.7428571428571429,
-      "grad_norm": 7.957796096801758,
-      "learning_rate": 4.190476190476191e-05,
-      "loss": 1.2662,
       "step": 610
     },
     {
       "epoch": 1.7714285714285714,
-      "grad_norm": 10.324079513549805,
-      "learning_rate": 4.095238095238095e-05,
-      "loss": 1.2392,
       "step": 620
     },
     {
       "epoch": 1.8,
-      "grad_norm": 8.535161972045898,
-      "learning_rate": 4e-05,
-      "loss": 1.2802,
       "step": 630
     },
     {
       "epoch": 1.8285714285714287,
-      "grad_norm": 6.386439800262451,
-      "learning_rate": 3.904761904761905e-05,
-      "loss": 1.2973,
       "step": 640
     },
     {
       "epoch": 1.8571428571428572,
-      "grad_norm": 16.93861961364746,
-      "learning_rate": 3.809523809523809e-05,
-      "loss": 1.1805,
       "step": 650
     },
     {
       "epoch": 1.8857142857142857,
-      "grad_norm": 17.099620819091797,
-      "learning_rate": 3.7142857142857143e-05,
-      "loss": 1.2095,
       "step": 660
     },
     {
       "epoch": 1.9142857142857141,
-      "grad_norm": 9.49264144897461,
-      "learning_rate": 3.619047619047619e-05,
-      "loss": 1.2924,
       "step": 670
     },
     {
       "epoch": 1.9428571428571428,
-      "grad_norm": 5.8994364738464355,
-      "learning_rate": 3.523809523809524e-05,
-      "loss": 1.2577,
       "step": 680
     },
     {
       "epoch": 1.9714285714285715,
-      "grad_norm": 7.082160472869873,
-      "learning_rate": 3.428571428571429e-05,
-      "loss": 1.2792,
       "step": 690
     },
     {
       "epoch": 2.0,
-      "grad_norm": 9.511951446533203,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 1.2854,
       "step": 700
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.2146018743515015,
-      "eval_runtime": 16.0983,
-      "eval_samples_per_second": 12.424,
-      "eval_steps_per_second": 1.553,
       "step": 700
     }
   ],
@@ -532,7 +532,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4242829140295680.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.02857142857142857,
+      "grad_norm": 5.210493087768555,
+      "learning_rate": 0.0004952380952380952,
+      "loss": 4.4131,
       "step": 10
     },
     {
       "epoch": 0.05714285714285714,
+      "grad_norm": 3.571948528289795,
+      "learning_rate": 0.0004904761904761905,
+      "loss": 2.5476,
       "step": 20
     },
     {
       "epoch": 0.08571428571428572,
+      "grad_norm": 2.640848398208618,
+      "learning_rate": 0.0004857142857142857,
+      "loss": 2.2491,
       "step": 30
     },
     {
       "epoch": 0.11428571428571428,
+      "grad_norm": 2.6611335277557373,
+      "learning_rate": 0.00048095238095238095,
+      "loss": 2.0477,
       "step": 40
     },
     {
       "epoch": 0.14285714285714285,
+      "grad_norm": 2.608750581741333,
+      "learning_rate": 0.0004761904761904762,
+      "loss": 2.028,
       "step": 50
     },
     {
       "epoch": 0.17142857142857143,
+      "grad_norm": 5.034807205200195,
+      "learning_rate": 0.0004714285714285714,
+      "loss": 1.7871,
       "step": 60
     },
     {
       "epoch": 0.2,
+      "grad_norm": 3.5893642902374268,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 1.7879,
       "step": 70
     },
     {
       "epoch": 0.22857142857142856,
+      "grad_norm": 5.368953227996826,
+      "learning_rate": 0.00046190476190476195,
+      "loss": 1.8194,
       "step": 80
     },
     {
       "epoch": 0.2571428571428571,
+      "grad_norm": 3.7377731800079346,
+      "learning_rate": 0.00045714285714285713,
+      "loss": 1.6159,
       "step": 90
     },
     {
       "epoch": 0.2857142857142857,
+      "grad_norm": 7.883308410644531,
+      "learning_rate": 0.00045238095238095237,
+      "loss": 1.6244,
       "step": 100
     },
     {
       "epoch": 0.3142857142857143,
+      "grad_norm": 4.968689918518066,
+      "learning_rate": 0.00044761904761904766,
+      "loss": 1.6614,
       "step": 110
     },
     {
       "epoch": 0.34285714285714286,
+      "grad_norm": 2.592766046524048,
+      "learning_rate": 0.00044285714285714284,
+      "loss": 1.349,
       "step": 120
     },
     {
       "epoch": 0.37142857142857144,
+      "grad_norm": 2.783951997756958,
+      "learning_rate": 0.0004380952380952381,
+      "loss": 1.5065,
       "step": 130
     },
     {
       "epoch": 0.4,
+      "grad_norm": 5.2810378074646,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 1.3934,
       "step": 140
     },
     {
       "epoch": 0.42857142857142855,
+      "grad_norm": 4.448086261749268,
+      "learning_rate": 0.00042857142857142855,
+      "loss": 1.5198,
       "step": 150
     },
     {
       "epoch": 0.45714285714285713,
+      "grad_norm": 3.211707353591919,
+      "learning_rate": 0.0004238095238095238,
+      "loss": 1.6207,
       "step": 160
     },
     {
       "epoch": 0.4857142857142857,
+      "grad_norm": 3.586463212966919,
+      "learning_rate": 0.0004190476190476191,
+      "loss": 1.2687,
       "step": 170
     },
     {
       "epoch": 0.5142857142857142,
+      "grad_norm": 2.6598610877990723,
+      "learning_rate": 0.0004142857142857143,
+      "loss": 1.3957,
       "step": 180
     },
     {
       "epoch": 0.5428571428571428,
+      "grad_norm": 3.480663776397705,
+      "learning_rate": 0.00040952380952380955,
+      "loss": 1.3543,
       "step": 190
     },
     {
       "epoch": 0.5714285714285714,
+      "grad_norm": 3.168818712234497,
+      "learning_rate": 0.0004047619047619048,
+      "loss": 1.2619,
       "step": 200
     },
     {
       "epoch": 0.6,
+      "grad_norm": 2.7529921531677246,
+      "learning_rate": 0.0004,
+      "loss": 1.1871,
       "step": 210
     },
     {
       "epoch": 0.6285714285714286,
+      "grad_norm": 6.538937568664551,
+      "learning_rate": 0.00039523809523809526,
+      "loss": 1.268,
       "step": 220
     },
     {
       "epoch": 0.6571428571428571,
+      "grad_norm": 3.3910727500915527,
+      "learning_rate": 0.0003904761904761905,
+      "loss": 1.4192,
       "step": 230
     },
     {
       "epoch": 0.6857142857142857,
+      "grad_norm": 2.31817889213562,
+      "learning_rate": 0.0003857142857142857,
+      "loss": 1.2339,
       "step": 240
     },
     {
       "epoch": 0.7142857142857143,
+      "grad_norm": 2.8181235790252686,
+      "learning_rate": 0.00038095238095238096,
+      "loss": 1.3153,
       "step": 250
     },
     {
       "epoch": 0.7428571428571429,
+      "grad_norm": 2.5716922283172607,
+      "learning_rate": 0.0003761904761904762,
+      "loss": 1.2066,
       "step": 260
     },
     {
       "epoch": 0.7714285714285715,
+      "grad_norm": 5.403870105743408,
+      "learning_rate": 0.00037142857142857143,
+      "loss": 1.2784,
       "step": 270
     },
     {
       "epoch": 0.8,
+      "grad_norm": 3.347729206085205,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 1.2273,
       "step": 280
     },
     {
       "epoch": 0.8285714285714286,
+      "grad_norm": 2.7995996475219727,
+      "learning_rate": 0.0003619047619047619,
+      "loss": 1.159,
       "step": 290
     },
     {
       "epoch": 0.8571428571428571,
+      "grad_norm": 3.817213535308838,
+      "learning_rate": 0.00035714285714285714,
+      "loss": 1.1146,
       "step": 300
     },
     {
       "epoch": 0.8857142857142857,
+      "grad_norm": 3.3239715099334717,
+      "learning_rate": 0.00035238095238095243,
+      "loss": 1.1513,
       "step": 310
     },
     {
       "epoch": 0.9142857142857143,
+      "grad_norm": 3.042973518371582,
+      "learning_rate": 0.0003476190476190476,
+      "loss": 1.3906,
       "step": 320
     },
     {
       "epoch": 0.9428571428571428,
+      "grad_norm": 2.8079681396484375,
+      "learning_rate": 0.00034285714285714285,
+      "loss": 1.1547,
       "step": 330
     },
     {
       "epoch": 0.9714285714285714,
+      "grad_norm": 6.39453649520874,
+      "learning_rate": 0.00033809523809523814,
+      "loss": 1.0989,
       "step": 340
     },
     {
       "epoch": 1.0,
+      "grad_norm": 5.739945411682129,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 1.1563,
       "step": 350
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.064656376838684,
+      "eval_runtime": 16.5324,
+      "eval_samples_per_second": 12.097,
+      "eval_steps_per_second": 1.512,
       "step": 350
     },
     {
       "epoch": 1.0285714285714285,
+      "grad_norm": 5.899299144744873,
+      "learning_rate": 0.00032857142857142856,
+      "loss": 1.0649,
       "step": 360
     },
     {
       "epoch": 1.0571428571428572,
+      "grad_norm": 3.3639721870422363,
+      "learning_rate": 0.00032380952380952385,
+      "loss": 1.1595,
       "step": 370
     },
     {
       "epoch": 1.0857142857142856,
+      "grad_norm": 2.811561346054077,
+      "learning_rate": 0.00031904761904761903,
+      "loss": 1.0871,
       "step": 380
     },
     {
       "epoch": 1.1142857142857143,
+      "grad_norm": 2.6730055809020996,
+      "learning_rate": 0.00031428571428571427,
+      "loss": 1.0294,
       "step": 390
     },
     {
       "epoch": 1.1428571428571428,
+      "grad_norm": 5.02337646484375,
+      "learning_rate": 0.00030952380952380956,
+      "loss": 1.0844,
       "step": 400
     },
     {
       "epoch": 1.1714285714285715,
+      "grad_norm": 4.188799858093262,
+      "learning_rate": 0.0003047619047619048,
+      "loss": 1.0464,
       "step": 410
     },
     {
       "epoch": 1.2,
+      "grad_norm": 5.055841445922852,
+      "learning_rate": 0.0003,
+      "loss": 1.1078,
       "step": 420
     },
     {
       "epoch": 1.2285714285714286,
+      "grad_norm": 8.09494400024414,
+      "learning_rate": 0.00029523809523809526,
+      "loss": 1.0539,
       "step": 430
     },
     {
       "epoch": 1.2571428571428571,
+      "grad_norm": 3.012653112411499,
+      "learning_rate": 0.0002904761904761905,
+      "loss": 0.927,
       "step": 440
     },
     {
       "epoch": 1.2857142857142856,
+      "grad_norm": 8.38936710357666,
+      "learning_rate": 0.0002857142857142857,
+      "loss": 1.2209,
       "step": 450
     },
     {
       "epoch": 1.3142857142857143,
+      "grad_norm": 4.191105365753174,
+      "learning_rate": 0.00028095238095238097,
+      "loss": 1.0086,
       "step": 460
     },
     {
       "epoch": 1.342857142857143,
+      "grad_norm": 2.9886045455932617,
+      "learning_rate": 0.0002761904761904762,
+      "loss": 1.0788,
       "step": 470
     },
     {
       "epoch": 1.3714285714285714,
+      "grad_norm": 3.5892975330352783,
+      "learning_rate": 0.0002714285714285714,
+      "loss": 1.0877,
       "step": 480
     },
     {
       "epoch": 1.4,
+      "grad_norm": 4.504238128662109,
+      "learning_rate": 0.0002666666666666667,
+      "loss": 1.0066,
       "step": 490
     },
     {
       "epoch": 1.4285714285714286,
+      "grad_norm": 3.601853132247925,
+      "learning_rate": 0.0002619047619047619,
+      "loss": 0.9915,
       "step": 500
     },
     {
       "epoch": 1.457142857142857,
+      "grad_norm": 4.008484840393066,
+      "learning_rate": 0.0002571428571428571,
+      "loss": 0.9651,
       "step": 510
     },
     {
       "epoch": 1.4857142857142858,
+      "grad_norm": 5.5403900146484375,
+      "learning_rate": 0.0002523809523809524,
+      "loss": 0.9018,
       "step": 520
     },
     {
       "epoch": 1.5142857142857142,
+      "grad_norm": 3.526982069015503,
+      "learning_rate": 0.0002476190476190476,
+      "loss": 0.9588,
       "step": 530
     },
     {
       "epoch": 1.5428571428571427,
+      "grad_norm": 3.666804075241089,
+      "learning_rate": 0.00024285714285714286,
+      "loss": 1.0092,
       "step": 540
     },
     {
       "epoch": 1.5714285714285714,
+      "grad_norm": 3.4340310096740723,
+      "learning_rate": 0.0002380952380952381,
+      "loss": 0.9342,
       "step": 550
     },
     {
       "epoch": 1.6,
+      "grad_norm": 5.815408229827881,
+      "learning_rate": 0.00023333333333333333,
+      "loss": 1.0666,
       "step": 560
     },
     {
       "epoch": 1.6285714285714286,
+      "grad_norm": 2.7780840396881104,
+      "learning_rate": 0.00022857142857142857,
+      "loss": 1.1026,
       "step": 570
     },
     {
       "epoch": 1.657142857142857,
+      "grad_norm": 3.8484044075012207,
+      "learning_rate": 0.00022380952380952383,
+      "loss": 0.937,
       "step": 580
     },
     {
       "epoch": 1.6857142857142857,
+      "grad_norm": 3.819007635116577,
+      "learning_rate": 0.00021904761904761904,
+      "loss": 1.1247,
       "step": 590
     },
     {
       "epoch": 1.7142857142857144,
+      "grad_norm": 3.8324477672576904,
+      "learning_rate": 0.00021428571428571427,
+      "loss": 0.9961,
       "step": 600
     },
     {
       "epoch": 1.7428571428571429,
+      "grad_norm": 3.2769389152526855,
+      "learning_rate": 0.00020952380952380954,
+      "loss": 0.9987,
       "step": 610
     },
     {
       "epoch": 1.7714285714285714,
+      "grad_norm": 5.3248443603515625,
+      "learning_rate": 0.00020476190476190477,
+      "loss": 0.9219,
       "step": 620
     },
     {
       "epoch": 1.8,
+      "grad_norm": 2.6656081676483154,
+      "learning_rate": 0.0002,
+      "loss": 1.0293,
       "step": 630
     },
     {
       "epoch": 1.8285714285714287,
+      "grad_norm": 2.6429567337036133,
+      "learning_rate": 0.00019523809523809525,
+      "loss": 1.0106,
       "step": 640
     },
     {
       "epoch": 1.8571428571428572,
+      "grad_norm": 4.4341864585876465,
+      "learning_rate": 0.00019047619047619048,
+      "loss": 0.8426,
       "step": 650
     },
     {
       "epoch": 1.8857142857142857,
+      "grad_norm": 4.535873889923096,
+      "learning_rate": 0.00018571428571428572,
+      "loss": 0.9335,
       "step": 660
     },
     {
       "epoch": 1.9142857142857141,
+      "grad_norm": 4.100979328155518,
+      "learning_rate": 0.00018095238095238095,
+      "loss": 0.9936,
       "step": 670
     },
     {
       "epoch": 1.9428571428571428,
+      "grad_norm": 4.034025192260742,
+      "learning_rate": 0.00017619047619047622,
+      "loss": 0.9305,
       "step": 680
     },
     {
       "epoch": 1.9714285714285715,
+      "grad_norm": 3.618300676345825,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 0.975,
       "step": 690
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.0254437923431396,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 0.997,
       "step": 700
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.893572211265564,
+      "eval_runtime": 16.613,
+      "eval_samples_per_second": 12.039,
+      "eval_steps_per_second": 1.505,
       "step": 700
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 4188970942464000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-700/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e1dfa9107963f8185e69ba39492321da63b95b2c62e54736ef9c90df528570
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:1982b07d8277b0bc7aaf4f34307bfaa24bd97b8994cd2c48e972769e68324f20
 size 5240

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e1dfa9107963f8185e69ba39492321da63b95b2c62e54736ef9c90df528570
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:1982b07d8277b0bc7aaf4f34307bfaa24bd97b8994cd2c48e972769e68324f20
 size 5240