YL95 commited on Oct 3, 2023

Commit

d2a7291

1 Parent(s): 8bf3e23

Upload folder using huggingface_hub

Browse files

Files changed (22) hide show

README.md +9 -0
adapter_config.json +22 -0
adapter_model.bin +3 -0
checkpoint-8825/README.md +34 -0
checkpoint-8825/adapter_config.json +22 -0
checkpoint-8825/adapter_model.bin +3 -0
checkpoint-8825/optimizer.pt +3 -0
checkpoint-8825/rng_state.pth +3 -0
checkpoint-8825/scheduler.pt +3 -0
checkpoint-8825/special_tokens_map.json +6 -0
checkpoint-8825/tokenizer.json +0 -0
checkpoint-8825/tokenizer.model +3 -0
checkpoint-8825/tokenizer_config.json +40 -0
checkpoint-8825/trainer_state.json +739 -0
checkpoint-8825/training_args.bin +3 -0
runs/Oct02_17-08-29_AM-3080TI-VR-PC/events.out.tfevents.1696262910.AM-3080TI-VR-PC.781.0 +3 -0
special_tokens_map.json +6 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +40 -0
training_args.bin +3 -0
training_params.json +1 -0

README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+tags:
+- autotrain
+- text-generation
+widget:
+- text: "I love AutoTrain because "
+---
+# Model Trained Using AutoTrain

adapter_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "bn22/Mistral-7B-Instruct-v0.1-sharded",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:288b7f41e8b497e0168906000bc67de18cfc867d5cb95c13eb23102eaa7caaa6
+size 16800049

checkpoint-8825/README.md ADDED Viewed

	@@ -0,0 +1,34 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.6.0.dev0
+- PEFT 0.6.0.dev0

checkpoint-8825/adapter_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "bn22/Mistral-7B-Instruct-v0.1-sharded",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-8825/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:288b7f41e8b497e0168906000bc67de18cfc867d5cb95c13eb23102eaa7caaa6
+size 16800049

checkpoint-8825/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3bd4b216465776b8446b4ff8e11ce9fdd52c89b375b7044d0b4039e2d61866c
+size 33608325

checkpoint-8825/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1415153a8090e01ca2e79f9b676cb59f9d69952de4f1e1908ae3ffd91dd838a6
+size 14575

checkpoint-8825/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e4646b9235cf75047cb149a2e2ec3a2d928351a83378beb4a3c4edcd1f0af06
+size 627

checkpoint-8825/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-8825/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-8825/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-8825/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1024,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}

checkpoint-8825/trainer_state.json ADDED Viewed

	@@ -0,0 +1,739 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 24.96185286103542,
+  "eval_steps": 500,
+  "global_step": 8825,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "learning_rate": 7.952069716775599e-06,
+      "loss": 0.9545,
+      "step": 73
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.5904139433551197e-05,
+      "loss": 0.9152,
+      "step": 146
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.38562091503268e-05,
+      "loss": 0.7448,
+      "step": 219
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.1808278867102395e-05,
+      "loss": 0.5783,
+      "step": 292
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.9760348583877995e-05,
+      "loss": 0.4973,
+      "step": 365
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 4.77124183006536e-05,
+      "loss": 0.4414,
+      "step": 438
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 5.5664488017429196e-05,
+      "loss": 0.4208,
+      "step": 511
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 6.361655773420479e-05,
+      "loss": 0.3861,
+      "step": 584
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.156862745098039e-05,
+      "loss": 0.3802,
+      "step": 657
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 7.952069716775599e-05,
+      "loss": 0.335,
+      "step": 730
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 8.74727668845316e-05,
+      "loss": 0.3216,
+      "step": 803
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 9.54248366013072e-05,
+      "loss": 0.2991,
+      "step": 876
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 9.962456097856366e-05,
+      "loss": 0.2919,
+      "step": 949
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 9.87404626377619e-05,
+      "loss": 0.3062,
+      "step": 1022
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 9.785636429696016e-05,
+      "loss": 0.2661,
+      "step": 1095
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 9.697226595615842e-05,
+      "loss": 0.2547,
+      "step": 1168
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 9.608816761535667e-05,
+      "loss": 0.2426,
+      "step": 1241
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 9.520406927455493e-05,
+      "loss": 0.224,
+      "step": 1314
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 9.431997093375319e-05,
+      "loss": 0.2164,
+      "step": 1387
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 9.343587259295143e-05,
+      "loss": 0.1952,
+      "step": 1460
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 9.255177425214969e-05,
+      "loss": 0.2025,
+      "step": 1533
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 9.166767591134794e-05,
+      "loss": 0.1837,
+      "step": 1606
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 9.078357757054621e-05,
+      "loss": 0.1911,
+      "step": 1679
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 8.989947922974447e-05,
+      "loss": 0.1737,
+      "step": 1752
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 8.901538088894273e-05,
+      "loss": 0.1633,
+      "step": 1825
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 8.813128254814099e-05,
+      "loss": 0.1485,
+      "step": 1898
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 8.724718420733923e-05,
+      "loss": 0.1479,
+      "step": 1971
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 8.636308586653749e-05,
+      "loss": 0.1625,
+      "step": 2044
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 8.547898752573574e-05,
+      "loss": 0.1602,
+      "step": 2117
+    },
+    {
+      "epoch": 6.2,
+      "learning_rate": 8.4594889184934e-05,
+      "loss": 0.1307,
+      "step": 2190
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 8.371079084413226e-05,
+      "loss": 0.1279,
+      "step": 2263
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 8.282669250333051e-05,
+      "loss": 0.1231,
+      "step": 2336
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 8.194259416252876e-05,
+      "loss": 0.1426,
+      "step": 2409
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 8.105849582172701e-05,
+      "loss": 0.1245,
+      "step": 2482
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 8.017439748092528e-05,
+      "loss": 0.1186,
+      "step": 2555
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 7.929029914012354e-05,
+      "loss": 0.1081,
+      "step": 2628
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 7.84062007993218e-05,
+      "loss": 0.1025,
+      "step": 2701
+    },
+    {
+      "epoch": 7.83,
+      "learning_rate": 7.752210245852006e-05,
+      "loss": 0.1173,
+      "step": 2774
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 7.66380041177183e-05,
+      "loss": 0.0996,
+      "step": 2847
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 7.575390577691656e-05,
+      "loss": 0.0861,
+      "step": 2920
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 7.486980743611481e-05,
+      "loss": 0.1018,
+      "step": 2993
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 7.398570909531307e-05,
+      "loss": 0.0977,
+      "step": 3066
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 7.310161075451133e-05,
+      "loss": 0.1002,
+      "step": 3139
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 7.221751241370958e-05,
+      "loss": 0.0839,
+      "step": 3212
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 7.133341407290783e-05,
+      "loss": 0.0884,
+      "step": 3285
+    },
+    {
+      "epoch": 9.49,
+      "learning_rate": 7.044931573210608e-05,
+      "loss": 0.0825,
+      "step": 3358
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 6.956521739130436e-05,
+      "loss": 0.0811,
+      "step": 3431
+    },
+    {
+      "epoch": 9.89,
+      "learning_rate": 6.868111905050261e-05,
+      "loss": 0.0851,
+      "step": 3504
+    },
+    {
+      "epoch": 10.13,
+      "learning_rate": 6.779702070970087e-05,
+      "loss": 0.0716,
+      "step": 3577
+    },
+    {
+      "epoch": 10.33,
+      "learning_rate": 6.691292236889913e-05,
+      "loss": 0.0689,
+      "step": 3650
+    },
+    {
+      "epoch": 10.53,
+      "learning_rate": 6.602882402809738e-05,
+      "loss": 0.0747,
+      "step": 3723
+    },
+    {
+      "epoch": 10.72,
+      "learning_rate": 6.514472568729563e-05,
+      "loss": 0.0728,
+      "step": 3796
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 6.426062734649388e-05,
+      "loss": 0.0762,
+      "step": 3869
+    },
+    {
+      "epoch": 11.16,
+      "learning_rate": 6.337652900569214e-05,
+      "loss": 0.0693,
+      "step": 3942
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 6.24924306648904e-05,
+      "loss": 0.0611,
+      "step": 4015
+    },
+    {
+      "epoch": 11.56,
+      "learning_rate": 6.160833232408865e-05,
+      "loss": 0.0616,
+      "step": 4088
+    },
+    {
+      "epoch": 11.76,
+      "learning_rate": 6.072423398328692e-05,
+      "loss": 0.064,
+      "step": 4161
+    },
+    {
+      "epoch": 11.96,
+      "learning_rate": 5.984013564248516e-05,
+      "loss": 0.0637,
+      "step": 4234
+    },
+    {
+      "epoch": 12.19,
+      "learning_rate": 5.895603730168342e-05,
+      "loss": 0.0548,
+      "step": 4307
+    },
+    {
+      "epoch": 12.39,
+      "learning_rate": 5.8071938960881676e-05,
+      "loss": 0.0583,
+      "step": 4380
+    },
+    {
+      "epoch": 12.59,
+      "learning_rate": 5.718784062007993e-05,
+      "loss": 0.0547,
+      "step": 4453
+    },
+    {
+      "epoch": 12.79,
+      "learning_rate": 5.630374227927819e-05,
+      "loss": 0.0543,
+      "step": 4526
+    },
+    {
+      "epoch": 13.03,
+      "learning_rate": 5.5419643938476454e-05,
+      "loss": 0.0543,
+      "step": 4599
+    },
+    {
+      "epoch": 13.23,
+      "learning_rate": 5.45355455976747e-05,
+      "loss": 0.0479,
+      "step": 4672
+    },
+    {
+      "epoch": 13.43,
+      "learning_rate": 5.3651447256872954e-05,
+      "loss": 0.0517,
+      "step": 4745
+    },
+    {
+      "epoch": 13.62,
+      "learning_rate": 5.276734891607121e-05,
+      "loss": 0.0466,
+      "step": 4818
+    },
+    {
+      "epoch": 13.82,
+      "learning_rate": 5.188325057526947e-05,
+      "loss": 0.0499,
+      "step": 4891
+    },
+    {
+      "epoch": 14.06,
+      "learning_rate": 5.0999152234467725e-05,
+      "loss": 0.0479,
+      "step": 4964
+    },
+    {
+      "epoch": 14.26,
+      "learning_rate": 5.011505389366599e-05,
+      "loss": 0.0408,
+      "step": 5037
+    },
+    {
+      "epoch": 14.46,
+      "learning_rate": 4.923095555286424e-05,
+      "loss": 0.0425,
+      "step": 5110
+    },
+    {
+      "epoch": 14.66,
+      "learning_rate": 4.8346857212062496e-05,
+      "loss": 0.0452,
+      "step": 5183
+    },
+    {
+      "epoch": 14.86,
+      "learning_rate": 4.746275887126075e-05,
+      "loss": 0.0462,
+      "step": 5256
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 4.6578660530459004e-05,
+      "loss": 0.0452,
+      "step": 5329
+    },
+    {
+      "epoch": 15.29,
+      "learning_rate": 4.569456218965726e-05,
+      "loss": 0.0371,
+      "step": 5402
+    },
+    {
+      "epoch": 15.49,
+      "learning_rate": 4.481046384885552e-05,
+      "loss": 0.0404,
+      "step": 5475
+    },
+    {
+      "epoch": 15.69,
+      "learning_rate": 4.3926365508053775e-05,
+      "loss": 0.0418,
+      "step": 5548
+    },
+    {
+      "epoch": 15.89,
+      "learning_rate": 4.304226716725203e-05,
+      "loss": 0.0405,
+      "step": 5621
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 4.215816882645028e-05,
+      "loss": 0.0365,
+      "step": 5694
+    },
+    {
+      "epoch": 16.32,
+      "learning_rate": 4.127407048564854e-05,
+      "loss": 0.0368,
+      "step": 5767
+    },
+    {
+      "epoch": 16.52,
+      "learning_rate": 4.03899721448468e-05,
+      "loss": 0.0348,
+      "step": 5840
+    },
+    {
+      "epoch": 16.72,
+      "learning_rate": 3.950587380404506e-05,
+      "loss": 0.0347,
+      "step": 5913
+    },
+    {
+      "epoch": 16.92,
+      "learning_rate": 3.862177546324331e-05,
+      "loss": 0.0409,
+      "step": 5986
+    },
+    {
+      "epoch": 17.16,
+      "learning_rate": 3.773767712244157e-05,
+      "loss": 0.035,
+      "step": 6059
+    },
+    {
+      "epoch": 17.36,
+      "learning_rate": 3.6853578781639824e-05,
+      "loss": 0.0317,
+      "step": 6132
+    },
+    {
+      "epoch": 17.56,
+      "learning_rate": 3.5969480440838074e-05,
+      "loss": 0.0339,
+      "step": 6205
+    },
+    {
+      "epoch": 17.75,
+      "learning_rate": 3.508538210003634e-05,
+      "loss": 0.034,
+      "step": 6278
+    },
+    {
+      "epoch": 17.95,
+      "learning_rate": 3.4201283759234595e-05,
+      "loss": 0.0336,
+      "step": 6351
+    },
+    {
+      "epoch": 18.19,
+      "learning_rate": 3.3317185418432845e-05,
+      "loss": 0.0306,
+      "step": 6424
+    },
+    {
+      "epoch": 18.39,
+      "learning_rate": 3.24330870776311e-05,
+      "loss": 0.0312,
+      "step": 6497
+    },
+    {
+      "epoch": 18.59,
+      "learning_rate": 3.154898873682936e-05,
+      "loss": 0.0298,
+      "step": 6570
+    },
+    {
+      "epoch": 18.79,
+      "learning_rate": 3.066489039602761e-05,
+      "loss": 0.0322,
+      "step": 6643
+    },
+    {
+      "epoch": 19.02,
+      "learning_rate": 2.978079205522587e-05,
+      "loss": 0.0301,
+      "step": 6716
+    },
+    {
+      "epoch": 19.22,
+      "learning_rate": 2.8896693714424127e-05,
+      "loss": 0.0297,
+      "step": 6789
+    },
+    {
+      "epoch": 19.42,
+      "learning_rate": 2.801259537362238e-05,
+      "loss": 0.0282,
+      "step": 6862
+    },
+    {
+      "epoch": 19.62,
+      "learning_rate": 2.7128497032820637e-05,
+      "loss": 0.0283,
+      "step": 6935
+    },
+    {
+      "epoch": 19.82,
+      "learning_rate": 2.6244398692018894e-05,
+      "loss": 0.0293,
+      "step": 7008
+    },
+    {
+      "epoch": 20.06,
+      "learning_rate": 2.5360300351217148e-05,
+      "loss": 0.0294,
+      "step": 7081
+    },
+    {
+      "epoch": 20.26,
+      "learning_rate": 2.4476202010415405e-05,
+      "loss": 0.0264,
+      "step": 7154
+    },
+    {
+      "epoch": 20.46,
+      "learning_rate": 2.3592103669613662e-05,
+      "loss": 0.026,
+      "step": 7227
+    },
+    {
+      "epoch": 20.65,
+      "learning_rate": 2.270800532881192e-05,
+      "loss": 0.0294,
+      "step": 7300
+    },
+    {
+      "epoch": 20.85,
+      "learning_rate": 2.1823906988010173e-05,
+      "loss": 0.0285,
+      "step": 7373
+    },
+    {
+      "epoch": 21.09,
+      "learning_rate": 2.093980864720843e-05,
+      "loss": 0.0269,
+      "step": 7446
+    },
+    {
+      "epoch": 21.29,
+      "learning_rate": 2.0055710306406687e-05,
+      "loss": 0.0258,
+      "step": 7519
+    },
+    {
+      "epoch": 21.49,
+      "learning_rate": 1.917161196560494e-05,
+      "loss": 0.0254,
+      "step": 7592
+    },
+    {
+      "epoch": 21.69,
+      "learning_rate": 1.8287513624803197e-05,
+      "loss": 0.0278,
+      "step": 7665
+    },
+    {
+      "epoch": 21.89,
+      "learning_rate": 1.7403415284001454e-05,
+      "loss": 0.0262,
+      "step": 7738
+    },
+    {
+      "epoch": 22.12,
+      "learning_rate": 1.651931694319971e-05,
+      "loss": 0.0245,
+      "step": 7811
+    },
+    {
+      "epoch": 22.32,
+      "learning_rate": 1.5635218602397965e-05,
+      "loss": 0.0249,
+      "step": 7884
+    },
+    {
+      "epoch": 22.52,
+      "learning_rate": 1.4751120261596222e-05,
+      "loss": 0.0244,
+      "step": 7957
+    },
+    {
+      "epoch": 22.72,
+      "learning_rate": 1.3867021920794479e-05,
+      "loss": 0.0255,
+      "step": 8030
+    },
+    {
+      "epoch": 22.92,
+      "learning_rate": 1.2982923579992734e-05,
+      "loss": 0.0256,
+      "step": 8103
+    },
+    {
+      "epoch": 23.16,
+      "learning_rate": 1.209882523919099e-05,
+      "loss": 0.0244,
+      "step": 8176
+    },
+    {
+      "epoch": 23.35,
+      "learning_rate": 1.1214726898389245e-05,
+      "loss": 0.0235,
+      "step": 8249
+    },
+    {
+      "epoch": 23.55,
+      "learning_rate": 1.0330628557587502e-05,
+      "loss": 0.0252,
+      "step": 8322
+    },
+    {
+      "epoch": 23.75,
+      "learning_rate": 9.446530216785757e-06,
+      "loss": 0.0248,
+      "step": 8395
+    },
+    {
+      "epoch": 23.95,
+      "learning_rate": 8.562431875984014e-06,
+      "loss": 0.024,
+      "step": 8468
+    },
+    {
+      "epoch": 24.19,
+      "learning_rate": 7.67833353518227e-06,
+      "loss": 0.0244,
+      "step": 8541
+    },
+    {
+      "epoch": 24.39,
+      "learning_rate": 6.794235194380526e-06,
+      "loss": 0.023,
+      "step": 8614
+    },
+    {
+      "epoch": 24.59,
+      "learning_rate": 5.910136853578782e-06,
+      "loss": 0.024,
+      "step": 8687
+    },
+    {
+      "epoch": 24.78,
+      "learning_rate": 5.026038512777038e-06,
+      "loss": 0.0238,
+      "step": 8760
+    }
+  ],
+  "logging_steps": 73,
+  "max_steps": 9175,
+  "num_train_epochs": 25,
+  "save_steps": 500,
+  "total_flos": 7.7154619490304e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-8825/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70536fcd5a2e2254cc30124d6e3220ceb50c7e16d4c016d7dd0599ac6a6c61fc
+size 4091

runs/Oct02_17-08-29_AM-3080TI-VR-PC/events.out.tfevents.1696262910.AM-3080TI-VR-PC.781.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c891ac60415669a10253db96686e25ea5a6930436b503068e212a82d408870cb
+size 23729

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1024,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70536fcd5a2e2254cc30124d6e3220ceb50c7e16d4c016d7dd0599ac6a6c61fc
+size 4091

training_params.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"model": "bn22/Mistral-7B-Instruct-v0.1-sharded", "data_path": "YL95/naive_chunk0", "project_name": "mistral_naive_chunk_q_proj", "train_split": "train", "valid_split": null, "text_column": "text", "lr": 0.0001, "epochs": 25, "batch_size": 2, "warmup_ratio": 0.1, "gradient_accumulation": 1, "optimizer": "adamw_torch", "scheduler": "linear", "weight_decay": 0.0, "max_grad_norm": 1.0, "seed": 95, "add_eos_token": false, "block_size": -1, "use_peft": true, "lora_r": 16, "lora_alpha": 32, "lora_dropout": 0.05, "logging_steps": -1, "evaluation_strategy": "epoch", "save_total_limit": 1, "save_strategy": "epoch", "auto_find_batch_size": false, "fp16": false, "push_to_hub": true, "use_int8": false, "model_max_length": 1024, "repo_id": "YL95/mistral_naive_chunk_q_proj0", "use_int4": true, "trainer": "sft", "target_modules": "q_proj", "merge_adapter": false, "username": "YL95", "use_flash_attention_2": false}