neighborwang commited on 5 days ago

Commit

866f699

•

1 Parent(s): 0c0fe79

Upload folder using huggingface_hub

Browse files

Files changed (19) hide show

README.md +46 -0
config.json +32 -0
generation_config.json +6 -0
merges.txt +0 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +651 -0
runs/Oct14_08-10-20_r-neighborwang-modelicagpt-autotrain-z7nu6i3k-4d199-sesxc/events.out.tfevents.1728893590.r-neighborwang-modelicagpt-autotrain-z7nu6i3k-4d199-sesxc.175.0 +2 -2
special_tokens_map.json +70 -0
tokenizer.json +0 -0
tokenizer_config.json +358 -0
training_args.bin +3 -0
training_params.json +49 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,46 @@

+---
+tags:
+- autotrain
+- text-generation-inference
+- text-generation
+- peft
+library_name: transformers
+base_model: bigcode/starcoder2-15b
+widget:
+ - messages:
+ - role: user
+ content: What is your favorite condiment?
+license: other
+---
+# Model Trained Using AutoTrain
+This model was trained using AutoTrain. For more information, please visit [AutoTrain](https://hf.co/docs/autotrain).
+# Usage
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model_path = "PATH_TO_THIS_REPO"
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+model = AutoModelForCausalLM.from_pretrained(
+ model_path,
+ device_map="auto",
+ torch_dtype='auto'
+).eval()
+# Prompt content: "hi"
+messages = [
+ {"role": "user", "content": "hi"}
+]
+input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=True, add_generation_prompt=True, return_tensors='pt')
+output_ids = model.generate(input_ids.to('cuda'))
+response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=True)
+# Model response: "Hello! How can I assist you today?"
+print(response)
+```

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+ "_name_or_path": "bigcode/starcoder2-15b",
+ "architectures": [
+ "Starcoder2ForCausalLM"
+ ],
+ "attention_dropout": 0.1,
+ "bos_token_id": 0,
+ "embedding_dropout": 0.1,
+ "eos_token_id": 0,
+ "hidden_act": "gelu_pytorch_tanh",
+ "hidden_size": 6144,
+ "initializer_range": 0.01275,
+ "intermediate_size": 24576,
+ "max_position_embeddings": 16384,
+ "mlp_type": "default",
+ "model_type": "starcoder2",
+ "norm_epsilon": 1e-05,
+ "norm_type": "layer_norm",
+ "num_attention_heads": 48,
+ "num_hidden_layers": 40,
+ "num_key_value_heads": 4,
+ "residual_dropout": 0.1,
+ "rope_scaling": null,
+ "rope_theta": 100000,
+ "sliding_window": 4096,
+ "tie_word_embeddings": false,
+ "torch_dtype": "float16",
+ "transformers_version": "4.45.0",
+ "use_bias": true,
+ "use_cache": true,
+ "vocab_size": 49152
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+ "_from_model_config": true,
+ "bos_token_id": 0,
+ "eos_token_id": 0,
+ "transformers_version": "4.45.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de09151c1ca29aae3a1b8abda094565253423374040ed64fa392a246dacde986
+size 4908107648

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92fd2a6ac896b0906a751d000ba641f7c6d06158eb4be437b7898cf21367ae07
+size 4996327136

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e1480a5a7a8dc7d040c074108b356a7f78e30c136bef666acc5c40cde2cd53f
+size 4983729056

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06e0c14a98782e17ab03ee9373278bf23f58aaf6e865e61cbe0f4fa800c24b7c
+size 4996327208

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:946d8a692f185a4663cc92a82839b27a0aeea5988eeb8d84c13b40d2fd36ffc8
+size 4983729056

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ef928a106fc6e40098c0c226db65679e350f62654bf8746ee7aa9dda5b314bd
+size 4996327208

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c277e51f1d5a1df3e7e606f9eb823058c855c07100cac2977218c1fc803ae388
+size 2051302528

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,651 @@

+{
+ "metadata": {
+ "total_size": 31915778048
+ },
+ "weight_map": {
+ "lm_head.weight": "model-00007-of-00007.safetensors",
+ "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+ "model.layers.0.input_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.0.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
+ "model.layers.0.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
+ "model.layers.0.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.0.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.0.post_attention_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.0.self_attn.o_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.1.input_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.1.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
+ "model.layers.1.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
+ "model.layers.1.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.1.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.1.post_attention_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.1.self_attn.o_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.10.input_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.10.input_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.10.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
+ "model.layers.10.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
+ "model.layers.10.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.10.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.10.post_attention_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.10.self_attn.o_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.11.input_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.11.input_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.11.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
+ "model.layers.11.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
+ "model.layers.11.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.11.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.11.post_attention_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.11.self_attn.o_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.12.input_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.12.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
+ "model.layers.12.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
+ "model.layers.12.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.12.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.12.post_attention_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.12.self_attn.o_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.13.input_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.13.input_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.13.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
+ "model.layers.13.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
+ "model.layers.13.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.13.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.13.post_attention_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.13.self_attn.o_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.14.input_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.14.input_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.14.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
+ "model.layers.14.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
+ "model.layers.14.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.14.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.14.post_attention_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.14.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.14.self_attn.o_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.14.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.14.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.15.input_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.15.input_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.15.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
+ "model.layers.15.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
+ "model.layers.15.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.15.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.15.post_attention_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.15.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.15.self_attn.o_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.15.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.15.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.16.input_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.16.input_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.16.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
+ "model.layers.16.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
+ "model.layers.16.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.16.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.16.post_attention_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.16.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.16.self_attn.o_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.16.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.16.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.17.input_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.17.input_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.17.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
+ "model.layers.17.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
+ "model.layers.17.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.17.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.17.post_attention_layernorm.bias": "model-00003-of-00007.safetensors",
+ "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+ "model.layers.17.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.17.self_attn.o_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.17.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.17.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.18.input_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.18.input_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.18.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
+ "model.layers.18.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
+ "model.layers.18.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.18.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.18.post_attention_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.18.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.18.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.18.self_attn.o_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.18.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.18.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.18.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.18.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+ "model.layers.18.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+ "model.layers.19.input_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.19.input_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.19.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
+ "model.layers.19.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
+ "model.layers.19.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.19.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.19.post_attention_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.19.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.19.self_attn.o_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.19.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.19.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.2.input_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.2.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
+ "model.layers.2.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
+ "model.layers.2.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.2.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.2.post_attention_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.2.self_attn.o_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.20.input_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.20.input_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.20.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
+ "model.layers.20.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
+ "model.layers.20.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.20.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.20.post_attention_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.20.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.20.self_attn.o_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.20.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.20.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.21.input_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.21.input_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.21.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
+ "model.layers.21.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
+ "model.layers.21.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.21.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.21.post_attention_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.21.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.21.self_attn.o_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.21.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.21.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.22.input_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.22.input_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.22.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
+ "model.layers.22.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
+ "model.layers.22.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.22.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.22.post_attention_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.22.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.22.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.22.self_attn.o_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.22.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.22.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.23.input_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.23.input_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.23.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
+ "model.layers.23.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
+ "model.layers.23.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.23.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.23.post_attention_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.23.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.23.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.23.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.23.self_attn.o_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.23.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.23.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.23.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.23.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.23.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.24.input_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.24.input_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.24.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
+ "model.layers.24.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
+ "model.layers.24.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.24.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.24.post_attention_layernorm.bias": "model-00004-of-00007.safetensors",
+ "model.layers.24.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+ "model.layers.24.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.24.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.24.self_attn.o_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.24.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.24.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.24.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.24.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.24.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.25.input_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.25.input_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.25.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
+ "model.layers.25.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
+ "model.layers.25.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.25.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.25.post_attention_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.25.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.25.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.25.self_attn.o_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.25.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.25.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.25.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+ "model.layers.25.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+ "model.layers.26.input_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.26.input_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.26.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
+ "model.layers.26.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
+ "model.layers.26.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.26.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.26.post_attention_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.26.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.26.self_attn.o_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.26.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.26.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.27.input_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.27.input_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.27.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
+ "model.layers.27.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
+ "model.layers.27.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.27.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.27.post_attention_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.27.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.27.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.27.self_attn.o_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.27.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.27.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.28.input_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.28.input_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.28.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
+ "model.layers.28.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
+ "model.layers.28.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.28.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.28.post_attention_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.28.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.28.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.28.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.28.self_attn.o_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.28.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.28.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.28.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.28.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.28.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.29.input_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.29.input_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.29.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
+ "model.layers.29.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
+ "model.layers.29.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.29.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.29.post_attention_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.29.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.29.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.29.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.29.self_attn.o_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.29.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.29.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.29.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.29.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.29.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.3.input_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.3.input_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.3.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
+ "model.layers.3.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
+ "model.layers.3.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.3.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.3.post_attention_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.3.self_attn.o_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.30.input_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.30.input_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.30.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
+ "model.layers.30.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
+ "model.layers.30.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.30.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.30.post_attention_layernorm.bias": "model-00005-of-00007.safetensors",
+ "model.layers.30.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+ "model.layers.30.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.30.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.30.self_attn.o_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.30.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.30.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.30.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.30.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.30.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.31.input_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.31.input_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.31.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
+ "model.layers.31.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
+ "model.layers.31.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.31.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.31.post_attention_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.31.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.31.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.31.self_attn.o_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.31.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.31.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.31.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.31.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+ "model.layers.31.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+ "model.layers.32.input_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.32.input_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.32.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
+ "model.layers.32.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
+ "model.layers.32.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.32.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.32.post_attention_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.32.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.32.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.32.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.32.self_attn.o_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.32.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.32.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.32.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.32.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.32.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.33.input_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.33.input_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.33.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
+ "model.layers.33.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
+ "model.layers.33.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.33.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.33.post_attention_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.33.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.33.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.33.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.33.self_attn.o_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.33.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.33.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.33.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.33.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.33.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.34.input_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.34.input_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.34.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
+ "model.layers.34.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
+ "model.layers.34.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.34.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.34.post_attention_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.34.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.34.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.34.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.34.self_attn.o_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.34.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.34.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.34.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.34.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.34.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.35.input_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.35.input_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.35.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
+ "model.layers.35.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
+ "model.layers.35.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.35.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.35.post_attention_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.35.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.35.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.35.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.35.self_attn.o_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.35.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.35.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.35.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.35.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.35.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.36.input_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.36.input_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.36.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
+ "model.layers.36.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
+ "model.layers.36.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.36.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.36.post_attention_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.36.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.36.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.36.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.36.self_attn.o_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.36.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.36.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.36.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.36.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.36.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.37.input_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.37.input_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.37.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
+ "model.layers.37.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
+ "model.layers.37.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.37.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.37.post_attention_layernorm.bias": "model-00006-of-00007.safetensors",
+ "model.layers.37.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+ "model.layers.37.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.37.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.37.self_attn.o_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.37.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.37.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.37.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.37.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.37.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.38.input_layernorm.bias": "model-00007-of-00007.safetensors",
+ "model.layers.38.input_layernorm.weight": "model-00007-of-00007.safetensors",
+ "model.layers.38.mlp.c_fc.bias": "model-00007-of-00007.safetensors",
+ "model.layers.38.mlp.c_fc.weight": "model-00007-of-00007.safetensors",
+ "model.layers.38.mlp.c_proj.bias": "model-00007-of-00007.safetensors",
+ "model.layers.38.mlp.c_proj.weight": "model-00007-of-00007.safetensors",
+ "model.layers.38.post_attention_layernorm.bias": "model-00007-of-00007.safetensors",
+ "model.layers.38.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+ "model.layers.38.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.38.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.38.self_attn.o_proj.bias": "model-00007-of-00007.safetensors",
+ "model.layers.38.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+ "model.layers.38.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.38.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.38.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+ "model.layers.38.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+ "model.layers.39.input_layernorm.bias": "model-00007-of-00007.safetensors",
+ "model.layers.39.input_layernorm.weight": "model-00007-of-00007.safetensors",
+ "model.layers.39.mlp.c_fc.bias": "model-00007-of-00007.safetensors",
+ "model.layers.39.mlp.c_fc.weight": "model-00007-of-00007.safetensors",
+ "model.layers.39.mlp.c_proj.bias": "model-00007-of-00007.safetensors",
+ "model.layers.39.mlp.c_proj.weight": "model-00007-of-00007.safetensors",
+ "model.layers.39.post_attention_layernorm.bias": "model-00007-of-00007.safetensors",
+ "model.layers.39.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+ "model.layers.39.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+ "model.layers.39.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+ "model.layers.39.self_attn.o_proj.bias": "model-00007-of-00007.safetensors",
+ "model.layers.39.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+ "model.layers.39.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+ "model.layers.39.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+ "model.layers.39.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+ "model.layers.39.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+ "model.layers.4.input_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.4.input_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.4.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
+ "model.layers.4.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
+ "model.layers.4.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.4.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.4.post_attention_layernorm.bias": "model-00001-of-00007.safetensors",
+ "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+ "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.4.self_attn.o_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.5.input_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.5.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
+ "model.layers.5.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
+ "model.layers.5.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.5.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.5.post_attention_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.5.self_attn.o_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+ "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+ "model.layers.6.input_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.6.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
+ "model.layers.6.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
+ "model.layers.6.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.6.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.6.post_attention_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.6.self_attn.o_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.7.input_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.7.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
+ "model.layers.7.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
+ "model.layers.7.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.7.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.7.post_attention_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.7.self_attn.o_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.8.input_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.8.input_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.8.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
+ "model.layers.8.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
+ "model.layers.8.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.8.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.8.post_attention_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.8.self_attn.o_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.9.input_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.9.input_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.9.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
+ "model.layers.9.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
+ "model.layers.9.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.9.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.9.post_attention_layernorm.bias": "model-00002-of-00007.safetensors",
+ "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+ "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.9.self_attn.o_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+ "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+ "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+ "model.norm.bias": "model-00007-of-00007.safetensors",
+ "model.norm.weight": "model-00007-of-00007.safetensors"
+ }
+}

runs/Oct14_08-10-20_r-neighborwang-modelicagpt-autotrain-z7nu6i3k-4d199-sesxc/events.out.tfevents.1728893590.r-neighborwang-modelicagpt-autotrain-z7nu6i3k-4d199-sesxc.175.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7ef25e7ea03fe5cb572116004b81b0afda8192ffb4865ba590143ecae58efb6
-size 6773

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb481bcb1508b4fcd64e71f31d93a3bacd2ce09e413850294c0712a2218aadc4
+size 7334

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+ "additional_special_tokens": [
+ "<|endoftext|>",
+ "<fim_prefix>",
+ "<fim_middle>",
+ "<fim_suffix>",
+ "<fim_pad>",
+ "<repo_name>",
+ "<file_sep>",
+ "<issue_start>",
+ "<issue_comment>",
+ "<issue_closed>",
+ "<jupyter_start>",
+ "<jupyter_text>",
+ "<jupyter_code>",
+ "<jupyter_output>",
+ "<jupyter_script>",
+ "<empty_output>",
+ "<code_to_intermediate>",
+ "<intermediate_to_code>",
+ "<pr>",
+ "<pr_status>",
+ "<pr_is_merged>",
+ "<pr_base>",
+ "<pr_file>",
+ "<pr_base_code>",
+ "<pr_diff>",
+ "<pr_diff_hunk>",
+ "<pr_comment>",
+ "<pr_event_id>",
+ "<pr_review>",
+ "<pr_review_state>",
+ "<pr_review_comment>",
+ "<pr_in_reply_to_review_id>",
+ "<pr_in_reply_to_comment_id>",
+ "<pr_diff_hunk_comment_line>",
+ "<NAME>",
+ "<EMAIL>",
+ "<KEY>",
+ "<PASSWORD>"
+ ],
+ "bos_token": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false
+ },
+ "eos_token": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false
+ },
+ "pad_token": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false
+ },
+ "unk_token": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false
+ }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,358 @@

+{
+ "add_prefix_space": false,
+ "added_tokens_decoder": {
+ "0": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "1": {
+ "content": "<fim_prefix>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "2": {
+ "content": "<fim_middle>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "3": {
+ "content": "<fim_suffix>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "4": {
+ "content": "<fim_pad>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "5": {
+ "content": "<repo_name>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "6": {
+ "content": "<file_sep>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "7": {
+ "content": "<issue_start>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "8": {
+ "content": "<issue_comment>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "9": {
+ "content": "<issue_closed>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "10": {
+ "content": "<jupyter_start>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "11": {
+ "content": "<jupyter_text>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "12": {
+ "content": "<jupyter_code>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "13": {
+ "content": "<jupyter_output>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "14": {
+ "content": "<jupyter_script>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "15": {
+ "content": "<empty_output>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "16": {
+ "content": "<code_to_intermediate>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "17": {
+ "content": "<intermediate_to_code>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "18": {
+ "content": "<pr>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "19": {
+ "content": "<pr_status>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "20": {
+ "content": "<pr_is_merged>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "21": {
+ "content": "<pr_base>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "22": {
+ "content": "<pr_file>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "23": {
+ "content": "<pr_base_code>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "24": {
+ "content": "<pr_diff>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "25": {
+ "content": "<pr_diff_hunk>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "26": {
+ "content": "<pr_comment>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "27": {
+ "content": "<pr_event_id>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "28": {
+ "content": "<pr_review>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "29": {
+ "content": "<pr_review_state>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "30": {
+ "content": "<pr_review_comment>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "31": {
+ "content": "<pr_in_reply_to_review_id>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "32": {
+ "content": "<pr_in_reply_to_comment_id>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "33": {
+ "content": "<pr_diff_hunk_comment_line>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "34": {
+ "content": "<NAME>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "35": {
+ "content": "<EMAIL>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "36": {
+ "content": "<KEY>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "37": {
+ "content": "<PASSWORD>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ }
+ },
+ "additional_special_tokens": [
+ "<|endoftext|>",
+ "<fim_prefix>",
+ "<fim_middle>",
+ "<fim_suffix>",
+ "<fim_pad>",
+ "<repo_name>",
+ "<file_sep>",
+ "<issue_start>",
+ "<issue_comment>",
+ "<issue_closed>",
+ "<jupyter_start>",
+ "<jupyter_text>",
+ "<jupyter_code>",
+ "<jupyter_output>",
+ "<jupyter_script>",
+ "<empty_output>",
+ "<code_to_intermediate>",
+ "<intermediate_to_code>",
+ "<pr>",
+ "<pr_status>",
+ "<pr_is_merged>",
+ "<pr_base>",
+ "<pr_file>",
+ "<pr_base_code>",
+ "<pr_diff>",
+ "<pr_diff_hunk>",
+ "<pr_comment>",
+ "<pr_event_id>",
+ "<pr_review>",
+ "<pr_review_state>",
+ "<pr_review_comment>",
+ "<pr_in_reply_to_review_id>",
+ "<pr_in_reply_to_comment_id>",
+ "<pr_diff_hunk_comment_line>",
+ "<NAME>",
+ "<EMAIL>",
+ "<KEY>",
+ "<PASSWORD>"
+ ],
+ "bos_token": "<|endoftext|>",
+ "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+ "clean_up_tokenization_spaces": true,
+ "eos_token": "<|endoftext|>",
+ "model_max_length": 2048,
+ "pad_token": "<|endoftext|>",
+ "tokenizer_class": "GPT2Tokenizer",
+ "unk_token": "<|endoftext|>",
+ "vocab_size": 49152
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a29ae29087b8c32a6518cde9f7fd2b2f1eea0968200df95baeab03db728a0744
+size 5560

training_params.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+ "model": "bigcode/starcoder2-15b",
+ "project_name": "ModeliCo-15B",
+ "data_path": "ModeliCo-15B/autotrain-data",
+ "train_split": "train",
+ "valid_split": null,
+ "add_eos_token": true,
+ "block_size": 1024,
+ "model_max_length": 2048,
+ "padding": "right",
+ "trainer": "sft",
+ "use_flash_attention_2": false,
+ "log": "tensorboard",
+ "disable_gradient_checkpointing": false,
+ "logging_steps": -1,
+ "eval_strategy": "epoch",
+ "save_total_limit": 1,
+ "auto_find_batch_size": false,
+ "mixed_precision": "fp16",
+ "lr": 3e-05,
+ "epochs": 3,
+ "batch_size": 4,
+ "warmup_ratio": 0.1,
+ "gradient_accumulation": 4,
+ "optimizer": "adamw_torch",
+ "scheduler": "linear",
+ "weight_decay": 0.0,
+ "max_grad_norm": 1.0,
+ "seed": 42,
+ "chat_template": "none",
+ "quantization": "int8",
+ "target_modules": "all-linear",
+ "merge_adapter": true,
+ "peft": true,
+ "lora_r": 16,
+ "lora_alpha": 32,
+ "lora_dropout": 0.05,
+ "model_ref": null,
+ "dpo_beta": 0.1,
+ "max_prompt_length": 128,
+ "max_completion_length": null,
+ "prompt_text_column": "autotrain_prompt",
+ "text_column": "autotrain_text",
+ "rejected_text_column": "autotrain_rejected_text",
+ "push_to_hub": true,
+ "username": "neighborwang",
+ "unsloth": false,
+ "distributed_backend": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff