cj453
/

dense_reward_trainer_final_opt__NumTrainEpochs5_SaveStrategiesno_reward_modeling_anthropic_hh

cj453 commited on Sep 16

Commit

1681b41

•

1 Parent(s): 36836d0

End of training

Browse files

Files changed (11) hide show

README.md +118 -0
config.json +37 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +397 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +30 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,118 @@

+---
+license: other
+base_model: facebook/opt-1.3b
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: dense_reward_trainer_final_opt__NumTrainEpochs5_SaveStrategiesno_reward_modeling_anthropic_hh
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# dense_reward_trainer_final_opt__NumTrainEpochs5_SaveStrategiesno_reward_modeling_anthropic_hh
+This model is a fine-tuned version of [facebook/opt-1.3b](https://huggingface.co/facebook/opt-1.3b) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.4124
+- Accuracy: 0.6660
+- Train Rewards/chosen: 9.2061
+- Train Rewards/rejected: -9.4536
+- Train Rewards/accuracies: 0.9844
+- Train Rewards/margins: 18.6597
+- Train Nll Loss: 2.1547
+- Train  Logit Total Loss: 0.0587
+- Train  Logit Loss: 0.0375
+- Rewards/chosen: 3.4303
+- Rewards/rejected: -2.3575
+- Rewards/accuracies: 0.6484
+- Rewards/margins: 5.7878
+- Nll Loss: 2.1950
+-  Logit Total Loss: 2.4421
+-  Logit Loss: 2.4446
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1.41e-05
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 5
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Nll Loss |  Logit Total Loss |  Logit Loss |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------:|:-----------------:|:-----------:|
+| 0.7077        | 0.11  | 100  | 0.6897          | 0.6165   | -1.6378        | -1.8001          | 0.6016             | 0.1622          | 2.8092   | 0.6881            | 0.6667      |
+| 0.7117        | 0.23  | 200  | 0.6764          | 0.6103   | -2.8148        | -3.0536          | 0.5964             | 0.2388          | 2.8927   | 0.6746            | 0.6522      |
+| 0.6502        | 0.34  | 300  | 0.6626          | 0.6536   | -0.8018        | -1.1645          | 0.6399             | 0.3627          | 2.9696   | 0.6611            | 0.6377      |
+| 0.655         | 0.46  | 400  | 0.6503          | 0.6144   | -1.5457        | -1.9648          | 0.5984             | 0.4191          | 2.7773   | 0.6489            | 0.6274      |
+| 0.6467        | 0.57  | 500  | 0.6653          | 0.6165   | -0.9541        | -1.3483          | 0.6036             | 0.3942          | 2.8139   | 0.6643            | 0.6426      |
+| 0.6694        | 0.69  | 600  | 0.6432          | 0.6392   | -1.5917        | -1.9439          | 0.6278             | 0.3522          | 2.7779   | 0.6426            | 0.6211      |
+| 0.6753        | 0.8   | 700  | 0.6494          | 0.6371   | -1.3508        | -1.7191          | 0.6246             | 0.3683          | 2.8056   | 0.6474            | 0.6256      |
+| 0.6806        | 0.91  | 800  | 0.6449          | 0.6103   | -1.4576        | -1.8165          | 0.6004             | 0.3589          | 2.7215   | 0.6424            | 0.6214      |
+| 0.5434        | 1.03  | 900  | 0.6827          | 0.6557   | -0.8965        | -1.6611          | 0.6468             | 0.7645          | 2.6762   | 0.6816            | 0.6615      |
+| 0.5448        | 1.14  | 1000 | 0.7194          | 0.6392   | -0.8661        | -1.8265          | 0.6266             | 0.9604          | 2.6214   | 0.7184            | 0.6992      |
+| 0.5129        | 1.26  | 1100 | 0.7990          | 0.6289   | 1.3108         | 0.2390           | 0.6165             | 1.0718          | 2.6526   | 0.7966            | 0.7779      |
+| 0.5033        | 1.37  | 1200 | 0.6888          | 0.6557   | -0.9571        | -1.8601          | 0.6488             | 0.9030          | 2.6263   | 0.6868            | 0.6672      |
+| 0.404         | 1.49  | 1300 | 0.7422          | 0.6309   | -1.1408        | -2.0297          | 0.6226             | 0.8890          | 2.6046   | 0.7348            | 0.7159      |
+| 0.5512        | 1.6   | 1400 | 0.6762          | 0.6474   | -2.5166        | -3.3023          | 0.6327             | 0.7857          | 2.5872   | 0.6766            | 0.6573      |
+| 0.4558        | 1.71  | 1500 | 0.6843          | 0.6619   | -2.3183        | -3.2412          | 0.6476             | 0.9229          | 2.5268   | 0.6811            | 0.6625      |
+| 0.5184        | 1.83  | 1600 | 0.7135          | 0.6557   | -1.5991        | -2.5538          | 0.6456             | 0.9547          | 2.5671   | 0.7179            | 0.6992      |
+| 0.4213        | 1.94  | 1700 | 0.7220          | 0.6495   | -1.3947        | -2.4198          | 0.6395             | 1.0251          | 2.5040   | 0.7198            | 0.7018      |
+| 0.1508        | 2.06  | 1800 | 1.0827          | 0.6598   | 2.5282         | 0.2534           | 0.6476             | 2.2748          | 2.6437   | 1.0758            | 1.0599      |
+| 0.1216        | 2.17  | 1900 | 1.1376          | 0.6474   | -0.0750        | -2.1523          | 0.6302             | 2.0773          | 2.5506   | 1.1502            | 1.1361      |
+| 0.1044        | 2.29  | 2000 | 1.4682          | 0.6722   | -0.4860        | -3.5268          | 0.6577             | 3.0408          | 2.5292   | 1.4836            | 1.4730      |
+| 0.0952        | 2.4   | 2100 | 1.6303          | 0.6639   | 1.9842         | -1.3673          | 0.6444             | 3.3515          | 2.5293   | 1.6377            | 1.6287      |
+| 0.1951        | 2.51  | 2200 | 1.1515          | 0.6784   | -0.0674        | -2.4660          | 0.6637             | 2.3985          | 2.4589   | 1.1463            | 1.1331      |
+| 0.1119        | 2.63  | 2300 | 1.3845          | 0.6722   | 4.4149         | 1.2669           | 0.6548             | 3.1480          | 2.4797   | 1.3869            | 1.3759      |
+| 0.1613        | 2.74  | 2400 | 1.1948          | 0.6536   | -4.3162        | -7.1133          | 0.6367             | 2.7971          | 2.4661   | 1.2014            | 1.1887      |
+| 0.1408        | 2.86  | 2500 | 1.4167          | 0.6557   | -3.1501        | -6.3592          | 0.6415             | 3.2091          | 2.4591   | 1.4242            | 1.4137      |
+| 0.2694        | 2.97  | 2600 | 1.2168          | 0.6536   | 0.5185         | -2.2531          | 0.6395             | 2.7716          | 2.4397   | 1.2074            | 1.1949      |
+| 0.1184        | 3.09  | 2700 | 1.6729          | 0.6412   | 0.5427         | -3.2829          | 0.6315             | 3.8257          | 2.4188   | 1.6627            | 1.6551      |
+| 0.1004        | 3.2   | 2800 | 1.8768          | 0.6742   | 3.9205         | -0.6543          | 0.6629             | 4.5748          | 2.3906   | 1.8625            | 1.8572      |
+| 0.1029        | 3.31  | 2900 | 1.7461          | 0.6619   | 0.1775         | -4.2079          | 0.6496             | 4.3854          | 2.3534   | 1.7356            | 1.7294      |
+| 0.0401        | 3.43  | 3000 | 1.9949          | 0.6825   | 3.6497         | -1.3819          | 0.6698             | 5.0317          | 2.3327   | 1.9902            | 1.9868      |
+| 0.04          | 3.54  | 3100 | 2.0206          | 0.6763   | -0.5106        | -5.0903          | 0.6597             | 4.5798          | 2.3202   | 2.0224            | 2.0194      |
+| 0.1035        | 3.66  | 3200 | 2.1971          | 0.6660   | 2.3511         | -2.5645          | 0.6536             | 4.9156          | 2.3137   | 2.2218            | 2.2209      |
+| 0.0589        | 3.77  | 3300 | 2.1599          | 0.6412   | 2.0054         | -2.7469          | 0.6262             | 4.7523          | 2.2936   | 2.1789            | 2.1777      |
+| 0.084         | 3.89  | 3400 | 2.2096          | 0.6598   | 1.7952         | -3.0061          | 0.6391             | 4.8013          | 2.2833   | 2.2386            | 2.2382      |
+| 0.063         | 4.0   | 3500 | 2.2277          | 0.6660   | 4.2291         | -0.8513          | 0.6484             | 5.0805          | 2.2693   | 2.2539            | 2.2537      |
+| 0.065         | 4.11  | 3600 | 2.3431          | 0.6598   | 2.1719         | -3.1923          | 0.6444             | 5.3642          | 2.2499   | 2.3575            | 2.3585      |
+| 0.0453        | 4.23  | 3700 | 2.4069          | 0.6474   | 5.6839         | 0.2229           | 0.6335             | 5.4609          | 2.2344   | 2.4327            | 2.4347      |
+| 0.0377        | 4.34  | 3800 | 2.4983          | 0.6557   | 2.7785         | -2.9928          | 0.6355             | 5.7714          | 2.2258   | 2.5397            | 2.5429      |
+| 0.0559        | 4.46  | 3900 | 2.4027          | 0.6536   | 2.8063         | -2.8587          | 0.6375             | 5.6650          | 2.2135   | 2.4278            | 2.4299      |
+| 0.0219        | 4.57  | 4000 | 2.4322          | 0.6598   | 3.9024         | -1.8412          | 0.6435             | 5.7436          | 2.2081   | 2.4805            | 2.4832      |
+| 0.09          | 4.69  | 4100 | 2.4041          | 0.6680   | 3.7769         | -1.9890          | 0.6496             | 5.7659          | 2.2011   | 2.4248            | 2.4271      |
+| 0.0897        | 4.8   | 4200 | 2.3727          | 0.6722   | 2.7679         | -3.0182          | 0.6524             | 5.7861          | 2.1974   | 2.3815            | 2.3833      |
+| 0.0474        | 4.91  | 4300 | 2.4124          | 0.6660   | 3.4303         | -2.3575          | 0.6484             | 5.7878          | 2.1950   | 2.4421            | 2.4446      |
+### Framework versions
+- Transformers 4.37.2
+- Pytorch 2.4.0+cu121
+- Datasets 2.21.0
+- Tokenizers 0.15.2

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "facebook/opt-1.3b",
+  "_remove_final_layer_norm": false,
+  "activation_dropout": 0.0,
+  "activation_function": "relu",
+  "architectures": [
+    "OPTForSequenceClassification"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 2,
+  "do_layer_norm_before": true,
+  "dropout": 0.1,
+  "enable_bias": true,
+  "eos_token_id": 2,
+  "ffn_dim": 8192,
+  "hidden_size": 2048,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "init_std": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_elementwise_affine": true,
+  "layerdrop": 0.0,
+  "max_position_embeddings": 2048,
+  "model_type": "opt",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "prefix": "</s>",
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.2",
+  "use_cache": true,
+  "vocab_size": 50272,
+  "word_embed_proj_dim": 2048
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:efd8adc87e54895bc8e762cbab8ba9653abc0a499b387743cda6e66b1934cc7b
+size 4994509120

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e71dea4a839b151e1f1a9aa1a896d62e98baf76433e793db46d07ef018dc7e8
+size 680405464

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,397 @@

+{
+  "metadata": {
+    "total_size": 5674868736
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.embed_positions.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.15.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.16.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.17.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.18.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.19.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.20.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.21.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.22.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.22.final_layer_norm.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.22.final_layer_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.22.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.23.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.final_layer_norm.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.final_layer_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn_layer_norm.bias": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.23.self_attn_layer_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.3.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "score.weight": "model-00002-of-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "add_bos_token": true,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "errors": "replace",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "</s>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d424cf40aad4007e2c491e9b2cdb886f2d7086dc32dca456cb18f78be649095
+size 4920

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff