Marcio Lima Inácio commited on Sep 13, 2024

Commit

bd5119e

1 Parent(s): 0174c19

Add trained models

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

GlorIA-1.3B-all/checkpoint-100/added_tokens.json +3 -0
GlorIA-1.3B-all/checkpoint-100/config.json +86 -0
GlorIA-1.3B-all/checkpoint-100/merges.txt +0 -0
GlorIA-1.3B-all/checkpoint-100/model-00001-of-00002.safetensors +3 -0
GlorIA-1.3B-all/checkpoint-100/model-00002-of-00002.safetensors +3 -0
GlorIA-1.3B-all/checkpoint-100/model.safetensors.index.json +325 -0
GlorIA-1.3B-all/checkpoint-100/optimizer.pt +3 -0
GlorIA-1.3B-all/checkpoint-100/rng_state.pth +3 -0
GlorIA-1.3B-all/checkpoint-100/scheduler.pt +3 -0
GlorIA-1.3B-all/checkpoint-100/special_tokens_map.json +6 -0
GlorIA-1.3B-all/checkpoint-100/tokenizer.json +0 -0
GlorIA-1.3B-all/checkpoint-100/tokenizer_config.json +24 -0
GlorIA-1.3B-all/checkpoint-100/trainer_state.json +47 -0
GlorIA-1.3B-all/checkpoint-100/training_args.bin +3 -0
GlorIA-1.3B-all/checkpoint-100/vocab.json +0 -0
GlorIA-1.3B-all/checkpoint-200/added_tokens.json +3 -0
GlorIA-1.3B-all/checkpoint-200/config.json +86 -0
GlorIA-1.3B-all/checkpoint-200/merges.txt +0 -0
GlorIA-1.3B-all/checkpoint-200/model-00001-of-00002.safetensors +3 -0
GlorIA-1.3B-all/checkpoint-200/model-00002-of-00002.safetensors +3 -0
GlorIA-1.3B-all/checkpoint-200/model.safetensors.index.json +325 -0
GlorIA-1.3B-all/checkpoint-200/optimizer.pt +3 -0
GlorIA-1.3B-all/checkpoint-200/rng_state.pth +3 -0
GlorIA-1.3B-all/checkpoint-200/scheduler.pt +3 -0
GlorIA-1.3B-all/checkpoint-200/special_tokens_map.json +6 -0
GlorIA-1.3B-all/checkpoint-200/tokenizer.json +0 -0
GlorIA-1.3B-all/checkpoint-200/tokenizer_config.json +24 -0
GlorIA-1.3B-all/checkpoint-200/trainer_state.json +73 -0
GlorIA-1.3B-all/checkpoint-200/training_args.bin +3 -0
GlorIA-1.3B-all/checkpoint-200/vocab.json +0 -0
GlorIA-1.3B-all/checkpoint-300/added_tokens.json +3 -0
GlorIA-1.3B-all/checkpoint-300/config.json +86 -0
GlorIA-1.3B-all/checkpoint-300/merges.txt +0 -0
GlorIA-1.3B-all/checkpoint-300/model-00001-of-00002.safetensors +3 -0
GlorIA-1.3B-all/checkpoint-300/model-00002-of-00002.safetensors +3 -0
GlorIA-1.3B-all/checkpoint-300/model.safetensors.index.json +325 -0
GlorIA-1.3B-all/checkpoint-300/optimizer.pt +3 -0
GlorIA-1.3B-all/checkpoint-300/rng_state.pth +3 -0
GlorIA-1.3B-all/checkpoint-300/scheduler.pt +3 -0
GlorIA-1.3B-all/checkpoint-300/special_tokens_map.json +6 -0
GlorIA-1.3B-all/checkpoint-300/tokenizer.json +0 -0
GlorIA-1.3B-all/checkpoint-300/tokenizer_config.json +24 -0
GlorIA-1.3B-all/checkpoint-300/trainer_state.json +99 -0
GlorIA-1.3B-all/checkpoint-300/training_args.bin +3 -0
GlorIA-1.3B-all/checkpoint-300/vocab.json +0 -0
GlorIA-1.3B-positive/checkpoint-100/added_tokens.json +3 -0
GlorIA-1.3B-positive/checkpoint-100/config.json +86 -0
GlorIA-1.3B-positive/checkpoint-100/merges.txt +0 -0
GlorIA-1.3B-positive/checkpoint-100/model-00001-of-00002.safetensors +3 -0
GlorIA-1.3B-positive/checkpoint-100/model-00002-of-00002.safetensors +3 -0

GlorIA-1.3B-all/checkpoint-100/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<|endoftext|>": 50257
+}

GlorIA-1.3B-all/checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,86 @@

+{
+  "_name_or_path": "NOVA-vision-language/GlorIA-1.3B",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForTokenClassification"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      12
+    ]
+  ],
+  "bos_token_id": 50256,
+  "classifier_dropout": 0.1,
+  "do_sample": true,
+  "embed_dropout": 0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "hidden_size": 2048,
+  "id2label": {
+    "0": "Non-Pun",
+    "1": "Pun"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "label2id": {
+    "Non-Pun": 0,
+    "Pun": 1
+  },
+  "layer_norm_epsilon": 1e-05,
+  "max_length": 50,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 16,
+  "num_layers": 24,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50,
+      "temperature": 0.9
+    }
+  },
+  "temperature": 0.9,
+  "tokenizer_class": "GPT2Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "use_cache": true,
+  "vocab_size": 50258,
+  "window_size": 256
+}

GlorIA-1.3B-all/checkpoint-100/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-all/checkpoint-100/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73b25a995964b586ae8e971629ff81e999981f63f3c725264be8f74061a1d3f8
+size 4993802376

GlorIA-1.3B-all/checkpoint-100/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:220e7be7ec3bd29de575aa3f2f5bbd514a2b9166771f5c560ae326f99df4dbc7
+size 268560328

GlorIA-1.3B-all/checkpoint-100/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,325 @@

+{
+  "metadata": {
+    "total_size": 5262327816
+  },
+  "weight_map": {
+    "classifier.bias": "model-00002-of-00002.safetensors",
+    "classifier.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.0.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.3.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.ln_f.bias": "model-00002-of-00002.safetensors",
+    "transformer.ln_f.weight": "model-00002-of-00002.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00002.safetensors",
+    "transformer.wte.weight": "model-00001-of-00002.safetensors"
+  }
+}

GlorIA-1.3B-all/checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3a60bb5240f1c32adde1fb5f64a0d9b0f04a47d3d482ef2387dbad16e3cd126
+size 10524931458

GlorIA-1.3B-all/checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f038db249d80ff27a0bc300d721fbbfd6aa33f22e42efc2048660f2d9f8c09f6
+size 14244

GlorIA-1.3B-all/checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a49087019e82bb23b3f1ce76f4605708f8ce234de314b73586d95282d36e43d9
+size 1064

GlorIA-1.3B-all/checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

GlorIA-1.3B-all/checkpoint-100/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-all/checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "50257": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "stride": 0,
+  "tokenizer_class": "GPT2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<|endoftext|>"
+}

GlorIA-1.3B-all/checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "best_metric": 0.11806972324848175,
+  "best_model_checkpoint": "results/Gloria_all/GlorIA-1.3B/checkpoint-100",
+  "epoch": 1.1976047904191618,
+  "eval_steps": 100,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5988023952095808,
+      "grad_norm": 0.9138351082801819,
+      "learning_rate": 2.627329192546584e-05,
+      "loss": 0.1669,
+      "step": 50
+    },
+    {
+      "epoch": 1.1976047904191618,
+      "grad_norm": 0.5801578760147095,
+      "learning_rate": 2.1614906832298137e-05,
+      "loss": 0.1129,
+      "step": 100
+    },
+    {
+      "epoch": 1.1976047904191618,
+      "eval_accuracy": 0.9447699788056352,
+      "eval_f1": 0.4304367402071139,
+      "eval_loss": 0.11806972324848175,
+      "eval_precision": 0.4337568058076225,
+      "eval_recall": 0.42716711349419123,
+      "eval_runtime": 9.8143,
+      "eval_samples_per_second": 58.079,
+      "eval_steps_per_second": 2.445,
+      "step": 100
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 332,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "total_flos": 1004476175736264.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

GlorIA-1.3B-all/checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05869643dba3d8000c840394135edb747c583a3773236fdcfc6185019c8f767e
+size 4920

GlorIA-1.3B-all/checkpoint-100/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-all/checkpoint-200/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<|endoftext|>": 50257
+}

GlorIA-1.3B-all/checkpoint-200/config.json ADDED Viewed

	@@ -0,0 +1,86 @@

+{
+  "_name_or_path": "NOVA-vision-language/GlorIA-1.3B",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForTokenClassification"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      12
+    ]
+  ],
+  "bos_token_id": 50256,
+  "classifier_dropout": 0.1,
+  "do_sample": true,
+  "embed_dropout": 0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "hidden_size": 2048,
+  "id2label": {
+    "0": "Non-Pun",
+    "1": "Pun"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "label2id": {
+    "Non-Pun": 0,
+    "Pun": 1
+  },
+  "layer_norm_epsilon": 1e-05,
+  "max_length": 50,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 16,
+  "num_layers": 24,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50,
+      "temperature": 0.9
+    }
+  },
+  "temperature": 0.9,
+  "tokenizer_class": "GPT2Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "use_cache": true,
+  "vocab_size": 50258,
+  "window_size": 256
+}

GlorIA-1.3B-all/checkpoint-200/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-all/checkpoint-200/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3f58796d8ffa0f692fd079fa380d5b85644777b30827cd174472b1c737e56cd
+size 4993802376

GlorIA-1.3B-all/checkpoint-200/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b925f7127a53449f15a039223922808f574952de8ad450b13fb3b21486079c92
+size 268560328

GlorIA-1.3B-all/checkpoint-200/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,325 @@

+{
+  "metadata": {
+    "total_size": 5262327816
+  },
+  "weight_map": {
+    "classifier.bias": "model-00002-of-00002.safetensors",
+    "classifier.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.0.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.3.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.ln_f.bias": "model-00002-of-00002.safetensors",
+    "transformer.ln_f.weight": "model-00002-of-00002.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00002.safetensors",
+    "transformer.wte.weight": "model-00001-of-00002.safetensors"
+  }
+}

GlorIA-1.3B-all/checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ec993943488399196384844739bd708348d650a8fe0a9f13d5b740600dff256
+size 10524931458

GlorIA-1.3B-all/checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2370664a207da4c2bdd1dd94a13cc4caf1852e69baf63968a33e13715ea772cb
+size 14244

GlorIA-1.3B-all/checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc8a78682527ae46a5bfacd57e3fc75f835cc516aa231ca4e4a10c95af826227
+size 1064

GlorIA-1.3B-all/checkpoint-200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

GlorIA-1.3B-all/checkpoint-200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-all/checkpoint-200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "50257": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "stride": 0,
+  "tokenizer_class": "GPT2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<|endoftext|>"
+}

GlorIA-1.3B-all/checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,73 @@

+{
+  "best_metric": 0.11806972324848175,
+  "best_model_checkpoint": "results/Gloria_all/GlorIA-1.3B/checkpoint-100",
+  "epoch": 2.3952095808383236,
+  "eval_steps": 100,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5988023952095808,
+      "grad_norm": 0.9138351082801819,
+      "learning_rate": 2.627329192546584e-05,
+      "loss": 0.1669,
+      "step": 50
+    },
+    {
+      "epoch": 1.1976047904191618,
+      "grad_norm": 0.5801578760147095,
+      "learning_rate": 2.1614906832298137e-05,
+      "loss": 0.1129,
+      "step": 100
+    },
+    {
+      "epoch": 1.1976047904191618,
+      "eval_accuracy": 0.9447699788056352,
+      "eval_f1": 0.4304367402071139,
+      "eval_loss": 0.11806972324848175,
+      "eval_precision": 0.4337568058076225,
+      "eval_recall": 0.42716711349419123,
+      "eval_runtime": 9.8143,
+      "eval_samples_per_second": 58.079,
+      "eval_steps_per_second": 2.445,
+      "step": 100
+    },
+    {
+      "epoch": 1.7964071856287425,
+      "grad_norm": 0.3607296645641327,
+      "learning_rate": 1.6956521739130433e-05,
+      "loss": 0.0915,
+      "step": 150
+    },
+    {
+      "epoch": 2.3952095808383236,
+      "grad_norm": 0.4452211260795593,
+      "learning_rate": 1.2298136645962733e-05,
+      "loss": 0.063,
+      "step": 200
+    },
+    {
+      "epoch": 2.3952095808383236,
+      "eval_accuracy": 0.9409051240493704,
+      "eval_f1": 0.40241075567918405,
+      "eval_loss": 0.18597252666950226,
+      "eval_precision": 0.41811175337186895,
+      "eval_recall": 0.387846291331546,
+      "eval_runtime": 9.9454,
+      "eval_samples_per_second": 57.313,
+      "eval_steps_per_second": 2.413,
+      "step": 200
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 332,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "total_flos": 2009952955744776.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

GlorIA-1.3B-all/checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05869643dba3d8000c840394135edb747c583a3773236fdcfc6185019c8f767e
+size 4920

GlorIA-1.3B-all/checkpoint-200/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-all/checkpoint-300/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<|endoftext|>": 50257
+}

GlorIA-1.3B-all/checkpoint-300/config.json ADDED Viewed

	@@ -0,0 +1,86 @@

+{
+  "_name_or_path": "NOVA-vision-language/GlorIA-1.3B",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForTokenClassification"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      12
+    ]
+  ],
+  "bos_token_id": 50256,
+  "classifier_dropout": 0.1,
+  "do_sample": true,
+  "embed_dropout": 0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "hidden_size": 2048,
+  "id2label": {
+    "0": "Non-Pun",
+    "1": "Pun"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "label2id": {
+    "Non-Pun": 0,
+    "Pun": 1
+  },
+  "layer_norm_epsilon": 1e-05,
+  "max_length": 50,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 16,
+  "num_layers": 24,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50,
+      "temperature": 0.9
+    }
+  },
+  "temperature": 0.9,
+  "tokenizer_class": "GPT2Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "use_cache": true,
+  "vocab_size": 50258,
+  "window_size": 256
+}

GlorIA-1.3B-all/checkpoint-300/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-all/checkpoint-300/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51ccbd8ee3a7bcd714595ff76c2c84bcf870f64454d193024d8e9e7808e20d5f
+size 4993802376

GlorIA-1.3B-all/checkpoint-300/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:967f7433dba88e011a7b9d8311bce3e15a06c755c86cbeb63632759a9a959cff
+size 268560328

GlorIA-1.3B-all/checkpoint-300/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,325 @@

+{
+  "metadata": {
+    "total_size": 5262327816
+  },
+  "weight_map": {
+    "classifier.bias": "model-00002-of-00002.safetensors",
+    "classifier.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.0.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.attn.attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.3.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.ln_f.bias": "model-00002-of-00002.safetensors",
+    "transformer.ln_f.weight": "model-00002-of-00002.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00002.safetensors",
+    "transformer.wte.weight": "model-00001-of-00002.safetensors"
+  }
+}

GlorIA-1.3B-all/checkpoint-300/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:259779368b471b3857945542415196adb7c18431215ff66a01b84bad405672fb
+size 10524931458

GlorIA-1.3B-all/checkpoint-300/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da984250da42e29c169566973464f20eb13559ac7514308b48c172f6c5f3beea
+size 14244

GlorIA-1.3B-all/checkpoint-300/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b55a77f0e3a97e931e1003efe5938b313a0bb124e4fdfe7b9cda381a55663851
+size 1064

GlorIA-1.3B-all/checkpoint-300/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

GlorIA-1.3B-all/checkpoint-300/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-all/checkpoint-300/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "50257": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "stride": 0,
+  "tokenizer_class": "GPT2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<|endoftext|>"
+}

GlorIA-1.3B-all/checkpoint-300/trainer_state.json ADDED Viewed

	@@ -0,0 +1,99 @@

+{
+  "best_metric": 0.11806972324848175,
+  "best_model_checkpoint": "results/Gloria_all/GlorIA-1.3B/checkpoint-100",
+  "epoch": 3.592814371257485,
+  "eval_steps": 100,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5988023952095808,
+      "grad_norm": 0.9138351082801819,
+      "learning_rate": 2.627329192546584e-05,
+      "loss": 0.1669,
+      "step": 50
+    },
+    {
+      "epoch": 1.1976047904191618,
+      "grad_norm": 0.5801578760147095,
+      "learning_rate": 2.1614906832298137e-05,
+      "loss": 0.1129,
+      "step": 100
+    },
+    {
+      "epoch": 1.1976047904191618,
+      "eval_accuracy": 0.9447699788056352,
+      "eval_f1": 0.4304367402071139,
+      "eval_loss": 0.11806972324848175,
+      "eval_precision": 0.4337568058076225,
+      "eval_recall": 0.42716711349419123,
+      "eval_runtime": 9.8143,
+      "eval_samples_per_second": 58.079,
+      "eval_steps_per_second": 2.445,
+      "step": 100
+    },
+    {
+      "epoch": 1.7964071856287425,
+      "grad_norm": 0.3607296645641327,
+      "learning_rate": 1.6956521739130433e-05,
+      "loss": 0.0915,
+      "step": 150
+    },
+    {
+      "epoch": 2.3952095808383236,
+      "grad_norm": 0.4452211260795593,
+      "learning_rate": 1.2298136645962733e-05,
+      "loss": 0.063,
+      "step": 200
+    },
+    {
+      "epoch": 2.3952095808383236,
+      "eval_accuracy": 0.9409051240493704,
+      "eval_f1": 0.40241075567918405,
+      "eval_loss": 0.18597252666950226,
+      "eval_precision": 0.41811175337186895,
+      "eval_recall": 0.387846291331546,
+      "eval_runtime": 9.9454,
+      "eval_samples_per_second": 57.313,
+      "eval_steps_per_second": 2.413,
+      "step": 200
+    },
+    {
+      "epoch": 2.9940119760479043,
+      "grad_norm": 0.5937349200248718,
+      "learning_rate": 7.63975155279503e-06,
+      "loss": 0.0551,
+      "step": 250
+    },
+    {
+      "epoch": 3.592814371257485,
+      "grad_norm": 0.6216064691543579,
+      "learning_rate": 2.981366459627329e-06,
+      "loss": 0.0292,
+      "step": 300
+    },
+    {
+      "epoch": 3.592814371257485,
+      "eval_accuracy": 0.940157087644932,
+      "eval_f1": 0.4222124283825474,
+      "eval_loss": 0.20892249047756195,
+      "eval_precision": 0.4165217391304348,
+      "eval_recall": 0.4280607685433423,
+      "eval_runtime": 9.707,
+      "eval_samples_per_second": 58.721,
+      "eval_steps_per_second": 2.472,
+      "step": 300
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 332,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "total_flos": 3032048467579320.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

GlorIA-1.3B-all/checkpoint-300/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05869643dba3d8000c840394135edb747c583a3773236fdcfc6185019c8f767e
+size 4920

GlorIA-1.3B-all/checkpoint-300/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-positive/checkpoint-100/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<|endoftext|>": 50257
+}

GlorIA-1.3B-positive/checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,86 @@

+{
+  "_name_or_path": "NOVA-vision-language/GlorIA-1.3B",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForTokenClassification"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      12
+    ]
+  ],
+  "bos_token_id": 50256,
+  "classifier_dropout": 0.1,
+  "do_sample": true,
+  "embed_dropout": 0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "hidden_size": 2048,
+  "id2label": {
+    "0": "Non-Pun",
+    "1": "Pun"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "label2id": {
+    "Non-Pun": 0,
+    "Pun": 1
+  },
+  "layer_norm_epsilon": 1e-05,
+  "max_length": 50,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 16,
+  "num_layers": 24,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50,
+      "temperature": 0.9
+    }
+  },
+  "temperature": 0.9,
+  "tokenizer_class": "GPT2Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "use_cache": true,
+  "vocab_size": 50258,
+  "window_size": 256
+}

GlorIA-1.3B-positive/checkpoint-100/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

GlorIA-1.3B-positive/checkpoint-100/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6f98c3ddac41ef533e08e341232e25c42abb9a0e4711cb5284c4b1f16d19b91
+size 4993802376

GlorIA-1.3B-positive/checkpoint-100/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97cdf80b4de968a5945c3660b53db49213fa656d3cb9081ac691adbd20ae0ed6
+size 268560328