Upload folder using huggingface_hub

Browse files

Files changed (15) hide show

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/added_tokens.json +6 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/config.json +221 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/generation_config.json +14 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/merges.txt +0 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model-00001-of-00004.safetensors +3 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model-00002-of-00004.safetensors +3 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model-00003-of-00004.safetensors +3 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model-00004-of-00004.safetensors +3 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model.safetensors.index.json +772 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/special_tokens_map.json +20 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/tokenizer.json +0 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/tokenizer_config.json +53 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/trainer_state.json +1780 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/training_args.bin +3 -0
llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/vocab.json +0 -0

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "<image>": 151646,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/config.json ADDED Viewed

	@@ -0,0 +1,221 @@

+{
+  "_name_or_path": "lmms-lab/llava-onevision-qwen2-7b-si",
+  "add_faster_video": false,
+  "add_time_instruction": true,
+  "architectures": [
+    "LlavaQwenForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "faster_token_stride": 10,
+  "force_sample": true,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "ignore_index": -100,
+  "image_aspect_ratio": "anyres_max_9",
+  "image_crop_resolution": null,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_split_resolution": null,
+  "image_token_index": 151646,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "mm_hidden_size": 1152,
+  "mm_newline_position": "grid",
+  "mm_patch_merge_type": "spatial_unpad",
+  "mm_projector_lr": null,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_resampler_type": null,
+  "mm_spatial_pool_mode": "bilinear",
+  "mm_spatial_pool_stride": 2,
+  "mm_tunable_parts": "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "google/siglip-so400m-patch14-384",
+  "mm_vision_tower_lr": 2e-06,
+  "model_type": "llava",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "pos_skipping_range": 4096,
+  "projector_hidden_act": "gelu",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "text_config": {
+    "model_type": "llama"
+  },
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 32768,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": true,
+  "use_mm_proj": true,
+  "use_pos_skipping": false,
+  "use_sliding_window": false,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vision_tower_pretrained": null
+}

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.40.0.dev0"
+}

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a857ece9afc23c7e524418ea876d82b6111e7ba5377d4c815facbcb9b855f20b
+size 4877668032

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b87d00d7b33e3ed32af2ee9bf7c65dd6a0bc07e7f9290649c502c82e1c5d920
+size 4932751008

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3240e3c0692d072b6744dfea9215f692525f234a582acf1f5482f7e128374543
+size 4994571904

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ebd86fc91e807c6bdf5af85ddb31269c4657c33e9e30f720c6c9a4dd028625a
+size 1255812224

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,772 @@

+{
+  "metadata": {
+    "total_size": 16060697664
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.image_newline": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.mm_projector.0.bias": "model-00004-of-00004.safetensors",
+    "model.mm_projector.0.weight": "model-00004-of-00004.safetensors",
+    "model.mm_projector.2.bias": "model-00004-of-00004.safetensors",
+    "model.mm_projector.2.weight": "model-00004-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.position_embedding.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.weight": "model-00004-of-00004.safetensors"
+  }
+}

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "LlavaProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1780 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "grad_norm": 14.6036310646024,
+      "learning_rate": 1.25e-06,
+      "loss": 0.9287,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 9.082168321156889,
+      "learning_rate": 2.5e-06,
+      "loss": 0.5764,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 10.571785890268117,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.6551,
+      "step": 3
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 7.365480567085625,
+      "learning_rate": 5e-06,
+      "loss": 0.5103,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 6.127127611892052,
+      "learning_rate": 6.25e-06,
+      "loss": 0.4578,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 4.896572822611703,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.3175,
+      "step": 6
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 11.334628073922056,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 0.3643,
+      "step": 7
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 13.935515492046335,
+      "learning_rate": 1e-05,
+      "loss": 0.2535,
+      "step": 8
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 17.18598509332076,
+      "learning_rate": 9.999578688879085e-06,
+      "loss": 0.3471,
+      "step": 9
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 6.567885700170333,
+      "learning_rate": 9.998314826517564e-06,
+      "loss": 0.2421,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 3.5770854408573687,
+      "learning_rate": 9.99620862590714e-06,
+      "loss": 0.2164,
+      "step": 11
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 2.344123769911195,
+      "learning_rate": 9.993260441994116e-06,
+      "loss": 0.1445,
+      "step": 12
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 4.89909158216688,
+      "learning_rate": 9.989470771619555e-06,
+      "loss": 0.1649,
+      "step": 13
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 5.328561253800632,
+      "learning_rate": 9.984840253435569e-06,
+      "loss": 0.1337,
+      "step": 14
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 3.0662123977380964,
+      "learning_rate": 9.979369667797675e-06,
+      "loss": 0.137,
+      "step": 15
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 3.1089134446007054,
+      "learning_rate": 9.973059936633308e-06,
+      "loss": 0.1994,
+      "step": 16
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 3.0897583479043846,
+      "learning_rate": 9.965912123286425e-06,
+      "loss": 0.1685,
+      "step": 17
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 2.698981624296626,
+      "learning_rate": 9.957927432338332e-06,
+      "loss": 0.1125,
+      "step": 18
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 3.1007265136556006,
+      "learning_rate": 9.949107209404664e-06,
+      "loss": 0.1534,
+      "step": 19
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 4.280889834927759,
+      "learning_rate": 9.939452940908627e-06,
+      "loss": 0.1232,
+      "step": 20
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 3.485763050059062,
+      "learning_rate": 9.928966253830492e-06,
+      "loss": 0.1501,
+      "step": 21
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 3.9538735454454264,
+      "learning_rate": 9.917648915433413e-06,
+      "loss": 0.1572,
+      "step": 22
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 2.7290578171860953,
+      "learning_rate": 9.905502832965603e-06,
+      "loss": 0.1333,
+      "step": 23
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.846881771596964,
+      "learning_rate": 9.892530053338909e-06,
+      "loss": 0.1528,
+      "step": 24
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.7548898030246427,
+      "learning_rate": 9.87873276278386e-06,
+      "loss": 0.1179,
+      "step": 25
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 2.9941010142522124,
+      "learning_rate": 9.864113286481237e-06,
+      "loss": 0.1615,
+      "step": 26
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.636569897942167,
+      "learning_rate": 9.848674088170221e-06,
+      "loss": 0.1221,
+      "step": 27
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.6529856854809994,
+      "learning_rate": 9.832417769733185e-06,
+      "loss": 0.1252,
+      "step": 28
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.2734615983570756,
+      "learning_rate": 9.815347070757234e-06,
+      "loss": 0.1094,
+      "step": 29
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.4820150424223377,
+      "learning_rate": 9.797464868072489e-06,
+      "loss": 0.1167,
+      "step": 30
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.312011600500631,
+      "learning_rate": 9.778774175267294e-06,
+      "loss": 0.1276,
+      "step": 31
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.6625549287789987,
+      "learning_rate": 9.759278142180348e-06,
+      "loss": 0.1265,
+      "step": 32
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 3.021052887442735,
+      "learning_rate": 9.73898005436987e-06,
+      "loss": 0.1147,
+      "step": 33
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 4.539612012195518,
+      "learning_rate": 9.717883332559911e-06,
+      "loss": 0.1322,
+      "step": 34
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 2.5986109379884597,
+      "learning_rate": 9.695991532063875e-06,
+      "loss": 0.1023,
+      "step": 35
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 4.466779056849432,
+      "learning_rate": 9.673308342185366e-06,
+      "loss": 0.1535,
+      "step": 36
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 4.371231966549596,
+      "learning_rate": 9.649837585596445e-06,
+      "loss": 0.1256,
+      "step": 37
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 3.831652235138519,
+      "learning_rate": 9.625583217693419e-06,
+      "loss": 0.1251,
+      "step": 38
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 5.229935780882722,
+      "learning_rate": 9.60054932593026e-06,
+      "loss": 0.1098,
+      "step": 39
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 3.0291617177963763,
+      "learning_rate": 9.574740129129767e-06,
+      "loss": 0.0968,
+      "step": 40
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.608593406637357,
+      "learning_rate": 9.548159976772593e-06,
+      "loss": 0.106,
+      "step": 41
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 2.8777810173689984,
+      "learning_rate": 9.520813348264252e-06,
+      "loss": 0.1228,
+      "step": 42
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 2.297411212165998,
+      "learning_rate": 9.492704852180228e-06,
+      "loss": 0.113,
+      "step": 43
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 2.0319508789820477,
+      "learning_rate": 9.46383922548932e-06,
+      "loss": 0.1422,
+      "step": 44
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 2.5554173570590692,
+      "learning_rate": 9.43422133275534e-06,
+      "loss": 0.1362,
+      "step": 45
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 3.4570901166987715,
+      "learning_rate": 9.403856165317322e-06,
+      "loss": 0.1279,
+      "step": 46
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 2.1947921758411417,
+      "learning_rate": 9.372748840448361e-06,
+      "loss": 0.1021,
+      "step": 47
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.922964142405966,
+      "learning_rate": 9.34090460049322e-06,
+      "loss": 0.1294,
+      "step": 48
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 3.7988489553338822,
+      "learning_rate": 9.30832881198487e-06,
+      "loss": 0.1043,
+      "step": 49
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 3.927261928743249,
+      "learning_rate": 9.275026964740101e-06,
+      "loss": 0.1251,
+      "step": 50
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.2524022231123646,
+      "learning_rate": 9.241004670934348e-06,
+      "loss": 0.1289,
+      "step": 51
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.778780423416592,
+      "learning_rate": 9.206267664155906e-06,
+      "loss": 0.0923,
+      "step": 52
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.9272757542790042,
+      "learning_rate": 9.170821798439685e-06,
+      "loss": 0.1177,
+      "step": 53
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 2.3683022033298227,
+      "learning_rate": 9.134673047280644e-06,
+      "loss": 0.1114,
+      "step": 54
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.886567547650678,
+      "learning_rate": 9.097827502627137e-06,
+      "loss": 0.0839,
+      "step": 55
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 2.78761652213312,
+      "learning_rate": 9.060291373854252e-06,
+      "loss": 0.1341,
+      "step": 56
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.9555428543976294,
+      "learning_rate": 9.02207098671738e-06,
+      "loss": 0.1305,
+      "step": 57
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 2.196420118965544,
+      "learning_rate": 8.98317278228618e-06,
+      "loss": 0.1098,
+      "step": 58
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.3411730949760066,
+      "learning_rate": 8.943603315859101e-06,
+      "loss": 0.0895,
+      "step": 59
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.666970370208798,
+      "learning_rate": 8.90336925585864e-06,
+      "loss": 0.1131,
+      "step": 60
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 3.0784791302378105,
+      "learning_rate": 8.862477382707569e-06,
+      "loss": 0.1255,
+      "step": 61
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 3.10854012416958,
+      "learning_rate": 8.820934587686247e-06,
+      "loss": 0.1355,
+      "step": 62
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.8465855160509548,
+      "learning_rate": 8.778747871771293e-06,
+      "loss": 0.1173,
+      "step": 63
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 2.2684229657433725,
+      "learning_rate": 8.735924344455732e-06,
+      "loss": 0.1038,
+      "step": 64
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 2.235368670578642,
+      "learning_rate": 8.692471222550886e-06,
+      "loss": 0.0926,
+      "step": 65
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.583025768488121,
+      "learning_rate": 8.64839582897015e-06,
+      "loss": 0.1097,
+      "step": 66
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.761450035596471,
+      "learning_rate": 8.603705591494917e-06,
+      "loss": 0.1363,
+      "step": 67
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 3.14712311040828,
+      "learning_rate": 8.558408041522801e-06,
+      "loss": 0.1099,
+      "step": 68
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.3627383491725236,
+      "learning_rate": 8.512510812798426e-06,
+      "loss": 0.1144,
+      "step": 69
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.7122625560648248,
+      "learning_rate": 8.466021640126946e-06,
+      "loss": 0.1173,
+      "step": 70
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.2729043899391825,
+      "learning_rate": 8.418948358070535e-06,
+      "loss": 0.0984,
+      "step": 71
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 2.997803929186753,
+      "learning_rate": 8.371298899628091e-06,
+      "loss": 0.1257,
+      "step": 72
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 4.272704789992562,
+      "learning_rate": 8.323081294898308e-06,
+      "loss": 0.1266,
+      "step": 73
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 4.36783674044097,
+      "learning_rate": 8.274303669726427e-06,
+      "loss": 0.1297,
+      "step": 74
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.508617435383864,
+      "learning_rate": 8.22497424433482e-06,
+      "loss": 0.0932,
+      "step": 75
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.7015819392616356,
+      "learning_rate": 8.175101331937692e-06,
+      "loss": 0.1019,
+      "step": 76
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 4.229752017688036,
+      "learning_rate": 8.124693337340093e-06,
+      "loss": 0.1357,
+      "step": 77
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 3.4610954145548454,
+      "learning_rate": 8.073758755521506e-06,
+      "loss": 0.136,
+      "step": 78
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 2.0381522141577344,
+      "learning_rate": 8.022306170204233e-06,
+      "loss": 0.1417,
+      "step": 79
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.804818866193162,
+      "learning_rate": 7.970344252406832e-06,
+      "loss": 0.1221,
+      "step": 80
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 2.584064192288532,
+      "learning_rate": 7.917881758982838e-06,
+      "loss": 0.1183,
+      "step": 81
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 2.465522212108148,
+      "learning_rate": 7.864927531145012e-06,
+      "loss": 0.1125,
+      "step": 82
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.0235447460228226,
+      "learning_rate": 7.81149049297539e-06,
+      "loss": 0.0874,
+      "step": 83
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 2.612101986164201,
+      "learning_rate": 7.757579649921354e-06,
+      "loss": 0.1117,
+      "step": 84
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 2.3612100058771595,
+      "learning_rate": 7.703204087277989e-06,
+      "loss": 0.1028,
+      "step": 85
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.2934776037294882,
+      "learning_rate": 7.648372968656995e-06,
+      "loss": 0.0864,
+      "step": 86
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 2.2788443094639006,
+      "learning_rate": 7.593095534442387e-06,
+      "loss": 0.1409,
+      "step": 87
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 2.604624944153508,
+      "learning_rate": 7.5373811002332785e-06,
+      "loss": 0.1258,
+      "step": 88
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.9168648434349014,
+      "learning_rate": 7.481239055273959e-06,
+      "loss": 0.0888,
+      "step": 89
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.3538145327150208,
+      "learning_rate": 7.424678860871584e-06,
+      "loss": 0.0759,
+      "step": 90
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.993289513138089,
+      "learning_rate": 7.367710048801715e-06,
+      "loss": 0.1274,
+      "step": 91
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 2.368021353266591,
+      "learning_rate": 7.310342219701981e-06,
+      "loss": 0.1209,
+      "step": 92
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 3.9898067152792485,
+      "learning_rate": 7.252585041454134e-06,
+      "loss": 0.12,
+      "step": 93
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 2.3332314422051796,
+      "learning_rate": 7.19444824755478e-06,
+      "loss": 0.0975,
+      "step": 94
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 2.0558963979963036,
+      "learning_rate": 7.1359416354750365e-06,
+      "loss": 0.1245,
+      "step": 95
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.9027383926028203,
+      "learning_rate": 7.0770750650094335e-06,
+      "loss": 0.113,
+      "step": 96
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 2.897058350911803,
+      "learning_rate": 7.017858456614284e-06,
+      "loss": 0.1004,
+      "step": 97
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.3712923611410162,
+      "learning_rate": 6.958301789735853e-06,
+      "loss": 0.0662,
+      "step": 98
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.299487545652174,
+      "learning_rate": 6.898415101128571e-06,
+      "loss": 0.0969,
+      "step": 99
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.3436010973644774,
+      "learning_rate": 6.838208483163601e-06,
+      "loss": 0.1117,
+      "step": 100
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.3518487488195685,
+      "learning_rate": 6.777692082128024e-06,
+      "loss": 0.0989,
+      "step": 101
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 2.0546633310830527,
+      "learning_rate": 6.716876096514944e-06,
+      "loss": 0.0971,
+      "step": 102
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.8185894087797985,
+      "learning_rate": 6.655770775304783e-06,
+      "loss": 0.0871,
+      "step": 103
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.4224306888753775,
+      "learning_rate": 6.594386416238095e-06,
+      "loss": 0.0911,
+      "step": 104
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 2.82057166756752,
+      "learning_rate": 6.532733364080126e-06,
+      "loss": 0.129,
+      "step": 105
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.8627241869632583,
+      "learning_rate": 6.470822008877482e-06,
+      "loss": 0.1189,
+      "step": 106
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 2.0313992331092168,
+      "learning_rate": 6.408662784207149e-06,
+      "loss": 0.1193,
+      "step": 107
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.4122902985876782,
+      "learning_rate": 6.346266165418173e-06,
+      "loss": 0.099,
+      "step": 108
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.0948466128428072,
+      "learning_rate": 6.283642667866317e-06,
+      "loss": 0.1112,
+      "step": 109
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.438605125720953,
+      "learning_rate": 6.2208028451419575e-06,
+      "loss": 0.0905,
+      "step": 110
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 2.090447286519822,
+      "learning_rate": 6.157757287291557e-06,
+      "loss": 0.112,
+      "step": 111
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.582082371524756,
+      "learning_rate": 6.094516619032975e-06,
+      "loss": 0.1201,
+      "step": 112
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 2.5950782210449277,
+      "learning_rate": 6.031091497964941e-06,
+      "loss": 0.1208,
+      "step": 113
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 2.372861368900429,
+      "learning_rate": 5.967492612770999e-06,
+      "loss": 0.1188,
+      "step": 114
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.9016907921940156,
+      "learning_rate": 5.903730681418191e-06,
+      "loss": 0.1425,
+      "step": 115
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 2.903188845316904,
+      "learning_rate": 5.839816449350824e-06,
+      "loss": 0.1236,
+      "step": 116
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.5213088907418626,
+      "learning_rate": 5.775760687679603e-06,
+      "loss": 0.1114,
+      "step": 117
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 2.5306668214561876,
+      "learning_rate": 5.711574191366427e-06,
+      "loss": 0.0824,
+      "step": 118
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.5314000945403143,
+      "learning_rate": 5.647267777405178e-06,
+      "loss": 0.0967,
+      "step": 119
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.8857806105737678,
+      "learning_rate": 5.5828522829987965e-06,
+      "loss": 0.1096,
+      "step": 120
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.7957070514842983,
+      "learning_rate": 5.518338563732945e-06,
+      "loss": 0.1107,
+      "step": 121
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.0475738899463478,
+      "learning_rate": 5.453737491746572e-06,
+      "loss": 0.1048,
+      "step": 122
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.6579261172398916,
+      "learning_rate": 5.3890599538996994e-06,
+      "loss": 0.1203,
+      "step": 123
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.9528437322776027,
+      "learning_rate": 5.324316849938715e-06,
+      "loss": 0.0998,
+      "step": 124
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.732252830964134,
+      "learning_rate": 5.2595190906595e-06,
+      "loss": 0.0809,
+      "step": 125
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 2.3390183059284255,
+      "learning_rate": 5.194677596068689e-06,
+      "loss": 0.105,
+      "step": 126
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.6733979662829752,
+      "learning_rate": 5.1298032935433915e-06,
+      "loss": 0.0931,
+      "step": 127
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 2.025975939827026,
+      "learning_rate": 5.064907115989655e-06,
+      "loss": 0.1107,
+      "step": 128
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.4962177174274838,
+      "learning_rate": 5e-06,
+      "loss": 0.1005,
+      "step": 129
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.641645664700396,
+      "learning_rate": 4.935092884010347e-06,
+      "loss": 0.128,
+      "step": 130
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.295901502342211,
+      "learning_rate": 4.870196706456609e-06,
+      "loss": 0.1163,
+      "step": 131
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 2.411335776787477,
+      "learning_rate": 4.805322403931312e-06,
+      "loss": 0.1139,
+      "step": 132
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.4062492063959664,
+      "learning_rate": 4.740480909340502e-06,
+      "loss": 0.0994,
+      "step": 133
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.6175084777862612,
+      "learning_rate": 4.6756831500612846e-06,
+      "loss": 0.0754,
+      "step": 134
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.8708202203524917,
+      "learning_rate": 4.6109400461003005e-06,
+      "loss": 0.1044,
+      "step": 135
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.882517628021503,
+      "learning_rate": 4.546262508253429e-06,
+      "loss": 0.113,
+      "step": 136
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.322444620938972,
+      "learning_rate": 4.481661436267058e-06,
+      "loss": 0.1072,
+      "step": 137
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 2.619055645155873,
+      "learning_rate": 4.417147717001205e-06,
+      "loss": 0.1205,
+      "step": 138
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.4860184998923907,
+      "learning_rate": 4.352732222594823e-06,
+      "loss": 0.0847,
+      "step": 139
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.8573777247999175,
+      "learning_rate": 4.2884258086335755e-06,
+      "loss": 0.1379,
+      "step": 140
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.28516196104642,
+      "learning_rate": 4.224239312320399e-06,
+      "loss": 0.0735,
+      "step": 141
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.752902080014909,
+      "learning_rate": 4.160183550649176e-06,
+      "loss": 0.1135,
+      "step": 142
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 2.110007055771255,
+      "learning_rate": 4.09626931858181e-06,
+      "loss": 0.1028,
+      "step": 143
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 2.484304387544048,
+      "learning_rate": 4.032507387229002e-06,
+      "loss": 0.1054,
+      "step": 144
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.5406779754771291,
+      "learning_rate": 3.96890850203506e-06,
+      "loss": 0.0847,
+      "step": 145
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.742108814469614,
+      "learning_rate": 3.905483380967027e-06,
+      "loss": 0.1107,
+      "step": 146
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 2.0386245270775127,
+      "learning_rate": 3.842242712708444e-06,
+      "loss": 0.1193,
+      "step": 147
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 1.7237219171669202,
+      "learning_rate": 3.779197154858044e-06,
+      "loss": 0.1103,
+      "step": 148
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.8116644878343062,
+      "learning_rate": 3.7163573321336867e-06,
+      "loss": 0.0929,
+      "step": 149
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 4.671091734976832,
+      "learning_rate": 3.6537338345818273e-06,
+      "loss": 0.1283,
+      "step": 150
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.6894620420170856,
+      "learning_rate": 3.5913372157928515e-06,
+      "loss": 0.1275,
+      "step": 151
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 2.8403954360864,
+      "learning_rate": 3.529177991122519e-06,
+      "loss": 0.1215,
+      "step": 152
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 1.2889989863572795,
+      "learning_rate": 3.4672666359198757e-06,
+      "loss": 0.1139,
+      "step": 153
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.7132287102469668,
+      "learning_rate": 3.4056135837619077e-06,
+      "loss": 0.1147,
+      "step": 154
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.8027085734642279,
+      "learning_rate": 3.344229224695219e-06,
+      "loss": 0.1274,
+      "step": 155
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.146013131770876,
+      "learning_rate": 3.2831239034850593e-06,
+      "loss": 0.0956,
+      "step": 156
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.9724037957371912,
+      "learning_rate": 3.2223079178719775e-06,
+      "loss": 0.1113,
+      "step": 157
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.8543463536491485,
+      "learning_rate": 3.1617915168363994e-06,
+      "loss": 0.0993,
+      "step": 158
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.1479158976834465,
+      "learning_rate": 3.101584898871431e-06,
+      "loss": 0.092,
+      "step": 159
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.3098796639986467,
+      "learning_rate": 3.041698210264149e-06,
+      "loss": 0.0699,
+      "step": 160
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 2.5558598851668206,
+      "learning_rate": 2.9821415433857174e-06,
+      "loss": 0.1123,
+      "step": 161
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 2.014251903691915,
+      "learning_rate": 2.9229249349905686e-06,
+      "loss": 0.1087,
+      "step": 162
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 1.4711047709802292,
+      "learning_rate": 2.8640583645249643e-06,
+      "loss": 0.0843,
+      "step": 163
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.1468120687834304,
+      "learning_rate": 2.805551752445222e-06,
+      "loss": 0.0882,
+      "step": 164
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.452560408663623,
+      "learning_rate": 2.7474149585458666e-06,
+      "loss": 0.1081,
+      "step": 165
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.285408744623155,
+      "learning_rate": 2.689657780298019e-06,
+      "loss": 0.0771,
+      "step": 166
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 1.2457022411927023,
+      "learning_rate": 2.632289951198285e-06,
+      "loss": 0.0826,
+      "step": 167
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 4.190616253855386,
+      "learning_rate": 2.5753211391284172e-06,
+      "loss": 0.1046,
+      "step": 168
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.1432188632321447,
+      "learning_rate": 2.518760944726042e-06,
+      "loss": 0.1025,
+      "step": 169
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.8315595453170226,
+      "learning_rate": 2.4626188997667224e-06,
+      "loss": 0.0867,
+      "step": 170
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.5161441869417374,
+      "learning_rate": 2.406904465557614e-06,
+      "loss": 0.0876,
+      "step": 171
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.6424684595399939,
+      "learning_rate": 2.3516270313430085e-06,
+      "loss": 0.0841,
+      "step": 172
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.379884092864215,
+      "learning_rate": 2.296795912722014e-06,
+      "loss": 0.0948,
+      "step": 173
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.5422938544296152,
+      "learning_rate": 2.2424203500786473e-06,
+      "loss": 0.1082,
+      "step": 174
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.7884560018122275,
+      "learning_rate": 2.1885095070246116e-06,
+      "loss": 0.0693,
+      "step": 175
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.1693907589343684,
+      "learning_rate": 2.1350724688549906e-06,
+      "loss": 0.1036,
+      "step": 176
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.133601325742118,
+      "learning_rate": 2.0821182410171638e-06,
+      "loss": 0.0925,
+      "step": 177
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 3.190071622261254,
+      "learning_rate": 2.029655747593169e-06,
+      "loss": 0.0946,
+      "step": 178
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.577261774328793,
+      "learning_rate": 1.977693829795769e-06,
+      "loss": 0.0978,
+      "step": 179
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.3342716964240355,
+      "learning_rate": 1.926241244478496e-06,
+      "loss": 0.0935,
+      "step": 180
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.321248527505923,
+      "learning_rate": 1.8753066626599086e-06,
+      "loss": 0.0968,
+      "step": 181
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.285705328382658,
+      "learning_rate": 1.8248986680623077e-06,
+      "loss": 0.0889,
+      "step": 182
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.9575742196368019,
+      "learning_rate": 1.7750257556651806e-06,
+      "loss": 0.0893,
+      "step": 183
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.4203192496246224,
+      "learning_rate": 1.7256963302735752e-06,
+      "loss": 0.1111,
+      "step": 184
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.368111702919429,
+      "learning_rate": 1.6769187051016933e-06,
+      "loss": 0.1,
+      "step": 185
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.058479994064112,
+      "learning_rate": 1.6287011003719105e-06,
+      "loss": 0.0836,
+      "step": 186
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.6741725159435814,
+      "learning_rate": 1.5810516419294654e-06,
+      "loss": 0.1181,
+      "step": 187
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.5385814051986832,
+      "learning_rate": 1.5339783598730568e-06,
+      "loss": 0.0971,
+      "step": 188
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.3360715349240666,
+      "learning_rate": 1.4874891872015735e-06,
+      "loss": 0.1062,
+      "step": 189
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 2.0284483876377783,
+      "learning_rate": 1.4415919584771999e-06,
+      "loss": 0.0927,
+      "step": 190
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.1306775543167389,
+      "learning_rate": 1.3962944085050833e-06,
+      "loss": 0.0764,
+      "step": 191
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.0633231301361952,
+      "learning_rate": 1.35160417102985e-06,
+      "loss": 0.0823,
+      "step": 192
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.5607202266551874,
+      "learning_rate": 1.3075287774491147e-06,
+      "loss": 0.0997,
+      "step": 193
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.301222485579675,
+      "learning_rate": 1.2640756555442684e-06,
+      "loss": 0.0859,
+      "step": 194
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.3017609085831603,
+      "learning_rate": 1.2212521282287093e-06,
+      "loss": 0.0956,
+      "step": 195
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.6742535727467638,
+      "learning_rate": 1.1790654123137552e-06,
+      "loss": 0.1043,
+      "step": 196
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 1.2387008761763871,
+      "learning_rate": 1.1375226172924342e-06,
+      "loss": 0.1117,
+      "step": 197
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 1.5388962823082364,
+      "learning_rate": 1.0966307441413598e-06,
+      "loss": 0.0978,
+      "step": 198
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.2494365738132465,
+      "learning_rate": 1.0563966841408995e-06,
+      "loss": 0.105,
+      "step": 199
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.3643396297054275,
+      "learning_rate": 1.01682721771382e-06,
+      "loss": 0.1068,
+      "step": 200
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.748256984140405,
+      "learning_rate": 9.779290132826224e-07,
+      "loss": 0.0982,
+      "step": 201
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.1002077246395283,
+      "learning_rate": 9.397086261457511e-07,
+      "loss": 0.0965,
+      "step": 202
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.3037763559289313,
+      "learning_rate": 9.021724973728635e-07,
+      "loss": 0.0803,
+      "step": 203
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.0965564398397234,
+      "learning_rate": 8.65326952719357e-07,
+      "loss": 0.0748,
+      "step": 204
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.430591304874151,
+      "learning_rate": 8.291782015603179e-07,
+      "loss": 0.1115,
+      "step": 205
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.7302591205716953,
+      "learning_rate": 7.937323358440935e-07,
+      "loss": 0.0968,
+      "step": 206
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.6240062810600786,
+      "learning_rate": 7.589953290656532e-07,
+      "loss": 0.114,
+      "step": 207
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.4052338913405882,
+      "learning_rate": 7.249730352599e-07,
+      "loss": 0.1043,
+      "step": 208
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.7820062625725968,
+      "learning_rate": 6.916711880151305e-07,
+      "loss": 0.0901,
+      "step": 209
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.036250429182214,
+      "learning_rate": 6.590953995067812e-07,
+      "loss": 0.0932,
+      "step": 210
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.110206259838783,
+      "learning_rate": 6.2725115955164e-07,
+      "loss": 0.0822,
+      "step": 211
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 3.0827373747529974,
+      "learning_rate": 5.961438346826792e-07,
+      "loss": 0.1219,
+      "step": 212
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.8668110786072485,
+      "learning_rate": 5.65778667244663e-07,
+      "loss": 0.116,
+      "step": 213
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.0477287993223348,
+      "learning_rate": 5.361607745106817e-07,
+      "loss": 0.1488,
+      "step": 214
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.9561321808717205,
+      "learning_rate": 5.072951478197724e-07,
+      "loss": 0.0932,
+      "step": 215
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 1.4880379698135435,
+      "learning_rate": 4.791866517357491e-07,
+      "loss": 0.1097,
+      "step": 216
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.4837582117052135,
+      "learning_rate": 4.5184002322740784e-07,
+      "loss": 0.0912,
+      "step": 217
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.5405320246239511,
+      "learning_rate": 4.2525987087023433e-07,
+      "loss": 0.1065,
+      "step": 218
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.4937105341846908,
+      "learning_rate": 3.9945067406974067e-07,
+      "loss": 0.0915,
+      "step": 219
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.0053730665292278,
+      "learning_rate": 3.744167823065814e-07,
+      "loss": 0.0851,
+      "step": 220
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.3463744170298735,
+      "learning_rate": 3.501624144035559e-07,
+      "loss": 0.1078,
+      "step": 221
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.2647239350417823,
+      "learning_rate": 3.26691657814634e-07,
+      "loss": 0.0971,
+      "step": 222
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.1043158229878216,
+      "learning_rate": 3.040084679361255e-07,
+      "loss": 0.1074,
+      "step": 223
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.107018202718498,
+      "learning_rate": 2.821166674400905e-07,
+      "loss": 0.0835,
+      "step": 224
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.1009716136161012,
+      "learning_rate": 2.61019945630131e-07,
+      "loss": 0.0916,
+      "step": 225
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.5308286153863127,
+      "learning_rate": 2.407218578196524e-07,
+      "loss": 0.1076,
+      "step": 226
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.7695904780652243,
+      "learning_rate": 2.2122582473270594e-07,
+      "loss": 0.1103,
+      "step": 227
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.299916704792029,
+      "learning_rate": 2.0253513192751374e-07,
+      "loss": 0.1013,
+      "step": 228
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.1609671039591851,
+      "learning_rate": 1.8465292924276844e-07,
+      "loss": 0.0862,
+      "step": 229
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.9406847411935213,
+      "learning_rate": 1.6758223026681507e-07,
+      "loss": 0.1247,
+      "step": 230
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.866370344425198,
+      "learning_rate": 1.5132591182978107e-07,
+      "loss": 0.0955,
+      "step": 231
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.3797893428482713,
+      "learning_rate": 1.358867135187636e-07,
+      "loss": 0.0763,
+      "step": 232
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.8650541804898868,
+      "learning_rate": 1.2126723721614053e-07,
+      "loss": 0.0904,
+      "step": 233
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.0940408383692597,
+      "learning_rate": 1.0746994666109234e-07,
+      "loss": 0.094,
+      "step": 234
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.2353463252457115,
+      "learning_rate": 9.449716703439805e-08,
+      "loss": 0.0961,
+      "step": 235
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.6776872035949832,
+      "learning_rate": 8.235108456658814e-08,
+      "loss": 0.0986,
+      "step": 236
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.233002023476156,
+      "learning_rate": 7.103374616951042e-08,
+      "loss": 0.09,
+      "step": 237
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.104783569117549,
+      "learning_rate": 6.054705909137426e-08,
+      "loss": 0.0829,
+      "step": 238
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.2509290777988098,
+      "learning_rate": 5.089279059533658e-08,
+      "loss": 0.0946,
+      "step": 239
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.3409505325897908,
+      "learning_rate": 4.207256766166845e-08,
+      "loss": 0.0865,
+      "step": 240
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.0533010687205429,
+      "learning_rate": 3.408787671357494e-08,
+      "loss": 0.0967,
+      "step": 241
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.9576891858488944,
+      "learning_rate": 2.6940063366693303e-08,
+      "loss": 0.0799,
+      "step": 242
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.228844244285368,
+      "learning_rate": 2.063033220232491e-08,
+      "loss": 0.0964,
+      "step": 243
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.7283869545698372,
+      "learning_rate": 1.51597465644332e-08,
+      "loss": 0.102,
+      "step": 244
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.3058519752202367,
+      "learning_rate": 1.05292283804459e-08,
+      "loss": 0.0878,
+      "step": 245
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 2.3349695920779086,
+      "learning_rate": 6.739558005884883e-09,
+      "loss": 0.0885,
+      "step": 246
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.5557839680318728,
+      "learning_rate": 3.7913740928596785e-09,
+      "loss": 0.1166,
+      "step": 247
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.3874987367780471,
+      "learning_rate": 1.6851734824380184e-09,
+      "loss": 0.0826,
+      "step": 248
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.4820054406218206,
+      "learning_rate": 4.213111209155907e-10,
+      "loss": 0.09,
+      "step": 249
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.4849380629921385,
+      "learning_rate": 0.0,
+      "loss": 0.0985,
+      "step": 250
+    },
+    {
+      "epoch": 1.0,
+      "step": 250,
+      "total_flos": 13982405605376.0,
+      "train_loss": 0.12283433547616004,
+      "train_runtime": 759.7041,
+      "train_samples_per_second": 2.633,
+      "train_steps_per_second": 0.329
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "total_flos": 13982405605376.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c08d5f86c2cec6cc49db6a3247943eeba19769d7b17deff38102f7e4c2a0ab5c
+size 7864

llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-ov_AG_v5_3_split01_bash_fulltune/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff