Spaces:

Sleepyriizi
/

AI-Fake-detector

Running

App Files Files Community

Sleepyriizi commited on May 3

Commit

38e5a7e

1 Parent(s): 801bd57

final CAM layers fixed

Browse files

Files changed (4) hide show

app.py +30 -47
list_modules.py +61 -0
modules_SuSy_pt.txt +225 -0
modules_ai-image-detector-deploy.txt +579 -0

app.py CHANGED Viewed

@@ -1,12 +1,12 @@
 # app.py ────────────────────────────────────────────────────────────────
 """
 Two‑stage local AI‑image detector
-1. haywoodsloan/ai-image-detector-deploy  → Real vs AI         (Swin‑V2)
-2. SuSy.pt                                → Likely generator   (ViT base)
-Now with Grad‑CAM visualisation:
-    • Always show a heat‑map for the binary Real/AI decision
-    • If the image is marked AI, also show a heat‑map for SuSy’s generator vote
 """
 import gradio as gr
@@ -22,33 +22,30 @@ BIN_ID      = "haywoodsloan/ai-image-detector-deploy"
 bin_proc    = AutoImageProcessor.from_pretrained(BIN_ID)
 bin_model   = AutoModelForImageClassification.from_pretrained(BIN_ID)
 bin_model.eval()
-CAM_LAYER_BIN = "swinv2.layers.3.blocks.1.norm2"    # <-- was *.stages.7.*
 # ────────────  Stage‑2 model (SuSy)  ──────────────────────────────────
-susy_model   = torch.jit.load("SuSy.pt").eval()
 GEN_CLASSES  = [
     "Stable Diffusion 1.x", "DALL·E 3", "MJ V5/V6",
     "Stable Diffusion XL",  "MJ V1/V2",
 ]
-CAM_LAYER_SUSY = "blocks.11"
 PATCH, TOP = 224, 5
 # ────────────  Heat‑map helper  ───────────────────────────────────────
 def grad_cam_overlay(model, inputs, target_layer, class_idx, orig_pil):
-    """
-    • `inputs` is a dict or Tensor that the model can consume (grad‑req)
-    • returns a PIL image → orig overlaid with jet heat‑map (α 0.45)
-    """
-    device = next(model.parameters()).device
-    for k, v in (inputs.items() if isinstance(inputs, dict) else {"x": inputs}).items():
-        inputs[k] = v.to(device)
-    cam_ex = GradCAM(model, target_layer=target_layer, input_shape=next(iter(inputs.values())).shape)
     scores = model(**inputs).logits if isinstance(inputs, dict) else model(inputs)
-    score  = scores[0, class_idx]
-    score.backward()
     mask = cam_ex(class_idx)[0].cpu().numpy()
     mask = (mask - mask.min()) / (mask.max() - mask.min() + 1e-6)
     mask = Image.fromarray(np.uint8(plt.cm.jet(mask)[:, :, :3] * 255)).resize(orig_pil.size, Image.BICUBIC)
@@ -61,13 +58,12 @@ to_gray_pil   = transforms.Compose([transforms.PILToTensor(), transforms.Graysca
 def susy_predict(img: Image.Image) -> dict:
     w, h = img.size
     npx, npy = max(1, w // PATCH), max(1, h // PATCH)
     patches = np.zeros((npx * npy, PATCH, PATCH, 3), dtype=np.uint8)
     for i in range(npx):
         for j in range(npy):
             x, y = i * PATCH, j * PATCH
-            crop = img.crop((x, y, x + PATCH, y + PATCH)).resize((PATCH, PATCH))
-            patches[i * npy + j] = np.array(crop)
     contrasts = []
     for p in patches:
@@ -75,7 +71,7 @@ def susy_predict(img: Image.Image) -> dict:
         glcm = graycomatrix(g, [5], [0], 256, symmetric=True, normed=True)
         contrasts.append(graycoprops(glcm, "contrast")[0, 0])
-    idx = np.argsort(contrasts)[::-1][:TOP]
     tensor = torch.from_numpy(patches[idx].transpose(0, 3, 1, 2)).float() / 255.0
     with torch.no_grad():
@@ -93,11 +89,9 @@ def pipeline(img_arr):
         logits  = bin_model(**inp_bin).logits
         probs   = torch.softmax(logits, -1)[0].tolist()   # [artificial, real]
-    labels  = [bin_model.config.id2label[i] for i in range(len(probs))]
-    probs_d = dict(zip(labels, probs))
-    ai_conf, real_conf = probs_d.get("artificial", 0.0), probs_d.get("real", 0.0)
-    # Grad‑CAM for the winning class (0=AI, 1=Real)
     class_idx = 0 if ai_conf >= real_conf else 1
     heatmaps.append(
         grad_cam_overlay(
@@ -108,23 +102,22 @@ def pipeline(img_arr):
         )
     )
-    # Default outputs
-    msg      = f"Authentic ({real_conf*100:.1f} %)"
-    bar_df   = None
-    bar_vis  = False
-    # Stage‑2 only if AI wins
     if ai_conf > real_conf:
         msg = f"AI‑generated ({ai_conf*100:.1f} %)"
         gen_probs = susy_predict(img)
         bar_df  = pd.DataFrame({"class": gen_probs.keys(), "prob": gen_probs.values()})
         bar_vis = True
-        # SuSy heat‑map (take most‑probable generator class index +1 because SuSy logits include 'real')
         with torch.no_grad():
             t_inp = to_tensor(img.resize((224, 224))).unsqueeze(0)
-            susy_logits = susy_model(t_inp)
-        susy_class = susy_logits[0, 1:].argmax().item() + 1  # shift because idx 0 = 'real'
         heatmaps.append(
             grad_cam_overlay(
                 susy_model, t_inp,
@@ -134,12 +127,7 @@ def pipeline(img_arr):
             )
         )
-    # ➜ Three outputs for Gradio
-    return (
-        msg,
-        gr.update(value=bar_df, visible=bar_vis),
-        heatmaps
-    )
 # ────────────  Gradio UI  ─────────────────────────────────────────────
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
@@ -163,11 +151,6 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         columns=2, height=300, visible=True
     )
-    btn.click(
-        pipeline,
-        inputs=img_in,
-        outputs=[txt_bin, bar_gen, gal_cam]
-    )
 demo.launch()

 # app.py ────────────────────────────────────────────────────────────────
 """
 Two‑stage local AI‑image detector
+1. haywoodsloan/ai-image-detector-deploy  → Real vs AI         (Swin‑V2)
+2. SuSy.pt                                → Likely generator   (ResNet‑based)
+Includes Grad‑CAM overlays:
+    • always show heat‑map for binary decision
+    • if image is flagged AI, also show heat‑map for SuSy
 """
 import gradio as gr
 bin_proc    = AutoImageProcessor.from_pretrained(BIN_ID)
 bin_model   = AutoModelForImageClassification.from_pretrained(BIN_ID)
 bin_model.eval()
+CAM_LAYER_BIN  = "encoder.layers.3.blocks.1.layernorm_after"   # <- from dump
 # ────────────  Stage‑2 model (SuSy)  ──────────────────────────────────
+susy_model    = torch.jit.load("SuSy.pt").eval()
+CAM_LAYER_SUSY = "feature_extractor.resnet_model.layer4.1.relu"  # <- from dump
 GEN_CLASSES  = [
     "Stable Diffusion 1.x", "DALL·E 3", "MJ V5/V6",
     "Stable Diffusion XL",  "MJ V1/V2",
 ]
 PATCH, TOP = 224, 5
 # ────────────  Heat‑map helper  ───────────────────────────────────────
 def grad_cam_overlay(model, inputs, target_layer, class_idx, orig_pil):
+    # prepare Grad‑CAM extractor
+    cam_ex = GradCAM(model, target_layer=target_layer,
+                     input_shape=next(iter(inputs.values()) if isinstance(inputs, dict) else [inputs]).shape)
+    # forward & backward
     scores = model(**inputs).logits if isinstance(inputs, dict) else model(inputs)
+    scores[0, class_idx].backward()
+    # normalise cam
     mask = cam_ex(class_idx)[0].cpu().numpy()
     mask = (mask - mask.min()) / (mask.max() - mask.min() + 1e-6)
     mask = Image.fromarray(np.uint8(plt.cm.jet(mask)[:, :, :3] * 255)).resize(orig_pil.size, Image.BICUBIC)
 def susy_predict(img: Image.Image) -> dict:
     w, h = img.size
     npx, npy = max(1, w // PATCH), max(1, h // PATCH)
     patches = np.zeros((npx * npy, PATCH, PATCH, 3), dtype=np.uint8)
     for i in range(npx):
         for j in range(npy):
             x, y = i * PATCH, j * PATCH
+            patches[i * npy + j] = np.array(img.crop((x, y, x + PATCH, y + PATCH)).resize((PATCH, PATCH)))
     contrasts = []
     for p in patches:
         glcm = graycomatrix(g, [5], [0], 256, symmetric=True, normed=True)
         contrasts.append(graycoprops(glcm, "contrast")[0, 0])
+    idx    = np.argsort(contrasts)[::-1][:TOP]
     tensor = torch.from_numpy(patches[idx].transpose(0, 3, 1, 2)).float() / 255.0
     with torch.no_grad():
         logits  = bin_model(**inp_bin).logits
         probs   = torch.softmax(logits, -1)[0].tolist()   # [artificial, real]
+    ai_conf, real_conf = probs[0], probs[1]
+    # Grad‑CAM for winning class
     class_idx = 0 if ai_conf >= real_conf else 1
     heatmaps.append(
         grad_cam_overlay(
         )
     )
+    # defaults
+    msg, bar_df, bar_vis = f"Authentic ({real_conf*100:.1f} %)", None, False
+    # Stage‑2 if AI
     if ai_conf > real_conf:
         msg = f"AI‑generated ({ai_conf*100:.1f} %)"
         gen_probs = susy_predict(img)
         bar_df  = pd.DataFrame({"class": gen_probs.keys(), "prob": gen_probs.values()})
         bar_vis = True
+        # SuSy heat‑map: choose most‑probable generator class
         with torch.no_grad():
             t_inp = to_tensor(img.resize((224, 224))).unsqueeze(0)
+            logits_susy = susy_model(t_inp)
+        susy_class = logits_susy[0, 1:].argmax().item() + 1  # skip 'real'
         heatmaps.append(
             grad_cam_overlay(
                 susy_model, t_inp,
             )
         )
+    return msg, gr.update(value=bar_df, visible=bar_vis), heatmaps
 # ────────────  Gradio UI  ─────────────────────────────────────────────
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
         columns=2, height=300, visible=True
     )
+    btn.click(pipeline, inputs=img_in, outputs=[txt_bin, bar_gen, gal_cam])
 demo.launch()

list_modules.py ADDED Viewed

	@@ -0,0 +1,61 @@

+#!/usr/bin/env python
+"""
+list_modules.py
+────────────────────────────────────────────────────────────
+Print (and optionally save) the dotted names of **all** sub‑modules
+inside a PyTorch model.  Handy for locating the correct layer name
+for Grad‑CAM, feature hooks, etc.
+USAGE
+-----
+edit MODEL_SOURCE and MODEL_TYPE below, then:
+    python list_modules.py
+Outputs:
+    • console  – first `LIMIT` names (to keep logs short)
+    • file     – full list written to `modules_<model>.txt`
+"""
+from __future__ import annotations
+import torch, argparse, pathlib, sys
+from transformers import AutoModel
+# ──────────────  CONFIG  ───────────────────────────────────────────────
+MODEL_SOURCE = "haywoodsloan/ai-image-detector-deploy"
+MODEL_TYPE   = "huggingface"
+LIMIT        = 2000                  # how many lines to print to stdout (None = all)
+# ───────────────────────────────────────────────────────────────────────
+def load_model(src: str, src_type: str):
+    if src_type == "huggingface":
+        model = AutoModel.from_pretrained(src)
+    elif src_type == "torchscript":
+        model = torch.jit.load(src)
+    else:
+        raise ValueError("MODEL_TYPE must be 'huggingface' or 'torchscript'")
+    model.eval()
+    return model
+def dump_module_names(model: torch.nn.Module,
+                      out_file: pathlib.Path,
+                      limit: int | None = None):
+    names = [n for n, _ in model.named_modules()]  # includes root '' at idx 0
+    total = len(names)
+    print(f"\n▶ total {total} sub‑modules found\n")
+    for idx, name in enumerate(names):
+        if limit is None or idx < limit:
+            print(f"{idx:4d}: {name}")
+    out_file.write_text("\n".join(names), encoding="utf‑8")
+    print(f"\n▶ wrote full list to {out_file}")
+def main():
+    model = load_model(MODEL_SOURCE, MODEL_TYPE)
+    txt_path = pathlib.Path(f"modules_{MODEL_SOURCE.split('/')[-1].replace('.','_')}.txt")
+    dump_module_names(model, txt_path, LIMIT)
+if __name__ == "__main__":
+    main()

modules_SuSy_pt.txt ADDED Viewed

	@@ -0,0 +1,225 @@

+feature_extractor
+feature_extractor.resnet_model
+feature_extractor.resnet_model.conv1
+feature_extractor.resnet_model.bn1
+feature_extractor.resnet_model.relu
+feature_extractor.resnet_model.maxpool
+feature_extractor.resnet_model.layer1
+feature_extractor.resnet_model.layer1.0
+feature_extractor.resnet_model.layer1.0.conv1
+feature_extractor.resnet_model.layer1.0.bn1
+feature_extractor.resnet_model.layer1.0.relu
+feature_extractor.resnet_model.layer1.0.conv2
+feature_extractor.resnet_model.layer1.0.bn2
+feature_extractor.resnet_model.layer1.1
+feature_extractor.resnet_model.layer1.1.conv1
+feature_extractor.resnet_model.layer1.1.bn1
+feature_extractor.resnet_model.layer1.1.relu
+feature_extractor.resnet_model.layer1.1.conv2
+feature_extractor.resnet_model.layer1.1.bn2
+feature_extractor.resnet_model.layer2
+feature_extractor.resnet_model.layer2.0
+feature_extractor.resnet_model.layer2.0.conv1
+feature_extractor.resnet_model.layer2.0.bn1
+feature_extractor.resnet_model.layer2.0.relu
+feature_extractor.resnet_model.layer2.0.conv2
+feature_extractor.resnet_model.layer2.0.bn2
+feature_extractor.resnet_model.layer2.0.downsample
+feature_extractor.resnet_model.layer2.0.downsample.0
+feature_extractor.resnet_model.layer2.0.downsample.1
+feature_extractor.resnet_model.layer2.1
+feature_extractor.resnet_model.layer2.1.conv1
+feature_extractor.resnet_model.layer2.1.bn1
+feature_extractor.resnet_model.layer2.1.relu
+feature_extractor.resnet_model.layer2.1.conv2
+feature_extractor.resnet_model.layer2.1.bn2
+feature_extractor.resnet_model.layer3
+feature_extractor.resnet_model.layer3.0
+feature_extractor.resnet_model.layer3.0.conv1
+feature_extractor.resnet_model.layer3.0.bn1
+feature_extractor.resnet_model.layer3.0.relu
+feature_extractor.resnet_model.layer3.0.conv2
+feature_extractor.resnet_model.layer3.0.bn2
+feature_extractor.resnet_model.layer3.0.downsample
+feature_extractor.resnet_model.layer3.0.downsample.0
+feature_extractor.resnet_model.layer3.0.downsample.1
+feature_extractor.resnet_model.layer3.1
+feature_extractor.resnet_model.layer3.1.conv1
+feature_extractor.resnet_model.layer3.1.bn1
+feature_extractor.resnet_model.layer3.1.relu
+feature_extractor.resnet_model.layer3.1.conv2
+feature_extractor.resnet_model.layer3.1.bn2
+feature_extractor.resnet_model.layer4
+feature_extractor.resnet_model.layer4.0
+feature_extractor.resnet_model.layer4.0.conv1
+feature_extractor.resnet_model.layer4.0.bn1
+feature_extractor.resnet_model.layer4.0.relu
+feature_extractor.resnet_model.layer4.0.conv2
+feature_extractor.resnet_model.layer4.0.bn2
+feature_extractor.resnet_model.layer4.0.downsample
+feature_extractor.resnet_model.layer4.0.downsample.0
+feature_extractor.resnet_model.layer4.0.downsample.1
+feature_extractor.resnet_model.layer4.1
+feature_extractor.resnet_model.layer4.1.conv1
+feature_extractor.resnet_model.layer4.1.bn1
+feature_extractor.resnet_model.layer4.1.relu
+feature_extractor.resnet_model.layer4.1.conv2
+feature_extractor.resnet_model.layer4.1.bn2
+feature_extractor.resnet_model.avgpool
+feature_extractor.resnet_model.fc
+feature_extractor.stages
+feature_extractor.stages.0
+feature_extractor.stages.0.0
+feature_extractor.stages.0.1
+feature_extractor.stages.0.2
+feature_extractor.stages.0.3
+feature_extractor.stages.1
+feature_extractor.stages.1.0
+feature_extractor.stages.1.0.conv1
+feature_extractor.stages.1.0.bn1
+feature_extractor.stages.1.0.relu
+feature_extractor.stages.1.0.conv2
+feature_extractor.stages.1.0.bn2
+feature_extractor.stages.1.1
+feature_extractor.stages.1.1.conv1
+feature_extractor.stages.1.1.bn1
+feature_extractor.stages.1.1.relu
+feature_extractor.stages.1.1.conv2
+feature_extractor.stages.1.1.bn2
+feature_extractor.stages.2
+feature_extractor.stages.2.0
+feature_extractor.stages.2.0.conv1
+feature_extractor.stages.2.0.bn1
+feature_extractor.stages.2.0.relu
+feature_extractor.stages.2.0.conv2
+feature_extractor.stages.2.0.bn2
+feature_extractor.stages.2.0.downsample
+feature_extractor.stages.2.0.downsample.0
+feature_extractor.stages.2.0.downsample.1
+feature_extractor.stages.2.1
+feature_extractor.stages.2.1.conv1
+feature_extractor.stages.2.1.bn1
+feature_extractor.stages.2.1.relu
+feature_extractor.stages.2.1.conv2
+feature_extractor.stages.2.1.bn2
+feature_extractor.stages.3
+feature_extractor.stages.3.0
+feature_extractor.stages.3.0.conv1
+feature_extractor.stages.3.0.bn1
+feature_extractor.stages.3.0.relu
+feature_extractor.stages.3.0.conv2
+feature_extractor.stages.3.0.bn2
+feature_extractor.stages.3.0.downsample
+feature_extractor.stages.3.0.downsample.0
+feature_extractor.stages.3.0.downsample.1
+feature_extractor.stages.3.1
+feature_extractor.stages.3.1.conv1
+feature_extractor.stages.3.1.bn1
+feature_extractor.stages.3.1.relu
+feature_extractor.stages.3.1.conv2
+feature_extractor.stages.3.1.bn2
+feature_extractor.stages.4
+feature_extractor.stages.4.0
+feature_extractor.stages.4.0.conv1
+feature_extractor.stages.4.0.bn1
+feature_extractor.stages.4.0.relu
+feature_extractor.stages.4.0.conv2
+feature_extractor.stages.4.0.bn2
+feature_extractor.stages.4.0.downsample
+feature_extractor.stages.4.0.downsample.0
+feature_extractor.stages.4.0.downsample.1
+feature_extractor.stages.4.1
+feature_extractor.stages.4.1.conv1
+feature_extractor.stages.4.1.bn1
+feature_extractor.stages.4.1.relu
+feature_extractor.stages.4.1.conv2
+feature_extractor.stages.4.1.bn2
+feature_extractor.f11
+feature_extractor.f11.0
+feature_extractor.f11.1
+feature_extractor.f11.2
+feature_extractor.f12
+feature_extractor.f12.0
+feature_extractor.f12.1
+feature_extractor.f12.2
+feature_extractor.f22
+feature_extractor.f22.0
+feature_extractor.f22.1
+feature_extractor.f22.2
+feature_extractor.f13
+feature_extractor.f13.0
+feature_extractor.f13.1
+feature_extractor.f13.2
+feature_extractor.f23
+feature_extractor.f23.0
+feature_extractor.f23.1
+feature_extractor.f23.2
+feature_extractor.f33
+feature_extractor.f33.0
+feature_extractor.f33.1
+feature_extractor.f33.2
+feature_extractor.f14
+feature_extractor.f14.0
+feature_extractor.f14.1
+feature_extractor.f14.2
+feature_extractor.f24
+feature_extractor.f24.0
+feature_extractor.f24.1
+feature_extractor.f24.2
+feature_extractor.f34
+feature_extractor.f34.0
+feature_extractor.f34.1
+feature_extractor.f34.2
+feature_extractor.f44
+feature_extractor.f44.0
+feature_extractor.f44.1
+feature_extractor.f44.2
+feature_extractor.bottlenecks
+feature_extractor.bottlenecks.0
+feature_extractor.bottlenecks.0.0
+feature_extractor.bottlenecks.0.1
+feature_extractor.bottlenecks.0.2
+feature_extractor.bottlenecks.1
+feature_extractor.bottlenecks.1.0
+feature_extractor.bottlenecks.1.1
+feature_extractor.bottlenecks.1.2
+feature_extractor.bottlenecks.2
+feature_extractor.bottlenecks.2.0
+feature_extractor.bottlenecks.2.1
+feature_extractor.bottlenecks.2.2
+feature_extractor.bottlenecks.3
+feature_extractor.bottlenecks.3.0
+feature_extractor.bottlenecks.3.1
+feature_extractor.bottlenecks.3.2
+feature_extractor.bottlenecks.4
+feature_extractor.bottlenecks.4.0
+feature_extractor.bottlenecks.4.1
+feature_extractor.bottlenecks.4.2
+feature_extractor.bottlenecks.5
+feature_extractor.bottlenecks.5.0
+feature_extractor.bottlenecks.5.1
+feature_extractor.bottlenecks.5.2
+feature_extractor.bottlenecks.6
+feature_extractor.bottlenecks.6.0
+feature_extractor.bottlenecks.6.1
+feature_extractor.bottlenecks.6.2
+feature_extractor.bottlenecks.7
+feature_extractor.bottlenecks.7.0
+feature_extractor.bottlenecks.7.1
+feature_extractor.bottlenecks.7.2
+feature_extractor.bottlenecks.8
+feature_extractor.bottlenecks.8.0
+feature_extractor.bottlenecks.8.1
+feature_extractor.bottlenecks.8.2
+feature_extractor.bottlenecks.9
+feature_extractor.bottlenecks.9.0
+feature_extractor.bottlenecks.9.1
+feature_extractor.bottlenecks.9.2
+feature_extractor.gap
+mlp
+mlp.fc1
+mlp.fc2
+mlp.fc3
+mlp.dropout
+softmax

modules_ai-image-detector-deploy.txt ADDED Viewed

	@@ -0,0 +1,579 @@

+embeddings
+embeddings.patch_embeddings
+embeddings.patch_embeddings.projection
+embeddings.norm
+embeddings.dropout
+encoder
+encoder.layers
+encoder.layers.0
+encoder.layers.0.blocks
+encoder.layers.0.blocks.0
+encoder.layers.0.blocks.0.attention
+encoder.layers.0.blocks.0.attention.self
+encoder.layers.0.blocks.0.attention.self.continuous_position_bias_mlp
+encoder.layers.0.blocks.0.attention.self.continuous_position_bias_mlp.0
+encoder.layers.0.blocks.0.attention.self.continuous_position_bias_mlp.1
+encoder.layers.0.blocks.0.attention.self.continuous_position_bias_mlp.2
+encoder.layers.0.blocks.0.attention.self.query
+encoder.layers.0.blocks.0.attention.self.key
+encoder.layers.0.blocks.0.attention.self.value
+encoder.layers.0.blocks.0.attention.self.dropout
+encoder.layers.0.blocks.0.attention.output
+encoder.layers.0.blocks.0.attention.output.dense
+encoder.layers.0.blocks.0.attention.output.dropout
+encoder.layers.0.blocks.0.layernorm_before
+encoder.layers.0.blocks.0.drop_path
+encoder.layers.0.blocks.0.intermediate
+encoder.layers.0.blocks.0.intermediate.dense
+encoder.layers.0.blocks.0.intermediate.intermediate_act_fn
+encoder.layers.0.blocks.0.output
+encoder.layers.0.blocks.0.output.dense
+encoder.layers.0.blocks.0.output.dropout
+encoder.layers.0.blocks.0.layernorm_after
+encoder.layers.0.blocks.1
+encoder.layers.0.blocks.1.attention
+encoder.layers.0.blocks.1.attention.self
+encoder.layers.0.blocks.1.attention.self.continuous_position_bias_mlp
+encoder.layers.0.blocks.1.attention.self.continuous_position_bias_mlp.0
+encoder.layers.0.blocks.1.attention.self.continuous_position_bias_mlp.1
+encoder.layers.0.blocks.1.attention.self.continuous_position_bias_mlp.2
+encoder.layers.0.blocks.1.attention.self.query
+encoder.layers.0.blocks.1.attention.self.key
+encoder.layers.0.blocks.1.attention.self.value
+encoder.layers.0.blocks.1.attention.self.dropout
+encoder.layers.0.blocks.1.attention.output
+encoder.layers.0.blocks.1.attention.output.dense
+encoder.layers.0.blocks.1.attention.output.dropout
+encoder.layers.0.blocks.1.layernorm_before
+encoder.layers.0.blocks.1.drop_path
+encoder.layers.0.blocks.1.intermediate
+encoder.layers.0.blocks.1.intermediate.dense
+encoder.layers.0.blocks.1.intermediate.intermediate_act_fn
+encoder.layers.0.blocks.1.output
+encoder.layers.0.blocks.1.output.dense
+encoder.layers.0.blocks.1.output.dropout
+encoder.layers.0.blocks.1.layernorm_after
+encoder.layers.0.downsample
+encoder.layers.0.downsample.reduction
+encoder.layers.0.downsample.norm
+encoder.layers.1
+encoder.layers.1.blocks
+encoder.layers.1.blocks.0
+encoder.layers.1.blocks.0.attention
+encoder.layers.1.blocks.0.attention.self
+encoder.layers.1.blocks.0.attention.self.continuous_position_bias_mlp
+encoder.layers.1.blocks.0.attention.self.continuous_position_bias_mlp.0
+encoder.layers.1.blocks.0.attention.self.continuous_position_bias_mlp.1
+encoder.layers.1.blocks.0.attention.self.continuous_position_bias_mlp.2
+encoder.layers.1.blocks.0.attention.self.query
+encoder.layers.1.blocks.0.attention.self.key
+encoder.layers.1.blocks.0.attention.self.value
+encoder.layers.1.blocks.0.attention.self.dropout
+encoder.layers.1.blocks.0.attention.output
+encoder.layers.1.blocks.0.attention.output.dense
+encoder.layers.1.blocks.0.attention.output.dropout
+encoder.layers.1.blocks.0.layernorm_before
+encoder.layers.1.blocks.0.drop_path
+encoder.layers.1.blocks.0.intermediate
+encoder.layers.1.blocks.0.intermediate.dense
+encoder.layers.1.blocks.0.intermediate.intermediate_act_fn
+encoder.layers.1.blocks.0.output
+encoder.layers.1.blocks.0.output.dense
+encoder.layers.1.blocks.0.output.dropout
+encoder.layers.1.blocks.0.layernorm_after
+encoder.layers.1.blocks.1
+encoder.layers.1.blocks.1.attention
+encoder.layers.1.blocks.1.attention.self
+encoder.layers.1.blocks.1.attention.self.continuous_position_bias_mlp
+encoder.layers.1.blocks.1.attention.self.continuous_position_bias_mlp.0
+encoder.layers.1.blocks.1.attention.self.continuous_position_bias_mlp.1
+encoder.layers.1.blocks.1.attention.self.continuous_position_bias_mlp.2
+encoder.layers.1.blocks.1.attention.self.query
+encoder.layers.1.blocks.1.attention.self.key
+encoder.layers.1.blocks.1.attention.self.value
+encoder.layers.1.blocks.1.attention.self.dropout
+encoder.layers.1.blocks.1.attention.output
+encoder.layers.1.blocks.1.attention.output.dense
+encoder.layers.1.blocks.1.attention.output.dropout
+encoder.layers.1.blocks.1.layernorm_before
+encoder.layers.1.blocks.1.drop_path
+encoder.layers.1.blocks.1.intermediate
+encoder.layers.1.blocks.1.intermediate.dense
+encoder.layers.1.blocks.1.intermediate.intermediate_act_fn
+encoder.layers.1.blocks.1.output
+encoder.layers.1.blocks.1.output.dense
+encoder.layers.1.blocks.1.output.dropout
+encoder.layers.1.blocks.1.layernorm_after
+encoder.layers.1.downsample
+encoder.layers.1.downsample.reduction
+encoder.layers.1.downsample.norm
+encoder.layers.2
+encoder.layers.2.blocks
+encoder.layers.2.blocks.0
+encoder.layers.2.blocks.0.attention
+encoder.layers.2.blocks.0.attention.self
+encoder.layers.2.blocks.0.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.0.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.0.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.0.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.0.attention.self.query
+encoder.layers.2.blocks.0.attention.self.key
+encoder.layers.2.blocks.0.attention.self.value
+encoder.layers.2.blocks.0.attention.self.dropout
+encoder.layers.2.blocks.0.attention.output
+encoder.layers.2.blocks.0.attention.output.dense
+encoder.layers.2.blocks.0.attention.output.dropout
+encoder.layers.2.blocks.0.layernorm_before
+encoder.layers.2.blocks.0.drop_path
+encoder.layers.2.blocks.0.intermediate
+encoder.layers.2.blocks.0.intermediate.dense
+encoder.layers.2.blocks.0.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.0.output
+encoder.layers.2.blocks.0.output.dense
+encoder.layers.2.blocks.0.output.dropout
+encoder.layers.2.blocks.0.layernorm_after
+encoder.layers.2.blocks.1
+encoder.layers.2.blocks.1.attention
+encoder.layers.2.blocks.1.attention.self
+encoder.layers.2.blocks.1.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.1.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.1.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.1.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.1.attention.self.query
+encoder.layers.2.blocks.1.attention.self.key
+encoder.layers.2.blocks.1.attention.self.value
+encoder.layers.2.blocks.1.attention.self.dropout
+encoder.layers.2.blocks.1.attention.output
+encoder.layers.2.blocks.1.attention.output.dense
+encoder.layers.2.blocks.1.attention.output.dropout
+encoder.layers.2.blocks.1.layernorm_before
+encoder.layers.2.blocks.1.drop_path
+encoder.layers.2.blocks.1.intermediate
+encoder.layers.2.blocks.1.intermediate.dense
+encoder.layers.2.blocks.1.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.1.output
+encoder.layers.2.blocks.1.output.dense
+encoder.layers.2.blocks.1.output.dropout
+encoder.layers.2.blocks.1.layernorm_after
+encoder.layers.2.blocks.2
+encoder.layers.2.blocks.2.attention
+encoder.layers.2.blocks.2.attention.self
+encoder.layers.2.blocks.2.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.2.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.2.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.2.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.2.attention.self.query
+encoder.layers.2.blocks.2.attention.self.key
+encoder.layers.2.blocks.2.attention.self.value
+encoder.layers.2.blocks.2.attention.self.dropout
+encoder.layers.2.blocks.2.attention.output
+encoder.layers.2.blocks.2.attention.output.dense
+encoder.layers.2.blocks.2.attention.output.dropout
+encoder.layers.2.blocks.2.layernorm_before
+encoder.layers.2.blocks.2.drop_path
+encoder.layers.2.blocks.2.intermediate
+encoder.layers.2.blocks.2.intermediate.dense
+encoder.layers.2.blocks.2.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.2.output
+encoder.layers.2.blocks.2.output.dense
+encoder.layers.2.blocks.2.output.dropout
+encoder.layers.2.blocks.2.layernorm_after
+encoder.layers.2.blocks.3
+encoder.layers.2.blocks.3.attention
+encoder.layers.2.blocks.3.attention.self
+encoder.layers.2.blocks.3.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.3.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.3.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.3.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.3.attention.self.query
+encoder.layers.2.blocks.3.attention.self.key
+encoder.layers.2.blocks.3.attention.self.value
+encoder.layers.2.blocks.3.attention.self.dropout
+encoder.layers.2.blocks.3.attention.output
+encoder.layers.2.blocks.3.attention.output.dense
+encoder.layers.2.blocks.3.attention.output.dropout
+encoder.layers.2.blocks.3.layernorm_before
+encoder.layers.2.blocks.3.drop_path
+encoder.layers.2.blocks.3.intermediate
+encoder.layers.2.blocks.3.intermediate.dense
+encoder.layers.2.blocks.3.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.3.output
+encoder.layers.2.blocks.3.output.dense
+encoder.layers.2.blocks.3.output.dropout
+encoder.layers.2.blocks.3.layernorm_after
+encoder.layers.2.blocks.4
+encoder.layers.2.blocks.4.attention
+encoder.layers.2.blocks.4.attention.self
+encoder.layers.2.blocks.4.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.4.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.4.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.4.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.4.attention.self.query
+encoder.layers.2.blocks.4.attention.self.key
+encoder.layers.2.blocks.4.attention.self.value
+encoder.layers.2.blocks.4.attention.self.dropout
+encoder.layers.2.blocks.4.attention.output
+encoder.layers.2.blocks.4.attention.output.dense
+encoder.layers.2.blocks.4.attention.output.dropout
+encoder.layers.2.blocks.4.layernorm_before
+encoder.layers.2.blocks.4.drop_path
+encoder.layers.2.blocks.4.intermediate
+encoder.layers.2.blocks.4.intermediate.dense
+encoder.layers.2.blocks.4.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.4.output
+encoder.layers.2.blocks.4.output.dense
+encoder.layers.2.blocks.4.output.dropout
+encoder.layers.2.blocks.4.layernorm_after
+encoder.layers.2.blocks.5
+encoder.layers.2.blocks.5.attention
+encoder.layers.2.blocks.5.attention.self
+encoder.layers.2.blocks.5.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.5.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.5.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.5.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.5.attention.self.query
+encoder.layers.2.blocks.5.attention.self.key
+encoder.layers.2.blocks.5.attention.self.value
+encoder.layers.2.blocks.5.attention.self.dropout
+encoder.layers.2.blocks.5.attention.output
+encoder.layers.2.blocks.5.attention.output.dense
+encoder.layers.2.blocks.5.attention.output.dropout
+encoder.layers.2.blocks.5.layernorm_before
+encoder.layers.2.blocks.5.drop_path
+encoder.layers.2.blocks.5.intermediate
+encoder.layers.2.blocks.5.intermediate.dense
+encoder.layers.2.blocks.5.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.5.output
+encoder.layers.2.blocks.5.output.dense
+encoder.layers.2.blocks.5.output.dropout
+encoder.layers.2.blocks.5.layernorm_after
+encoder.layers.2.blocks.6
+encoder.layers.2.blocks.6.attention
+encoder.layers.2.blocks.6.attention.self
+encoder.layers.2.blocks.6.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.6.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.6.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.6.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.6.attention.self.query
+encoder.layers.2.blocks.6.attention.self.key
+encoder.layers.2.blocks.6.attention.self.value
+encoder.layers.2.blocks.6.attention.self.dropout
+encoder.layers.2.blocks.6.attention.output
+encoder.layers.2.blocks.6.attention.output.dense
+encoder.layers.2.blocks.6.attention.output.dropout
+encoder.layers.2.blocks.6.layernorm_before
+encoder.layers.2.blocks.6.drop_path
+encoder.layers.2.blocks.6.intermediate
+encoder.layers.2.blocks.6.intermediate.dense
+encoder.layers.2.blocks.6.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.6.output
+encoder.layers.2.blocks.6.output.dense
+encoder.layers.2.blocks.6.output.dropout
+encoder.layers.2.blocks.6.layernorm_after
+encoder.layers.2.blocks.7
+encoder.layers.2.blocks.7.attention
+encoder.layers.2.blocks.7.attention.self
+encoder.layers.2.blocks.7.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.7.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.7.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.7.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.7.attention.self.query
+encoder.layers.2.blocks.7.attention.self.key
+encoder.layers.2.blocks.7.attention.self.value
+encoder.layers.2.blocks.7.attention.self.dropout
+encoder.layers.2.blocks.7.attention.output
+encoder.layers.2.blocks.7.attention.output.dense
+encoder.layers.2.blocks.7.attention.output.dropout
+encoder.layers.2.blocks.7.layernorm_before
+encoder.layers.2.blocks.7.drop_path
+encoder.layers.2.blocks.7.intermediate
+encoder.layers.2.blocks.7.intermediate.dense
+encoder.layers.2.blocks.7.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.7.output
+encoder.layers.2.blocks.7.output.dense
+encoder.layers.2.blocks.7.output.dropout
+encoder.layers.2.blocks.7.layernorm_after
+encoder.layers.2.blocks.8
+encoder.layers.2.blocks.8.attention
+encoder.layers.2.blocks.8.attention.self
+encoder.layers.2.blocks.8.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.8.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.8.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.8.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.8.attention.self.query
+encoder.layers.2.blocks.8.attention.self.key
+encoder.layers.2.blocks.8.attention.self.value
+encoder.layers.2.blocks.8.attention.self.dropout
+encoder.layers.2.blocks.8.attention.output
+encoder.layers.2.blocks.8.attention.output.dense
+encoder.layers.2.blocks.8.attention.output.dropout
+encoder.layers.2.blocks.8.layernorm_before
+encoder.layers.2.blocks.8.drop_path
+encoder.layers.2.blocks.8.intermediate
+encoder.layers.2.blocks.8.intermediate.dense
+encoder.layers.2.blocks.8.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.8.output
+encoder.layers.2.blocks.8.output.dense
+encoder.layers.2.blocks.8.output.dropout
+encoder.layers.2.blocks.8.layernorm_after
+encoder.layers.2.blocks.9
+encoder.layers.2.blocks.9.attention
+encoder.layers.2.blocks.9.attention.self
+encoder.layers.2.blocks.9.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.9.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.9.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.9.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.9.attention.self.query
+encoder.layers.2.blocks.9.attention.self.key
+encoder.layers.2.blocks.9.attention.self.value
+encoder.layers.2.blocks.9.attention.self.dropout
+encoder.layers.2.blocks.9.attention.output
+encoder.layers.2.blocks.9.attention.output.dense
+encoder.layers.2.blocks.9.attention.output.dropout
+encoder.layers.2.blocks.9.layernorm_before
+encoder.layers.2.blocks.9.drop_path
+encoder.layers.2.blocks.9.intermediate
+encoder.layers.2.blocks.9.intermediate.dense
+encoder.layers.2.blocks.9.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.9.output
+encoder.layers.2.blocks.9.output.dense
+encoder.layers.2.blocks.9.output.dropout
+encoder.layers.2.blocks.9.layernorm_after
+encoder.layers.2.blocks.10
+encoder.layers.2.blocks.10.attention
+encoder.layers.2.blocks.10.attention.self
+encoder.layers.2.blocks.10.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.10.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.10.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.10.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.10.attention.self.query
+encoder.layers.2.blocks.10.attention.self.key
+encoder.layers.2.blocks.10.attention.self.value
+encoder.layers.2.blocks.10.attention.self.dropout
+encoder.layers.2.blocks.10.attention.output
+encoder.layers.2.blocks.10.attention.output.dense
+encoder.layers.2.blocks.10.attention.output.dropout
+encoder.layers.2.blocks.10.layernorm_before
+encoder.layers.2.blocks.10.drop_path
+encoder.layers.2.blocks.10.intermediate
+encoder.layers.2.blocks.10.intermediate.dense
+encoder.layers.2.blocks.10.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.10.output
+encoder.layers.2.blocks.10.output.dense
+encoder.layers.2.blocks.10.output.dropout
+encoder.layers.2.blocks.10.layernorm_after
+encoder.layers.2.blocks.11
+encoder.layers.2.blocks.11.attention
+encoder.layers.2.blocks.11.attention.self
+encoder.layers.2.blocks.11.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.11.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.11.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.11.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.11.attention.self.query
+encoder.layers.2.blocks.11.attention.self.key
+encoder.layers.2.blocks.11.attention.self.value
+encoder.layers.2.blocks.11.attention.self.dropout
+encoder.layers.2.blocks.11.attention.output
+encoder.layers.2.blocks.11.attention.output.dense
+encoder.layers.2.blocks.11.attention.output.dropout
+encoder.layers.2.blocks.11.layernorm_before
+encoder.layers.2.blocks.11.drop_path
+encoder.layers.2.blocks.11.intermediate
+encoder.layers.2.blocks.11.intermediate.dense
+encoder.layers.2.blocks.11.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.11.output
+encoder.layers.2.blocks.11.output.dense
+encoder.layers.2.blocks.11.output.dropout
+encoder.layers.2.blocks.11.layernorm_after
+encoder.layers.2.blocks.12
+encoder.layers.2.blocks.12.attention
+encoder.layers.2.blocks.12.attention.self
+encoder.layers.2.blocks.12.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.12.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.12.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.12.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.12.attention.self.query
+encoder.layers.2.blocks.12.attention.self.key
+encoder.layers.2.blocks.12.attention.self.value
+encoder.layers.2.blocks.12.attention.self.dropout
+encoder.layers.2.blocks.12.attention.output
+encoder.layers.2.blocks.12.attention.output.dense
+encoder.layers.2.blocks.12.attention.output.dropout
+encoder.layers.2.blocks.12.layernorm_before
+encoder.layers.2.blocks.12.drop_path
+encoder.layers.2.blocks.12.intermediate
+encoder.layers.2.blocks.12.intermediate.dense
+encoder.layers.2.blocks.12.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.12.output
+encoder.layers.2.blocks.12.output.dense
+encoder.layers.2.blocks.12.output.dropout
+encoder.layers.2.blocks.12.layernorm_after
+encoder.layers.2.blocks.13
+encoder.layers.2.blocks.13.attention
+encoder.layers.2.blocks.13.attention.self
+encoder.layers.2.blocks.13.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.13.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.13.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.13.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.13.attention.self.query
+encoder.layers.2.blocks.13.attention.self.key
+encoder.layers.2.blocks.13.attention.self.value
+encoder.layers.2.blocks.13.attention.self.dropout
+encoder.layers.2.blocks.13.attention.output
+encoder.layers.2.blocks.13.attention.output.dense
+encoder.layers.2.blocks.13.attention.output.dropout
+encoder.layers.2.blocks.13.layernorm_before
+encoder.layers.2.blocks.13.drop_path
+encoder.layers.2.blocks.13.intermediate
+encoder.layers.2.blocks.13.intermediate.dense
+encoder.layers.2.blocks.13.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.13.output
+encoder.layers.2.blocks.13.output.dense
+encoder.layers.2.blocks.13.output.dropout
+encoder.layers.2.blocks.13.layernorm_after
+encoder.layers.2.blocks.14
+encoder.layers.2.blocks.14.attention
+encoder.layers.2.blocks.14.attention.self
+encoder.layers.2.blocks.14.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.14.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.14.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.14.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.14.attention.self.query
+encoder.layers.2.blocks.14.attention.self.key
+encoder.layers.2.blocks.14.attention.self.value
+encoder.layers.2.blocks.14.attention.self.dropout
+encoder.layers.2.blocks.14.attention.output
+encoder.layers.2.blocks.14.attention.output.dense
+encoder.layers.2.blocks.14.attention.output.dropout
+encoder.layers.2.blocks.14.layernorm_before
+encoder.layers.2.blocks.14.drop_path
+encoder.layers.2.blocks.14.intermediate
+encoder.layers.2.blocks.14.intermediate.dense
+encoder.layers.2.blocks.14.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.14.output
+encoder.layers.2.blocks.14.output.dense
+encoder.layers.2.blocks.14.output.dropout
+encoder.layers.2.blocks.14.layernorm_after
+encoder.layers.2.blocks.15
+encoder.layers.2.blocks.15.attention
+encoder.layers.2.blocks.15.attention.self
+encoder.layers.2.blocks.15.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.15.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.15.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.15.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.15.attention.self.query
+encoder.layers.2.blocks.15.attention.self.key
+encoder.layers.2.blocks.15.attention.self.value
+encoder.layers.2.blocks.15.attention.self.dropout
+encoder.layers.2.blocks.15.attention.output
+encoder.layers.2.blocks.15.attention.output.dense
+encoder.layers.2.blocks.15.attention.output.dropout
+encoder.layers.2.blocks.15.layernorm_before
+encoder.layers.2.blocks.15.drop_path
+encoder.layers.2.blocks.15.intermediate
+encoder.layers.2.blocks.15.intermediate.dense
+encoder.layers.2.blocks.15.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.15.output
+encoder.layers.2.blocks.15.output.dense
+encoder.layers.2.blocks.15.output.dropout
+encoder.layers.2.blocks.15.layernorm_after
+encoder.layers.2.blocks.16
+encoder.layers.2.blocks.16.attention
+encoder.layers.2.blocks.16.attention.self
+encoder.layers.2.blocks.16.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.16.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.16.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.16.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.16.attention.self.query
+encoder.layers.2.blocks.16.attention.self.key
+encoder.layers.2.blocks.16.attention.self.value
+encoder.layers.2.blocks.16.attention.self.dropout
+encoder.layers.2.blocks.16.attention.output
+encoder.layers.2.blocks.16.attention.output.dense
+encoder.layers.2.blocks.16.attention.output.dropout
+encoder.layers.2.blocks.16.layernorm_before
+encoder.layers.2.blocks.16.drop_path
+encoder.layers.2.blocks.16.intermediate
+encoder.layers.2.blocks.16.intermediate.dense
+encoder.layers.2.blocks.16.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.16.output
+encoder.layers.2.blocks.16.output.dense
+encoder.layers.2.blocks.16.output.dropout
+encoder.layers.2.blocks.16.layernorm_after
+encoder.layers.2.blocks.17
+encoder.layers.2.blocks.17.attention
+encoder.layers.2.blocks.17.attention.self
+encoder.layers.2.blocks.17.attention.self.continuous_position_bias_mlp
+encoder.layers.2.blocks.17.attention.self.continuous_position_bias_mlp.0
+encoder.layers.2.blocks.17.attention.self.continuous_position_bias_mlp.1
+encoder.layers.2.blocks.17.attention.self.continuous_position_bias_mlp.2
+encoder.layers.2.blocks.17.attention.self.query
+encoder.layers.2.blocks.17.attention.self.key
+encoder.layers.2.blocks.17.attention.self.value
+encoder.layers.2.blocks.17.attention.self.dropout
+encoder.layers.2.blocks.17.attention.output
+encoder.layers.2.blocks.17.attention.output.dense
+encoder.layers.2.blocks.17.attention.output.dropout
+encoder.layers.2.blocks.17.layernorm_before
+encoder.layers.2.blocks.17.drop_path
+encoder.layers.2.blocks.17.intermediate
+encoder.layers.2.blocks.17.intermediate.dense
+encoder.layers.2.blocks.17.intermediate.intermediate_act_fn
+encoder.layers.2.blocks.17.output
+encoder.layers.2.blocks.17.output.dense
+encoder.layers.2.blocks.17.output.dropout
+encoder.layers.2.blocks.17.layernorm_after
+encoder.layers.2.downsample
+encoder.layers.2.downsample.reduction
+encoder.layers.2.downsample.norm
+encoder.layers.3
+encoder.layers.3.blocks
+encoder.layers.3.blocks.0
+encoder.layers.3.blocks.0.attention
+encoder.layers.3.blocks.0.attention.self
+encoder.layers.3.blocks.0.attention.self.continuous_position_bias_mlp
+encoder.layers.3.blocks.0.attention.self.continuous_position_bias_mlp.0
+encoder.layers.3.blocks.0.attention.self.continuous_position_bias_mlp.1
+encoder.layers.3.blocks.0.attention.self.continuous_position_bias_mlp.2
+encoder.layers.3.blocks.0.attention.self.query
+encoder.layers.3.blocks.0.attention.self.key
+encoder.layers.3.blocks.0.attention.self.value
+encoder.layers.3.blocks.0.attention.self.dropout
+encoder.layers.3.blocks.0.attention.output
+encoder.layers.3.blocks.0.attention.output.dense
+encoder.layers.3.blocks.0.attention.output.dropout
+encoder.layers.3.blocks.0.layernorm_before
+encoder.layers.3.blocks.0.drop_path
+encoder.layers.3.blocks.0.intermediate
+encoder.layers.3.blocks.0.intermediate.dense
+encoder.layers.3.blocks.0.intermediate.intermediate_act_fn
+encoder.layers.3.blocks.0.output
+encoder.layers.3.blocks.0.output.dense
+encoder.layers.3.blocks.0.output.dropout
+encoder.layers.3.blocks.0.layernorm_after
+encoder.layers.3.blocks.1
+encoder.layers.3.blocks.1.attention
+encoder.layers.3.blocks.1.attention.self
+encoder.layers.3.blocks.1.attention.self.continuous_position_bias_mlp
+encoder.layers.3.blocks.1.attention.self.continuous_position_bias_mlp.0
+encoder.layers.3.blocks.1.attention.self.continuous_position_bias_mlp.1
+encoder.layers.3.blocks.1.attention.self.continuous_position_bias_mlp.2
+encoder.layers.3.blocks.1.attention.self.query
+encoder.layers.3.blocks.1.attention.self.key
+encoder.layers.3.blocks.1.attention.self.value
+encoder.layers.3.blocks.1.attention.self.dropout
+encoder.layers.3.blocks.1.attention.output
+encoder.layers.3.blocks.1.attention.output.dense
+encoder.layers.3.blocks.1.attention.output.dropout
+encoder.layers.3.blocks.1.layernorm_before
+encoder.layers.3.blocks.1.drop_path
+encoder.layers.3.blocks.1.intermediate
+encoder.layers.3.blocks.1.intermediate.dense
+encoder.layers.3.blocks.1.intermediate.intermediate_act_fn
+encoder.layers.3.blocks.1.output
+encoder.layers.3.blocks.1.output.dense
+encoder.layers.3.blocks.1.output.dropout
+encoder.layers.3.blocks.1.layernorm_after
+layernorm
+pooler