Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

README.md +37 -226
mergekit_config.yml +33 -103
model-00001-of-00005.safetensors +1 -1
model-00002-of-00005.safetensors +1 -1

README.md CHANGED Viewed

@@ -1,119 +1,12 @@
 ---
-license: apache-2.0
 library_name: transformers
 tags:
 - mergekit
 - merge
-- not-for-all-audiences
-base_model:
-- bamec66557/VICIOUS_MESH-12B-BETA
-- bamec66557/VICIOUS_MESH-12B-OMEGA
-model-index:
-- name: Mistral-Nemo-VICIOUS_MESH-12B-2407
-  results:
-  - task:
-      type: text-generation
-      name: Text Generation
-    dataset:
-      name: IFEval (0-Shot)
-      type: HuggingFaceH4/ifeval
-      args:
-        num_few_shot: 0
-    metrics:
-    - type: inst_level_strict_acc and prompt_level_strict_acc
-      value: 67.21
-      name: strict accuracy
-    source:
-      url: >-
-        https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=bamec66557/Mistral-Nemo-VICIOUS_MESH-12B-2407
-      name: Open LLM Leaderboard
-  - task:
-      type: text-generation
-      name: Text Generation
-    dataset:
-      name: BBH (3-Shot)
-      type: BBH
-      args:
-        num_few_shot: 3
-    metrics:
-    - type: acc_norm
-      value: 31.36
-      name: normalized accuracy
-    source:
-      url: >-
-        https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=bamec66557/Mistral-Nemo-VICIOUS_MESH-12B-2407
-      name: Open LLM Leaderboard
-  - task:
-      type: text-generation
-      name: Text Generation
-    dataset:
-      name: MATH Lvl 5 (4-Shot)
-      type: hendrycks/competition_math
-      args:
-        num_few_shot: 4
-    metrics:
-    - type: exact_match
-      value: 12.08
-      name: exact match
-    source:
-      url: >-
-        https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=bamec66557/Mistral-Nemo-VICIOUS_MESH-12B-2407
-      name: Open LLM Leaderboard
-  - task:
-      type: text-generation
-      name: Text Generation
-    dataset:
-      name: GPQA (0-shot)
-      type: Idavidrein/gpqa
-      args:
-        num_few_shot: 0
-    metrics:
-    - type: acc_norm
-      value: 8.84
-      name: acc_norm
-    source:
-      url: >-
-        https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=bamec66557/Mistral-Nemo-VICIOUS_MESH-12B-2407
-      name: Open LLM Leaderboard
-  - task:
-      type: text-generation
-      name: Text Generation
-    dataset:
-      name: MuSR (0-shot)
-      type: TAUR-Lab/MuSR
-      args:
-        num_few_shot: 0
-    metrics:
-    - type: acc_norm
-      value: 14.34
-      name: acc_norm
-    source:
-      url: >-
-        https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=bamec66557/Mistral-Nemo-VICIOUS_MESH-12B-2407
-      name: Open LLM Leaderboard
-  - task:
-      type: text-generation
-      name: Text Generation
-    dataset:
-      name: MMLU-PRO (5-shot)
-      type: TIGER-Lab/MMLU-Pro
-      config: main
-      split: test
-      args:
-        num_few_shot: 5
-    metrics:
-    - type: acc
-      value: 29.76
-      name: accuracy
-    source:
-      url: >-
-        https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=bamec66557/Mistral-Nemo-VICIOUS_MESH-12B-2407
-      name: Open LLM Leaderboard
-datasets:
-- open-llm-leaderboard/bamec66557__Mistral-Nemo-VICIOUS_MESH-12B-2407-details
-- open-llm-leaderboard/bamec66557__VICIOUS_MESH-12B-BETA-details
-- open-llm-leaderboard/bamec66557__VICIOUS_MESH-12B-OMEGA-details
-- open-llm-leaderboard/bamec66557__VICIOUS_MESH-12B-ALPHA-details
 ---
 # merge
@@ -140,175 +33,93 @@ dtype: bfloat16
 merge_method: slerp
 tokenizer_source: base
-# Slices Configuration (Layer-Specific Merging)
 slices:
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [0, 5]
-      - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [0, 5]
-    parameters:
-      t:
-        - name: self_attn
-          value: [0.85, 0.88, 0.91, 0.94, 0.97]
-        - name: mlp
-          value: [0.9, 0.92, 0.95, 0.98, 1.0]
-        - name: layer_norm
-          value: [0.75, 0.78, 0.81, 0.84, 0.87]
-        - name: embed_tokens
-          value: [1.0]
-  - sources:
-      - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [5, 10]
-      - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [5, 10]
-    parameters:
-      t:
-        - name: self_attn
-          value: [0.8, 0.83, 0.86, 0.89, 0.92]
-        - name: mlp
-          value: [0.88, 0.91, 0.94, 0.97, 1.0]
-        - name: layer_norm
-          value: [0.7, 0.73, 0.76, 0.79, 0.82]
-        - name: embed_tokens
-          value: [1.0]
-  - sources:
-      - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [10, 15]
-      - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [10, 15]
-    parameters:
-      t:
-        - name: self_attn
-          value: [0.75, 0.78, 0.81, 0.84, 0.87]
-        - name: mlp
-          value: [0.85, 0.88, 0.91, 0.94, 0.97]
-        - name: layer_norm
-          value: [0.65, 0.68, 0.71, 0.74, 0.77]
-        - name: embed_tokens
-          value: [1.0]
-  - sources:
-      - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [15, 20]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [15, 20]
     parameters:
       t:
         - name: self_attn
-          value: [0.72, 0.75, 0.78, 0.81, 0.84]
         - name: mlp
-          value: [0.8, 0.83, 0.86, 0.89, 0.92]
         - name: layer_norm
-          value: [0.6, 0.63, 0.66, 0.69, 0.72]
-        - name: embed_tokens
-          value: [1.0]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [20, 25]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [20, 25]
     parameters:
       t:
         - name: self_attn
-          value: [0.7, 0.73, 0.76, 0.79, 0.82]
         - name: mlp
-          value: [0.75, 0.78, 0.81, 0.84, 0.87]
         - name: layer_norm
-          value: [0.55, 0.58, 0.61, 0.64, 0.67]
-        - name: embed_tokens
-          value: [1.0]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [25, 30]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [25, 30]
     parameters:
       t:
         - name: self_attn
-          value: [0.68, 0.71, 0.74, 0.77, 0.8]
         - name: mlp
-          value: [0.7, 0.73, 0.76, 0.79, 0.82]
         - name: layer_norm
-          value: [0.5, 0.53, 0.56, 0.59, 0.62]
-        - name: embed_tokens
-          value: [1.0]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [30, 35]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [30, 35]
     parameters:
       t:
         - name: self_attn
-          value: [0.65, 0.68, 0.71, 0.74, 0.77]
         - name: mlp
-          value: [0.68, 0.71, 0.74, 0.77, 0.8]
         - name: layer_norm
-          value: [0.45, 0.48, 0.51, 0.54, 0.57]
-        - name: embed_tokens
-          value: [1.0]
-  - sources:
-      - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [35, 40]
-      - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [35, 40]
-    parameters:
-      t:
-        - name: self_attn
-          value: [0.6, 0.63, 0.66, 0.69, 0.72]
-        - name: mlp
-          value: [0.65, 0.68, 0.71, 0.74, 0.77]
-        - name: layer_norm
-          value: [0.4, 0.43, 0.46, 0.49, 0.52]
-        - name: embed_tokens
-          value: [1.0]
 # Regularization
 regularization:
   - method: weight_clipping
-    clip_range: [-0.1, 0.1]
   - method: random_noise
-    scale: 0.003
   - method: attention_dropout
-    scale: 0.05
-  - method: gradient_clipping
-    clip_norm: 1.0
 # Postprocessing
 postprocessing:
   - operation: non_linear_scaling
     parameters:
       function: tanh
   - operation: sharpening
-    intensity: 0.4
   - operation: gaussian_smoothing
-    sigma: 1.0
   - operation: normalize
   - operation: dynamic_scaling
-    scale_range: [0.85, 1.15]
   - operation: smoothing
     parameters:
       adaptive: true
-      range: [0.9, 1.1]
-      kernel_size: 3
 ```
-# [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
-Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/bamec66557__Mistral-Nemo-VICIOUS_MESH-12B-2407-details)
-|      Metric       |Value|
-|-------------------|----:|
-|Avg.               |27.26|
-|IFEval (0-Shot)    |67.21|
-|BBH (3-Shot)       |31.36|
-|MATH Lvl 5 (4-Shot)|12.08|
-|GPQA (0-shot)      | 8.84|
-|MuSR (0-shot)      |14.34|
-|MMLU-PRO (5-shot)  |29.76|

 ---
+base_model:
+- bamec66557/VICIOUS_MESH-12B-BETA
+- bamec66557/VICIOUS_MESH-12B-OMEGA
 library_name: transformers
 tags:
 - mergekit
 - merge
 ---
 # merge
 merge_method: slerp
 tokenizer_source: base
+# Slices Configuration
 slices:
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
+        layer_range: [0, 10]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
+        layer_range: [0, 10]
     parameters:
       t:
         - name: self_attn
+          value: [0.5, 0.55, 0.6, 0.65, 0.7]
         - name: mlp
+          value: [1.0, 1.05, 1.1, 1.15, 1.2]
         - name: layer_norm
+          value: [0.9, 0.95, 1.0, 1.05, 1.1]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
+        layer_range: [10, 20]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
+        layer_range: [10, 20]
     parameters:
       t:
         - name: self_attn
+          value: [0.4, 0.45, 0.5, 0.55, 0.6]
         - name: mlp
+          value: [1.1, 1.15, 1.2, 1.25, 1.3]
         - name: layer_norm
+          value: [1.0, 1.05, 1.1, 1.15, 1.2]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
+        layer_range: [20, 30]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
+        layer_range: [20, 30]
     parameters:
       t:
         - name: self_attn
+          value: [0.6, 0.65, 0.7, 0.75, 0.8]
         - name: mlp
+          value: [0.9, 0.95, 1.0, 1.05, 1.1]
         - name: layer_norm
+          value: [0.85, 0.9, 0.95, 1.0, 1.05]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
+        layer_range: [30, 40]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
+        layer_range: [30, 40]
     parameters:
       t:
         - name: self_attn
+          value: [0.7, 0.75, 0.8, 0.85, 0.9]
         - name: mlp
+          value: [0.8, 0.85, 0.9, 0.95, 1.0]
         - name: layer_norm
+          value: [0.8, 0.85, 0.9, 0.95, 1.0]
 # Regularization
 regularization:
+  - method: gradient_penalty
+    scale: 0.05  # Increased influence for gradient control
   - method: weight_clipping
+    clip_range: [-0.2, 0.2]  # Broader clipping range for flexibility
   - method: random_noise
+    scale: 0.01  # Stronger noise injection
   - method: attention_dropout
+    scale: 0.1  # Higher dropout to reduce attention fixation
 # Postprocessing
 postprocessing:
+  - operation: entropy_regularization
+    scale: 0.05  # Stronger encouragement for diverse outputs
   - operation: non_linear_scaling
     parameters:
       function: tanh
   - operation: sharpening
+    intensity: 0.5  # Enhanced sharpening for precise outputs
   - operation: gaussian_smoothing
+    sigma: 1.5  # Increased smoothing for stable outputs
   - operation: normalize
   - operation: dynamic_scaling
+    scale_range: [0.8, 1.2]  # Expanded dynamic range for scaling
   - operation: smoothing
     parameters:
       adaptive: true
+      range: [0.85, 1.15]  # Wider adaptive smoothing range
+      kernel_size: 5
 ```

mergekit_config.yml CHANGED Viewed

@@ -3,161 +3,91 @@ dtype: bfloat16
 merge_method: slerp
 tokenizer_source: base
-# Slices Configuration (Layer-Specific Merging)
 slices:
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [0, 5]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [0, 5]
     parameters:
       t:
         - name: self_attn
-          value: [0.85, 0.88, 0.91, 0.94, 0.97]
         - name: mlp
-          value: [0.9, 0.92, 0.95, 0.98, 1.0]
         - name: layer_norm
-          value: [0.75, 0.78, 0.81, 0.84, 0.87]
-        - name: embed_tokens
-          value: [1.0]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [5, 10]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [5, 10]
     parameters:
       t:
         - name: self_attn
-          value: [0.8, 0.83, 0.86, 0.89, 0.92]
         - name: mlp
-          value: [0.88, 0.91, 0.94, 0.97, 1.0]
         - name: layer_norm
-          value: [0.7, 0.73, 0.76, 0.79, 0.82]
-        - name: embed_tokens
-          value: [1.0]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [10, 15]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [10, 15]
     parameters:
       t:
         - name: self_attn
-          value: [0.75, 0.78, 0.81, 0.84, 0.87]
         - name: mlp
-          value: [0.85, 0.88, 0.91, 0.94, 0.97]
         - name: layer_norm
-          value: [0.65, 0.68, 0.71, 0.74, 0.77]
-        - name: embed_tokens
-          value: [1.0]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [15, 20]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [15, 20]
     parameters:
       t:
         - name: self_attn
-          value: [0.72, 0.75, 0.78, 0.81, 0.84]
         - name: mlp
-          value: [0.8, 0.83, 0.86, 0.89, 0.92]
         - name: layer_norm
-          value: [0.6, 0.63, 0.66, 0.69, 0.72]
-        - name: embed_tokens
-          value: [1.0]
-  - sources:
-      - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [20, 25]
-      - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [20, 25]
-    parameters:
-      t:
-        - name: self_attn
-          value: [0.7, 0.73, 0.76, 0.79, 0.82]
-        - name: mlp
-          value: [0.75, 0.78, 0.81, 0.84, 0.87]
-        - name: layer_norm
-          value: [0.55, 0.58, 0.61, 0.64, 0.67]
-        - name: embed_tokens
-          value: [1.0]
-  - sources:
-      - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [25, 30]
-      - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [25, 30]
-    parameters:
-      t:
-        - name: self_attn
-          value: [0.68, 0.71, 0.74, 0.77, 0.8]
-        - name: mlp
-          value: [0.7, 0.73, 0.76, 0.79, 0.82]
-        - name: layer_norm
-          value: [0.5, 0.53, 0.56, 0.59, 0.62]
-        - name: embed_tokens
-          value: [1.0]
-  - sources:
-      - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [30, 35]
-      - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [30, 35]
-    parameters:
-      t:
-        - name: self_attn
-          value: [0.65, 0.68, 0.71, 0.74, 0.77]
-        - name: mlp
-          value: [0.68, 0.71, 0.74, 0.77, 0.8]
-        - name: layer_norm
-          value: [0.45, 0.48, 0.51, 0.54, 0.57]
-        - name: embed_tokens
-          value: [1.0]
-  - sources:
-      - model: bamec66557/VICIOUS_MESH-12B-OMEGA
-        layer_range: [35, 40]
-      - model: bamec66557/VICIOUS_MESH-12B-BETA
-        layer_range: [35, 40]
-    parameters:
-      t:
-        - name: self_attn
-          value: [0.6, 0.63, 0.66, 0.69, 0.72]
-        - name: mlp
-          value: [0.65, 0.68, 0.71, 0.74, 0.77]
-        - name: layer_norm
-          value: [0.4, 0.43, 0.46, 0.49, 0.52]
-        - name: embed_tokens
-          value: [1.0]
 # Regularization
 regularization:
   - method: weight_clipping
-    clip_range: [-0.1, 0.1]
   - method: random_noise
-    scale: 0.003
   - method: attention_dropout
-    scale: 0.05
-  - method: gradient_clipping
-    clip_norm: 1.0
 # Postprocessing
 postprocessing:
   - operation: non_linear_scaling
     parameters:
       function: tanh
   - operation: sharpening
-    intensity: 0.4
   - operation: gaussian_smoothing
-    sigma: 1.0
   - operation: normalize
   - operation: dynamic_scaling
-    scale_range: [0.85, 1.15]
   - operation: smoothing
     parameters:
       adaptive: true
-      range: [0.9, 1.1]
-      kernel_size: 3

 merge_method: slerp
 tokenizer_source: base
+# Slices Configuration
 slices:
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
+        layer_range: [0, 10]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
+        layer_range: [0, 10]
     parameters:
       t:
         - name: self_attn
+          value: [0.5, 0.55, 0.6, 0.65, 0.7]
         - name: mlp
+          value: [1.0, 1.05, 1.1, 1.15, 1.2]
         - name: layer_norm
+          value: [0.9, 0.95, 1.0, 1.05, 1.1]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
+        layer_range: [10, 20]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
+        layer_range: [10, 20]
     parameters:
       t:
         - name: self_attn
+          value: [0.4, 0.45, 0.5, 0.55, 0.6]
         - name: mlp
+          value: [1.1, 1.15, 1.2, 1.25, 1.3]
         - name: layer_norm
+          value: [1.0, 1.05, 1.1, 1.15, 1.2]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
+        layer_range: [20, 30]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
+        layer_range: [20, 30]
     parameters:
       t:
         - name: self_attn
+          value: [0.6, 0.65, 0.7, 0.75, 0.8]
         - name: mlp
+          value: [0.9, 0.95, 1.0, 1.05, 1.1]
         - name: layer_norm
+          value: [0.85, 0.9, 0.95, 1.0, 1.05]
   - sources:
       - model: bamec66557/VICIOUS_MESH-12B-OMEGA
+        layer_range: [30, 40]
       - model: bamec66557/VICIOUS_MESH-12B-BETA
+        layer_range: [30, 40]
     parameters:
       t:
         - name: self_attn
+          value: [0.7, 0.75, 0.8, 0.85, 0.9]
         - name: mlp
+          value: [0.8, 0.85, 0.9, 0.95, 1.0]
         - name: layer_norm
+          value: [0.8, 0.85, 0.9, 0.95, 1.0]
 # Regularization
 regularization:
+  - method: gradient_penalty
+    scale: 0.05  # Increased influence for gradient control
   - method: weight_clipping
+    clip_range: [-0.2, 0.2]  # Broader clipping range for flexibility
   - method: random_noise
+    scale: 0.01  # Stronger noise injection
   - method: attention_dropout
+    scale: 0.1  # Higher dropout to reduce attention fixation
 # Postprocessing
 postprocessing:
+  - operation: entropy_regularization
+    scale: 0.05  # Stronger encouragement for diverse outputs
   - operation: non_linear_scaling
     parameters:
       function: tanh
   - operation: sharpening
+    intensity: 0.5  # Enhanced sharpening for precise outputs
   - operation: gaussian_smoothing
+    sigma: 1.5  # Increased smoothing for stable outputs
   - operation: normalize
   - operation: dynamic_scaling
+    scale_range: [0.8, 1.2]  # Expanded dynamic range for scaling
   - operation: smoothing
     parameters:
       adaptive: true
+      range: [0.85, 1.15]  # Wider adaptive smoothing range
+      kernel_size: 5

model-00001-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94eb310d8e6a586cd8941b6b4f89fda811928dc3ee0a0b3493521c0132573f72
 size 4865489336

 version https://git-lfs.github.com/spec/v1
+oid sha256:606929c8ca1b67717338cc8a043d291796649691a67833de1c547f17f105b2ea
 size 4865489336

model-00002-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f9f2ad97fdfffc4fea4ad87595ce2c859dcc20140959b964649d8bcd783bec4
 size 4907529456

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d7ed0e2c571a185bafd363f79ddb85d760c1955008863eabef4fff22c42aa03
 size 4907529456