ibm
/

PowerLM-3b

Text Generation

Transformers

Safetensors

granite

Eval Results

Model card Files Files and versions Community

mayank-mishra commited on Aug 19, 2024

Commit

e7ee55e

verified ·

1 Parent(s): c7d6e2f

Update README.md

Browse files

Files changed (1) hide show

README.md +60 -40

README.md CHANGED Viewed

@@ -19,82 +19,102 @@ model-index:
   - task:
       type: text-generation
     dataset:
-        type: bigcode/humanevalpack
-        name: HumanEvalSynthesis (Average)
     metrics:
-    - name: pass@1
-      type: pass@1
-      value: 51.4
       verified: false
   - task:
       type: text-generation
     dataset:
-        type: bigcode/humanevalpack
-        name:  HumanEvalExplain (Average)
     metrics:
-    - name: pass@1
-      type: pass@1
-      value: 38.9
       verified: false
   - task:
       type: text-generation
     dataset:
-        type: bigcode/humanevalpack
-        name:  HumanEvalFix (Average)
     metrics:
-    - name: pass@1
-      type: pass@1
-      value: 38.3
       verified: false
   - task:
       type: text-generation
     dataset:
-        type: repoqa
-        name:  RepoQA (Python@16K)
     metrics:
-    - name: pass@1 (thresh=0.5)
-      type: pass@1 (thresh=0.5)
-      value: 73.0
       verified: false
   - task:
       type: text-generation
     dataset:
-        type: repoqa
-        name:  RepoQA (C++@16K)
     metrics:
-    - name: pass@1 (thresh=0.5)
-      type: pass@1 (thresh=0.5)
-      value: 37.0
       verified: false
   - task:
       type: text-generation
     dataset:
-        type: repoqa
-        name:  RepoQA (Java@16K)
     metrics:
-    - name: pass@1 (thresh=0.5)
-      type: pass@1 (thresh=0.5)
-      value: 73.0
       verified: false
   - task:
       type: text-generation
     dataset:
-        type: repoqa
-        name:  RepoQA (TypeScript@16K)
     metrics:
-    - name: pass@1 (thresh=0.5)
-      type: pass@1 (thresh=0.5)
-      value: 62.0
       verified: false
   - task:
       type: text-generation
     dataset:
-        type: repoqa
-        name:  RepoQA (Rust@16K)
     metrics:
-    - name: pass@1 (thresh=0.5)
-      type: pass@1 (thresh=0.5)
-      value: 63.0
       verified: false
 ---

   - task:
       type: text-generation
     dataset:
+        type: lm-eval-harness
+        name: BoolQ
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 75
       verified: false
   - task:
       type: text-generation
     dataset:
+        type: lm-eval-harness
+        name: Hellaswag
     metrics:
+    - name: accuracy-norm
+      type: accuracy-norm
+      value: 74.2
       verified: false
   - task:
       type: text-generation
     dataset:
+        type: lm-eval-harness
+        name: OpenBookQA
     metrics:
+    - name: accuracy-norm
+      type: accuracy-norm
+      value: 41.2
+      verified: false
+  - task:
+      type: text-generation
+    dataset:
+        type: lm-eval-harness
+        name: PIQA
+    metrics:
+    - name: accuracy-norm
+      type: accuracy-norm
+      value: 79.9
+      verified: false
+  - task:
+      type: text-generation
+    dataset:
+        type: lm-eval-harness
+        name: Winogrande
+    metrics:
+    - name: accuracy-norm
+      type: accuracy-norm
+      value: 66.3
       verified: false
   - task:
       type: text-generation
     dataset:
+        type: lm-eval-harness
+        name: MMLU
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 44.3
       verified: false
   - task:
       type: text-generation
     dataset:
+        type: lm-eval-harness
+        name: GSM8k (5 shot)
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 35.9
       verified: false
   - task:
       type: text-generation
     dataset:
+        type: lm-eval-harness
+        name: math (4 shot)
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 14
       verified: false
   - task:
       type: text-generation
     dataset:
+        type: bigcode-eval
+        name: humaneval
     metrics:
+    - name: pass@1
+      type: pass@1
+      value: 21.9
       verified: false
   - task:
       type: text-generation
     dataset:
+        type: bigcode-eval
+        name: MBPP
     metrics:
+    - name: pass@1
+      type: pass@1
+      value: 28
       verified: false
 ---