Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator

Beep boop, I am a bot from Hugging Face's automatic model evaluator 👋! We've added a new `verifyToken` field to your evaluation results to verify that they are produced by the model evaluator. Accept this PR to ensure that your results remain listed as **verified** on the [Hub leaderboard](https://huggingface.co/spaces/autoevaluate/leaderboards).

Files changed (1) hide show

README.md +38 -26

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
 language: en
-inference: false
 tags:
 - text-generation
 - opt
-license: other
 commercial: false
 model-index:
 - name: inverse-scaling/opt-125m_eval
@@ -18,14 +18,16 @@ model-index:
       config: inverse-scaling--NeQA
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.4666666666666667
       verified: true
-    - name: Loss
-      type: loss
       value: 0.9069941281403104
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -35,14 +37,16 @@ model-index:
       config: inverse-scaling--quote-repetition
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.96
       verified: true
-    - name: Loss
-      type: loss
       value: 0.04267331124324727
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -52,14 +56,16 @@ model-index:
       config: inverse-scaling--redefine-math
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.7566666666666667
       verified: true
-    - name: Loss
-      type: loss
       value: 0.5209774699724383
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -69,14 +75,16 @@ model-index:
       config: inverse-scaling--hindsight-neglect-10shot
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.5047619047619047
       verified: true
-    - name: Loss
-      type: loss
       value: 0.8965487285916295
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -86,14 +94,16 @@ model-index:
       config: mathemakitten--winobias_antistereotype_test_cot_v3
       split: test
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.47815533980582525
       verified: true
-    - name: Loss
-      type: loss
       value: 0.8500587756725001
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -103,14 +113,16 @@ model-index:
       config: mathemakitten--winobias_antistereotype_test_v5
       split: test
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.5024271844660194
       verified: true
-    - name: Loss
-      type: loss
       value: 0.8860152396463484
       verified: true
 ---
 # OPT : Open Pre-trained Transformer Language Models

 ---
 language: en
+license: other
 tags:
 - text-generation
 - opt
+inference: false
 commercial: false
 model-index:
 - name: inverse-scaling/opt-125m_eval
       config: inverse-scaling--NeQA
       split: train
     metrics:
+    - type: accuracy
       value: 0.4666666666666667
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMjBkYzg3OGQ2NGEwMzE3MmRlNDNjOTQ5YjI2ZmY5ZmExYmMwZGMzOGU4MDM5NmUxMmM0MzlmNmU3OGMxOWNlNyIsInZlcnNpb24iOjF9.6hSSu8iq_f8MCiI3vaVEE2x-Z_7SfVSXu2vEIGggKG1Z1oC1E3-Y7VbZM7cMJKzRvcskLBFaRHYoaU2uZi5gCA
+    - type: loss
       value: 0.9069941281403104
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTNhMDE3NGEyY2UwN2M4ZTNlYjA0YjM1OWZiNWI4MWRjYmRkOGFjMDA2YjZkZWM0YjczMjRhZDIxMmQxMmQ3MCIsInZlcnNpb24iOjF9.ngIQdf8pOt8WcuIo6_vR5nsLCuazdU2605JI-cvjuG6uyBfAE7xWV-ZLqqVZ85cfpGGso1e3FDcnjNgCuS19CQ
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--quote-repetition
       split: train
     metrics:
+    - type: accuracy
       value: 0.96
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMzk1NTY4YmYzMzE3OGQ2OGM4NjljNmM0NTc0MWMxZTI3MGI3OTBkMzE3OTJkMjRiYzU2OGUwMjdhMTY1Y2M0MyIsInZlcnNpb24iOjF9.1uGnbKuVoPXeK2zF3nIqAPUeiWodBA78BhDgHk-8Kq9Vh6WtvcL0qwOvQVLjjPmL_7G56Y0d6cuXWycACwuhAQ
+    - type: loss
       value: 0.04267331124324727
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNGI3MTBiODBlNjNlZGExNzBhMjgxNjNhNDQ5OGQ5YTBjMjQzNTMwNWQ3MDY3NWY2NzJjOGYzNmFjZTE2ODYzNyIsInZlcnNpb24iOjF9.OoXOKgtCjrB3iku_GtinmPFeFdMJWExa2N-VbKKoymMX9pQJ3Wh9cVbKWI2nTHsoTQI_lu_3s9ZjVVk7_v9zAA
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--redefine-math
       split: train
     metrics:
+    - type: accuracy
       value: 0.7566666666666667
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTRkMzAyYzcwOGZmNDVhMTMwOGQxOWVhZDE2NzVkMGRkNDJjNzFlMjZkNDFlZDMyZTA0YjYwNTBjNTBlODg2NCIsInZlcnNpb24iOjF9.Mxc3griLDkTEYTJyF0EamDwHEtzN2IkiXKYY9HmIl6HbHvLoJn9Qz1Ot6EE_T0VJbL11Ih7XOgELgiZ35XU3Cw
+    - type: loss
       value: 0.5209774699724383
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZjZiZjIzZGUyOGFjODU2ZDk4N2ZmMjc5MmZkY2NmODAyNDhjODQ1MDZiMDc0NDdlM2VmZDc2ZWRhMmFjM2ZhMyIsInZlcnNpb24iOjF9.rWg9_9Z5YtqgO7H61K8w1cp_7GTGsyRpMhACpqioXSnQ6z0sL-rtkwb1QKjD0yQH3MEHr2Grwsh7iUmY0nWjDQ
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--hindsight-neglect-10shot
       split: train
     metrics:
+    - type: accuracy
       value: 0.5047619047619047
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTAxMTI4OWNkNzQ0NTZjOGZhNWJmYjBlZGMyMjg2YjJjZWJjNzU1MmIzNWM5MTg5MzhjYmQ0YzI5NzM5NTVjZiIsInZlcnNpb24iOjF9.dzv4FTu8IIWWu8V497AzCWSjytzv_PnxriQ9aWOUd6AkQCOZQeCLrLYLifoK_BJ2SBcuBum6TS-Ukx9MalklAA
+    - type: loss
       value: 0.8965487285916295
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiM2ExZjE2ZWIxODBjZTA0OTI1NzI0NTRlMTIxNDI1YjA4OTM5YzVkMzc4N2MzZTc4ZTA4OTFiYTlkMjcyYjY0MiIsInZlcnNpb24iOjF9.FjnpzThx7mRfh1U_R12KCUJ2wDxjaEKQC3iSSVAvzP1xXLESxA4c014Xzucw1Ugaq_P8s5ySzlPgGUp7qqTtBA
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: mathemakitten--winobias_antistereotype_test_cot_v3
       split: test
     metrics:
+    - type: accuracy
       value: 0.47815533980582525
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNDdkNmEwOTQwZTI4MzE4YjlmNjIwZTIxMWM3YWM1YzYyMWM1OTY1YmZkNjhjYmUyZjJjZjZkMTljNjZlMzUwYyIsInZlcnNpb24iOjF9.PLaVz67JgdncUXDz3BXmZC41HKVl3_D1Iz5cgygbn2y4OsfVyvsyvU3GFqKgPb-gvXT4xGMxkV0FvA28gjTGDw
+    - type: loss
       value: 0.8500587756725001
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiODFjNjUwMWI2Y2UwNzQ0NDE4NTU1NGI3YzQyMDNhOWU3YjU0MGRhMjEyZjNkMzczYWU2MDY0NGIyZmM5MWY5OCIsInZlcnNpb24iOjF9.9VQeAZ_lvyKC2RNQ2GmqSrxXCz2W8NZz14JhF3j4boBHXRm1V07wml6uNW_GfDt6Qwiu5IZCqMdvCavacDUoDw
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: mathemakitten--winobias_antistereotype_test_v5
       split: test
     metrics:
+    - type: accuracy
       value: 0.5024271844660194
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNDRjYzkzZDI1MDRjY2JiNDUyNGJmNmVlZTMxYmJjODIzNDc2NGI3MzBjN2RkNGRjZjg5ZjJiYjM1ODQyMjQyMyIsInZlcnNpb24iOjF9.uLQjZb34N0QHPgeMnJkPk3xG3VI4Z_djPpCvah29a9D0fOHMuqdqynnySODmwfdbKecEV5za8wUf6_ny4qktDQ
+    - type: loss
       value: 0.8860152396463484
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOWIzODA0ZjExNzJiMDBjNzlkYzFjMzk2NGMxNzM0ODQyNmFhMDczM2EwMWU1N2VjMjcxNGEzMTdjN2IyNDJhNSIsInZlcnNpb24iOjF9.ipVZVlS7Rey-vsqEhAmOjcz4pkl85Brn8i1aTc4eSXQ2KgG5ScuAgeIVcxe3EbCSJsRkJowRqRqqWKBodiyAAQ
 ---
 # OPT : Open Pre-trained Transformer Language Models