Spaces:

T145
/

open-llm-leaderboard-results-to-modelcard

Running

T145 commited on Dec 26, 2024

Commit

4f90373

1 Parent(s): 7ce1db7

Removed the revision field since later entries don't have it

Files changed (1) hide show

functions.py CHANGED Viewed

@@ -45,7 +45,7 @@ def get_task_summary(results):
             "metric_value": round(results["IFEval"], 2),
             "dataset_config": None,
             "dataset_split": "train",
-            "dataset_revision": None,
             "dataset_args": {"num_few_shot": 0},
             "metric_name": "averaged accuracy",
         },
@@ -56,7 +56,7 @@ def get_task_summary(results):
             "metric_value": round(results["BBH"], 2),
             "dataset_config": None,
             "dataset_split": "test",
-            "dataset_revision": None,
             "dataset_args": {"num_few_shot": 3},
             "metric_name": "normalized accuracy",
         },
@@ -67,7 +67,7 @@ def get_task_summary(results):
             "metric_value": round(results["MATH Lvl 5"], 2),
             "dataset_config": None,
             "dataset_split": "test",
-            "dataset_revision": None,
             "dataset_args": {"num_few_shot": 4},
             "metric_name": "exact match",
         },
@@ -78,7 +78,7 @@ def get_task_summary(results):
             "metric_value": round(results["GPQA"], 2),
             "dataset_config": None,
             "dataset_split": "train",
-            "dataset_revision": None,
             "dataset_args": {"num_few_shot": 0},
             "metric_name": "acc_norm",
         },

             "metric_value": round(results["IFEval"], 2),
             "dataset_config": None,
             "dataset_split": "train",
+            #"dataset_revision": None,
             "dataset_args": {"num_few_shot": 0},
             "metric_name": "averaged accuracy",
         },
             "metric_value": round(results["BBH"], 2),
             "dataset_config": None,
             "dataset_split": "test",
+            #"dataset_revision": None,
             "dataset_args": {"num_few_shot": 3},
             "metric_name": "normalized accuracy",
         },
             "metric_value": round(results["MATH Lvl 5"], 2),
             "dataset_config": None,
             "dataset_split": "test",
+            #"dataset_revision": None,
             "dataset_args": {"num_few_shot": 4},
             "metric_name": "exact match",
         },
             "metric_value": round(results["GPQA"], 2),
             "dataset_config": None,
             "dataset_split": "train",
+            #"dataset_revision": None,
             "dataset_args": {"num_few_shot": 0},
             "metric_name": "acc_norm",
         },