Spaces:

babylm
/

leaderboard-2024

Running

Aaron Mueller commited on Nov 23, 2024

Commit

4ca4431

1 Parent(s): 6a3b9c1

separate txt and vision averages

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -100,17 +100,20 @@ class EvalResult:
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
-        average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.revision.name: self.revision,
-            AutoEvalColumn.average.name: average,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         if self.track.lower() == "multimodal":
             taskset = TasksMultimodal
         else:
             taskset = Tasks
         for task in taskset:

     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
+        vision_tasks = ("VQA", "Winoground", "DevBench")
+        text_average = sum([v for k, v in self.results.items() if v is not None and k not in vision_tasks]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.revision.name: self.revision,
+            AutoEvalColumn.text_average.name: text_average,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         if self.track.lower() == "multimodal":
             taskset = TasksMultimodal
+            vision_average = sum([v for k, v in self.results.items() if v is not None and k in vision_tasks]) / len(Tasks)
+            data_dict[AutoEvalColumn.vision_average.name] = vision_average
         else:
             taskset = Tasks
         for task in taskset: