Spaces:

LLM360
/

de-arena

Running

App Files Files Community

yzabc007 commited on Oct 8, 2024

Commit

da96aa6

1 Parent(s): 826f447

Update space

Browse files

Files changed (4) hide show

app.py +8 -7
src/about.py +6 -0
src/leaderboard/read_evals.py +4 -0
src/populate.py +20 -0

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ from src.about import (
     INTRODUCTION_TEXT,
     LLM_BENCHMARKS_TEXT,
     TITLE,
 )
 from src.display.css_html_js import custom_css
 from src.display.utils import (
@@ -136,30 +137,30 @@ with demo:
             # leaderboard = init_leaderboard(LEADERBOARD_DF)
             with gr.TabItem("🧮 Algebra", elem_id="algebra_subtab", id=0, elem_classes="subtab"):
-                leaderboard = init_leaderboard(LEADERBOARD_DF)
             with gr.TabItem("📐 Geometry", elem_id="geometry_subtab", id=1, elem_classes="subtab"):
-                leaderboard = init_leaderboard(LEADERBOARD_DF)
             with gr.TabItem("📊 Probability", elem_id="prob_subtab", id=2, elem_classes="subtab"):
-                leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("🧠 Reasoning", elem_id="reasonong-tab-table", id=3):
             with gr.TabItem("🧩 Logical", elem_id="logical_subtab", id=0, elem_classes="subtab"):
-                leaderboard = init_leaderboard(LEADERBOARD_DF)
             with gr.TabItem("🗣️ Social", elem_id="social_subtab", id=1, elem_classes="subtab"):
-                leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("</> Coding", elem_id="coding-tab-table", id=4):
-            leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("🔬 Science", elem_id="science-table", id=5):
-            leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=6):

     INTRODUCTION_TEXT,
     LLM_BENCHMARKS_TEXT,
     TITLE,
+    COMING_SOON_TEXT
 )
 from src.display.css_html_js import custom_css
 from src.display.utils import (
             # leaderboard = init_leaderboard(LEADERBOARD_DF)
             with gr.TabItem("🧮 Algebra", elem_id="algebra_subtab", id=0, elem_classes="subtab"):
+                leaderboard = overall_leaderboard(model_leaderboard_df)
             with gr.TabItem("📐 Geometry", elem_id="geometry_subtab", id=1, elem_classes="subtab"):
+                leaderboard = overall_leaderboard(model_leaderboard_df)
             with gr.TabItem("📊 Probability", elem_id="prob_subtab", id=2, elem_classes="subtab"):
+                leaderboard = overall_leaderboard(model_leaderboard_df)
         with gr.TabItem("🧠 Reasoning", elem_id="reasonong-tab-table", id=3):
             with gr.TabItem("🧩 Logical", elem_id="logical_subtab", id=0, elem_classes="subtab"):
+                leaderboard = overall_leaderboard(model_leaderboard_df)
             with gr.TabItem("🗣️ Social", elem_id="social_subtab", id=1, elem_classes="subtab"):
+                leaderboard = overall_leaderboard(model_leaderboard_df)
         with gr.TabItem("</> Coding", elem_id="coding-tab-table", id=4):
+            gr.Markdown(COMING_SOON_TEXT, elem_classes="markdown-text")
         with gr.TabItem("🔬 Science", elem_id="science-table", id=5):
+            gr.Markdown(COMING_SOON_TEXT, elem_classes="markdown-text")
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=6):

src/about.py CHANGED Viewed

@@ -56,6 +56,12 @@ To reproduce our results, here is the commands you can run:
 """
 EVALUATION_QUEUE_TEXT = """
 ## Some good practices before submitting a model

 """
+COMING_SOON_TEXT = """
+# Coming soon
+We are working on adding more tasks to the leaderboard. Stay tuned!
+"""
 EVALUATION_QUEUE_TEXT = """
 ## Some good practices before submitting a model

src/leaderboard/read_evals.py CHANGED Viewed

@@ -11,6 +11,10 @@ from src.display.formatting import make_clickable_model
 from src.display.utils import AutoEvalColumn, ModelType, Tasks, Precision, WeightType, Domains
 from src.submission.check_validity import is_model_on_hub
 @dataclass
 class ModelResult:

 from src.display.utils import AutoEvalColumn, ModelType, Tasks, Precision, WeightType, Domains
 from src.submission.check_validity import is_model_on_hub
+# @dataclass
+# class RankResult:
 @dataclass
 class ModelResult:

src/populate.py CHANGED Viewed

@@ -8,6 +8,26 @@ from src.display.utils import AutoEvalColumn, EvalQueueColumn
 from src.leaderboard.read_evals import get_raw_eval_results, get_raw_model_results
 def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: list=[], benchmark_cols: list=[]) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     raw_data = get_raw_model_results(results_path)

 from src.leaderboard.read_evals import get_raw_eval_results, get_raw_model_results
+def get_overview_leaderboard_df(results_path: str) -> pd.DataFrame:
+    """Creates a dataframe from all the individual experiment results"""
+    raw_data = get_raw_eval_results(results_path, requests_path)
+    all_data_json = [v.to_dict() for v in raw_data]
+    df = pd.DataFrame.from_records(all_data_json)
+    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
+    for col in cols:
+        if col not in df.columns:
+            df[col] = None
+        else:
+            df[col] = df[col].round(decimals=2)
+    # filter out if any of the benchmarks have not been produced
+    df = df[has_no_nan_values(df, benchmark_cols)]
+    return df
 def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: list=[], benchmark_cols: list=[]) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     raw_data = get_raw_model_results(results_path)