Spaces:

SaylorTwift
/

OpenEvalsDetails

Running

App Files Files Community

Linker1907 commited on 9 days ago

Commit

c283445

1 Parent(s): 22f9e0d

init

Browse files

Files changed (2) hide show

app.py +73 -13
experiments.json +662 -0

app.py CHANGED Viewed

@@ -2,23 +2,65 @@ from datasets import load_dataset
 import json
 import gradio as gr
-# Hardcoded list of subsets from experiments.json
-BENCHMARKS = [
-    "custom|gpqa:diamond|0",
-    "custom|aime24|0",
-    "custom|aime25|0",
-    "extended|ifeval|0"
-]
 from datasets import get_dataset_split_names
 # Add this near the top with other constants
 REPO_OPTIONS = [
-    "OpenEvals/details_meta-llama__Llama-4-Maverick-17B-128E-Instruct-FP8_private",
-"OpenEvals/details_meta-llama__Llama-4-Scout-17B-16E-Instruct_private",
-    # Add more common repositories as needed
 ]
 def get_available_splits(repo, benchmark):
     return get_dataset_split_names(repo, config_name=benchmark.replace("|", "_").replace(":", "_"))
 def load_details_and_results(repo, subset, split):
@@ -158,14 +200,13 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     with gr.Row():
         benchmark = gr.Dropdown(
             label="Benchmark",
-            choices=BENCHMARKS,
-            value=BENCHMARKS[0],
             info="Select the benchmark subset"
         )
         split = gr.Dropdown(
             label="Split",
             choices=[],
-            info="Select the evaluation split"
         )
     with gr.Row():
@@ -195,6 +236,25 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         outputs=[repo_dropdown, repo_custom]
     )
     # Update the benchmark change handler
     benchmark.change(
         fn=lambda selection_method, dropdown, custom, bench: update_splits(

 import json
 import gradio as gr
+# Load experiments.json to get model configurations
+with open('experiments.json', 'r') as f:
+    EXPERIMENTS = json.load(f)
+# Get all unique benchmark subsets from experiments.json
+BENCHMARKS = []
+for model_config in EXPERIMENTS.values():
+    for benchmark in model_config['benchmarks'].values():
+        subset = benchmark['subset']
+        if subset not in BENCHMARKS:
+            BENCHMARKS.append(subset)
 from datasets import get_dataset_split_names
 # Add this near the top with other constants
 REPO_OPTIONS = [
+    "OpenEvals/details_gpt-4o_private",
+    "OpenEvals/details_claude-3-7-sonnet-20250219_private",
+    "OpenEvals/details_o3-mini-2025-01-31_private",
+    "OpenEvals/details_moonshotai__Moonlight-16B-A3B-Instruct_private",
+    "OpenEvals/details_meta-llama__Llama-3.3-70B-Instruct_private",
+    "OpenEvals/details_deepseek-ai__DeepSeek-R1-Distill-Llama-70B_private",
+    "OpenEvals/details_qihoo360__TinyR1-32B-Preview_private",
+    "OpenEvals/details_openai__gpt-4.5-preview-2025-02-27_private",
+    "OpenEvals/details_deepseek-ai__DeepSeek-R1-Distill-Qwen-32B_private",
+    "OpenEvals/details_openai__deepseek-ai__DeepSeek-R1_private",
+    "OpenEvals/details_Qwen__QwQ-32B_private",
+    "OpenEvals/details_google__gemma-3-1b-it_private",
+    "OpenEvals/details_google__gemma-3-12b-it_private",
+    "OpenEvals/details_google__gemma-3-27b-it_private",
+    "OpenEvals/details_openai__deepseek-ai__DeepSeek-V3-0324_private",
+    "OpenEvals/details_openai__deepseek-ai__DeepSeek-V3_private",
+    "OpenEvals/details_meta-llama__Llama-4-Scout-17B-16E-Instruct_private",
+    "OpenEvals/details_meta-llama__Llama-4-Maverick-17B-128E-Instruct-FP8_private"
 ]
+def get_model_name_from_repo(repo):
+    # Extract model name from repository path
+    # Example: "OpenEvals/details_meta-llama__Llama-4-Maverick-17B-128E-Instruct-FP8_private"
+    # -> "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
+    parts = repo.split('/')
+    model_name = parts[1].replace('details_', '').replace('_private', '')
+    # Convert double underscores back to forward slashes
+    model_name = model_name.replace('__', '/')
+    return model_name
+def get_available_benchmarks(repo):
+    model_name = get_model_name_from_repo(repo)
+    print(model_name)
+    if not model_name or model_name not in EXPERIMENTS:
+        return []
+    model_config = EXPERIMENTS[model_name]
+    print(model_config)
+    return [benchmark['subset'] for benchmark in model_config['benchmarks'].values()]
 def get_available_splits(repo, benchmark):
+    if not benchmark:
+        return []
     return get_dataset_split_names(repo, config_name=benchmark.replace("|", "_").replace(":", "_"))
 def load_details_and_results(repo, subset, split):
     with gr.Row():
         benchmark = gr.Dropdown(
             label="Benchmark",
+            choices=[],
             info="Select the benchmark subset"
         )
         split = gr.Dropdown(
             label="Split",
             choices=[],
+            info="Select evaluation."
         )
     with gr.Row():
         outputs=[repo_dropdown, repo_custom]
     )
+    # Update the repository change handler to update available benchmarks
+    def update_benchmarks(selection_method, dropdown_value, custom_value):
+        repo = get_active_repo(selection_method, dropdown_value, custom_value)
+        available_benchmarks = get_available_benchmarks(repo)
+        print(available_benchmarks)
+        return gr.Dropdown(choices=available_benchmarks, value=available_benchmarks[0] if available_benchmarks else None)
+    repo_dropdown.change(
+        fn=update_benchmarks,
+        inputs=[repo_select, repo_dropdown, repo_custom],
+        outputs=benchmark
+    )
+    repo_custom.change(
+        fn=update_benchmarks,
+        inputs=[repo_select, repo_dropdown, repo_custom],
+        outputs=benchmark
+    )
     # Update the benchmark change handler
     benchmark.change(
         fn=lambda selection_method, dropdown, custom, bench: update_splits(

experiments.json ADDED Viewed

	@@ -0,0 +1,662 @@

+{
+    "gpt-4o": {
+        "display_name": "gpt 4o",
+        "provider": "openai",
+        "open": false,
+        "size": "?B",
+        "thinking": false,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025-02-26T10-14-16.106571"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025-02-26T10-14-16.106571"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025-02-26T10-14-16.106571"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": [
+                    "prompt_level_strict_acc"
+                ],
+                "tags": {
+                    "latest": "2025-02-26T10-14-16.106571"
+                }
+            }
+        }
+    },
+    "claude-3-7-sonnet-20250219": {
+        "display_name": "Claude 3.7 Sonnet",
+        "provider": "anthropic",
+        "open": false,
+        "size": "?B",
+        "thinking": false,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "default": "2025-02-25T12-43-49.294245",
+                    "thinking": "2025-03-05T15-37-37.180318"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "default": "2025-02-25T12-37-52.771787",
+                    "thinking": "2025-03-05T12-39-13.627801"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "default": "2025-02-25T12-37-52.771787",
+                    "thinking": "2025-03-05T12-39-13.627801"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": [
+                    "prompt_level_strict_acc"
+                ],
+                "tags": {
+                    "default": "2025-02-25T12-24-45.750753",
+                    "thinking": "2025-03-05T15-37-37.180318"
+                }
+            }
+        }
+    },
+    "o3-mini-2025-01-31": {
+        "display_name": "o3-mini",
+        "provider": "openai",
+        "open": false,
+        "size": "?B",
+        "thinking": true,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025-02-26T11-37-01.193437"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025-02-26T11-37-01.193437"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025-02-26T11-37-01.193437"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": [
+                    "prompt_level_strict_acc"
+                ],
+                "tags": {
+                    "latest": "2025-02-26T11-37-01.193437"
+                }
+            }
+        }
+    },
+    "moonshotai/Moonlight-16B-A3B-Instruct": {
+        "display_name": "Moonlight",
+        "provider": "moonshotai",
+        "open": true,
+        "size": "16B",
+        "thinking": false,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025_02_26T13_32_06.104265"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025_02_26T13_32_06.104265"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": [
+                    "extractive_match"
+                ],
+                "tags": {
+                    "latest": "2025_02_26T13_32_06.104265"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": [
+                    "prompt_level_strict_acc"
+                ],
+                "tags": {
+                    "latest": "2025_02_26T13_32_06.104265"
+                }
+            }
+        }
+    },
+    "meta-llama/Llama-3.3-70B-Instruct": {
+        "display_name": "Llama 3.3 70B",
+        "provider": "meta",
+        "open": true,
+        "size": "70B",
+        "thinking": false,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-26T17-13-13.448521"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-26T17-13-13.448521"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-26T17-13-13.448521"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-02-26T17-13-13.448521"
+                }
+            }
+        }
+    },
+    "deepseek-ai/DeepSeek-R1-Distill-Llama-70B": {
+        "display_name": "DeepSeek Llama 70B",
+        "provider": "deepseek",
+        "open": true,
+        "size": "70B",
+        "thinking": true,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-27T11-09-04.037858"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-27T11-09-04.037858"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-27T11-09-04.037858"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-02-27T14-02-02.414381"
+                }
+            }
+        }
+    },
+    "qihoo360/TinyR1-32B-Preview": {
+        "display_name": "TinyR1 32B",
+        "provider": "qihoo360",
+        "open": true,
+        "size": "32B",
+        "thinking": false,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-27T13-32-41.564652"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-27T13-32-41.564652"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-02-27T13-32-41.564652"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-02-27T13-32-41.564652"
+                }
+            }
+        }
+    },
+    "openai/gpt-4.5-preview-2025-02-27": {
+        "display_name": "gpt 4.5",
+        "provider": "openai",
+        "open": false,
+        "size": "?B",
+        "thinking": false,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-03T11-35-34.241611"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-03T11-15-32.836958"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-03T11-15-32.836958"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-03T11-17-20.767980"
+                }
+            }
+        }
+    },
+    "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B": {
+        "display_name": "DeepSeek Qwen 32B",
+        "provider": "deepseek",
+        "open": true,
+        "size": "32B",
+        "thinking": true,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-03T14-51-09.849491"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-03T14-51-09.849491"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-03T14-51-09.849491"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-03T15-06-10.838105"
+                }
+            }
+        }
+    },
+    "openai/deepseek-ai/DeepSeek-R1": {
+        "display_name": "DeepSeek R1",
+        "provider": "deepseek",
+        "open": true,
+        "size": "671B",
+        "thinking": true,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-04T17-06-33.124766"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-04T14-52-35.594174"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-04T14-25-05.009799"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-04T15-24-42.488745"
+                }
+            }
+        }
+    },
+    "Qwen/QwQ-32B": {
+        "display_name": "QwQ 32B",
+        "provider": "Qwen",
+        "open": true,
+        "size": "32B",
+        "thinking": true,
+        "benchmarks": {
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-10T11-47-46.303371"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-10T10-36-07.886033"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-10T10-36-07.886033"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-10T12-21-36.862202"
+                }
+            }
+        }
+    },
+    "google/gemma-3-1b-it": {
+        "display_name": "Gemma 3",
+        "provider": "google",
+        "open": true,
+        "size": "1B",
+        "thinking": false,
+        "benchmarks": {
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-18T14-25-56.178612"
+                }
+            }
+        }
+    },
+    "google/gemma-3-12b-it": {
+        "display_name": "Gemma 3 12B",
+        "provider": "google",
+        "open": true,
+        "size": "12B",
+        "thinking": false,
+        "benchmarks": {
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-18T14-36-23.368081"
+                }
+            }
+        }
+    },
+    "google/gemma-3-27b-it": {
+        "display_name": "Gemma 3 27B",
+        "provider": "google",
+        "open": true,
+        "size": "27B",
+        "thinking": false,
+        "benchmarks": {
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-18T14-41-33.181467"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-18T15-11-34.174477"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-18T15-20-14.979833"
+                }
+            },
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-18T15-20-14.979833"
+                }
+            }
+        }
+    },
+    "openai/deepseek-ai/DeepSeek-V3-0324": {
+        "display_name": "DeepSeek V3 0324",
+        "provider": "deepseek",
+        "open": true,
+        "size": "671B",
+        "thinking": false,
+        "benchmarks": {
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-25T15-00-18.969082"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-25T15-00-18.969082"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-25T15-34-22.165555"
+                }
+            },
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-25T14-22-37.175021"
+                }
+            }
+        }
+    },
+    "openai/deepseek-ai/DeepSeek-V3": {
+        "display_name": "DeepSeek V3",
+        "provider": "deepseek",
+        "open": true,
+        "size": "671B",
+        "thinking": false,
+        "benchmarks": {
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-25T19-39-33.880476"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-25T19-39-33.880476"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-25T19-39-33.880476"
+                }
+            },
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-25T19-39-33.880476"
+                }
+            }
+        }
+    },
+    "meta-llama/Llama-4-Scout-17B-16E-Instruct": {
+        "display_name": "Llama 4 Scout 17B",
+        "provider": "meta",
+        "open": true,
+        "size": "17B (109B params)",
+        "thinking": false,
+        "benchmarks": {
+            "aime_25": {
+                "subset": "custom|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-04-07T12-01-58.793350"
+                }
+            },
+            "aime_24": {
+                "subset": "custom|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-04-07T12-01-58.793350"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-04-07T12-01-58.793350"
+                }
+            },
+            "gpqa_diamond": {
+                "subset": "custom|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-04-07T12-01-58.793350"
+                }
+            }
+        }
+    },
+    "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8": {
+        "display_name": "Llama 4 Maverick 17B FP8",
+        "provider": "meta",
+        "open": true,
+        "size": "17B (400B params)",
+        "thinking": false,
+        "benchmarks": {
+            "aime_25": {
+                "subset": "custom|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-04-07T13-08-22.017751"
+                }
+            },
+            "aime_24": {
+                "subset": "custom|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-04-07T13-08-22.017751"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-04-07T13-08-22.017751"
+                }
+            },
+            "gpqa_diamond": {
+                "subset": "custom|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-04-07T13-08-22.017751"
+                }
+            }
+        }
+    }
+}