Spaces:
Running
Running
Commit
Β·
fd98684
1
Parent(s):
61b5038
add hyperclova + update content.py
Browse files- content.py +2 -2
- leaderboard_data.csv +1 -0
content.py
CHANGED
@@ -13,7 +13,7 @@ Bottom_logo = f'''<img src="data:image/jpeg;base64,{bottom_logo}" style="width:2
|
|
13 |
intro_md = f'''
|
14 |
# {benchname} Leaderboard
|
15 |
|
16 |
-
[**π Leaderboard**](https://huggingface.co/spaces/maum-ai/KOFFVQA-Leaderboard) | [**π KOFFVQA Arxiv**](https://arxiv.org/abs/2503.23730) | [**π€ KOFFVQA Dataset**](https://huggingface.co/datasets/maum-ai/KOFFVQA_Data)
|
17 |
|
18 |
{benchname}π is a Free-Form VQA benchmark dataset designed to evaluate Vision-Language Models (VLMs) in Korean language environments. Unlike traditional multiple-choice or predefined answer formats, KOFFVQA challenges models to generate open-ended, natural-language answers to visually grounded questions. This allows for a more comprehensive assessment of a model's ability to understand and generate nuanced Korean responses.
|
19 |
|
@@ -32,7 +32,7 @@ The {benchname} benchmark is designed to evaluate and compare the performance of
|
|
32 |
This benchmark includes a total of 275 Korean questions across 10 tasks. The questions are open-ended, free-form VQA (Visual Question Answering) with objective answers, allowing responses without strict format constraints.
|
33 |
|
34 |
## News
|
35 |
-
* **2025-04-25** : Our [leaderboard](https://huggingface.co/spaces/maum-ai/KOFFVQA-Leaderboard) currently finished evaluating
|
36 |
|
37 |
* **2025-04-01** : Our paper [KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language](https://arxiv.org/abs/2503.23730) has been released and accepted to CVPRW 2025, Workshop on Benchmarking and Expanding AI Multimodal Approaches(BEAM 2025) π
|
38 |
|
|
|
13 |
intro_md = f'''
|
14 |
# {benchname} Leaderboard
|
15 |
|
16 |
+
[**π Leaderboard**](https://huggingface.co/spaces/maum-ai/KOFFVQA-Leaderboard) | [**π KOFFVQA Arxiv**](https://arxiv.org/abs/2503.23730) | [**π€ KOFFVQA Dataset**](https://huggingface.co/datasets/maum-ai/KOFFVQA_Data)
|
17 |
|
18 |
{benchname}π is a Free-Form VQA benchmark dataset designed to evaluate Vision-Language Models (VLMs) in Korean language environments. Unlike traditional multiple-choice or predefined answer formats, KOFFVQA challenges models to generate open-ended, natural-language answers to visually grounded questions. This allows for a more comprehensive assessment of a model's ability to understand and generate nuanced Korean responses.
|
19 |
|
|
|
32 |
This benchmark includes a total of 275 Korean questions across 10 tasks. The questions are open-ended, free-form VQA (Visual Question Answering) with objective answers, allowing responses without strict format constraints.
|
33 |
|
34 |
## News
|
35 |
+
* **2025-04-25** : Our [leaderboard](https://huggingface.co/spaces/maum-ai/KOFFVQA-Leaderboard) currently finished evaluating **81** total open- and closed- sourced VLMs. Also we have refactored the evaluation code to make it easier to use and be able to evaluate much more diverse models.
|
36 |
|
37 |
* **2025-04-01** : Our paper [KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language](https://arxiv.org/abs/2503.23730) has been released and accepted to CVPRW 2025, Workshop on Benchmarking and Expanding AI Multimodal Approaches(BEAM 2025) π
|
38 |
|
leaderboard_data.csv
CHANGED
@@ -50,6 +50,7 @@ InternVL2_5-26B,2024-12-16,25514186112.0,True,OpenGVLab/InternVL2_5-26B,44.94545
|
|
50 |
Phi-3.5-vision-instruct,2024-12-16,4146621440.0,True,microsoft/Phi-3.5-vision-instruct,31.89090909090909,41.16666666666666,0.0,5.0,39.33333333333333,10.0,39.77777777777778,21.666666666666664,19.33333333333333,40.0,65.0
|
51 |
aya-vision-8b,2025-03-12,8631842032.0,True,CohereForAI/aya-vision-8b,44.43636363636364,70.66666666666666,75.0,25.0,48.33333333333333,5.0,72.66666666666667,27.666666666666664,9.666666666666666,14.666666666666666,60.0
|
52 |
Qwen2-VL-2B-Instruct,2024-12-11,2208985600.0,True,Qwen/Qwen2-VL-2B-Instruct,43.74545454545455,61.0,55.0,20.0,37.333333333333336,35.0,48.22222222222222,54.0,19.33333333333333,33.333333333333336,43.0
|
|
|
53 |
Qwen2.5-VL-32B-Instruct,2025-03-25,33452718336.0,True,Qwen/Qwen2.5-VL-32B-Instruct,74.43636363636364,77.0,65.0,60.0,65.66666666666666,70.0,82.44444444444443,70.33333333333333,80.33333333333333,71.33333333333334,86.0
|
54 |
Kimi-VL-A3B-Instruct,2025-04-16,16407656048.0,True,moonshotai/Kimi-VL-A3B-Instruct,51.27272727272727,64.33333333333334,50.0,5.0,55.66666666666666,65.0,56.0,41.333333333333336,33.333333333333336,48.66666666666666,50.0
|
55 |
Qwen2-VL-7B-Instruct,2024-12-05,8291375616.0,True,Qwen/Qwen2-VL-7B-Instruct,63.16363636363637,73.16666666666666,50.0,40.0,56.0,70.0,74.88888888888889,64.33333333333334,50.0,53.33333333333333,60.0
|
|
|
50 |
Phi-3.5-vision-instruct,2024-12-16,4146621440.0,True,microsoft/Phi-3.5-vision-instruct,31.89090909090909,41.16666666666666,0.0,5.0,39.33333333333333,10.0,39.77777777777778,21.666666666666664,19.33333333333333,40.0,65.0
|
51 |
aya-vision-8b,2025-03-12,8631842032.0,True,CohereForAI/aya-vision-8b,44.43636363636364,70.66666666666666,75.0,25.0,48.33333333333333,5.0,72.66666666666667,27.666666666666664,9.666666666666666,14.666666666666666,60.0
|
52 |
Qwen2-VL-2B-Instruct,2024-12-11,2208985600.0,True,Qwen/Qwen2-VL-2B-Instruct,43.74545454545455,61.0,55.0,20.0,37.333333333333336,35.0,48.22222222222222,54.0,19.33333333333333,33.333333333333336,43.0
|
53 |
+
HyperCLOVAX-SEED-Vision-Instruct-3B,2025-04-24,3721243520.0,True,naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B,59.6,73.83333333333334,50.0,20.0,68.66666666666666,75.0,67.55555555555556,56.333333333333336,35.33333333333333,37.0,80.0
|
54 |
Qwen2.5-VL-32B-Instruct,2025-03-25,33452718336.0,True,Qwen/Qwen2.5-VL-32B-Instruct,74.43636363636364,77.0,65.0,60.0,65.66666666666666,70.0,82.44444444444443,70.33333333333333,80.33333333333333,71.33333333333334,86.0
|
55 |
Kimi-VL-A3B-Instruct,2025-04-16,16407656048.0,True,moonshotai/Kimi-VL-A3B-Instruct,51.27272727272727,64.33333333333334,50.0,5.0,55.66666666666666,65.0,56.0,41.333333333333336,33.333333333333336,48.66666666666666,50.0
|
56 |
Qwen2-VL-7B-Instruct,2024-12-05,8291375616.0,True,Qwen/Qwen2-VL-7B-Instruct,63.16363636363637,73.16666666666666,50.0,40.0,56.0,70.0,74.88888888888889,64.33333333333334,50.0,53.33333333333333,60.0
|