Ko Common Gen V2 평가 방법 업데이트 안내

안녕하세요.

저희가 기존에는 MMLU (정답의 알파벳/숫자만 보는 방식)과 ARC (정답 예문만 보는 방식)의 데이터 셋을 사용하여 평가하였지만, 많이 사용되고 있는 AI Harness (정답 알파벳과 예문을 같이 보는) 방식의 데이터는 없었습니다. 이를 보완하기 위해 KoCommonGen 데이터셋을 AI Harness (https://huggingface.co/blog/evaluating-mmlu-leaderboard) 방식으로 수정하여 모델을 평가합니다.

AI Harness (MMLU+ARC) 방식

concept set: {나, 교훈적, 내용, 주제, 강연, 하다}
1. 나는 교훈적인 내용이 강연을 하다.
2. 나는 교훈적인 내용을 주제로 강연을 하지 않았다.
3. 나는 교훈적인 내용이 주제 때문에 강연을 했어.
4. 교훈적인 내용이 나를 강연에게 하다.
정답: 2. 나는 교훈적인 내용을 주제로 강연을 하지 않았다.

MMLU 방식

concept set: {나, 교훈적, 내용, 주제, 강연, 하다}
1. 나는 교훈적인 내용이 강연을 하다.
2. 나는 교훈적인 내용을 주제로 강연을 하지 않았다.
3. 나는 교훈적인 내용이 주제 때문에 강연을 했어.
4. 교훈적인 내용이 나를 강연에게 하다.
정답: 2

ARC 방식

concept set: {나, 교훈적, 내용, 주제, 강연, 하다}
1. 나는 교훈적인 내용이 강연을 하다.
2. 나는 교훈적인 내용을 주제로 강연을 하지 않았다.
3. 나는 교훈적인 내용이 주제 때문에 강연을 했어.
4. 교훈적인 내용이 나를 강연에게 하다.
정답: 나는 교훈적인 내용을 주제로 강연을 하지 않았다.

또한, 이전 데이터셋은 정답 번호의 분포가 한 쪽으로 치우치는 경향이 있었습니다. 이를 MMLU, ARC 등과 같이 각 답의 분포가 동일하게 수정하였습니다. 즉, 테스트셋의 1, 2, 3, 4번 답이 각각 25%의 확률로 나올 수 있도록 정답을 무작위로 재배열하였습니다.

제출된 모델들은 순차적으로 재평가되며, 재평가되는 기간 동안 리더보드에서 일시적으로 빠지거나 불안정할 수 있습니다. 저희는 앞으로도 더 다양한 방법으로, 그리고 지속적으로 더 많은 데이터셋을 추가하여 모델들을 평가할 예정입니다. 데이터 등이 추가/변경됨으로 일부 모델의 점수는 변경될 수 있음에 대해 미리 양해 부탁 드립니다. 더 많은 모델들이 더 많은 데이터로 평가될 수 있도록 최선을 다하겠습니다.

고려대학교 NLP & AI Lab / 업스테이지