seastar105/whisper-base-komix

Model Description

OpenAI의 whisper-base 모델을 아래 세가지 데이터셋으로 학습한 모델입니다.

한국어 음성 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=123)
주소 음성 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71556)
주요 영역별 회의 음성인식 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=464)

train_steps: 20000
warmup_steps: 2000
lr scheduler: linear warmup cosine decay
max learning rate: 1e-4
batch size: 256
max_grad_norm: 1.0
adamw_beta1: 0.9
adamw_beta2: 0.98

Evaluation

https://github.com/rtzr/Awesome-Korean-Speech-Recognition

위 레포지토리에서 주요 영역별 회의 음성을 제외한 테스트셋 결과입니다. 아래 테이블에서 whisper_base_komix가 본 모델 성능입니다.

+--------------------------+----------+-----------+---------------+------------+---------------+--------------+-------------+-------------+
|          Model           | cv_15_ko | fleurs_ko | kcall_testset | kconf_test | kcounsel_test | klec_testset | kspon_clean | kspon_other |
+--------------------------+----------+-----------+---------------+------------+---------------+--------------+-------------+-------------+
|       whisper_base       |  21.16   |   11.89   |     42.56     |   27.62    |     22.24     |    28.65     |    30.41    |    27.02    |
|    whisper_base_kspon    |  26.63   |   13.95   |     42.05     |   29.61    |     26.21     |    28.72     |    12.58    |    13.48    |
|    whisper_base_komix    |  15.42   |    7.16   |     20.86     |   14.24    |     12.64     |    13.44     |    12.26    |    12.12    |
|      whisper_turbo       |   5.38   |    3.95   |      5.89     |    9.77    |      4.21     |     9.27     |    16.49    |    13.54    |
+--------------------------+----------+-----------+---------------+------------+---------------+--------------+-------------+-------------+