File size: 3,409 Bytes
39581be
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
---
language:
- ko
base_model:
- answerdotai/ModernBERT-base
---
# Train_config

* deepspeed
* StableAdamW
* data Packing

# ListOfDataset

| 데이터셋 이름  | 설명 |
| ------------ | ----- |
| wikimedia/wikipedia                                | 위키미디어의 Wikipedia 데이터                                      |
| heegyu/namuwiki-extracted                          | Heegyu가 추출한 나무위키 데이터                                    |
| nsmc                                                | 네이버 영화 리뷰 감정 분석 데이터                                    |
| daekeun-ml/naver-news-summarization-ko             | Daekeun이 만든 네이버 뉴스 요약 데이터                            |
| leey4n/KR3                                         | Leey4n이 만든 KR-English 번역 말뭉치 데이터                      |
| dev7halo/bluehouse-national-petition               | Bluehouse 국민청원 데이터                                           |
| 025.일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터 | 일상생활 및 구어체 번역 말뭉치 데이터                               |
| 030.웹데이터 기반 한국어 말뭉치 데이터              | 웹데이터를 기반으로 한국어 말뭉치 데이터                            |
| 156.전문분야 영-한, 중-한 번역 말뭉치(식품)        | 식품 분야 전문 번역 말뭉치 데이터                                 |
| 전문분야 한영 말뭉치                               | 한영 번역을 위한 전문 분야 말뭉치 데이터                            |
| 029.대규모 구매도서 기반 한국어 말뭉치 데이터      | 대규모 구매도서를 기반으로 한국어 말뭉치 데이터                     |
| 국립국어원 유사 문장 말뭉치(버전 1.0)              | 국립국어원에서 제공하는 유사 문장 말뭉치 데이터 (버전 1.0)          |
| NIKL_DIALOGUE_2022_v1.0_JSON                      | NIKL 대화 데이터 (2022년 버전 1.0)                                  |
| NIKL_DX_2022_v1.0_JSON                            | NIKL 문장구조 분석 데이터 (2022년 버전 1.0)                        |
| NIKL_EC_2022_v1.0_JSON                            | NIKL 주제 영역 분석 데이터 (2022년 버전 1.0)                       |
| NIKL_KParlty_2021_v1.1_JSON                       | NIKL 국회회의록 데이터 (2021년 버전 1.1)                            |
| NIKL_MESSENGER_v2.0_JSON                          | NIKL 메신저 데이터 (2022년 버전 2.0)                                |
| NIKL_NEWSPAPER_2023_JSON_v1.0                     | NIKL 신문 기사 데이터 (2023년 버전 1.0)                             |
| 국립국어원 문서 요약 말뭉치(버전 1.0)              | 국립국어원에서 제공하는 문서 요약 말뭉치 데이터 (버전 1.0)          |
| NIKL_SC_v.1.0_JSON                                | NIKL 문단구조 분석 데이터 (버전 1.0)                                |
| NIKL_OPM_2022_v1.0_JSON                           | NIKL 의견/평가/의미분석 데이터 (2022년 버전 1.0)                   |
| NIKL_WRITTEN_v1.2_JSON                            | NIKL 문장 외에 특정 언어 형태를 가진 텍스트 데이터 (버전 1.2)       |

# Reference

* https://huggingface.co/answerdotai/ModernBERT-base