heegyu commited on
Commit
f660ce0
1 Parent(s): 02e1f8a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +5 -4
README.md CHANGED
@@ -20,6 +20,9 @@ pipeline_tag: text-generation
20
  - 1024 max_seq_len
21
  - 파라미터 수: 163M
22
 
 
 
 
23
  ## 학습 환경 및 하이퍼파라미터
24
  - TPU V2-8
25
  - Learning Rate: 6e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
@@ -43,6 +46,7 @@ pipeline_tag: text-generation
43
  - 국립국어원 구어 말뭉치(1.1GB)
44
  - 국립국어원 신문 말뭉치(~2022, 17GB)
45
  - 청와대 국민청원(525MB)
 
46
  데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
47
  총 토큰 수는 약 7B임
48
 
@@ -64,8 +68,5 @@ print(pipe("싸늘하다. 가슴에 비수가 날아와 꽂힌다. ", repetition
64
  [{'generated_text': "싸늘하다. 가슴에 비수가 날아와 꽂힌다. 救國者, 이것이 바로 한비자다, 그대의 용사다」\n『太平御覽』 「答薩於蕭金可書記事大會(太平朝覽)」.\n'아타시메시(Triasmehi…)'라고 하는 이 말은 일본어 '하츠네테키'(ハートとキルス)에 더 가까운 말이다. 일본의 역사학자 다카야마 세이시가 쓴 『토쿠이 테루오미(徳井奥義三)』에서 '도적'"}]
65
  ```
66
 
67
- ## Issues
68
- - [ ] 나무위키 전처리가 잘못되어 }}}가 자주 등장.. 추후 재학습 예정
69
-
70
  ## 주의사항
71
- 이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함되어있으며, 별로의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.
 
20
  - 1024 max_seq_len
21
  - 파라미터 수: 163M
22
 
23
+ ### 성능 벤치마크
24
+ <img src="https://github.com/HeegyuKim/language-model/blob/63d8bd7cd39f25e87e0e376cdd18df3f8b460dee/image/benchmark0304.png?raw=true" />
25
+
26
  ## 학습 환경 및 하이퍼파라미터
27
  - TPU V2-8
28
  - Learning Rate: 6e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
 
46
  - 국립국어원 구어 말뭉치(1.1GB)
47
  - 국립국어원 신문 말뭉치(~2022, 17GB)
48
  - 청와대 국민청원(525MB)
49
+
50
  데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
51
  총 토큰 수는 약 7B임
52
 
 
68
  [{'generated_text': "싸늘하다. 가슴에 비수가 날아와 꽂힌다. 救國者, 이것이 바로 한비자다, 그대의 용사다」\n『太平御覽』 「答薩於蕭金可書記事大會(太平朝覽)」.\n'아타시메시(Triasmehi…)'라고 하는 이 말은 일본어 '하츠네테키'(ハートとキルス)에 더 가까운 말이다. 일본의 역사학자 다카야마 세이시가 쓴 『토쿠이 테루오미(徳井奥義三)』에서 '도적'"}]
69
  ```
70
 
 
 
 
71
  ## 주의사항
72
+ 이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함됐을 수 있으며, 별로의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.