Roy029 commited on
Commit
851d9c3
1 Parent(s): 517a8d3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +12 -1
README.md CHANGED
@@ -2,4 +2,15 @@
2
  license: apache-2.0
3
  ---
4
 
5
- 有害コンテンツ判定のための有害圧縮語彙モデル(32k) for NLP2024
 
 
 
 
 
 
 
 
 
 
 
 
2
  license: apache-2.0
3
  ---
4
 
5
+ # 有害コンテンツ判定のための有害濃縮語彙モデル(32k) for NLP2024
6
+
7
+ トークナイザのテキスト圧縮率を算出するためのモデル
8
+
9
+ ## Model Description
10
+
11
+ mC4から抽出した有害テキストに、SentencePieceのユニグラムモードを適用して構築した有害語彙モデル
12
+
13
+ ## 圧縮率の算出方法
14
+
15
+ 圧縮率 = 1 - (トークン数/元々のテキスト文字列長)
16
+