keisuke-kiryu
commited on
Commit
·
a956718
1
Parent(s):
52add50
Update README.md
Browse files
README.md
CHANGED
@@ -21,14 +21,14 @@ widget:
|
|
21 |
|6 | substitution |1文字の入れ替え
|
22 |
|7 | transposition |隣接する2文字間の転置
|
23 |
|8 | others | その他の入力誤り
|
24 |
-
|
25 |
-
|
26 |
|
27 |
# 学習データ
|
28 |
-
|
29 |
|
30 |
# モデルの使い方
|
31 |
-
|
32 |
```python
|
33 |
from transformers import AutoTokenizer,AutoModelForTokenClassification
|
34 |
import torch
|
@@ -53,7 +53,7 @@ widget:
|
|
53 |
err_desc = f"Detected!(err_index={err_type_ind}, err_name={err_name})" if err_type_ind > 0 else f""
|
54 |
print(f"{chara} : {err_desc}")
|
55 |
```
|
56 |
-
|
57 |
```
|
58 |
こ :
|
59 |
れ :
|
|
|
21 |
|6 | substitution |1文字の入れ替え
|
22 |
|7 | transposition |隣接する2文字間の転置
|
23 |
|8 | others | その他の入力誤り
|
24 |
+
- 誤り種類の詳細については学習データセットの元論文をご参照ください
|
25 |
+
- [日本語 Wikipedia の編集履歴に基づく 入力誤りデータセットと訂正システムの改良](https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/E8-3.pdf)
|
26 |
|
27 |
# 学習データ
|
28 |
+
* 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
|
29 |
|
30 |
# モデルの使い方
|
31 |
+
* **サンプルコード**
|
32 |
```python
|
33 |
from transformers import AutoTokenizer,AutoModelForTokenClassification
|
34 |
import torch
|
|
|
53 |
err_desc = f"Detected!(err_index={err_type_ind}, err_name={err_name})" if err_type_ind > 0 else f""
|
54 |
print(f"{chara} : {err_desc}")
|
55 |
```
|
56 |
+
* **サンプルコードの出力例**
|
57 |
```
|
58 |
こ :
|
59 |
れ :
|