keisuke-kiryu
commited on
Commit
·
5a8e2f7
1
Parent(s):
a956718
Update README.md
Browse files
README.md
CHANGED
@@ -5,8 +5,9 @@ language:
|
|
5 |
widget:
|
6 |
- text: "これは日本語の誤植を検出する真相学習モデルです。"
|
7 |
---
|
8 |
-
|
9 |
-
|
|
|
10 |
- 日本語の文章を入力すると各文字ごとに誤植である確率を出力します
|
11 |
- 本モデルは日本語の文章が入力されることを前提としています
|
12 |
- 各ラベルの意味は以下の通りです
|
@@ -24,10 +25,10 @@ widget:
|
|
24 |
- 誤り種類の詳細については学習データセットの元論文をご参照ください
|
25 |
- [日本語 Wikipedia の編集履歴に基づく 入力誤りデータセットと訂正システムの改良](https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/E8-3.pdf)
|
26 |
|
27 |
-
|
28 |
* 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
|
29 |
|
30 |
-
|
31 |
* **サンプルコード**
|
32 |
```python
|
33 |
from transformers import AutoTokenizer,AutoModelForTokenClassification
|
@@ -82,9 +83,9 @@ widget:
|
|
82 |
```
|
83 |
|
84 |
|
85 |
-
|
86 |
-
- 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。
|
87 |
- 本モデルは事前学習モデルのライセンス"CC-BY-SA 4.0"を継承します。
|
88 |
|
89 |
-
|
90 |
- ㈱リクルートは、本モデル利用による成果に関し、正確性、有用性、確実性、違法性の確認及び何らの保証も補償を行わないものとし、また、モデル利用によって利用者に生じた損害および第三者との間における紛争について㈱リクルートは一切責任を負いません。
|
|
|
5 |
widget:
|
6 |
- text: "これは日本語の誤植を検出する真相学習モデルです。"
|
7 |
---
|
8 |
+
# recruit-jp/japanese-typo-detector-roberta-base
|
9 |
+
|
10 |
+
## モデルの概要
|
11 |
- 日本語の文章を入力すると各文字ごとに誤植である確率を出力します
|
12 |
- 本モデルは日本語の文章が入力されることを前提としています
|
13 |
- 各ラベルの意味は以下の通りです
|
|
|
25 |
- 誤り種類の詳細については学習データセットの元論文をご参照ください
|
26 |
- [日本語 Wikipedia の編集履歴に基づく 入力誤りデータセットと訂正システムの改良](https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/E8-3.pdf)
|
27 |
|
28 |
+
## 学習データ
|
29 |
* 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
|
30 |
|
31 |
+
## モデルの使い方
|
32 |
* **サンプルコード**
|
33 |
```python
|
34 |
from transformers import AutoTokenizer,AutoModelForTokenClassification
|
|
|
83 |
```
|
84 |
|
85 |
|
86 |
+
## ライセンス
|
87 |
+
- 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル([ku-nlp/roberta-base-japanese-char-wwm](https://huggingface.co/ku-nlp/roberta-base-japanese-char-wwm))をFine-Tuningしたものです。
|
88 |
- 本モデルは事前学習モデルのライセンス"CC-BY-SA 4.0"を継承します。
|
89 |
|
90 |
+
## 免責事項
|
91 |
- ㈱リクルートは、本モデル利用による成果に関し、正確性、有用性、確実性、違法性の確認及び何らの保証も補償を行わないものとし、また、モデル利用によって利用者に生じた損害および第三者との間における紛争について㈱リクルートは一切責任を負いません。
|