albert-base-japanese-v1-with-japanese

日本語事前学習済みALBERTモデルです
このモデルではTokenizerにBertJapaneseTokenizerクラスを利用しています
albert-base-japanese-v1よりトークナイズ処理が楽になっています

How to use

ファインチューニング

このモデルはPreTrainedモデルです
基本的には各種タスク用にファインチューニングして使用されることを想定しています

Fill-Mask

for PyTorch

from transformers import (
    AutoModelForMaskedLM, AutoTokenizer
)


tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="pt")
mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
_, result = predict[0, mask_index].topk(5)

print(tokenizer.convert_ids_to_tokens(result.tolist()))

for TensorFlow

from transformers import (
    TFAutoModelForMaskedLM, AutoTokenizer
)
import tensorflow as tf


tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="tf")
mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
result = tf.math.top_k(predict[0, mask_index], k=5)

print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))

Training Data

学習には

を利用しています

Tokenizer

トークナイザーはBertJapaneseTokenizerクラスを利用しています
こちらも学習データは同様です

Licenese

The MIT license

Downloads last month
192
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.