add readme
Browse filesSigned-off-by: mymusise <[email protected]>
README.md
ADDED
@@ -0,0 +1,36 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language: zh
|
3 |
+
---
|
4 |
+
|
5 |
+
# gpt2-medium-chinese
|
6 |
+
|
7 |
+
|
8 |
+
# Overview
|
9 |
+
|
10 |
+
- **Language model**: GPT2-Medium
|
11 |
+
- **Model size**: 1.2GiB
|
12 |
+
- **Language**: Chinese
|
13 |
+
- **Training data**: [wiki2019zh_corpus](https://github.com/brightmart/nlp_chinese_corpus)
|
14 |
+
- **Source code**: [gpt2-quickly](https://github.com/mymusise/gpt2-quickly)
|
15 |
+
|
16 |
+
# Example
|
17 |
+
|
18 |
+
```python
|
19 |
+
from transformers import BertTokenizer, TFGPT2LMHeadModel
|
20 |
+
from transformers import TextGenerationPipeline
|
21 |
+
|
22 |
+
tokenizer = BertTokenizer.from_pretrained("mymusise/EasternFantasyNoval")
|
23 |
+
model = TFGPT2LMHeadModel.from_pretrained("mymusise/EasternFantasyNoval")
|
24 |
+
|
25 |
+
text_generator = TextGenerationPipeline(model, tokenizer)
|
26 |
+
print(text_generator("今日", max_length=64, do_sample=True, top_k=10))
|
27 |
+
print(text_generator("跨越山丘", max_length=64, do_sample=True, top_k=10))
|
28 |
+
```
|
29 |
+
输出
|
30 |
+
```text
|
31 |
+
[{'generated_text': '今日 , 他 的 作 品 也 在 各 种 报 刊 发 表 。 201 1 年 , 他 开 设 了 他 的 网 页 版 《 the dear 》 。 此 外 , 他 还 在 各 种 电 视 节 目 中 出 现 过 。 2017 年 1 月 , 他 被 任'}]
|
32 |
+
[{'generated_text': '跨越山丘 , 其 中 有 三 分 之 二 的 地 区 被 划 入 山 区 。 最 高 峰 是 位 于 山 脚 上 的 大 岩 ( ) 。 其 中 的 山 脚 下 有 一 处 有 名 为 的 河 谷 , 因 其 高 度 在 其 中 , 而 得 名 。'}]
|
33 |
+
```
|
34 |
+
|
35 |
+
[Try it on colab](https://colab.research.google.com/github/mymusise/gpt2-quickly/blob/main/examples/gpt2_medium_chinese.ipynb)
|
36 |
+
|