File size: 13,506 Bytes
a3d2d38
 
c47d9eb
 
 
 
 
d779c42
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
474fc26
a3d2d38
c47d9eb
 
 
 
df70452
 
 
 
 
 
dc452bc
df70452
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c47d9eb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
df70452
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c47d9eb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d779c42
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
---
license: mit
tags:
- generated_from_trainer
model-index:
- name: results_v4c_gpt_medium_original_no_eval
  results: []
datasets:
- squad
- squad_v1_pt
language:
- pt
library_name: transformers
inference:
  parameters:
    do_sample: false
    max_new_tokens: 120
widget:
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Onde foi descoberta a Covid-19?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Onde a COVID-19 foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando a COVID-19 foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando a doença foi reportada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Em que ano a doença foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem foi o autor dos livros Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem foi o escritor dos livros Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem são os produtores executivos da série de TV Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Onde foram realizadas as filmagens da série Game of Thrones?<|assistant|>"
- text: '<|prompter|>O sistema de bibliotecas da universidade é dividido entre a biblioteca principal e cada uma das faculdades e escolas. O edifício principal é a Biblioteca Theodore M. Hesburgh, de 14 andares, concluída em 1963, que é o terceiro edifício a abrigar a principal coleção de livros. A frente da biblioteca é decorada com o mural da Palavra da Vida, projetado pelo artista Millard Sheets. Este mural é conhecido popularmente como "Touchdown Jesus" devido à sua proximidade com o Estádio Notre Dame e os braços de Jesus aparecendo para sinalizar um touchdown. Quantos andares possui a Biblioteca Theodore M. Hesburgh?<|assistant|>'
- text: '<|prompter|>O sistema de bibliotecas da universidade é dividido entre a biblioteca principal e cada uma das faculdades e escolas. O edifício principal é a Biblioteca Theodore M. Hesburgh, de 14 andares, concluída em 1963, que é o terceiro edifício a abrigar a principal coleção de livros. A frente da biblioteca é decorada com o mural da Palavra da Vida, projetado pelo artista Millard Sheets. Este mural é conhecido popularmente como "Touchdown Jesus" devido à sua proximidade com o Estádio Notre Dame e os braços de Jesus aparecendo para sinalizar um touchdown. Em que ano a Biblioteca Theodore M. Hesburgh em Notre Dame terminou?<|assistant|>'
- text: '<|prompter|>Rick Grimes é o xerife de uma pequena cidade do estado da Georgia, quando certo dia, é baleado por criminosos durante uma perseguição e entra em coma. Semanas depois, ele acorda em um hospital abandonado e totalmente danificado. Ao sair do hospital, Rick se encontra em um mundo pós-apocalíptico dominado por mortos-vivos. Depois de conhecer Morgan Jones e seu filho, Duane, que lhe explica o novo mundo, Rick decide ir para Atlanta atrás de sua família, onde um possível centro de refugiados foi montado pela Guarda Nacional. Ao chegar em Atlanta, ele logo descobre que a cidade está vazia e foi dominada pelos mortos. Quem o xerife Rick Grimes conheceu?<|assistant|>'
---

<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->

# gpt2-medium-squadv11-portuguese

This model is a fine-tuned version of [gpt2-medium](https://huggingface.co/gpt2-medium) on squad_v1.1_pt dataset.

** It's a chatbot experiment. ;)

The model was trained in 12 hours on a NVIDIA RTX 3060 12GB.


### Usage:
```
$ python3
>>> from transformers import pipeline, set_seed
>>> set_seed(42)
>>> generator = pipeline('text-generation', model="egonrp/gpt2-medium-squadv11-portuguese")
>>> result = generator('<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>', max_new_tokens=110, num_return_sequences=1, do_sample=False)
>>> print(result)
[{'generated_text': '<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>31 de dezembro do mesmo ano'}]
```



### Usage.2:
```
$ python3
>>> from transformers import GPT2LMHeadModel, GPT2Tokenizer, set_seed
>>> set_seed(42)
>>> model = GPT2LMHeadModel.from_pretrained("egonrp/gpt2-medium-squadv11-portuguese")
>>> tokenizer = GPT2Tokenizer.from_pretrained("egonrp/gpt2-medium-squadv11-portuguese")
>>> tokenizer.add_special_tokens({'pad_token': tokenizer.eos_token})
>>> model.config.pad_token_id = tokenizer.eos_token_id
>>> prompt_text = '<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>'
>>> encoded_prompt = tokenizer.encode(prompt_text, return_tensors="pt")
>>> output_sequences = model.generate(
    input_ids=encoded_prompt,
    do_sample=False,
    num_return_sequences=1,
    max_new_tokens=110,
    eos_token_id=model.config.eos_token_id,
    pad_token_id=model.config.eos_token_id
)
>>> decoded_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
>>> print(decoded_text)
<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>31 de dezembro do mesmo ano
```



## Model description

More information needed

## Intended uses & limitations

More information needed

## Training and evaluation data

More information needed

## Training procedure

```
git clone -b v4.27-release https://github.com/huggingface/transformers.git
cd transformers/examples/pytorch/language-modeling/
pip install -r requirements.txt
pip install transformers==v4.27.3
python3 run_clm.py \
    --model_name_or_path gpt2-medium \
    --train_file /home/egon/dev/gptsquad_data/converted_squad_merged_out_v4c.txt \
    --do_train \
    --num_train_epochs 3 \
    --per_device_train_batch_size 1 \
    --output_dir /home/egon/dev/gptsquad_model/results_v4c_gpt_medium_original_no_eval \
    --fp16
```

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 5e-05
- train_batch_size: 1
- eval_batch_size: 8
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 3.0
- mixed_precision_training: Native AMP

### Training results



### Framework versions

- Transformers 4.27.3
- Pytorch 2.0.0+cu117
- Datasets 2.10.1
- Tokenizers 0.13.2