BramVanroy
commited on
Commit
•
e00e334
1
Parent(s):
906ad2d
init model
Browse files- README.md +140 -0
- added_tokens.json +30 -0
- all_results.json +24 -0
- config.json +32 -0
- generated_predictions.txt +128 -0
- generation_config.json +7 -0
- pytorch_model.bin +3 -0
- special_tokens_map.json +107 -0
- spiece.model +3 -0
- tokenizer_config.json +113 -0
README.md
CHANGED
@@ -1,3 +1,143 @@
|
|
1 |
---
|
2 |
license: cc-by-nc-sa-4.0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
license: cc-by-nc-sa-4.0
|
3 |
+
tags:
|
4 |
+
- generated_from_trainer
|
5 |
+
- simplification
|
6 |
+
task_categories:
|
7 |
+
- text2text-generation
|
8 |
+
task_ids:
|
9 |
+
- text-simplification
|
10 |
+
language:
|
11 |
+
- nl
|
12 |
+
datasets:
|
13 |
+
- BramVanroy/chatgpt-dutch-simplification
|
14 |
+
metrics:
|
15 |
+
- rouge
|
16 |
+
- sari
|
17 |
+
model-index:
|
18 |
+
- name: BramVanroy/ul2-large-dutch-simplification-mai-2023
|
19 |
+
results:
|
20 |
+
- task:
|
21 |
+
type: text-simplification
|
22 |
+
name: Text Simplification
|
23 |
+
dataset:
|
24 |
+
type: BramVanroy/chatgpt-dutch-simplification
|
25 |
+
name: ChatGPT Dutch Simplification
|
26 |
+
metrics:
|
27 |
+
- type: rouge
|
28 |
+
value: 41.3871
|
29 |
+
name: Eval Rouge-1
|
30 |
+
- type: rouge
|
31 |
+
value: 19.6751
|
32 |
+
name: Eval Rouge-2
|
33 |
+
- type: rouge
|
34 |
+
value: 36.0469
|
35 |
+
name: Eval RougeL
|
36 |
+
- type: rouge
|
37 |
+
value: 36.1178
|
38 |
+
name: Eval RougeLsum
|
39 |
+
- type: sari
|
40 |
+
value: 54.3588
|
41 |
+
name: Eval SARI
|
42 |
+
- type: rouge
|
43 |
+
value: 43.8191
|
44 |
+
name: Test Rouge-1
|
45 |
+
- type: rouge
|
46 |
+
value: 21.7783
|
47 |
+
name: Test Rouge-2
|
48 |
+
- type: rouge
|
49 |
+
value: 39.3657
|
50 |
+
name: Test RougeL
|
51 |
+
- type: rouge
|
52 |
+
value: 39.3751
|
53 |
+
name: Test RougeLsum
|
54 |
+
- type: sari
|
55 |
+
value: 52.3752
|
56 |
+
name: Test SARI
|
57 |
+
widget:
|
58 |
+
- example_title: "Cooking"
|
59 |
+
text: "Op bepaalde tijdstippen verlang ik naar de smaakvolle culinaire creaties welke door de ambachtelijke expertise van mijn grootmoeder zijn vervaardigd."
|
60 |
+
|
61 |
---
|
62 |
+
|
63 |
+
# ul2-large-dutch-simplification-mai-2023
|
64 |
+
|
65 |
+
This model is intended to simplify Dutch sentences.
|
66 |
+
|
67 |
+
This model is a fine-tuned version of [yhavinga/ul2-large-dutch](https://huggingface.co/yhavinga/ul2-large-dutch) on
|
68 |
+
the [BramVanroy/chatgpt-dutch-simplification](https://huggingface.co/datasets/BramVanroy/chatgpt-dutch-simplification)
|
69 |
+
dataset.
|
70 |
+
|
71 |
+
The model was created in light of the master thesis of Charlotte Van de Velde in the Master of Science in Artificial
|
72 |
+
Intelligence (MAI) at KU Leuven in 2023. Charlotte is supervised by Vincent Vandeghinste and Bram Vanroy.
|
73 |
+
Dataset creation by Charlotte, model training by Bram.
|
74 |
+
|
75 |
+
## Quick links
|
76 |
+
|
77 |
+
- [Repository](https://github.com/BramVanroy/mai-simplification-nl-2023#22-hyperparameter-sweep): includes training code and model creation log
|
78 |
+
- [Dataset](https://huggingface.co/datasets/BramVanroy/chatgpt-dutch-simplification): `BramVanroy/chatgpt-dutch-simplification`
|
79 |
+
- [Parent model](https://huggingface.co/yhavinga/ul2-large-dutch): this model was finetuned on `yhavinga/ul2-large-dutch`
|
80 |
+
|
81 |
+
## Intended uses & limitations, and dataset
|
82 |
+
|
83 |
+
The model is intended for sentence-level simplification of Dutch. It might extend to document-level simplification
|
84 |
+
but most of the dataset is limited to sentences so document-level performance is not guaranteed.
|
85 |
+
|
86 |
+
The dataset has been generated automatically (cf.
|
87 |
+
[dataset description](https://huggingface.co/datasets/BramVanroy/chatgpt-dutch-simplification)) and has not been
|
88 |
+
manually verified. On top of that, this model has been fine-tuned and we did not scrutinize the parent model or its
|
89 |
+
training data. Output of the current model is therefore subject to unexpected results (as most if not all neural
|
90 |
+
networks).
|
91 |
+
|
92 |
+
Because the dataset was generated with ChatGPT, this model cannot be used for commercial purposes.
|
93 |
+
|
94 |
+
## Training procedure
|
95 |
+
|
96 |
+
### Training hyperparameters
|
97 |
+
|
98 |
+
The following hyperparameters were used during training:
|
99 |
+
- learning_rate: 0.0002927210895006501
|
100 |
+
- train_batch_size: 32
|
101 |
+
- optimizer: Adafactor
|
102 |
+
- num_epochs: 27
|
103 |
+
|
104 |
+
These hyperarameters were found through Bayesian hyperparameter search with `wandb`. This is described in the
|
105 |
+
[repository](https://github.com/BramVanroy/mai-simplification-nl-2023#22-hyperparameter-sweep).
|
106 |
+
|
107 |
+
### Training results
|
108 |
+
|
109 |
+
`eval` results are on the evaluation set, `predict` results are on the test set. These were achieved with
|
110 |
+
beam search (num_beams=3).
|
111 |
+
|
112 |
+
```json
|
113 |
+
{
|
114 |
+
"eval_gen_len": 21.404761904761905,
|
115 |
+
"eval_loss": 3.0882697105407715,
|
116 |
+
"eval_rouge1": 41.3871,
|
117 |
+
"eval_rouge2": 19.6751,
|
118 |
+
"eval_rougeL": 36.0469,
|
119 |
+
"eval_rougeLsum": 36.1178,
|
120 |
+
"eval_sari": 54.3588,
|
121 |
+
|
122 |
+
"predict_gen_len": 22.1484375,
|
123 |
+
"predict_loss": 2.7822625637054443,
|
124 |
+
"predict_rouge1": 43.8191,
|
125 |
+
"predict_rouge2": 21.7783,
|
126 |
+
"predict_rougeL": 39.3657,
|
127 |
+
"predict_rougeLsum": 39.3751,
|
128 |
+
"predict_sari": 52.3752
|
129 |
+
}
|
130 |
+
```
|
131 |
+
|
132 |
+
Note: the model seems to underperform compared to the
|
133 |
+
[base variant](https://huggingface.co/BramVanroy/ul2-small-dutch-simplification-mai-2023) of the model, achieving only
|
134 |
+
similar results with a much larger size. The reason for this may be found in the hyperparameters, where
|
135 |
+
this large model may have benefitted from a smaller learning rate in the optimisation space. In the hyperparameter
|
136 |
+
search, the learning rate spectrum was set to 1e-03 to 1e-04 but this might be too large for this model and size.
|
137 |
+
|
138 |
+
### Framework versions
|
139 |
+
|
140 |
+
- Transformers 4.29.2
|
141 |
+
- Pytorch 2.0.1+cu117
|
142 |
+
- Datasets 2.12.0
|
143 |
+
- Tokenizers 0.13.3
|
added_tokens.json
ADDED
@@ -0,0 +1,30 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"[new_id_0]": 32100,
|
3 |
+
"[new_id_10]": 32110,
|
4 |
+
"[new_id_11]": 32111,
|
5 |
+
"[new_id_12]": 32112,
|
6 |
+
"[new_id_13]": 32113,
|
7 |
+
"[new_id_14]": 32114,
|
8 |
+
"[new_id_15]": 32115,
|
9 |
+
"[new_id_16]": 32116,
|
10 |
+
"[new_id_17]": 32117,
|
11 |
+
"[new_id_18]": 32118,
|
12 |
+
"[new_id_19]": 32119,
|
13 |
+
"[new_id_1]": 32101,
|
14 |
+
"[new_id_20]": 32120,
|
15 |
+
"[new_id_21]": 32121,
|
16 |
+
"[new_id_22]": 32122,
|
17 |
+
"[new_id_23]": 32123,
|
18 |
+
"[new_id_24]": 32124,
|
19 |
+
"[new_id_25]": 32125,
|
20 |
+
"[new_id_26]": 32126,
|
21 |
+
"[new_id_27]": 32127,
|
22 |
+
"[new_id_2]": 32102,
|
23 |
+
"[new_id_3]": 32103,
|
24 |
+
"[new_id_4]": 32104,
|
25 |
+
"[new_id_5]": 32105,
|
26 |
+
"[new_id_6]": 32106,
|
27 |
+
"[new_id_7]": 32107,
|
28 |
+
"[new_id_8]": 32108,
|
29 |
+
"[new_id_9]": 32109
|
30 |
+
}
|
all_results.json
ADDED
@@ -0,0 +1,24 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"eval_gen_len": 21.404761904761905,
|
3 |
+
"eval_loss": 3.0882697105407715,
|
4 |
+
"eval_rouge1": 41.3871,
|
5 |
+
"eval_rouge2": 19.6751,
|
6 |
+
"eval_rougeL": 36.0469,
|
7 |
+
"eval_rougeLsum": 36.1178,
|
8 |
+
"eval_runtime": 22.6659,
|
9 |
+
"eval_samples": 126,
|
10 |
+
"eval_samples_per_second": 5.559,
|
11 |
+
"eval_sari": 54.3588,
|
12 |
+
"eval_steps_per_second": 0.706,
|
13 |
+
"predict_gen_len": 22.1484375,
|
14 |
+
"predict_loss": 2.7822625637054443,
|
15 |
+
"predict_rouge1": 43.8191,
|
16 |
+
"predict_rouge2": 21.7783,
|
17 |
+
"predict_rougeL": 39.3657,
|
18 |
+
"predict_rougeLsum": 39.3751,
|
19 |
+
"predict_runtime": 24.0731,
|
20 |
+
"predict_samples": 128,
|
21 |
+
"predict_samples_per_second": 5.317,
|
22 |
+
"predict_sari": 52.3752,
|
23 |
+
"predict_steps_per_second": 0.665
|
24 |
+
}
|
config.json
ADDED
@@ -0,0 +1,32 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "yhavinga/ul2-large-dutch",
|
3 |
+
"architectures": [
|
4 |
+
"T5ForConditionalGeneration"
|
5 |
+
],
|
6 |
+
"d_ff": 2816,
|
7 |
+
"d_kv": 64,
|
8 |
+
"d_model": 1024,
|
9 |
+
"decoder_start_token_id": 0,
|
10 |
+
"dense_act_fn": "gelu_new",
|
11 |
+
"dropout_rate": 0.1,
|
12 |
+
"eos_token_id": 1,
|
13 |
+
"feed_forward_proj": "gated-gelu",
|
14 |
+
"initializer_factor": 1.0,
|
15 |
+
"is_encoder_decoder": true,
|
16 |
+
"is_gated_act": true,
|
17 |
+
"layer_norm_epsilon": 1e-06,
|
18 |
+
"model_type": "t5",
|
19 |
+
"n_positions": 512,
|
20 |
+
"num_decoder_layers": 24,
|
21 |
+
"num_heads": 16,
|
22 |
+
"num_layers": 24,
|
23 |
+
"output_past": true,
|
24 |
+
"pad_token_id": 0,
|
25 |
+
"relative_attention_max_distance": 128,
|
26 |
+
"relative_attention_num_buckets": 32,
|
27 |
+
"tie_word_embeddings": false,
|
28 |
+
"torch_dtype": "float32",
|
29 |
+
"transformers_version": "4.29.2",
|
30 |
+
"use_cache": true,
|
31 |
+
"vocab_size": 32128
|
32 |
+
}
|
generated_predictions.txt
ADDED
@@ -0,0 +1,128 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
Onze hersenen kunnen ingewikkelde dingen doen doordat ze verbindingen maken tussen zenuwcellen die informatie verwerken en doorsturen via zenuwcellen.
|
2 |
+
We hebben de ziekte onderzocht door middel van klinische observatie en laboratoriumtests.
|
3 |
+
Om deze opdracht goed te kunnen uitvoeren, moet je veel weten over de materie en de wetgeving.
|
4 |
+
Het is nooit verstandig om te voorspellen wat er zou kunnen gebeuren door alleen te denken aan wat er zou kunnen gebeuren door onverwachte omstandigheden.
|
5 |
+
Hij was niet goed in praten, dus het was moeilijk om het concept goed uit te leggen.
|
6 |
+
Bij het uitvoeren van de taak waren er een paar onverwachte problemen die de uitkomst van de taak beïnvloedden.
|
7 |
+
Mensen veroorzaken de klimaatverandering door het uitstoten van broeikasgassen.
|
8 |
+
Omdat deze materie ingewikkeld is, kan er soms verwarring ontstaan door de manier waarop we dit concept gebruiken.
|
9 |
+
Kwantumverstrengeling tussen twee deeltjes betekent dat de toestand van het ene deeltje invloed heeft op de toestand van het andere deeltje.
|
10 |
+
Het is belangrijk om goed na te denken over wat er kan gebeuren als je een bepaalde beslissing maakt.
|
11 |
+
Het constructivisme gaat over hoe we kennis krijgen door actief te handelen en interactie met anderen te hebben.
|
12 |
+
Het is belangrijk om te bedenken wat we kunnen doen om klimaatverandering tegen te gaan.
|
13 |
+
Hoewel ze niet goed genoeg was, heeft ze geen kans gehad om haar vaardigheden te laten zien.
|
14 |
+
Als je te veel suiker eet, kun je problemen krijgen met je hart en bloedvaten, zoals diabetes, hartproblemen, nefropathie, neuropathie en cardiovasculaire problemen.
|
15 |
+
Het is belangrijk om na te denken over hoe we duurzame energiebronnen kunnen gebruiken.
|
16 |
+
Mensen ervaren menselijke ervaringen op een manier die niet alleen afhangt van hun cultuur en geschiedenis, maar ook van hun achtergrond.
|
17 |
+
Om dit probleem op te lossen, moeten verschillende experts samenwerken en naar het grotere geheel kijken.
|
18 |
+
Mensen produceren gassen die bijdragen aan het veranderen van het klimaat.
|
19 |
+
Mensen weten niet goed hoe ze een vaginale ring kunnen gebruiken, ook al is het al heel lang bekend.
|
20 |
+
De manier waarop deze auto door de lucht beweegt zorgt ervoor dat het inparkeren makkelijk en snel gaat.
|
21 |
+
Mensen willen altijd met elkaar praten en samenleven, wat vaak leidt tot groepsgedrag en het vormen van gemeenschappen.
|
22 |
+
Kwantummechanica gaat over hele kleine deeltjes en hoe ze zich gedragen als golven en deeltjes tegelijkertijd.
|
23 |
+
Westerse filosofie heeft de neiging om te denken dat de mensheid het centrum van het universum is.
|
24 |
+
Als de data niet goed is, kan dat ervoor zorgen dat de resultaten niet consistent zijn.
|
25 |
+
Elektromagnetische straling kan gammastraling zijn met veel frequenties en energieën, of radiogolven met lage frequenties en energieën.
|
26 |
+
Het menselijk brein is ingewikkeld en heeft verschillende onderdelen zoals zien, onthouden, praten en aandacht.
|
27 |
+
Hoewel de medicatie en leefstijlinterventie werkten, verbeterde de gezondheid van de deelnemers niet.
|
28 |
+
In het speechen gebruikt men vaak overdrijving en metaforen om de boodschap beter te laten klinken.
|
29 |
+
Ik denk dat het invoeren van deze nieuwe software geen problemen zal veroorzaken met de huidige systemen.
|
30 |
+
Als we verder denken op basis van deze gegevens, kunnen we verkeerde conclusies trekken.
|
31 |
+
Kwantummechanica is gebaseerd op moeilijke wiskunde en vereist veel kennis van wiskunde.
|
32 |
+
Om te bepalen of een idee waar is, moet je er goed over nadenken en bewijs verzamelen.
|
33 |
+
Het verschijnsel is moeilijk te begrijpen omdat het niet goed te voorspellen is.
|
34 |
+
Het is duidelijk dat de behandeling afhankelijk is van verschillende factoren, zoals de kenmerken van de patiënt en de medicijnen die hij gebruikt.
|
35 |
+
Het is moeilijk om beleidsmakers te begrijpen als verschillende partijen in het financiële systeem samenwerken.
|
36 |
+
Het oppompen van stikstofhoudende verbindingen in de grond zorgt ervoor dat het ecosysteem beter blijft functioneren.
|
37 |
+
Als ons brein niet goed werkt, kunnen we de realiteit niet begrijpen zoals die is.
|
38 |
+
Als je de informatie over de kwestie hebt bestudeerd, kun je een conclusie trekken die redelijk is.
|
39 |
+
De neurowetenschap heeft veel invloed gehad op hoe we ons bewustzijn ervaren.
|
40 |
+
Als je het menselijk lichaam bekijkt, zie je dat er verschillende soorten anatomische structuren zijn die allemaal hun eigen functies en processen hebben.
|
41 |
+
Kwantumsuperpositie betekent dat een deeltje op meerdere plekken tegelijk kan zijn totdat iemand het bekijkt of meet, waardoor de golffunctie verandert.
|
42 |
+
Als twee oppervlakken elkaar raken, beïnvloedt de kracht waarmee ze elkaar raken de coëfficiënt tussen hen.
|
43 |
+
Om de kwantummechanica te begrijpen, moet je het idee van de kwantummechanica begrijpen.
|
44 |
+
Kwantumverstrengeling betekent dat als twee deeltjes ooit met elkaar in contact zijn gekomen, ze nog steeds met elkaar verbonden zijn, zelfs als ze ver uit elkaar zijn.
|
45 |
+
De gegevens laten zien dat het fenomeen steeds groter wordt, waardoor de economie slechter kan gaan werken.
|
46 |
+
Het is een moeilijke taak om deze ingewikkelde materie in begrijpelijke taal te vertalen.
|
47 |
+
We kunnen niet zeggen dat de resultaten niet overeenkomen met wat we hadden verwacht.
|
48 |
+
De coëfficiënt van de lineaire regressie tussen deze twee dingen is erg laag, dus het kan zijn dat het ene komt door het andere.
|
49 |
+
Het is belangrijk om te kijken naar hoe het systeem werkt als je een analyse maakt van beleid.
|
50 |
+
Om de onderneming goed te laten functioneren, moeten de verschillende afdelingen goed met elkaar samenwerken.
|
51 |
+
Doordat het kapitaal niet goed was verdeeld, werden de productieve bronnen niet goed benut.
|
52 |
+
Omdat de ziekte erg besmettelijk is, is het moeilijk om te weten wat er gaat gebeuren en hoe het gaat.
|
53 |
+
De manier waarop moderne kunst in een oude museumzaal is geplaatst, maakte de tentoonstelling interessant.
|
54 |
+
Om samen tot een oplossing te komen, moet je compromissen sluiten.
|
55 |
+
Als je dingen doet die niet passen bij wat iemand gelooft, kan dat voor stress zorgen.
|
56 |
+
Deze discussie gaat over wat kennis en waarheid is.
|
57 |
+
Het voorspellen van toekomstige groei betekent dat er binnenkort veel meer mensen zullen zijn die deze gegevens gebruiken.
|
58 |
+
De genetische structuur van een organisme bepaalt hoe het zich gedraagt.
|
59 |
+
De virtuele werkelijkheid is een omgeving die de manier waarop we dingen waarnemen beïnvloedt.
|
60 |
+
Linguïstische relativiteit betekent dat hoe we praten invloed heeft op hoe we de wereld zien en begrijpen.
|
61 |
+
Hoe iemand eruitziet wordt beïnvloed door hun genen en omgeving.
|
62 |
+
Een nepmedicijn dat geen actieve ingrediënten bevat, werkt beter bij mensen die al klachten hebben.
|
63 |
+
De cognitieve dissonantietheorie zegt dat mensen geneigd zijn om inconsistenties tussen hun gedragingen te verminderen of te elimineren om harmonie te behouden.
|
64 |
+
Mensen gebruiken het woord individualisme om te beschrijven of culturen meer gericht zijn op het beschermen van je eigen vrijheid of op het bevorderen van sociale relaties.
|
65 |
+
De betekenis van de apocalyptische profetieën was niet goed te begrijpen voor de gewone persoon.
|
66 |
+
Je kunt niet zomaar zeggen dat iets altijd zo is geweest en dat het altijd zo zal blijven.
|
67 |
+
Mensen maken de aarde warmer door het verbranden van fossiele brandstoffen en het gebruik van landbouwmethoden.
|
68 |
+
Hoewel de informatie erg verschillend is, wordt de analyse van de gegevens beschermd door strenge regels en analyses.
|
69 |
+
De werknemers waren dol op hun werkgevers en beloonden hen altijd met lof en bewondering.
|
70 |
+
Het is duidelijk dat klimaatverandering minder populair is geworden sinds de COVID-19-pandemie.
|
71 |
+
Kwantumverstrengeling betekent dat twee deeltjes met elkaar verbonden zijn op een manier waarbij de toestand van het ene deeltje altijd samenhangt met de toestand van het andere deeltje, zelfs als ze ver uit elkaar zijn.
|
72 |
+
We hebben het protocol niet goed genoeg toegepast, waardoor we minder goede resultaten hebben in ons experimenten.
|
73 |
+
Bij een moeilijke taak kan er soms iets misgaan.
|
74 |
+
Het universum is zo groot en het groeit steeds verder, dat het bijna onmogelijk is om alles te begrijpen.
|
75 |
+
Als twee deeltjes aan elkaar vastzitten, beïnvloedt de toestand van het ene deeltje direct de toestand van het andere, zelfs als ze ver uit elkaar zijn.
|
76 |
+
Kwantumverstrengeling is belangrijk in de natuurkunde van hele kleine deeltjes en hun interacties.
|
77 |
+
Ons brein is een ingewikkeld apparaat dat allerlei dingen doet, zoals zien, onthouden, praten en emoties voelen.
|
78 |
+
Het is duidelijk dat mensen verschillen in hun denkvermogen.
|
79 |
+
Cognitieve dissonantie is wanneer iemands gedrag niet past bij wat ze denken en doen.
|
80 |
+
Het is belangrijk om over dit onderwerp veel te weten.
|
81 |
+
Wanneer iemand zich bewust wordt van zinloosheid of betekenis in zijn leven, kan hij of zij zich zorgen maken over wat er zou kunnen gebeuren.
|
82 |
+
Het is lastig om precies te begrijpen hoe onze hersenen werken en hoe we ons gedrag beïnvloeden.
|
83 |
+
Omdat de hypotheekrente momenteel laag is, zou je de rente kunnen vastzetten voor een langere periode om te profiteren van de lage rentetarieven.
|
84 |
+
Quantumverstrengeling is wanneer twee of meer deeltjes zo verbonden zijn dat de toestand van het ene deeltje afhankelijk is van het andere deeltje, zelfs als ze ver uit elkaar zijn.
|
85 |
+
Een moeilijke taak kost meer tijd om te voltooien.
|
86 |
+
De geprojecteerde economische groei van de BRICS-landen is hoger dan de groei van de S&P 500-index en de Amerikaanse dollar.
|
87 |
+
Door klimaatverandering worden er steeds meer extreme weersomstandigheden zoals overstromingen, droogtes en hittegolven.
|
88 |
+
Er zijn al verschillende politieke partijen die hun mening hebben gegeven over de zaak, ook al weten we nog niet precies wat er gaat gebeuren.
|
89 |
+
Het is duidelijk dat de plannen van de overheid om de economie te herstructureren invloed zullen hebben op de werkgelegenheid en de inkomens van de lokale bevolking.
|
90 |
+
De tekst was verwarrend omdat de verschillende paragrafen niet goed bij elkaar pasten.
|
91 |
+
De onderzoekers dachten dat het verhogen van de dosis het medicijn beter zou werken.
|
92 |
+
Het bloed door het lichaam gaat via de zenuwen en hormonen die door de endocriene klieren worden uitscheiden.
|
93 |
+
De manier waarop wetenschappelijke experimenten werken, is gebaseerd op een manier die we hypothetisch-deductieve redenering noemen.
|
94 |
+
De meeste mensen vinden het lastig om de ingewikkelde ideeën over hoe dingen werken te begrijpen.
|
95 |
+
Het utilitarisme zegt dat het goed is om zoveel mogelijk geluk te hebben voor de meeste mensen.
|
96 |
+
Als er niet genoeg verschillende mensen werken, kunnen sommige mensen zich buitengesloten voelen en andere mensen niet.
|
97 |
+
Om dit wiskundige probleem op te lossen, heb je veel kennis van algebra en getaltheorie nodig.
|
98 |
+
Het is moeilijk om de realiteit te begrijpen als je veel stress hebt.
|
99 |
+
Door verschillende expertises te combineren, hebben we het probleem beter begrepen.
|
100 |
+
Het is belangrijk dat iedereen het eens is over hoe we deze strategie gaan uitvoeren.
|
101 |
+
De onderzoekers hebben onderzocht hoe sterk het drinken van alcohol bij oudere mannen invloed heeft op hun denkvermogen.
|
102 |
+
Als we een woord vervangen door een zin, kan het soms moeilijk zijn om te begrijpen wat het betekent.
|
103 |
+
In deze studie ga ik op zoek naar manieren waarop mensen hun identiteit kunnen vormgeven.
|
104 |
+
Als verschillende mensen binnen een organisatie samenwerken, kan het soms problemen veroorzaken die we niet hadden verwacht.
|
105 |
+
Als de gegevens steeds veranderen, is het moeilijker om te voorspellen wat er gaat gebeuren.
|
106 |
+
Het menselijk brein is ingewikkeld, daarom is het lastig om precies te begrijpen hoe het werkt.
|
107 |
+
Omdat taal erg ingewikkeld is, zijn er verschillende manieren om een zin te begrijpen.
|
108 |
+
De relativiteitstheorie gaat over lichtsnelheid in een vacuüm, en zegt dat deze altijd constant is.
|
109 |
+
Kunstvoorwerpen hebben altijd een geschiedenis en moeten worden begrepen in hun context om te begrijpen wat ze betekenen.
|
110 |
+
Als de verschillende onderdelen van een ecosysteem met elkaar verbonden zijn, is het moeilijk om te voorspellen wat er gaat gebeuren.
|
111 |
+
De groei van neuronen in de hippocampus wordt beïnvloed door verschillende dingen, zoals de manier waarop onze hersenen werken en onze genen.
|
112 |
+
De kwantumfysica gaat over hele kleine deeltjes en is gebaseerd op wiskunde.
|
113 |
+
Als je te veel dingen tegelijk doet, word je moe in je hoofd en ga je slechter presteren.
|
114 |
+
Het is niet altijd duidelijk wanneer het gesteente beweegt vanwege de seismische activiteit.
|
115 |
+
De technologieën die we tegenwoordig gebruiken, zijn erg ingewikkeld en kunnen ons vermogen om ze te begrijpen en te beheersen ver te boven gaan.
|
116 |
+
Om te kijken hoe deeltjes zich gedragen, kun je een microscoop gebruiken.
|
117 |
+
We moeten het eens worden over hoe belangrijk de resultaten van het onderzoek zijn voordat we onze conclusies trekken.
|
118 |
+
Het is belangrijk dat we samen werken om de duurzame ontwikkelingsdoelen te bereiken.
|
119 |
+
Het corpus callosum is een witte stofband die de twee hersenhelften met elkaar verbindt en ervoor zorgt dat ze met elkaar kunnen praten.
|
120 |
+
De kwantummechanica is moeilijk te begrijpen voor de meeste mensen omdat het een vaag idee is.
|
121 |
+
Het is belangrijk om te bedenken hoe een uitdrukking gebruikt wordt in verschillende situaties.
|
122 |
+
Om een fysieke substantie te sublimeren, moet je eerst de vaste fase naar de gasvormige fase brengen, voordat je een vloeibare fase kunt maken.
|
123 |
+
Het is lastig om te begrijpen hoe de parameters elkaar beïnvloeden omdat het erg ingewikkeld is.
|
124 |
+
Het dialect verschilt sterk van de standaardtaal.
|
125 |
+
Als er problemen zijn, kunnen de passagiers gebruikmaken van de nooduitgangen die zich aan beide kanten van het voertuig bevinden.
|
126 |
+
Om het onderzoek goed te kunnen doen, moeten wetenschappers samenwerken en alle aspecten van het probleem bekijken, ook die buiten hun eigen vakgebied.
|
127 |
+
De gedachte dat variatie in genetisch materiaal ervoor zorgt dat sommige dingen er anders uitzien, wordt ondersteund door de experimentele resultaten.
|
128 |
+
Acquisitie van taalkennis gebeurt door het opdoen van ervaringen met taal in verschillende situaties.
|
generation_config.json
ADDED
@@ -0,0 +1,7 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_from_model_config": true,
|
3 |
+
"decoder_start_token_id": 0,
|
4 |
+
"eos_token_id": 1,
|
5 |
+
"pad_token_id": 0,
|
6 |
+
"transformers_version": "4.29.2"
|
7 |
+
}
|
pytorch_model.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:7cd6cdca9ceabcd31cd8379c0f3dc62c79e44b847046593786f2f43c5345a482
|
3 |
+
size 3132793669
|
special_tokens_map.json
ADDED
@@ -0,0 +1,107 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"additional_special_tokens": [
|
3 |
+
"<extra_id_0>",
|
4 |
+
"<extra_id_1>",
|
5 |
+
"<extra_id_2>",
|
6 |
+
"<extra_id_3>",
|
7 |
+
"<extra_id_4>",
|
8 |
+
"<extra_id_5>",
|
9 |
+
"<extra_id_6>",
|
10 |
+
"<extra_id_7>",
|
11 |
+
"<extra_id_8>",
|
12 |
+
"<extra_id_9>",
|
13 |
+
"<extra_id_10>",
|
14 |
+
"<extra_id_11>",
|
15 |
+
"<extra_id_12>",
|
16 |
+
"<extra_id_13>",
|
17 |
+
"<extra_id_14>",
|
18 |
+
"<extra_id_15>",
|
19 |
+
"<extra_id_16>",
|
20 |
+
"<extra_id_17>",
|
21 |
+
"<extra_id_18>",
|
22 |
+
"<extra_id_19>",
|
23 |
+
"<extra_id_20>",
|
24 |
+
"<extra_id_21>",
|
25 |
+
"<extra_id_22>",
|
26 |
+
"<extra_id_23>",
|
27 |
+
"<extra_id_24>",
|
28 |
+
"<extra_id_25>",
|
29 |
+
"<extra_id_26>",
|
30 |
+
"<extra_id_27>",
|
31 |
+
"<extra_id_28>",
|
32 |
+
"<extra_id_29>",
|
33 |
+
"<extra_id_30>",
|
34 |
+
"<extra_id_31>",
|
35 |
+
"<extra_id_32>",
|
36 |
+
"<extra_id_33>",
|
37 |
+
"<extra_id_34>",
|
38 |
+
"<extra_id_35>",
|
39 |
+
"<extra_id_36>",
|
40 |
+
"<extra_id_37>",
|
41 |
+
"<extra_id_38>",
|
42 |
+
"<extra_id_39>",
|
43 |
+
"<extra_id_40>",
|
44 |
+
"<extra_id_41>",
|
45 |
+
"<extra_id_42>",
|
46 |
+
"<extra_id_43>",
|
47 |
+
"<extra_id_44>",
|
48 |
+
"<extra_id_45>",
|
49 |
+
"<extra_id_46>",
|
50 |
+
"<extra_id_47>",
|
51 |
+
"<extra_id_48>",
|
52 |
+
"<extra_id_49>",
|
53 |
+
"<extra_id_50>",
|
54 |
+
"<extra_id_51>",
|
55 |
+
"<extra_id_52>",
|
56 |
+
"<extra_id_53>",
|
57 |
+
"<extra_id_54>",
|
58 |
+
"<extra_id_55>",
|
59 |
+
"<extra_id_56>",
|
60 |
+
"<extra_id_57>",
|
61 |
+
"<extra_id_58>",
|
62 |
+
"<extra_id_59>",
|
63 |
+
"<extra_id_60>",
|
64 |
+
"<extra_id_61>",
|
65 |
+
"<extra_id_62>",
|
66 |
+
"<extra_id_63>",
|
67 |
+
"<extra_id_64>",
|
68 |
+
"<extra_id_65>",
|
69 |
+
"<extra_id_66>",
|
70 |
+
"<extra_id_67>",
|
71 |
+
"<extra_id_68>",
|
72 |
+
"<extra_id_69>",
|
73 |
+
"<extra_id_70>",
|
74 |
+
"<extra_id_71>",
|
75 |
+
"<extra_id_72>",
|
76 |
+
"<extra_id_73>",
|
77 |
+
"<extra_id_74>",
|
78 |
+
"<extra_id_75>",
|
79 |
+
"<extra_id_76>",
|
80 |
+
"<extra_id_77>",
|
81 |
+
"<extra_id_78>",
|
82 |
+
"<extra_id_79>",
|
83 |
+
"<extra_id_80>",
|
84 |
+
"<extra_id_81>",
|
85 |
+
"<extra_id_82>",
|
86 |
+
"<extra_id_83>",
|
87 |
+
"<extra_id_84>",
|
88 |
+
"<extra_id_85>",
|
89 |
+
"<extra_id_86>",
|
90 |
+
"<extra_id_87>",
|
91 |
+
"<extra_id_88>",
|
92 |
+
"<extra_id_89>",
|
93 |
+
"<extra_id_90>",
|
94 |
+
"<extra_id_91>",
|
95 |
+
"<extra_id_92>",
|
96 |
+
"<extra_id_93>",
|
97 |
+
"<extra_id_94>",
|
98 |
+
"<extra_id_95>",
|
99 |
+
"<extra_id_96>",
|
100 |
+
"<extra_id_97>",
|
101 |
+
"<extra_id_98>",
|
102 |
+
"<extra_id_99>"
|
103 |
+
],
|
104 |
+
"eos_token": "</s>",
|
105 |
+
"pad_token": "<pad>",
|
106 |
+
"unk_token": "<unk>"
|
107 |
+
}
|
spiece.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:caa6e2f21aeec181276ab80273e3f869ce303ccb8602d68e0524783c3581092d
|
3 |
+
size 800223
|
tokenizer_config.json
ADDED
@@ -0,0 +1,113 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"additional_special_tokens": [
|
3 |
+
"<extra_id_0>",
|
4 |
+
"<extra_id_1>",
|
5 |
+
"<extra_id_2>",
|
6 |
+
"<extra_id_3>",
|
7 |
+
"<extra_id_4>",
|
8 |
+
"<extra_id_5>",
|
9 |
+
"<extra_id_6>",
|
10 |
+
"<extra_id_7>",
|
11 |
+
"<extra_id_8>",
|
12 |
+
"<extra_id_9>",
|
13 |
+
"<extra_id_10>",
|
14 |
+
"<extra_id_11>",
|
15 |
+
"<extra_id_12>",
|
16 |
+
"<extra_id_13>",
|
17 |
+
"<extra_id_14>",
|
18 |
+
"<extra_id_15>",
|
19 |
+
"<extra_id_16>",
|
20 |
+
"<extra_id_17>",
|
21 |
+
"<extra_id_18>",
|
22 |
+
"<extra_id_19>",
|
23 |
+
"<extra_id_20>",
|
24 |
+
"<extra_id_21>",
|
25 |
+
"<extra_id_22>",
|
26 |
+
"<extra_id_23>",
|
27 |
+
"<extra_id_24>",
|
28 |
+
"<extra_id_25>",
|
29 |
+
"<extra_id_26>",
|
30 |
+
"<extra_id_27>",
|
31 |
+
"<extra_id_28>",
|
32 |
+
"<extra_id_29>",
|
33 |
+
"<extra_id_30>",
|
34 |
+
"<extra_id_31>",
|
35 |
+
"<extra_id_32>",
|
36 |
+
"<extra_id_33>",
|
37 |
+
"<extra_id_34>",
|
38 |
+
"<extra_id_35>",
|
39 |
+
"<extra_id_36>",
|
40 |
+
"<extra_id_37>",
|
41 |
+
"<extra_id_38>",
|
42 |
+
"<extra_id_39>",
|
43 |
+
"<extra_id_40>",
|
44 |
+
"<extra_id_41>",
|
45 |
+
"<extra_id_42>",
|
46 |
+
"<extra_id_43>",
|
47 |
+
"<extra_id_44>",
|
48 |
+
"<extra_id_45>",
|
49 |
+
"<extra_id_46>",
|
50 |
+
"<extra_id_47>",
|
51 |
+
"<extra_id_48>",
|
52 |
+
"<extra_id_49>",
|
53 |
+
"<extra_id_50>",
|
54 |
+
"<extra_id_51>",
|
55 |
+
"<extra_id_52>",
|
56 |
+
"<extra_id_53>",
|
57 |
+
"<extra_id_54>",
|
58 |
+
"<extra_id_55>",
|
59 |
+
"<extra_id_56>",
|
60 |
+
"<extra_id_57>",
|
61 |
+
"<extra_id_58>",
|
62 |
+
"<extra_id_59>",
|
63 |
+
"<extra_id_60>",
|
64 |
+
"<extra_id_61>",
|
65 |
+
"<extra_id_62>",
|
66 |
+
"<extra_id_63>",
|
67 |
+
"<extra_id_64>",
|
68 |
+
"<extra_id_65>",
|
69 |
+
"<extra_id_66>",
|
70 |
+
"<extra_id_67>",
|
71 |
+
"<extra_id_68>",
|
72 |
+
"<extra_id_69>",
|
73 |
+
"<extra_id_70>",
|
74 |
+
"<extra_id_71>",
|
75 |
+
"<extra_id_72>",
|
76 |
+
"<extra_id_73>",
|
77 |
+
"<extra_id_74>",
|
78 |
+
"<extra_id_75>",
|
79 |
+
"<extra_id_76>",
|
80 |
+
"<extra_id_77>",
|
81 |
+
"<extra_id_78>",
|
82 |
+
"<extra_id_79>",
|
83 |
+
"<extra_id_80>",
|
84 |
+
"<extra_id_81>",
|
85 |
+
"<extra_id_82>",
|
86 |
+
"<extra_id_83>",
|
87 |
+
"<extra_id_84>",
|
88 |
+
"<extra_id_85>",
|
89 |
+
"<extra_id_86>",
|
90 |
+
"<extra_id_87>",
|
91 |
+
"<extra_id_88>",
|
92 |
+
"<extra_id_89>",
|
93 |
+
"<extra_id_90>",
|
94 |
+
"<extra_id_91>",
|
95 |
+
"<extra_id_92>",
|
96 |
+
"<extra_id_93>",
|
97 |
+
"<extra_id_94>",
|
98 |
+
"<extra_id_95>",
|
99 |
+
"<extra_id_96>",
|
100 |
+
"<extra_id_97>",
|
101 |
+
"<extra_id_98>",
|
102 |
+
"<extra_id_99>"
|
103 |
+
],
|
104 |
+
"clean_up_tokenization_spaces": true,
|
105 |
+
"eos_token": "</s>",
|
106 |
+
"extra_ids": 100,
|
107 |
+
"model_max_length": 1000000000000000019884624838656,
|
108 |
+
"pad_token": "<pad>",
|
109 |
+
"sp_model_kwargs": {},
|
110 |
+
"tokenizer_class": "T5Tokenizer",
|
111 |
+
"unk_token": "<unk>",
|
112 |
+
"use_fast_tokenizer": false
|
113 |
+
}
|