File size: 3,652 Bytes
854ca6c
1d9f8cf
 
 
 
 
3d3ee10
1d9f8cf
 
 
 
 
 
 
 
3d3ee10
 
1d9f8cf
 
 
 
 
 
854ca6c
1d9f8cf
854ca6c
1d9f8cf
854ca6c
1d9f8cf
 
 
f14e674
2f712d1
854ca6c
1d9f8cf
854ca6c
1d9f8cf
 
 
854ca6c
1d9f8cf
854ca6c
1d9f8cf
854ca6c
1d9f8cf
854ca6c
1d9f8cf
 
 
 
 
 
 
854ca6c
1d9f8cf
854ca6c
1d9f8cf
 
854ca6c
f48f5c1
 
1d9f8cf
854ca6c
1d9f8cf
854ca6c
1d9f8cf
854ca6c
1d9f8cf
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
---
license: cc-by-nc-4.0
language:
- hu
metrics:
- accuracy
- f1
model-index:
- name: huBERTPlain
  results:
  - task:
      type: text-classification
    metrics:
      - type: accuracy
        value: 0.74
      - type: f1
        value: 0.74
widget:
- text: "Az egységes gyakorlati alkalmazás érdekében, illetve abból a célból, hogy a független kisüzemi termelői státuszt valamennyi tagállamban könnyebben elismerjék a Bizottság 2022. január 1-jével kezdődően uniós végrehajtási rendeletben határozta meg: egységes űrlap rendszeresítésével a tanúsítvány formáját, tartalmát és a kiállítására vonatkozó részlet szabályokat; a tanúsítvány meghatározott adatainak a 2008/118/EK irányelv IV. fejezete szerinti szállításához szükséges adminisztratív okmányban, azaz az Adminisztratív kísérőokmányon (NAV_VP_IE815 jelű nyomtatvány) történő szerepeltetését; a tanúsítvány meghatározott adatainak 2008/118/EK irányelv V. fejezete szerinti szállításához szükséges adminisztratív okmányban, azaz az Egyszerűsített Kísérő Okmányon (NAV_VP_HU815e jelű nyomtatvány) történő szerepeltetését."
  example_title: "Incomprehensible"
  
- text: "Az AEO-engedély birtokosainak listáján – keresésre – megjelenő információk: az engedélyes neve, az engedélyt kibocsátó ország, az engedély típusa."
  exmaple_title: "Comprehensible"

---

## Model description

Cased fine-tuned BERT model for Hungarian, trained on a dataset provided by National Tax and Customs Administration - Hungary (NAV): Public Accessibilty Programme.
Refined version of the huBERTPlain ('uvegesistvan/huBERTPlain') model. 
Trainig data cleaned further:
* Minor corrections in sentence segmentation results.
* Train data filtered: sentence pairs (original - rephrased) filtered out in each document, where two sentences' Levenstein distance was less then 3. These assumed to be spelling corrections, therefore potentially less helpful for Plain Language classification. 

## Intended uses & limitations

The model can be used as any other (cased) BERT model. It has been tested recognizing "accessible" and "original" sentences, where:
* "accessible" - "Label_0": sentence, that can be considered as comprehensible (regarding to Plain Language directives)
* "original" - "Label_1": sentence, that needs to rephrased in order to follow Plain Language Guidelines.

## Training

Fine-tuned version of the original huBERT model (`SZTAKI-HLT/hubert-base-cc`), trained on information materials provided by NAV linguistic experts.

## Eval results

| Class | Precision | Recall | F-Score |
|-----|------------|------------|------|
| **Accessible / Label_0** | **0.75** | **0.72** | **0.73**|
| **Original / Label_1** | **0.74** | **0.77** | **0.75**|
| **accuracy** | | | **0.74**|
| **macro avg** | **0.74** | **0.74** | **0.74**|
| **weighted avg** | **0.74** | **0.74** | **0.74**|

## Usage

```py
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("uvegesistvan/huBERTPlain_v2")
model = AutoModelForSequenceClassification.from_pretrained("uvegesistvan/huBERTPlain_v2")
```

### BibTeX entry and citation info

If you use the model, please cite the following dissertation (to be submitted for workshop discussion):

Bibtex:
```bibtex
@PhDThesis{ Uveges:2024,
  author = {{"U}veges, Istv{\'a}n},
  title  = {K{\"o}z{\'e}rthet{\"o} és automatiz{\'a}ci{\'o} - k{\'i}s{\'e}rletek a jog, term{\'e}szetesnyelv-feldolgoz{\'a}s {\'e}s informatika hat{\'a}r{\'a}n.},
  year   = {2024},
  school = {Szegedi Tudom{\'a}nyegyetem}
}
```