--- base_model: - pierreguillou/ner-bert-large-cased-pt-lenerbr datasets: - carolina-c4ai/corpus-carolina language: - pt metrics: - precision - recall - f1 - accuracy tags: - generated_from_trainer - legal widget: - text: >- Falsificação de documento público, uso de documento falso. Anotação de Responsabilidade Técnica Nº 1055330634101 de 12 de janeiro de 2013 relativa à Lei Federal Nº 531. Trata-se de representação referente a possível falsificação documentação técnica registrada pelo CREA-SP, feita pelo senhor Francis Pantele da Cozzi, CPF: 412.612.341-32, telefone (31) 951358433, email fran@bol.com, atinente à sua contratação pela senhora Marinalva Bete Raz, CPF: 049.567.041-22, telefone (61) 9412 3333, mulher branca, opinião política conservadora, religião evangélica. Marinalva Bete Raz reclama por indenização por danos morais no dia 14.05.2013 no valor de R$ 82.662,00 (Oitenta e dois mil, seiscentos e sessenta e dois reais) relacionado ao endereço IP 192.168.01 e ao endereço constante no CEP 59123-222, Rua dos Pioneiros, nº 450, Jardim Esmeralda, Campo Grande, MS. Ela afirma que precisa deste dinheiro o mais rápido possível, já que sua saúde está comprometida, pois sofre de asma. A parte Francis Pantele da Cozzi afirma que apenas possui 5.534,00 reais como patrimônio e precisa do dinheiro para sustentar seu filho menor de idade chamado Josué Vittas. model-index: - name: checkpoints results: - task: type: token-classification name: Token Classification dataset: name: carolina-c4ai/corpus-carolina type: carolina-c4ai/corpus-carolina metrics: - type: f1 value: 0.9470445768148197 name: F1 - type: precision value: 0.9544794827813696 name: Precision - type: recall value: 0.9191397849462366 name: Recall - type: accuracy value: 0.9470445768148197 name: Accuracy - type: loss value: 0.939724603793193 name: Loss pipeline_tag: token-classification --- ## NER model in the legal domain in Portuguese according to LGPD (Brazilian Law for Data Protection) **legal-bert-lgpd** is a NER model (token classification) in the legal domain in Portuguese that classifies the tokens into the following classes: | Labels | | -------- | | NOME | | DATA | | ENDERECO | | CEP | | CPF | | TELEFONE | | EMAIL | | DINHEIRO | ## Usage ```python import torch from transformers import pipeline, AutoTokenizer MODEL_NAME = "celiudos/legal-bert-lgpd" tokenizer = AutoTokenizer.from_pretrained( MODEL_NAME, model_max_length=512, ) pipe = pipeline( "ner", tokenizer=tokenizer, model=MODEL_NAME, stride=100, aggregation_strategy="first", device=0 if torch.cuda.is_available() else -1, ) pipe( "Anotação de Responsabilidade Técnica Nº 1055330634101 de 12 de janeiro de 2013 relativa à Lei Federal Nº 531. Trata-se de representação referente a possível falsificação documentação técnica registrada pelo CREA-SP, feita pelo senhor Francis Pantele da Cozzi, CPF: 412.612.341-32, telefone (31) 951358433, email fran@bol.com, atinente à sua contratação pela senhora Marinalva Bete Raz, CPF: 049.567.041-22, telefone (61) 9412 3333, mulher branca, opinião política conservadora, religião evangélica. Marinalva Bete Raz reclama por indenização por danos morais no dia 14.05.2013 no valor de R$ 82.662,00 (Oitenta e dois mil, seiscentos e sessenta e dois reais) relacionado ao endereço IP 192.168.01 e ao endereço constante no CEP 59123-222, Rua dos Pioneiros, nº 450, Jardim Esmeralda, Campo Grande, MS." ) ``` Output ```json [ { "entity_group": "DATA", "score": 0.9828296, "word": "12 de janeiro de 2013", "start": 57, "end": 78 }, { "entity_group": "NOME", "score": 0.95766664, "word": "Francis Pantele da Cozzi", "start": 234, "end": 258 }, { "entity_group": "CPF", "score": 0.9954297, "word": "412. 612. 341 - 32", "start": 265, "end": 279 }, { "entity_group": "TELEFONE", "score": 0.5634508, "word": "31 )", "start": 291, "end": 294 }, { "entity_group": "EMAIL", "score": 0.9973985, "word": "fran @ bol. com", "start": 312, "end": 324 }, { "entity_group": "NOME", "score": 0.96683884, "word": "Marinalva Bete Raz", "start": 366, "end": 384 }, { "entity_group": "CPF", "score": 0.99713326, "word": "049. 567. 041 - 22", "start": 391, "end": 405 }, { "entity_group": "TELEFONE", "score": 0.90854883, "word": "( 61 ) 9412 3333", "start": 416, "end": 430 }, { "entity_group": "NOME", "score": 0.9364093, "word": "Marinalva Bete Raz", "start": 499, "end": 517 }, { "entity_group": "DATA", "score": 0.9986375, "word": "14", "start": 566, "end": 568 }, { "entity_group": "DATA", "score": 0.9968226, "word": "05", "start": 569, "end": 571 }, { "entity_group": "DATA", "score": 0.9992943, "word": "2013", "start": 572, "end": 576 }, { "entity_group": "DINHEIRO", "score": 0.99847966, "word": "R $ 82. 662, 00", "start": 589, "end": 601 }, { "entity_group": "CEP", "score": 0.9977593, "word": "59123 - 222", "start": 728, "end": 737 }, { "entity_group": "ENDERECO", "score": 0.9711078, "word": "Rua dos Pioneiros", "start": 739, "end": 756 }, { "entity_group": "ENDERECO", "score": 0.9741938, "word": "Jardim Esmeralda", "start": 766, "end": 782 }, { "entity_group": "ENDERECO", "score": 0.9352198, "word": "Campo Grande, MS", "start": 784, "end": 800 } ] ``` ### Custom Input Usage ```python import gradio as gr def ner(text): return {"text": text, "entities": pipe(text)} gr.Interface( ner, gr.Textbox(placeholder="Enter sentence here..."), gr.HighlightedText(), live=True, examples=[ "Anotação de Responsabilidade Técnica Nº 1055330634101 de 12 de janeiro de 2013 relativa à Lei Federal Nº 531. Trata-se de representação referente a possível falsificação documentação técnica registrada pelo CREA-SP, feita pelo senhor Francis Pantele da Cozzi, CPF: 412.612.341-32, telefone (31) 951358433, email fran@bol.com.", ], ).launch() ``` ## Train Configuration ```python Num examples = 3,971 Num Epochs = 5 Instantaneous batch size per device = 16 Total train batch size (w. parallel, distributed & accumulation) = 16 Gradient Accumulation steps = 1 Total optimization steps = 1,245 Number of trainable parameters = 333,364,241 ```