File size: 1,754 Bytes
7d4fffb 14f4699 a8b3b46 14f4699 20efe83 67a3e4b a8b3b46 67a3e4b a8b3b46 67a3e4b a8b3b46 67a3e4b a8b3b46 67a3e4b |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 |
---
language:
- "fr"
tags:
- t5
- french
- punctuation
license: apache-2.0
datasets:
- orange_sum
- mlsum
---
# 🚀 Text Punctuator Based on Transformers model T5.
T5 model fine-tuned for punctuation restoration.
Model currently supports only French Language. More language supports will be added later using mT5.
Train Datasets :
Model trained using 2 french datasets (around 500k records):
- [orange_sum](https://huggingface.co/datasets/orange_sum)
- [mlsum](https://huggingface.co/datasets/mlsum) (only french text)
More info will be added later.
## 🚀 Usage
**TextPunctuator as a wrapper of the model.**
1. Install the package.
```bash
pip install TextPunctuator
```
2. Simple example
```python
from Punctuator import TextPunctuator
punctuator = TextPunctuator(use_gpu=False)
# text input
text = "Sur la base de ces échanges Blake Lemoine a donc jugé que le système avait atteint \
un niveau de conscience lui permettant d'être sensible Ce dernier a ensuite envoyé \
par email un rapport sur la sensibilité supposée de LaMDA à deux cents employés de \
Google Très vite les dirigeants de l’entreprise ont rejeté les allégations"
text_punctuated = punctuator.punctuate(text, lang='fr')
text_punctuated
# output :
""" Sur la base de ces échanges, Blake Lemoine a donc jugé que le système avait atteint un niveau de
conscience lui permettant d’être sensible. Ce dernier a ensuite envoyé par email un rapport sur
la sensibilité supposée de LaMDA à deux cents employés de Google. Très vite, les dirigeants de
l’entreprise ont rejeté les allégations. """
```
## ☕ Contact
Contact [Zakarya ROUZKI ](mailto:[email protected]) or at [Linkedin](https://linkedin.com/in/rouzki).
|