YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
---
language:
- baq
- bci
- fr
tags:
- African NLP
- low-resource language
- sentencepiece
- tokenizer
- Baoulé
- Côte d'Ivoire
- translation
- tonal language
datasets:
- custom
license: apache-2.0
library_name: transformers
pipeline_tag: text2text-generation
widget:
- text: "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
example_title: "Traduction de base"
---
# Tokenizer Baoulé : Modèle de Traduction Français-Baoulé
🌍 Premier tokenizer SentencePiece spécialisé pour la langue Baoulé (Côte d'Ivoire) 🇨🇮
[](https://huggingface.co/votre_username/baoule-tokenizer)
## Fonctionnalités Clés
✅ Prise en charge complète des caractères tonals Baoulé (ɛ́, ɩ̄, ɔ̀, etc.)
✅ Optimisé pour les modèles de traduction automatique (Transformer)
✅ Vocabulaire de 206 tokens avec couverture linguistique complète
✅ Intégration native avec 🤗 Transformers et Tokenizers
✅ Compatible avec Google Traduction Custom Model et Amazon Translate
## Installation et Utilisation
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Adjoumani/BaouleTokenizer_V1")
# Utilisation du tokenizer
text = "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
encoded = tokenizer.encode(text)
decoded = tokenizer.decode(encoded)
print(f"Tokens: {tokenizer.tokenize(text)}")
# Output: ['W', 'a', 'f', 'a', '▁s', 'ɛ', '▁y', 'ɛ', '▁ɔ', '▁f', 'a', 't', 'a', '▁k', 'ɛ', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'e', '▁l', 'a', 'f', 'i', '▁s', 'u', '▁k', 'ɛ', '▁b', 'é', '▁t', 'r', 'á', 'n', '▁a', 's', 'i', 'ɛ', '’', 'n', '▁s', 'u', '▁w', 'a', '’', 'n', ',', '▁b', 'e', '▁b', 'u', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'é', '▁k', 'ɔ', '́', '▁ɲ', 'a', 'n', 'm', 'i', 'ɛ', 'n']
Détails Techniques
Paramètre | Valeur |
---|---|
Architecture | SentencePiece BPE |
Taille du vocabulaire | 206 |
Caractères couverts | 1.0 (Unicode) |
Tokens spéciaux | [BOS], [EOS], [UNK], [PAD] |
Langues cibles | Français ↔ Baoulé |
Encodage | UTF-8 |
Tons Supportés
Le tokenizer gère tous les tons Baoulé selon la norme Unicode :
Caractère | Code Unicode | Exemple |
---|---|---|
ɛ́ | U+025B U+0301 | Mɔ́kɛ́ |
ɩ̄ | U+0269 U+0304 | Ɩ̄tɩ̄ |
ɔ̀ | U+0254 U+0300 | Kɔ̀lɔ̀ |
ɛ̂ | U+025B U+0302 | Ɛ̂sɛ̂ |
Cas d'Usage Recommandés
- Traduction automatique Français-Baoulé
- Synthèse vocale pour systèmes d'assistance vocale
- Reconnaissance de la parole Baoulé
- Outils éducatifs numériques
- Préservation du patrimoine linguistique
Meilleures Pratiques
# Pour gérer les phrases longues
tokenizer.model_max_length = 512
# Ajout de tokens personnalisés
new_tokens = ["<dialect:NDÊ>", "<dialect:SAFOUÈ>"]
tokenizer.add_tokens(new_tokens)
Jeu de Données d'Entraînement
Données collectées grâce à :
- Traductions de textes bibliques : Les données ont été extraites en grande partie depuis Glosbe et structurées manuellement pour assurer une qualité et une précision optimales. Le contenu a été nettoyé pour supprimer les balises HTML indésirables et formaté de manière cohérente.
- Corpus oral transcrit (projet UNESCO)
- Phrases quotidiennes annotées
- Textes gouvernementaux bilingues
Taille du corpus : 1500 phrases alignées (en cours d'expansion)
Citation
Si vous utilisez ce tokenizer dans vos recherches, merci de citer :
@misc{BaouleTokenizer2023,
author = {Votre Nom},
title = {Baoulé Tokenizer for Low-Resource Machine Translation},
year = {2023},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Adjoumani/BaouleTokenizer_V1}}
}
Licence
Apache 2.0 - Voir la licence complète
Contribuer
Nous encourageons les contributions notamment pour :
- L'expansion du vocabulaire
- L'annotation des tons
- L'ajout de dialectes régionaux
Contact : [email protected]
Mots-clés SEO : Tokenizer Baoulé, Traduction Français-Baoulé, NLP Africain, Langues Tonales, Côte d'Ivoire AI, Modèle Linguistique Basse Ressource, SentencePiece Baoulé, Préservation Langue Africaine
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API:
The model has no library tag.