YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)
---
language:
- baq
- bci
- fr
tags:
- African NLP
- low-resource language
- sentencepiece
- tokenizer
- Baoulé
- Côte d'Ivoire
- translation
- tonal language
datasets:
- custom
license: apache-2.0
library_name: transformers
pipeline_tag: text2text-generation
widget:
- text: "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
  example_title: "Traduction de base"
---

# Tokenizer Baoulé : Modèle de Traduction Français-Baoulé

🌍 Premier tokenizer SentencePiece spécialisé pour la langue Baoulé (Côte d'Ivoire) 🇨🇮

[![Hugging Face Hub](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Model%20Hub-blue)](https://huggingface.co/votre_username/baoule-tokenizer)

## Fonctionnalités Clés

✅ Prise en charge complète des caractères tonals Baoulé (ɛ́, ɩ̄, ɔ̀, etc.)
✅ Optimisé pour les modèles de traduction automatique (Transformer)
✅ Vocabulaire de 206 tokens avec couverture linguistique complète
✅ Intégration native avec 🤗 Transformers et Tokenizers
✅ Compatible avec Google Traduction Custom Model et Amazon Translate

## Installation et Utilisation

```python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Adjoumani/BaouleTokenizer_V1")

# Utilisation du tokenizer

text = "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
encoded = tokenizer.encode(text)
decoded = tokenizer.decode(encoded)

print(f"Tokens: {tokenizer.tokenize(text)}")
# Output: ['W', 'a', 'f', 'a', '▁s', 'ɛ', '▁y', 'ɛ', '▁ɔ', '▁f', 'a', 't', 'a', '▁k', 'ɛ', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'e', '▁l', 'a', 'f', 'i', '▁s', 'u', '▁k', 'ɛ', '▁b', 'é', '▁t', 'r', 'á', 'n', '▁a', 's', 'i', 'ɛ', '’', 'n', '▁s', 'u', '▁w', 'a', '’', 'n', ',', '▁b', 'e', '▁b', 'u', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'é', '▁k', 'ɔ', '́', '▁ɲ', 'a', 'n', 'm', 'i', 'ɛ', 'n']

Détails Techniques

Paramètre Valeur
Architecture SentencePiece BPE
Taille du vocabulaire 206
Caractères couverts 1.0 (Unicode)
Tokens spéciaux [BOS], [EOS], [UNK], [PAD]
Langues cibles Français ↔ Baoulé
Encodage UTF-8

Tons Supportés

Le tokenizer gère tous les tons Baoulé selon la norme Unicode :

Caractère Code Unicode Exemple
ɛ́ U+025B U+0301 Mɔ́kɛ́
ɩ̄ U+0269 U+0304 Ɩ̄tɩ̄
ɔ̀ U+0254 U+0300 Kɔ̀lɔ̀
ɛ̂ U+025B U+0302 Ɛ̂sɛ̂

Cas d'Usage Recommandés

  • Traduction automatique Français-Baoulé
  • Synthèse vocale pour systèmes d'assistance vocale
  • Reconnaissance de la parole Baoulé
  • Outils éducatifs numériques
  • Préservation du patrimoine linguistique

Meilleures Pratiques

# Pour gérer les phrases longues
tokenizer.model_max_length = 512

# Ajout de tokens personnalisés
new_tokens = ["<dialect:NDÊ>", "<dialect:SAFOUÈ>"]
tokenizer.add_tokens(new_tokens)

Jeu de Données d'Entraînement

Données collectées grâce à :

  • Traductions de textes bibliques : Les données ont été extraites en grande partie depuis Glosbe et structurées manuellement pour assurer une qualité et une précision optimales. Le contenu a été nettoyé pour supprimer les balises HTML indésirables et formaté de manière cohérente.
  • Corpus oral transcrit (projet UNESCO)
  • Phrases quotidiennes annotées
  • Textes gouvernementaux bilingues

Taille du corpus : 1500 phrases alignées (en cours d'expansion)

Citation

Si vous utilisez ce tokenizer dans vos recherches, merci de citer :

@misc{BaouleTokenizer2023,
  author = {Votre Nom},
  title = {Baoulé Tokenizer for Low-Resource Machine Translation},
  year = {2023},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/Adjoumani/BaouleTokenizer_V1}}
}

Licence

Apache 2.0 - Voir la licence complète

Contribuer

Nous encourageons les contributions notamment pour :

  • L'expansion du vocabulaire
  • L'annotation des tons
  • L'ajout de dialectes régionaux

Contact : [email protected]


Mots-clés SEO : Tokenizer Baoulé, Traduction Français-Baoulé, NLP Africain, Langues Tonales, Côte d'Ivoire AI, Modèle Linguistique Basse Ressource, SentencePiece Baoulé, Préservation Langue Africaine


Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.