malhajar commited on
Commit
f9a37ef
·
verified ·
1 Parent(s): 931524f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +40 -27
README.md CHANGED
@@ -90,25 +90,26 @@ model-index:
90
  name: accuracy
91
  ---
92
 
 
93
  <img src="https://path.to/your/legml-image.png" alt="LegML-v0.1" width="500"/>
94
 
95
  # LegML-v0.1
96
 
97
- LegML-v0.1 est un modèle de langage de grande taille (LLM) en français, doté de multiples capacités couvrant divers domaines tels que la programmation, les mathématiques et bien d'autres. Ce modèle est une version améliorée d'un LLM basé sur Qwen, spécialement adapté pour le français. Il a été entraîné sur un ensemble de données français soigneusement nettoyé et annoté pour exécuter des instructions en français de manière précise et organisée.
98
 
99
- L'entraînement du modèle a été intensif, effectué sur 4 GPU A100 pendant deux jours, en utilisant ce jeu de données spécialisé pour optimiser ses performances.
100
 
101
  ## Détails du Modèle
102
 
103
- - **Modèle de Base** : LLM Qwen-2.5 de 14 milliards de paramètres
104
- - **Jeu de Données d'Entraînement** : Ensemble de données français annoté et nettoyé
105
- - **Méthode d'Entraînement** : Affinage complet et exhaustif
106
 
107
  ## Exemples d'Utilisation
108
 
109
  ```python
110
  from transformers import AutoModelForCausalLM, AutoTokenizer
111
- device = "cuda" # l'appareil sur lequel charger le modèle
112
 
113
  model_name = "VotreNomUtilisateur/LegML-v0.1"
114
  model = AutoModelForCausalLM.from_pretrained(
@@ -118,11 +119,11 @@ model = AutoModelForCausalLM.from_pretrained(
118
  )
119
  tokenizer = AutoTokenizer.from_pretrained(model_name)
120
 
121
- prompt = "Comment afficher 'Bonjour le monde' en Python ?"
122
  messages = [
123
  {
124
  "role": "system",
125
- "content": "Vous êtes une intelligence artificielle assistante créée par LegAI, conçue pour suivre les instructions données et fournir les meilleures réponses possibles."
126
  },
127
  {
128
  "role": "user",
@@ -138,11 +139,11 @@ model_inputs = tokenizer([text], return_tensors="pt").to(device)
138
 
139
  generated_ids = model.generate(
140
  model_inputs.input_ids,
141
- temperature=0.3,
142
- top_k=50,
143
- top_p=0.9,
144
  max_new_tokens=512,
145
- repetition_penalty=1.0,
146
  )
147
  generated_ids = [
148
  output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
@@ -156,43 +157,54 @@ print(response)
156
 
157
  ### Exemple 1
158
 
159
- **Invite :**
160
 
161
  ```
162
- Comment les institutions financières en France gèrent-elles les risques de sécurité des données associés à l'intelligence artificielle ? Pouvez-vous donner trois exemples ?
163
  ```
164
 
165
  **Réponse :**
166
 
167
- Les institutions financières en France gèrent les risques de sécurité des données liés à l'intelligence artificielle (IA) par plusieurs approches :
168
 
169
- 1. **Implémentation de Protocoles de Chiffrement Avancés** : Elles utilisent des méthodes de chiffrement robustes comme AES ou RSA pour protéger les informations sensibles des clients contre tout accès non autorisé.
170
 
171
- 2. **Déploiement de Systèmes de Détection d'Anomalies Basés sur l'IA** : Ces systèmes surveillent les transactions en temps réel pour identifier des comportements inhabituels, aidant ainsi à prévenir la fraude et les cyberattaques.
172
 
173
- 3. **Conformité Réglementaire et Formation du Personnel** : Les institutions s'assurent de respecter les réglementations telles que le RGPD et investissent dans la formation continue de leur personnel sur les meilleures pratiques en matière de sécurité des données.
174
 
175
  ### Exemple 2
176
 
177
- **Invite :**
178
 
179
  ```
180
- Comment afficher "Bonjour le monde" en Python ?
181
  ```
182
 
183
  **Réponse :**
184
 
185
- Pour afficher "Bonjour le monde" en Python, vous pouvez utiliser la fonction \`print()\`. Voici comment procéder :
186
 
187
- ```python
188
- print("Bonjour le monde")
189
- ```
 
 
 
 
 
 
 
 
 
 
 
190
 
191
- En exécutant ce code, le texte "Bonjour le monde" sera affiché à l'écran. La fonction \`print()\` est utilisée pour afficher des messages ou des variables en sortie.
192
 
193
  ## Résultats de l'Évaluation
194
 
195
- Les performances de LegML-v0.1 ont été évaluées sur plusieurs benchmarks en français. Voici les résultats obtenus :
196
 
197
  | Benchmark | Métrique | Valeur (%) |
198
  |--------------------|------------------------|-----------:|
@@ -202,5 +214,6 @@ Les performances de LegML-v0.1 ont été évaluées sur plusieurs benchmarks en
202
  | **MUSR-fr** | Précision normalisée | 9.93% |
203
  | **MATH-lvl5-fr** | Correspondance exacte | 22.27% |
204
  | **MMMLU-fr** | Précision | 68.31% |
 
205
 
206
- Ces résultats reflètent les capacités du modèle sur une variété de tâches complexes en français, tout en soulignant les domaines où des améliorations sont possibles.
 
90
  name: accuracy
91
  ---
92
 
93
+ <img src="https://path.to/your/legml-image.png" alt="LegML-v0.1" width="500"/>
94
  <img src="https://path.to/your/legml-image.png" alt="LegML-v0.1" width="500"/>
95
 
96
  # LegML-v0.1
97
 
98
+ LegML-v0.1 est un grand modèle de langage (LLM) en français, capable de gérer une multitude de tâches telles que la programmation, les mathématiques, et bien d'autres domaines. Ce modèle est une version étendue d'un LLM basé sur Qwen, optimisé spécifiquement pour le français. Il a été entraîné sur un vaste corpus de données françaises nettoyées et annotées avec soin pour exécuter des instructions en français avec précision et cohérence.
99
 
100
+ L'entraînement intensif a été réalisé sur 4 GPU A100 pendant une durée de deux jours, utilisant cet ensemble de données spécialisé pour améliorer ses performances globales.
101
 
102
  ## Détails du Modèle
103
 
104
+ - **Modèle de Base** : Qwen-2.5 LLM avec 14 milliards de paramètres
105
+ - **Données d'Entraînement** : Corpus français annoté et nettoyé
106
+ - **Méthode d'Entraînement** : Affinage complet approfondi
107
 
108
  ## Exemples d'Utilisation
109
 
110
  ```python
111
  from transformers import AutoModelForCausalLM, AutoTokenizer
112
+ device = "cuda" # Appareil sur lequel charger le modèle
113
 
114
  model_name = "VotreNomUtilisateur/LegML-v0.1"
115
  model = AutoModelForCausalLM.from_pretrained(
 
119
  )
120
  tokenizer = AutoTokenizer.from_pretrained(model_name)
121
 
122
+ prompt = "Expliquez les principes fondamentaux de la théorie de la relativité restreinte."
123
  messages = [
124
  {
125
  "role": "system",
126
+ "content": "Vous êtes un assistant virtuel compétent, prêt à fournir des réponses claires et détaillées aux questions posées."
127
  },
128
  {
129
  "role": "user",
 
139
 
140
  generated_ids = model.generate(
141
  model_inputs.input_ids,
142
+ temperature=0.5,
143
+ top_k=40,
144
+ top_p=0.8,
145
  max_new_tokens=512,
146
+ repetition_penalty=1.05,
147
  )
148
  generated_ids = [
149
  output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 
157
 
158
  ### Exemple 1
159
 
160
+ **Question :**
161
 
162
  ```
163
+ Expliquez les principes fondamentaux de la théorie de la relativité restreinte.
164
  ```
165
 
166
  **Réponse :**
167
 
168
+ La théorie de la relativité restreinte, proposée par Albert Einstein en 1905, repose sur deux principes fondamentaux :
169
 
170
+ 1. **Principe de Relativité** : Les lois de la physique sont les mêmes dans tous les référentiels inertiels, c'est-à-dire pour tous les observateurs en mouvement rectiligne uniforme les uns par rapport aux autres.
171
 
172
+ 2. **Invariance de la Vitesse de la Lumière** : La vitesse de la lumière dans le vide est constante et indépendante du mouvement de la source ou de l'observateur, soit approximativement \( c = 299\,792\,458 \) mètres par seconde.
173
 
174
+ Ces principes entraînent des conséquences majeures, telles que la dilatation du temps, la contraction des longueurs et l'équivalence masse-énergie exprimée par la célèbre formule \( E = mc^2 \).
175
 
176
  ### Exemple 2
177
 
178
+ **Question :**
179
 
180
  ```
181
+ Comment installer une bibliothèque externe en Python, par exemple NumPy ?
182
  ```
183
 
184
  **Réponse :**
185
 
186
+ Pour installer une bibliothèque externe en Python comme NumPy, vous pouvez utiliser le gestionnaire de packages \`pip\`. Voici comment faire :
187
 
188
+ 1. **Ouvrez le terminal ou l'invite de commande** de votre système.
189
+
190
+ 2. **Exécutez la commande suivante** :
191
+
192
+ ```bash
193
+ pip install numpy
194
+ ```
195
+
196
+ 3. **Vérifiez l'installation** en important la bibliothèque dans un script Python :
197
+
198
+ ```python
199
+ import numpy as np
200
+ print(np.__version__)
201
+ ```
202
 
203
+ Cette commande installera NumPy sur votre système, et vous pourrez l'utiliser dans vos scripts pour des calculs scientifiques et mathématiques.
204
 
205
  ## Résultats de l'Évaluation
206
 
207
+ Les performances de LegML-v0.1 ont été évaluées sur divers benchmarks en français. Voici les résultats obtenus :
208
 
209
  | Benchmark | Métrique | Valeur (%) |
210
  |--------------------|------------------------|-----------:|
 
214
  | **MUSR-fr** | Précision normalisée | 9.93% |
215
  | **MATH-lvl5-fr** | Correspondance exacte | 22.27% |
216
  | **MMMLU-fr** | Précision | 68.31% |
217
+ | **Moyenne** | | 28.81% |
218
 
219
+ Ces résultats démontrent les capacités du modèle sur une gamme variée de tâches complexes en français, tout en indiquant les domaines où des améliorations peuvent être apportées.