File size: 6,669 Bytes
491af92
e2b4991
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c3f134f
 
931524f
 
9a00690
931524f
 
a71293b
 
 
931524f
f9a37ef
931524f
 
 
f9a37ef
 
 
931524f
 
 
 
 
f9a37ef
931524f
a71293b
931524f
 
 
 
 
 
 
f9a37ef
931524f
 
 
f9a37ef
931524f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f9a37ef
 
 
931524f
f9a37ef
931524f
 
 
 
 
 
 
 
 
 
 
 
 
f9a37ef
931524f
 
f9a37ef
931524f
 
 
 
f9a37ef
931524f
f9a37ef
931524f
f9a37ef
931524f
f9a37ef
931524f
 
 
f9a37ef
931524f
 
f9a37ef
931524f
 
 
 
f9a37ef
931524f
f9a37ef
 
 
 
 
 
 
 
 
 
 
 
 
 
931524f
f9a37ef
931524f
 
 
f9a37ef
931524f
 
 
 
 
 
 
 
 
f9a37ef
931524f
c3f134f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
---
license: apache-2.0
language:
- fr
model-index:
- name: legml-v0.1
  results:
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: gpqa-fr
      type: ai2_arc
      config: le-leadboard/gpqa-fr
      split: test
      args:
        num_few_shot: 25
    metrics:
    - type: acc
      value: 16.49
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: IFEval-fr
      type: le-leadboard/IFEval-fr
      split: validation
      args:
        num_few_shot: 10
    metrics:
    - type: acc
      value: 14.68
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: MMMLU-fr
      type: le-leadboard/MMMLU-fr
      config: all
      split: test
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 68.31
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: bbh-fr
      type: le-leadboard/bbh-fr
      config: multiple_choice
      split: validation
      args:
        num_few_shot: 0
    metrics:
    - type: acc
      name: accuracy
      value: 37.17
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: musr-fr
      type: le-leadboard/musr-fr
      config: le-leadboard/musr-fr
      split: validation
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 9.93
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: MATH_LVL5_fr
      type: le-leadboard/MATH_LVL5_fr
      config: le-leadboard/MATH_LVL5_fr
      split: test
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 22.27
      name: accuracy
base_model:
- Qwen/Qwen2.5-14B
---

<img src="https://huggingface.co/legmlai/legml-v0.1/resolve/main/lgml.png" alt="legml-v0.1" width="400"/>


# legml-v0.1

legml-v0.1 est un grand modèle de langage (LLM) en français, capable de gérer une multitude de tâches telles que la programmation, les mathématiques, et bien d'autres domaines. Ce modèle est une version étendue d'un LLM basé sur Qwen, optimisé spécifiquement pour le français. Il a été entraîné sur un vaste corpus de données françaises nettoyées et annotées avec soin pour exécuter des instructions en français avec précision et cohérence.

L'entraînement intensif a été réalisé sur 4 GPU A100 pendant une durée de deux jours, utilisant cet ensemble de données spécialisé pour améliorer ses performances globales.

## Détails du Modèle

- **Modèle de Base** : Qwen-2.5 LLM avec 14 milliards de paramètres
- **Données d'Entraînement** : Corpus français annoté et nettoyé
- **Méthode d'Entraînement** : Affinage complet approfondi

## Exemples d'Utilisation

```python
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"  # Appareil sur lequel charger le modèle

model_name = "legmlai/legml-v0.1"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Expliquez les principes fondamentaux de la théorie de la relativité restreinte."
messages = [
    {
        "role": "system",
        "content": "Vous êtes un assistant virtuel compétent, prêt à fournir des réponses claires et détaillées aux questions posées."
    },
    {
        "role": "user",
        "content": prompt
    }
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    model_inputs.input_ids,
    temperature=0.5,
    top_k=40,
    top_p=0.8,
    max_new_tokens=512,
    repetition_penalty=1.05,
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
```

## Exemples de Générations

### Exemple 1

**Question :**

```
Expliquez les principes fondamentaux de la théorie de la relativité restreinte.
```

**Réponse :**

La théorie de la relativité restreinte, proposée par Albert Einstein en 1905, repose sur deux principes fondamentaux :

1. **Principe de Relativité** : Les lois de la physique sont les mêmes dans tous les référentiels inertiels, c'est-à-dire pour tous les observateurs en mouvement rectiligne uniforme les uns par rapport aux autres.

2. **Invariance de la Vitesse de la Lumière** : La vitesse de la lumière dans le vide est constante et indépendante du mouvement de la source ou de l'observateur, soit approximativement \( c = 299\,792\,458 \) mètres par seconde.

Ces principes entraînent des conséquences majeures, telles que la dilatation du temps, la contraction des longueurs et l'équivalence masse-énergie exprimée par la célèbre formule \( E = mc^2 \).

### Exemple 2

**Question :**

```
Comment installer une bibliothèque externe en Python, par exemple NumPy ?
```

**Réponse :**

Pour installer une bibliothèque externe en Python comme NumPy, vous pouvez utiliser le gestionnaire de packages \`pip\`. Voici comment faire :

1. **Ouvrez le terminal ou l'invite de commande** de votre système.

2. **Exécutez la commande suivante** :

   ```bash
   pip install numpy
   ```

3. **Vérifiez l'installation** en important la bibliothèque dans un script Python :

   ```python
   import numpy as np
   print(np.__version__)
   ```

Cette commande installera NumPy sur votre système, et vous pourrez l'utiliser dans vos scripts pour des calculs scientifiques et mathématiques.

## Résultats de l'Évaluation

Les performances de LegML-v0.1 ont été évaluées sur divers benchmarks en français. Voici les résultats obtenus :

| Benchmark          | Métrique               | Valeur (%) |
|--------------------|------------------------|-----------:|
| **BBH-fr**         | Précision normalisée   |     37.17% |
| **GPQA-fr**        | Précision normalisée   |     16.49% |
| **IFEval-fr**      | Précision stricte      |     14.68% |
| **MUSR-fr**        | Précision normalisée   |      9.93% |
| **MATH-lvl5-fr**   | Correspondance exacte  |     22.27% |
| **MMMLU-fr**       | Précision              |     68.31% |
| **Moyenne**        |                        |     28.81% |

Ces résultats démontrent les capacités du modèle sur une gamme variée de tâches complexes en français, tout en indiquant les domaines où des améliorations peuvent être apportées.