Push model using huggingface_hub.
Browse files- README.md +3 -42
- config.json +1 -0
- model.safetensors +2 -2
README.md
CHANGED
@@ -2,47 +2,8 @@
|
|
2 |
tags:
|
3 |
- model_hub_mixin
|
4 |
- pytorch_model_hub_mixin
|
5 |
-
datasets:
|
6 |
-
- IgorVolochay/russian_jokes
|
7 |
-
language:
|
8 |
-
- ru
|
9 |
-
pipeline_tag: text-generation
|
10 |
---
|
11 |
|
12 |
-
|
13 |
-
|
14 |
-
|
15 |
-
|
16 |
-
- В качестве позиционных эмбеддингов используется ALiBi
|
17 |
-
- Механизм внимания использует GQA
|
18 |
-
- В Feed-Forward блоке SwiGLU
|
19 |
-
|
20 |
-
Обучающие данные: https://huggingface.co/datasets/IgorVolochay/russian_jokes
|
21 |
-
|
22 |
-
Обучены две версии:
|
23 |
-
- nano: `n_layer=3, n_head=4, n_kv_head=2, hidden_dim=96, intermediate_dim=256`
|
24 |
-
- mini: `n_layer=6, n_head=6, n_kv_head=3, hidden_dim=384, intermediate_dim=1024`
|
25 |
-
|
26 |
-
Итоговый CrossEntropy лосс:
|
27 |
-
- nano: `1.712`
|
28 |
-
- mini: `1.410`
|
29 |
-
|
30 |
-
Примеры генерации:
|
31 |
-
- nano:
|
32 |
-
- `sampling_temperature=1, top_k=15`:
|
33 |
-
- Заходят в баре каблеткой. Возьпает врача на негра:- А сейчас пригласилось, почему не знает, что ты держишь?!- И что ли??- Да нет - Потому что, если я хочу бросила, значит, я вчера бы не против весь разбудил.
|
34 |
-
- Заходят в бармена - деревенько и спрашивает:- Мойка, ты что вы меня ведь сегодня в тюрьми?
|
35 |
-
- Заходят в барабльке:- Ты мне вечером! Слушай! Возьми мне! Потому что у вас внутру сади не выберите, но он приходит в лежу, но и восемь - я тебе не знал!
|
36 |
-
- `sampling_temperature=0.2, top_k=15`:
|
37 |
-
- Заходят в баре, а в том, что я сегодня в магазине, что он не могу, а я не знаю, что я не снимаю, а вчера в семье.
|
38 |
-
- `sampling_temperature=5, top_k=15`:
|
39 |
-
- Заходят в баре:- Дуя сыни ты с ней не было! Тем это, у нем игрядил сегодня, что этот картак? Пером и те-нограстью?Она с топройная:- Кто морс!- Это как это?
|
40 |
-
- mini:
|
41 |
-
- `sampling_temperature=1, top_k=15`:
|
42 |
-
- Заходит в бар. Накрылась жена. Русский спрашивает: - Мама! Мама? Конечно, я вас не видела... Теперь сейчас, я сегодня научил тебе картошку!
|
43 |
-
- Звери в лесу пить собрались. Просто от него вечера. Интересно, что впереди с банками вместо "Милок" снега восточный месте сразу открывает дверь.
|
44 |
-
- Приезжает генерал в глухую часть с инспекцией и говорит: - Зачем мне докажут? - Один раз вчера у меня вдруг заморотал!
|
45 |
-
- `sampling_temperature=0.2, top_k=15`:
|
46 |
-
- Заходят в бар, а там вдруг видят, что вдруг видят, что вдруг видят, что у него есть.
|
47 |
-
- `sampling_temperature=5, top_k=15`
|
48 |
-
- Заходят в баре, а тут - носит голыми винтерноденным куликанам-валат.
|
|
|
2 |
tags:
|
3 |
- model_hub_mixin
|
4 |
- pytorch_model_hub_mixin
|
|
|
|
|
|
|
|
|
|
|
5 |
---
|
6 |
|
7 |
+
This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
|
8 |
+
- Library: [More Information Needed]
|
9 |
+
- Docs: [More Information Needed]
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
config.json
CHANGED
@@ -6,5 +6,6 @@
|
|
6 |
"n_head": 4,
|
7 |
"n_kv_head": 2,
|
8 |
"n_layer": 3,
|
|
|
9 |
"vocab_size": 1024
|
10 |
}
|
|
|
6 |
"n_head": 4,
|
7 |
"n_kv_head": 2,
|
8 |
"n_layer": 3,
|
9 |
+
"use_RoPE": true,
|
10 |
"vocab_size": 1024
|
11 |
}
|
model.safetensors
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:a0991e24a54b6a11c3451ab0b3218b1e43241078afb27f445b938c295425f21d
|
3 |
+
size 2074824
|