File size: 3,186 Bytes
6202c45
 
ea8a682
 
 
 
 
 
 
 
 
 
cf0c433
98e1390
38729af
ea8a682
6202c45
ea8a682
f0cbb83
12dceda
d88f28e
ea8a682
 
12dceda
 
 
ea8a682
12dceda
ea8a682
 
ab6049d
ea8a682
12dceda
ea8a682
 
 
c85e672
12dceda
aa446b7
 
 
 
c85e672
 
ea8a682
12dceda
ea8a682
ec53bd7
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
---
license: cc-by-nc-sa-4.0
language:
- ru
library_name: transformers
tags:
- chat
- porn
- sex
- erotic
- roleplay
widget:
  - text: "(улыбаюсь)Давай"
  - text: "Ух ты "
  - text: "Ложись"
pipeline_tag: text-generation
---

Сильно расширенная модель для эротического ролеплея. Основной датасет (около 5 Гб) дополнен выжимкой из всего фикбука (около 200 Гб), новый датасет составил почти 20 Гб. Из фикбука взяты фики с тэгами кинков, все это отфильтровано, оптимизировано по технологии TiMe

Неплохо держит контекст, параметры для старта:

do_sample: true<br>
top_p: 0.96<br>
top_k: 40<br>
temperature: 0.8 # При высоких значениях также работает неплохо<br>
repetition_penalty: 1.16<br>
encoder_repetition_penalty: 1.0-1.15<br>
typical_p: 1.0<br>

Оптимизированный фронтенд для данных моделей в режиме чата под Android - https://github.com/zlsl/pocketai

Для чата желательно останавливать после '\n', также ставьте более 5 попыток генерации и ожидаемое количество новых токенов > 350, тогда диалоги будут интереснее.

Очень желательно в контексте и во время диалога указывать действия и мысли в скобках. Например: Привет (вхожу в комнату, закрываю дверь)

Важно! В модели добавлен токен `<char>`, он указывает начало строки диалога, прямой речи:


>Абзац ... контекста<br>
>Я: `<char>` (мысли, действия и прочее) Реплика персонажа (еще мысли, контекст)<br>
>Собеседник: `<char>` (мысли, действия и прочее) Реплика персонажа (еще мысли, контекст)<br>

Новый токен желательно использовать, но не обязательно. Также указывать имена персонажей - опционально.

Модель с удовольствием может "в мультичар", количество собеседников может быть более двух.



## Для пользователей text-generation-webui
В инструменте поломана работа с GPT-2, GPTJ, GPT-NEO и аналогичными модлями, неверно загружается токенизер.
Ошибка такая:<br>
>eos_token_id = eos_token_id[0]
>IndexError: list index out of range

Исправляется легко, в файл modules/models.py в функцию load_tokenizer() надо добавить строчку<br>
<code>tokenizer.eos_token_id = 2</code><br>
перед<br>
<code>return tokenizer</code>