|
--- |
|
license: apache-2.0 |
|
datasets: |
|
- Den4ikAI/gibberish_dataset |
|
language: |
|
- ru |
|
pipeline_tag: text-classification |
|
widget: |
|
- text: 'йыйлощойщ щйоащощ шо923ш шзщйвзчжда?' |
|
- text: 'колонок настроен на транса в рот.' |
|
- text: 'я помню чудное мгновенье.' |
|
|
|
|
|
--- |
|
|
|
Модель обучена классифицировать текст на 3 класса: |
|
|
|
1. OK - текст нормальный |
|
2. Neural_shit - текст содержит ошибки в склонениях, является несвязным набором слов или результатом работы бота-рерайтера |
|
3. face_on_keyboard - текст абсолютно не имеет смысла. |
|
|
|
|
|
Пример кода инференса: |
|
```python |
|
from transformers import pipeline |
|
classifier = pipeline("text-classification", model="Den4ikAI/nonsense_gibberish_detector") |
|
while 1: |
|
print(classifier(input(":> "))) |
|
``` |
|
|
|
|
|
Blogpost: [link](https://t.me/den4ikresearch/9) |