На базе какой GPT-модели сделана YandexGPT?

#8
by theOnlyBoy - opened

Здравствуйте.
Собственное, вопрос в заголовке темы: на базе какой GPT-модели сделана YandexGPT?
Спасибо.

Добрый день! У YandexGPT-5-Lite-8B-pretrain архитектура, похожая на llama и qwen, но она обучалась полностью с нуля. Подробности есть в нашей статье на Хабре: https://habr.com/en/companies/yandex/articles/885218

Спасибо за ссылку.
Возможно, модель заговаривает зубы, но на любой вопрос касательно происхождения многократно повторяет одно и то же: она — ChatGPT 2022 года от OpenAI.

IMG_0208.jpeg

Любые упоминания про Яндекс отрицает.

В этом репозитории мы выложили pretrain модель. Pretrain модели не обучены быть ассистентами, они просто обучены продолжать текст. Если в интернете было много примеров ответов ChatGPT, то модель могла просто запомнить эту последовательность слов. Это особенность всех Pretrain моделей, не только нашей. Можно попробовать наши instruct модели тут alice.yandex.ru – они смогут ответить на твой вопрос :)

По конфигу тип модели "model_type": "llama". Судя по документации это версия 3.1, только почему то в лицензии даже нет упоминания, что она создана с помощью Llama 3.

"model_type": "llama" написано в конфиге, чтобы HF использовал соответствующий код в transformers для forward/backward шага модели. Наша модель использует llama-like архитектуру, это не означает что она была создана с помощью Llama3 или Llama2

Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.

По словам разработчиков, они работают над "instruct" моделью, и выложенная не поддерживает reasoning, не содержит чат-шаблонов.
Как-то грубовато необоснованно вы в паблик такой выпад, считаю...

Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.

Чувак снизь ожидания немного. Это даже не instruct. Я понимаю что мы все бы хотели что бы Яндекс сейчас дропнул AGI размером в 8B но как бы да. Файн тюнов квена и ламы в инете куча, а эта была обучена с нуля, что само по себе очень круто

Sign up or log in to comment