На базе какой GPT-модели сделана YandexGPT?

by theOnlyBoy - opened about 17 hours ago

Discussion

theOnlyBoy

about 17 hours ago

Здравствуйте.
Собственное, вопрос в заголовке темы: на базе какой GPT-модели сделана YandexGPT?
Спасибо.

vorobyov01

Yandex org about 11 hours ago

Добрый день! У YandexGPT-5-Lite-8B-pretrain архитектура, похожая на llama и qwen, но она обучалась полностью с нуля. Подробности есть в нашей статье на Хабре: https://habr.com/en/companies/yandex/articles/885218

theOnlyBoy

about 11 hours ago

Спасибо за ссылку.
Возможно, модель заговаривает зубы, но на любой вопрос касательно происхождения многократно повторяет одно и то же: она — ChatGPT 2022 года от OpenAI.

Любые упоминания про Яндекс отрицает.

vorobyov01

Yandex org about 9 hours ago

•

edited about 9 hours ago

В этом репозитории мы выложили pretrain модель. Pretrain модели не обучены быть ассистентами, они просто обучены продолжать текст. Если в интернете было много примеров ответов ChatGPT, то модель могла просто запомнить эту последовательность слов. Это особенность всех Pretrain моделей, не только нашей. Можно попробовать наши instruct модели тут alice.yandex.ru – они смогут ответить на твой вопрос :)

bat-n1

about 9 hours ago

По конфигу тип модели "model_type": "llama". Судя по документации это версия 3.1, только почему то в лицензии даже нет упоминания, что она создана с помощью Llama 3.

vorobyov01

Yandex org about 7 hours ago

"model_type": "llama" написано в конфиге, чтобы HF использовал соответствующий код в transformers для forward/backward шага модели. Наша модель использует llama-like архитектуру, это не означает что она была создана с помощью Llama3 или Llama2

avalonsec

about 7 hours ago

Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.

theOnlyBoy

about 7 hours ago

•

edited about 7 hours ago

По словам разработчиков, они работают над "instruct" моделью, и выложенная не поддерживает reasoning, не содержит чат-шаблонов.
Как-то грубовато необоснованно вы в паблик такой выпад, считаю...

maxamly

about 4 hours ago

Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.

Чувак снизь ожидания немного. Это даже не instruct. Я понимаю что мы все бы хотели что бы Яндекс сейчас дропнул AGI размером в 8B но как бы да. Файн тюнов квена и ламы в инете куча, а эта была обучена с нуля, что само по себе очень круто

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment