На базе какой GPT-модели сделана YandexGPT?
Здравствуйте.
Собственное, вопрос в заголовке темы: на базе какой GPT-модели сделана YandexGPT?
Спасибо.
Добрый день! У YandexGPT-5-Lite-8B-pretrain
архитектура, похожая на llama и qwen, но она обучалась полностью с нуля. Подробности есть в нашей статье на Хабре: https://habr.com/en/companies/yandex/articles/885218
В этом репозитории мы выложили pretrain модель. Pretrain модели не обучены быть ассистентами, они просто обучены продолжать текст. Если в интернете было много примеров ответов ChatGPT, то модель могла просто запомнить эту последовательность слов. Это особенность всех Pretrain моделей, не только нашей. Можно попробовать наши instruct модели тут alice.yandex.ru – они смогут ответить на твой вопрос :)
По конфигу тип модели "model_type": "llama". Судя по документации это версия 3.1, только почему то в лицензии даже нет упоминания, что она создана с помощью Llama 3.
"model_type": "llama"
написано в конфиге, чтобы HF использовал соответствующий код в transformers для forward/backward шага модели. Наша модель использует llama-like архитектуру, это не означает что она была создана с помощью Llama3 или Llama2
Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.
По словам разработчиков, они работают над "instruct" моделью, и выложенная не поддерживает reasoning, не содержит чат-шаблонов.
Как-то грубовато необоснованно вы в паблик такой выпад, считаю...
Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.
Чувак снизь ожидания немного. Это даже не instruct. Я понимаю что мы все бы хотели что бы Яндекс сейчас дропнул AGI размером в 8B но как бы да. Файн тюнов квена и ламы в инете куча, а эта была обучена с нуля, что само по себе очень круто