потеря внимания
привет! спасибо за вашу работу, модель реально выдает инференс на 30% быстрее. у меня даже на первых запросах прирост до 60% доходит 199токенов в секунду против 120 токенов в секунду. Однако модель теряет внимание и на большом контексте в сравнении со стандартной квен выдает ошибки, опечатки и не следует инструкциям промта. по крайней мере так с запросом, где надо анализировать порядка 5 тысяч токенов и выдать развернутый и детальный ответ по длинному и строгому промту.
Привет! Посмотри в сторону https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct-1M, вдруг лучше будет, эта модель по идее может +- работать на 100т-200т токенах. По поводу качества вопрос, конечно, открытый.
В целом процедура адаптации сейчас не содержит в себе никаких шагов на длинном контексте, поэтому потери могут быть, в будущем планируем это проработать
большое спасибо за ваш ответ! попробую
попробовал на 1м токенов модель. ситуация та же. еще протестировал с РАГ. вот ситуация, например я подаю на раг научную методичку и модель использует контекст из нее своего ответа. так вот. оригинальный квен выдает точный ответ по данной методичке, дополнительно ничего не придумывая. дообученная модель выдает дополнительно кучу информации не относящиеся к данной методичке, а так как инфа еще и специфичная, то ответ получается максимально не экспертным, модель фактически сочиняет ответы. ну или у меня используется парсер сайтов результаты которого подаются в РАГ и модель отвечает по данному контексту - примерно та же ситуация. в обеих случаях контекст из рага подается очень большой, для того чтобы ответ был качественным. Итого получается что сама переобученная модель имеет очень крутую фишку в виде скорости инференса, однако практически ее применять не получается, так как она плдохо учитывает контекст и у нее внимание распыляется. если вы доработаете так чтобы ваша модель работала также как квен, ну вам просто цены не будет
Напишите мне в лс в тг (@mtikhomi), если есть возможность расшарить пример, хочу его изучить, чтобы в дальнейшем улучшать модель. Текущую модель тестировал на бенчмарке на длинных контекстах (до 128т токенов) и метрики были, хоть и с просадками относительно исходной модели, но не категорической. Поэтому интересно посмотреть на ярко негативный пример