потеря внимания

by Nessit - opened 1 day ago

1 day ago

привет! спасибо за вашу работу, модель реально выдает инференс на 30% быстрее. у меня даже на первых запросах прирост до 60% доходит 199токенов в секунду против 120 токенов в секунду. Однако модель теряет внимание и на большом контексте в сравнении со стандартной квен выдает ошибки, опечатки и не следует инструкциям промта. по крайней мере так с запросом, где надо анализировать порядка 5 тысяч токенов и выдать развернутый и детальный ответ по длинному и строгому промту.

RefalMachine

Owner 1 day ago

Привет! Посмотри в сторону https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct-1M, вдруг лучше будет, эта модель по идее может +- работать на 100т-200т токенах. По поводу качества вопрос, конечно, открытый.
В целом процедура адаптации сейчас не содержит в себе никаких шагов на длинном контексте, поэтому потери могут быть, в будущем планируем это проработать

Nessit

about 22 hours ago

большое спасибо за ваш ответ! попробую

Nessit

about 5 hours ago

попробовал на 1м токенов модель. ситуация та же. еще протестировал с РАГ. вот ситуация, например я подаю на раг научную методичку и модель использует контекст из нее своего ответа. так вот. оригинальный квен выдает точный ответ по данной методичке, дополнительно ничего не придумывая. дообученная модель выдает дополнительно кучу информации не относящиеся к данной методичке, а так как инфа еще и специфичная, то ответ получается максимально не экспертным, модель фактически сочиняет ответы. ну или у меня используется парсер сайтов результаты которого подаются в РАГ и модель отвечает по данному контексту - примерно та же ситуация. в обеих случаях контекст из рага подается очень большой, для того чтобы ответ был качественным. Итого получается что сама переобученная модель имеет очень крутую фишку в виде скорости инференса, однако практически ее применять не получается, так как она плдохо учитывает контекст и у нее внимание распыляется. если вы доработаете так чтобы ваша модель работала также как квен, ну вам просто цены не будет

RefalMachine

Owner about 2 hours ago

Напишите мне в лс в тг (@mtikhomi), если есть возможность расшарить пример, хочу его изучить, чтобы в дальнейшем улучшать модель. Текущую модель тестировал на бенчмарке на длинных контекстах (до 128т токенов) и метрики были, хоть и с просадками относительно исходной модели, но не категорической. Поэтому интересно посмотреть на ярко негативный пример

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment