README.md · RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4 at 9e6c162ef45ae151d73c6670f038ffde97f20666

metadata

datasets:
  - IlyaGusev/saiga_scored
  - IlyaGusev/saiga_preferences
  - dichspace/darulm
language:
  - ru
pipeline_tag: text-generation
base_model:
  - RefalMachine/ruadapt_qwen2.5_3B_ext_u48_full_lr5e4_peft_mlp_32_32_bs256

Model description

Инструктивная версия адаптированного на русский язык Qwen2.5-3B (RefalMachine/ruadapt_qwen2.5_3B_ext_u48_full_lr5e4_peft_mlp_32_32_bs256). В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника LEP (Learned Embedding Propagation, paper will be soon).

Благодаря новому токенизатору (расширенный tiktoken cl100k с помощью униграм токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла до 60% по сравнению с исходной моделью Qwen-2.5-3B-Instruct.

*Под скоростью генерации подразумевается количество русскоязычных символов/слов в секунду на одинаковых текстовых последовательностях.

Токенизация

Метрики и оценка качества

Модель была оценена на Ru-Arena-General, MERA, llmtf_open

Результаты на Ru-Arena-General

Замеры были произведены с использованием оффициального кода лидерборда (https://github.com/VikhrModels/ru_llm_arena), но с repetition_penalty=1.1.

Приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка (https://huggingface.co/spaces/Vikhrmodels/arenahardlb).

datasets: - IlyaGusev/saiga_scored - IlyaGusev/saiga_preferences - dichspace/darulm language: - ru pipeline_tag: text-generation

Model description

Инструктивная версия адаптированной на русский язык модели Qwen2.5-7B. В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника LEP (Learned Embedding Propagation, paper will be soon).

Токенизация

Метрики и оценка качества

Модель была оценена на Ru-Arena-General, MERA, llmtf_open

Результаты на Ru-Arena-General

Приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка (https://huggingface.co/spaces/Vikhrmodels/arenahardlb).

Model Name	Winrate	95% CI	Average # Tokens
gpt-4-1106-preview	90.9	( +1.3 / -0.9)	541
vikhr-nemo-12b-instruct-r-21-09-24	87.3	(+1.1 / -1.2)	627
gpt-4o-mini	83.9	(+1.9 / -1.6)	448
ruadapt_qwen2.5_7B_ext_u48_instruct	81.9	(+1.7 / -1.6)	556
gemma-2-9b-it	76.5	(+1.1 / -1.1)	459
Qwen2.5-7B-Instruct	76.0	(+1.6 / -1.8)	484
gemma-2-9b-it-sppo-iter3	73.6	(+2.1 / -2.2)	509
saiga_llama3_8b_v7	67.6	(+1.7 / -1.4)	503
ruadapt_qwen2.5_3B_ext_u48_instruct_v4	66.1	(+2.2 / -1.9)	531
t-lite-instruct-0.1	64.7	(+2.3 / -2.2)	810

Результаты на MERA

TODO

Результаты на llmtf_open

TODO

How to cite:

Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (will be soon)

Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163-168.

Результаты на MERA

Результаты на llmtf_open

TODO

How to cite:

Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (will be soon)

Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163-168.