RefalMachine
/

ruadapt_qwen2.5_3B_ext_u48_instruct_v4

Text Generation

Model card Files Files and versions Community

ruadapt_qwen2.5_3B_ext_u48_instruct_v4 / README.md

RefalMachine's picture

Update README.md

fac9657 verified about 1 month ago

|

3.95 kB

	---
	datasets:
	- IlyaGusev/saiga_scored
	- IlyaGusev/saiga_preferences
	- dichspace/darulm
	language:
	- ru
	pipeline_tag: text-generation
	base_model:
	- RefalMachine/ruadapt_qwen2.5_3B_ext_u48_full_lr5e4_peft_mlp_32_32_bs256
	---

	## Model description

	Инструктивная версия адаптированного на русский язык Qwen2.5-3B (RefalMachine/ruadapt_qwen2.5_3B_ext_u48_full_lr5e4_peft_mlp_32_32_bs256). В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника LEP (Learned Embedding Propagation, paper will be soon).

	Благодаря новому токенизатору (расширенный tiktoken cl100k с помощью униграм токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла до 60% по сравнению с исходной моделью Qwen-2.5-3B-Instruct.

	Под скоростью генерации подразумевается количество русскоязычных символов/слов в секунду.

	## Метрики и оценка качества

	Модель была оценена на Ru-Arena-General, MERA, llmtf_open

	#### Результаты на Ru-Arena-General

	В качестве референсых ответов, с которыми сравниваются модели выступают ответы от gpt-3.5-turbo-0125, поэтому она имеет винрейт 50%.

	Приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка (https://huggingface.co/spaces/Vikhrmodels/arenahardlb).

	\| Model Name \| Winrate \| 95% CI \| Average # Tokens \|
	\|--------------------------------------------------\|--------\|--------------------\|------------------\|
	\| gpt-4-1106-preview \| 90.9 \| (-1.3, 1.0) \| 541 \|
	\| gpt-4o-mini \| 83.9 \| (-1.8, 1.1) \| 448 \|
	\| vikhr-nemo-12b-instruct-r-21-09-24 \| 79.8 \| (-2.2, 1.9) \| 627 \|
	\| gemma-2-9b-it-sppo-iter3 \| 73.6 \| (-1.6, 2.2) \| 509 \|
	\| gemma-2-9b-it \| 69.2 \| (-2.5, 1.9) \| 459 \|
	\| saiga_llama3_8b_v7 \| 67.6 \| (?, ?) \| 503 \|
	\| ruadapt_qwen2.5_3B_ext_u48_instruct_v4 \| 66.1 \| (?, ?) \| 531 \|
	\| t-lite-instruct-0.1 \| 64.7 \| (-2.1, 1.7) \| 810 \|
	\| vikhr-llama3.1-8b-instruct-r-21-09-24 \| 63.4 \| (-2.1, 2.5) \| 618 \|
	\| suzume-llama-3-8B-multilingual-orpo-borda-half \| 57.1 \| (-1.9, 2.2) \| 682 \|
	\| mistral-nemo-instruct-2407 \| 50.5 \| (-2.7, 2.6) \| 403 \|
	\| gpt-3.5-turbo-0125 \| 50.0 \| (0.0, 0.0) \| 220 \|
	\| c4ai-command-r-v01 \| 49.0 \| (-1.7, 2.2) \| 529 \|
	\| meta-llama-3.1-8b-instruct \| 43.1 \| (-2.8, 2.3) \| 628 \|

	#### Результаты на MERA

	TODO

	#### Результаты на llmtf_open

	TODO

	## How to cite:

	Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (will be soon)

	Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163-168.