See axolotl config

axolotl version: 0.5.2

# Название базовой модели, которая будет использоваться
base_model: meta-llama/Llama-3.1-8B

chat_template: llama3
datasets:
  - path: /workspace/dataset_200_30_repeats.jsonl
    type: chat_template
    field_messages: conversations
    message_field_role: role
    message_field_content: content
    roles:
      user: ["user"]
      assistant: ["assistant"]
      system: ["system"]
    roles_to_train: ["assistant", "user"]
    train_on_eos: turn  # Тренировать EOS на каждом конце реплики для лучшего запоминания

# Путь к директории для сохранения результатов обучения
output_dir: ./outputs/018

# Настройки обучения
gradient_accumulation_steps: 5
micro_batch_size: 2
num_epochs: 1
learning_rate: 0.000002
warmup_steps: 500
logging_steps: 10

# Использование повторного обучения через LoRA
adapter: lora
lora_r: 16  # Увеличенное значение для сохранения памяти и генерации точных ответов
lora_alpha: 32
lora_dropout: 0.1
lora_target_modules:
  - q_proj
  - k_proj
  - v_proj
  - o_proj

# Тип модели и токенизатора
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer

# Настройки последовательности
sequence_len: 4096  # Достаточная длина для обработки 7 реплик
sample_packing: false  # Отключено для лучшего соответствия тексту
pad_to_sequence_len: true

# Оптимизация
optimizer: adamw_bnb_8bit
lr_scheduler: cosine
weight_decay: 0.01
gradient_checkpointing: true

# Использование BF16 для экономии памяти
bf16: true

# Flash Attention для ускорения
flash_attention: true

# Доля данных для валидации
val_set_size: 0.1

# Настройки сохранения
save_safetensors: true
saves_per_epoch: 3  # Увеличено для промежуточного анализа качества модели

# Настройки метрик
evals_per_epoch: 10
eval_max_new_tokens: 128

# Специальные токены
special_tokens:
  pad_token: "<|finetune_right_pad_id|>"
  bos_token: "<|begin_of_text|>"
  eos_token: "<|end_of_text|>"

# WandB интеграция (если требуется)
wandb_project:
wandb_entity:
wandb_watch:
wandb_log_model:

outputs/018

This model is a fine-tuned version of meta-llama/Llama-3.1-8B on the None dataset. It achieves the following results on the evaluation set:

Loss: 1.1951

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-06
train_batch_size: 2
eval_batch_size: 2
seed: 42
gradient_accumulation_steps: 5
total_train_batch_size: 10
optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 500
num_epochs: 1

Training results

Training Loss	Epoch	Step	Validation Loss
No log	0.0009	1	1.6370
1.5533	0.1007	106	1.6315
1.5114	0.2013	212	1.5955
1.4539	0.3020	318	1.4707
1.3812	0.4027	424	1.3509
1.2753	0.5033	530	1.2602
1.2224	0.6040	636	1.2166
1.1013	0.7047	742	1.1982
1.0497	0.8053	848	1.1939
1.0582	0.9060	954	1.1951

Framework versions

PEFT 0.13.2
Transformers 4.46.3
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.20.3

lapaliv
/

lapaliv-018

outputs/018

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for lapaliv/lapaliv-018

Evaluation results