metadata

library_name: transformers
license: apache-2.0
base_model: pszemraj/tFINE-850m-24x24-v0.5-instruct-L1
tags:
  - generated_from_trainer
model-index:
  - name: tFINE-850m-24x24-v0.5-instruct-L1-infinity-instruct-7m-T2T_en-1024-v2
    results: []

tFINE-850m-24x24-v0.5-instruct-L1-infinity-instruct-7m-T2T_en-1024-v2

This model is a fine-tuned version of pszemraj/tFINE-850m-24x24-v0.5-instruct-L1 on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 1.2595
Num Input Tokens Seen: 568955808

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 3.5e-05
train_batch_size: 32
eval_batch_size: 16
seed: 17868
gradient_accumulation_steps: 4
total_train_batch_size: 128
optimizer: Use OptimizerNames.PAGED_ADEMAMIX and the args are: No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.03
num_epochs: 1.0

Training results

Training Loss	Epoch	Step	Validation Loss	Input Tokens Seen
1.32	0.2527	2000	1.3214	189801824
1.2614	0.5053	4000	1.2815	379241088
1.2367	0.7580	6000	1.2595	568955808

Framework versions

Transformers 4.46.0.dev0
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.20.1