LT_AI_DLKVM modelio kortelė (LT) / Model Card for LT_AI_DLKVM (EN)

Turinys / Table of Contents

Modelio informacija

Modelio pavadinimas: LT_AI_DLKVM

Projektas: BLKT-VMS pipeline. Modelis sukurtas kaip tęstinės lietuvių kalbos modelių plėtros dalis, naudojant Lietuvių kalbos tekstyną ir specialiai šiam modeliui parengtą 32 768 tokenų žodyną (tokenizerį).

Architektūra: Llama3 principais paremtas kauzalinis kalbos modelis, naudojamas per Hugging Face Transformers bibliotekos AutoModelForCausalLM realizaciją.

Modelio aprašas: LT_AI_DLKVM – tai lietuvių kalbos kauzalinis kalbos modelis, sukurtas tyrimams, išankstiniam mokymui nuo nulio ir tolesniam pritaikymui lietuvių kalbos generavimo bei kalbos technologijų užduotyse. Modelio svoriai buvo inicializuoti atsitiktine tvarka, o mokymas vykdytas dviem etapais, naudojant Lietuvių kalbos tekstyno apdorotą variantą, parengtą ilgo konteksto mokymui.

Modeliui buvo naudojamas specialiai apmokytas 32 000 tokenų tokenizeris. Turėdamas apie 1,04 mlrd. parametrų ir palaikydamas maksimalų 32 768 tokenų konteksto ilgį, modelis yra pritaikytas efektyviai apdoroti ilgus lietuviškus tekstus ir mišraus domeno turinį. Jis skirtas naudoti kaip bazinis generatyvinis modelis tolesniam papildomam mokymui, domeniniam adaptavimui ir eksperimentams lietuvių kalbos NLP srityje.

Pagal nutylėjimą modelis nėra instruktavimui pritaikytas ar specializuotas konkrečioms užduotims. Norint jį taikyti pokalbių sistemoms, santraukų sudarymui, klasifikavimui ar domeniškai specifiniam generavimui, rekomenduojamas papildomas mokymas ir vertinimas.

Model Details

Model name: LT_AI_DLKVM

Project: BLKT-VMS pipeline. The model was developed as part of the continued development of Lithuanian language models using the Lithuanian Text Corpus and a dedicated 32,000-token tokenizer prepared specifically for this model.

Architecture: A causal language model based on Llama3 design principles, used through the AutoModelForCausalLM implementation from the Hugging Face Transformers library.

Model description: LT_AI_DLKVM is a Lithuanian causal language model developed for research, pretraining from scratch, and downstream adaptation in Lithuanian text generation and language technology tasks. The model weights were initialized randomly, and training was carried out in two stages using the Lithuanian Text Corpus processed variant prepared for long-context training.

The model uses a specially trained 32,000-token tokenizer. With approximately 1.04B parameters and support for a maximum context length of 32,768 tokens, the model is designed to process long Lithuanian texts and mixed-domain content efficiently. It is intended as a base generative model for further fine-tuning, domain adaptation, and experimentation in Lithuanian NLP.

The model is not instruction-tuned or task-specialized by default. For downstream applications such as chat, summarization, classification, or domain-specific generation, additional fine-tuning and evaluation are recommended.

Kaip pradėti naudoti modelį

Modelis naudojamas su Transformers biblioteka per AutoModelForCausalLM. Jis priima lietuviškus tekstinius raginimus ir generuoja tekstą autoregresiniu būdu.

Paprastas Python pavyzdys inferencijai:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "VSSA-SDSA/LT_AI_DLKVM"

tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
    device_map="auto" if torch.cuda.is_available() else None,
)

prompt = "Lietuvos technologijų ateitis priklausys nuo"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
inputs.pop("token_type_ids", None)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=256,
        do_sample=True,
        temperature=0.7,
        top_p=0.95,
        repetition_penalty=1.05,
    )

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

How to Get Started with the Model

The model is used with the Transformers library through AutoModelForCausalLM. It accepts Lithuanian text prompts and generates text autoregressively.

Simple Python code for inference:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "VSSA-SDSA/LT_AI_DLKVM"

tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
    device_map="auto" if torch.cuda.is_available() else None,
)

prompt = "Lietuvos technologijų ateitis priklausys nuo"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
inputs.pop("token_type_ids", None)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=256,
        do_sample=True,
        temperature=0.7,
        top_p=0.95,
        repetition_penalty=1.05,
    )

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Naudojimo sritys

Numatytasis naudojimas ir ribotumai: LT_AI_DLKVM skirtas tyrimams, plėtrai ir lietuvių kalbos generavimo sistemų diegimui, įskaitant išankstinį mokymą nuo nulio, domeninį adaptavimą, generavimą pagal raginimus ir ilgo konteksto kalbos modeliavimo eksperimentus.

Modelis gali būti naudojamas kaip bazinis modelis papildomam mokymui viešojo ir privataus sektoriaus projektuose, kuriuose reikalingas kokybiškas lietuviškų tekstų generavimas arba generatyvinis kalbos modeliavimas.

Norint modelį patikimai taikyti konkrečioms užduotims, jį rekomenduojama papildomai mokyti ir įvertinti pagal numatytą naudojimo scenarijų.

Uses

Intended use & limitations: LT_AI_DLKVM is intended for research, development, and deployment of Lithuanian language generation systems, including pretraining from scratch, domain adaptation, prompt-based generation, and experimentation with long-context language modelling.

It can serve as a base model for fine-tuning in both public and private sector projects that require robust Lithuanian text generation or generative language modelling capabilities.

To apply the model reliably to specific downstream tasks, it should be fine-tuned and evaluated for the intended use case.

Rizikos, šališkumai ir ribotumai

Modelis yra bazinis kauzalinis kalbos modelis ir nėra optimizuotas instrukcijų vykdymui, saugai kritinėse sąveikose ar faktiniam patikimumui. Jis gali generuoti sklandų, tačiau neteisingą, neišsamų ar klaidinantį turinį.

Nors modelis mokytas daugiausia su lietuvių kalbai artimais duomenimis, jis gali atspindėti mokymo korpuse esančius šališkumus, disbalansus ir teminius iškraipymus. Generavimo kokybė gali skirtis priklausomai nuo srities, raginimo formuluotės ir konteksto ilgio.

Saugos, šališkumo ir rizikų aspektai:

  • Modelis gali generuoti haliucinacijas arba faktinių netikslumų turinį.
  • Modelis gali atkartoti socialinius, kultūrinius ar kalbinius šališkumus, esančius šaltinio duomenyse.
  • Modelis nėra tinkamas didelės svarbos taikymams be papildomų apsaugos priemonių, stebėsenos ir užduočiai specifinio validavimo.
  • Už lietuvių kalbos ar susijusio mišraus domeno ribų modelio veikimas gali būti mažiau patikimas.

Risks, Biases, and Limitations

The model is a base causal language model and is not optimized for instruction-following, safety-critical interaction, or factual reliability. It may generate fluent but incorrect, incomplete, or misleading content.

While trained on Lithuanian-centric data, the model may reflect biases, imbalances, and topical skews present in the training corpus. Output quality may vary depending on domain, prompting style, and context length.

Safety, bias, and risk considerations:

  • The model may generate hallucinated or factually inaccurate content.
  • The model may reproduce social, cultural, or linguistic biases present in the source data.
  • The model is not suitable for high-stakes use without additional safeguards, monitoring, and task-specific validation.
  • Performance outside Lithuanian-centric or related mixed-domain settings may be less reliable.

Mokymo detalės

Mokymo duomenys: Modelis buvo mokytas naudojant Lietuvių kalbos tekstyną, konkrečiai Stage 5 processed 32k variantą, parengtą ilgo konteksto mokymui.

Apdorotas duomenų rinkinys palaiko:

  • Konteksto ilgį: 32 768 tokenus
  • Apytikslį tokenizuotą dydį: 6,32 mlrd. tokenų vienai epochai

Mokymo procedūra

Modelis buvo mokytas naudojant kauzalinio kalbos modeliavimo tikslą (kito tokeno prognozavimą) dviem etapais:

  1. Pradinis mokymas nuo nulio su maksimaliu 8 196 tokenų konteksto ilgiu
  2. Ilgo konteksto mokymas, išplečiant palaikymą iki 32 768 tokenų

Modelio svoriai prieš mokymą buvo inicializuoti atsitiktine tvarka.

Pradinis mokymas nuo nulio

  • Epochų skaičius: 6
  • Maksimalus konteksto ilgis: 8 196 tokenai
  • Mokymosi žingsnio dydis (learning rate): 2e-4
  • Optimizatorius: AdamW
  • Mikro paketo dydis įrenginiui: 4
  • Gradientų kaupimo žingsniai: 32
  • Gradientų kontrolinių taškų metodas: Įjungtas
  • GPU skaičius: 8
  • Aparatinė įranga: 8 × NVIDIA H100-SXM5-80GB GPUs

Ilgo konteksto mokymas

  • Epochų skaičius: 4
  • Maksimalus konteksto ilgis: 32 768 tokenai
  • Mokymosi žingsnio dydis (learning rate): 2e-4
  • Optimizatorius: AdamW
  • Mikro paketo dydis vienam įrenginiui: 2
  • Gradientų kaupimo žingsniai: 64
  • Gradientų kontrolinių taškų metodas: Įjungtas
  • GPU skaičius: 8
  • Aparatinė įranga: 8 × NVIDIA H100-SXM5-80GB GPUs

Efektyvus paketų dydis

Efektyvus globalus paketų dydis abiejuose etapuose buvo:

micro_batch_size × gradient_accumulation_steps × GPU_count = 1024

Tai sudaro:

  • Pradinis etapas: 4 × 32 × 8 = 1024
  • Ilgo konteksto etapas: 2 × 64 × 8 = 1024

Mokymo santraukos lentelė

Etapas Epochos Konteksto ilgis Learning Rate Mikro paketo dydis Gradientų kaupimas Optimizatorius Gradientų kontrolinių taškų metodas GPU Efektyvus globalus paketų dydis
Pradinis mokymas nuo nulio 6 8,196 4e-4 4 32 AdamW Įsjungtas 8 1,024
Ilgo konteksto mokymas 4 32,768 2e-4 2 64 AdamW Įjungtas 8 1,024

Training Details

Training data: The model was trained on the Lithuanian Text Corpus, specifically the Stage 5 processed 32k variant, prepared for long-context training.

The processed dataset supports:

  • Context length: 32,768 tokens
  • Approximate tokenized size: 6.32 billion tokens for a single epoch

Training procedure

The model was trained using the causal language modelling objective (next-token prediction) in two stages:

  1. Initial training from scratch with a maximum context length of 8,196 tokens
  2. Long-context training extending support to 32,768 tokens

The model weights were initialized randomly before training.

Initial training from scratch

  • Number of epochs: 6
  • Maximum context length: 8,196 tokens
  • Learning rate: 2e-4
  • Optimizer: AdamW
  • Per-device micro batch size: 4
  • Gradient accumulation steps: 32
  • Gradient checkpointing: Enabled
  • Number of GPUs: 8
  • Hardware: 8 × NVIDIA H100-SXM5-80GB GPUs

Long-context training

  • Number of epochs: 4
  • Maximum context length: 32,768 tokens
  • Learning rate: 2e-4
  • Optimizer: AdamW
  • Per-device micro batch size: 2
  • Gradient accumulation steps: 64
  • Gradient checkpointing: Enabled
  • Number of GPUs: 8
  • Hardware: 8 × NVIDIA H100-SXM5-80GB GPUs

Effective batch size

The effective global batch size in both stages was:

micro_batch_size × gradient_accumulation_steps × GPU_count = 1024

This gives:

  • Initial stage: 4 × 32 × 8 = 1024
  • Long-context stage: 2 × 64 × 8 = 1024

Training summary table

Stage Epochs Context Length Learning Rate Micro Batch Size Gradient Accumulation Optimizer Gradient Checkpointing GPUs Effective Global Batch Size
Initial training from scratch 6 8,196 4e-4 4 32 AdamW Disabled 8 1,024
Long-context training 4 32,768 2e-4 2 64 AdamW Enabled 8 1,024

Įvertinimas

Įvertinimo būsena: Šiuo metu modelio kortelėje nepateikiama jokių konkrečių užduočiai skirtų įvertinimo rezultatų.

Pilnesnei viešai versijai šį skyrių rekomenduojama išplėsti, įtraukiant:

  • perplexity arba nuostolio (loss) rodiklius su atidėtuoju lietuvišku validacijos rinkiniu,
  • tolesnių užduočių benchmark rezultatus,
  • ilgo konteksto vertinimą,
  • saugos ir šališkumo analizę.

Evaluation

Evaluation status: No task-specific evaluation results are currently provided in this model card.

For a fuller release, this section should ideally be expanded with:

  • perplexity or loss on held-out Lithuanian validation data,
  • downstream benchmark results,
  • long-context evaluation,
  • safety and bias analysis.

Citavimas

Jei naudojate LT_AI_DLKVM ar bet kurią šios saugyklos dalį savo tyrimuose ar diegime, cituokite taip (BibTeX):

@misc{SDSA_LT_AI_DLKVM_2025,
  title        = {{LT_AI_DLKVM}: Lithuanian Causal Language Model},
  author       = {{State Digital Solutions Agency (SDSA)}},
  year         = {2025},
  howpublished = {\url{https://huggingface.co/VSSA-SDSA/LT_AI_DLKVM}},
  note         = {Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas}
}

Citation

If you use LT_AI_DLKVM or any part of this repository in your research or deployment, please cite as follows (BibTeX):

@misc{SDSA_LT_AI_DLKVM_2025,
  title        = {{LT_AI_DLKVM}: Lithuanian Causal Language Model},
  author       = {{State Digital Solutions Agency (SDSA)}},
  year         = {2025},
  howpublished = {\url{https://huggingface.co/VSSA-SDSA/LT_AI_DLKVM}},
  note         = {Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas}
}

Licencija

Copyright (c) 2025 State Digital Solutions Agency (SDSA)

Sukurta Vytauto Didžiojo universiteto (VDU), UAB „Neurotechnology“, UAB „Tilde informacinės technologijos“, MB „Krilas“

Licencijuota pagal NewGenLTU openRAIL-M

Pastaba: Finansuoja Ekonomikos gaivinimo ir atsparumo didinimo priemonės planas „Naujos kartos Lietuva“

License

Copyright (c) 2025 State Digital Solutions Agency (SDSA)

Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas

Licensed under NewGenLTU openRAIL-M

Notice: Funded by Economic Recovery and Resilience Facility "New Generation Lithuania" Plan

Downloads last month
453
Safetensors
Model size
1B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for VSSA-SDSA/LT_AI_DLKVM

Finetunes
1 model