LT_AI_DLKVM modelio kortelė (LT) / Model Card for LT_AI_DLKVM (EN)
Turinys / Table of Contents
- Modelio informacija (LT) / Model Details (EN)
- Kaip pradėti naudoti modelį (LT) / How to Get Started with the Model (EN)
- Naudojimo sritys (LT) / Uses (EN)
- Rizikos, šališkumai ir ribotumai (LT) / Risks, Biases, and Limitations (EN)
- Mokymo detalės (LT) / Training Details (EN)
- Įvertinimas (LT) / Evaluation (EN)
- Citavimas (LT) / Citation (EN)
- Licencija (LT) / License (EN)
Modelio informacija
Modelio pavadinimas: LT_AI_DLKVM
Projektas: BLKT-VMS pipeline. Modelis sukurtas kaip tęstinės lietuvių kalbos modelių plėtros dalis, naudojant Lietuvių kalbos tekstyną ir specialiai šiam modeliui parengtą 32 768 tokenų žodyną (tokenizerį).
Architektūra: Llama3 principais paremtas kauzalinis kalbos modelis, naudojamas per Hugging Face Transformers bibliotekos AutoModelForCausalLM realizaciją.
Modelio aprašas: LT_AI_DLKVM – tai lietuvių kalbos kauzalinis kalbos modelis, sukurtas tyrimams, išankstiniam mokymui nuo nulio ir tolesniam pritaikymui lietuvių kalbos generavimo bei kalbos technologijų užduotyse. Modelio svoriai buvo inicializuoti atsitiktine tvarka, o mokymas vykdytas dviem etapais, naudojant Lietuvių kalbos tekstyno apdorotą variantą, parengtą ilgo konteksto mokymui.
Modeliui buvo naudojamas specialiai apmokytas 32 000 tokenų tokenizeris. Turėdamas apie 1,04 mlrd. parametrų ir palaikydamas maksimalų 32 768 tokenų konteksto ilgį, modelis yra pritaikytas efektyviai apdoroti ilgus lietuviškus tekstus ir mišraus domeno turinį. Jis skirtas naudoti kaip bazinis generatyvinis modelis tolesniam papildomam mokymui, domeniniam adaptavimui ir eksperimentams lietuvių kalbos NLP srityje.
Pagal nutylėjimą modelis nėra instruktavimui pritaikytas ar specializuotas konkrečioms užduotims. Norint jį taikyti pokalbių sistemoms, santraukų sudarymui, klasifikavimui ar domeniškai specifiniam generavimui, rekomenduojamas papildomas mokymas ir vertinimas.
Model Details
Model name: LT_AI_DLKVM
Project: BLKT-VMS pipeline. The model was developed as part of the continued development of Lithuanian language models using the Lithuanian Text Corpus and a dedicated 32,000-token tokenizer prepared specifically for this model.
Architecture: A causal language model based on Llama3 design principles, used through the AutoModelForCausalLM implementation from the Hugging Face Transformers library.
Model description: LT_AI_DLKVM is a Lithuanian causal language model developed for research, pretraining from scratch, and downstream adaptation in Lithuanian text generation and language technology tasks. The model weights were initialized randomly, and training was carried out in two stages using the Lithuanian Text Corpus processed variant prepared for long-context training.
The model uses a specially trained 32,000-token tokenizer. With approximately 1.04B parameters and support for a maximum context length of 32,768 tokens, the model is designed to process long Lithuanian texts and mixed-domain content efficiently. It is intended as a base generative model for further fine-tuning, domain adaptation, and experimentation in Lithuanian NLP.
The model is not instruction-tuned or task-specialized by default. For downstream applications such as chat, summarization, classification, or domain-specific generation, additional fine-tuning and evaluation are recommended.
Kaip pradėti naudoti modelį
Modelis naudojamas su Transformers biblioteka per AutoModelForCausalLM. Jis priima lietuviškus tekstinius raginimus ir generuoja tekstą autoregresiniu būdu.
Paprastas Python pavyzdys inferencijai:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "VSSA-SDSA/LT_AI_DLKVM"
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
device_map="auto" if torch.cuda.is_available() else None,
)
prompt = "Lietuvos technologijų ateitis priklausys nuo"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
inputs.pop("token_type_ids", None)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=256,
do_sample=True,
temperature=0.7,
top_p=0.95,
repetition_penalty=1.05,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
How to Get Started with the Model
The model is used with the Transformers library through AutoModelForCausalLM. It accepts Lithuanian text prompts and generates text autoregressively.
Simple Python code for inference:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "VSSA-SDSA/LT_AI_DLKVM"
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
device_map="auto" if torch.cuda.is_available() else None,
)
prompt = "Lietuvos technologijų ateitis priklausys nuo"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
inputs.pop("token_type_ids", None)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=256,
do_sample=True,
temperature=0.7,
top_p=0.95,
repetition_penalty=1.05,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Naudojimo sritys
Numatytasis naudojimas ir ribotumai: LT_AI_DLKVM skirtas tyrimams, plėtrai ir lietuvių kalbos generavimo sistemų diegimui, įskaitant išankstinį mokymą nuo nulio, domeninį adaptavimą, generavimą pagal raginimus ir ilgo konteksto kalbos modeliavimo eksperimentus.
Modelis gali būti naudojamas kaip bazinis modelis papildomam mokymui viešojo ir privataus sektoriaus projektuose, kuriuose reikalingas kokybiškas lietuviškų tekstų generavimas arba generatyvinis kalbos modeliavimas.
Norint modelį patikimai taikyti konkrečioms užduotims, jį rekomenduojama papildomai mokyti ir įvertinti pagal numatytą naudojimo scenarijų.
Uses
Intended use & limitations: LT_AI_DLKVM is intended for research, development, and deployment of Lithuanian language generation systems, including pretraining from scratch, domain adaptation, prompt-based generation, and experimentation with long-context language modelling.
It can serve as a base model for fine-tuning in both public and private sector projects that require robust Lithuanian text generation or generative language modelling capabilities.
To apply the model reliably to specific downstream tasks, it should be fine-tuned and evaluated for the intended use case.
Rizikos, šališkumai ir ribotumai
Modelis yra bazinis kauzalinis kalbos modelis ir nėra optimizuotas instrukcijų vykdymui, saugai kritinėse sąveikose ar faktiniam patikimumui. Jis gali generuoti sklandų, tačiau neteisingą, neišsamų ar klaidinantį turinį.
Nors modelis mokytas daugiausia su lietuvių kalbai artimais duomenimis, jis gali atspindėti mokymo korpuse esančius šališkumus, disbalansus ir teminius iškraipymus. Generavimo kokybė gali skirtis priklausomai nuo srities, raginimo formuluotės ir konteksto ilgio.
Saugos, šališkumo ir rizikų aspektai:
- Modelis gali generuoti haliucinacijas arba faktinių netikslumų turinį.
- Modelis gali atkartoti socialinius, kultūrinius ar kalbinius šališkumus, esančius šaltinio duomenyse.
- Modelis nėra tinkamas didelės svarbos taikymams be papildomų apsaugos priemonių, stebėsenos ir užduočiai specifinio validavimo.
- Už lietuvių kalbos ar susijusio mišraus domeno ribų modelio veikimas gali būti mažiau patikimas.
Risks, Biases, and Limitations
The model is a base causal language model and is not optimized for instruction-following, safety-critical interaction, or factual reliability. It may generate fluent but incorrect, incomplete, or misleading content.
While trained on Lithuanian-centric data, the model may reflect biases, imbalances, and topical skews present in the training corpus. Output quality may vary depending on domain, prompting style, and context length.
Safety, bias, and risk considerations:
- The model may generate hallucinated or factually inaccurate content.
- The model may reproduce social, cultural, or linguistic biases present in the source data.
- The model is not suitable for high-stakes use without additional safeguards, monitoring, and task-specific validation.
- Performance outside Lithuanian-centric or related mixed-domain settings may be less reliable.
Mokymo detalės
Mokymo duomenys: Modelis buvo mokytas naudojant Lietuvių kalbos tekstyną, konkrečiai Stage 5 processed 32k variantą, parengtą ilgo konteksto mokymui.
Apdorotas duomenų rinkinys palaiko:
- Konteksto ilgį: 32 768 tokenus
- Apytikslį tokenizuotą dydį: 6,32 mlrd. tokenų vienai epochai
Mokymo procedūra
Modelis buvo mokytas naudojant kauzalinio kalbos modeliavimo tikslą (kito tokeno prognozavimą) dviem etapais:
- Pradinis mokymas nuo nulio su maksimaliu 8 196 tokenų konteksto ilgiu
- Ilgo konteksto mokymas, išplečiant palaikymą iki 32 768 tokenų
Modelio svoriai prieš mokymą buvo inicializuoti atsitiktine tvarka.
Pradinis mokymas nuo nulio
- Epochų skaičius: 6
- Maksimalus konteksto ilgis: 8 196 tokenai
- Mokymosi žingsnio dydis (learning rate): 2e-4
- Optimizatorius: AdamW
- Mikro paketo dydis įrenginiui: 4
- Gradientų kaupimo žingsniai: 32
- Gradientų kontrolinių taškų metodas: Įjungtas
- GPU skaičius: 8
- Aparatinė įranga: 8 × NVIDIA H100-SXM5-80GB GPUs
Ilgo konteksto mokymas
- Epochų skaičius: 4
- Maksimalus konteksto ilgis: 32 768 tokenai
- Mokymosi žingsnio dydis (learning rate): 2e-4
- Optimizatorius: AdamW
- Mikro paketo dydis vienam įrenginiui: 2
- Gradientų kaupimo žingsniai: 64
- Gradientų kontrolinių taškų metodas: Įjungtas
- GPU skaičius: 8
- Aparatinė įranga: 8 × NVIDIA H100-SXM5-80GB GPUs
Efektyvus paketų dydis
Efektyvus globalus paketų dydis abiejuose etapuose buvo:
micro_batch_size × gradient_accumulation_steps × GPU_count = 1024
Tai sudaro:
- Pradinis etapas:
4 × 32 × 8 = 1024 - Ilgo konteksto etapas:
2 × 64 × 8 = 1024
Mokymo santraukos lentelė
| Etapas | Epochos | Konteksto ilgis | Learning Rate | Mikro paketo dydis | Gradientų kaupimas | Optimizatorius | Gradientų kontrolinių taškų metodas | GPU | Efektyvus globalus paketų dydis |
|---|---|---|---|---|---|---|---|---|---|
| Pradinis mokymas nuo nulio | 6 | 8,196 | 4e-4 | 4 | 32 | AdamW | Įsjungtas | 8 | 1,024 |
| Ilgo konteksto mokymas | 4 | 32,768 | 2e-4 | 2 | 64 | AdamW | Įjungtas | 8 | 1,024 |
Training Details
Training data: The model was trained on the Lithuanian Text Corpus, specifically the Stage 5 processed 32k variant, prepared for long-context training.
The processed dataset supports:
- Context length: 32,768 tokens
- Approximate tokenized size: 6.32 billion tokens for a single epoch
Training procedure
The model was trained using the causal language modelling objective (next-token prediction) in two stages:
- Initial training from scratch with a maximum context length of 8,196 tokens
- Long-context training extending support to 32,768 tokens
The model weights were initialized randomly before training.
Initial training from scratch
- Number of epochs: 6
- Maximum context length: 8,196 tokens
- Learning rate: 2e-4
- Optimizer: AdamW
- Per-device micro batch size: 4
- Gradient accumulation steps: 32
- Gradient checkpointing: Enabled
- Number of GPUs: 8
- Hardware: 8 × NVIDIA H100-SXM5-80GB GPUs
Long-context training
- Number of epochs: 4
- Maximum context length: 32,768 tokens
- Learning rate: 2e-4
- Optimizer: AdamW
- Per-device micro batch size: 2
- Gradient accumulation steps: 64
- Gradient checkpointing: Enabled
- Number of GPUs: 8
- Hardware: 8 × NVIDIA H100-SXM5-80GB GPUs
Effective batch size
The effective global batch size in both stages was:
micro_batch_size × gradient_accumulation_steps × GPU_count = 1024
This gives:
- Initial stage:
4 × 32 × 8 = 1024 - Long-context stage:
2 × 64 × 8 = 1024
Training summary table
| Stage | Epochs | Context Length | Learning Rate | Micro Batch Size | Gradient Accumulation | Optimizer | Gradient Checkpointing | GPUs | Effective Global Batch Size |
|---|---|---|---|---|---|---|---|---|---|
| Initial training from scratch | 6 | 8,196 | 4e-4 | 4 | 32 | AdamW | Disabled | 8 | 1,024 |
| Long-context training | 4 | 32,768 | 2e-4 | 2 | 64 | AdamW | Enabled | 8 | 1,024 |
Įvertinimas
Įvertinimo būsena: Šiuo metu modelio kortelėje nepateikiama jokių konkrečių užduočiai skirtų įvertinimo rezultatų.
Pilnesnei viešai versijai šį skyrių rekomenduojama išplėsti, įtraukiant:
- perplexity arba nuostolio (loss) rodiklius su atidėtuoju lietuvišku validacijos rinkiniu,
- tolesnių užduočių benchmark rezultatus,
- ilgo konteksto vertinimą,
- saugos ir šališkumo analizę.
Evaluation
Evaluation status: No task-specific evaluation results are currently provided in this model card.
For a fuller release, this section should ideally be expanded with:
- perplexity or loss on held-out Lithuanian validation data,
- downstream benchmark results,
- long-context evaluation,
- safety and bias analysis.
Citavimas
Jei naudojate LT_AI_DLKVM ar bet kurią šios saugyklos dalį savo tyrimuose ar diegime, cituokite taip (BibTeX):
@misc{SDSA_LT_AI_DLKVM_2025,
title = {{LT_AI_DLKVM}: Lithuanian Causal Language Model},
author = {{State Digital Solutions Agency (SDSA)}},
year = {2025},
howpublished = {\url{https://huggingface.co/VSSA-SDSA/LT_AI_DLKVM}},
note = {Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas}
}
Citation
If you use LT_AI_DLKVM or any part of this repository in your research or deployment, please cite as follows (BibTeX):
@misc{SDSA_LT_AI_DLKVM_2025,
title = {{LT_AI_DLKVM}: Lithuanian Causal Language Model},
author = {{State Digital Solutions Agency (SDSA)}},
year = {2025},
howpublished = {\url{https://huggingface.co/VSSA-SDSA/LT_AI_DLKVM}},
note = {Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas}
}
Licencija
Copyright (c) 2025 State Digital Solutions Agency (SDSA)
Sukurta Vytauto Didžiojo universiteto (VDU), UAB „Neurotechnology“, UAB „Tilde informacinės technologijos“, MB „Krilas“
Licencijuota pagal NewGenLTU openRAIL-M
Pastaba: Finansuoja Ekonomikos gaivinimo ir atsparumo didinimo priemonės planas „Naujos kartos Lietuva“
License
Copyright (c) 2025 State Digital Solutions Agency (SDSA)
Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas
Licensed under NewGenLTU openRAIL-M
Notice: Funded by Economic Recovery and Resilience Facility "New Generation Lithuania" Plan
- Downloads last month
- 453