🥦 zdravJEM - Model za klasifikacijo zdrave prehrane
To je Vision Transformer (ViT) model, treniran za klasifikacijo fotografij hrane glede na štiri dimenzije:
- zdravo
- raznoliko
- domače
- je hrana
Model je del aplikacije zdravJEM, odprtokodnega orodja za ozaveščanje o prehranskih navadah na podlagi vizualne analize hrane.
📊 Dataset
Model je treniran na ročno anotiranem datasetu, objavljenem na Zenodo:
📦 https://zenodo.org/records/15203529
Dataset vsebuje več sto slik hrane, ki so bile ocenjene glede na prehransko vrednost in kulturne značilnosti (npr. "domače").
🧠 Trening
Model temelji na predtreniranem google/vit-base-patch16-224
, ki je bil fine-tunan na zgornjem datasetu.
Treniranje je potekalo po vzorcu: "Fine-tuning a Vision Transformer Model With a Custom Biomedical Dataset"
Trening je bil izveden v Jupyter Notebooku TrainModel.ipynb
, ki prikazuje:
- pripravo podatkov (resizing, normalizacija),
- stratificirano razdelitev na trening/test,
- trening z
torch
+transformers
, - shranjevanje modela kot
safetensors
.
Uporabljena sta bila BCEWithLogitsLoss
za več-labelsko klasifikacijo in 50 epochov.
🚀 Kako uporabiti
from transformers import ViTImageProcessor, ViTForImageClassification
from PIL import Image
import torch
# Load model and processor
model = ViTForImageClassification.from_pretrained("JernejRozman/zdravjem-vit")
processor = ViTImageProcessor.from_pretrained("JernejRozman/zdravjem-vit")
# Load image
image = Image.open("test_hrana.jpg")
# Prepare inputs
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
# Get sigmoid scores
scores = torch.sigmoid(outputs.logits).squeeze().tolist()
print("Ocene (zdravo, raznoliko, domače, je hrana):", scores)
- Downloads last month
- 9
Model tree for JernejRozman/zdravJEM_CV_BERT
Base model
google/vit-base-patch16-224