fdaudens
/

ModernBERT-hf-posts-classifier

Text Classification

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

ModernBERT-hf-posts-classifier / config.json

fdaudens's picture

fdaudens HF staff

Training in progress, epoch 1

c9e262a verified 20 days ago

3.04 kB

	{
	"_name_or_path": "MoritzLaurer/ModernBERT-large-zeroshot-v2.0",
	"architectures": [
	"ModernBertForSequenceClassification"
	],
	"attention_bias": false,
	"attention_dropout": 0.0,
	"bos_token_id": 50281,
	"classifier_activation": "gelu",
	"classifier_bias": false,
	"classifier_dropout": 0.0,
	"classifier_pooling": "mean",
	"cls_token_id": 50281,
	"decoder_bias": true,
	"deterministic_flash_attn": false,
	"embedding_dropout": 0.0,
	"eos_token_id": 50282,
	"global_attn_every_n_layers": 3,
	"global_rope_theta": 160000.0,
	"gradient_checkpointing": false,
	"hidden_activation": "gelu",
	"hidden_size": 1024,
	"id2label": {
	"0": "AI Applications",
	"1": "AI Infrastructure",
	"10": "Deep Learning",
	"11": "Embeddings",
	"12": "Ethics",
	"13": "Evaluation",
	"14": "Fine-Tuning",
	"15": "Gaming",
	"16": "Generative AI",
	"17": "Gradio",
	"18": "Hardware",
	"19": "Hugging Face",
	"2": "Agents",
	"20": "Image",
	"21": "LLMs",
	"22": "ML Theory",
	"23": "MLOps",
	"24": "Model Optimization",
	"25": "Multimodal",
	"26": "NLP",
	"27": "Reinforcement Learning",
	"28": "Research Papers",
	"29": "Robotics",
	"3": "Argilla",
	"30": "Security",
	"31": "Time Series",
	"32": "Tutorials",
	"33": "Video",
	"34": "XetHub",
	"4": "Audio",
	"5": "Cloud Deployment",
	"6": "Code",
	"7": "Computer Vision",
	"8": "Data Engineering",
	"9": "Data Science"
	},
	"initializer_cutoff_factor": 2.0,
	"initializer_range": 0.02,
	"intermediate_size": 2624,
	"label2id": {
	"AI Applications": "0",
	"AI Infrastructure": "1",
	"Agents": "2",
	"Argilla": "3",
	"Audio": "4",
	"Cloud Deployment": "5",
	"Code": "6",
	"Computer Vision": "7",
	"Data Engineering": "8",
	"Data Science": "9",
	"Deep Learning": "10",
	"Embeddings": "11",
	"Ethics": "12",
	"Evaluation": "13",
	"Fine-Tuning": "14",
	"Gaming": "15",
	"Generative AI": "16",
	"Gradio": "17",
	"Hardware": "18",
	"Hugging Face": "19",
	"Image": "20",
	"LLMs": "21",
	"ML Theory": "22",
	"MLOps": "23",
	"Model Optimization": "24",
	"Multimodal": "25",
	"NLP": "26",
	"Reinforcement Learning": "27",
	"Research Papers": "28",
	"Robotics": "29",
	"Security": "30",
	"Time Series": "31",
	"Tutorials": "32",
	"Video": "33",
	"XetHub": "34"
	},
	"layer_norm_eps": 1e-05,
	"local_attention": 128,
	"local_rope_theta": 10000.0,
	"max_position_embeddings": 8192,
	"mlp_bias": false,
	"mlp_dropout": 0.0,
	"model_type": "modernbert",
	"norm_bias": false,
	"norm_eps": 1e-05,
	"num_attention_heads": 16,
	"num_hidden_layers": 28,
	"pad_token_id": 50283,
	"position_embedding_type": "absolute",
	"problem_type": "multi_label_classification",
	"reference_compile": true,
	"sep_token_id": 50282,
	"sparse_pred_ignore_index": -100,
	"sparse_prediction": false,
	"torch_dtype": "float32",
	"transformers_version": "4.48.0.dev0",
	"vocab_size": 50368
	}