fdaudens
/

ModernBERT-hf-posts-classifier

Text Classification

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

ModernBERT-hf-posts-classifier / config.json

fdaudens's picture

fdaudens HF staff

Training in progress, epoch 1

eafa9e4 verified 27 days ago

2.95 kB

	{
	"_name_or_path": "answerdotai/ModernBERT-base",
	"architectures": [
	"ModernBertForSequenceClassification"
	],
	"attention_bias": false,
	"attention_dropout": 0.0,
	"bos_token_id": 50281,
	"classifier_activation": "gelu",
	"classifier_bias": false,
	"classifier_dropout": 0.0,
	"classifier_pooling": "mean",
	"cls_token_id": 50281,
	"decoder_bias": true,
	"deterministic_flash_attn": false,
	"embedding_dropout": 0.0,
	"eos_token_id": 50282,
	"global_attn_every_n_layers": 3,
	"global_rope_theta": 160000.0,
	"gradient_checkpointing": false,
	"hidden_activation": "gelu",
	"hidden_size": 768,
	"id2label": {
	"0": "AI Applications",
	"1": "AI Infrastructure",
	"2": "Agents",
	"3": "Argilla",
	"4": "Audio",
	"5": "Cloud Deployment",
	"6": "Code",
	"7": "Computer Vision",
	"8": "Data Engineering",
	"9": "Data Science",
	"10": "Deep Learning",
	"11": "Embeddings",
	"12": "Ethics",
	"13": "Evaluation",
	"14": "Fine-Tuning",
	"15": "Gaming",
	"16": "Generative AI",
	"17": "Gradio",
	"18": "Hardware",
	"19": "Hugging Face",
	"20": "Image",
	"21": "LLMs",
	"22": "ML Theory",
	"23": "MLOps",
	"24": "Model Optimization",
	"25": "Multimodal",
	"26": "NLP",
	"27": "Reinforcement Learning",
	"28": "Research Papers",
	"29": "Robotics",
	"30": "Security",
	"31": "Time Series",
	"32": "Tutorials",
	"33": "Video",
	"34": "XetHub"
	},
	"initializer_cutoff_factor": 2.0,
	"initializer_range": 0.02,
	"intermediate_size": 1152,
	"label2id": {
	"AI Applications": 0,
	"AI Infrastructure": 1,
	"Agents": 2,
	"Argilla": 3,
	"Audio": 4,
	"Cloud Deployment": 5,
	"Code": 6,
	"Computer Vision": 7,
	"Data Engineering": 8,
	"Data Science": 9,
	"Deep Learning": 10,
	"Embeddings": 11,
	"Ethics": 12,
	"Evaluation": 13,
	"Fine-Tuning": 14,
	"Gaming": 15,
	"Generative AI": 16,
	"Gradio": 17,
	"Hardware": 18,
	"Hugging Face": 19,
	"Image": 20,
	"LLMs": 21,
	"ML Theory": 22,
	"MLOps": 23,
	"Model Optimization": 24,
	"Multimodal": 25,
	"NLP": 26,
	"Reinforcement Learning": 27,
	"Research Papers": 28,
	"Robotics": 29,
	"Security": 30,
	"Time Series": 31,
	"Tutorials": 32,
	"Video": 33,
	"XetHub": 34
	},
	"layer_norm_eps": 1e-05,
	"local_attention": 128,
	"local_rope_theta": 10000.0,
	"max_position_embeddings": 8192,
	"mlp_bias": false,
	"mlp_dropout": 0.0,
	"model_type": "modernbert",
	"norm_bias": false,
	"norm_eps": 1e-05,
	"num_attention_heads": 12,
	"num_hidden_layers": 22,
	"pad_token_id": 50283,
	"position_embedding_type": "absolute",
	"problem_type": "multi_label_classification",
	"reference_compile": true,
	"sep_token_id": 50282,
	"sparse_pred_ignore_index": -100,
	"sparse_prediction": false,
	"torch_dtype": "float32",
	"transformers_version": "4.48.0.dev0",
	"vocab_size": 50368
	}