--- base_model: facebook/mbart-large-50 library_name: peft license: mit tags: - generated_from_trainer model-index: - name: mbart-large-50_Nepali_News_Summarization_QLoRA_8bit results: [] --- # mbart-large-50_Nepali_News_Summarization_QLoRA_8bit This model is a fine-tuned version of [facebook/mbart-large-50](https://huggingface.co/facebook/mbart-large-50) on an unknown dataset. It achieves the following results on the evaluation set: - Loss: 1.3724 - Rouge-1 R: 0.3809 - Rouge-1 P: 0.3877 - Rouge-1 F: 0.3745 - Rouge-2 R: 0.2144 - Rouge-2 P: 0.2176 - Rouge-2 F: 0.2093 - Rouge-l R: 0.3702 - Rouge-l P: 0.3766 - Rouge-l F: 0.364 - Gen Len: 14.0747 ## Model description More information needed ## Intended uses & limitations More information needed ## Training and evaluation data More information needed ## How to use? ```python from transformers import MBartForConditionalGeneration, MBart50TokenizerFast from transformers import AutoTokenizer, AutoModelForSeq2SeqLM from peft import get_peft_model, PeftModel import torch model_name = 'caspro/mbart-large-50_Nepali_News_Summarization_QLoRA_4bit' base_model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50", load_in_8bit=True) # Load the tokenizer and model from the Hugging Face Hub tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSeq2SeqLM.from_pretrained(model_name) prefix = "सारांशमा: " def preprocess_function(examples): inputs = [prefix + doc for doc in examples["text"]] model_inputs = tokenizer(inputs, max_length=1024, truncation=True) #tokenizer.set_tgt_lang_special_tokens('ne_NP') labels = tokenizer(text_target=examples["title"], max_length=20, truncation=True) model_inputs["labels"] = labels["input_ids"] return model_inputs text = 'सारांशमा: नेपालमा उपलब्ध कुल विद्युतको एक चौथाइभन्दा बढी विद्युत प्राविधिक र अप्राविधिक रुपमा चुहावट हुने तथ्यका माझ त्यसलाई नियन्त्रण गर्न प्राधिकरणले एउटा समिति बनाएर अनुसन्धान पनि थालेको थियो। \n\nमहानगरीय प्रहरी अपराध महाशाखाका अनुसार नेपाल विद्युत प्राधिकरणका कतिपय कर्मचारीको टोलीले गाडीमा आवश्यक सबै उपकरणहरु बोकेर ग्राहकको घरघरमा पुगेर विद्युत चोर्नमा सघाउने गरेको भेटिएको हो। \n\nकडाइ\n\nआइतबार प्राधिकरणका वर्तमान र पूर्व कर्मचारी गरी १२ जना तथा चारजना व्यापारीलाई पक्राउ गरेको प्रहरी अपराध महाशाखाले प्रारम्भिक अनुसन्धानमा चोरीको गिरोहको आकार अझ ठूलो हुन सक्ने जनाएको छ। \n\nमहाशाखाका प्रमुख सर्वेन्द्र खनालले भने, "अहिलेसम्मको प्रारम्भिक अनुसन्धानमा केही कलकारखाना, केही उद्योगहरु पनि चोरीमा संलग्न भएको देखिन्छ। यसभन्दा बाहेक बाँकी अरुपनि छन्। तिनीहरुलाई हामी जतिसक्दो चाँडो कानुनको दायरामा ल्याउँछौं।" \n\nनेपाल विद्युत प्राधिकरणका अनुसार नेपालमा हाल उपलब्ध कुल विद्युतको करिब २६ प्रतिशत विद्युत चुहावट हुने गर्दछ। \n\nत्यसमा १२ प्रतिशत प्राविधिक तथा १४ प्रतिशत भन्दा बढी अप्राविधिक हुने गरेको छ। \n\nकमसल खालको विद्युतीय सामाग्री गर्दा हुने चुहावट प्राविधिक हो।\n\nमिटरमा कम खपत देखाउने गरी विद्युत चोरी भए त्यो चाहिँ अप्राविधिक चुहावटमा पर्छ। \n\nप्रयास\n\nचोरी नियन्त्रण गर्न उर्जा मन्त्रालयले छुट्टै समिति पनि गठन गरिएको छ। \n\nचोरी नियन्त्रणको अहिले थालिएको अभियानमा नेपाल विद्युत प्राधिकरण र उर्जा मन्त्रालयले सघाएको पनि प्रहरीले जनाएको छ। \n\nपक्राउ गरिएकाहरुलाई ठगी मुद्दा लगाइएको छ।\n\nतर उनीहरुलाई विद्युत चोरी ऐन जस्ता आवश्यक ऐन अन्तर्गत कारबाही अगाडि बढाउन सक्ने महाशाखा प्रमुख तथा एसएसपी खनाल बताउँछन्। \n\nउनले भने, "यसमा धेरै पक्षको संलग्नता भएकोले एकैथरी कानुनबाट सम्बोधन नहुन सक्छ। तर सबैजना ठगीसँग सम्बन्धित हुने भएकोले यो कानुनले समेट्छ। त्यही अनुरुप नै हामीले अनुसन्धान शुरु गरेका छौं"। \n\nविद्युत चोरी गर्नेमा सर्वसाधारण उद्योगीहरु र व्यापारीहरु रहेको बताइएको छ।\n\nविद्युतको चोरी र चुहावट रोक्ने भनिदैं आएपनि हालसम्म त्यो प्रभावकारी देखिएको छैन। \n\n' lora_model = PeftModel.from_pretrained(base_model, model_name) # Assuming you have a GPU available, move the model to the GPU if torch.cuda.is_available(): device = torch.device("cuda") lora_model.to(device) def generate_summary(text): inputs = tokenizer(text, return_tensors="pt", max_length=1024, truncation=True) # Move the input tensors to the same device as the model if torch.cuda.is_available(): inputs = inputs.to(device) summary_ids = lora_model.generate(inputs['input_ids'], num_beams=4, max_length=128, early_stopping=True) summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True) return summary summary = generate_summary(prefix + text) summary ``` ## Training procedure ### Training hyperparameters The following hyperparameters were used during training: - learning_rate: 0.0005 - train_batch_size: 5 - eval_batch_size: 5 - seed: 42 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 - lr_scheduler_type: linear - num_epochs: 3 - mixed_precision_training: Native AMP ### Training results | Training Loss | Epoch | Step | Validation Loss | Rouge-1 R | Rouge-1 P | Rouge-1 F | Rouge-2 R | Rouge-2 P | Rouge-2 F | Rouge-l R | Rouge-l P | Rouge-l F | Gen Len | |:-------------:|:-----:|:-----:|:---------------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:-------:| | 1.5604 | 1.0 | 10191 | 1.5916 | 0.3605 | 0.3694 | 0.3536 | 0.1948 | 0.2008 | 0.19 | 0.3501 | 0.3586 | 0.3433 | 14.7262 | | 1.5482 | 2.0 | 20382 | 1.3992 | 0.3673 | 0.3879 | 0.3672 | 0.2034 | 0.2149 | 0.202 | 0.3577 | 0.3775 | 0.3575 | 13.7928 | | 1.2397 | 3.0 | 30573 | 1.3724 | 0.3809 | 0.3877 | 0.3745 | 0.2144 | 0.2176 | 0.2093 | 0.3702 | 0.3766 | 0.364 | 14.0747 | ### Framework versions - PEFT 0.11.1 - Transformers 4.42.3 - Pytorch 2.1.2 - Datasets 2.20.0 - Tokenizers 0.19.1