The mt5-small model trained for Urdu text summarization. Here is an example for summary generation.

import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
article_text = """ہوٹل کی عمارت میں آگ لگ گئی ہے اور دھوئیں کے کالے بادل دکھائی دے رہے ہیں ہوٹل کی عمارت میں آگ لگ گئی ہے اور ایمبولینس جائے وقوعہ پر پہنچ گئی ہیں۔ تاہم ابھی ہلاکتوں کی کوئی اطلاع موصول نہیں ہوئی ہے۔ اس کے علاوہ دیگر دو دھماکے متحدہ عرب امارات کے فوجیوں کی رہائش گاہ اور ہیڈ کوارٹرز پر ہوئے ہیں۔ خبر رساں ادارے روئٹرز کے مطابق مقامی باشندوں کا کہنا ہے کہ اس راکٹ حملے میں متعدد افراد ہلاک ہوئے ہیں تاہم سرکاری طور پر اس کی تصدیق نہیں ہو سکی ہے۔ سوشل میڈیا پر جاری تصاویر میں عدن کے شہر میں اس ہوٹل کے گرد کالے دھوئیں کے بادل اٹھتے دیکھے جا سکتے ہیں۔ سعودی عرب کے تعاون سے حکومت کی وفادار فوج نے جولائی میں حوثی باغیوں سے یہ شہر خالی کرایا تھا اور تب سے قصر نامی ہوٹل یمن کی سرکاری انتظامیہ کا ٹھکانہ تھا۔ حکام کے مطابق یمن کے نائب صدر خالد بحاح اور دوسرے اعلیٰ حکام حملے میں محفوظ رہے جبکہ صدر منصور ہادی کے بارے میں کہا جا رہا ہے کہ وہ بیرون ملک ہیں۔ اطلاعات کے مطابق ایک دستی بم ہوٹل کے دروازے پر داغا گیا، دوسرا آر پی جی دروازے کے قریب گرا جبکہ تیسرا راکٹ شہر کے بریقہ ضلعے میں گرا۔ ٹوئٹر پر ایک میڈیا نے ہوٹل کی حفاظت پر معمور گارڈز کی ہلاکتوں کا ذکر کیا ہے۔
"""

model_name = "mirfan899/usum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]
output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4
)[0]
summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)
print(summary)
Downloads last month
7
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train mirfan899/usum_md