IlyaGusev
/

rubert_ext_sum_gazeta

+---
+language:
+- ru
+- ru-RU
+tags:
+- summarization
+- token-classification
+- t5
+datasets:
+- IlyaGusev/gazeta
+license: apache-2.0
+widget:
+- text: "Высота башни составляет 324 метра (1063 фута), примерно такая же высота, как у 81-этажного здания, и самое высокое сооружение в Париже.[SEP]Его основание квадратно, размером 125 метров (410 футов) с любой стороны.[SEP]Во время строительства Эйфелева башня превзошла монумент Вашингтона, став самым высоким искусственным сооружением в мире, и этот титул она удерживала в течение 41 года до завершения строительство здания Крайслер в Нью-Йорке в 1930 году.[SEP]Это первое сооружение которое достигло высоты 300 метров.[SEP]Из-за добавления вещательной антенны на вершине башни в 1957 году она сейчас выше здания Крайслер на 5,2 метра (17 футов).[SEP]За исключением передатчиков, Эйфелева башня является второй самой высокой отдельно стоящей структурой во Франции после виадука Мийо.[SEP]"
+  example_title: "Википедия"
+---
+# RuBERTExtSumGazeta
+## Model description
+Model for extractive summarization based on [rubert-base-cased](DeepPavlov/rubert-base-cased)
+## Intended uses & limitations
+#### How to use
+```python
+import razdel
+from transformers import AutoTokenizer, BertForTokenClassification
+model_name = "IlyaGusev/rubert_ext_sum_gazeta"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+sep_token = tokenizer.sep_token
+sep_token_id = tokenizer.sep_token_id
+model = BertForTokenClassification.from_pretrained(model_name)
+article_text = "..."
+sentences = [s.text for s in razdel.sentenize(article_text)]
+article_text = sep_token.join(sentences)
+inputs = tokenizer(
+    [article_text],
+    max_length=500,
+    padding="max_length",
+    truncation=True,
+    return_tensors="pt",
+)
+sep_mask = inputs["input_ids"] == sep_token_id
+# Fix token_type_ids
+current_token_type_id = 0
+for pos, input_id in enumerate(inputs["input_ids"][0]):
+    inputs["token_type_ids"][0][pos] = current_token_type_id
+    if input_id == sep_token_id:
+        current_token_type_id = 1 - current_token_type_id
+# Infer model
+with torch.no_grad():
+    outputs = model(**inputs)
+logits = outputs.logits[:, :, 1][0]
+# Choose sentences
+logits = logits[sep_mask]
+logits, indices = logits.sort(descending=True)
+logits, indices = logits.cpu().tolist(), indices.cpu().tolist()
+pairs = list(zip(logits, indices))
+pairs = pairs[:3]
+indices = [idx for _, idx in pairs]
+summary = " ".join([sentences[idx] for idx in indices])
+print(summary)
+```
+#### Limitations and bias
+- The model should work well with Gazeta.ru articles, but for any other agencies it can suffer from domain shift
+## Training data
+- Dataset: [Gazeta](https://huggingface.co/datasets/IlyaGusev/gazeta)
+## Training procedure
+TBD
+## Eval results
+TBD
+Evaluation: https://github.com/IlyaGusev/summarus/blob/master/evaluate.py
+Flags: --language ru --tokenize-after --lower