metadata

language: ca
tags:
  - summarization
widget:
  - text: >-
      La Universitat Politècnica de València (UPV), a través del projecte Atenea
      “plataforma de dones, art i tecnologia” i en col·laboració amb les
      companyies tecnològiques Metric Salad i Zetalab, ha digitalitzat i modelat
      en 3D per a la 35a edició del Festival Dansa València, que se celebra del
      2 al 10 d'abril, la primera peça de dansa en un metaverso específic. La
      peça No és amor, dirigida per Lara Misó, forma part de la programació
      d'aquesta edició del Festival Dansa València i explora la figura
      geomètrica del cercle des de totes les seues perspectives: espacial,
      corporal i compositiva. No és amor està inspirada en el treball de
      l'artista japonesa Yayoi Kusama i mira de prop les diferents facetes d'una
      obsessió. Així dona cabuda a la insistència, la repetició, el trastorn, la
      hipnosi i l'alliberament. El procés de digitalització, materialitzat per
      Metric Salad i ZetaLab, ha sigut complex respecte a uns altres ja
      realitzats a causa de l'enorme desafiament que comporta el modelatge en 3D
      de cossos en moviment al ritme de la composició de l'obra. L'objectiu era
      generar una experiència el més realista possible i fidedigna de l'original
      perquè el resultat final fora un procés absolutament immersiu.Així, el
      metaverso està compost per figures modelades en 3D al costat de quatre
      projeccions digitalitzades en pantalles flotants amb les quals l'usuari
      podrà interactuar segons es vaja acostant, bé mitjançant els comandaments
      de l'ordinador, bé a través d'ulleres de realitat virtual. L'objectiu és
      que quan l'usuari s'acoste a cadascuna de les projeccions tinga la
      sensació d'una immersió quasi completa en fondre's amb el contingut
      audiovisual que li genere una experiència intimista i molt real.

The mT5-sum-ca model

mT5-sum-ca is an abstractive summarization model for Catalan based on the mT5-base model. The model has been finetuned for the summarization task on 636.596 (document, summary) pairs from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA).

The DACSA dataset

The application of supervised methods to automatic summarization requires the availability of adequate corpora consisting of a set of document-summary pairs. As in most Natural Language Processing tasks, the great majority of available datasets for summarization are in English, making it difficult to develop automatic summarization models for other languages. Although Spanish is gradually forming part of some recent summarization corpora, it is not the same for minority languages such as Catalan. In this work, we describe the construction of a corpus of Catalan and Spanish newspapers, the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) corpus. It is a high-quality large-scale corpus that can be used to train summarization models for Catalan and Spanish. We have carried out an analysis of the corpus, both in terms of the style of the summaries and the difficulty of the summarization task. In particular, we have used a set of well-known metrics in the summarization field in order to characterize the corpus. Additionally, for benchmarking purposes, we have evaluated the performances of some extractive and abstractive summarization systems on the DACSA corpus.

The dataset can be requested at the following address: https://xarrador.dsic.upv.es/dacsa

BibTeX entry

@Article{dacsa-dataset,
AUTHOR = {Segarra, Encarna and Ahuir, Vicent and Hurtado, Lluís-F. and González, José Ángel},
TITLE = {DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles},
YEAR = {2022},
}