GAMA

À propos

Introduction

L'outil effectue une analyse métrique de poésie en galicien, et donne comme sortie:

  • Le nombre de syllabes métriques de chaque vers
  • Le schéma accentuel formé par les positions des syllabes métriques accentuées
  • Le schéma accentuel excluant les accents extrarythmiques (qui se trouvent en dehors du schéma rythmique principal d'un vers)

GAMA fait partie du projet COMPEL.

Fonctionnement

L'analyse métrique s'appuie sur la bibliothèque JUMPER créée par Marco Remón & Gonzalo (2021), qui fournit une scansion sans syllabation préalable. JUMPER est spécialisé dans l'espagnol et nous avons apporté quelques modifications pour utiliser la bibliothèque avec des textes en galicien :

  • La liste des diphtongues et des mots lexicalement non accentués a été adaptée au galicien. Pour cela, nous avons consulté des travaux tels que Carballo Calero (1966) et Freixeiro Mato (2006).
  • Un module de prétraitement a été développé, qui s'applique au texte original du poème avant son analyse métrique. Le prétraitement se charge de deux opérations :
    • Premièrement, il rapproche l'orthographe des textes de l'orthographe actuelle du galicien (selon la norme ILG/RAG) ; le prétraitement a été testé sur des textes du XIXᵉ siècle. Ce pré-traitement n'est pas requis pour l'analyse métrique mais pourrait être utile pour toute analyse ultérieure, comme l'étiquetage grammatical ou en dépendances utilisant un modèle entraîné pour le galicien contemporain.
    • Deuxièmement, exclusivement pour l'analyse métrique avec JUMPER, une version du texte est créée dans laquelle les accents graphiques sont rapprochés des conventions orthographiques de l'espagnol. Cela aide JUMPER dans la scansion dans les cas où les conventions d'accentuation graphique en galicien ne correspondent pas à celles de l'espagnol. L'espagnol contemporain dispose de règles orthographiques très explicites pour l'accentuation graphique, permettant d'identifier sans ambiguïté les syllabes lexicales avec accent prosodique, tandis que les conventions galiciennes présentent un peu plus d'ambiguïté.

Il est à noter que la librairie JUMPER est très rapide, ne demandant pas un étiquetage grammatical ni un pré-traitement lourd du texte. La plupart du temps de traitement demandé par GAMA se soit à notre propre pré-traitement avant d'envoyer le texte à l'analyse métrique.

Crédits

L'application est en cours de développement par Pauline Moreau e Pablo Ruiz Fabo (IP).

Le code est sur GitHub

L'analyse métrique repose sur l'algorithme de JUMPER (v. supra).

Le vocabulaire pour le galicien est basé sur une combinaison de termres des dictionnaires de Linguakit (Gamallo et al., 2018) et Apertium (Forcada & Tyers, 2016).

Un modèle de normalisation orthographique contextuelle a été entraîné avec des textes du corpus du projet Nós (Gamallo et al., 2024).

Le travail a été soutenu par l'Union européenne (101149659 MSCA-PF 2023)

Citation

Moreau, P. & Ruiz Fabo, P. (2025). GAMA web: Interface for the metrical analysis of Galician poetry. CiTIUS - Universidade de Santiago de Compostela.

Références

  • Carballo Calero, Ramón (1966). Gramática elemental del gallego común. Vigo: Galaxia.
  • Forcada, Mikel L. & Tyers, Francis M. (2016). Apertium: a free/open source platform for machine translation and basic language technology. In Proceedings of the 19th Annual Conference of the European Association for Machine Translation: Projects/Products. Riga, Latvia.
  • Freixeiro Mato, Xosé (2006). Gramática da lingua galega I - Fonética e fonoloxía. Vigo: Edicións A Nosa Terra.
  • Gamallo, Pablo, Marcos Garcia, César Piñeiro, Rodrigo Martínez-Castaño and Juan C. Pichel (2018). LinguaKit: a Big Data-based multilingual tool for linguistic analysis and information extraction. In Fifth Conference on Social Network Analysis, Management and Security, pp. 239-244. Disponible sur IEEE Xplore
  • Gamallo, P., Rodríguez, P., Paniagua, S., Bardanca, D., Pichel, J. R., & Garcia, M. (2024.). Open Generative Large Language Models for Galician. Procesamiento del Lenguaje Natural, 73, pp. 259-270. Disponible sur SEPLN
  • Marco Remón, G., & Gonzalo, J. (2021). Escansión automática de poesía española sin silabación. Procesamiento del Lenguaje Natural, 66, pp. 77-87. Disponible sur SEPLN

L'application a été développée avec Django et Bootstrap

Hébergement: strato