O proxecto
Introdución
A ferramenta efectúa unha análise métrica (escansión) de poesía en galego, proporcionando:
- O número de sílabas métricas de cada verso
- O patrón acentual formado polas posicións das sílabas métricas acentuadas
- O patrón acentual excluíndo os acentos extrarrítmicos (que quedan fóra do patrón rítmico principal dun verso)
GAMA fai parte do proxecto COMPEL.
Ademais da ferramenta accesíbel aquí, desenvolvemos modelos neuronais para escansión métrica, dispoñíbeis no perfil Hugging Face do proxecto.
Funcionamento
A análise métrica baséase na libraría Jumper creada por Marco Remón & Gonzalo (2021), que fornece escansión sen silabación previa. Jumper está especializado no castelán e levamos a cabo algunhas modificacións para utilizar a libraría con textos en galego:
- A lista de ditongos e de palabras lexicamente átonas foi adaptada ao galego. Para isto consultamos traballos como Carballo Calero (1966) e Freixeiro Mato (2006).
- Un módulo de preprocesamento foi desenvolvido, que se aplica ao texto do poema orixinal antes da súa análise métrica. O preprocesamento ocúpase de dúas operacións:
- Primeiro, aproxima a ortografía dos textos á ortografía do galego actual (seguindo a norma ILG/RAG); o preproceso foi probado con textos do século XIX. Este preproceso non é necesario para a análise métrica, mais ten utilidade para calquera análise ulterior, como etiquetaxe gramatical ou de dependencias usando un modelo adestrado para o galego contemporáneo.
- En segundo lugar, exclusivamente para a análise métrica con Jumper, unha version do texto é creada na cal os acentos gráficos se aproximan ás convencións ortográficas do castelán. Isto axuda a Jumper na escansión nos casos en que as convencións para o acento gráfico en galego non corresponden ás do castelán. O castelán contemporáneo conta con regras ortográficas moi explícitas para o acento gráfico que permiten coñecer as sílabas léxicas con acento prosódico de forma non ambigua, pero as convencións do galego presentan algo mais de ambigüidade.
Cabe salientar que a libraría Jumper é moi rápida, ao non estar baseada en etiquetaxe gramatical e ao non facer un preproceso do texto. A maior parte do tempo de cálculo que precisa GAMA débese ao noso propio preprocesamento do texto antes de envialo á análise métrica.
Créditos
A aplicación está a ser desenvolvida por Pauline Moreau, Anxo Alonso Pérez e Pablo Ruiz Fabo (IP).
O código está en GitHub
A análise métrica repousa sobre o algoritmo de Jumper (v. supra).
O vocabulario galego está baseado nunha combinación de termos dos dicionarios de Linguakit (Gamallo et al., 2018) e Apertium (Forcada & Tyers, 2016).
Un modelo para normalización ortográfica contextual foi treinado con textos do corpus do proxecto Nós (Gamallo et al., 2024).
O traballo conta cun financiamiento da Unión Europea (101149659 MSCA-PF 2023)
Como citar
Moreau, P., Alonso Pérez, A. & Ruiz Fabo, P. (2025). GAMA web: Interface for the metrical analysis of Galician poetry. CiTIUS - Universidade de Santiago de Compostela.
Ruiz Fabo, P., Moreau, P. & Alonso Pérez, A. (2026). Automatic Metrical Scansion of Galician Poetry: First Results. In Proceedings of PROPOR 2026. The 17th International Conference on Computational Processing of Portuguese.
Bibliografía
- Carballo Calero, Ramón (1966). Gramática elemental del gallego común. Vigo: Galaxia.
- Forcada, Mikel L. & Tyers, Francis M. (2016). Apertium: a free/open source platform for machine translation and basic language technology. In Proceedings of the 19th Annual Conference of the European Association for Machine Translation: Projects/Products. Riga, Latvia.
- Freixeiro Mato, Xosé (2006). Gramática da lingua galega I - Fonética e fonoloxía. Vigo: Edicións A Nosa Terra.
- Gamallo, Pablo, Marcos Garcia, César Piñeiro, Rodrigo Martínez-Castaño and Juan C. Pichel (2018). LinguaKit: a Big Data-based multilingual tool for linguistic analysis and information extraction. In Fifth Conference on Social Network Analysis, Management and Security, pp. 239-244. Dispoñíbel en IEEE Xplore
- Gamallo, P., Rodríguez, P., Paniagua, S., Bardanca, D., Pichel, J. R., & Garcia, M. (2024.). Open Generative Large Language Models for Galician. Procesamiento del Lenguaje Natural, 73, pp. 259-270. Dispoñíbel en SEPLN
- Marco Remón, G., & Gonzalo, J. (2021). Escansión automática de poesía española sin silabación. Procesamiento del Lenguaje Natural, 66, pp. 77-87. Dispoñíbel en SEPLN