O proxecto
Introdución
A ferramenta efectúa unha análise métrica (escansión) de poesía en galego, proporcionando:
- O número de sílabas métricas de cada verso
- O patrón acentual formado polas posicións das sílabas métricas acentuadas
- O patrón acentual excluíndo os acentos extrarrítmicos (que quedan fóra do patrón rítmico principal dun verso)
GAMA fai parte do proxecto COMPEL.
Funcionamento
A análise métrica baséase na libraría JUMPER creada por Marco Remón & Gonzalo (2021), que fornece escansión sen silabación previa. JUMPER está especializado no castelán e levamos a cabo algunhas modificacións para utilizar a libraría con textos en galego:
- A lista de ditongos e de palabras lexicamente átonas foi adaptada ao galego. Para isto consultamos traballos como Carballo Calero (1966) e Freixeiro Mato (2006).
- Un módulo de preprocesamento foi desenvolvido, que se aplica ao texto do poema orixinal antes da súa análise métrica. O preprocesamento ocúpase de dúas operacións:
- Primeiro, aproxima a ortografía dos textos á ortografía do galego actual (seguindo a norma ILG/RAG); o preproceso foi probado con textos do século XIX. Este preproceso non é necesario para a análise métrica, mais ten utilidade para calquera análise ulterior, como etiquetaxe gramatical ou de dependencias usando un modelo adestrado para o galego contemporáneo.
- En segundo lugar, exclusivamente para a análise métrica con JUMPER, unha version do texto é creada na cal os acentos gráficos se aproximan ás convencións ortográficas do castelán. Isto axuda a JUMPER na escansión nos casos en que as convencións para o acento gráfico en galego non corresponden ás do castelán. O castelán contemporáneo conta con regras ortográficas moi explícitas para o acento gráfico que permiten coñecer as sílabas léxicas con acento prosódico de forma non ambigua, pero as convencións do galego presentan algo mais de ambigüidade.
Cabe salientar que a libraría JUMPER é moi rápida, ao non estar baseada en etiquetaxe gramatical e ao non facer un preproceso do texto. A maior parte do tempo de cálculo que precisa GAMA débese ao noso propio preprocesamento do texto antes de envialo á análise métrica.
Créditos
A aplicación está a ser desenvolvida por Pauline Moreau e Pablo Ruiz Fabo (IP).
O código está en GitHub
A análise métrica repousa sobre o algoritmo de JUMPER (v. supra).
O vocabulario galego está baseado nunha combinación de termos dos dicionarios de Linguakit (Gamallo et al., 2018) e Apertium (Forcada & Tyers, 2016).
Un modelo para normalización ortográfica contextual foi treinado con textos do corpus do proxecto Nós (Gamallo et al., 2024).
O traballo conta cun financiamiento da Unión Europea (101149659 MSCA-PF 2023)
Como citar
Moreau, P. & Ruiz Fabo, P. (2025). GAMA web: Interface for the metrical analysis of Galician poetry. CiTIUS - Universidade de Santiago de Compostela.
Bibliografía
- Carballo Calero, Ramón (1966). Gramática elemental del gallego común. Vigo: Galaxia.
- Forcada, Mikel L. & Tyers, Francis M. (2016). Apertium: a free/open source platform for machine translation and basic language technology. In Proceedings of the 19th Annual Conference of the European Association for Machine Translation: Projects/Products. Riga, Latvia.
- Freixeiro Mato, Xosé (2006). Gramática da lingua galega I - Fonética e fonoloxía. Vigo: Edicións A Nosa Terra.
- Gamallo, Pablo, Marcos Garcia, César Piñeiro, Rodrigo Martínez-Castaño and Juan C. Pichel (2018). LinguaKit: a Big Data-based multilingual tool for linguistic analysis and information extraction. In Fifth Conference on Social Network Analysis, Management and Security, pp. 239-244. Dispoñíbel en IEEE Xplore
- Gamallo, P., Rodríguez, P., Paniagua, S., Bardanca, D., Pichel, J. R., & Garcia, M. (2024.). Open Generative Large Language Models for Galician. Procesamiento del Lenguaje Natural, 73, pp. 259-270. Dispoñíbel en SEPLN
- Marco Remón, G., & Gonzalo, J. (2021). Escansión automática de poesía española sin silabación. Procesamiento del Lenguaje Natural, 66, pp. 77-87. Dispoñíbel en SEPLN